UD Korean Kaist
Language: Korean (code: ko
)
Family: Korean
This treebank has been part of Universal Dependencies since the UD v2.2 release.
The following people have contributed to making this treebank part of UD: Jinho Choi, Na-Rae Han, Jena Hwang, Jayeol Chun.
Repository: UD_Korean-Kaist
Search this treebank on-line: PML-TQ
Download all treebanks: UD 2.15
License: CC BY-SA 4.0
Genre: news, fiction, academic
Questions, comments? General annotation questions (either Korean-specific or cross-linguistic) can be raised in the main UD issue tracker. You can report bugs in this treebank in the treebank-specific issue tracker on Github. If you want to collaborate, please contact [jinho • choi (æt) emory • edu]. Development of the treebank happens directly in the UD repository, so you may submit bug fixes as pull requests against the dev branch.
Annotation | Source |
---|---|
Lemmas | annotated manually in non-UD style, automatically converted to UD |
UPOS | annotated manually in non-UD style, automatically converted to UD |
XPOS | annotated manually in non-UD style, automatically converted to UD |
Features | not available |
Relations | annotated manually in non-UD style, automatically converted to UD |
Description
The KAIST Korean Universal Dependency Treebank is generated by Chun et al., 2018 from the constituency trees in the KAIST Tree-Tagging Corpus.
Acknowledgments
This is a collaborative work by (in alphabetic order):
- Jinho Choi, Emory University
- Jayeol Chun, Emory University
- Na-Rae Han, University of Pittsburgh
- Jena D. Hwang, Institute for Human & Machine Cognition.
The project repository: https://github.com/emorynlp/ud-korean
Statistics of UD Korean Kaist
POS Tags
ADJ – ADP – ADV – AUX – CCONJ – DET – INTJ – NOUN – NUM – PART – PRON – PROPN – PUNCT – SCONJ – SYM – VERB – X
Features
Relations
acl – advcl – advmod – amod – appos – aux – case – cc – ccomp – clf – compound – conj – cop – csubj – dep – det – discourse – dislocated – fixed – flat – iobj – mark – nmod – nsubj – nummod – obj – obl – parataxis – punct – root – vocative – xcomp
Tokenization and Word Segmentation
- This corpus contains 27363 sentences and 350090 tokens.
- This corpus contains 38923 tokens (11%) that are not followed by a space.
- This corpus does not contain words with spaces.
- This corpus contains 51 types of words that contain both letters and punctuation. Examples: L.A, 조선의_맥박, A.D, B.C., 조선의_맥박은, A.J에이어, Adam_Smith에, B.C, Bryan-Chamorro, Jeremy_Bentham과, John_Low, John_Stuat_Mill을, RTL_plus가, RTL_plus는, RTL_plus와, UFA_filn과, Water_Fruit, Willaiam_Collins는, 子의_악아리와, 者의_死, 고려_포리머, 나는_이_나라_사람의_자손이외다, 농심_너구리, 님의_침묵에, 때문에,, 리서치_파크_트라이앵글과, 먼_후일, 미셸_푸코나, 바이론_평전이다, 밤의_군대, 브리안-차모로, 비엘르이_돔, 산넘고_물건너, 산넘고_물건너와, 셍뜨-뵈브에서부터, 소화,, 슬픈_象, 슬픈_車는, 썩은_송장, 아기의_버릇을, 아놀드_슈왈츠네거는, 앨빈_토플러의, 에호_모스크바, 영원한_비밀, 예전엔_미처_몰랐어요, 왜신비평인가?에서, 장-프랑수아_료타르, 조선의_맥박이, 카레_프란스, 타고르의_海에서
Morphology
Tags
- This corpus uses 17 UPOS tags out of 17 possible: ADJ, ADP, ADV, AUX, CCONJ, DET, INTJ, NOUN, NUM, PART, PRON, PROPN, PUNCT, SCONJ, SYM, VERB, X
- This corpus contains 167 word types tagged as particles (PART): 고엔트로피의, 구지배계급의, 는, 대, 대과학자다, 대규모의, 대바겐세일들의, 대에, 대역사였다, 대온천탕, 대출정에, 대폭등을, 되어갔다, 들, 들만으로는, 들만이, 들에게, 들에게는, 들은, 들을, 들이, 들이다, 들이었다, 라는, 무관심의, 무관심했다, 무원칙적인, 무의미하게, 무의미하고, 무의미하다고, 무의미하다는, 무의미한, 무자비한, 미성숙, 반게릴라작전을, 반소모사, 반소모사동맹이라는, 반소모사연합, 반소모사연합을, 반지배동맹을, 범정부차원에서, 범지구적, 범지구적인, 부동산, 부정기, 부정기적이다, 불가능성은, 불가능하나, 불가능하다, 불가능한, 불가능했다, 불균등하다는, 불안정, 불안정을, 불안정하여, 불완전하지, 불투명하기, 불투명한, 불특정, 불평등한, 불합리한, 비개인적, 비공개적인, 비공식적, 비공식적으로, 비공식적인, 비과학을, 비과학의, 비과학적, 비과학적이다, 비과학적인, 비내구소비재, 비보도를, 비상업적인, 비생산적, 비생산적인, 비서방, 비소비지출로, 비실체적인, 비은행기관이, 비은행부채에, 비은행저축, 비은행저축이나, 비제도권, 비체계적인, 비평형성에, 비포장도로를, 비합리주의를, 비합법적인, 비현실적, 비호의적인, 새정부는, 생것, 수년, 수차례, 시키고, 씨에, 씩, 씩이나, 역기능적, 유의미의, 유의미하다, 유의미하다고, 유의미한, 재구성하거나, 재구성하는, 재구조시켜, 재매매하여, 재발견하는, 재사, 재삼, 재확인함에, 적, 전구소련사회에, 전국토면적의, 전명예회장의, 전주미, 제1, 제14대, 제157조는, 제1단계에서, 제1야당이, 제1의, 제1조가, 제1지구, 제1차, 제1호가, 제2, 제2단계에, 제2의, 제2지구, 제2차, 제3, 제37, 제3단계의, 제3대, 제3세계, 제3세계라고, 제3세계의, 제3연에, 제3의, 제3자에, 제3지구, 제42, 제44, 제4조에서, 제4지구는, 제4차, 제5의, 제5지구는, 제6, 제6공화국이, 제8차, 쯤으로, 첫인상이, 초극단적, 초긴장, 초생물체다, 초자연적, 피부양인구비의, 하는, 하러, 하시고, 한, 현정치권이, 현체코, 화
- This corpus contains 391 lemmas tagged as pronouns (PRON): 거+이, 거기, 거기+ㄴ, 거기+가, 거기+서+의, 거기+에+는, 거기+에서+는, 건설부+는, 건자재+는, 것+이, 경제팀+이, 계림+은, 국립공원법+은, 귀하+가, 귀하+는, 귀하+의, 그, 그+가, 그+간+의, 그+곳+을, 그+는, 그+들+과+는, 그+들+과+의, 그+들+만+이, 그+들+에게+는, 그+들+은, 그+들+을, 그+들+의, 그+들+이, 그+때+까지+는, 그+때+의, 그+로+부터+의, 그+로서+는, 그+를, 그+밖+의, 그+보다+는, 그+에게+는, 그+와+는, 그+의, 그거+ㄴ, 그거+ㄹ, 그거+은, 그거+이, 그것, 그것+ㄴ, 그것+과+는, 그것+과+의, 그것+들+은, 그것+들+을, 그것+들+의, 그것+들+이, 그것+만+이, 그것+보다+는, 그것+에+는, 그것+으로+는, 그것+으로서+가, 그것+은, 그것+을, 그것+의, 그것+이, 그곳+을, 그곳+의, 그곳+이, 그날, 그날+은, 그날+을, 그날+의, 그녀, 그녀+가, 그녀+는, 그녀+들+은, 그녀+를, 그녀+와+의, 그녀+의, 그놈, 그놈+들+이, 그대, 그대+가, 그대+는, 그대+들+이, 그대+를, 그때, 그때+는, 그때+의, 그분+께서+는, 그분+은, 그분+을, 그분+의, 그이, 그자+를, 그해, 금융인+은, 기술력+은, 나, 나+ㄴ, 나+ㄹ, 나+는, 나+로서+는, 나+를, 나+만+이, 나+만은, 나+에게+는, 나+와+는, 나+와+의, 나+의, 날자+가, 남+들+을, 남+들+의, 남+들+이, 남+을, 남+의, 남+이, 내, 내+가, 내+것+이, 내+게+ㄴ, 내+게+는, 내+눈+을, 내+는, 내+에+는, 내+의, 너+ㄴ, 너+는, 너+를, 너+의, 너희, 너희+는, 너희+들+은, 너희+들+의, 너희+들+이, 네, 네+가, 누+가, 누가, 누구, 누구+가, 누구+를, 누구+의, 누구+이+ㄴ가+가, 누구+이+ㄴ가+는, 누구+이+ㄴ가+만+이, 누구+이+ㄴ지+를, 뉘, 당신, 당신+들+은, 당신+들+을, 당신+들+의, 당신+들+이, 당신+만+을, 당신+얼굴+을, 당신+에게+는, 당신+은, 당신+을, 당신+의, 당신+이, 동녀+는, 떼바구+가, 모두, 무슨, 무어+ㄹ, 무어+이+ㄴ가+를, 무어+이+ㄴ지+를, 무엇, 무엇+을, 무엇+이, 무엇+이+ㄴ가+가, 무엇+이+ㄴ가+를, 무엇+이+ㄴ가+의, 무엇+이+ㄴ지+는, 무엇+이+ㄴ지+를, 무엇+이+인가+를, 무엇무엇+을, 뭐, 뭐+가, 뭐+이+ㄴ가+를, 뭔가+를, 버버리+는, 보안원+은, 부르조아+법+이, 북방팀+은, 분+들+이, 상앙+은, 설현당+은, 세게경제+는, 세계성+은, 소인, 소인+은, 쇼스포츠+는, 스스로, 스스로+를, 신기업체수+는, 아리산+은, 아무, 아직+은, 어느, 어디, 어디+가, 어디+를, 언제, 언제+이+ㄴ가+는, 언젠가, 얼마, 얼마+간+의, 얼마+만큼+이, 여기, 여기+가, 여기+까지+는, 여기+는, 여기+서, 여기+서+ㄴ, 여기+서+는, 여기+서+의, 여기+에+는, 여기+에+의, 여기+에서+ㄴ, 여기+에서+는, 여기+에서+의, 여기서+는, 여기저기, 여기저기+의, 여러분, 여러분+께서, 여러분+께서+ㄴ, 여러분+들+께서+는, 여러분+들+은, 여러분+들+의, 여러분+들+이, 여러분+은, 여러분+을, 여러분+의, 여러분+이, 우리, 우리+가, 우리+가계+는, 우리+가계+의, 우리+경제+는, 우리+나라+가, 우리+나라+가계+는, 우리+나라+는, 우리+나라+를, 우리+나라+에+는, 우리+나라+에서+는, 우리+나라+와+는, 우리+나라+의, 우리+는, 우리+들+에게+는, 우리+들+은, 우리+들+을, 우리+들+의, 우리+들+이, 우리+로+부터+의, 우리+로서+는, 우리+를, 우리+민족+의, 우리+사회+가, 우리+사회+는, 우리+사회+에+는, 우리+사회+의, 우리+시단+의, 우리+시대+의, 우리+에게+는, 우리+와+는, 우리+의, 우리+측+은, 우리네, 원응국사+가, 위궤양+은, 이, 이+가, 이+간+의, 이+곳+은, 이+날+이, 이+는, 이+들+간+에+는, 이+들+에게+는, 이+들+은, 이+들+을, 이+들+의, 이+들+이, 이+로+는, 이+를, 이+에+는, 이+에게+ㄴ, 이+와+는, 이+외+에+는, 이+을, 이+의, 이+쪽+의, 이+쪽+이, 이거, 이거+ㄴ, 이거+는, 이거+이, 이것, 이것+ㄴ, 이것+과+는, 이것+들+은, 이것+들+을, 이것+들+의, 이것+들+이, 이것+으로+는, 이것+은, 이것+을, 이것+의, 이것+이, 이것저것, 이곳, 이곳+에+는, 이곳+에서+는, 이곳+은, 이곳+을, 이곳+의, 이곳+이, 이곳+저곳, 이녀석+은, 이때, 이때+가, 이때+는, 이때+에+는, 이때+의, 이번, 이번+에+는, 이분+은, 자가끼리+의, 자기, 자기+가, 자기+견해+를, 자기+계발+을, 자기+고발+이, 자기+는, 자기+들+만+이, 자기+들+은, 자기+들+을, 자기+들+의, 자기+들+이, 자기+를, 자기+보존+의, 자기+소외+가, 자기+와+의, 자기+운명+의, 자기+의, 자기+자신+을, 자기+자신+의, 자기+주장+을, 자기+중심+의, 자기+지방+의, 자기+통제+는, 자기+한테+는, 자기네+들+이, 자기네+의, 자네, 자네+가, 자네+는, 자네+들+은, 자네+들+의, 자신+들+의, 자신+들+이, 자신+은, 자신+을, 자신+의, 자신+이, 저, 저+는, 저+대로+의, 저+들+은, 저+들+을, 저+들+의, 저+들+이, 저+를, 저+마다+의, 저+의, 저거+ㄴ, 저것, 저것+은, 저기+를, 저분, 저쪽, 저희, 저희+가, 저희+들+의, 제, 제+가, 제+게+는, 제+모습+을, 제군+들+은, 제조업체+의, 퇴각로+가, 튤립+이, 파토스+는, 편+들+의, 히코네지역+은
- This corpus contains 32 lemmas tagged as determiners (DET): 帝所中心的, 각, 그, 그런, 다른, 또다른, 맨, 모, 모든, 무슨, 본, 아무, 아무런, 어느, 어떤, 연, 올, 요, 유러비전, 이, 이곳, 이날, 이런, 이젠, 일견, 저, 전, 전제정, 제, 제반, 한, 한영
- Out of the above, 8 lemmas occurred sometimes as PRON and sometimes as DET: 그, 무슨, 아무, 어느, 이, 이곳, 저, 제
- This corpus contains 5 lemmas tagged as auxiliaries (AUX): 싶, 않, 이, 있, 하
- This corpus does not use the VerbForm feature.
Nominal Features
Degree and Polarity
Verbal Features
Pronouns, Determiners, Quantifiers
Other Features
Syntax
Auxiliary Verbs and Copula
- This corpus uses 1 lemmas as copulas (cop). Examples: 이.
- This corpus uses 4 lemmas as auxiliaries (aux). Examples: 있, 않, 하, 싶.
Core Arguments, Oblique Arguments and Adjuncts
Here we consider only relations between verbs (parent) and nouns or pronouns (child).
- nsubj
- VERB--NOUN (8393)
- VERB--NOUN-ADP(가) (23)
- VERB--NOUN-ADP(과) (2)
- VERB--NOUN-ADP(들+이) (1)
- VERB--NOUN-ADP(와) (2)
- VERB--NOUN-ADP(이) (23)
- VERB--NOUN-ADP(이나) (2)
- VERB--PRON (973)
- VERB--PRON-ADP(가) (1)
- obj
- VERB--NOUN (14169)
- VERB--NOUN-ADP(과) (2)
- VERB--NOUN-ADP(나) (1)
- VERB--NOUN-ADP(들) (1)
- VERB--NOUN-ADP(를) (29)
- VERB--NOUN-ADP(만+을) (1)
- VERB--NOUN-ADP(와) (2)
- VERB--NOUN-ADP(을) (56)
- VERB--PRON (565)
- VERB--PRON-ADP(를) (3)
- VERB--PRON-ADP(을) (1)
- iobj
- VERB--NOUN (2)
- VERB--NOUN-ADP(들+에게) (1)
- VERB--NOUN-ADP(에게) (1)
Relations Overview
- This corpus does not use relation subtypes.
- The following 5 relation types are not used in this corpus at all: expl, list, orphan, goeswith, reparandum