UD Korean PUD
Language: Korean (code: ko
)
Family: Korean
This treebank has been part of Universal Dependencies since the UD v2.2 release.
The following people have contributed to making this treebank part of UD: Hans Uszkoreit, Vivien Macketanz, Aljoscha Burchardt, Kim Harris, Katrin Marheinecke, Slav Petrov, Tolga Kayadelen, Mohammed Attia, Ali Elkahky, Zhuoran Yu, Emily Pitler, Saran Lertpradit, Sookyoung Kwak, Yongseok Cho, Martin Popel, Daniel Zeman.
Repository: UD_Korean-PUD
Search this treebank on-line: PML-TQ
Download all treebanks: UD 2.15
License: CC BY-SA 3.0
Genre: news, wiki
Questions, comments? General annotation questions (either Korean-specific or cross-linguistic) can be raised in the main UD issue tracker. You can report bugs in this treebank in the treebank-specific issue tracker on Github. If you want to collaborate, please contact [zeman (æt) ufal • mff • cuni • cz]. The UD version of this treebank currently does not have a maintainer. If you know the language and want to help, please consider adopting the treebank.
Annotation | Source |
---|---|
Lemmas | not available |
UPOS | annotated manually in non-UD style, automatically converted to UD |
XPOS | not available |
Features | annotated manually in non-UD style, automatically converted to UD |
Relations | annotated manually in non-UD style, automatically converted to UD |
Description
This is a part of the Parallel Universal Dependencies (PUD) treebanks created for the CoNLL 2017 shared task on Multilingual Parsing from Raw Text to Universal Dependencies.
There are 1000 sentences in each language, always in the same order. (The sentence alignment is 1-1 but occasionally a sentence-level segment actually consists of two real sentences.) The sentences are taken from the news domain (sentence id starts in ‘n’) and from Wikipedia (sentence id starts with ‘w’). There are usually only a few sentences from each document, selected randomly, not necessarily adjacent. The digits on the second and third position in the sentence ids encode the original language of the sentence. The first 750 sentences are originally English (01). The remaining 250 sentences are originally German (02), French (03), Italian (04) or Spanish (05) and they were translated to other languages via English. Translation into German, French, Italian, Spanish, Arabic, Hindi, Chinese, Indonesian, Japanese, Korean, Portuguese, Russian, Thai and Turkish has been provided by DFKI and performed (except for German) by professional translators. Then the data has been annotated morphologically and syntactically by Google according to Google universal annotation guidelines; finally, it has been converted by members of the UD community to UD v2 guidelines.
Additional languages have been provided (both translation and native UD v2 annotation) by other teams: Czech by Charles University, Finnish by University of Turku and Swedish by Uppsala University.
The entire treebank is labeled as test set (and was used for testing in the shared task). If it is used for training in future research, the users should employ ten-fold cross-validation.
Acknowledgments
Statistics of UD Korean PUD
POS Tags
ADJ – ADV – AUX – CCONJ – DET – NOUN – NUM – PART – PRON – PROPN – PUNCT – VERB – X
Features
Case – Form – Mood – Number – NumType – Person – Polarity – Polite – PronType – Tense – Typo – VerbForm – Voice
Relations
acl:relcl – advcl – advmod – amod – appos – aux – case – cc – ccomp – compound – compound:lvc – conj – cop – csubj – csubj:pass – dep – det – discourse – fixed – flat – flat:name – goeswith – iobj – nmod:poss – nsubj – nsubj:pass – nummod – obj – obl – obl:tmod – orphan – punct – root – vocative
Tokenization and Word Segmentation
- This corpus contains 1000 sentences and 16584 tokens.
- This corpus contains 4238 tokens (26%) that are not followed by a space.
- This corpus does not contain words with spaces.
- This corpus contains 13 types of words that contain both letters and punctuation. Examples: %를, %가, B.C., %에, %의, 's, '수, G.D.P., Thought', Z., Zettel’s, n't, 이다.
Morphology
Tags
- This corpus uses 13 UPOS tags out of 17 possible: ADJ, ADV, AUX, CCONJ, DET, NOUN, NUM, PART, PRON, PROPN, PUNCT, VERB, X
- This corpus does not use the following tags: ADP, SCONJ, INTJ, SYM
- This corpus contains 94 word types tagged as particles (PART): 가, 가르치기보다, 거둠으로써, 고, 과, 까지, 나뉘어졌는가를, 나는군요, 나왔나요, 내리겠다고, 높아진다고, 는, 다녔다고, 대해서는, 도, 돌지만, 돕는다고, 되기를, 되기에, 된다고, 됨으로써, 됨은, 들, 떠나겠다고, 띤다고, 라고, 로, 를, 마다, 만, 만든다고, 만들었다고, 만들지는, 말고를, 물었다고, 믿지는, 바라요, 밖에, 벌어졌다고, 보기로, 보냄으로써, 보다, 보였다고, 보지도, 뿐, 사라지지는, 세움으로써, 솟구침이, 쉰다고, 싸웠다고, 쓰기도, 쓰기로, 쓰라고, 아는지와, 않겠다고, 않기로, 알면서도, 애먹지도, 얻었다고, 없앤다고, 에, 에게, 에서, 열기로, 와, 요, 위해서는, 으로, 은, 을, 의, 이, 이라고, 일어나지는, 임하면서도, 입는데도, 있음을, 좋겠어요, 좋아하지, 좋아했어요, 주기를, 주어서는, 즐겼다고, 찾아갔어요, 처럼, 친다고, 커졌다고, 통해서도, 틀렸다고, 한다고, 할지에, 했는지도, 했을지도, 화도
- This corpus contains 28 lemmas tagged as pronouns (PRON): _, 거기, 그, 그것, 그곳, 그녀, 그들, 나, 내, 누구, 당신, 무엇, 어디, 언제, 여기, 여러분, 우리, 이, 이것, 이것들, 이곳, 이곳들, 이들, 자기, 자신, 자신들, 저, 제
- This corpus contains 3 lemmas tagged as determiners (DET): _, 있는가, 총
- Out of the above, 1 lemmas occurred sometimes as PRON and sometimes as DET: _
- This corpus contains 6 lemmas tagged as auxiliaries (AUX): _, 싶, 않, 이, 있, 하
- Out of the above, 1 lemmas occurred sometimes as AUX and sometimes as VERB: _
- There are 2 (de)verbal forms:
- Fin
- ADJ: 있다, 있었다, 아니다, 있다고, 없었다, 없다, 같다, 아니었다, 아닐지도, 않다
- AUX: 이다, 이었다, 이라, 였다, 있다, 라, 가, 않았다, 한다, 못했다
- DET: 있는가, 아닌가, 어떠한가, 어떤가, 있겠는가, 있는가를
- PART: 된다고, 나뉘어졌는가를, 나는군요, 나왔나요, 내리겠다고, 높아진다고, 다녔다고, 돕는다고, 떠나겠다고, 띤다고
- VERB: 되었다, 있다, 한다, 했다, 받았다, 된다, 밝혔다, 않았다, 일어났다, 못했다
- Ger
- ADJ: 그렇기, 높기, 그럼에, 아니기, 엄청나기, 없기, 없었기, 있기, 놀랍기는, 심각함은
- AUX: 이기, 있었기, 내기, 않기, 였음, 있기, 였기, 이었기, 이었음, 있음을
- PART: 쓰기도, 않기로, 있음을, 가르치기보다, 거둠으로써, 되기를, 되기에, 됨으로써, 됨은, 보기로
- VERB: 만들기, 벗어나기, 있기, 하기, 가기, 가하기, 갖기, 거두기, 그리기, 나왔기
Nominal Features
- Plur
- NOUN: 사람들이, 사람들에게, 사람들의, 투자자들이, 사람들은, 원주민들이, 의원들에게, 강대국들은, 개입들, 건물들
- PRON: 그들은, 그들의, 그들이, 이들, 이들은, 이들의, 이들이, 자신들의, 그들과, 너희들
- PROPN: 로마인들은, 아메리카인들, 가나안인들의, 그리스인들은, 멕시코인들에게, 미국인들의, 세파르디인들을, 유대인들의, 유럽인들은, 유럽인들이
- Acc
- ADJ-Fin: 쌀쌀한지를
- ADJ-Ger: 있기를
- AUX-Ger: 있음을
- DET-Fin: 있는가를
- NOUN: 것을, 영향을, 모습을, 일을, 걸, 역할을, %를, 강을, 승리를, 시간을
- NUM: 하나를
- PART: 를, 을, 있음을, 나뉘어졌는가를, 되기를, 말고를, 주기를
- PART-Fin: 나뉘어졌는가를, 말고를
- PART-Ger: 있음을, 되기를, 주기를
- PRON: 이를, 그것을, 그를, 우리를, 그녀를, 그곳을, 나를, 이들을
- PROPN: 남극을, 모라비아를, 영국을, 지중해를, 테르모필레를, Medal를, 광저우를, 그리스를, 대서양을, 독일을
- Gen
- NOUN: 지역의, 명의, 개의, 다수의, 사이의, 시대의, 최고의, 최초의, 국가의, 사람들의
- PART: 의
- PRON: 자신의, 그의, 그녀의, 그들의, 이들의, 내, 자신들의, 나의, 여러분의, 우리의
- PROPN: 중국의, 영국의, 마케도니아의, 유럽의, 태국의, 히치콕의, 더피의, 도스의, 러시아의, 로마의
- Nom
- ADJ-Fin: 있을지는
- ADJ-Ger: 놀랍기는, 심각함은
- NOUN: 것이, 것은, 정부는, 명이, 사람들이, 사람이, 경찰은, 이유는, 가능성이, 게
- NUM: 하나는, 1은
- PART: 는, 가, 은, 이, 됨은, 솟구침이
- PART-Ger: 됨은, 솟구침이
- PRON: 그는, 그녀는, 나는, 그것은, 그들은, 이는, 그녀가, 자신이, 그가, 이것은
- PROPN: 미시마는, 블런트는, 스탈린은, 심괄은, 윈스턴은, 프랑스는, 가이어는, 그리스는, 디즈니는, 라이트는
Degree and Polarity
- Neg
- ADV: 안, 못
Verbal Features
- Imp
- AUX-Fin: 달라고, 말라고
- PART-Fin: 쓰라고
- VERB-Fin: 떨어뜨려라, 합시다
- Ind
- ADJ-Fin: 있다, 있었다, 아니다, 있다고, 없었다, 없다, 같다, 아니었다, 않다, 있습니다
- AUX-Fin: 이다, 이었다, 이라, 였다, 있다, 라, 않았다, 한다, 못했다, 했다
- PART-Fin: 된다고, 내리겠다고, 높아진다고, 다녔다고, 돕는다고, 떠나겠다고, 띤다고, 만든다고, 만들었다고, 물었다고
- VERB-Fin: 되었다, 있다, 한다, 했다, 받았다, 된다, 밝혔다, 않았다, 일어났다, 못했다
- Fut
- ADJ: 있을
- AUX: 않을, 있을
- PART-Fin: 내리겠다고, 떠나겠다고, 않겠다고
- VERB: 될, 일어날, 나갈, 날, 내릴, 늦추어질, 다가올, 돌아올, 드러낼, 만들
- Past
- ADJ: 있었다, 없었다, 아니었다, 없었던, 있던, 있었던, 있었으며, 갑갑했던, 같았다, 많았다
- ADJ-Fin: 있었다, 없었다, 아니었다, 같았다, 많았다, 분분했다, 비슷했다, 없었다고, 있었다고, 컸다
- ADJ-Ger: 있었기
- AUX: 이었다, 였다, 않았다, 못했다, 있던, 했다, 이었던, 냈다, 놓은, 버린
- AUX-Fin: 이었다, 였다, 않았다, 못했다, 했다, 냈다, 않았어요, 놓았다, 버렸다, 였는지
- AUX-Ger: 였기, 이었기, 이었음
- PART: 나뉘어졌는가를, 나는군요, 나왔나요, 만들었다고, 물었다고, 벌어졌다고, 보였다고, 싸웠다고, 얻었다고, 좋아했어요
- PART-Fin: 나뉘어졌는가를, 나는군요, 나왔나요, 만들었다고, 물었다고, 벌어졌다고, 보였다고, 싸웠다고, 얻었다고, 좋아했어요
- VERB: 되었다, 된, 했다, 받았다, 한, 밝혔다, 않았다, 일어난, 일어났다, 가진
- VERB-Fin: 되었다, 했다, 받았다, 밝혔다, 않았다, 일어났다, 못했다, 밝혀졌다, 보냈다, 하였다
- VERB-Ger: 거뒀기, 있었기
- Cau
- PART-Fin: 보였다고, 없앤다고
- VERB: 남겨, 남긴, 덧붙였다, 보였다, 세웠다, 태우고, 끝냈으며, 날리게, 낮추거나, 낮추는
- VERB-Fin: 덧붙였다, 보였다, 세웠다, 보인다, 세워졌다
- Pass
- PART-Fin: 나뉘어졌는가를
- VERB: 열린, 보인다, 낮아지게, 놓여, 되었고, 만들어졌다, 보였던, 걸러졌고, 걸린, 꾸며져
- VERB-Fin: 보인다, 만들어졌다, 담겼다, 던져졌다, 됐다, 바뀌었다, 실렸다, 쓰였다, 어려워진다, 여겨진다
- VERB-Ger: 되기
Pronouns, Determiners, Quantifiers
- Int
- AUX-Fin: 가, 인가, 일까
- DET-Fin: 있는가, 아닌가, 어떠한가, 어떤가, 있겠는가, 있는가를
- PART-Fin: 나뉘어졌는가를, 나왔나요
- VERB-Fin: 되었나
- Card
- NUM: 1, 10, 3, 2, 4, 6, 20, 8, 5, 9
- 1
- PRON: 나는, 내가, 우리는, 우리, 우리가, 우리를, 나도, 내, 우리에게, 저는
- 2
- PRON: 여러분, 너희들, 당신이, 여러분의
- 3
- PRON: 그는, 그의, 그녀는, 그들은, 그녀가, 그녀의, 그가, 그들의, 그들이, 그녀에게
- Form
- ADJ-Fin: 같아요, 쌀쌀한지를, 있을지는
- ADJ-Ger: 그럼에, 놀랍기는, 심각함은, 아름다움에, 있기를
- ADV: 불과했어요
- AUX-Fin: 않았어요, 이세요, 있는지에
- AUX-Ger: 있음을
- DET: 총으로, 있는가를
- DET-Fin: 있는가를
- NOUN: 때문에, 것으로, 것이, 월에, 것을, 년에, 사이에, 것은, 방식으로, 정도로
- NUM: 하나는, 하나와, 1은, 50에, 만에, 백만에서, 하나를, 하나에는
- PART: 에, 의, 는, 와, 에서, 가, 과, 이, 은, 로
- PART-Fin: 나뉘어졌는가를, 나는군요, 나왔나요, 말고를, 바라요, 아는지와, 좋겠어요, 좋아했어요, 찾아갔어요, 할지에
- PART-Ger: 않기로, 있음을, 가르치기보다, 거둠으로써, 되기를, 되기에, 됨으로써, 됨은, 보기로, 보냄으로써
- PRON: 그는, 자신의, 그의, 그녀는, 나는, 그것은, 그들은, 이는, 그녀가, 그녀의
- PROPN: 중국의, 미국에, 영국에서, 영국의, 마케도니아의, 글래스고에서, 독일과, 스위스에서, 아프리카에서, 알래스카에
- VERB: 눈
Other Features
- Form
- Adn
- ADJ: 있는, 같은, 새로운, 큰, 많은, 이러한, 없는, 높은, 작은, 다른
- AUX: 인, 있는, 일, 이라는, 이란, 않은, 가는, 있던, 내는, 낼
- VERB: 대한, 위한, 라는, 될, 된, 볼, 있는, 한, 할, 관한
- Aux
- ADJ: 그렇지, 같지, 기쁘게, 달갑지, 독실하지, 따스하게, 싶지, 있어야, 흔치
- AUX: 이지, 싶어, 하지, 놓고, 못하게, 못하고, 않게, 이어야, 이진, 치우고
- NOUN: 결혼하고
- PART: 돌지만, 만들지는, 믿지는, 보지도, 사라지지는, 애먹지도, 일어나지는, 좋아하지
- VERB: 되어, 만들어, 하고, 갖고, 하지, 남아, 받고, 알려져, 기울이지, 나와야
- Compl
- ADJ: 아니라, 있게, 있도록, 있으며, 그렇다면, 다르게, 어떻게, 크게, 빠르게, 아니면
- AUX: 이며, 이고, 이지만, 있고, 있으며, 인데, 있는데, 하는데, 않아, 인지
- PART: 대해서는, 알면서도, 위해서는, 임하면서도, 입는데도, 주어서는, 통해서도, 했을지도
- VERB: 대해, 위해, 통해, 따르면, 따라, 되면, 불구하고, 보면, 갖게, 대해선
- Adn
- Typo
- Yes
- ADJ: 그만, 상관, 형편
- ADJ-Fin: 상관, 형편
- ADV: 한
- DET: 서른
- NOUN: 그, 이, 지난, 한, 년, 명, 반투, 생, 수, 요일
- PROPN: 북, 북서, 남, 동, 홍콩
- VERB: 주고, 눈, 둘러, 들고, 따라, 물어, 살아, 차려
- VERB-Fin: 둘러, 물어
- Yes
Syntax
Auxiliary Verbs and Copula
- This corpus uses 2 lemmas as copulas (cop). Examples: 이, _.
- This corpus uses 5 lemmas as auxiliaries (aux). Examples: _, 있, 않, 하, 싶.
Core Arguments, Oblique Arguments and Adjuncts
Here we consider only relations between verbs (parent) and nouns or pronouns (child).
- nsubj
- VERB--NOUN (23)
- VERB--NOUN-ADP(가) (2)
- VERB--NOUN-ADP(은) (1)
- VERB--NOUN-ADP(이) (2)
- VERB--NOUN-Nom (189)
- VERB--PRON (2)
- VERB--PRON-Nom (44)
- VERB-Fin--NOUN (9)
- VERB-Fin--NOUN-ADP(가) (1)
- VERB-Fin--NOUN-ADP(는) (2)
- VERB-Fin--NOUN-Nom (107)
- VERB-Fin--PRON (2)
- VERB-Fin--PRON-Nom (28)
- VERB-Ger--NOUN (1)
- VERB-Ger--NOUN-Nom (7)
- VERB-Ger--PRON-Nom (1)
- obj
- VERB--NOUN (30)
- VERB--NOUN-ADP(를) (3)
- VERB--NOUN-ADP(을) (2)
- VERB--NOUN-Acc (366)
- VERB--PRON (1)
- VERB--PRON-Acc (12)
- VERB-Fin--NOUN (11)
- VERB-Fin--NOUN-ADP(과) (1)
- VERB-Fin--NOUN-ADP(를) (1)
- VERB-Fin--NOUN-ADP(을) (1)
- VERB-Fin--NOUN-Acc (81)
- VERB-Fin--PRON (1)
- VERB-Fin--PRON-Acc (1)
- VERB-Ger--NOUN (2)
- VERB-Ger--NOUN-Acc (16)
- iobj
- VERB--NOUN (3)
- VERB-Fin--NOUN (2)
- VERB-Fin--PRON (2)
Relations Overview
- This corpus uses 7 relation subtypes: acl:relcl, compound:lvc, csubj:pass, flat:name, nmod:poss, nsubj:pass, obl:tmod
- The following 2 main types are not used alone, they are always subtyped: acl, nmod
- The following 8 relation types are not used in this corpus at all: xcomp, expl, dislocated, mark, clf, list, parataxis, reparandum