UD Korean KSL
Language: Korean (code: ko)
Family: Korean
This treebank has been part of Universal Dependencies since the UD v2.15 release.
The following people have contributed to making this treebank part of UD: Hakyung Sung, Gyu-Ho Shin.
Repository: UD_Korean-KSL
Search this treebank on-line: PML-TQ
Download all treebanks: UD 2.17
License: CC BY-SA 4.0
Genre: learner-essays
Questions, comments? General annotation questions (either Korean-specific or cross-linguistic) can be raised in the main UD issue tracker. You can report bugs in this treebank in the treebank-specific issue tracker on Github. If you want to collaborate, please contact [hksung001 (æt) gmail • com; Shin, ghshin (æt) uic • edu]. Development of the treebank happens directly in the UD repository, so you may submit bug fixes as pull requests against the dev branch.
| Annotation | Source |
|---|---|
| Lemmas | annotated manually |
| UPOS | annotated manually in non-UD style, automatically converted to UD, with some manual corrections of the conversion |
| XPOS | annotated manually |
| Features | annotated manually in non-UD style, automatically converted to UD |
| Relations | annotated manually, natively in UD style |
Description
UD_Korean-KSL is a dependency treebank of second-language (L2) Korean.
The annotated sentences are sourced from three datasets: (1) the Kyung Hee dataset, with sentence IDs starting with KH and annotated with classroom proficiency levels (A1–C2); (2) the KoLLA dataset, with sentence IDs starting with KL and grouped as fb (foreign beginners), fi (foreign intermediates), and hb (heritage beginners); (3) argumentative essays, with sentence IDs starting with ARG and grouped by first language: CHN (Chinese), CZH (Czech), and ENG (English).
Acknowledgments
We acknowledge the original data contributors: (1) the Kyung Hee dataset (credit to Jungyeul Park and Jung Hee Lee; note that its sentences are not used for further annotation); (2) the KoLLA dataset (credit to Markus Dickinson, Ross Israel, and Sun-Hee Lee); and (3) the argumentative essays (credit to Boo Kyung Jung and Jeong Eun Shin).
Statistics of UD Korean KSL
POS Tags
ADJ – ADP – ADV – AUX – CCONJ – DET – INTJ – NOUN – NUM – PRON – PUNCT – SCONJ – VERB – X
Features
Relations
acl – advcl – advmod – amod – appos – aux – case – cc – ccomp – compound – compound:lvc – conj – csubj – dep – det – discourse – dislocated – flat – goeswith – list – mark – nmod – nmod:poss – nsubj – nummod – obj – obl – parataxis – punct – reparandum – root – vocative – xcomp
Tokenization and Word Segmentation
- This corpus contains 15675 sentences and 137122 tokens.
- This corpus contains 17236 tokens (13%) that are not followed by a space.
- This corpus does not contain words with spaces.
- This corpus contains 114 types of words that contain both letters and punctuation. Examples: 없어.라고, "역사를, '라는, '역사는, ”라는, "경쟁", "라고, "배워야됐다, "싸우"는, "아니오", "우리"라는, "위안부"라는, "이, "인류가, "저는, "큰, "해서, '갱쟁이, '도구'라고, '머리, '미래를, '벌써, '사람이, '아드레날', '이겨야, (ad, (comp, (d, (dev, (lingual), (mandatory, (prosperity)까지, (su, (게다가, (고려사, (괜찮은, (그리고, (다, (영어), (이상), (일이, (직업, (직장, (체코의, (특히, (혹시, .인류와, 1.명동에, 10일-17일에, 2.동대문어
Morphology
Tags
- This corpus uses 14 UPOS tags out of 17 possible: ADJ, ADP, ADV, AUX, CCONJ, DET, INTJ, NOUN, NUM, PRON, PUNCT, SCONJ, VERB, X
- This corpus does not use the following tags: PROPN, PART, SYM
- This corpus contains 235 lemmas tagged as pronouns (PRON): 거기, 거기+가, 거기+는, 거기+서, 거기+서+는, 거기+에, 거기+에+는, 거기+에서, 거기+에서+만, 그, 그+는, 그+대, 그+도, 그+들+도, 그+들+은, 그+들+을, 그+들+의, 그+들+이, 그+로, 그+를, 그+보다, 그+에, 그+에게, 그+의, 그거, 그거+ㄴ, 그거+는, 그거+도, 그거+보다, 그것, 그것+ㄴ, 그것+는, 그것+도, 그것+들+도, 그것+에, 그것+으로, 그것+은, 그것+을, 그것+이, 그것+이야말로, 그곳+에서, 그녀, 그녀+가, 그녀+는, 그녀+를, 그녀+만+의, 그녀+에, 그녀+에게, 그녀+의, 나, 나+ㄴ, 나+ㄹ, 나+가, 나+게, 나+는, 나+도, 나+랑, 나+로, 나+를, 나+밖에, 나+보고, 나+보다, 나+에, 나+에게, 나+에게+는, 나+에게+도, 나+와, 나+의, 나+처럼, 나+한테, 내, 내+가, 내+는, 내+도, 내+를, 내+에게, 내녕+에, 너, 너+ㄴ, 너+ㄹ, 너+는, 너+도, 너+를, 너+의, 너+한테, 네, 네+가, 누가+에게, 누구, 누구+ㄴ+가, 누구+가, 누구+나, 누구+도, 누구+든지, 누구+를, 누구+와, 누구+이+ㄴ가, 누구+이+ㄴ가+가, 니+가, 니+도, 다+들, 다+들+이, 당신, 당신+은, 당신+의, 당신+이, 둘+의, 모두+가, 무엇+보다, 무엇+보다+도, 무엇+은, 무엇+을, 무엇+이, 무엇+이+ㄴ가, 무엇+이든, 뭐, 뭐+ㄹ, 뭐+가, 뭐+든지, 뭐+를, 비, 아기+들+이, 아무+나, 아무+도, 아이+들+이, 아포, 얘+들+이, 어디, 어디+가, 어디+든지, 어디+서, 어디+서+나, 어디+서+든, 어디+에, 어디+에서, 어디+에서+나, 언제, 언제+든지, 언제+보다, 여기, 여기+가, 여기+까지, 여기+는, 여기+서, 여기+에, 여기+에서, 여기+의, 여러분, 여러분+과, 여러분+께, 여러분+도, 여러분+들+은, 여러분+들+이, 여러분+에게, 여러분+은, 여러분+을, 여러분+이, 용+은, 우라+가, 우리, 우리+가, 우리+는, 우리+도, 우리+들+은, 우리+들+이, 우리+를, 우리+만+의, 우리+보고, 우리+에, 우리+에게, 우리+와, 우리+의, 우리+한테, 이+는, 이+로, 이+로써, 이+를, 이+밖에, 이+에, 이+와, 이+처럼, 이거, 이거+ㄴ, 이거+는, 이거+도, 이것, 이것+도, 이것+들+을, 이것+만, 이것+에, 이것+은, 이것+을, 이것+이, 자기, 자기+가, 자기+도, 자기+를, 자기+만, 자기+에, 자기+에게, 자기+의, 자신+도, 자신+들+의, 자신+의, 자신+이, 재+가, 저, 저+ㄴ, 저+는, 저+도, 저+랑, 저+를, 저+보다, 저+에, 저+에게, 저+에게+는, 저+와, 저+의, 저+하고, 저+한테, 저기, 저기+는, 저기+서, 저쪽+에, 저희, 저희+는, 제+가, 제+게, 제+는, 제+보다, 제+에, 제+에게, 제+에게+는, 지+가, 하나+의
- This corpus contains 62 lemmas tagged as determiners (DET): "+이, 각, 그, 그것, 그떤, 그런, 그런+한, 네, 다른, 다섯, 두, 둘째, 몇, 모, 모든, 무슨, 비, 사십, 새, 세, 셋째, 수, 아무, 아무+런, 안두, 약, 어누, 어느, 어던, 어떠, 어떤, 어러, 어려, 여덟, 여러, 여려, 예기, 옛, 오랜, 오른, 온, 이, 이+들, 이+번+에+는, 이러하+ㄴ, 이런, 이런+저런, 이런+하+ㄴ, 이럼, 이렇, 이번, 일, 저, 저런, 전, 제, 지지난, 천, 첫, 총, 한, 현
- Out of the above, 5 lemmas occurred sometimes as PRON and sometimes as DET: 그, 그것, 네, 비, 저
- This corpus contains 5 lemmas tagged as auxiliaries (AUX): 싶, 않, 이, 있, 하
- Out of the above, 4 lemmas occurred sometimes as AUX and sometimes as VERB: 않, 이, 있, 하
- This corpus does not use the VerbForm feature.
Nominal Features
Degree and Polarity
Verbal Features
Pronouns, Determiners, Quantifiers
Other Features
- Typo
- Yes
- ADJ: 유면한, 거옙니다, 중용한, 특변한, 경재적인, 끔칙한, 다뜻합니다, 다향한, 맜있는, 불공편한다
- ADP: 떄문에, 대문에, 떼문에, 도, 두, 때, 니다, 대, 더분에, 도영
- ADV: 재일, 함게, 깉이, 뉴질렌드에서, 먼전, 보산에, 빨르게, 우채국에, 캍이, 현제
- AUX: 싶어니다, 했는, 싶어, 있도, 싶을떼, 않는, 않아면, 않은다, 않은면, 않을
- CCONJ: 그레서, 외냐하면, 고리고, 그래고, 그러지만, 하지마, 그래소, 그러서, 그런대, 그레고
- DET: 어던, 그떤, 그런한, 어누, 어떠, 어러, 어려, 여려, 예기, 이
- NOUN: 하고, 궁무원이, 아프로, 댁배를, 웃이, 재, 땋알, 훠꿔를, 가경이, 광심
- NUM: 이, 첫, 한나
- PRON: 그대, 내
- SCONJ: 대, 때, 떄, 길듯이, 대는, 대싱, 덴데, 때가지, 떄나, 떄문에
- VERB: 조세요, 건다, 보릅니다, 해어지고, 논다, 다서, 도와, 됬다, 때해서, 배옵니다
- Yes
Syntax
Auxiliary Verbs and Copula
- This corpus does not contain copulas.
- This corpus uses 5 lemmas as auxiliaries (aux). Examples: 싶, 하, 않, 있, 이.
Core Arguments, Oblique Arguments and Adjuncts
Here we consider only relations between verbs (parent) and nouns or pronouns (child).
- nsubj
- VERB--NOUN (7549)
- VERB--NOUN-ADP(가) (2)
- VERB--NOUN-ADP(는) (3)
- VERB--NOUN-ADP(도) (9)
- VERB--NOUN-ADP(들+은) (1)
- VERB--NOUN-ADP(들+이) (2)
- VERB--NOUN-ADP(등) (4)
- VERB--NOUN-ADP(등)-ADP(등) (1)
- VERB--NOUN-ADP(등+의) (1)
- VERB--NOUN-ADP(등+이) (2)
- VERB--NOUN-ADP(따위+도) (1)
- VERB--NOUN-ADP(만) (3)
- VERB--NOUN-ADP(밖에) (2)
- VERB--NOUN-ADP(반+쯤) (1)
- VERB--NOUN-ADP(와) (1)
- VERB--NOUN-ADP(은) (2)
- VERB--NOUN-ADP(을) (1)
- VERB--NOUN-ADP(이) (3)
- VERB--NOUN-ADP(이상) (1)
- VERB--NOUN-ADP(중+에서) (1)
- VERB--NOUN-ADP(쫌) (1)
- VERB--NOUN-ADP(쯤) (5)
- VERB--NOUN-ADP(하고) (10)
- VERB--PRON (1899)
- VERB--PRON-ADP(는) (1)
- VERB--PRON-ADP(하고) (1)
- obj
- VERB--NOUN (10369)
- VERB--NOUN-ADP(나) (1)
- VERB--NOUN-ADP(대신+에) (1)
- VERB--NOUN-ADP(도) (6)
- VERB--NOUN-ADP(두) (2)
- VERB--NOUN-ADP(등) (7)
- VERB--NOUN-ADP(등+)+을) (1)
- VERB--NOUN-ADP(등+을) (8)
- VERB--NOUN-ADP(뜨+어) (1)
- VERB--NOUN-ADP(라는) (1)
- VERB--NOUN-ADP(로) (1)
- VERB--NOUN-ADP(를) (14)
- VERB--NOUN-ADP(만) (2)
- VERB--NOUN-ADP(을) (7)
- VERB--NOUN-ADP(이+을) (1)
- VERB--NOUN-ADP(정도+로) (1)
- VERB--NOUN-ADP(쯤) (1)
- VERB--NOUN-ADP(하고) (9)
- VERB--NOUN-ADP(학고) (1)
- VERB--PRON (118)