UD Korean KSL
Language: Korean (code: ko)
Family: Korean
This treebank has been part of Universal Dependencies since the UD v2.15 release.
The following people have contributed to making this treebank part of UD: Hakyung Sung, Gyu-Ho Shin.
Repository: UD_Korean-KSL
Search this treebank on-line: PML-TQ
Download all treebanks: UD 2.18
License: CC BY-SA 4.0
Genre: learner-essays
Questions, comments? General annotation questions (either Korean-specific or cross-linguistic) can be raised in the main UD issue tracker. You can report bugs in this treebank in the treebank-specific issue tracker on Github. If you want to collaborate, please contact [hksung001 (æt) gmail • com; Shin, ghshin (æt) uic • edu]. Development of the treebank happens directly in the UD repository, so you may submit bug fixes as pull requests against the dev branch.
| Annotation | Source |
|---|---|
| Lemmas | annotated manually |
| UPOS | annotated manually in non-UD style, automatically converted to UD, with some manual corrections of the conversion |
| XPOS | annotated manually |
| Features | annotated manually in non-UD style, automatically converted to UD |
| Relations | annotated manually, natively in UD style |
Description
UD_Korean-KSL is a dependency treebank of second-language (L2) Korean.
The annotated sentences are sourced from three datasets: (1) the Kyung Hee dataset, with sentence IDs starting with KH and annotated with classroom proficiency levels (A1–C2); (2) the KoLLA dataset, with sentence IDs starting with KL and grouped as fb (foreign beginners), fi (foreign intermediates), and hb (heritage beginners); (3) argumentative essays, with sentence IDs starting with ARG and grouped by first language: CHN (Chinese), CZH (Czech), ENG (English), and JPN (Japanese).
Acknowledgments
We acknowledge the original data contributors: (1) the Kyung Hee dataset (credit to Jungyeul Park and Jung Hee Lee; note that its sentences are not used for further annotation); (2) the KoLLA dataset (credit to Markus Dickinson, Ross Israel, and Sun-Hee Lee); and (3) the argumentative essays (credit to Boo Kyung Jung and Jeong Eun Shin).
Statistics of UD Korean KSL
POS Tags
ADJ – ADP – ADV – AUX – CCONJ – DET – INTJ – NOUN – NUM – PART – PRON – PROPN – PUNCT – SCONJ – VERB – X
Features
Relations
acl – advcl – advmod – amod – appos – aux – case – cc – ccomp – compound – compound:lvc – conj – csubj – dep – det – discourse – dislocated – flat – goeswith – list – mark – nmod – nmod:poss – nsubj – nummod – obj – obl – parataxis – punct – reparandum – root – vocative – xcomp
Tokenization and Word Segmentation
- This corpus contains 17369 sentences and 155104 tokens.
- This corpus contains 18902 tokens (12%) that are not followed by a space.
- This corpus does not contain words with spaces.
- This corpus contains 122 types of words that contain both letters and punctuation. Examples: 없어.라고, "역사를, '라는, '역사는, ”라는, "경쟁", "라고, "배워야됐다, "싸우"는, "아니오", "우리"라는, "위안부"라는, "이, "인류가, "저는, "큰, "해서, '갱쟁이, '도구'라고, '머리, '미래를, '벌써, '사람이, '아드레날', '이겨야, (ad, (comp, (d, (dev, (lingual), (mandatory, (prosperity)까지, (su, (war)최근, (게다가, (고려사, (괜찮은, (그리고, (다, (대사를, (영어), (이상), (일이, (직업, (직장, (체코의, (특히, (혹시, -ended이라서, .인류와
Morphology
Tags
- This corpus uses 16 UPOS tags out of 17 possible: ADJ, ADP, ADV, AUX, CCONJ, DET, INTJ, NOUN, NUM, PART, PRON, PROPN, PUNCT, SCONJ, VERB, X
- This corpus does not use the following tags: SYM
- This corpus contains 5 word types tagged as particles (PART): 공교육이, 만있었으면, 사교육, 제, 째,역사를
- This corpus contains 254 lemmas tagged as pronouns (PRON): SNS+에, 거기, 거기+가, 거기+는, 거기+서, 거기+서+는, 거기+에, 거기+에+는, 거기+에서, 거기+에서+만, 그, 그+는, 그+대, 그+도, 그+들+도, 그+들+은, 그+들+을, 그+들+의, 그+들+이, 그+로, 그+를, 그+보다, 그+에, 그+에게, 그+의, 그거, 그거+ㄴ, 그거+ㄹ, 그거+는, 그거+도, 그거+보다, 그것, 그것+ㄴ, 그것+는, 그것+도, 그것+들+도, 그것+보다, 그것+에, 그것+으로, 그것+은, 그것+을, 그것+이, 그것+이야말로, 그곳+에서, 그녀, 그녀+가, 그녀+는, 그녀+를, 그녀+만+의, 그녀+에, 그녀+에게, 그녀+의, 그들+은, 나, 나+ㄴ, 나+ㄹ, 나+가, 나+게, 나+는, 나+도, 나+랑, 나+로, 나+를, 나+만, 나+밖에, 나+보고, 나+보다, 나+에, 나+에게, 나+에게+는, 나+에게+도, 나+와, 나+의, 나+처럼, 나+한테, 내, 내+가, 내+는, 내+도, 내+를, 내+에게, 내녕+에, 너, 너+ㄴ, 너+ㄹ, 너+는, 너+도, 너+를, 너+와, 너+의, 너+한테, 네, 네+가, 누가+에게, 누구, 누구+ㄴ+가, 누구+가, 누구+나, 누구+도, 누구+든지, 누구+를, 누구+에게+나, 누구+와, 누구+이+ㄴ가, 누구+이+ㄴ가+가, 누군가+를, 누군가+와, 니+가, 니+도, 다+들, 다+들+이, 당신, 당신+은, 당신+의, 당신+이, 둘+은, 둘+의, 모두+가, 무엇+보다, 무엇+보다+도, 무엇+은, 무엇+을, 무엇+이, 무엇+이+ㄴ가, 무엇+이든, 뭐, 뭐+ㄹ, 뭐+가, 뭐+든지, 뭐+를, 뭔가, 뭔가+를, 비, 아기+들+이, 아무+나, 아무+도, 아이+들+이, 아포, 얘+들+이, 어디, 어디+가, 어디+든지, 어디+서, 어디+서+나, 어디+서+든, 어디+에, 어디+에서, 어디+에서+나, 언제, 언제+든지, 언제+보다, 여기, 여기+가, 여기+까지, 여기+는, 여기+서, 여기+에, 여기+에서, 여기+의, 여러분, 여러분+과, 여러분+께, 여러분+도, 여러분+들+은, 여러분+들+이, 여러분+에게, 여러분+은, 여러분+을, 여러분+이, 용+은, 우라+가, 우리, 우리+가, 우리+는, 우리+도, 우리+들+은, 우리+들+이, 우리+를, 우리+만+의, 우리+보고, 우리+에, 우리+에게, 우리+와, 우리+의, 우리+한테, 이+는, 이+로, 이+로써, 이+를, 이+밖에, 이+에, 이+와, 이+처럼, 이거, 이거+ㄴ, 이거+는, 이거+도, 이것, 이것+도, 이것+들+을, 이것+만, 이것+에, 이것+은, 이것+을, 이것+이, 자기, 자기+가, 자기+도, 자기+를, 자기+만, 자기+에, 자기+에게, 자기+의, 자신+과, 자신+도, 자신+들+의, 자신+의, 자신+이, 재+가, 저, 저+ㄴ, 저+ㄹ, 저+가, 저+는, 저+도, 저+랑, 저+를, 저+보다, 저+에, 저+에게, 저+에게+는, 저+와, 저+의, 저+하고, 저+한테, 저+한테+는, 저기, 저기+는, 저기+서, 저쪽+에, 저희, 저희+가, 저희+는, 저희+를, 저희+에게, 제+가, 제+게, 제+는, 제+보다, 제+에, 제+에게, 제+에게+는, 지+가, 하나+의
- This corpus contains 85 lemmas tagged as determiners (DET): "+이, 각, 그, 그+살람, 그것, 그떤, 그런, 그런+한, 네, 다른, 다른+것+들+까지, 다섯, 두, 두+가지+의, 두+개+이상+의, 두+개+있+습니다, 두+까지+있+다, 두+번+다시, 두+번+쩨, 두+번째+로+는, 두+쪽+에+는, 둘째, 몇, 몇+가지+있+는, 몇+게, 모, 모든, 무슨, 비, 사십, 새, 세, 세+가지+들+이, 세+명+이+ㄴ, 세+번+제, 세+번쩨+는, 셋째, 수, 아무, 아무+런, 안두, 약, 어누, 어느, 어던, 어떠, 어떤, 어러, 어려, 여덟, 여러, 여러+가지+의, 여러+까지, 여려, 예기, 옛, 오랜, 오른, 온, 이, 이+들, 이+번+에+는, 이+새대+의, 이+진구+들+과+는, 이러하+ㄴ, 이런, 이런+것+들+도, 이런+저런, 이런+하+ㄴ, 이럼, 이렇, 이번, 일, 일+등+을, 저, 저런, 전, 지지난, 천, 첫, 첫+번째+로+는+저+의, 총, 한, 한+명+대문+에, 현
- Out of the above, 5 lemmas occurred sometimes as PRON and sometimes as DET: 그, 그것, 네, 비, 저
- This corpus contains 5 lemmas tagged as auxiliaries (AUX): 싶, 않, 이, 있, 하
- Out of the above, 4 lemmas occurred sometimes as AUX and sometimes as VERB: 않, 이, 있, 하
- This corpus does not use the VerbForm feature.
Nominal Features
Degree and Polarity
Verbal Features
Pronouns, Determiners, Quantifiers
- Dem
- DET: 그, 이, 어떤, 이런, 여러, 그런, 다른, 모든, 어느, 몇
- PRON: 그것을, 그것이, 이것이, 이것, 이것을, 그, 그것
- Int
- PRON: 무엇을, 누가, 누구를, 누구
- Prs
- PRON: 저는, 우리, 나는, 내가, 제, 우리는, 제가, 내, 우리가, 나에게
Other Features
- Typo
- Yes
- ADJ: 유면한, 거옙니다, 중용한, 특변한, 필료한다, 경재적인, 끔칙한, 다뜻합니다, 다향한, 맜있는
- ADP: 떄문에, 대문에, 떼문에, 도, 두, 때, 니다, 대, 더분에, 도영
- ADV: 재일, 현제, 함게, 과고에, 깉이, 뉴질렌드에서, 먼전, 보산에, 빨르게, 우채국에
- AUX: 싶어니다, 했는, 싶어, 않아면, 않은면, 않을가, 있도, 싶을떼, 않는, 않았을까는
- CCONJ: 그레서, 외냐하면, 고리고, 그래고, 그러지만, 하지마, 그런대, 그래소, 그러서, 그렇니까
- DET: 두까지있다, 어던, 그떤, 그런한, 그살람, 두번쩨, 몇게, 세번제, 세번쩨는, 어누
- NOUN: 하고, 궁무원이, 아프로, 댁배를, 웃이, 재, 땋알, 훠꿔를, 가경이, 과고를
- NUM: 이, 첫, 한나
- PRON: 그대, 내
- PROPN: 한국개랩의
- SCONJ: 대, 때, 떄, 길듯이, 대는, 대싱, 덴데, 때가지, 떄나, 떄문에
- VERB: 조세요, 건다, 됄, 보릅니다, 해어지고, 나울, 논다, 다서, 도와, 됍니다
- Yes
Syntax
Auxiliary Verbs and Copula
- This corpus does not contain copulas.
- This corpus uses 5 lemmas as auxiliaries (aux). Examples: 하, 싶, 않, 있, 이.
Core Arguments, Oblique Arguments and Adjuncts
Here we consider only relations between verbs (parent) and nouns or pronouns (child).
- nsubj
- VERB--NOUN (8610)
- VERB--NOUN-ADP(가) (2)
- VERB--NOUN-ADP(는) (3)
- VERB--NOUN-ADP(도) (9)
- VERB--NOUN-ADP(들+은) (1)
- VERB--NOUN-ADP(들+이) (3)
- VERB--NOUN-ADP(등) (4)
- VERB--NOUN-ADP(등)-ADP(등) (1)
- VERB--NOUN-ADP(등+의) (1)
- VERB--NOUN-ADP(등+이) (2)
- VERB--NOUN-ADP(따위+도) (1)
- VERB--NOUN-ADP(만) (3)
- VERB--NOUN-ADP(밖에) (2)
- VERB--NOUN-ADP(반+쯤) (1)
- VERB--NOUN-ADP(와) (1)
- VERB--NOUN-ADP(은) (2)
- VERB--NOUN-ADP(을) (1)
- VERB--NOUN-ADP(이) (4)
- VERB--NOUN-ADP(이상) (1)
- VERB--NOUN-ADP(중+에서) (1)
- VERB--NOUN-ADP(쫌) (1)
- VERB--NOUN-ADP(쯤) (5)
- VERB--NOUN-ADP(하고) (10)
- VERB--PRON (2157)
- VERB--PRON-ADP(는) (1)
- VERB--PRON-ADP(하고) (1)
- obj
- VERB--NOUN (11946)
- VERB--NOUN-ADP(까지+도) (1)
- VERB--NOUN-ADP(나) (1)
- VERB--NOUN-ADP(대신+에) (1)
- VERB--NOUN-ADP(도) (6)
- VERB--NOUN-ADP(두) (2)
- VERB--NOUN-ADP(등) (7)
- VERB--NOUN-ADP(등+)+을) (1)
- VERB--NOUN-ADP(등+을) (9)
- VERB--NOUN-ADP(뜨+어) (1)
- VERB--NOUN-ADP(라는) (1)
- VERB--NOUN-ADP(로) (1)
- VERB--NOUN-ADP(를) (15)
- VERB--NOUN-ADP(만) (3)
- VERB--NOUN-ADP(을) (7)
- VERB--NOUN-ADP(이+을) (1)
- VERB--NOUN-ADP(정도+로) (1)
- VERB--NOUN-ADP(쯤) (1)
- VERB--NOUN-ADP(하고) (9)
- VERB--NOUN-ADP(학고) (1)
- VERB--PRON (146)