UD Yakut YKTDT
Language: Yakut (code: sah
)
Family: Turkic
This treebank has been part of Universal Dependencies since the UD v2.9 release.
The following people have contributed to making this treebank part of UD: Tatiana Merzhevich, Fabrício Ferraz Gerardi.
Repository: UD_Yakut-YKTDT
Search this treebank on-line: PML-TQ
Download all treebanks: UD 2.15
License: CC BY-SA 4.0
Genre: nonfiction, news
Questions, comments? General annotation questions (either Yakut-specific or cross-linguistic) can be raised in the main UD issue tracker. You can report bugs in this treebank in the treebank-specific issue tracker on Github. If you want to collaborate, please contact [tatiana • merzhevich (æt) gmail • com]. Development of the treebank happens directly in the UD repository, so you may submit bug fixes as pull requests against the dev branch.
Annotation | Source |
---|---|
Lemmas | annotated manually |
UPOS | annotated manually, natively in UD style |
XPOS | not available |
Features | annotated manually, natively in UD style |
Relations | annotated manually, natively in UD style |
Description
UD_Yakut-YKTDT is a collection Yakut ([Sakha]) sentences (https://glottolog.org/resource/languoid/id/yaku1245). The project is work-in-progress and the treebank is being updated on a regular basis.
UD_Yakut-YKTDT is a collection of annotated Yakut ([Sakha]) sentences (https://glottolog.org/resource/languoid/id/yaku1245). Initially the sentences stem from a variety of sources.
Acknowledgments
The development of the treebank is supported by the by European Research Council (ERC) under the European Union’s Horizon 2020 research and innovation programme (Grant agreement No. 834050).
References
- Johanson, L., & Johanson, É. Á. C. (2015). The Turkic Languages. Routledge.
- Johanson, L. (2021). Turkic. Cambridge.
- Krueger, John R. (1962). Yakut manual: area handbook, grammar, graded reader and glossary. Bloomington: Indiana University.
- Xaritonov, L. N. (1987). Samoučitel’ Yakutskogo Yazyka. Yakutsk: Yakutskoe Knižnoe Izdatel’stvo.
- Erdal M. (2004). A Grammar of Old Turkic. Brill.
- Menges, K. H. (1962). The Turkic Languages and Peoples. Second Edition. Harrassowitz.
- Comrie, B. (1981). The Languages of The Soviet Union. Cambridge.
- Çalişmalar, Ö., Eker, S. & Şavk, Ü. Ç. (2016). Endangered Turkic languaged II B. In Eker, S. & Şavk, Ü. Ç. (ed.) Before the last voices are gone, vol. 3. Hodja Akhmet Yassawi International Turkish-Kazakh University.
Statistics of UD Yakut YKTDT
POS Tags
ADJ – ADP – ADV – AUX – CCONJ – DET – INTJ – NOUN – NUM – PART – PRON – PROPN – PUNCT – VERB
Features
Advlz – Case – Evident – Int – Mood – Nomzr – Number – Number[psor] – NumType – Person – Person[psor] – Polarity – PronType – Tense – VerbForm
Relations
advmod – amod – appos – aux – case – cc – ccomp – compound – conj – cop – csubj – dep – det – discourse – dislocated – iobj – nmod – nsubj – nummod – obj – obl – parataxis – punct – root – vocative – xcomp
Tokenization and Word Segmentation
- This corpus contains 299 sentences, 1459 tokens and 1460 syntactic words.
- This corpus contains 19 tokens (1%) that are not followed by a space.
- This corpus does not contain words with spaces.
- This corpus does not contain words that contain both letters and punctuation.
- This corpus contains 1 multi-word tokens. On average, one multi-word token consists of 2.00 syntactic words.
- There are 1 types of multi-word tokens. Examples: уус-уран.
Morphology
Tags
- This corpus uses 14 UPOS tags out of 17 possible: ADJ, ADP, ADV, AUX, CCONJ, DET, INTJ, NOUN, NUM, PART, PRON, PROPN, PUNCT, VERB
- This corpus does not use the following tags: SCONJ, SYM, X
- This corpus contains 4 word types tagged as particles (PART): дуо, дуу, эрэ, үһү
- This corpus contains 17 lemmas tagged as pronouns (PRON): бары, биһиги, ити, ким, кини, мин, ол, сорох, тоҕо, тугу, туох, хайдах, ханна, ханнык, хантан, эн, эһиги
- This corpus contains 5 lemmas tagged as determiners (DET): аайы, бу, ити, ол, ханнык
- Out of the above, 3 lemmas occurred sometimes as PRON and sometimes as DET: ити, ол, ханнык
- This corpus contains 2 lemmas tagged as auxiliaries (AUX): баар, суох
- There are 3 (de)verbal forms:
- Conv
- VERB: ааҕан, былдьаан, куйуурдаан, сиэн, тоҥон, хоройон
- Inf
- VERB: ааҕарга
- Part
- VERB: биэрбит, кэбиспит, хаалбыт, ыйыппыт
Nominal Features
- Plur
- AUX: баарбыт
- NOUN: оҕолор, Кинигэлэри, Олоппосторго, ааннары, доҕотторо, дьахталлар, дьоннор, километры, кэпсээннэри, көтөрдөрү
- PRON: биһиги, Эһиэхэ, кинилэр, сорохтор, Эһиги, Биһиэхэ, Кинилэри, барытын
- VERB: үөрэнэллэр, аһыыллар, туруораллар, аһыҥ, биэрэллэр, олороллор, суруйаллар, сууйуҥ, туруҥ, утуйаллар
- Sing
- NOUN: киһи, дьон, оскуолаҕа, оҕо, ууга, килиэптэ, кинигэни, кылааска, кыыс, уу
- PRON: кини, эн, мин, бары, миэхэ, Эйиэхэ, киниэхэ, миигин
- VERB: үөрэнэр, ааҕар, турар, ыалдьар, сиэ, аһыыр, кэл, олор, олорор, суруйар
- Abl
- NOUN: Яблокаттан, буочукаттан, кинигэттэн, Ойбонтон, Оскуолаттан, баһаартан, халлаантан, ынахтан
- Acc
- DET: маны
- NOUN: кинигэни, таҥаһы, ааны, иһити, килиэби, киһини, этэрбэһи, аты, бөрөнү, куһу
- NUM: иккини
- PRON: Кинилэри, миигин
- Cmp
- NOUN: эһэтээҕэр
- Dat
- NOUN: оскуолаҕа, ууга, кылааска, куоракка, хоско, дьиэҕэ, муннукка, ойбоҥҥо, ойуурга, паартаҕа
- PRON: Эһиэхэ, миэхэ, Биһиэхэ, Онуоха, Эйиэхэ, киниэхэ, туохха
- PROPN: Дьокуускайга, Айталга, Кэскилга, Москваҕа, Петровка
- Ins
- NOUN: Кутурукпунан, атынан, сабынан, уочаратынан, хаанынан
- Nom
- NOUN: киһи, дьон, оҕо, оҕолор, кыыс, уу, эт, кинигэ, убайа, уол
- PRON: кини, эн, мин, биһиги, бары, кинилэр, Эһиги, барытын
- Par
- NOUN: килиэптэ, Кинигэтэ, айымньыта, эттэ, Миннэ, буулката, дьиэтэ, илиитэ, күөрчэхтэ, остуолла
- NUM: иккитэ
Degree and Polarity
- Neg
- VERB: сиэмэ, аахпаппыт, аһаама, аһымаҥ, билбэккин, былдьаспат, быһыма, киирбэт, киирбэттэр, киллэримэҥ
Verbal Features
- Imp
- VERB: сиэ, кэл, олор, аах, аҕал, быс, аһыҥ, ис, сиэмэ, сууйуҥ
- Fut
- VERB: балыктыахпыт, буолуоҥ, кэрдиэхтэрэ, маныаҕыҥ, тиэйиэхтэрэ, ылыаҕа, ылыаҕым, үлэлиэҕим
- NearPast
- VERB: эттэ, кутта, кэллэ, ылла, атыыласта, өлөрдүм, аҕалла, аһаата, барда, бардыбыт
- Past
- VERB-Part: биэрбит, кэбиспит, хаалбыт, ыйыппыт
- PastPerf
- VERB: билбитим, киирбитэ, көппүтүм, көрбүтүм, олорбутум, сууллубутуҥ, туһалаабыта, түспүтүм, утарбыттара
- PastResultI
- VERB: ыйыстыбыт
- Pres
- AUX: баарбыт
- VERB: үөрэнэр, ааҕар, турар, ыалдьар, сиэ, үөрэнэллэр, аһыыр, кэл, олор, олорор
- Nfh
- PART: үһү
Pronouns, Determiners, Quantifiers
- Dem
- DET: ити, ол
- PRON: ити, Ол
- Ind
- PRON: сорох, сорохтор
- Int
- NUM: хас
- PRON: тугу, ханна, ким, ханнык, кимий, Хайдах, тоҕо, хантан, Онуоха, туохха
- Prs
- PRON: кини, эн, мин, биһиги, Эһиэхэ, кинилэр, миэхэ, Эһиги, Биһиэхэ, Кинилэри
- Tot
- PRON: бары, барытын
- Card
- NUM: биир, икки, үс, уон, алта, биэс, онус, хас, иккини, иккитэ
- 1
- AUX: баарбыт
- PRON: мин, биһиги, миэхэ, Биһиэхэ, миигин
- VERB: өлөрдүм, аахпаппыт, ааҕабын, балыктыахпыт, бардыбыт, билбитим, кэллим, кэтэбит, көппүтүм, көрбүтүм
- 2
- PRON: эн, Эһиэхэ, Эһиги, Эйиэхэ
- VERB: сиэ, кэл, олор, аах, аҕал, быс, аһыҥ, ис, сиэмэ, сууйуҥ
- 3
- PRON: кини, бары, кинилэр, Кинилэри, барытын, киниэхэ
- VERB: үөрэнэр, ааҕар, турар, ыалдьар, үөрэнэллэр, аһыыр, олорор, суруйар, эттэ, үөрэнэрий
- Plur
- NOUN: иһиппит, муҥхаҕыт, эргимтэлэрин
- Sing
- NOUN: убайа, Ийэм, Аҕам, Эһэм, аата, аҕата, ууһа, Аҕаҥ, Быраатым, Доҕорум
Other Features
- Advlz
- Yes
- ADV: түргэнник, үчүгэйдик, бытааннык, нууччалыы, оттомноохтук, сахалыы, симиктик, улаханнык, элбэхтик
- Yes
- Int
- Yes
- AUX: баарый
- PRON: кимий
- VERB: үөрэнэрий, барарый, гынарый, эмтиирий
- Yes
- Nomzr
- Action
- NOUN: аҕалыахха
- Action
- Person[psor]
- 1
- NOUN: Ийэм, Аҕам, Эһэм, Быраатым, Доҕорум, Дьонум, Илиибин, Кутурукпунан, Эбэм, аатым
- 2
- NOUN: Аҕаҥ, Дьонуҥ, Ийэҥ, баһыҥ, илииҥ, муҥхаҕыт, тииһиҥ, убайыҥ, эһэҥ
- 3
- NOUN: убайа, аата, аҕата, ууһа, аатын, аҕатыгар, балыгын, быара, доҕоро, доҕотторо
- 1
Syntax
Auxiliary Verbs and Copula
- This corpus uses 2 lemmas as copulas (cop). Examples: баар, суох.
- This corpus uses 2 lemmas as auxiliaries (aux). Examples: баар, суох.
Core Arguments, Oblique Arguments and Adjuncts
Here we consider only relations between verbs (parent) and nouns or pronouns (child).
- nsubj
- VERB--NOUN (1)
- VERB--NOUN-Acc (5)
- VERB--NOUN-Ins (1)
- VERB--NOUN-Nom (100)
- VERB--PRON (4)
- VERB--PRON-Nom (50)
- VERB-Conv--NOUN-Nom (2)
- obj
- VERB--NOUN-Abl (2)
- VERB--NOUN-Acc (69)
- VERB--NOUN-Ins (1)
- VERB--NOUN-Nom (24)
- VERB--NOUN-Par (18)
- VERB--PRON (16)
- VERB--PRON-Acc (2)
- VERB--PRON-Dat (1)
- VERB-Conv--NOUN-Acc (2)
- VERB-Inf--NOUN-Acc (1)
- iobj
- VERB--NOUN-Dat (1)
- VERB--PRON-Dat (2)
- VERB-Conv--NOUN-Ins (1)