UD Komi Zyrian IKDP
Language: Komi Zyrian (code: kpv
)
Family: Uralic
This treebank has been part of Universal Dependencies since the UD v2.2 release.
The following people have contributed to making this treebank part of UD: Niko Partanen, Rogier Blokland, Michael Rießler, Jack Rueter.
Repository: UD_Komi_Zyrian-IKDP
Search this treebank on-line: PML-TQ
Download all treebanks: UD 2.15
License: CC BY-SA 4.0
Genre: spoken
Questions, comments? General annotation questions (either Komi Zyrian-specific or cross-linguistic) can be raised in the main UD issue tracker. You can report bugs in this treebank in the treebank-specific issue tracker on Github. If you want to collaborate, please contact [nikotapiopartanen (æt) gmail • com]. Development of the treebank happens directly in the UD repository, so you may submit bug fixes as pull requests against the dev branch.
Annotation | Source |
---|---|
Lemmas | assigned by a program, with some manual corrections, but not a full manual verification |
UPOS | annotated manually in non-UD style, automatically converted to UD, with some manual corrections of the conversion |
XPOS | assigned by a program, with some manual corrections, but not a full manual verification |
Features | assigned by a program, with some manual corrections, but not a full manual verification |
Relations | annotated manually, natively in UD style |
Description
This treebank consists of dialectal transcriptions of spoken Komi-Zyrian. The current texts are short recorded segments from different areas where the Iźva dialect of Komi language is spoken.
The materials have been collected within the Iźva Komi Documentation Project, funded by Kone Foundation in 2014-2016, and archived in The Language Archive. The transcriptions have been done by native speakers, and the orthographic transcription system, although matching the Komi orthography where applicable, is primarily phonemic. The data in this treebank represents only the northern Iźva dialect of Komi, but materials from other dialects will also be included in the future. The sent_id
values match those in archived the IKDP corpus, and the +
character is used to mark sentence IDs that span across multiple annotations.
The corpus contains portions of recordings made between 1959 and 2016. The parts that have been published earlier by Erik Vászolyi in the Specimina Sibirica series are reproduced here with written permission. One portion of the corpus comes from Syrjänische Texte Bd. III published by Finno-Ugrian Society, and originally translated and edited by Paula Kokkonen.
The IKDP corpus uses the treebank as one of its annotation schemes. The entire audio-visual language documentation corpus will be archived in 2021 both to The Language Archive in Nijmegen and the Language Bank of Finland. In this process, the actual linking of the treebank to the multimedia files will be revisited and clear conventions for doing this will be developed and documented.
Acknowledgments
The work was done as collaboration within the Kone Foundation-funded research project Language Documentation meets Language Technology: The Next Step in the Description of Komi and the LAKME project funded by a grant from Paris Sciences et Lettres (IDEX PSL reference ANR-10-IDEX-0001-02).
If you use this treebank in your work, please cite:
- Partanen, Niko; Blokland, Rogier; Lim, KyungTae; Poibeau, Thierry and Rießler, Michael 2018: First Komi-Zyrian Universal Dependencies Treebanks. Proceedings of the Second Workshop on Universal Dependencies (UDW 2018) (pp. 126-132).
Sources used
-
Blokland, Rogier; Chuprov, Vassily; Fedina, Maria; Fedina, Marina; Levchenko, Dmitriy; Partanen, Niko and Rießler, Michael. 2016: Iźva Komi Documentation Project corpus. Funded by Kone Foundation. URL: https://hdl.handle.net/1839/00-0000-0000-001B-99BC-F@view
-
Vászolyi, Erik 1999: Syrjaenica: narratives, folklore and folk poetry from eight dialects of the Komi language. Vol. 1, Upper Izhma, Lower Ob, Kanin Peninsula, Upper Jusva, Middle Inva, Udora. Savariae.
-
Uotila, T.E., Kokkonen, Paula (Ed.) 1989: Syrjänische Texte. Bd III. Komi-Syrjänisch: Luza-Letka-, Ober-Sysola-, Mittel-Sysola-, Prisyktyvkar-, Unter-Vychegda- und Udora-Dialekte. Suomalais-Ugrilaisen Seuran Toimituksia — Mémoires de la Société Finno-Ougrienne 202. Download PDF.
Recording of Eric Vászolyi that has been used in this treebank has been described in article:
- Blokland, Rogier; Partanen, Niko; Rießler, Michael 2021: This is thy brother’s voice – Documentary and metadocumentary linguistic work with a folklore recording from the Nenets-Komi contact area. In: Hämäläinen, Mika; Partanen, Niko & Alnajjar, Khalid (Eds.): Multilingual Facilitation. RootRoo Ltd. Download PDF.
The transcription is also published in Zenodo:
- Rogier Blokland, Niko Partanen, & Michael Rießler. (2021, March 10). langdoc/spoken-komi-corpus-vaszolyi: Spoken Komi Corpus: Erik Vászolyi (Version v0.2). Zenodo. http://doi.org/10.5281/zenodo.4593789
Statistics of UD Komi Zyrian IKDP
POS Tags
ADJ – ADP – ADV – AUX – CCONJ – DET – INTJ – NOUN – NUM – PART – PRON – PROPN – PUNCT – SCONJ – VERB – X
Features
AdpType – AdvType – Case – Clitic – Connegative – Definite – Degree – Derivation – Evident – Foreign – Mood – Nomzr – NounType – Number – Number[psor] – Number[subj] – NumType – Person – Person[psor] – Polarity – PronType – Reflex – Tense – Variant – VerbForm – Voice
Relations
acl – acl:relcl – advcl – advcl:eval – advcl:tcl – advmod – advmod:deg – advmod:eval – advmod:lmod – advmod:mmod – advmod:tmod – amod – appos – aux – aux:aspect – aux:cnd – aux:neg – case – cc – ccomp – compound – compound:nn – conj – cop – csubj – dep – det – discourse – dislocated – fixed – flat:foreign – flat:name – list – mark – nmod – nmod:poss – nmod:prp – nsubj – nsubj:cop – nummod – obj – obl – obl:cau – obl:cmp – obl:lmod – obl:lmp – obl:tmod – orphan – parataxis – punct – reparandum – root – vocative – xcomp
Tokenization and Word Segmentation
- This corpus contains 214 sentences, 2304 tokens and 2309 syntactic words.
- This corpus contains 526 tokens (23%) that are not followed by a space.
- This corpus does not contain words with spaces.
- This corpus contains 22 types of words that contain both letters and punctuation. Examples: кык-суда, Вто-, Нарьян-Марскей, Нярьян-Маре, ОПХ-а, Оліс-выліс, Семӧв-Егырӧн, Ханты-Мансийскей, Юго-Восточной, ае-маме, висьт-, коми-изьватас, кызь-вит, луннас-а, лёк-а, мыйке-майда, олень-совхоз, сідь-жӧ, сітан-улас, только-только, ёна-ёна, Ӧт-пыр
- This corpus contains 3 multi-word tokens. On average, one multi-word token consists of 2.67 syntactic words.
- There are 3 types of multi-word tokens. Examples: Даддяяс, ва-ош, коми-изьватаслысь.
Morphology
Tags
- This corpus uses 16 UPOS tags out of 17 possible: ADJ, ADP, ADV, AUX, CCONJ, DET, INTJ, NOUN, NUM, PART, PRON, PROPN, PUNCT, SCONJ, VERB, X
- This corpus does not use the following tags: SYM
- This corpus contains 17 word types tagged as particles (PART): Ну, Так, вед, вот, гашке, да, же, значит, и, ли, не, но, нэ, тай, то, тоже, чё
- This corpus contains 36 lemmas tagged as pronouns (PRON): Ассюм, Всё, ас, быд, быдӧн, кодке, кодкӧ, куимнан, ме, месюм, ми, мукӧд, мы, мый, мыйке, мыйкӧ, мӧд, мӧдджык, ная, некод, нинӧм, ныа, ныес, став, сыа, сэтшӧм, сійӧ, сія, тайӧ, татшӧм, тэ, что, ыс, этша, этія, я
- This corpus contains 7 lemmas tagged as determiners (DET): весь, какой, кымын, мӧд, став, такой, уна
- Out of the above, 2 lemmas occurred sometimes as PRON and sometimes as DET: мӧд, став
- This corpus contains 7 lemmas tagged as auxiliaries (AUX): абу, бы, быть, вӧвны, кутны, оз, эм
- Out of the above, 2 lemmas occurred sometimes as AUX and sometimes as VERB: быть, кутны
- There are 4 (de)verbal forms:
- Conv
- VERB: велӧдчигӧныс, вӧрзялыгдырйи, локтігӧныс, мунігӧныс
- Inf
- VERB: велэдны, ветлыны, мунны, босьны, висьтооны, велэдчыны, ветлооны, Сравнитны, бериччыны, велӧдчыны
- Part
- VERB: закончитэм
- Vnoun
- VERB: Велэдчем, босьтӧм, велэдчемысь, закончитэм, олэмад, тӧдэмъяссэ
Nominal Features
- Plur
- ADJ: Даддяяс, большие, кӧреннэйяс, ыдзыдэсь
- AUX: были, оз
- NOUN: кыыяс, ваяс, дадюуяс, кокъясэ, курсъяс, ребята, Гожемъясын, Керкаяс, Кӧръяс, авкоясэн
- PRON: миян, ми, нас, ная, меам, миянлы, миянумес, миянэс, мукедъясыс, мӧдъясыслэн
- VERB: воедісныс, колэныс, мунэныс, пондісны, чечченыс, ваедісны, вайӧдісны, велӧдчӧны, ветлэныс, ветлӧны
- VERB-Vnoun: тӧдэмъяссэ
- Sing
- ADJ: ас, бур, небыд, бия, второй, выль, дзолясянь, дик, корейскей, кык-суда
- ADP: вылын, бӧрын, вылэ, вывті, доре, йылысь, сае, сайын, бӧрас, вылас
- ADV: вӧдзӧ, бӧрӧ, Неуна, бура, бӧр, водз, дзикедз
- AUX: вӧлі, выйым, из, вӧліс, было, кута, куча, оз
- DET: уна, Став, всю, мӧд, ставыс, такое, унджык
- INTJ: эта
- NOUN: во, ае, вок, коми, туй, чой, Пустыня, год, кыы, кӧр
- NUM: нёль, куим, кык, сизим, дас, кызь, Куимсэ, Мӧдэс, вит, вторая
- PRON: ме, сыа, сы, сія, менам, менэ, мый, мыйке, сіе, сіен
- PROPN: Иван, Из, Тимкалэн, Азии, Генриетта, Дань, Елена, Зӧт, Йӧртым, Красный
- VERB: кӧсъя, сетіс, любита, рӧдитчи, босьтіс, вежсис, ветлі, висьтоо, воедіс, мунэма
- VERB-Part: закончитэм
- VERB-Vnoun: Велэдчем, босьтӧм, велэдчемысь, закончитэм, олэмад
- Abe
- NOUN: няньтӧг
- Abl
- NOUN: войтырлысь, ижмасаяслысь, изьватаслысь, ненецъяслысь, саамъяслысь
- Acc
- ADJ: Коймедсэ, английскейсэ, финскейсэ
- DET: всю
- NOUN: дадьсэ, мамсӧ, тятейсӧ, английскейсэ, берегсэ, вынсэ, вӧлэсьсэ, вӧӧяссэ, деревню, живносьсэ
- NUM: Мӧдэс, Ӧтікес
- PRON: менэ, сіес, Тэнэ, быдӧнӧс, куимнансэ, миянумес, миянэс, наес, никодэс, ныес
- VERB-Vnoun: тӧдэмъяссэ
- Adp
- PRON: сы, Та
- Com
- NOUN: вокъяскед, дядьяскед, йӧзкед, мукедыс, родительяскед, тӧварышъескӧт, челядькед
- Dat
- NOUN: аелы, году, оленеводъяслы, прозвищу, часу
- PRON: мен, аслум, менум, миянлы, тэн
- PROPN: Петровналы
- Egr
- ADJ: дзолясянь
- ADV: сэтысянь
- NOUN: бӧрсяньыс
- Ela
- ADP: йылысь, ӧторйысь
- ADV: кытысь, сэтысь, унаись
- NOUN: вомсьыс, керкасис, нырсьыс, вӧлэсьтсюнум, дӧмысь, дӧраысь, комиысь, рочысь, ягись
- PRON: Ассюм, Сыысь, ассьыд, месюм
- VERB-Vnoun: велэдчемысь
- Gen
- ADJ: девятого, клубного, межпоселенческого, одиннадцатого, школьного
- NOUN: Ижмаыслэн, Кореялэн, видзысьлэн, возраста, воклэн, вокыдлэн, девушек, директора, инвалидность, километров
- PRON: миян, менам, меня, нас, Сылэн, асланум, аслас, меам, мӧдъясыслэн, налэн
- PROPN: Азии, Тайланда
- Ill
- ADP: вылэ, доре, сае, вылас, вылӧ, дорас, дінӧ, ордӧ
- ADV: вӧдзӧ, бӧрӧ, водзе, кычеге, сэтчӧ, сэчче
- NOUN: тундраа, кокъясэ, местэас, пачӧ, Армияа, Водзе, Гортас, аспирантураа, бердас, бӧрас
- PROPN: Нярьян-Маре, ОПХ-а, Печораӧ
- Ine
- ADJ: Омскейын
- ADP: вылын, бӧрын, сайын, бӧрас
- ADV: кытэнке, мӧдлаын, Медбӧрын
- NOUN: университетын, годын, тундраын, сайын, Гожемъясын, Москваын, Пустыняын, Сыктывкарын, водьын, вылын
- PROPN: Ляпинын
- VERB-Vnoun: олэмад
- Ins
- ADJ: английскеен, важен, немецкеен, первом
- ADV: унаэн
- NOUN: удовольствием, йӧйӧн, кылэн, луннас, Какен, авкоясэн, аргышен, аресэн, вонас, воон
- PRON: сіен, мыен
- PROPN: Семӧв-Егырӧн
- Loc
- NOUN: шоке
- Nom
- ADJ: ас, бур, небыд, бия, второй, выль, дик, корейскей, кык-суда, мӧдэд
- ADV: Неуна, бура, бӧр, водз, квайтэнэсь
- DET: уна, Став, мӧд, ставыс, такое, унджык
- NOUN: во, ае, вок, коми, туй, чой, Пустыня, год, кыы, кӧр
- NUM: нёль, куим, кык, сизим, дас, кызь, Куимсэ, вит, вторая, кызь-вит
- PRON: ме, сыа, мыйке, сія, ми, мый, сы, ачум, сіе, сійӧ
- PROPN: Иван, Из, Генриетта, Дань, Елена, Зӧт, Йӧртым, Красный, Ляпиныс, Микул
- VERB: закончитэм, Велэдчем, босьтӧм, ветлысь
- VERB-Part: закончитэм
- VERB-Vnoun: Велэдчем, босьтӧм, закончитэм
- Prl
- NOUN: вӧжжиедыс
- Prp
- NOUN: даддя
- Ter
- ADV: дзикедз
- NOUN: гортэдзыс
- Tra
- ADP: вывті
- ADV: быдлаті
- NOUN: быдлааті, выытіыс
- Ind
- ADJ: кутшемке
- ADV: корке, кудзке, кытэнке, кычеге
- PRON: мыйке
Degree and Polarity
- Cmp
- ADJ: дёлядзык
- ADV: зэйджык
- DET: унджык
- NOUN: вылэджык
- PRON: мӧдджык
- Sup
- ADJ: меддёля
- ADV: Медбӧрын, Медводзсэ
- Neg
- ADV: невозможнэ, никучем, ничего
- AUX: абу, из, оз, ог, он
- PART: не
- PRON: никод, никодэс, нинӧм
- Vclause
- NOUN: няньтӧг
Verbal Features
- Imp
- VERB: висьтоо, Считай, видед, нӧревитлы, расскажит
- Ind
- AUX: вӧлі, из, оз, вӧліс, ог, были, выйым, он, было, кута
- VERB: кӧсъя, сетіс, любита, рӧдитчи, босьтіс, вежсис, ветлі, воедіс, мунэма, мӧдэма
- Fut
- VERB: лоас, мӧдасы, ортсаласны, сетасныс
- Past
- AUX: вӧлі, из, вӧліс, были, было
- VERB: сетіс, рӧдитчи, босьтіс, вежсис, ветлі, воедіс, мунэма, мӧдэма, примитіс, пукаліс
- VERB-Part: закончитэм
- VERB-Vnoun: босьтӧм, закончитэм
- Pres
- AUX: оз, ог, выйым, он, кута, куча
- VERB: кӧсъя, любита, велэда, висьталэ, вӧтлэ, интересуйтэ, кажитче, колэныс, локтэ, мунэныс
- Act
- AUX: были, было
- Nfh
- VERB: мунэма, мӧдэма, висьталэма, Пургамема, бергедчема, волэма, воома, воссема, вурема, вӧрземаась
Pronouns, Determiners, Quantifiers
- Dem
- ADJ: сэтшем
- INTJ: эта
- PRON: сыа, сы, мӧд, сіе, Та, Тае, налэн, ная, сэтшем, татшӧм
- Ind
- PRON: мыйке, кодке, мыйкесэ
- Int
- ADV: кудз, Кытысь
- DET: кымын
- PRON: мый, мыен
- Prs
- ADJ: ас
- PRON: ме, миян, сыа, сы, сія, ми, менам, менэ, сіе, сіен
- Rel
- ADV: кор, кытысь
- Tot
- PRON: быд, быдӧнӧс, куимнансэ
- Card
- NUM: куим, нёль, кык, сизим, дас, десятой, вит, сорок, Девять, двадцать
- Card,Ord
- NUM: кӧкъямыс
- Dist
- ADV: квайтэнэсь
- Ord
- ADJ: мӧдэд, Коймедсэ, сизимед
- DET: мӧд
- NUM: Мӧдэс, четвёртэй
- Sets
- PRON: куимнан, куимнансэ
- Yes
- PRON: ачум, ачыс, Ассюм, аслад, асланум, аслас, аслум, ассьыд
- 1
- AUX: ог, кута, куча
- PRON: ме, миян, ми, менам, менэ, ачум, мен, меня, нас, Ассюм
- VERB: кӧсъя, любита, рӧдитчи, ветлі, рӧдитчылі, велэда, кочегариті, рӧбиті, тӧда, эштӧді
- 2
- AUX: он
- PRON: тэ, Тэнэ, аслад, ассьыд, тэн, тэнад
- VERB: висьтоо, велэдін, помалін, тӧдан, Считай, велэдчин, видед, висьталін, занимайтчан, казьоолан
- 3
- AUX: вӧлі, из, оз, вӧліс, выйым
- PRON: сыа, сы, сія, сіе, сіен, сіес, сійӧ, ачыс, Ная, Сылэн
- VERB: сетіс, босьтіс, вежсис, воедіс, мунэма, примитіс, пукаліс, чеччис, xывнитіс, ветліс
- Plur
- NOUN: вокныс, дадюуныссэ, душаныс, кыыныс, кӧрныссэ, музыканыс, семьяанум, чойныс
- Sing
- ADJ: Коймедсэ, английскейсэ, финскейсэ
- ADP: кузяыс, бӧрас, вылас, дорас, нынніыс
- DET: ставыс
- NOUN: ае, маме, мамыс, тятеис, вомсьыс, гортас, дадьсэ, культураыс, луннас, мамсӧ
- NUM: Мӧдэс, Ӧтікес
- PRON: ставыс, мукедъясыс, мӧдъясыслэн
- PROPN: Ляпиныс
- VERB-Conv: велӧдчигӧныс, локтігӧныс, мунігӧныс
- VERB-Vnoun: олэмад, тӧдэмъяссэ
Other Features
- AdpType
- Post
- ADP: кузя, кузяыс, вӧсна, йылысь
- Post
- AdvType
- Man
- ADV: сідз, кудз, кудзке, тадз
- Tim
- ADV: на, кор, корке, нин, таво
- Man
- Clitic
- So
- ADV: сідзсэ, Медводзсэ
- NOUN: дадюуныссэ, кӧрныссэ
- NUM: Куимсэ
- PRON: мыйкесэ
- VERB-Inf: велэднысэ, рӧдиттьынысэ
- So
- Connegative
- Yes
- AUX: вӧв
- VERB: вермы, тӧд, бросайтчы, ветлоо, во, кыскоо, ло, сдайт, сидзоолы, удит
- Yes
- Derivation
- Al
- VERB: ветлалэ
- Ig
- VERB-Conv: велӧдчигӧныс, локтігӧныс, мунігӧныс
- Igdyrji
- VERB-Conv: вӧрзялыгдырйи
- Igmoz
- VERB: велэдчыгмоз
- Ko
- ADJ: кутшемке
- ADV: корке, кудзке, кытэнке
- PRON: мыйке, мыйкесэ
- La
- NOUN: быдлааті
- VAbe
- VERB: вуджедтэг
- Al
- Foreign
- Yes
- X: Севера, коренного, малочисленного, международные, народа, отношения
- Yes
- Nomzr
- Ag
- NOUN: велэдысьыс
- VERB: ветлысь
- Ag
- NounType
- Relat
- ADP: вылэ, йылысь
- NOUN: сайын, Водзе, бердас, бӧрас, бӧрсяньыс, вылын, вылэджык, выытіыс, дорас, дорын
- Relat
- Number[subj]
- Plur
- ADJ: равнэйэсь, ӧткойдэсь
- ADV: квайтэнэсь
- Plur
- Person[psor]
- 1
- NOUN: ае, маме, Воке, Супругаа, Чое, ае-маме, аелы, вӧлэсьтсюнум, местэам, семьяанум
- NUM: Мӧдэс, Ӧтікес
- 2
- NOUN: вокыдлэн, нимтэ
- VERB-Vnoun: олэмад
- 3
- ADJ: Коймедсэ, английскейсэ, финскейсэ
- ADP: кузяыс, бӧрас, вылас, дорас, нынніыс
- DET: ставыс
- NOUN: мамыс, тятеис, вомсьыс, гортас, дадьсэ, культураыс, луннас, мамсӧ, местэас, нырсьыс
- PRON: ставыс, мукедъясыс, мӧдъясыслэн
- PROPN: Ляпиныс
- VERB-Conv: велӧдчигӧныс, локтігӧныс, мунігӧныс
- VERB-Vnoun: тӧдэмъяссэ
- 1
Syntax
Auxiliary Verbs and Copula
- This corpus uses 3 lemmas as copulas (cop). Examples: вӧвны, эм, быть.
- This corpus uses 3 lemmas as auxiliaries (aux). Examples: оз, вӧвны, абу.
Core Arguments, Oblique Arguments and Adjuncts
Here we consider only relations between verbs (parent) and nouns or pronouns (child).
- nsubj
- VERB--NOUN-Ill (1)
- VERB--NOUN-Nom (48)
- VERB--PRON (7)
- VERB--PRON-Dat (1)
- VERB--PRON-Gen (2)
- VERB--PRON-Nom (49)
- VERB-Inf--NOUN-Nom (1)
- obj
- VERB--NOUN-Acc (23)
- VERB--NOUN-Dat-ADP(по) (1)
- VERB--NOUN-Nom (27)
- VERB--PRON-Acc (10)
- VERB--PRON-Dat (1)
- VERB--PRON-Nom (6)
- VERB-Inf--NOUN-Acc (8)
- VERB-Inf--NOUN-Nom (5)
- VERB-Inf--PRON-Acc (2)
- VERB-Inf--PRON-Nom (2)
- VERB-Vnoun--NOUN-Acc (1)
- VERB-Vnoun--NOUN-Nom (1)
Relations Overview
- This corpus uses 22 relation subtypes: acl:relcl, advcl:eval, advcl:tcl, advmod:deg, advmod:eval, advmod:lmod, advmod:mmod, advmod:tmod, aux:aspect, aux:cnd, aux:neg, compound:nn, flat:foreign, flat:name, nmod:poss, nmod:prp, nsubj:cop, obl:cau, obl:cmp, obl:lmod, obl:lmp, obl:tmod
- The following 1 main types are not used alone, they are always subtyped: flat
- The following 4 relation types are not used in this corpus at all: iobj, expl, clf, goeswith