UD Komi Permyak UH
Language: Komi Permyak (code: koi
)
Family: Uralic, Permic
This treebank has been part of Universal Dependencies since the UD v2.5 release.
The following people have contributed to making this treebank part of UD: Larisa Ponomareva, Niko Partanen, Jack Rueter, Francis Tyers.
Repository: UD_Komi_Permyak-UH
Search this treebank on-line: PML-TQ
Download all treebanks: UD 2.10
License: CC BY-SA 4.0
Genre: fiction
Questions, comments? General annotation questions (either Komi Permyak-specific or cross-linguistic) can be raised in the main UD issue tracker. You can report bugs in this treebank in the treebank-specific issue tracker on Github. If you want to collaborate, please contact [rueter • jack (æt) gmail • com]. Development of the treebank happens outside the UD repository. If there are bugs, either the original data source or the conversion procedure must be fixed. Do not submit pull requests against the UD repository.
Annotation | Source |
---|---|
Lemmas | annotated manually in non-UD style, automatically converted to UD |
UPOS | annotated manually in non-UD style, automatically converted to UD |
XPOS | annotated manually |
Features | annotated manually in non-UD style, automatically converted to UD |
Relations | annotated manually in non-UD style, automatically converted to UD |
Description
This is a Komi-Permyak literary language treebank consisting of original and translated texts.
Initial Komi-Permyak Universal Dependency type annotation.
This includes 30 sentences originally presented as 20 at http://ilazki.thinkgeek.co.uk/brat/#/uralic/fin with UD v1 dependencies. The additional sentences stem from variation in expression within the Komi-Permyak language, and the text_id with additional letters indicates this variation.
The translation were made by Larisa Ponomareva based on the Finnish, Russian and Komi-Zyrian texts:
- http://ilazki.thinkgeek.co.uk/brat/#/uralic/fin
- http://ilazki.thinkgeek.co.uk/brat/#/uralic/rus
- http://ilazki.thinkgeek.co.uk/brat/#/uralic/kpv
Acknowledgments
UH = University of Helsinki Development repository: https://github.com/rueter/erme-ud-komi-permyak Annotation work is simultaneous to finite-state transducer development by Larisa Ponomareva, Niko Partanen and Jack Rueter in the GiellaLT infrastucture, which also works with Constraint Grammar disambiguation of the morphological analysis.
Work connected to this treebank is described in following publication. If you use this treebank in your work, please cite:
- Rueter, Jack; Partanen, Niko and Ponomareva, Larisa 2020: On the questions in developing computational infrastructure for Komi-Permyak. Proceedings of the Sixth International Workshop on Computational Linguistics of Uralic Languages (pp. 15-25).
References
- Batalova, P.M. (Баталова. Р. М.) Коми-пермяцкая диалектология. М., Изд-во “Наука”, 1975. 252 с.
- Fadejev T. Sjemjalӧn sudjba. 1965 (Фадеев Т. П.) Семьялӧн судьба (висьт) // Иньва. Литературно-художественный сборник. Кудымкар, 1965.
- Fadejev T. Pochkaez osjsjӧny, 1970 (Фадеев Т. П.) Почкаэз оссьӧны (висьт) // Почкаэз оссьӧны: рассказзэз. Кудымкар: Пермское кн. изд-во, Коми-Перм. отделение, 1970
- Fadejev T. Ybshar, 1989 (Фадеев Т. П.) Ыбшар (Роман куим частьын). Кудымкар: Пермское кн. изд-во, Коми-Перм. отделение, 1989.
- Fadejev T. Miritchӧm, 1990 (‒ Фадеев Т. П.) Миритчӧм. Ӧтік акта трагедия // Коми-пермяцкӧӥ национальнӧй драматургия. Ӧтік акта пьесаэз. Кудымкар, 1990
- Fadejev T. Goradzulj, 1993 (Фадеев Т. П.) Горадзуль. Сизим картинаа драма // Коми-пермяцкӧй национальнӧӥ драматургия. Уна акта пьесаэз. Кудымкар, 1993
- Fedosejev S. Vilj gortyn, 1985 (Федосеев С. А.) Виль гортын (повесть) // Пармаын югыт: бӧрйӧм коми-пермяцкӧй проза. Кудымкар: Пермскӧӥ книжнӧй изд-во, Коми-Пермяцкӧй отделеннё, 1985.
- Kanjukov V. Larec, 1994 (‒ Канюков В. И.) Ларец (висьт) // Чарӧтӧм пу. Кудымкар, 1994.
- Lytkin V. I. (chief ed.) 1961 Коми-пермяцкий язык, введение, фонетика, лексика и морфология.
- Minjin I. A. (Минин И. А.) 1968. Panyt yjis tӧlisj(Паныт уйис тӧлісь) (повесть). Кудымкар, 1968.
- Minjin I. A. (Минин И. А.) 1988. Kydz shynjnjalӧ apostol (Кыдз шыннялӧ апостол) (повесть) // Оча морос: повесттез, рассказзэз, пьеса. Кудымкар: Пермское кн. изд-во, Коми-Перм. отделение, 1988.
- Minjin I. A. (Минин И. А.) 1964. Ojsja cvettez (Ойся цветтэз) (висьт) // Оча морос: повесттез, рассказзэз, пьеса. Кудымкар: Пермское кн. изд-во, Коми-Перм. отделение, 1964. (http://komikyv.org/koi/node/31063)
- Ponomareva, L.G. (Пономарева. Л. Г.) Речь северных коми-пермяков. М.: Языки Народов Мира, 2016. 514 с.
- Shadrin I. A. (Шадрин И. А.) 1959. Djoma (Дёма) (висьт) // Тулысся ваэз. Литературно-художественный сборник. Кудымкар, 1959.
- Nekrasova G. A. (Г. А. Некрасова), Sergeeva E. N. (Е. Н. Сергеева) 2018. МАРКИРОВАНИЕ АКТАНТОВ ДВУХМЕСТНЫХ ПРЕДИКАТОВ В КУДЫМКАРСКО-ИНЬВЕНСКОМ ДИАЛЕКТЕ КОМИ-ПЕРМЯЦКОГО ЯЗЫКА. Валентностные классы двухместных предикатов в разноструктурных языках [Valency classes of two-place predicates]. Отв. ред. С. С. Сай: Сборник статей. с. 354–375. СПб.: ИЛИ РАН, 2018. 624 с. ИЯЛИ КНЦ УрО РАН, Сыктывкар, Колледж метрополитена, Санкт-Петербург.
Statistics of UD Komi Permyak UH
POS Tags
ADJ – ADP – ADV – AUX – CCONJ – DET – INTJ – NOUN – NUM – PART – PRON – PROPN – PUNCT – SCONJ – VERB
Features
AdpType – AdvType – Animacy – Case – Connegative – Definite – Degree – Derivation – Evident – Mood – NameType – NounType – Number – Number[psor] – NumType – Person – Person[psor] – Polarity – PronType – Reflex – Tense – Valency – VerbForm – VerbType
Relations
acl – acl:relcl – advcl – advcl:lcl – advcl:mcl – advcl:tcl – advmod – advmod:deg – advmod:lmod – advmod:mmod – advmod:tmod – amod – appos – aux – aux:cnd – aux:neg – case – cc – cc:preconj – ccomp – compound:prt – conj – cop – csubj – det – discourse – dislocated – fixed – flat:name – list – mark – nmod – nmod:lmod – nmod:poss – nsubj – nsubj:cop – nummod – obj – obl – obl:lmod – obl:tmod – orphan – parataxis – punct – root – vocative – xcomp – xcomp:ds
Tokenization and Word Segmentation
- This corpus contains 100 sentences and 921 tokens.
- This corpus contains 189 tokens (21%) that are not followed by a space.
- This corpus does not contain words with spaces.
- This corpus contains 1 types of words that contain both letters and punctuation. Examples: кыкисьӧн-куимисьӧн
Morphology
Tags
- This corpus uses 15 UPOS tags out of 17 possible: ADJ, ADP, ADV, AUX, CCONJ, DET, INTJ, NOUN, NUM, PART, PRON, PROPN, PUNCT, SCONJ, VERB
- This corpus does not use the following tags: SYM, X
- This corpus contains 3 word types tagged as particles (PART): жӧ, и, нӧ
- This corpus contains 17 lemmas tagged as pronouns (PRON): ас, быд, кин, кинкӧ, кык, кытшӧм, кытӧн, кӧда, ме, мый, мыйкӧ, мӧд, сія, тэ, эна, эта, ӧтамӧд
- This corpus contains 4 lemmas tagged as determiners (DET): быд, кык, мукӧд, эта
- Out of the above, 3 lemmas occurred sometimes as PRON and sometimes as DET: быд, кык, эта
- This corpus contains 9 lemmas tagged as auxiliaries (AUX): бы, вермыны, вӧвны, ковны, не, овлыны, овны, оз, позьны
- Out of the above, 4 lemmas occurred sometimes as AUX and sometimes as VERB: вермыны, ковны, овны, оз
- There are 3 (de)verbal forms:
- Conv
- VERB: жалейттӧг, жмитікӧ, куриттӧг, лӧсьӧтікӧ, сайӧвтӧмӧн, ютӧг
- Inf
- AUX: овны
- VERB: вӧтны, бӧрйыны, видзчисьны, воштісьны, керны, куритны, кутчыны, локны, лӧсьӧтны, миссьӧтны
- Part
- VERB: бырӧм, гардчӧмкодь, дорӧм, дрӧжитана, киссьӧм, пырӧм, пӧліньтчӧм
Nominal Features
- Anim
- NOUN: мöс, мöсöс, Мортлӧ, вонӧ, кага, мöссö
- Hum
- NOUN: Петя, Машакöт, соседыс, oтиp, Маша, Машаöс, Машалö
- PROPN: Петялӧн, Мери, Питер, Сэм, Браунӧс, Ворошилов, Джейн, Петрасянь, Смитӧс
- Inan
- ADJ: сісь
- NOUN: керку, бадь, бедьсö, вешьян, видзоккез, кадӧ, касьтылӧм, керкуокыс, керкутöг, ключчез
- Nhum
- PRON: мый
- Plur
- ADJ: гажаӧсь, кокнитӧсь
- AUX: озӧ, эг, эд
- NOUN: Томмес, аннэзӧ, видзоккез, воннэз, гряддэс, думаэз, звездаэз, квартираэсӧ, ключчез, кусттэз
- NUM: нёляӧсь, кыкӧнӧсь
- PRON: нія, эна, Ми, ті
- VERB: вайисӧ, вуджим, вуджӧны, иньдӧтчисӧ, кoтӧpтіcӧ, кокаласӧ, кутчисисӧ, кушамисӧ, лэбтіcиcӧ, мунісӧ
- Sing
- ADJ: Куимӧдз, бур, веськытлань, витӧдз, коричневӧй, сэтшöм, сісь, том, ыджыт
- ADP: дынӧ, бöрсянь, бердас, бердӧ, бокӧ, бӧрсянь, вылын, вылӧ, кежас, кузяс
- ADV: ӧтикӧ
- AUX: оз, вӧлі, эг, эз, верман, коліс, овлӧ, ог, эн
- DET: Быд, Мукӧд
- NOUN: Петя, айӧ, йӧрсӧ, керку, Машакöт, айся, дорас, луныс, мöс, мöсöс
- NUM: кыка, öтiк, кык
- PRON: сія, ме, менам, тэ, сійӧ, тэнат, меным, сылӧ, сылӧн, мыйкӧ
- PROPN: Петялӧн, Мери, Питер, Парижын, Сэм, Браунӧс, Ворошилов, Джейн, Дёма, Игаузу
- VERB: зэрӧ, босьтіс, быдмис, вашöтö, высьтіс, гижис, котӧртіс, краситӧм, краситӧма, осьт
- VERB-Part: бырӧм, гардчӧмкодь, дорӧм, киссьӧм, пырӧм, пӧліньтчӧм
- Abe
- NOUN: Льӧмваыстӧг, керкутöг
- Acc
- NOUN: йӧрсӧ, мöсöс, ӧшынсӧ, Машаöс, бедьсö, инькасӧ, квартираэсӧ, логсӧ, мöссö, ольпасьӧс
- PRON: сійӧ, кыкнаннысӧ, менӧ, этӧ
- PROPN: Браунӧс, Смитӧс
- Apr
- ADJ: веськытлань
- PRON: мелань
- Cmp
- NOUN: айся, айытся
- Com
- NOUN: Машакöт
- PRON: мекӧт
- Dat
- NOUN: Машалö, Мортлӧ, айкаыслӧ, семьялӧ, ёртыслӧ
- PRON: меным, сылӧ, ӧтамӧдлӧ
- Egr
- ADP: бöрсянь, бӧрсянь
- NOUN: лaдopcянь, ладорсяняс
- PROPN: Петрасянь
- Ela
- ADV: дасöтiсь
- NOUN: васис, гидсис, дорись, жырись, коласісь
- Gen
- PRON: менам, тэнат, сылӧн
- PROPN: Петялӧн, Франциялӧн
- Ill
- ADP: дынӧ, бердас, бердӧ, бокӧ, вылӧ, кежас, кузяс, одзӧ
- ADV: кытчӧ, ӧтикӧ
- NOUN: гортас, дорас, дынӧ, кадӧ, ладорӧ, лунас, лунӧ, муӧ, ойӧ, пельӧсокӧ
- VERB-Conv: жмитікӧ, лӧсьӧтікӧ
- Ine
- ADP: бокын, вылын
- ADV: кытӧн, пыдын
- NOUN: юркарын, вылын, дорас, дорын, керкуын, небоын, сарайын, увтын, ылын, ю
- PRON: кытӧн
- PROPN: Парижын
- Ins
- NOUN: ойнас, голосӧн, кинас, посудаöн, пӧввезӧн
- Nom
- ADJ: Куимӧдз, бур, витӧдз, коричневӧй, сэтшöм, сісь, том, ыджыт
- DET: Быд, Мукӧд
- NOUN: Петя, айӧ, керку, луныс, мöс, машина, морт, олісьыс, охота, соседыс
- NUM: öтiк, кык
- PRON: сія, ме, тэ, мый, мыйкӧ, нія, эна, Ми, Мӧдыс, Сiя
- PROPN: Мери, Питер, Сэм, Ворошилов, Джейн, Дёма, Игаузу, Лида, Митя, Прокоп
- VERB-Part: бырӧм, гардчӧмкодь, дорӧм, киссьӧм, пырӧм, пӧліньтчӧм
- Prl
- NOUN: местаэзӧт
- Ind
- ADV: мылякӧ
Degree and Polarity
- Cmp
- ADJ: буржык
- ADV: дыржык
- Neg
- AUX: эз, оз, эг, не, озӧ, ог, эд, эн
- VERB: эд
Verbal Features
- Imp
- VERB: осьт
- Ind
- AUX: оз, эг, вӧлі, озӧ, эз, верман, коліс, овлӧ, ог, эд
- VERB: зэрӧ, босьтіс, быдмис, вашöтö, высьтіс, гижис, котӧртіс, краситӧм, краситӧма, петас
- Fut
- VERB: петас, кокаласӧ, локтас, сетас, шедас
- Past
- AUX: эз, эг, вӧлі, коліс, эд, эн
- VERB: босьтіс, быдмис, высьтіс, гижис, котӧртіс, краситӧм, краситӧма, пондыліс, тшӧктіс, юаліс
- VERB-Part: бырӧм, гардчӧмкодь, дорӧм, киссьӧм, пырӧм, пӧліньтчӧм
- Pres
- AUX: оз, озӧ, верман, овлӧ, ог
- NUM: кыкӧнӧсь
- VERB: зэрӧ, вашöтö, тыдалӧ, Висьтала, Кылӧ, Мунан, адззö, адзза, брезгуйтö, веритö
- Nfh
- VERB: краситӧм, краситӧма, вӧвдӧм, чужӧма, ылӧстӧма
Pronouns, Determiners, Quantifiers
- Dem
- ADJ: сэтшӧм, сэтшöм
- PRON: эна, этӧ, Эта
- Ind
- PRON: мыйкӧ, кинкӧ
- Int
- ADV: Кыдз, кытчӧ, кытӧн
- PRON: Мый, Кытшӧм, кин, кытӧн
- Prs
- PRON: сія, ме, менам, тэ, сійӧ, тэнат, меным, сылӧ, сылӧн, ас
- Rel
- ADV: кыдз, кытӧн
- PRON: кӧда, мый
- Tot
- DET: Кыкнан, Быд
- PRON: быд, кыкнаннысӧ
- Card
- ADV: ӧтикӧ
- NUM: кык, куим, öтiк
- Dist
- NUM: Кыкӧн, кыкӧнӧсь
- MultDist
- ADV: кыкисьӧн, кыкисьӧн-куимисьӧн
- Ord
- ADJ: Куимӧдз, витӧдз
- OrdMult
- ADV: дасöтiсь
- Yes
- PRON: ас
- 1
- AUX: эг, вӧлі, ог
- PRON: ме, менам, меным, Ми, мекӧт, мелань, менӧ
- VERB: Висьтала, Пукси, адзза, вежӧрті, ветлӧті, видзӧті, вуграся, вуджим, дугда, кошши
- 2
- AUX: верман, эд, эн
- PRON: тэ, тэнат, ті
- VERB: осьт, Локтін, Мунан, веритан, видзӧтан, думайтан, эд
- 3
- AUX: эз, оз, озӧ, Вӧлі, коліс, овлӧ
- NUM: кыкӧнӧсь
- PRON: сія, сійӧ, сылӧ, сылӧн, нія, Сiя, Сы
- VERB: зэрӧ, босьтіс, быдмис, вашöтö, высьтіс, гижис, котӧртіс, краситӧм, краситӧма, петас
- Plur
- PRON: кыкнаннысӧ
- Sing
- ADP: бердас, кежас, кузяс
- NOUN: айӧ, йӧрсӧ, дорас, луныс, ойнас, олісьыс, соседыс, Кагаыс, Льӧмваыстӧг, Томмес
- PRON: Мӧдыс
Other Features
- AdpType
- Post
- ADP: гöгöр, дынӧ, бöрсянь, бердас, бердӧ, бокӧ, бӧрсянь, вылын, вылӧ, кежас
- Post
- AdvType
- Deg
- ADV: сё, дзик
- Loc
- ADP: дынӧ, бöрсянь, бердас, бердӧ, бокын, бокӧ, бӧрсянь, вылын, вылӧ, одзӧ
- ADV: кытчӧ, кытӧн
- Man
- ADV: кыдз
- Deg
- Connegative
- Yes
- AUX: вермы, вӧв, позь
- VERB: адззыв, вежӧртӧ, вермы, гленитчы, ков, лок, понды, содты, тӧд, тӧдӧ
- Yes
- Derivation
- Ana
- VERB-Part: дрӧжитана
- CompMod
- VERB-Part: гардчӧмкодь
- Dimin
- NOUN: видзоккез, керкуокыс, пельӧсокӧ
- Ik
- VERB-Conv: жмитікӧ, лӧсьӧтікӧ
- Omon
- VERB-Conv: сайӧвтӧмӧн
- ProprietiveMod
- NOUN: Сеня, тошока, уссэза, ӧшына
- VAbe
- VERB-Conv: жалейттӧг, куриттӧг, ютӧг
- Ana
- NameType
- Geo
- PROPN: Парижын, Игаузу, Франция, Франциялӧн
- Giv
- NOUN: Сеня
- PROPN: Петялӧн, Мери, Питер, Сэм, Тулика, Джейн, Дёма, Лида, Митя, Петрасянь
- Sur
- PROPN: Браунӧс, Ворошилов, Смитӧс
- Geo
- NounType
- Relat
- NOUN: вылын, дорись, сайӧ, ылын
- Relat
- Person[psor]
- 1
- NOUN: айӧ, аннэзӧ, вонӧ, сайӧ, туйӧ, увтӧ
- 2
- NOUN: айыт, айытся
- VERB-Inf: боньгыныт
- 3
- ADP: бердас, кежас, кузяс
- NOUN: йӧрсӧ, дорас, луныс, ойнас, олісьыс, соседыс, Кагаыс, Льӧмваыстӧг, Томмес, айкаыслӧ
- PRON: Мӧдыс, кыкнаннысӧ
- 1
- Valency
- 1
- VERB-Inf: овны, тӧдны
- 1
- VerbType
- Aux
- AUX: эз
- Aux
Syntax
Auxiliary Verbs and Copula
- This corpus uses 3 lemmas as copulas (cop). Examples: вӧвны, овлыны, овны.
- This corpus uses 3 lemmas as auxiliaries (aux). Examples: вермыны, ковны, позьны.
Core Arguments, Oblique Arguments and Adjuncts
Here we consider only relations between verbs (parent) and nouns or pronouns (child).
- nsubj
- VERB--NOUN-Nom (45)
- VERB--PRON-Nom (31)
- VERB-Inf--PRON-Nom (3)
- obj
- VERB--NOUN-Acc (16)
- VERB--NOUN-Nom (16)
- VERB--PRON-Acc (4)
- VERB--PRON-Nom (1)
- VERB-Conv--NOUN-Acc (3)
- VERB-Conv--NOUN-Nom (1)
- VERB-Inf--NOUN-Acc (1)
- VERB-Inf--NOUN-Nom (1)
- VERB-Inf--PRON-Acc (3)
Relations Overview
- This corpus uses 19 relation subtypes: acl:relcl, advcl:lcl, advcl:mcl, advcl:tcl, advmod:deg, advmod:lmod, advmod:mmod, advmod:tmod, aux:cnd, aux:neg, cc:preconj, compound:prt, flat:name, nmod:lmod, nmod:poss, nsubj:cop, obl:lmod, obl:tmod, xcomp:ds
- The following 2 main types are not used alone, they are always subtyped: compound, flat
- The following 6 relation types are not used in this corpus at all: iobj, expl, clf, goeswith, reparandum, dep