UD Komi Permyak UH
Language: Komi Permyak (code: koi
)
Family: Uralic, Permic
This treebank has been part of Universal Dependencies since the UD v2.5 release.
The following people have contributed to making this treebank part of UD: Larisa Ponomareva, Niko Partanen, Jack Rueter, Francis Tyers.
Repository: UD_Komi_Permyak-UH
Search this treebank on-line: PML-TQ
Download all treebanks: UD 2.13
License: CC BY-SA 4.0
Genre: fiction
Questions, comments? General annotation questions (either Komi Permyak-specific or cross-linguistic) can be raised in the main UD issue tracker. You can report bugs in this treebank in the treebank-specific issue tracker on Github. If you want to collaborate, please contact [rueter • jack (æt) gmail • com]. Development of the treebank happens outside the UD repository. If there are bugs, either the original data source or the conversion procedure must be fixed. Do not submit pull requests against the UD repository.
Annotation | Source |
---|---|
Lemmas | annotated manually in non-UD style, automatically converted to UD |
UPOS | annotated manually in non-UD style, automatically converted to UD |
XPOS | annotated manually |
Features | annotated manually in non-UD style, automatically converted to UD |
Relations | annotated manually in non-UD style, automatically converted to UD |
Description
This is a Komi-Permyak literary language treebank consisting of original and translated texts.
Initial Komi-Permyak Universal Dependency type annotation.
This includes 30 sentences originally presented as 20 at http://ilazki.thinkgeek.co.uk/brat/#/uralic/fin with UD v1 dependencies. The additional sentences stem from variation in expression within the Komi-Permyak language, and the text_id with additional letters indicates this variation. Additionally other sentences have been added in the later releases.
The translation were made by Larisa Ponomareva based on the Finnish, Russian and Komi-Zyrian texts:
- http://ilazki.thinkgeek.co.uk/brat/#/uralic/fin
- http://ilazki.thinkgeek.co.uk/brat/#/uralic/rus
- http://ilazki.thinkgeek.co.uk/brat/#/uralic/kpv
Acknowledgments
UH = University of Helsinki Development repository: https://github.com/rueter/erme-ud-komi-permyak Annotation work is simultaneous to finite-state transducer development by Larisa Ponomareva, Niko Partanen and Jack Rueter in the GiellaLT infrastucture, which also works with Constraint Grammar disambiguation of the morphological analysis.
Work connected to this treebank is described in following publication. If you use this treebank in your work, please cite:
- Rueter, Jack; Partanen, Niko and Ponomareva, Larisa 2020: On the questions in developing computational infrastructure for Komi-Permyak. Proceedings of the Sixth International Workshop on Computational Linguistics of Uralic Languages (pp. 15-25).
References
- Batalova, P.M. (Баталова. Р. М.) Коми-пермяцкая диалектология. М., Изд-во “Наука”, 1975. 252 с.
- Fadejev T. Sjemjalӧn sudjba. 1965 (Фадеев Т. П.) Семьялӧн судьба (висьт) // Иньва. Литературно-художественный сборник. Кудымкар, 1965.
- Fadejev T. Pochkaez osjsjӧny, 1970 (Фадеев Т. П.) Почкаэз оссьӧны (висьт) // Почкаэз оссьӧны: рассказзэз. Кудымкар: Пермское кн. изд-во, Коми-Перм. отделение, 1970
- Fadejev T. Ybshar, 1989 (Фадеев Т. П.) Ыбшар (Роман куим частьын). Кудымкар: Пермское кн. изд-во, Коми-Перм. отделение, 1989.
- Fadejev T. Miritchӧm, 1990 (‒ Фадеев Т. П.) Миритчӧм. Ӧтік акта трагедия // Коми-пермяцкӧӥ национальнӧй драматургия. Ӧтік акта пьесаэз. Кудымкар, 1990
- Fadejev T. Goradzulj, 1993 (Фадеев Т. П.) Горадзуль. Сизим картинаа драма // Коми-пермяцкӧй национальнӧӥ драматургия. Уна акта пьесаэз. Кудымкар, 1993
- Fedosejev S. Vilj gortyn, 1985 (Федосеев С. А.) Виль гортын (повесть) // Пармаын югыт: бӧрйӧм коми-пермяцкӧй проза. Кудымкар: Пермскӧӥ книжнӧй изд-во, Коми-Пермяцкӧй отделеннё, 1985.
- Kanjukov V. Larec, 1994 (‒ Канюков В. И.) Ларец (висьт) // Чарӧтӧм пу. Кудымкар, 1994.
- Lytkin V. I. (chief ed.) 1961 Коми-пермяцкий язык, введение, фонетика, лексика и морфология.
- Minjin I. A. (Минин И. А.) 1968. Panyt yjis tӧlisj(Паныт уйис тӧлісь) (повесть). Кудымкар, 1968.
- Minjin I. A. (Минин И. А.) 1988. Kydz shynjnjalӧ apostol (Кыдз шыннялӧ апостол) (повесть) // Оча морос: повесттез, рассказзэз, пьеса. Кудымкар: Пермское кн. изд-во, Коми-Перм. отделение, 1988.
- Minjin I. A. (Минин И. А.) 1964. Ojsja cvettez (Ойся цветтэз) (висьт) // Оча морос: повесттез, рассказзэз, пьеса. Кудымкар: Пермское кн. изд-во, Коми-Перм. отделение, 1964. (http://komikyv.org/koi/node/31063)
- Ponomareva, L.G. (Пономарева. Л. Г.) Речь северных коми-пермяков. М.: Языки Народов Мира, 2016. 514 с.
- Shadrin I. A. (Шадрин И. А.) 1959. Djoma (Дёма) (висьт) // Тулысся ваэз. Литературно-художественный сборник. Кудымкар, 1959.
- Nekrasova G. A. (Г. А. Некрасова), Sergeeva E. N. (Е. Н. Сергеева) 2018. МАРКИРОВАНИЕ АКТАНТОВ ДВУХМЕСТНЫХ ПРЕДИКАТОВ В КУДЫМКАРСКО-ИНЬВЕНСКОМ ДИАЛЕКТЕ КОМИ-ПЕРМЯЦКОГО ЯЗЫКА. Валентностные классы двухместных предикатов в разноструктурных языках [Valency classes of two-place predicates]. Отв. ред. С. С. Сай: Сборник статей. с. 354–375. СПб.: ИЛИ РАН, 2018. 624 с. ИЯЛИ КНЦ УрО РАН, Сыктывкар, Колледж метрополитена, Санкт-Петербург.
Statistics of UD Komi Permyak UH
POS Tags
ADJ – ADP – ADV – AUX – CCONJ – DET – INTJ – NOUN – NUM – PART – PRON – PROPN – PUNCT – SCONJ – VERB
Features
AdpType – AdvType – Animacy – Case – Connegative – Definite – Degree – Derivation – Evident – Mood – NameType – NounType – Number – Number[psor] – Number[subj] – NumType – Person – Person[psor] – Polarity – PronType – Reflex – Tense – Variant – VerbForm – VerbType
Relations
acl – acl:relcl – advcl – advcl:lcl – advcl:mcl – advcl:tcl – advmod – advmod:deg – advmod:lmod – advmod:mmod – advmod:tmod – amod – appos – aux – aux:cnd – aux:neg – aux:pot – case – cc – cc:preconj – ccomp – compound:prt – conj – cop – csubj – det – discourse – dislocated – expl – fixed – flat:name – list – mark – nmod – nmod:lmod – nmod:poss – nsubj – nsubj:cop – nummod – obj – obl – obl:lmod – obl:tmod – orphan – parataxis – punct – root – vocative – xcomp – xcomp:ds
Tokenization and Word Segmentation
- This corpus contains 114 sentences and 1003 tokens.
- This corpus contains 208 tokens (21%) that are not followed by a space.
- This corpus does not contain words with spaces.
- This corpus contains 2 types of words that contain both letters and punctuation. Examples: А-а, кыкисьӧн-куимисьӧн
Morphology
Tags
- This corpus uses 15 UPOS tags out of 17 possible: ADJ, ADP, ADV, AUX, CCONJ, DET, INTJ, NOUN, NUM, PART, PRON, PROPN, PUNCT, SCONJ, VERB
- This corpus does not use the following tags: SYM, X
- This corpus contains 4 word types tagged as particles (PART): а, жӧ, и, нӧ
- This corpus contains 20 lemmas tagged as pronouns (PRON): ас, ачыт, быд, кин, кинкӧ, кык, кытшӧм, кытӧн, кӧда, ме, мый, мыйкӧ, мӧд, сыв, сія, тэ, эна, этö, эта, ӧтамӧд
- This corpus contains 4 lemmas tagged as determiners (DET): быд, кык, мукӧд, эта
- Out of the above, 3 lemmas occurred sometimes as PRON and sometimes as DET: быд, кык, эта
- This corpus contains 10 lemmas tagged as auxiliaries (AUX): абу, бы, вермыны, вӧвны, ковны, не, овлыны, овны, оз, позьны
- Out of the above, 4 lemmas occurred sometimes as AUX and sometimes as VERB: вермыны, ковны, овны, оз
- There are 3 (de)verbal forms:
- Conv
- VERB: жалейттӧг, жмитікӧ, куриттӧг, лӧсьӧтікӧ, сайӧвтӧмӧн, ютӧг
- Inf
- AUX: овны
- VERB: вӧтны, керны, адззавлыны, бӧрйыны, видзчисьны, воштісьны, куритны, кутчыны, локны, лӧсьӧтны
- Part
- VERB: бырӧм, гардчӧмкодь, дорӧм, дрӧжитана, киссьӧм, пырӧм, пӧліньтчӧм
Nominal Features
- Anim
- NOUN: мöс, мöсöс, Мортлӧ, Челядьыс, айтöг, айыс, вонӧ, кага, мöссö, морт
- Hum
- NOUN: Петя, Машакöт, соседыс, oтиp, Маша, Машаöс, Машалö
- PROPN: Петялӧн, Мери, Питер, Сэм, Браунӧс, Ворошилов, Джейн, Петрасянь, Смитӧс
- Inan
- ADJ: сісь
- NOUN: керку, Бабö, Деньга, бадь, бедьсö, вешьян, видзоккез, кадӧ, касьтылӧм, керкуокыс
- Nhum
- PRON: мый
- Plur
- ADJ: гажаӧсь, кокнитӧсь
- AUX: озӧ, эг, эгö, эд
- NOUN: Томмес, Тшаккесö, аннэзӧ, видзоккез, воннэз, гряддэс, думаэз, звездаэз, квартираэсӧ, ключчез
- NUM: нёляӧсь, кыкӧнӧсь
- PRON: нія, эна, Ми, ті
- VERB: вайисӧ, вуджим, вуджӧны, иньдӧтчисӧ, кoтӧpтіcӧ, кокаласӧ, кутчисисӧ, кушамисӧ, лэбтіcиcӧ, мунісӧ
- Sing
- ADJ: Куимӧдз, бур, веськытлань, витӧдз, коричневӧй, сэтшöм, сісь, том, ыджыт
- ADP: дынӧ, бöрсянь, бердас, бердӧ, бокӧ, бӧрсянь, вылö, вылын, вылӧ, кежас
- ADV: ӧтикӧ
- AUX: оз, эз, вӧлі, эг, верман, коліс, овлӧ, ог, он, эн
- DET: Быд, Мукӧд
- NOUN: Петя, айӧ, йӧрсӧ, керку, морт, Машакöт, айся, гортас, дорас, луныс
- NUM: кыка, öтiк, кык
- PRON: сія, ме, тэ, менам, сійӧ, тэнат, меным, сылӧ, сылӧн, мыйкӧ
- PROPN: Петялӧн, Мери, Питер, Парижын, Сэм, Браунӧс, Ворошилов, Джейн, Дёма, Игаузу
- VERB: зэрӧ, быдмис, босьтіс, вашöтö, высьтіс, гижис, котӧртіс, краситӧм, краситӧма, локтін
- VERB-Part: бырӧм, гардчӧмкодь, дорӧм, киссьӧм, пырӧм, пӧліньтчӧм
- Abe
- NOUN: Льӧмваыстӧг, айтöг, керкутöг, крышатӧм
- Acc
- NOUN: йӧрсӧ, мöсöс, ӧшынсӧ, Абызсö, Машаöс, Тшаккесö, бедьсö, инькасӧ, квартираэсӧ, логсӧ
- PRON: сійӧ, кыкнаннысӧ, менӧ, этӧ
- PROPN: Браунӧс, Смитӧс
- Apr
- ADJ: веськытлань
- PRON: мелань
- Cmp
- NOUN: айся, айытся
- Com
- NOUN: Машакöт
- PRON: мекӧт
- Dat
- NOUN: Машалö, Мортлӧ, айкаыслӧ, семьялӧ, ёртыслӧ
- PRON: меным, сылӧ, ӧтамӧдлӧ
- Egr
- ADP: бöрсянь, бӧрсянь
- NOUN: лaдopcянь, ладорсяняс
- PROPN: Петрасянь
- Ela
- ADV: дасöтiсь
- NOUN: васис, гидсис, дорись, жырись, коласісь, местасис
- Gen
- PRON: менам, тэнат, сылӧн, Сылöн
- PROPN: Петялӧн, Франциялӧн
- Ill
- ADP: дынӧ, бердас, бердӧ, бокӧ, вылö, вылӧ, кежас, кузяс, одзӧ
- ADV: кытчӧ, ӧтикӧ
- NOUN: гортас, Бабö, дорас, дынӧ, кадӧ, ладорӧ, лунас, лунӧ, муӧ, ойӧ
- VERB-Conv: жмитікӧ, лӧсьӧтікӧ
- Ine
- ADP: бокын, вылын
- ADV: кытӧн, пыдын
- NOUN: юркарын, вылын, деревняын, дорас, дорын, керкуын, небоын, сарайын, увтын, ылын
- PRON: кытӧн
- PROPN: Парижын
- Ins
- NOUN: ойнас, голосӧн, кинас, посудаöн, пӧввезӧн
- PRON: сылöн
- Nom
- ADJ: Куимӧдз, бур, витӧдз, коричневӧй, сэтшöм, сісь, том, ыджыт
- DET: Быд, Мукӧд
- NOUN: Петя, айӧ, керку, морт, луныс, мöс, машина, олісьыс, охота, соседыс
- NUM: öтiк, кык
- PRON: сія, ме, тэ, мый, мыйкӧ, нія, эна, Ми, Мӧдыс, Сiя
- PROPN: Мери, Питер, Сэм, Ворошилов, Джейн, Дёма, Игаузу, Лида, Митя, Прокоп
- VERB-Part: бырӧм, гардчӧмкодь, дорӧм, киссьӧм, пырӧм, пӧліньтчӧм
- Prl
- NOUN: местаэзӧт
- Ind
- ADV: мылякӧ
Degree and Polarity
- Cmp
- ADJ: буржык
- ADV: дыржык
- Dim
- NOUN: видзоккез, керкуокыс, пельӧсокӧ
- Neg
- ADV: ни
- AUX: абу, эз, оз, эг, не, озӧ, абуöсь, ог, он, эгö
- VERB: эд
- Nomin
- NOUN: крышатӧм
- Vclause
- NOUN: Льӧмваыстӧг, айтöг, керкутöг
Verbal Features
- Imp
- VERB: осьт, кольччы
- Ind
- AUX: оз, эг, эз, вӧлі, озӧ, верман, коліс, овлӧ, ог, он
- VERB: зэрӧ, быдмис, босьтіс, вашöтö, высьтіс, гижис, котӧртіс, краситӧм, краситӧма, локтін
- Fut
- VERB: петас, кокаласӧ, локтас, сетас, шедас
- Past
- AUX: эз, эг, вӧлі, коліс, эгö, эд, эн
- VERB: быдмис, босьтіс, высьтіс, гижис, котӧртіс, краситӧм, краситӧма, локтін, пондыліс, тшӧктіс
- VERB-Part: бырӧм, гардчӧмкодь, дорӧм, киссьӧм, пырӧм, пӧліньтчӧм
- Pres
- AUX: оз, озӧ, верман, овлӧ, ог, он
- NUM: кыкӧнӧсь
- VERB: зэрӧ, вашöтö, тыдалӧ, Висьтала, Кылӧ, Мунан, адззö, адзза, брезгуйтö, веритö
- Nfh
- VERB: краситӧм, краситӧма, велöтчылöма, вӧвдӧм, чужӧма, ылӧстӧма
Pronouns, Determiners, Quantifiers
- Dem
- ADJ: сэтшӧм, сэтшöм
- PRON: эна, этӧ, Эта
- Ind
- PRON: мыйкӧ, кинкӧ
- Int
- ADV: Кыдз, кытчӧ, кытӧн
- PRON: Мый, Кытшӧм, кин, кытӧн
- Prs
- PRON: сія, ме, тэ, менам, сійӧ, тэнат, меным, сылӧ, сылӧн, ас
- Rel
- ADV: кыдз, кытӧн
- PRON: кӧда, мый
- Tot
- DET: Кыкнан, Быд
- PRON: быд, кыкнаннысӧ
- Card
- ADV: ӧтикӧ
- NUM: кык, куим, öтiк
- Dist
- NUM: Кыкӧн, кыкӧнӧсь
- MultDist
- ADV: кыкисьӧн, кыкисьӧн-куимисьӧн
- Ord
- ADJ: Куимӧдз, витӧдз
- OrdMult
- ADV: дасöтiсь
- Yes
- PRON: ас, ачыт
- 1
- AUX: эг, вӧлі, ог, эгö
- PRON: ме, менам, меным, Ми, мекӧт, мелань, менӧ
- VERB: Висьтала, Пукси, адзза, вежӧрті, ветлӧті, видзӧті, вуграся, вуджим, дугда, кошши
- 2
- AUX: верман, он, эд, эн
- PRON: тэ, тэнат, ачыт, ті
- VERB: локтін, осьт, Мунан, веритан, видзӧтан, думайтан, кольччы, эд
- 3
- AUX: эз, оз, озӧ, Вӧлі, коліс, овлӧ
- NUM: кыкӧнӧсь
- PRON: сія, сійӧ, сылӧ, сылӧн, нія, Сiя, Сы, Сылöн
- VERB: зэрӧ, быдмис, босьтіс, вашöтö, высьтіс, гижис, котӧртіс, краситӧм, краситӧма, петас
- Plur
- PRON: кыкнаннысӧ
- Sing
- ADP: бердас, кежас, кузяс
- NOUN: айӧ, йӧрсӧ, гортас, дорас, луныс, ойнас, олісьыс, соседыс, Абызсö, Кагаыс
- PRON: Мӧдыс
Other Features
- AdpType
- Post
- ADP: гöгöр, дынӧ, бöрсянь, бердас, бердӧ, бокӧ, бӧрсянь, вылö, вылын, вылӧ
- Post
- AdvType
- Deg
- ADV: сё, дзик
- Loc
- ADP: дынӧ, бöрсянь, бердас, бердӧ, бокын, бокӧ, бӧрсянь, вылö, вылын, вылӧ
- ADV: кытчӧ, кытӧн
- Man
- ADV: кыдз
- Deg
- Connegative
- Yes
- AUX: вермы, вӧв, позь
- VERB: адззыв, вöрзьöт, вежӧртӧ, вермы, гленитчы, ков, лок, мун, понды, содты
- Yes
- Derivation
- Ana
- VERB-Part: дрӧжитана
- CompMod
- VERB-Part: гардчӧмкодь
- Ik
- VERB-Conv: жмитікӧ, лӧсьӧтікӧ
- Omon
- VERB-Conv: сайӧвтӧмӧн
- ProprietiveMod
- NOUN: Сеня, тошока, уссэза, ӧшына
- VAbe
- VERB-Conv: жалейттӧг, куриттӧг, ютӧг
- Ana
- NameType
- Geo
- PROPN: Парижын, Игаузу, Франция, Франциялӧн
- Giv
- NOUN: Сеня
- PROPN: Петялӧн, Мери, Питер, Сэм, Тулика, Джейн, Дёма, Лида, Митя, Петрасянь
- Sur
- PROPN: Браунӧс, Ворошилов, Смитӧс
- Geo
- NounType
- Relat
- NOUN: вылын, дорись, сайӧ, ылын
- Relat
- Number[subj]
- Plur
- ADJ: сьöрьяöсь
- AUX: абуöсь
- Plur
- Person[psor]
- 1
- NOUN: айӧ, аннэзӧ, вонӧ, сайӧ, туйӧ, увтӧ
- 2
- NOUN: айыт, айытся
- VERB-Inf: боньгыныт
- 3
- ADP: бердас, кежас, кузяс
- NOUN: йӧрсӧ, гортас, дорас, луныс, ойнас, олісьыс, соседыс, Абызсö, Кагаыс, Льӧмваыстӧг
- PRON: Мӧдыс, кыкнаннысӧ
- 1
- VerbType
- Aux
- AUX: эз
- Aux
Syntax
Auxiliary Verbs and Copula
- This corpus uses 3 lemmas as copulas (cop). Examples: вӧвны, овлыны, овны.
- This corpus uses 2 lemmas as auxiliaries (aux). Examples: вермыны, ковны.
Core Arguments, Oblique Arguments and Adjuncts
Here we consider only relations between verbs (parent) and nouns or pronouns (child).
- nsubj
- VERB--NOUN-Ill (1)
- VERB--NOUN-Nom (45)
- VERB--PRON-Nom (37)
- VERB-Inf--PRON-Nom (3)
- obj
- VERB--NOUN-Acc (18)
- VERB--NOUN-Nom (16)
- VERB--PRON-Acc (4)
- VERB--PRON-Nom (1)
- VERB-Conv--NOUN-Acc (3)
- VERB-Conv--NOUN-Nom (1)
- VERB-Inf--NOUN-Acc (1)
- VERB-Inf--NOUN-Nom (1)
- VERB-Inf--PRON-Acc (3)
Relations Overview
- This corpus uses 20 relation subtypes: acl:relcl, advcl:lcl, advcl:mcl, advcl:tcl, advmod:deg, advmod:lmod, advmod:mmod, advmod:tmod, aux:cnd, aux:neg, aux:pot, cc:preconj, compound:prt, flat:name, nmod:lmod, nmod:poss, nsubj:cop, obl:lmod, obl:tmod, xcomp:ds
- The following 2 main types are not used alone, they are always subtyped: compound, flat
- The following 5 relation types are not used in this corpus at all: iobj, clf, goeswith, reparandum, dep