UD Middle Armenian ArmTDP
Language: Middle Armenian (code: axm)
Family: IE
This treebank has been part of Universal Dependencies since the UD v2.18 release.
The following people have contributed to making this treebank part of UD: Anna S. Danielyan, Marat M. Yavrumyan.
Repository: UD_Middle_Armenian-ArmTDP
Search this treebank on-line: PML-TQ
Download all treebanks: UD 2.18
License: CC BY-SA 4.0
Genre: legal, medical
Questions, comments? General annotation questions (either Middle Armenian-specific or cross-linguistic) can be raised in the main UD issue tracker. You can report bugs in this treebank in the treebank-specific issue tracker on Github. If you want to collaborate, please contact [adanielyan (æt) ysu • am]. Development of the treebank happens directly in the UD repository, so you may submit bug fixes as pull requests against the dev branch.
| Annotation | Source |
|---|---|
| Lemmas | annotated manually |
| UPOS | annotated manually, natively in UD style |
| XPOS | not available |
| Features | annotated manually, natively in UD style |
| Relations | annotated manually, natively in UD style |
Description
A Universal Dependencies treebank for Middle Armenian developed for UD originally by the ArmTDP team led by Marat M. Yavrumyan at the Yerevan State University.
The UD_Middle_Armenian-ArmTDP treebank is derived from the Middle Armenian component of the ArmTDP v3.0 (Հայերենի ծառադարան), a comprehensive corpus of the Armenian language across various genres. Adhering strictly to Universal Dependencies (UD) guidelines, the dataset was manually annotated by the ArmTDP team. The processing pipeline—including tokenization and POS-tagging—utilized a hybrid approach of glossary-based automation followed by rigorous manual revision. As the only manually verified corpus of Middle Armenian, it provides exhaustive morphological and syntactic annotations, featuring complete dependency trees for every sentence.
Acknowledgments
This work was supported by the Higher Education and Science Committee of the Ministry of Education, Science, Culture and Sports of the Republic of Armenia (Research Project № 27TARGET-6B173). The main contributor, Anna S. Danielyan, was involved in COST Action CA21167 — Universality, Diversity and Idiosyncrasy in Language Technology (UniDive).
References
This treebank can also be referenced:
@misc{UD_Middle_Armenian-ArmTDP,
title={{UD_Middle_Armenian-ArmTDP}: Universal Dependencies for Middle Armenian},
url={https://github.com/UniversalDependencies/UD_Middle_Armenian-ArmTDP},
author={
Anna S. Danielyan and Marat M. Yavrumyan
},
year={2026},
}
Format
UD_Middle_Armenian-ArmTDP data conforms to CoNLL-U format with the following specifics:
- Sentence-level comments:
- Document titles are present as
# doc_title = Քննութիւն բնութեան մարդոյ. - Document boundaries are present as
# newdoc id = legal/medical-xxxx. - Sentence-level paragraph boundaries are present as
# newpar id = newdoc-xxxx. - Sentence boundaries are present as
# sent_id = newdoc-newparxxxx. - XPOSTAG column is currently unused.
- No enhanced dependencies or empty nodes present in DEPS column.
- MISC column:
SpaceAfter=Nomarkers are present.- Document, paragraph, sentence, and token ids are 4-character base-32 numbers. They survive treebank updates.
Statistics of UD Middle Armenian ArmTDP
POS Tags
ADJ – ADP – ADV – AUX – CCONJ – DET – NOUN – NUM – PART – PRON – PROPN – PUNCT – SCONJ – VERB
Features
AdpType – Animacy – Aspect – Case – Definite – Degree – Deixis – Deixis[psor] – ExtPos – Mood – NameType – Number – NumForm – NumType – Person – Polarity – PronType – Reflex – Style – Subcat – Tense – Typo – VerbForm – Voice
Relations
acl – acl:relcl – advcl – advcl:relcl – advmod – advmod:emph – amod – appos – aux – aux:caus – case – cc – ccomp – compound:lvc – compound:redup – conj – cop – csubj – csubj:outer – det – det:poss – discourse – dislocated – fixed – iobj – mark – nmod – nmod:npmod – nmod:poss – nsubj – nsubj:outer – nsubj:pass – nummod – obj – obl – orphan – parataxis – punct – root – xcomp
Tokenization and Word Segmentation
- This corpus contains 27 sentences, 1028 tokens and 1093 syntactic words.
- This corpus contains 178 tokens (17%) that are not followed by a space.
- This corpus does not contain words with spaces.
- This corpus does not contain words that contain both letters and punctuation.
- This corpus contains 65 multi-word tokens. On average, one multi-word token consists of 2.00 syntactic words.
- There are 50 types of multi-word tokens. Examples: զմարդն, զայս, զկինն, զորդիսն, յոչ, զիր, զքրիստոնէ, յայլ, յիւրմէն, Զբերդտուքն, զամենայն, զամէնն, զայլն, զայն, զայնոք, զայնպիսիքն, զաչսն, զարեան, զգանկտվորացն, զգլուխն, զերկու, զթոյնքն, զիժն, զինքն, զիրենց, զիւր, զխայթածն, զկէս, զմարմինն, զմեղապարտսն, զպտղաբեր, զտուրտվելն, յայլազգեացն, յայն, յանթքն, յաչսն, յապաշխարութիւն, յառ, յարքունի, յերանացն, յերկիրն, յերկու, յիժ, յորդեցն, յօձիցն, չապրի, չառնու, չկարէ, չկշտանայ, չցաւէ.
Morphology
Tags
- This corpus uses 14 UPOS tags out of 17 possible: ADJ, ADP, ADV, AUX, CCONJ, DET, NOUN, NUM, PART, PRON, PROPN, PUNCT, SCONJ, VERB
- This corpus does not use the following tags: INTJ, SYM, X
- This corpus contains 4 word types tagged as particles (PART): թէ, ոչ, որ, չ
- This corpus contains 16 lemmas tagged as pronouns (PRON): ամէն, այլ, այն, այնոք, այնպիսի, այս, զինչ, ինչ, ինք, իրք, մէկ, նա, նոքա, ոմանք, որ, ոք
- This corpus contains 9 lemmas tagged as determiners (DET): ամենայն, ամէն, այլ, այն, այս, իր, իւր, հայնց, մի
- Out of the above, 4 lemmas occurred sometimes as PRON and sometimes as DET: ամէն, այլ, այն, այս
- This corpus contains 3 lemmas tagged as auxiliaries (AUX): եմ, լինիլ, տալ
- Out of the above, 2 lemmas occurred sometimes as AUX and sometimes as VERB: լինիլ, տալ
- There are 3 (de)verbal forms:
- Fin
- AUX: է, լինի, չէ, չտայ, տայ, են, լինին
- VERB: ելնէ, ուռենայ, կայ, մեռնի, անուանի, լինի, խայթէ, կենայ, սպաննէ, տան
- Inf
- VERB: սպաննել, Զընդանելն, ածել, այրել, գնալն, դարցնելոյն, լինել, խայթել, ծախել, կտրել
- Part
- VERB: հոտած, լել, խայթած, կատարեալ, մեռած, սղարել, սպանած, տուրտվել
Nominal Features
- Hum
- NOUN: մարդ, մարդն, թագաւորին, կինն, որդիսն, քրիստոնէ, թագաւորն, Աստուծոյ, ազգին, ազգն
- PROPN: Քրիստոսի
- Nhum
- NOUN: խայթածն, օձս, արիւն, խայթածէն, մարմինն, ազգ, աչսն, արեան, գին, գինն
- Coll
- NOUN: արիւն, արեան, այրեաց, անաչառութեամբ, ապաշխարութիւն, առ, ծուլութեան, հնազանդութեամբ, հնազանդութիւն, մեղայն
- Plur
- AUX-Fin: են, լինին
- DET: իրենց
- NOUN: աչսն, թոյնքն, որդիսն, ձեռսն, այլազգեացն, անդամսն, անթքն, բերդտուքն, գանկտվորացն, գնոցն
- PRON: այնոք, այնպիսիքն, նոքա, ոմանք
- VERB-Fin: տան, առնուն, գան, լինին, անուանին, ասեն, եկէք, ծախեն, ուղղեն, չգան
- Ptan
- NOUN: արծուիք, երանացն, մեղանք
- Sing
- AUX-Fin: է, լինի, չէ, չտայ, տայ
- DET: իւր, իր
- NOUN: խայթածն, մարդն, օձս, խայթածէն, մարդ, մարմինն, քրիստոնէ, ազգ, գին, գինն
- PRON: որ, ինքն, այսոր, այս, իւրմէն, այլն, այն, այնոր, ինքս, իւրն
- PROPN: Քրիստոսի
- VERB-Fin: ելնէ, ուռենայ, կայ, մեռնի, անուանի, լինի, խայթէ, կենայ, սպաննէ, ցաւէ
- Abl
- NOUN: խայթածէն, բաժնէն, գիջութենէն, կնկնէն, կրակէն, որդեցն, ջամբռէ, տաքութենէն
- PRON: իւրմէն, նմանէ
- Acc
- DET: իր, իրենց, իւր
- NOUN: մարդն, աչսն, կինն, որդիսն, գինն, դարպասն, ձեռսն, քրիստոնէ, ազգն, անդամսն
- PRON: ամէնն, այլն, այն, այնոք, այնպիսիքն, ինքն
- VERB-Inf: տուրտվելն
- Dat
- NOUN: արեան, թագաւորին, օձի, երկրին, խայթածին, տաճկին, Աստուծոյ, ազգին, այլազգեացն, ասխան
- PRON: այսոր, այնոր, իւրն, նմայ
- PROPN: Քրիստոսի
- VERB-Inf: դարցնելոյն, շարժելոյն
- Gen
- PRON: նորա
- Ins
- NOUN: կամայ, անաչառութեամբ, աւրինակովն, կամաւք, հնազանդութեամբ, ջրով, սիրղով, ցաւով
- Nom
- DET: իւր, իր
- NOUN: խայթածն, արիւն, մարդ, օձս, ազգ, գին, թոյնքն, իժ, մարմինն, օձ
- PRON: որ, ինքն, այս, ինքս, մէկն, նոքա, ոմանք, ոք
- VERB-Inf: Զընդանելն, գնալն
- Def
- NOUN: խայթածն, մարդն, խայթածէն, մարմինն, աչսն, գինն, դարպասն, թագաւորին, թոյնքն, կինն
- PRON: այլն, այնպիսիքն, մէկն
- VERB-Inf: Զընդանելն, գնալն, դարցնելոյն, շարժելոյն, տուրտվելն
- Ind
- NOUN: մարդ, քրիստոնէ, ազգ, արեան, արիւն, կամայ, օձ, օձի, ատօրօս, գին
- PROPN: Քրիստոսի
Degree and Polarity
- Cmp
- ADV: այլ
- Pos
- ADJ: յոլով, պատեհ, անպսակ, արժան, արքունի, գաղտուկ, դեղին, դժար, դժնիկ, թանձր
- Neg
- AUX-Fin: չէ, չտայ
- PART: չ, ոչ
- VERB-Fin: կշտանայ, չգան, չկայ, չմեռնի, չուննայ, չսպաննէ
- Pos
- AUX-Fin: է, լինի, տայ, են, լինին
- VERB-Fin: ելնէ, ուռենայ, կայ, մեռնի, անուանի, լինի, խայթէ, կենայ, սպաննէ, տան
- VERB-Inf: սպաննել, Զընդանելն, ածել, այրել, գնալն, դարցնելոյն, լինել, խայթել, ծախել, կտրել
- VERB-Part: հոտած, լել, խայթած, կատարեալ, մեռած, սղարել, սպանած, տուրտվել
Verbal Features
- Imp
- AUX-Fin: է, լինի, չէ, են
- VERB-Fin: ելնէ, կայ, ուռենայ, անուանի, մեռնի, խայթէ, տան, ցաւէ, առնուն, ասեն
- Perf
- VERB-Part: հոտած, լել, խայթած, կատարեալ, մեռած, սղարել, սպանած, տուրտվել
- Prosp
- AUX-Fin: լինի, չտայ, տայ, լինին
- VERB-Fin: լինի, այնէ, գան, լինին, սպաննէ, ամուսնանայ, առնու, աւերէ, բերէ, բորբոքէ
- Imp
- VERB-Fin: գիտացիր, եկէք, թող
- Ind
- AUX-Fin: է, լինի, չէ, են
- VERB-Fin: ելնէ, կայ, ուռենայ, անուանի, մեռնի, խայթէ, տան, ցաւէ, առնուն, ասեն
- Sub
- AUX-Fin: լինի, չտայ, տայ, լինին
- VERB-Fin: լինի, գան, լինին, սպաննէ, ամուսնանայ, այնէ, առնու, աւերէ, բերէ, բորբոքէ
- Imp
- VERB-Fin: կայր
- Pres
- AUX-Fin: է, լինի, չէ, չտայ, տայ, են, լինին
- VERB-Fin: ելնէ, ուռենայ, կայ, մեռնի, անուանի, լինի, խայթէ, կենայ, սպաննէ, տան
- Act
- VERB-Fin: խայթէ, սպաննէ, տան, այնէ, առնուն, ասեն, ելնէ, կարէ, ունենայ, ունի
- VERB-Inf: սպաննել, Զընդանելն, ածել, այրել, դարցնելոյն, խայթել, ծախել, կտրել, ձենել, տանել
- VERB-Part: հոտած, կատարեալ, սղարել, սպանած, տուրտվել
- Cau
- AUX-Fin: չտայ, տայ
- VERB-Fin: հասցնէ
- Mid
- VERB-Fin: ուռենայ, կայ, մեռնի, անուանի, ելնէ, լինի, կենայ, ցաւէ, ասի, գան
- VERB-Inf: գնալն, լինել, շարժելոյն
- VERB-Part: հոտած, լել, խայթած, մեռած
- Pass
- VERB-Fin: խրատվի, կտրվի
Pronouns, Determiners, Quantifiers
- Art
- DET: մի
- Dem
- ADV: անդ, աստ
- DET: այս, այն, հայնց
- PRON: այս, այսոր, այն, այնոր, այնոք, այնպիսիքն, նմայ, նմանէ, նորա
- Ind
- DET: այլ
- PRON: զինչ, ինչ, իրք, այլն, մէկն, ոմանք, ոք
- Poss
- DET: իւր, իր, իրենց
- Prs
- PRON: ինքն, իւրմէն, ինքս, իւրն, նոքա
- Rel
- ADV: երբ, ուր
- PRON: որ, ինչ
- Tot
- DET: ամենայն, ամէն
- PRON: ամէնն
- Card
- NUM: 2, Բ, երկու, երեք, 3, 4, Գ, ԳՃ, Դ
- Yes
- DET: իր
- 2
- VERB-Fin: գիտացիր, եկէք, թող, տեսնուս
- 3
- AUX-Fin: է, լինի, չէ, չտայ, տայ, են, լինին
- DET: իւր, իր, իրենց
- PRON: ինքն, իւրմէն, ինքս, իւրն, նոքա
- VERB-Fin: ելնէ, ուռենայ, կայ, մեռնի, անուանի, լինի, խայթէ, կենայ, սպաննէ, տան
Other Features
- AdpType
- Post
- ADP: նման
- Prep
- ADP: զ, ի, յ, ընդ, առանց, որպէս, քան, առ, զարդ, ըստ
- Post
- Deixis
- Prox
- ADV: աստ
- DET: այս
- PRON: այս, այսոր
- Remt
- ADV: անդ
- DET: այն
- PRON: այն, այնոր, այնոք, նմայ, նմանէ, նորա
- Prox
- Deixis[psor]
- Prox
- NOUN: օձս, ս
- PRON: ինքս
- Remt
- NOUN: նն
- PRON: ինքն, իւրն
- Prox
- ExtPos
- ADJ
- ADP: ի
- ADP
- ADP: քան
- ADV
- ADP: ընդ, ի
- PART
- VERB-Fin: թող
- PRON
- DET: ամէն
- PRON: ինչ
- SCONJ
- SCONJ: քաւէլ
- ADJ
- NameType
- Prs
- PROPN: Քրիստոսի
- Prs
- NumForm
- Armenian
- NUM: Բ, Գ, ԳՃ, Դ
- Digit
- NUM: 2, 3, 4
- Word
- NUM: երկու, երեք
- Armenian
- Style
- Arch
- AUX-Fin: լինի, լինին
- DET: իւր
- NOUN: երանացն, մեղանք, քիրտն
- PRON: իւրմէն, իւրն, նմանէ
- VERB-Fin: ելնէ, ուռենայ, անուանի, մեռնի, խայթէ, տան, ցաւէ, ասեն, երթայ, լինի
- Rare
- NOUN: կամայ
- Var
- ADJ: աւրինադրակից
- ADP: զերդ, զերթ
- ADV: յերբ, աւրինաւոր
- NOUN: աւրինակովն, բերդտուքն, զաւդվածքն, իրավունք, խոստովանհայրքն, կնկնէն, ուռիցն
- SCONJ: նայ
- VERB-Inf: Զընդանելն, դարցնելոյն
- Arch
- Subcat
- Intr
- VERB-Fin: ուռենայ, կայ, մեռնի, անուանի, ելնէ, լինի, կենայ, ցաւէ, ասի, գան
- VERB-Inf: գնալն, լինել, շարժելոյն
- VERB-Part: հոտած, լել, խայթած, մեռած
- Tran
- VERB-Fin: խայթէ, սպաննէ, տան, այնէ, առնուն, ասեն, ելնէ, ունենայ, ունի, վճարէ
- VERB-Inf: սպաննել, Զընդանելն, ածել, այրել, դարցնելոյն, խայթել, ծախել, կտրել, ձենել, տանել
- VERB-Part: հոտած, կատարեալ, սղարել, սպանած, տուրտվել
- Intr
- Typo
- Yes
- NOUN: յարիւն
- VERB-Part: սպանած
- Yes
Syntax
Auxiliary Verbs and Copula
- This corpus uses 2 lemmas as copulas (cop). Examples: եմ, լինիլ.
- This corpus uses 2 lemmas as auxiliaries (aux). Examples: լինիլ, եմ.
Core Arguments, Oblique Arguments and Adjuncts
Here we consider only relations between verbs (parent) and nouns or pronouns (child).
- nsubj
- VERB-Fin--NOUN-Acc-ADP(զ) (1)
- VERB-Fin--NOUN-Nom (47)
- VERB-Fin--PRON-Dat (1)
- VERB-Fin--PRON-Nom (7)
- VERB-Inf--NOUN-Nom (2)
- VERB-Part--NOUN-Nom (1)
- VERB-Part--PRON-Nom (2)
- obj
- VERB-Fin--NOUN-Acc (1)
- VERB-Fin--NOUN-Acc-ADP(զ) (14)
- VERB-Fin--NOUN-Dat-ADP(զ) (1)
- VERB-Fin--NOUN-Nom (8)
- VERB-Fin--NOUN-Nom-ADP(զ) (2)
- VERB-Fin--PRON (3)
- VERB-Fin--PRON-Acc-ADP(զ) (4)
- VERB-Fin--PRON-Dat (1)
- VERB-Fin--PRON-Nom-ADP(զ) (1)
- VERB-Inf--NOUN-Acc-ADP(զ) (4)
- VERB-Inf--NOUN-Nom (1)
- VERB-Part--NOUN-Acc (1)
- VERB-Part--NOUN-Acc-ADP(զ) (1)
- iobj
- VERB-Fin--NOUN-Dat (1)
- VERB-Fin--NOUN-Nom-ADP(ի)-ADP(ի) (1)
Relations Overview
- This corpus uses 12 relation subtypes: acl:relcl, advcl:relcl, advmod:emph, aux:caus, compound:lvc, compound:redup, csubj:outer, det:poss, nmod:npmod, nmod:poss, nsubj:outer, nsubj:pass
- The following 1 main types are not used alone, they are always subtyped: compound
- The following 8 relation types are not used in this corpus at all: vocative, expl, clf, flat, list, goeswith, reparandum, dep