UD Pashto Sikaram
Language: Pashto (code: ps
)
Family: IE
This treebank has been part of Universal Dependencies since the UD v2.14 release.
The following people have contributed to making this treebank part of UD: Ján Faryad, Daniel Zeman.
Repository: UD_Pashto-Sikaram
Search this treebank on-line: PML-TQ
Download all treebanks: UD 2.15
License: CC BY-SA 4.0
Genre: grammar-examples, nonfiction
Questions, comments? General annotation questions (either Pashto-specific or cross-linguistic) can be raised in the main UD issue tracker. You can report bugs in this treebank in the treebank-specific issue tracker on Github. If you want to collaborate, please contact [faryadj (æt) seznam • cz]. Development of the treebank happens directly in the UD repository, so you may submit bug fixes as pull requests against the dev branch.
Annotation | Source |
---|---|
Lemmas | annotated manually |
UPOS | annotated manually, natively in UD style |
XPOS | not available |
Features | annotated manually, natively in UD style |
Relations | annotated manually, natively in UD style |
Description
The Pashto-Sikaram treebank is a native UD treebank with manually annotated texts from various sources.
The treebank contains manual annotations of 40 created natively in UD. This includes:
- 20 Cairo CICLing sentences with interesting syntactic constructions translated from English
- 20 original Pashto sentences from the book “Pashto and the Need for Translation” (Salih Mohammad Salih) In the future, the treebank will be populated with more sentences from the book and hopefully also news articles.
Apart from the manual native annotation of lemmas, universal Part-of-Speech tags and dependency relations, the Pashto-Sikaram treebank contains transliteration of forms and lemmas into Latin alphabet and English translation and glosses.
Acknowledgments
We thank Salih Mohammad Salih for providing the texts to the treebank and Shah Wali Faryad for helping with the manual annotation.
Statistics of UD Pashto Sikaram
POS Tags
ADJ – ADP – ADV – AUX – CCONJ – DET – NOUN – NUM – PART – PRON – PROPN – PUNCT – SCONJ – VERB
Features
Animacy – Aspect – Case – Deixis – Gender – Mood – Number – Number[psor] – NumType – Person – Polarity – Poss – PronType – Reflex – Tense – Typo – Variant – VerbForm
Relations
acl – acl:relcl – advcl – advmod – amod – appos – aux – aux:pass – case – cc – ccomp – compound – conj – cop – det – fixed – flat – mark – nmod – nsubj – nsubj:pass – nummod – obj – obl – obl:agent – obl:arg – orphan:nsubjobj – parataxis – punct – root – vocative – xcomp
Tokenization and Word Segmentation
- This corpus contains 40 sentences, 990 tokens and 995 syntactic words.
- This corpus contains 108 tokens (11%) that are not followed by a space.
- This corpus does not contain words with spaces.
- This corpus does not contain words that contain both letters and punctuation.
- This corpus contains 5 multi-word tokens. On average, one multi-word token consists of 2.00 syntactic words.
- There are 4 types of multi-word tokens. Examples: ورسره, ترې, پرې, پوهېږي.
Morphology
Tags
- This corpus uses 14 UPOS tags out of 17 possible: ADJ, ADP, ADV, AUX, CCONJ, DET, NOUN, NUM, PART, PRON, PROPN, PUNCT, SCONJ, VERB
- This corpus does not use the following tags: INTJ, SYM, X
- This corpus contains 3 word types tagged as particles (PART): باید, نه, نۀ
- This corpus contains 17 lemmas tagged as pronouns (PRON): دا, دوی, دې, زۀ, هغه, هغوى, همدغه, هیڅوک, ور, يې, ټول, ځان, څوک, څۀ, چې, یوبل, یې
- This corpus contains 18 lemmas tagged as determiners (DET): خپل, دا, داسې, دغه, دې, زما, ستا, هر, هره, هغه, هماغسې, هماغه, همدغه, ټول, ځینې, څو, څۀ, کوم
- Out of the above, 6 lemmas occurred sometimes as PRON and sometimes as DET: دا, دې, هغه, همدغه, ټول, څۀ
- This corpus contains 5 lemmas tagged as auxiliaries (AUX): بۀ, ونۀ, کول, کېدل, یم
- Out of the above, 2 lemmas occurred sometimes as AUX and sometimes as VERB: کول, کېدل
- There are 3 (de)verbal forms:
- Fin
- AUX: وي, ده, دى, دی, کېږي, شوای, شې, وه, شو, شي
- VERB: لري, کړه, شو, وي, کوي, کړل, کښل, اواروي, برېښي, خپروي
- Inf
- VERB: ګڼل, لاړ, لیکل, ورکول, وشمېرل, ويل, وټاکل, څښلو, څکولو, ژباړل
- Part
- AUX: شوى, کولی
- VERB: شوې, راتلی, رسولې, رسېدلی, روزونکې, شوى, شوي, لوستى, نیولی, ويلي
Nominal Features
- Fem
- ADJ: لیکنۍ, نړيواله, ژوندۍ, ښه, ادبي, اصلي, اغېزناکه, اوسنۍ, اوچته, ايرانۍ
- AUX-Fin: ده, وه
- DET: هرې, هره, خپله, دې, ټوله, ټولې
- NOUN: ژبه, ژبې, ژباړې, سیمې, نړۍ, اترو, برخې, خبرو, خبرې, خوا
- NUM: يوې, يوه
- PRON: هغې, دې
- PROPN: اردو, مریم, امريکا, انګرېزۍ, براون, جانې, فرانسې
- VERB-Fin: کړه, درلوده, شوه, وهله, وهلې, وکړه, وګټله
- VERB-Part: شوې, رسولې, روزونکې, کړې
- Masc
- ADJ: بېل, جوړ, راټول, شهکار, فرهنګي, لږ, نور, هنري, ټولنیز, ګڼ
- AUX-Fin: دى, دی, شو, وو
- AUX-Part: شوى, کولی
- DET: خپل, هر, کوم, خپلو
- NOUN: ارزښت, اثر, دود, وخت, شمېر, انسانانو, خلکو, زر, شرق, غرب
- NUM: يوه, یو
- PRON: هغۀ, ټولو
- PROPN: پیتر, ټیګور, افغان, ايرانیانو, ایګوازو, حبیبي, سامه, سمیس, طلوع, نوبل
- VERB-Fin: شو, کړل, کښل, راوغزول, راوژباړه, لټاوه, واخيستۀ, ورسېد, ورکړ, ولیکل
- VERB-Part: راتلی, رسېدلی, شوى, شوي, لوستى, نیولی, ويلي, کړى, کړي
- Hum
- PRON: هیڅوک, چا
- Nhum
- DET: څۀ
- PRON: څه
- Plur
- ADJ: جوړ, نړيوالو, بېسارو, بېل, خلیجي, رامات, زياتو, فرهنګیانو, لرغونو, مشهورو
- AUX-Fin: شي, وو, کېږي
- DET: خپل, خپلو, همدغو, ټولې, ځینو, ځینې
- NOUN: اترو, انسانانو, برخې, خبرو, خبرې, خلکو, ويونکي, ژبې, اترې, ادبپالو
- PRON: دوی, هغوى, ټولو
- PROPN: ايرانیانو
- VERB-Fin: کوي, کړل, کښل, خپروي, راوغزول, شو, لري, وايي, ورکوي, ورکړي
- VERB-Part: شوي, ويلي, کړي
- Sing
- ADJ: هنري, ادبي, راټول, شهکار, فرهنګي, لږ, لیکنۍ, نړيواله, ټولنیز, ښه
- AUX-Fin: وي, ده, دى, دی, کېږي, شې, وه, شو
- AUX-Part: شوى, کولی
- DET: خپل, کوم, خپله, دې, هره, ټوله
- NOUN: ژبه, ژبې, ارزښت, ژباړې, اثر, دود, وخت, سیمې, شمېر, نړۍ
- PRON: هغۀ, ما, هغې, دې
- PROPN: پیتر, اردو, مریم, ټیګور, افغان, امريکا, انګرېزۍ, ایګوازو, براون, جانې
- VERB-Fin: لري, کړه, شو, وي, اواروي, برېښي, درلوده, راوژباړه, شوه, شي
- VERB-Part: شوې, راتلی, رسولې, رسېدلی, روزونکې, شوى, لوستى, نیولی, کړى, کړې
- Abl
- ADJ: بده, نړيوالو
- ADP: له, تر, پرته
- DET: دې
- NOUN: مخې, امله, خوا, دمه, لاسه, مرغه, پولو, پیله, ژباړې
- PRON: دې, ټولو
- Acc
- ADJ: ايرانۍ, بېسارو, بېل, زياتو, سترې, شلمې, فرهنګیانو, لرغونو, لیکنۍ, مرستیالې
- ADP: د, ته, له, لپاره, څخه, سره, ترمنځ
- DET: هرې, خپل, خپلو, همدغو, ځینو, کوم
- NOUN: ژبې, ژباړې, اترو, انسانانو, خبرو, خلکو, سیمې, مینې, نړۍ, پېړۍ
- NUM: يوې, يوه
- PRON: هغۀ, ما, هغې, هغوى, چا
- PROPN: پیتر, اردو, مریم, ايرانیانو, جانې, فرانسې, نوبل, ټیګور
- VERB-Inf: څښلو, څکولو
- VERB-Part: روزونکې
- Loc
- ADJ: ايراني, بنګالۍ, خلیجي, فرهنګي, نورو, نړيواله, وال, وروستیو, ټولنیز, پاړسي
- ADP: په, کې, پۀ, پر
- DET: هماغه, خپله, هره, ټوله
- NOUN: ژبه, وخت, کچه, ادب, انځورونه, بڼه, توګه, دېوالونو, شرق, شمېر
- PRON: دوی
- PROPN: اردو, امريکا, انګرېزۍ, پاریس
- Nom
- ADJ: هنري, ادبي, جوړ, راټول, شهکار, لږ, نور, ژوندۍ, ښه, ګڼ
- AUX-Part: شوى, کولی
- DET: خپل, هغه, دغه, هر, دا, هره, هماغه, همدغه, ټولې, ځینې
- NOUN: ژبه, اثر, ارزښت, دود, برخې, خبرې, زر, شمېر, لامل, لیک
- NUM: يوه, یو
- PRON: دا, همدغه, هیڅوک
- PROPN: افغان, ایګوازو, براون, حبیبي, سمیس, طلوع, مریم, ټیګور, پیتر, ګیتانجلي
- VERB-Inf: ګڼل, لیکل, ورکول, وشمېرل, ويل, وټاکل, ژباړل
- VERB-Part: شوې, راتلی, رسولې, رسېدلی, شوى, شوي, لوستى, نیولی, ويلي, کړى
- Voc
- PROPN: سامه
Degree and Polarity
- Neg
- AUX: ونه, ونۀ
- PART: نه, نۀ
- Dir
- PRON: ور
- Long
- VERB-Fin: وکړ, وکړه
- Short
- DET: داسې, دا, دې
- PRON: دا, دې
- VERB-Inf: لاړ
- VERB-Part: لوستى
- Weak
- PRON: يې, یې
Verbal Features
- Imp
- AUX-Fin: کېږي
- AUX-Part: کولی
- VERB-Fin: لري, کوي, کښل, اواروي, برېښي, خپروي, درلوده, غواړې, لټاوه, وايي
- VERB-Inf: ګڼل, لیکل, ورکول, څښلو, څکولو, ژباړل
- VERB-Part: راتلی, رسولې, رسېدلی, روزونکې, لوستى, نیولی, ويلي
- Perf
- AUX: شوای, شوى, شې, شو, شي, ونه, ونۀ
- AUX-Fin: شوای, شې, شو, شي
- AUX-Part: شوى
- VERB-Fin: کړه, شو, کړل, راوغزول, راوژباړه, شوه, شي, واخيستۀ, ورسېد, ورکړ
- VERB-Inf: وشمېرل, ويل, وټاکل
- VERB-Part: شوې, شوى, شوي, کړى, کړي, کړې
- Imp
- VERB-Fin: کړه
- Ind
- AUX-Fin: ده, دى, دی, کېږي, شې, وه, شو, شي, وو
- VERB-Fin: لري, شو, کړه, کوي, کړل, کښل, اواروي, برېښي, خپروي, درلوده
- Pot
- AUX-Fin: شوای, وای
- Sub
- AUX: به, وي
- AUX-Fin: وي
- VERB-Fin: وي, پرېمینځي
- VERB-Inf: لاړ
- Fut
- AUX: به
- Past
- AUX-Fin: وه, شو, وو
- AUX-Part: شوى, کولی
- VERB-Fin: کړه, شو, کړل, کښل, درلوده, راوغزول, راوژباړه, شوه, لټاوه, واخيستۀ
- VERB-Part: شوې, راتلی, رسولې, رسېدلی, شوى, شوي, لوستى, نیولی, ويلي, کړى
- Pres
- AUX-Fin: ده, دى, دی, کېږي, شې, شي
- VERB-Fin: لري, کوي, اواروي, برېښي, خپروي, شته, شو, شي, غواړې, وايي
- VERB-Part: روزونکې
Pronouns, Determiners, Quantifiers
- Dem
- DET: هغه, دغه, هماغه, داسې, دا, دې, هماغسې, همدغه, همدغو
- PRON: دا, دې, همدغه
- Ind
- DET: څو, کوم, ځینو, ځینې
- Int
- DET: څۀ
- PRON: څه, چا
- Neg
- PRON: هیڅوک
- Prs
- DET: خپل, ستا, خپله, خپلو, زما
- PRON: يې, هغۀ, ور, یې, ما, هغې, ځان, دوی, هغوى
- Rcp
- PRON: یوبل
- Rel
- PRON: چې
- Tot
- DET: هرې, هر, هره, ټوله, ټولې
- PRON: ټولو
- Card
- NUM: يوې, يوه, یو
- Yes
- DET: خپل, ستا, خپله, خپلو, زما
- PRON: يې, یې
- Yes
- DET: خپل, خپله, خپلو
- PRON: ځان
- 1
- DET: زما
- PRON: ما
- VERB-Fin: شو, وڅېړو, کوم, کړو
- 2
- AUX-Fin: شې
- DET: ستا
- VERB-Fin: غواړې, کړه, ګورې
- 3
- AUX-Fin: وي, ده, دى, دی, کېږي, وه, شو, شي, وو
- PRON: يې, هغۀ, ور, یې, هغې, دوی, هغوى
- VERB-Fin: لري, کړه, شو, وي, کوي, کړل, کښل, اواروي, برېښي, خپروي
- Sing
- DET: ستا, زما
Other Features
- Deixis
- Prox
- DET: دغه, داسې, دا, دې, همدغه, همدغو
- PRON: دا, دوی, دې, همدغه
- Remt
- DET: هغه, هماغه, هماغسې
- PRON: هغۀ, هغې, هغوى
- Prox
- Typo
- Yes
- NOUN: زېري, لاره
- Yes
Syntax
Auxiliary Verbs and Copula
- This corpus uses 1 lemmas as copulas (cop). Examples: یم.
- This corpus uses 5 lemmas as auxiliaries (aux). Examples: کېدل, یم, بۀ, ونۀ, کول.
- This corpus uses 1 lemmas as passive auxiliaries (aux:pass). Examples: کېدل.
Core Arguments, Oblique Arguments and Adjuncts
Here we consider only relations between verbs (parent) and nouns or pronouns (child).
- nsubj
- VERB-Fin--NOUN-Acc (6)
- VERB-Fin--NOUN-Nom (16)
- VERB-Fin--PRON (8)
- VERB-Fin--PRON-Acc (6)
- VERB-Fin--PRON-Nom (1)
- VERB-Inf--NOUN-Nom (4)
- VERB-Part--NOUN-Acc (1)
- VERB-Part--NOUN-Nom (3)
- VERB-Part--PRON (3)
- VERB-Part--PRON-Acc (2)
- obj
- VERB-Fin--NOUN-Loc (1)
- VERB-Fin--NOUN-Nom (36)
- VERB-Fin--PRON (4)
- VERB-Fin--PRON-Nom (1)
- VERB-Part--NOUN-Nom (5)
- VERB-Part--PRON (1)
Relations Overview
- This corpus uses 6 relation subtypes: acl:relcl, aux:pass, nsubj:pass, obl:agent, obl:arg, orphan:nsubjobj
- The following 1 main types are not used alone, they are always subtyped: orphan
- The following 10 relation types are not used in this corpus at all: iobj, csubj, expl, dislocated, discourse, clf, list, goeswith, reparandum, dep