UD Pashto Sikaram
Language: Pashto (code: ps)
Family: IE
This treebank has been part of Universal Dependencies since the UD v2.15 release.
The following people have contributed to making this treebank part of UD: Ján Faryad, Daniel Zeman.
Repository: UD_Pashto-Sikaram
Search this treebank on-line: PML-TQ
Download all treebanks: UD 2.18
License: CC BY-SA 4.0
Genre: grammar-examples, nonfiction
Questions, comments? General annotation questions (either Pashto-specific or cross-linguistic) can be raised in the main UD issue tracker. You can report bugs in this treebank in the treebank-specific issue tracker on Github. If you want to collaborate, please contact [faryadj (æt) seznam • cz]. Development of the treebank happens directly in the UD repository, so you may submit bug fixes as pull requests against the dev branch.
| Annotation | Source |
|---|---|
| Lemmas | annotated manually |
| UPOS | annotated manually, natively in UD style |
| XPOS | not available |
| Features | annotated manually, natively in UD style |
| Relations | annotated manually, natively in UD style |
Description
The Pashto-Sikaram treebank is a native UD treebank with manually annotated texts from various sources.
The treebank contains manual annotations of 200 sentences created natively in UD. This includes:
- 20 Cairo CICLing sentences with interesting syntactic constructions translated from English
- 180 original Pashto sentences from the book “Pashto and the Need for Translation” (Salih Mohammad Salih) In the future, the treebank will be populated with more sentences from the book and hopefully also news articles.
Apart from the manual native annotation of lemmas, universal Part-of-Speech tags, grammatical features and dependency relations, the Pashto-Sikaram treebank contains transliteration of forms and lemmas into Latin alphabet and English translation and glosses.
Acknowledgments
We thank Salih Mohammad Salih and Asmatullah Sarwan for providing the texts for the treebank and language consultations. We also thank Shah Wali Faryad for helping with the manual annotation.
Statistics of UD Pashto Sikaram
POS Tags
ADJ – ADP – ADV – AUX – CCONJ – DET – NOUN – NUM – PART – PRON – PROPN – PUNCT – SCONJ – SYM – VERB – X
Features
Abbr – Animacy – Aspect – Case – Deixis – ExtPos – Foreign – Gender – Mood – Number – NumType – Person – Polarity – Poss – PronType – Reflex – Tense – Typo – Variant – VerbForm – Voice
Relations
acl – acl:relcl – advcl – advcl:relcl – advmod – amod – appos – aux:cnd – aux:fut – aux:hab – aux:pass – aux:perf – aux:pot – aux:sub – case – cc – ccomp – compound – compound:lvc – compound:prt – conj – cop – csubj – dep – det – discourse – dislocated – fixed – flat:foreign – flat:name – goeswith – mark – nmod – nsubj – nsubj:pass – nummod – obj – obl – obl:arg – orphan:nsubjobj – orphan:objobl – parataxis – punct – reparandum – root – vocative – xcomp
Tokenization and Word Segmentation
- This corpus contains 200 sentences, 5421 tokens and 5467 syntactic words.
- This corpus contains 867 tokens (16%) that are not followed by a space.
- This corpus does not contain words with spaces.
- This corpus does not contain words that contain both letters and punctuation.
- This corpus contains 45 multi-word tokens. On average, one multi-word token consists of 2.02 syntactic words.
- There are 22 types of multi-word tokens. Examples: ورباندې, پرې, ترې, ورسره, ورته, ورپسې, پاتېږي, اوچتېږي, ترېنه, جوتېږي, جوړوي, جوړېدی, خپرولو, خپرېږي, درته, راته, راولاړوي, راولاړېږي, هېروي, ولاړوي, پوهېږي, ځوابولای.
Morphology
Tags
- This corpus uses 16 UPOS tags out of 17 possible: ADJ, ADP, ADV, AUX, CCONJ, DET, NOUN, NUM, PART, PRON, PROPN, PUNCT, SCONJ, SYM, VERB, X
- This corpus does not use the following tags: INTJ
- This corpus contains 9 word types tagged as particles (PART): بايد, باید, دې, نه, نۀ, ورنه, ونه, ونۀ, پرې
- This corpus contains 26 lemmas tagged as pronouns (PRON): _, تۀ, خپل, دا, داسې, در, دوی, دی, را, زۀ, موږ, هرڅوک, هرڅۀ, هغه, هغوی, همدا, همدغه, هیڅوک, ور, يې, ټول, ځان, څوک, څۀ, یوبل, یې
- This corpus contains 19 lemmas tagged as determiners (DET): خپل, دا, داسې, دغسې, دغه, هر, هغه, هماغسې, هماغه, همدا, همدغسې, همدغه, هېڅ, ټول, ځینې, څو, څۀ, کوم, یوشمېر
- Out of the above, 8 lemmas occurred sometimes as PRON and sometimes as DET: خپل, دا, داسې, هغه, همدا, همدغه, ټول, څۀ
- This corpus contains 4 lemmas tagged as auxiliaries (AUX): بۀ, ول, کول, کېدل
- Out of the above, 3 lemmas occurred sometimes as AUX and sometimes as VERB: ول, کول, کېدل
- There are 4 (de)verbal forms:
- Fin
- AUX: ده, شي, دي, وي, کېږي, دی, وه, و, وو, شو
- VERB: لري, کوي, کړي, کېږي, شي, کولای, شو, کړه, شته, ورکوي
- Inf
- VERB: ژباړل, کارول, کولو, لیکل, لاړ, وهل, ګڼل, رااخیستل, راژباړل, لیدل
- Part
- ADJ: لیکنۍ, تدريسېدونکي, خواشینوونکې, غموونکې, لارورکوونکو, ماتوونکي, ورکوونکې, کاروونکي, کارېدونکې
- AUX: شوي, شوی, شوې
- VERB: کړې, شوي, شوی, کړی, شوې, ويلي, شویو, موندلې, کړي, تللي
- Vnoun
- NOUN: لیکنې, جوړونې, خپرونې, پوهونې, جوړونه, خپرونو, راپوهونې, رغونه, ساتنې, غزونې
Nominal Features
- Fem
- ADJ: سمه, نورو, بله, ناسمه, ښه, اصلي, زياتې, زياته, ستره, نورې
- ADJ-Part: لیکنۍ, خواشینوونکې, غموونکې, ورکوونکې, کارېدونکې
- AUX-Fin: ده, وه, دي, شوه, وې
- AUX-Part: شوې, شوي
- DET: دې, کومه, خپله, هرې, هره, هغه, همدې, ټوله, ټولې, کومې
- NOUN: ژبه, ژبې, خوا, ژباړې, ژباړه, ژبو, توګه, خبرې, برخه, ستونزه
- NOUN-Vnoun: لیکنې, جوړونې, خپرونې, پوهونې, جوړونه, خپرونو, راپوهونې, رغونه, ساتنې, غزونې
- NUM: یوه, یوې, دوې
- PRON: خپله, هغې, دا, دې
- PROPN: پښتو, اردو, پاړسي, عربي, دري, مریم, امريکا, انګرېزۍ, کوټه, انګرېزي
- VERB-Fin: کړه, شوه, وه, وکړه, تدريسوله, درلوده, نیوله, واخیسته, واوښته, وتړله
- VERB-Part: کړې, شوې, موندلې, خوړلې, رسولې, شویو, غورځولې, لوېدلې, نیولې, ورکړې
- Masc
- ADJ: زده, زيات, نورو, ټولنیز, پوهنیزو, اړ, جوړ, نور, اړوند, لږ
- ADJ-Part: تدريسېدونکي, لارورکوونکو, ماتوونکي, کاروونکي
- AUX-Fin: دی, و, وو, دﺉ, شول, شو, کېدل
- AUX-Part: شوی, شوي
- DET: خپل, هر, کوم, خپلو, ټول, دغه, دې, هغه, هماغه
- NOUN: کار, کتابونه, وخت, خلکو, ډول, خلک, کتابونو, کسان, ډګر, دود
- NUM: یو, یوه, دوه
- PRON: ده, هغۀ, هغه, دی, ټولو, څوک
- PROPN: پښتانه, افغانستان, پښتنو, کابل, احمد, بابا, وحید, پیتر, خوشال, پنج
- VERB-Fin: شو, وواهه, کاوه, وکړ, کول, کړ, کړل, کښل, ايست, راوغزول
- VERB-Part: شوي, شوی, کړی, ويلي, کړي, تللي, تړلي, راغلي, رسېدلی, شویو
- Hum
- PRON: څوک, چا, هرڅوک, هیڅوک
- Nhum
- DET: څه, څۀ
- PRON: څه, هرڅه
- Coll
- NOUN: خلکو, خلک, اطرافو, سلنه, شتو, مواد
- PROPN: مغلو
- Plur
- ADJ: نورو, زيات, ټولنیزو, پوهنیزو, نور, زياتې, اسلامي, نورې, هنري, اکثره
- ADJ-Part: تدريسېدونکي, لارورکوونکو, ماتوونکي, کاروونکي
- AUX-Fin: دي, شي, کېږي, وو, وي, شو, شول, وې, کېدل
- AUX-Part: شوي
- DET: خپلو, ټول, خپل, دغو, ټولې, کومې, دې, هغو, همدغو, ځینو
- NOUN: ژبو, کتابونه, خبرې, کتابونو, کسان, ارزښتونه, هېوادونو, ژبې, ارزښتونو, ماشومان
- NOUN-Vnoun: لیکنې, خپرونې, خپرونو, غزونې, لیکنو, څرګندونې
- PRON: دوی, هغوی, زموږ, موږ, ټولو
- PROPN: پښتانه, پښتنو, ايرانیان, ايرانیانو, فرانسويانو, پنجابیانو
- VERB-Fin: کوي, ورکوي, وايي, کوو, کړي, کېږي, شي, وڅېړو, لري, ورکړي
- VERB-Part: شوي, ويلي, شویو, کړي, تللي, تړلي, راغلي, شوې, غوښتي, فرمايلي
- Ptan
- NOUN: معلومات
- Sing
- ADJ: زده, ښه, سمه, ټولنیز, بله, ناسمه, اصلي, اړ, اړوند, لږ
- ADJ-Part: لیکنۍ, خواشینوونکې, غموونکې, ورکوونکې, کارېدونکې
- AUX-Fin: ده, شي, دی, وي, کېږي, وه, و, دﺉ, شې, شو
- AUX-Part: شوی, شوې, شوي
- DET: خپل, دې, کوم, کومه, خپله, هغه, همدې, ټوله, دغه, هره
- NOUN: ژبه, ژبې, خوا, ژباړې, کار, ژباړه, توګه, وخت, ډول, برخه
- NOUN-Vnoun: جوړونې, پوهونې, جوړونه, راپوهونې, رغونه, ساتنې, پاملرنه, پوهونه, کارونې, کتنه
- PRON: ده, خپله, هغې, ځان, دا, دې, ما, هغه, هغۀ, ستا
- PROPN: پښتو, اردو, افغانستان, پاړسي, کابل, احمد, بابا, وحید, پیتر, خوشال
- VERB-Fin: لري, کړي, شي, کېږي, کړه, شو, راځي, وواهه, ښايي, غواړي
- VERB-Part: کړې, شوی, کړی, شوې, موندلې, خوړلې, رسولې, رسېدلی, غورځولې, لوستی
- Abl
- ADJ: بده, بلې, سمه, لږه, نړیوالو, ډېره
- ADP: له, تر, پرته, پورې, سره
- ADV: اوسه
- DET: دې, همدې, هغه
- NOUN: خوا, کبله, مخې, مرغه, اړخه, لاسه, منځه, اره, اصولو, امله
- NUM: یوې
- PRON: دې, ټولو
- PROPN: پېښوره
- Acc
- ADJ: نورو, پوهنیزو, ټولنیزو, اغېزمن, متاثر, پوهنیز, اسلامي, بل, کلتوري, اداري
- ADJ-Part: لارورکوونکو, لیکنۍ
- ADP: د, ته, له, لپاره, څخه, سره, تر, لاندې, ترڅنګ, وروسته
- AUX-Part: شوي
- DET: خپل, خپلو, هرې, دې, ځینو, کوم, دغه, دغو, دغې, هغو
- NOUN: ژبې, ژباړې, کتابونو, خلکو, ژبو, ساري, هېوادونو, پرمختګ, کار, ارزښتونو
- NOUN-Vnoun: جوړونې, پوهونې, خپرونو, راپوهونې, ساتنې, کارونې
- NUM: یوې, یوه, دوو
- PRON: ده, دې, هغوی, هغۀ, هغې, چا, دوی, ما, هغه
- PROPN: پښتو, پښتنو, افغانستان, پیتر, کابل, اردو, بابا, خوشال, ايران, مریم
- VERB-Inf: کولو, رسېدو, ځلولو, څښلو, څکولو, ړنګېدو
- VERB-Part: شویو
- Gen
- PRON: زموږ, ستا, زما
- Loc
- ADJ: نورو, ټولنیز, وروستیو, دري, لره, هنري, پوهنیز, اخرو, ادبي, اسلامي
- ADP: په, کې, پر, باندې, پۀ, پسې, پورې
- DET: دې, خپل, خپله, هغه, ټوله, هره, هماغه, دغو, هر, ځینو
- NOUN: ژبه, توګه, برخه, وخت, ډګر, سیمه, ټکي, ژبو, بڼه, جمله
- NOUN-Vnoun: لیکنو
- NUM: یوه, درېیو, دوو
- PRON: خپله, دې, دوی, ما, هغوی, هغې
- PROPN: پښتو, اردو, پاړسي, کابل, انګرېزۍ, ږوب, کوټه, افغانستان, امريکا, جرمني
- VERB-Inf: تېرېدو, لوستلو, ويلو, کارولو
- Nom
- ADJ: زده, زيات, ښه, سمه, اړ, جوړ, نور, ناسمه, اصلي, اړوند
- ADJ-Part: تدريسېدونکي, خواشینوونکې, غموونکې, لیکنۍ, ماتوونکي, ورکوونکې, کاروونکي, کارېدونکې
- AUX-Part: شوی, شوي, شوې
- DET: دغه, هغه, ځینې, خپل, هر, همدغه, کومه, دا, کوم, ټول
- NOUN: ژبه, کتابونه, خبرې, ژباړه, خلک, ستونزه, ډول, کسان, اړتیا, خبره
- NOUN-Vnoun: لیکنې, خپرونې, جوړونه, رغونه, غزونې, پاملرنه, پوهونه, څرګندونې, کتنه
- NUM: یوه, یو, دوه, دوې, پنځه
- PRON: دا, دوی, هغه, همدا, څوک, دی, موږ, هرڅوک, همدغه, هیڅوک
- PROPN: پښتو, پښتانه, احمد, وحید, عربي, پنج, ايرانیان, بابا, دري, پاړسي
- VERB-Fin: شو, کېده
- VERB-Inf: ژباړل, کارول, لیکل, وهل, ګڼل, رااخیستل, راژباړل, لیدل, نیول, واړول
- VERB-Part: کړې, شوي, شوی, کړی, شوې, ويلي, موندلې, کړي, تللي, تړلي
- Voc
- PROPN: سامه
Degree and Polarity
- Neg
- ADJ: ناسمه, ناخبره, ناسم, ناشونې
- PART: نه, نۀ, ونه, ورنه, ونۀ, پرې
- Dir
- PRON: ور, در, را
- Long
- AUX-Fin: وکولای, وکړای
- DET: دغه, همدغه, دغسې, دغو, دغې, همدغسې, همدغو
- PRON: همدغه
- VERB-Fin: وکړي, وشي, وکړ, وکولای, وکړه, وکړو
- Short
- ADV: هسې
- AUX-Fin: شوای, شوه, کېدای
- DET: دې, داسې, دا
- NOUN: ډوله
- VERB-Fin: کړه, شوه, وکړه, کړای, درلوده, راتلای, واخیسته, واوښته, کېده
- VERB-Inf: لاړ, تېرېدو, رسېدو, ړنګېدو
- VERB-Part: شوی, غوښتي, لوستی
- Weak
- PRON: يې, یې
Verbal Features
- Imp
- AUX-Fin: کېږي, کولای, کېدای, کېدل
- VERB-Fin: لري, کوي, کېږي, کولای, ورکوي, راځي, وايي, ښايي, غواړي, پوهېږي
- VERB-Inf: ژباړل, کارول, کولو, لیکل, وهل, ګڼل, رااخیستل, راژباړل, لیدل, نیول
- Perf
- AUX-Fin: شوای, شول, شو, شوه, وکولای, وکړای
- PART: ونه, ونۀ, پرې
- VERB-Fin: کړه, شو, وواهه, شوه, وکړه, وکړ, کړ, کړای, کړل, راوغزول
- VERB-Inf: واړول, ورکړل, وژباړل, وکارول, راوژباړل, وساتل, وشمېرل, ولیکل, ووهل, ووېشل
- Cnd
- AUX-Fin: شوای, وای, وکولای, وکړای, کولای, کېدای
- VERB-Fin: کولای, اخیستلای, کړای, اوارولای, ايښوولای, برخمنېدلای, راتلای, لرلای, لوستلای, موندلای
- Imp
- VERB-Fin: وکړه, کړه
- Ind
- AUX-Fin: ده, دي, کېږي, دی, وه, و, وو, دﺉ, شول, شو
- VERB-Fin: لري, کوي, کېږي, شته, شو, ورکوي, کړه, راځي, وايي, وواهه
- Sub
- AUX-Fin: شي, وي, شو, شې
- VERB-Fin: کړي, شي, وکړي, ولري, وڅېړو, ورکړي, وشي, وي, کړو, راواخلي
- Past
- AUX-Fin: وه, و, وو, شو, شول, شوه, وې, کېدل
- AUX-Part: شوي, شوی, شوې
- VERB-Fin: شو, کړه, وواهه, شوه, کاوه, وه, وکړ, وکړه, کول, کړ
- VERB-Part: کړې, شوي, شوی, کړی, شوې, ويلي, شویو, موندلې, کړي, تللي
- Pres
- AUX-Fin: ده, دي, کېږي, دی, دﺉ
- VERB-Fin: لري, کوي, کېږي, شته, ورکوي, راځي, وايي, ښايي, غواړي, پوهېږي
- Act
- ADJ-Part: تدريسېدونکي, خواشینوونکې, غموونکې, لارورکوونکو, ماتوونکي, ورکوونکې, کاروونکي, کارېدونکې
- Pass
- ADJ-Part: لیکنۍ
Pronouns, Determiners, Quantifiers
- Dem
- ADV: همدا, داسې, هسې
- DET: هغه, دغه, دې, داسې, همدغه, دا, دغسې, هماغه, همدې, دغو
- PRON: دا, دې, همدا, هغه, داسې, همدغه
- Ind
- ADV: چېرې
- DET: څو, ځینې, کوم, کومه, ځینو, یوشمېر, کومې
- PRON: څوک, هرڅه, چا
- Int
- DET: کومې, څه, څۀ
- PRON: څه, چا, څوک
- Neg
- DET: هېڅ
- PRON: هیڅوک
- Prs
- DET: خپل, خپله, خپلو
- PRON: يې, ور, یې, ده, دوی, هغوی, خپله, هغې, ځان, زموږ
- Rcp
- PRON: یوبل
- Tot
- DET: هر, هرې, هره, ټول, ټوله, ټولې
- PRON: هرڅه, هرڅوک, ټولو
- Card
- DET: یوشمېر
- NUM: یوه, یو, یوې, 1, 1032, 1044, 1075, 1100, 1106, 1525
- Yes
- DET: خپل, خپله, خپلو
- PRON: يې, خپله, یې
- Yes
- DET: خپل, خپله, خپلو
- PRON: خپله, ځان
- 1
- AUX-Fin: شو
- PRON: زموږ, ما, را, زما, موږ
- VERB-Fin: وڅېړو, کوو, وايم, کړو, شو, واړوو, وکړو, وګورو, کوم
- 2
- AUX-Fin: شې
- PRON: ستا
- VERB-Fin: غواړې, وکړه, کوې, کړه, ګورې
- 3
- AUX-Fin: ده, شي, دي, وي, کېږي, دی, وه, و, وو, دﺉ
- PRON: يې, ور, یې, ده, دوی, هغوی, هغې, هغه, هغۀ, در
- VERB-Fin: لري, کوي, کړي, کېږي, شي, شته, شو, ورکوي, کړه, راځي
Other Features
- Abbr
- Yes
- ADJ: ق, هـ, م
- Yes
- Deixis
- Prox
- ADV: همدا, داسې, دلته
- DET: دغه, دې, داسې, همدغه, دا, دغسې, همدې, دغو, دغې, همدغسې
- PRON: دا, دې, ده, دوی, همدا, داسې, دی, همدغه
- Remt
- ADV: هلته, هسې
- DET: هغه, هماغه, هغو, هماغسې
- PRON: هغه, هغوی, هغې, هغۀ
- Prox
- ExtPos
- ADJ
- ADJ: هـ
- ADV
- ADJ: لږ
- ADV: کله, همدا
- NOUN: ټکي
- X: کټ
- SCONJ
- ADV: کله
- SCONJ: که, لکه, ځکه, چې
- ADJ
- Foreign
- Yes
- ADJ: ق, هـ
- X: که, در, Escape, Taliban, from, ،, اخیر, استیم, اسیر, افغان
- Yes
- Typo
- Yes
- ADJ: ټولنیزو, پښتون, اورنی, اّر, جګړه, غمجنیه, ممکنه, ګنې
- AUX-Part: شوي
- NOUN: رخه, زېري, سوچه, ماتې, ولايتونو, کره, کړې
- NUM: 0053, 1858
- PART: پرې
- VERB-Fin: کوو
- Yes
Syntax
Auxiliary Verbs and Copula
- This corpus uses 1 lemmas as copulas (cop). Examples: ول.
- This corpus uses 1 lemmas as passive auxiliaries (aux:pass). Examples: کېدل.
Core Arguments, Oblique Arguments and Adjuncts
Here we consider only relations between verbs (parent) and nouns or pronouns (child).
- nsubj
- VERB-Fin--NOUN-Acc (10)
- VERB-Fin--NOUN-Nom (103)
- VERB-Fin--PRON (25)
- VERB-Fin--PRON-Acc (11)
- VERB-Fin--PRON-Nom (8)
- VERB-Inf--NOUN-Nom (4)
- VERB-Part--NOUN-Acc (14)
- VERB-Part--NOUN-Nom (20)
- VERB-Part--PRON (7)
- VERB-Part--PRON-Acc (2)
- VERB-Part--PRON-Nom (2)
- obj
- VERB-Fin--NOUN-Acc (1)
- VERB-Fin--NOUN-Nom (161)
- VERB-Fin--PRON (11)
- VERB-Fin--PRON-Nom (2)
- VERB-Inf--NOUN-Nom (2)
- VERB-Part--NOUN-Nom (24)
- VERB-Part--PRON (1)
Verbs with Reflexive Core Objects
- This corpus contains 1 lemmas that occur at least once with a reflexive core object (obj or iobj). Examples: کول ځان
Relations Overview
- This corpus uses 17 relation subtypes: acl:relcl, advcl:relcl, aux:cnd, aux:fut, aux:hab, aux:pass, aux:perf, aux:pot, aux:sub, compound:lvc, compound:prt, flat:foreign, flat:name, nsubj:pass, obl:arg, orphan:nsubjobj, orphan:objobl
- The following 3 main types are not used alone, they are always subtyped: aux, flat, orphan
- The following 4 relation types are not used in this corpus at all: iobj, expl, clf, list