UD Pashto Sikaram
Language: Pashto (code: ps)
Family: IE
This treebank has been part of Universal Dependencies since the UD v2.15 release.
The following people have contributed to making this treebank part of UD: Ján Faryad, Daniel Zeman.
Repository: UD_Pashto-Sikaram
Search this treebank on-line: PML-TQ
Download all treebanks: UD 2.17
License: CC BY-SA 4.0
Genre: grammar-examples, nonfiction
Questions, comments? General annotation questions (either Pashto-specific or cross-linguistic) can be raised in the main UD issue tracker. You can report bugs in this treebank in the treebank-specific issue tracker on Github. If you want to collaborate, please contact [faryadj (æt) seznam • cz]. Development of the treebank happens directly in the UD repository, so you may submit bug fixes as pull requests against the dev branch.
| Annotation | Source |
|---|---|
| Lemmas | annotated manually |
| UPOS | annotated manually, natively in UD style |
| XPOS | not available |
| Features | annotated manually, natively in UD style |
| Relations | annotated manually, natively in UD style |
Description
The Pashto-Sikaram treebank is a native UD treebank with manually annotated texts from various sources.
The treebank contains manual annotations of 40 created natively in UD. This includes:
- 20 Cairo CICLing sentences with interesting syntactic constructions translated from English
- 20 original Pashto sentences from the book “Pashto and the Need for Translation” (Salih Mohammad Salih) In the future, the treebank will be populated with more sentences from the book and hopefully also news articles.
Apart from the manual native annotation of lemmas, universal Part-of-Speech tags and dependency relations, the Pashto-Sikaram treebank contains transliteration of forms and lemmas into Latin alphabet and English translation and glosses.
Acknowledgments
We thank Salih Mohammad Salih and Asmatullah Sarwan for providing the texts for the treebank and language consultations. We also thank Shah Wali Faryad for helping with the manual annotation.
Statistics of UD Pashto Sikaram
POS Tags
ADJ – ADP – ADV – AUX – CCONJ – DET – NOUN – NUM – PART – PRON – PROPN – PUNCT – SCONJ – SYM – VERB – X
Features
Animacy – Aspect – Case – Deixis – ExtPos – Foreign – Gender – Mood – Number – NumType – Person – Polarity – Poss – PronType – Reflex – Tense – Typo – Variant – VerbForm – Voice
Relations
acl – acl:relcl – advcl – advcl:relcl – advmod – amod – appos – aux – aux:cnd – aux:fut – aux:hab – aux:pass – aux:perf – aux:pot – case – cc – ccomp – compound – compound:lvc – conj – cop – csubj – dep – det – dislocated – fixed – flat – flat:foreign – goeswith – mark – nmod – nsubj – nsubj:pass – nummod – obj – obl – obl:agent – obl:arg – orphan:nsubjobj – orphan:objobl – parataxis – punct – reparandum – root – vocative – xcomp
Tokenization and Word Segmentation
- This corpus contains 155 sentences, 4032 tokens and 4067 syntactic words.
- This corpus contains 661 tokens (16%) that are not followed by a space.
- This corpus does not contain words with spaces.
- This corpus does not contain words that contain both letters and punctuation.
- This corpus contains 35 multi-word tokens. On average, one multi-word token consists of 2.00 syntactic words.
- There are 18 types of multi-word tokens. Examples: پرې, ورسره, ورباندې, ترې, ورپسې, پاتېږي, اوچتېږي, جوړوي, جوړېدی, خپرولو, خپرېږي, راولاړوي, راولاړېږي, هېروي, ورته, ولاړوي, پوهېږي, ځوابولای.
Morphology
Tags
- This corpus uses 16 UPOS tags out of 17 possible: ADJ, ADP, ADV, AUX, CCONJ, DET, NOUN, NUM, PART, PRON, PROPN, PUNCT, SCONJ, SYM, VERB, X
- This corpus does not use the following tags: INTJ
- This corpus contains 5 word types tagged as particles (PART): بايد, باید, دې, نه, نۀ
- This corpus contains 22 lemmas tagged as pronouns (PRON): تۀ, دا, داسې, دوی, زۀ, موږ, هرڅوک, هرڅۀ, هغه, هغوی, همدا, همدغه, هیڅوک, ور, يې, ټول, ځان, څوک, څۀ, چې, یوبل, یې
- This corpus contains 19 lemmas tagged as determiners (DET): خپل, دا, داسې, دغسې, دغه, هر, هغه, هماغسې, هماغه, همدا, همدغه, هېڅ, ټول, ځینې, څو, څۀ, چې, کوم, یوشمېر
- Out of the above, 8 lemmas occurred sometimes as PRON and sometimes as DET: دا, داسې, هغه, همدا, همدغه, ټول, څۀ, چې
- This corpus contains 5 lemmas tagged as auxiliaries (AUX): بۀ, ول, ونۀ, کول, کېدل
- Out of the above, 2 lemmas occurred sometimes as AUX and sometimes as VERB: کول, کېدل
- There are 4 (de)verbal forms:
- Fin
- AUX: ده, شي, وي, کېږي, دي, دی, دﺉ, شو, و, وه
- VERB: کوي, لري, کړي, شي, کېږي, کولای, ورکوي, شته, شو, وايي
- Inf
- VERB: ژباړل, کارول, لیکل, ګڼل, رااخیستل, راژباړل, لیدل, نیول, واړول, ويل
- Part
- ADJ: لیکنۍ, تدريسېدونکي, خواشینوونکې, غموونکې, لارورکوونکو, ورکوونکې, کارېدونکې
- AUX: شوی, شوي, شوې
- VERB: کړی, شوي, شوی, کړې, شویو, شوې, کړي, تړلي, رسولې, رسېدلی
- Vnoun
- NOUN: لیکنې, جوړونې, خپرونې, پوهونې, جوړونه, خپرونو, راپوهونې, رغونه, غزونې, پوهونه
Nominal Features
- Fem
- ADJ: سمه, نورو, ناسمه, ښه, اصلي, زياتې, بله, نورې, زياته, ستره
- ADJ-Part: لیکنۍ, خواشینوونکې, غموونکې, ورکوونکې, کارېدونکې
- AUX-Fin: ده, وه, دي
- AUX-Part: شوې
- DET: دې, خپله, هرې, هره, ټوله, ټولې, کومه, کومې, هغه, همدې
- NOUN: ژبه, ژبې, ژباړې, ژباړه, ژبو, توګه, خوا, مانا, برخه, خبرې
- NOUN-Vnoun: لیکنې, جوړونې, خپرونې, پوهونې, جوړونه, خپرونو, راپوهونې, رغونه, غزونې, پوهونه
- NUM: یوه, یوې, دوې
- PRON: دې, هغې, دا
- PROPN: پښتو, اردو, پاړسي, عربي, مریم, امريکا, انګرېزۍ, انګرېزي, ايینې, براون
- VERB-Fin: کړه, شوه, درلوده, وهله, وهلې, وکړه, وګټله, کېده
- VERB-Part: کړې, شوې, رسولې, شویو, لوېدلې, ورکړې, ځپلې
- Masc
- ADJ: زيات, نورو, زده, ټولنیز, اړوند, جوړ, نور, ټولنیزو, پوهنیزو, اسلامي
- ADJ-Part: تدريسېدونکي, لارورکوونکو
- AUX-Fin: دی, دﺉ, و, وو, شو, کېدل
- AUX-Part: شوی, شوي
- DET: خپل, هر, کوم, ټول, خپلو, دغه, دې, هغه, هماغه
- NOUN: کار, خلکو, کتابونه, خلک, ډول, کتابونو, کسان, وخت, ژوند, ارزښت
- NUM: یو, یوه, دوه
- PRON: هغۀ, ټولو, څوک
- PROPN: پښتانه, احمد, وحید, پښتنو, پیتر, پنج, کتاب, افغان, ايران, ايرانیان
- VERB-Fin: شو, وواهه, کړل, کښل, راوغزول, راوژباړه, غواړي, لټاوه, واخيستۀ, ورسېد
- VERB-Part: کړی, شوي, شوی, کړي, تړلي, رسېدلی, شویو, فرمايلي, لوستی, ويلي
- Hum
- PRON: څوک, چا, هرڅوک, هیڅوک
- Nhum
- DET: څه, څۀ
- PRON: څه, هرڅه
- Coll
- NOUN: خلکو, خلک, سلنه, شتو, مواد
- Plur
- ADJ: نورو, زيات, ټولنیزو, پوهنیزو, زياتې, نور, اسلامي, نورې, اکثره, جوړ
- ADJ-Part: تدريسېدونکي, لارورکوونکو
- AUX-Fin: دي, کېږي, شي, وي, شو, وو, کېدل
- AUX-Part: شوي
- DET: ټول, خپل, خپلو, ټولې, کومې, دغو, دې, همدغو, ځینو, ځینې
- NOUN: ژبو, کتابونه, کتابونو, کسان, خبرې, هېوادونو, ارزښتونه, ارزښتونو, ملتونو, ژبې
- NOUN-Vnoun: لیکنې, خپرونې, خپرونو, غزونې, څرګندونې
- PRON: دوی, هغوی, زموږ, موږ, ټولو
- PROPN: پښتانه, پښتنو, ايرانیان, ايرانیانو, فرانسويانو, پنجابیانو
- VERB-Fin: کوي, وايي, ورکوي, شي, وڅېړو, کوو, کېږي, لري, ورکړي, ولري
- VERB-Part: شوي, شویو, کړي, تړلي, فرمايلي, ويلي, ژباړلي
- Ptan
- NOUN: معلومات
- Sing
- ADJ: ښه, زده, سمه, ټولنیز, ناسمه, اصلي, اړ, اړوند, بل, بله
- ADJ-Part: لیکنۍ, خواشینوونکې, غموونکې, ورکوونکې, کارېدونکې
- AUX-Fin: ده, شي, وي, دی, کېږي, دﺉ, و, وه, شې, شو
- AUX-Part: شوی, شوې
- DET: خپل, دې, خپله, کوم, ټوله, کومه, هره, هغه, دغه, هر
- NOUN: ژبه, ژباړې, ژبې, ژباړه, کار, توګه, خوا, مانا, ډول, برخه
- NOUN-Vnoun: جوړونې, پوهونې, جوړونه, راپوهونې, رغونه, پوهونه, کارونې
- PRON: ځان, دې, هغۀ, هغې, دا, ستا, ما, زما, څوک
- PROPN: پښتو, اردو, پاړسي, احمد, وحید, پیتر, پنج, عربي, مریم, کتاب
- VERB-Fin: لري, کړي, شي, کېږي, راځي, شو, کړه, وواهه, غواړي, ښايي
- VERB-Part: کړی, شوی, کړې, شوې, رسولې, رسېدلی, لوستی, لوېدلې, ورکړې, ځپلې
- Abl
- ADJ: بده, بلې, لږه, نړیوالو
- ADP: له, تر, پرته, پورې
- ADV: اوسه
- DET: دې, هغه, همدې
- NOUN: خوا, مخې, کبله, اړخه, اصولو, امله, اړخونو, خلکو, دمه, دوده
- NUM: یوې
- PRON: دې, ټولو
- PROPN: پېښوره
- Acc
- ADJ: نورو, ټولنیزو, پوهنیزو, اغېزمن, متاثر, اسلامي, بل, کلتوري, ادبي, اغېزناک
- ADJ-Part: لارورکوونکو, لیکنۍ
- ADP: د, ته, له, سره, لپاره, څخه, تر, لاندې, ترڅنګ, پسې
- DET: خپل, هرې, خپلو, ځینو, دغو, هماغه, همدغو, ټولې, کوم, کومې
- NOUN: ژباړې, ژبې, خلکو, ژبو, کتابونو, ساري, هېوادونو, ارزښتونو, خبرو, دودونو
- NOUN-Vnoun: جوړونې, پوهونې, خپرونو, راپوهونې, کارونې
- NUM: یوه, یوې, دوو
- PRON: دې, هغوی, هغۀ, چا, ما, هغې, دوی
- PROPN: پښتو, پښتنو, پیتر, اردو, ايران, مریم, پاړسي, اسامه, افغان, امريکا
- VERB-Inf: کولو, ځلولو, څښلو, څکولو, ړنګېدو
- VERB-Part: شویو
- Gen
- PRON: زموږ, ستا, زما
- Loc
- ADJ: نورو, ټولنیز, وروستیو, لره, اخرو, اسلامي, اوښتې, ايراني, ايرانۍ, اړوند
- ADP: په, کې, پر, باندې, پۀ, پورې
- DET: دې, خپل, خپله, ټوله, هره, هماغه, هغه, ځینو
- NOUN: ژبه, توګه, برخه, وخت, ټکي, بڼه, جمله, سیمه, ډګر, ژبو
- NUM: یوه, دوو
- PRON: دې, دوی, هغوی, هغې
- PROPN: پښتو, اردو, پاړسي, انګرېزۍ, ږوب, افغانستان, امريکا, جرمني, لورلايي, هند
- Nom
- ADJ: زيات, ښه, زده, سمه, جوړ, ناسمه, نور, اصلي, اړ, اړوند
- ADJ-Part: تدريسېدونکي, خواشینوونکې, غموونکې, لیکنۍ, ورکوونکې, کارېدونکې
- AUX-Part: شوی, شوي, شوې
- DET: دغه, هغه, خپل, هر, ځینې, همدغه, ټول, کوم, کومه, خپله
- NOUN: ژبه, ژباړه, کتابونه, خلک, ډول, کسان, خبرې, ستونزه, مانا, اړتیا
- NOUN-Vnoun: لیکنې, خپرونې, جوړونه, رغونه, غزونې, پوهونه, څرګندونې
- NUM: یو, یوه, دوه, دوې
- PRON: دا, دوی, همدا, څوک, هغه, موږ, هرڅوک, همدغه, هیڅوک, ځان
- PROPN: پښتو, پښتانه, احمد, وحید, عربي, پنج, ايرانیان, پاړسي, کتاب, اردو
- VERB-Fin: شو, کېده
- VERB-Inf: ژباړل, کارول, لیکل, ګڼل, رااخیستل, راژباړل, لیدل, نیول, واړول, ويل
- VERB-Part: کړی, شوي, شوی, کړې, شوې, کړي, تړلي, رسولې, رسېدلی, فرمايلي
- Voc
- PROPN: سامه
Degree and Polarity
- Neg
- ADJ: ناسمه, ناخبره, ناسم, ناشونې
- AUX: ونه, ونۀ
- PART: نه, نۀ
- Dir
- PRON: ور
- Long
- AUX-Fin: وکولای
- DET: دغه, همدغه, دغسې, دغو, همدغو
- PRON: همدغه
- VERB-Fin: وشي, وکړي, وکولای, وکړ
- Short
- ADV: هسې
- AUX-Fin: شوای, کېدای
- DET: دې, داسې, دا
- NOUN: ډوله
- VERB-Fin: کړه, درلوده, راتلای, شوه, وکړه, کړای, کېده
- VERB-Inf: لاړ, ړنګېدو
- VERB-Part: شوی, لوستی
- Weak
- PRON: يې, یې
Verbal Features
- Imp
- AUX-Fin: کېږي, کولای, کېدای, کېدل
- VERB-Fin: کوي, لري, کېږي, کولای, ورکوي, وايي, راځي, پوهېږي, اخیستلای, غواړي
- VERB-Inf: ژباړل, کارول, لیکل, ګڼل, رااخیستل, راژباړل, لیدل, نیول, کولو, رټل
- Perf
- AUX: ونه, شوای, شو, ونۀ, وکولای
- AUX-Fin: شوای, شو, وکولای
- VERB-Fin: شو, کړه, وواهه, شوه, کړل, راوغزول, راوژباړه, واخيستۀ, ورسېد, ورکړ
- VERB-Inf: واړول, وکارول, راوژباړل, ورکړل, وساتل, وشمېرل, ولیکل, ووېشل, ويل, وټاکل
- Cnd
- AUX-Fin: شوای, وای, وکولای, کولای, کېدای
- VERB-Fin: کولای, اخیستلای, اوارولای, ايښوولای, برخمنېدلای, راتلای, لرلای, لوستلای, موندلای, نیولای
- Imp
- VERB-Fin: کړه
- Ind
- AUX-Fin: ده, کېږي, دي, دی, دﺉ, و, وه, وو, شو, کېدل
- VERB-Fin: کوي, لري, کېږي, ورکوي, شته, وايي, راځي, شو, وواهه, پوهېږي
- Sub
- AUX-Fin: شي, وي, شو, شې
- VERB-Fin: کړي, شي, ولري, وڅېړو, ورکړي, وشي, وي, وکړي, کړو, راواخلي
- Past
- AUX-Fin: و, وه, وو, شو, کېدل
- AUX-Part: شوی, شوي, شوې
- VERB-Fin: شو, وواهه, کړه, شوه, کړل, کښل, درلوده, راوغزول, راوژباړه, لټاوه
- VERB-Part: کړی, شوي, شوی, کړې, شویو, شوې, کړي, تړلي, رسولې, رسېدلی
- Pres
- AUX-Fin: ده, کېږي, دي, دی, دﺉ
- VERB-Fin: کوي, لري, کېږي, ورکوي, شته, وايي, راځي, پوهېږي, غواړي, ښايي
- Act
- ADJ-Part: تدريسېدونکي, خواشینوونکې, غموونکې, لارورکوونکو, ورکوونکې, کارېدونکې
- Pass
- ADJ-Part: لیکنۍ
Pronouns, Determiners, Quantifiers
- Dem
- ADV: داسې, همدا, هسې
- DET: هغه, دغه, دې, داسې, همدغه, دغسې, هماغه, دا, دغو, هماغسې
- PRON: دا, دې, همدا, هغه, داسې, همدغه
- Ind
- ADV: چېرې
- DET: څو, ځینې, کوم, ځینو, کومه, یوشمېر, کومې
- PRON: څوک, هرڅه, چا
- Int
- DET: کومې, څه, څۀ
- PRON: څه, چا, څوک
- Neg
- DET: هېڅ
- PRON: هیڅوک
- Prs
- DET: خپل, خپله, خپلو
- PRON: يې, ور, دوی, هغوی, یې, ځان, زموږ, هغۀ, هغې, ستا
- Rcp
- PRON: یوبل
- Rel
- ADV: چې
- DET: چې
- PRON: چې
- Tot
- DET: هر, هرې, هره, ټول, ټوله, ټولې
- PRON: هرڅه, هرڅوک, ټولو
- Card
- DET: یوشمېر
- NUM: یوه, یو, یوې, 1, 30, 40, دوو, دوه, دوې
- Yes
- DET: خپل, خپله, خپلو
- PRON: يې, یې
- Yes
- DET: خپل, خپله, خپلو
- PRON: ځان
- 1
- AUX-Fin: شو
- PRON: زموږ, ما, زما, موږ
- VERB-Fin: وڅېړو, کوو, کړو, شو, وګورو, کوم
- 2
- AUX-Fin: شې
- PRON: ستا
- VERB-Fin: غواړې, کړه, ګورې
- 3
- AUX-Fin: ده, شي, وي, کېږي, دي, دی, دﺉ, و, وه, وو
- PRON: يې, ور, دوی, هغوی, یې, هغۀ, هغې
- VERB-Fin: کوي, لري, کړي, شي, کېږي, ورکوي, شته, وايي, راځي, شو
Other Features
- Deixis
- Prox
- ADV: داسې, همدا
- DET: دغه, دې, داسې, همدغه, دغسې, دا, دغو, همدغو, همدې
- PRON: دا, دې, دوی, همدا, داسې, همدغه
- Remt
- ADV: هلته, هسې
- DET: هغه, هماغه, هماغسې
- PRON: هغوی, هغۀ, هغې, هغه
- Prox
- ExtPos
- ADV
- ADJ: لږ
- ADV: کله
- NOUN: ټکي
- X: کټ
- SCONJ
- ADV: کله
- SCONJ: ځکه, که
- ADV
- Foreign
- Yes
- X: که, در, Escape, Taliban, from, ،, اخیر, استیم, اسیر, افغان
- Yes
- Typo
- Yes
- ADJ: ټولنیزو, اّر, غمجنیه, ممکنه, پښتون, ګنې
- NOUN: رخه, زېري, سوچه, لاره, ولايتونو, کره
- Yes
Syntax
Auxiliary Verbs and Copula
- This corpus uses 1 lemmas as copulas (cop). Examples: ول.
- This corpus uses 3 lemmas as auxiliaries (aux). Examples: ونۀ, ول, کېدل.
- This corpus uses 1 lemmas as passive auxiliaries (aux:pass). Examples: کېدل.
Core Arguments, Oblique Arguments and Adjuncts
Here we consider only relations between verbs (parent) and nouns or pronouns (child).
- nsubj
- VERB-Fin--NOUN-Acc (7)
- VERB-Fin--NOUN-Nom (86)
- VERB-Fin--PRON (21)
- VERB-Fin--PRON-Acc (7)
- VERB-Fin--PRON-Nom (8)
- VERB-Inf--NOUN-Nom (1)
- VERB-Part--NOUN-Acc (8)
- VERB-Part--NOUN-Nom (13)
- VERB-Part--PRON (6)
- VERB-Part--PRON-Acc (1)
- VERB-Part--PRON-Nom (1)
- obj
- VERB-Fin--NOUN-Acc (1)
- VERB-Fin--NOUN-Nom (117)
- VERB-Fin--PRON (12)
- VERB-Fin--PRON-Nom (2)
- VERB-Inf--NOUN-Nom (1)
- VERB-Part--NOUN-Nom (15)
- VERB-Part--PRON (1)
Verbs with Reflexive Core Objects
- This corpus contains 1 lemmas that occur at least once with a reflexive core object (obj or iobj). Examples: کول ځان
Relations Overview
- This corpus uses 15 relation subtypes: acl:relcl, advcl:relcl, aux:cnd, aux:fut, aux:hab, aux:pass, aux:perf, aux:pot, compound:lvc, flat:foreign, nsubj:pass, obl:agent, obl:arg, orphan:nsubjobj, orphan:objobl
- The following 1 main types are not used alone, they are always subtyped: orphan
- The following 5 relation types are not used in this corpus at all: iobj, expl, discourse, clf, list