UD Punjabi Rang
Language: Punjabi (code: pa)
Family: IE
This treebank has been part of Universal Dependencies since the UD v2.18 release.
The following people have contributed to making this treebank part of UD: Rimsha Abid, Luigi Talamo, Helena Vaz, Andrew Dyer, Annemarie Verkerk.
Repository: UD_Punjabi-Rang
Search this treebank on-line: PML-TQ
Download all treebanks: UD 2.18
License: CC BY-SA 4.0
Genre: fiction, news
Questions, comments? General annotation questions (either Punjabi-specific or cross-linguistic) can be raised in the main UD issue tracker. You can report bugs in this treebank in the treebank-specific issue tracker on Github. If you want to collaborate, please contact [annemarie • verkerk (æt) uni-saarland • de]. Development of the treebank happens directly in the UD repository, so you may submit bug fixes as pull requests against the dev branch.
| Annotation | Source |
|---|---|
| Lemmas | annotated manually |
| UPOS | annotated manually, natively in UD style |
| XPOS | not available |
| Features | annotated manually, natively in UD style |
| Relations | annotated manually, natively in UD style |
Description
The Punjabi-Rang treebank is a manually annotated corpus in Punjabi (Shahmukhi script).
It contains 100 sentences from the first two chapters of The Petit Prince translated into Punjabi and 37 sentences from a blog page containing a discourse on the national Punjabi day. The data has been annotated according to Universal Dependencies guidelines.
The corpus is split contiguously into training, development, and test sets as follows:
| Split | Number of sentences |
|---|---|
| Train | 67 (petit prince) + 14 (discourse) |
| Dev | 17 (petit prince) + 13 (discourse) |
| Test | 16 (petit prince) + 10 (discourse) |
Annotation follows the Universal Dependencies v2 guidelines for tokenization, part-of-speech tags, and dependency relations.
Data was collected manually from the first two chapters of The Petit Prince (Punjabi translation, Shahmukhi script) and from the blog post at https://www.express.pk/story/2020057/kya-pnjaby-sqaft-madwm-hwrhy-he-2020057
Acknowledgments
The treebank was annotated by Rimsha Abid. Supervision and revision by Luigi Talamo, Helena Vaz, Andy Dyer and Annemarie Verkerk.
References
In preparation
Statistics of UD Punjabi Rang
POS Tags
ADJ – ADP – ADV – AUX – CCONJ – DET – INTJ – NOUN – NUM – PART – PRON – PROPN – PUNCT – SCONJ – VERB
Features
Aspect – Case – Degree – Gender – Mood – Number – NumType – Person – Poss – PronType – Reflex – Tense – VerbForm
Relations
acl – acl:relcl – advcl – advmod – advmod:emph – amod – aux – case – cc – cc:preconj – ccomp – compound – conj – cop – det – det:poss – discourse – iobj – mark – nmod – nmod:poss – nmod:tmod – nsubj – nummod – obj – obl – obl:agent – obl:arg – obl:tmod – parataxis – punct – root – vocative – xcomp
Tokenization and Word Segmentation
- This corpus contains 137 sentences and 1907 tokens.
- All tokens in this corpus are followed by a space.
- This corpus does not contain words with spaces.
- This corpus does not contain words that contain both letters and punctuation.
Morphology
Tags
- This corpus uses 15 UPOS tags out of 17 possible: ADJ, ADP, ADV, AUX, CCONJ, DET, INTJ, NOUN, NUM, PART, PRON, PROPN, PUNCT, SCONJ, VERB
- This corpus does not use the following tags: SYM, X
- This corpus contains 12 word types tagged as particles (PART): آپے, بس, بھی, تاں, جہا, دا, نا, نہی, نہیں, وی, ہاں, ہی
- This corpus contains 31 lemmas tagged as pronouns (PRON): آپ, آپنا, اس, اسنوں, اسنے, اسی, اسے, اناں, انھاں, اوہ, اپنا, اہ, اہدے, ایہہ, تسی, تسیں, توں, تہانوں, جس, جسدا, جنھے, جو, جہڑا, دن, میرا, مینوں, میں, کجھ, کوئی, کون, کی
- This corpus contains 17 lemmas tagged as determiners (DET): آپنا, اس, انہاں, اونی, اپنا, اہ, بہت, جو, سارا, سب, سبھ, میرا, میں, کسے, کوئی, ہر, یہ
- Out of the above, 8 lemmas occurred sometimes as PRON and sometimes as DET: آپنا, اس, اپنا, اہ, جو, میرا, میں, کوئی
- This corpus contains 1 lemmas tagged as auxiliaries (AUX): ہونا
- Out of the above, 1 lemmas occurred sometimes as AUX and sometimes as VERB: ہونا
- There are 3 (de)verbal forms:
- Fin
- AUX: ہے, سی, ہاں, اے, نیں, ہو, ساں, ہن, ہووے
- VERB: کریئے, دیئے, سمجھئیے, سن, لگا, ویکھو, ویکھیا, گیا, آ, آؤ
- Inf
- AUX: ہے
- VERB: سمجھ, کرن, کہن, بنا, بناؤن, بولن, دس, دکھاؤن, دین, دیکھ
- Part
- AUX: ہویا, جاندے, نیں, ہندا, ہو
- VERB: رہے, ہو, پا, جاندی, جاپدا, رہا, سوں, کردا, بنایا, جاندا
Nominal Features
- Fem
- ADJ: بڑی, مغربی, مٹدی, پہلی, چنگی, چھوٹی, بڈھی, دوجی, رنگدار, سچیاں
- NOUN: بھیڈ, ڈرائنگ, رات, زبان, دیر, ریت, ہیٹ, بلی, بوائی, ثقافت
- Masc
- ADJ: اکلا, چھوٹا, چھوٹے, باہرلا, بڑی, بڑے, جوگا, سوہنا, پرانے
- AUX-Part: جاندے
- NOUN: اجگر, چتر, جہاز, بندا, جواب, وڈیاں, اتر, ہاتھی, اجگراں, انجن
- PROPN: رانجھے, ماروتھل
- VERB: جاپدا, آیا, بھیڈو, جاندا, رجھیا, رہندے, ساہمنے, ٹٹّ, پیندا, چاہیدا
- VERB-Fin: ڈگیا
- VERB-Part: جاپدا, جاندا, رجھیا, رہندے, پیندا, چاہیدا
- Plur
- ADJ: بڑے, سچیاں, سیانے, پرانے, چھوٹیاں
- AUX: ہن, جاندے
- AUX-Fin: ہن
- AUX-Part: جاندے
- NOUN: وڈیاں, لوکاں, اجگراں, تہواراں, شاعراں, طبلے, لوگ, چتھے, کرتے, گانے
- PRON: انھاں, تہانوں, تسیں, آپنیاں, اناں, اہ
- VERB-Part: رہندے
- Sing
- ADJ: بڑی, پہلی, جوگا, رنگدار, سوہنا, منکھی, پیاری, چنگی, چھوٹا, چھوٹے
- AUX: سی
- AUX-Fin: سی
- NOUN: چتر, بھیڈ, ڈرائنگ, جہاز, تسویر, وار, ہاتھی, ہیٹ, اجگر, انجن
- PRON: میں, مینوں, اسنے, میرے, اس, اسدا, توں, تینوں, جہڑی, میرا
- PROPN: ماروتھل
- VERB: بھیڈو, جاندا, ساہمنے, ٹٹّ, ہوویگا
- VERB-Fin: ہوویگا
- VERB-Part: جاندا
- Abl
- ADP: تو, ولوں
- PRON: اس
- Acc
- ADP: نوں
- PRON: اسنوں
- Nom
- PRON: میں
Degree and Polarity
- Pos
- ADJ: بڑا, ہور, بڑے, سارا, پہلا, بڑی, دوجی, سیانے, پہلی, آوارا
Verbal Features
- Imp
- AUX: سی, ساں, ہندا
- AUX-Fin: سی, ساں
- AUX-Part: ہندا
- VERB: جاپدا, کردا, بناؤندا, جاندا, رہندا, لیندا, پیندا, ہندا, آؤندا, دندا
- VERB-Fin: سکدا, ویکھو
- VERB-Part: جاپدا, کردا, جاندا, رہندا, لیندا, پیندا, آؤندا, دندا, دندی, دیکھدے
- Perf
- VERB: آیا, گیا, ملیا, بنایا, دتا, ویکھیا, پچھیا, پھڑی, چھڈ, آئی
- VERB-Fin: ویکھیا, آئی, دیکھی, ملیا, پچھیا, ڈگیا, کہا, کیتی, گزاری, گیا
- VERB-Part: بنایا, ملیا, آیا, اٹھ, بھٹک, توڑ, تکیا, جڑے, جگایا, دتا
- Imp
- VERB-Fin: کریئے, بناؤ, دیو, واہو, ویکھو
- Ind
- AUX: ہے, سی, اے, ہاں, نیں, ہووے, ہن, ہو, ئی, ایں
- AUX-Fin: ہے, سی, ہاں, اے, نیں, ہو, ساں, ہن, ہووے
- AUX-Inf: ہے
- AUX-Part: نیں, ہو
- VERB: رہا, گیا, دتا, دیو, ہو, بنایا, دیئے, ساں, سکدا, لگدے
- VERB-Fin: دیئے, سمجھئیے, سن, لگا, ویکھیا, کریئے, گیا, آ, آؤ, آئی
- VERB-Inf: جانے, لا
- VERB-Part: ہو, بن, بنایا, بوئی, دتا, رہیاں, رہے, لبھدا, لگیا, ماریا
- Fut
- VERB-Fin: دیوگے, کھاویگی, ہوویگا
- Past
- AUX: سی, ساں
- AUX-Fin: سی, ساں
- VERB: دتا, لگا, ملیا, ویکھیا, پچھیا, گئیاں, گیا, آئی, آکھیا, دکھایا
- VERB-Fin: لگا, ویکھیا, گیا, آئی, دیکھی, ملیا, پچھیا, ڈگیا, کہا, کیتی
- VERB-Part: دتا, دکھایا, لگیا, ملیا, ٹکایا, پچھیا, پیا, ہوسیا, ہویا
- Pres
- AUX: ہے, ہاں, اے, ہن, ہووے, نیں, ہو
- AUX-Fin: ہے, ہاں, ہن, ہو, ہووے
- AUX-Inf: ہے
- VERB: ہیں, جاندی, دیندی, سکدے, منائیئے, پڑھئیے, پہنتا, کریئے
- VERB-Fin: سکدے, منائیئے, پڑھئیے, کریئے
- VERB-Part: جاندی, پہنتا
Pronouns, Determiners, Quantifiers
- Dem
- DET: اس, اہ, انہاں
- PRON: اہ, اس, ایہہ, اسنے
- Ind
- DET: کوئی, ہر, بہت, ساری, سارے, سب, سبھ, کسے
- PRON: کوئی, کجھ, کی, جو
- Prs
- DET: میرا, میری, آپنا, آپنی, آپنے, اونی, اپنا, اپنی, مورے, میریاں
- PRON: میں, مینوں, میرے, انھاں, میرا, آپنی, اسنوں, اسی, میری, اسنے
- Rel
- DET: جو
- PRON: جو, جس, جسدا, جنھے, جہڑی
- Card
- NUM: اک, اکّ, چھ, ہزاراں, اکو, دوہاں
- Yes
- PRON: آپنی
- Yes
- PRON: آپنی, آپنے, اسنوں
- 1
- AUX-Fin: ساں
- PRON: میں, مینوں, میرے, آپنیاں, اپنی, میرا
- VERB: دیکھی, ساں, واہی
- VERB-Fin: دیکھی, واہی
- 2
- AUX-Fin: ہو
- PRON: تسیں, تہانوں, توں, تینوں
- VERB-Fin: دیو, دیوگے
- 3
- AUX-Fin: سی, ہن, ہے
- PRON: اسنوں, اسنے, اس, اناں, اہ
- VERB-Fin: سکدے
Other Features
Syntax
Auxiliary Verbs and Copula
- This corpus uses 1 lemmas as copulas (cop). Examples: ہونا.
- This corpus uses 1 lemmas as auxiliaries (aux). Examples: ہونا.
Core Arguments, Oblique Arguments and Adjuncts
Here we consider only relations between verbs (parent) and nouns or pronouns (child).
- nsubj
- VERB--NOUN (14)
- VERB--NOUN-ADP(تے) (1)
- VERB--NOUN-ADP(نے) (2)
- VERB--PRON (22)
- VERB--PRON-Nom (1)
- VERB-Fin--NOUN (8)
- VERB-Fin--NOUN-ADP(نے) (1)
- VERB-Fin--PRON (10)
- VERB-Fin--PRON-Nom (1)
- VERB-Inf--NOUN (3)
- VERB-Inf--NOUN-ADP(نوں) (1)
- VERB-Inf--PRON (3)
- VERB-Inf--PRON-ADP(نوں) (1)
- VERB-Part--NOUN (21)
- VERB-Part--NOUN-ADP(تو) (1)
- VERB-Part--NOUN-ADP(دا) (1)
- VERB-Part--NOUN-ADP(نے) (2)
- VERB-Part--PRON (30)
- VERB-Part--PRON-Nom (5)
- obj
- VERB--NOUN (22)
- VERB--NOUN-ADP(دا) (1)
- VERB--NOUN-ADP(دا)-ADP(نوں) (1)
- VERB--NOUN-ADP(نوں) (2)
- VERB--PRON (2)
- VERB-Fin--NOUN (20)
- VERB-Fin--NOUN-ADP(نوں) (3)
- VERB-Fin--PRON (1)
- VERB-Inf--NOUN (7)
- VERB-Inf--NOUN-ADP(دا) (1)
- VERB-Inf--NOUN-ADP(دیاں) (1)
- VERB-Inf--NOUN-ADP(نوں) (1)
- VERB-Inf--PRON (2)
- VERB-Inf--PRON-ADP(نوں) (1)
- VERB-Inf--PRON-Acc (1)
- VERB-Part--NOUN (25)
- VERB-Part--NOUN-ADP(اندر) (1)
- VERB-Part--NOUN-ADP(نوں) (3)
- VERB-Part--PRON (6)
- VERB-Part--PRON-ADP(نوں) (1)
- iobj
- VERB--PRON (4)
- VERB--PRON-ADP(نوں) (1)
- VERB-Fin--NOUN-ADP(نوں) (1)
- VERB-Fin--PRON (5)
- VERB-Part--PRON (11)
- VERB-Part--PRON-ADP(نوں) (2)
Verbs with Reflexive Core Objects
- This corpus contains 1 lemmas that occur at least once with a reflexive core object (obj or iobj). Examples: کردا اسنوں