UD Bengali BRU
Language: Bengali (code: bn
Family: Indo-European, Indic
This treebank has been part of Universal Dependencies since the UD v2.9 release.
The following people have contributed to making this treebank part of UD: Siratun Jannat, Mizanur Rahoman, Shafi Sourov, Jannatul Ferdaousi, Syeda Shahzadi, Daniel Zeman.
Repository: UD_Bengali-BRU
Search this treebank on-line: PML-TQ
Download all treebanks: UD 2.14
License: CC BY-SA 4.0
Genre: grammar-examples
Questions, comments? General annotation questions (either Bengali-specific or cross-linguistic) can be raised in the main UD issue tracker. You can report bugs in this treebank in the treebank-specific issue tracker on Github. If you want to collaborate, please contact [siratunjannat (æt) gmail • com, mdmizanur • rahoman (æt) gmail • com, sourov • cse • brur (æt) gmail • com, tuly19114 (æt) gmail • com, shahzadi • cse • brur (æt) gmail • com]. Development of the treebank happens directly in the UD repository, so you may submit bug fixes as pull requests against the dev branch.
Annotation | Source |
Lemmas | annotated manually |
UPOS | annotated manually, natively in UD style |
XPOS | not available |
Features | annotated manually, natively in UD style |
Relations | annotated manually, natively in UD style |
The BRU Bengali treebank has been created at Begum Rokeya University, Rangpur, by the members of Semantics Lab.
- (citation)
Statistics of UD Bengali BRU
POS Tags
Aspect – Case – Definite – Degree – Mood – Number – NumType – PartType – Person – PronType – Tense – VerbForm – Voice
acl – acl:relcl – advcl – advmod – amod – aux – case – ccomp – compound – compound:lvc – conj – det – discourse – fixed – iobj – mark – nmod – nmod:poss – nsubj – nsubj:pass – obj – obl – parataxis – punct – root – vocative – xcomp
Tokenization and Word Segmentation
- This corpus contains 56 sentences and 320 tokens.
- This corpus contains 39 tokens (12%) that are not followed by a space.
- This corpus does not contain words with spaces.
- This corpus does not contain words that contain both letters and punctuation.
- This corpus uses 14 UPOS tags out of 17 possible: ADJ, ADP, ADV, AUX, DET, INTJ, NOUN, NUM, PART, PRON, PROPN, PUNCT, SCONJ, VERB
- This corpus does not use the following tags: CCONJ, SYM, X
- This corpus contains 3 word types tagged as particles (PART): কি, না, নাই
- This corpus contains 7 lemmas tagged as pronouns (PRON): আমি, কি, কিছু, কে, তুমি, যে, সে
- This corpus contains 7 lemmas tagged as determiners (DET): একটা, একটি, কি, কোন, তাই, না, নেই
- Out of the above, 1 lemmas occurred sometimes as PRON and sometimes as DET: কি
- This corpus contains 3 lemmas tagged as auxiliaries (AUX): চাওয়া, পারা, হওয়া
- Out of the above, 1 lemmas occurred sometimes as AUX and sometimes as VERB: হওয়া
- There are 4 (de)verbal forms:
- Fin
- AUX: পার, চায়, পারি, পারো, হবে
- VERB: আসে, খেয়েছ, চল, জানো, ধোবো, নাও, বলব, যাই, যাব, হয়েছে
- Inf
- VERB: বসার, ভিক্ষা
- Part
- VERB: আঁকতে, খেতে, গাইতে, ঘুরতে, ধুয়ে, পড়তে, রেখে, করে, কিনে, খেয়ে
- Vnoun
- NOUN: পড়া, লেখা
Nominal Features
- Plur
- NOUN: হাত, জন, নাম
- PRON: আমাদের, আমরা, তাদের
- Sing
- NOUN: গান, নাম, বাবা, মা, কার্টুন, ক্লাসে, গল্প, দেশের, পতাকা, বই
- NOUN-Vnoun: পড়া, লেখা
- PRON: আমি, তুমি, তোমার, আমার, তার, তোমাকে, তাকে, তোমায়
- PROPN: বর্ণালী, রাকিব, সাকিব
- Acc
- PRON: তোমাকে, তাকে, তোমায়
- Gen
- NOUN: দেশের, বাবার, পতাকার, মজার
- PRON: তোমার, আমার, আমাদের, তার, তাদের
- Loc
- NOUN: ক্লাসে, রিক্সায়, শ্রেনীতে, স্কুলে
- Nom
- NOUN: নাম, গান, বাবা, মা, হাত, কার্টুন, গল্প, পতাকা, বই, রং
- NOUN-Vnoun: পড়া, লেখা
- PRON: আমি, তুমি, আমরা
- PROPN: বর্ণালী, রাকিব, সাকিব
- Ind
- DET: একটা
Degree and Polarity
- Pos
- ADJ: কতজন, ক্ষুধার্ত, খারাপ, খুব, জাতীয়, প্রিয়, ভাল, ভালো, মজার, সবুজ
Verbal Features
- Imp
- VERB-Part: আঁকতে, খেতে, গাইতে, ঘুরতে, পড়তে, পরতে
- Perf
- VERB-Fin: হয়েছে, এনেছি, করেছ, করেছি, খেয়েছ, দেখেছি, পড়েছি, শিখেছি
- VERB-Part: ধুয়ে, রেখে, করে, কিনে, খেয়ে
- Cnd
- VERB-Fin: বলব
- VERB-Part: খেলে
- Imp
- VERB-Fin: চল, নাও, কর, গাও, দেখ, বস
- Ind
- AUX-Fin: পার, চায়, পারি, পারো, হবে
- VERB-Fin: আসে, খেয়েছ, জানো, ধোবো, যাই, যাব, হয়েছে, আছে, এনেছি, করবে
- VERB-Part: শিখিয়েছে
- Fut
- AUX-Fin: হবে
- VERB-Fin: ধোবো, বলব, যাব, করবে, খাও, দিব, দেখব
- Past
- VERB-Part: শিখিয়েছে
- Pres
- AUX-Fin: পার, চায়, পারি, পারো
- VERB-Fin: আসে, খেয়েছ, চল, জানো, নাও, যাই, হয়েছে, আছে, এনেছি, কর
- Pass
- VERB-Part: শিখিয়েছে
Pronouns, Determiners, Quantifiers
- Art
- DET: একটা
- Dem
- DET: তাই
- Ind
- ADV: মাঝে
- PRON: কিছু
- Int
- ADV: কখন
- DET: কি, কোন, নাই
- PRON: কি, কে
- Prs
- PRON: আমি, তুমি, তোমার, আমার, আমাদের, আমরা, তার, তোমাকে, তাকে, তাদের
- Rel
- PRON: যে
- Card
- NUM: একজন, চার
- Ord
- ADJ: প্রথম
- 1
- AUX-Fin: পারি
- PRON: আমি, আমার, আমাদের, আমরা
- VERB-Fin: ধোবো, যাই, যাব, এনেছি, করি, করেছি, খাব, চল, দিব, দেখব
- 2
- AUX-Fin: পার, পারো, হবে
- PRON: তুমি, তোমার, তোমাকে, তোমায়
- VERB-Fin: খেয়েছ, জানো, নাও, করেছ, খাও, গাও, চল, দেখ, পড়, বলব
- 3
- AUX-Fin: চায়
- PRON: তার, তাকে, তাদের
- VERB-Fin: আসে, হয়েছে, আছে, কর, দয়ে, হয়
Other Features
- PartType
- Int
- PART: কি
- Neg
- PART: না, নাই
- Int
Auxiliary Verbs and Copula
- This corpus does not contain copulas.
- This corpus uses 3 lemmas as auxiliaries (aux). Examples: পারা, চাওয়া, হওয়া.
Core Arguments, Oblique Arguments and Adjuncts
Here we consider only relations between verbs (parent) and nouns or pronouns (child).
- nsubj
- VERB-Fin--NOUN-Nom (4)
- VERB-Fin--PRON-Nom (12)
- VERB-Inf--PRON (1)
- VERB-Part--NOUN-Nom (1)
- VERB-Part--PRON (1)
- VERB-Part--PRON-Nom (7)
- obj
- VERB-Fin--NOUN-Loc (1)
- VERB-Fin--NOUN-Nom (12)
- VERB-Fin--PRON (3)
- VERB-Fin--PRON-Acc (2)
- VERB-Part--NOUN-Loc (1)
- VERB-Part--NOUN-Nom (9)
- VERB-Part--PRON-Acc (1)
- iobj
- VERB-Part--NOUN-Nom (2)
- VERB-Part--PRON-Acc (1)
Relations Overview
- This corpus uses 4 relation subtypes: acl:relcl, compound:lvc, nmod:poss, nsubj:pass
- The following 14 relation types are not used in this corpus at all: csubj, expl, dislocated, cop, appos, nummod, clf, cc, flat, list, orphan, goeswith, reparandum, dep