UD Persian PerDT
Language: Persian (code: fa
)
Family: Indo-European, Iranian
This treebank has been part of Universal Dependencies since the UD v2.7 release.
The following people have contributed to making this treebank part of UD: Mohammad Sadegh Rasooli, Pegah Safari, Amirsaeid Moloodi, Alireza Nourian.
Repository: UD_Persian-PerDT
Search this treebank on-line: PML-TQ
Download all treebanks: UD 2.14
License: CC BY-SA 4.0
Genre: news, fiction, nonfiction, academic, web, blog
Questions, comments?
General annotation questions (either Persian-specific or cross-linguistic) can be raised in the main UD issue tracker.
You can report bugs in this treebank in the treebank-specific issue tracker on Github.
If you want to collaborate, please contact [rasooli (æt) seas • upenn • edu, pegh • safari (æt) gmail • com].
Development of the treebank happens in the UD repository but not directly in the final CoNLL-U files.
You may submit bug fixes as pull requests against the dev branch but you have to go to the folder called not-to-release
and locate the source files there.
Contact the treebank maintainers if in doubt.
Annotation | Source |
---|---|
Lemmas | annotated manually in non-UD style, automatically converted to UD, with some manual corrections of the conversion |
UPOS | annotated manually in non-UD style, automatically converted to UD |
XPOS | annotated manually |
Features | annotated manually in non-UD style, automatically converted to UD, with some manual corrections of the conversion |
Relations | annotated manually in non-UD style, automatically converted to UD, with some manual corrections of the conversion |
Description
The Persian Universal Dependency Treebank (PerUDT) is the result of automatic coversion of Persian Dependency Treebank (PerDT) with extensive manual corrections. Please refer to the follwoing work, if you use this data:
- Mohammad Sadegh Rasooli, Pegah Safari, Amirsaeid Moloodi, and Alireza Nourian. “The Persian Dependency Treebank Made Universal”. 2020 (to appear).
The Persian Universal Dependency Treebank (PerUDT) is based on Persian Dependency Treebank (PerDT) (Rasooli et al.,2013). The original Treebank consists of 29K sentences sampled from contemporary Persian text in different genres including: news, academic papers, magazine articles and fictions.
This treebank was annotated based on a language-specific schema and its automatic conversion involved three main steps: revising tokenization, POS mapping and dependency mapping.
In tokenization step, in order to separate multiword inflections of simple verbs grouped as one token in PerDT, we followed the guidelines in (Rasooli et al., 2013, Table 3) to automatically find the main verbs. Also we automatically separated pronominal clitics.
In POS conversion step, we used the state of the art BERT-based Persian NER tagger (Taher et al.,2020) with manual corrections to extend recall. Through seven different entities detected by tagger, we used Person and Location to mark PROPN tags.
PerDT contains 43 syntactic relations with no straightforward mapping for most of them, conjunctions arranged from the beginning of the sentence to the end and more importantly, prepositions regarded as the head of prepositional phrases and auxiliary verbs as the head of sentences. So we rearranged the order of conjunctions from end to the beginning through a script and tailored rules to convert each kind of relation to its UD version properly. Through the whole process and at the end of each step, we investigated the results and applied manual corrections if it was needed.
Acknowledgments
Thanks to Morteza Rezaei-Sharifabadi for helping with the copyright of this data.
Statistics of UD Persian PerDT
POS Tags
ADJ – ADP – ADV – AUX – CCONJ – DET – INTJ – NOUN – NUM – PART – PRON – PROPN – PUNCT – SCONJ – VERB – X
Features
Mood – Number – Person – Polarity – PronType – Tense – VerbForm – Voice
Relations
acl – advcl – advmod – amod – appos – aux – case – cc – ccomp – compound – compound:lvc – conj – cop – csubj – dep – det – fixed – flat:name – flat:num – goeswith – iobj – mark – nmod – nsubj – nsubj:pass – nummod – obj – obl – obl:arg – parataxis – punct – root – vocative – xcomp
Tokenization and Word Segmentation
- This corpus contains 29107 sentences, 494163 tokens and 501776 syntactic words.
- This corpus contains 43893 tokens (9%) that are not followed by a space.
- This corpus does not contain words with spaces.
- This corpus contains 46 types of words that contain both letters and punctuation. Examples: CoRoT-7b, e-mail, م., ه.ق., یو.اس.بی, "اثر", "زن", "مرد", ''ایمیل'', -شاعر, 2-پنتانول, 30-P-409, 4-متیل, :مهناز, A/B, AQ-170, B.C, Blu-ray, DirectX.11.1, Fax.com, S&P, S-300, SIM-LEI, XMM-Newton, [واحد, full-text, iPhone-Dev-Team, real-time, rock-solid, www.biochemiran.com, استارت-2, اسرائیل], اسکاد-بی, اف-5, انشاا…, اچ.آی.وی, ایکس-ری, بتا-گاما, بی-29, بی.ام.دبلیو, رو-ست, سی-130هایی, سیم-لی, غیرشاعر-, هلمن-, پ.م
- This corpus contains 7173 multi-word tokens. On average, one multi-word token consists of 2.06 syntactic words.
- There are 3308 types of multi-word tokens. Examples: مرا، خودش، خودم، خودتان، خودمان، خودشان، برایش، دلم، پدرم، خودت، بدین، برایم، مادرم، بدان، پدرش، یادم، دستش، کشورمان، امیدوارم، دلش، سرش، قلبم، خدایا، همسرتان، برایشان، دستم، صورتش، ذهنم، سرم، مادرش، برایت، پایش، برایتان، همسرم، کارتان، یادش، نگاهش، سالهاست، چشمانش، کارش، خانوادهاش، دخترش، زندگیام، نظرم، پسرش، بدنش، برادرم، خانهاش، دهانش، زندگیاش.
Morphology
Tags
- This corpus uses 16 UPOS tags out of 17 possible: ADJ, ADP, ADV, AUX, CCONJ, DET, INTJ, NOUN, NUM, PART, PRON, PROPN, PUNCT, SCONJ, VERB, X
- This corpus does not use the following tags: SYM
- This corpus contains 4 word types tagged as particles (PART): آیا, دیگر, مگر, که
- This corpus contains 55 lemmas tagged as pronouns (PRON): _, آن, آنان, آنجا, آنها, آنچنان, آنچه, آنها, آها, او, ایشان, این, اینان, اینجانب, اینها, اینها, بعضی, بنده, تو, خود, خودت, خودتان, خودش, خودشان, خودم, خودمان, خویش, خویشتن, دیگران, دیگری, شما, ما, ماها, من, هم, همان, همانها, همدیگر, همه, همین, همینان, هیچ, وی, چقدر, چنان, چنین, چه, چی, کجا, کدام, کس, که, کو, کی, یکدیگر
- This corpus contains 60 lemmas tagged as determiners (DET): آن, ابن, ان, اندکی, اکثر, این, بدین, برخی, بسی, بسیار, بسیاری, بعضی, تعداد, تعدادی, تنها, تک, خیلی, دو, دین, دیگر, ساعتها, سالیان, سراسر, عجب, عده, عدهای, فلان, مدتها, مقدار, مقداری, هر, هرچه, هزار, هزاران, همان, همه, همین, هوار, هیچ, پاره, چقدر, چنان, چند, چندان, چندصد, چندمین, چندی, چندین, چنین, چه, چگونه, کدام, کدامین, کلیه, کمتر, کمی, گاهی, گروه, گروهی, یک
- Out of the above, 12 lemmas occurred sometimes as PRON and sometimes as DET: آن, این, بعضی, همان, همه, همین, هیچ, چقدر, چنان, چنین, چه, کدام
- This corpus contains 9 lemmas tagged as auxiliaries (AUX): است, بایست, بود, توان, توانست, خواست, داشت, کرد, گشت
- Out of the above, 8 lemmas occurred sometimes as AUX and sometimes as VERB: بایست, بود, توان, توانست, خواست, داشت, کرد, گشت
- There are 2 (de)verbal forms:
- Fin
- AUX: خواهد, خواهند, خواهم, خواهیم, خواهید, نخواهد, خواهی, نخواهم, نخواهند, نخواهیم
- Part
- VERB: کرده, کردهاند, شده, داده, کردهام, کردهایم, داشته, کردهاید, آمده, شدهاند
Nominal Features
- Plur
- AUX: خواهند, بودند, باشند, خواهیم, باشید, بودیم, خواهید, باشیم, بودید, نخواهند
- AUX-Fin: خواهند, خواهیم, خواهید, نخواهند, نخواهیم, نخواهید, درخواهند, برخواهند, بازخواهند, برخواهیم
- NOUN: مردم, همهٔ, تمام, همه, کسانی, دیگران, افراد, حقوق, بسیاری, کشورهای
- NUM: هزار, میلیون
- PRON: ما, آنها, شما, شان, تان, مان, آنان, خود, ایشان, آنها
- PROPN: ملل, طالبان, امور, ایالات, علوم, منافقین, پاسداران, اطلاعات, دختران, تیمهای
- VERB: کنید, میکنند, کردهاند, کردند, کنند, میکنیم, میکردند, هستند, کنیم, میکنید
- VERB-Part: کردهاند, کردهایم, کردهاید, شدهاند, دادهاند, داشتهاند, گرفتهاند, زدهاند, دادهایم, کرده
- Sing
- ADJ: نوزادی
- ADP: جلوی, حدود, پیش
- AUX: است, بود, خواهد, باشد, خواهم, ست, بودم, نبود, باشم, نخواهد
- AUX-Fin: خواهد, خواهم, نخواهد, خواهی, نخواهم, درخواهد, فروخواهد, برخواهد, بازخواهد, بازخواهم
- NOUN: سال, کار, کسی, دست, روز, خدا, سر, صورت, کشور, بار
- NUM: هزار, میلیون, میلیارد, صد, 251, 950, بیلیون
- PRON: آن, او, ش, این, من, م, تو, ت, خود, وی
- PROPN: ایران, امام, آمریکا, قرآن, علی, جهان, تهران, پیامبر, حسین, افغانستان
- PUNCT: سطح, چیزی
- SCONJ: اگر
- VERB: کرد, کرده, میکند, شد, کند, شده, میکرد, میشود, داد, داشت
- VERB-Part: کرده, شده, داده, کردهام, داشته, آمده, زده, گرفته, بوده, آورده
Degree and Polarity
- Neg
- AUX: نباید, نمیتوان, نبود, نخواهد, نخواهم, نیست, نخواهند, نباشد, نخواهیم, نبودند
- AUX-Fin: نخواهد, نخواهم, نخواهند, نخواهیم, نخواهید, برنخواهند, نخواهی, برنخواهد, خواهد, نمیخواهد
- VERB: نیست, نکنید, ندارد, نمیتواند, نکرده, نمیشود, نکند, نداشته, نداشت, نشده
- VERB-Part: نکرده, نشده, نداشته, نکردهاند, نداده, نبوده, نداشتهاند, نتوانسته, نکردهام, نکردهایم
Verbal Features
- Imp
- VERB: کنید, کن, نکنید, بکنید, بزنید, بدهید, دهید, بگیرید, نکن, بگذارید
- Sub
- AUX: باشد, باشند, باشم, باشید, باشیم, باشی
- VERB: شود, شوند, نشود, بشود, بماند, شوید, شویم
- Fut
- AUX-Fin: خواهد, خواهند, خواهم, خواهیم, خواهید, نخواهد, خواهی, نخواهم, نخواهند, نخواهیم
- Past
- AUX: بود, بودند, بودم, بودیم, بودی, بودید, بوده, شد
- VERB: کرد, کرده, شد, شده, داد, کردند, داشت, داده, داشته, زد
- VERB-Part: کرده, شده, داده, داشته, بوده, زده, گرفته, آمده, آورده, رفته
- Pres
- AUX: است, باشد, باشند, باشم, باشید, باشیم, باشی, باش, میگردند
- VERB: میکند, میکنند, میشود, کنید, دارد, میکنیم, میکنید, میکنم, کن, نکنید
- Act
- AUX: دارد, داشت, دارید, دارم, داریم, داشتم, داری, دارند, داشتند, داشتیم
- VERB: کرد, کرده, میکند, شد, کنید, میکنند, کند, میکرد, شده, کردهاند
- VERB-Part: کرده, کردهاند, شده, کردهام, کردهایم, داده, داشته, کردهاید, آمده, زده
- Pass
- VERB: داده, شده, زده, گرفته, دیده, گفته, گذاشته, ساخته, کشیده, برده
- VERB-Part: شده, داده, شدهاند, ساخته, گرفته, برده, خوردهاند, نهاده, شکسته, کشته
Pronouns, Determiners, Quantifiers
- Prs
- PRON: ش, م, شان, تان, مان, ت, اش, ام, یش, ات
- 1
- AUX: خواهم, خواهیم, بودم, بودیم, باشم, باشیم, نخواهم, نخواهیم, دارم, داریم
- AUX-Fin: خواهم, خواهیم, نخواهم, نخواهیم, بازخواهم, برخواهم, برخواهیم, درخواهیم, درخواهم, فراخواهیم
- PRON: ما, من, م, مان, خود, ام, یم, یمان, او, بنده
- VERB: میکنیم, کردم, کنیم, میکنم, کردیم, کردهام, کنم, کردهایم, میکردم, م
- VERB-Part: کردهام, کردهایم, دادهایم, دادهام, داشتهام, داشتهایم, شدهام, آوردهام, زدهام, گرفتهایم
- 2
- AUX: باشید, خواهید, خواهی, بودی, بودید, باش, باشی, دارید, داری, نباشید
- AUX-Fin: خواهید, خواهی, نخواهید, برخواهی, بازخواهی, برخواهید, نخواهی, درخواهی, درخواهید
- PRON: شما, تو, تان, ت, خود, ات, یت, یتان, شماها, شماهایی
- VERB: کنید, میکنید, نکنید, بکنید, کن, بزنید, کردهاید, بدهید, میتوانید, کردی
- VERB-Part: کردهاید, دادهاید, زدهاید, کردهای, گرفتهاید, آوردهاید, داشتهاید, دیدهاید, شدهاید, شنیدهاید
- 3
- AUX: است, بود, خواهد, خواهند, باشد, بودند, باشند, ست, نبود, بوده
- AUX-Fin: خواهد, خواهند, نخواهد, نخواهند, درخواهد, فروخواهد, برخواهد, درخواهند, بازخواهد, برخواهند
- PRON: او, ش, آنها, شان, وی, آنان, خود, اش, ایشان, یش
- VERB: کرد, کرده, میکند, شد, میکنند, کند, شده, میکرد, میشود, کردهاند
- VERB-Part: کرده, کردهاند, شده, داده, داشته, آمده, شدهاند, زده, دادهاند, گرفته
Other Features
Syntax
Auxiliary Verbs and Copula
- This corpus uses 2 lemmas as copulas (cop). Examples: است، بود.
- This corpus uses 9 lemmas as auxiliaries (aux). Examples: خواست، بود، است، بایست، توان، داشت، کرد، توانست، گشت.
Core Arguments, Oblique Arguments and Adjuncts
Here we consider only relations between verbs (parent) and nouns or pronouns (child).
- nsubj
- VERB--NOUN (13875)
- VERB--NOUN-ADP(در) (1)
- VERB--NOUN-ADP(مثل) (1)
- VERB--NOUN-ADP(میان) (1)
- VERB--NOUN-ADP(همراه) (1)
- VERB--NOUN-ADP(پیش)-ADP(از) (1)
- VERB--PRON (3531)
- VERB-Part--NOUN (2018)
- VERB-Part--PRON (468)
- obj
- VERB--NOUN (4779)
- VERB--NOUN-ADP(از)-ADP(را) (3)
- VERB--NOUN-ADP(بین)-ADP(را) (1)
- VERB--NOUN-ADP(تا)-ADP(را) (5)
- VERB--NOUN-ADP(توی)-ADP(را) (2)
- VERB--NOUN-ADP(جز)-ADP(را) (1)
- VERB--NOUN-ADP(جلو)-ADP(را) (7)
- VERB--NOUN-ADP(جلوی)-ADP(را) (2)
- VERB--NOUN-ADP(را) (10446)
- VERB--NOUN-ADP(را)-ADP(و) (4)
- VERB--NOUN-ADP(را)-ADP(که) (1)
- VERB--NOUN-ADP(رو) (4)
- VERB--NOUN-ADP(روی)-ADP(را) (1)
- VERB--NOUN-ADP(سوء)-ADP(را) (1)
- VERB--PRON (181)
- VERB--PRON-ADP(بین)-ADP(را) (2)
- VERB--PRON-ADP(جز)-ADP(را) (2)
- VERB--PRON-ADP(جلو)-ADP(را) (2)
- VERB--PRON-ADP(را) (1786)
- VERB--PRON-ADP(را)-ADP(و) (3)
- VERB--PRON-ADP(روی)-ADP(را) (1)
- VERB--PRON-ADP(میان)-ADP(را) (1)
- VERB-Part--NOUN (530)
- VERB-Part--NOUN-ADP(را) (1287)
- VERB-Part--NOUN-ADP(مورد)-ADP(را) (1)
- VERB-Part--PRON (18)
- VERB-Part--PRON-ADP(را) (211)
- VERB-Part--PRON-ADP(را)-ADP(و) (1)
- VERB-Part--PRON-ADP(پیرامون)-ADP(را) (1)
- iobj
- VERB--NOUN (6)
Relations Overview
- This corpus uses 5 relation subtypes: compound:lvc, flat:name, flat:num, nsubj:pass, obl:arg
- The following 1 main types are not used alone, they are always subtyped: flat
- The following 7 relation types are not used in this corpus at all: expl, dislocated, discourse, clf, list, orphan, reparandum