home edit page issue tracker

This page pertains to UD version 2.

It appears that you have Javascript disabled. Please consider enabling Javascript for this page to see the visualizations.

UD Persian PerDT

Language: Persian (code: fa)
Family: IE

This treebank has been part of Universal Dependencies since the UD v2.7 release.

The following people have contributed to making this treebank part of UD: Mohammad Sadegh Rasooli, Pegah Safari, Amirsaeid Moloodi, Alireza Nourian.

Repository: UD_Persian-PerDT
Search this treebank on-line: PML-TQ
Download all treebanks: UD 2.15

License: CC BY-SA 4.0

Genre: news, fiction, nonfiction, academic, web, blog

Questions, comments? General annotation questions (either Persian-specific or cross-linguistic) can be raised in the main UD issue tracker. You can report bugs in this treebank in the treebank-specific issue tracker on Github. If you want to collaborate, please contact [rasooli (æt) seas • upenn • edu, pegh • safari (æt) gmail • com]. Development of the treebank happens in the UD repository but not directly in the final CoNLL-U files. You may submit bug fixes as pull requests against the dev branch but you have to go to the folder called not-to-release and locate the source files there. Contact the treebank maintainers if in doubt.

Annotation	Source
Lemmas	annotated manually in non-UD style, automatically converted to UD, with some manual corrections of the conversion
UPOS	annotated manually in non-UD style, automatically converted to UD
XPOS	annotated manually
Features	annotated manually in non-UD style, automatically converted to UD, with some manual corrections of the conversion
Relations	annotated manually in non-UD style, automatically converted to UD, with some manual corrections of the conversion

Description

The Persian Universal Dependency Treebank (PerUDT) is the result of automatic coversion of Persian Dependency Treebank (PerDT) with extensive manual corrections. Please refer to the follwoing work, if you use this data:

Mohammad Sadegh Rasooli, Pegah Safari, Amirsaeid Moloodi, and Alireza Nourian. “The Persian Dependency Treebank Made Universal”. 2020 (to appear).

The Persian Universal Dependency Treebank (PerUDT) is based on Persian Dependency Treebank (PerDT) (Rasooli et al.,2013). The original Treebank consists of 29K sentences sampled from contemporary Persian text in different genres including: news, academic papers, magazine articles and fictions.

This treebank was annotated based on a language-specific schema and its automatic conversion involved three main steps: revising tokenization, POS mapping and dependency mapping.

In tokenization step, in order to separate multiword inflections of simple verbs grouped as one token in PerDT, we followed the guidelines in (Rasooli et al., 2013, Table 3) to automatically find the main verbs. Also we automatically separated pronominal clitics.

In POS conversion step, we used the state of the art BERT-based Persian NER tagger (Taher et al.,2020) with manual corrections to extend recall. Through seven different entities detected by tagger, we used Person and Location to mark PROPN tags.

PerDT contains 43 syntactic relations with no straightforward mapping for most of them, conjunctions arranged from the beginning of the sentence to the end and more importantly, prepositions regarded as the head of prepositional phrases and auxiliary verbs as the head of sentences. So we rearranged the order of conjunctions from end to the beginning through a script and tailored rules to convert each kind of relation to its UD version properly. Through the whole process and at the end of each step, we investigated the results and applied manual corrections if it was needed.

Acknowledgments

Thanks to Morteza Rezaei-Sharifabadi for helping with the copyright of this data.

Statistics of UD Persian PerDT

POS Tags

ADJ – ADP – ADV – AUX – CCONJ – DET – INTJ – NOUN – NUM – PART – PRON – PROPN – PUNCT – SCONJ – VERB – X

Features

Mood – Number – Person – Polarity – PronType – Tense – VerbForm – Voice

Relations

acl – advcl – advmod – amod – appos – aux – case – cc – ccomp – compound – compound:lvc – conj – cop – csubj – dep – det – fixed – flat:name – flat:num – goeswith – iobj – mark – nmod – nsubj – nsubj:pass – nummod – obj – obl – obl:arg – parataxis – punct – root – vocative – xcomp

Tokenization and Word Segmentation

This corpus contains 29107 sentences, 494163 tokens and 501776 syntactic words.

This corpus contains 43893 tokens (9%) that are not followed by a space.

This corpus does not contain words with spaces.

This corpus contains 46 types of words that contain both letters and punctuation. Examples: CoRoT-7b, e-mail, م., ه.ق., یو.اس.بی, "اثر", "زن", "مرد", ''ایمیل'', -شاعر, 2-پنتانول, 30-P-409, 4-متیل, :مهناز, A/B, AQ-170, B.C, Blu-ray, DirectX.11.1, Fax.com, S&P, S-300, SIM-LEI, XMM-Newton, [واحد, full-text, iPhone-Dev-Team, real-time, rock-solid, www.biochemiran.com, استارت-2, اسرائیل], اسکاد-بی, اف-5, ان‌شاا…, اچ.آی.وی, ایکس-ری, بتا-گاما, بی-29, بی.ام.دبلیو, رو-ست, سی-130هایی, سیم-لی, غیرشاعر-, هلمن-, پ.م

This corpus contains 7173 multi-word tokens. On average, one multi-word token consists of 2.06 syntactic words.
There are 3308 types of multi-word tokens. Examples: مرا، خودش، خودم، خودتان، خودمان، خودشان، برایش، دلم، پدرم، خودت، بدین، برایم، مادرم، بدان، پدرش، یادم، دستش، کشورمان، امیدوارم، دلش، سرش، قلبم، خدایا، همسرتان، برایشان، دستم، صورتش، ذهنم، سرم، مادرش، برایت، پایش، برایتان، همسرم، کارتان، یادش، نگاهش، سال‌هاست، چشمانش، کارش، خانواده‌اش، دخترش، زندگی‌ام، نظرم، پسرش، بدنش، برادرم، خانه‌اش، دهانش، زندگی‌اش.

Morphology

Nominal Features

Number

Plur
- AUX: خواهند, بودند, باشند, خواهیم, باشید, بودیم, خواهید, باشیم, بودید, نخواهند
- AUX-Fin: خواهند, خواهیم, خواهید, نخواهند, نخواهیم, نخواهید, درخواهند, برخواهند, بازخواهند, برخواهیم
- NOUN: مردم, همهٔ, تمام, همه, کسانی, دیگران, افراد, حقوق, بسیاری, کشورهای
- NUM: هزار, میلیون
- PRON: ما, آنها, شما, شان, تان, مان, آنان, خود, ایشان, آن‌ها
- PROPN: ملل, طالبان, امور, ایالات, علوم, منافقین, پاسداران, اطلاعات, دختران, تیم‌های
- VERB: کنید, می‌کنند, کرده‌اند, کردند, کنند, می‌کنیم, می‌کردند, هستند, کنیم, می‌کنید
- VERB-Part: کرده‌اند, کرده‌ایم, کرده‌اید, شده‌اند, داده‌اند, داشته‌اند, گرفته‌اند, زده‌اند, داده‌ایم, کرده

Sing
- ADJ: نوزادی‌
- ADP: جلوی, حدود, پیش
- AUX: است, بود, خواهد, باشد, خواهم, ست, بودم, نبود, باشم, نخواهد
- AUX-Fin: خواهد, خواهم, نخواهد, خواهی, نخواهم, درخواهد, فروخواهد, برخواهد, بازخواهد, بازخواهم
- NOUN: سال, کار, کسی, دست, روز, خدا, سر, صورت, کشور, بار
- NUM: هزار, میلیون, میلیارد, صد, 251, 950, بیلیون
- PRON: آن, او, ش, این, من, م, تو, ت, خود, وی
- PROPN: ایران, امام, آمریکا, قرآن, علی, جهان, تهران, پیامبر, حسین, افغانستان
- PUNCT: سطح, چیزی
- SCONJ: اگر
- VERB: کرد, کرده, می‌کند, شد, کند, شده, می‌کرد, می‌شود, داد, داشت
- VERB-Part: کرده, شده, داده, کرده‌ام, داشته, آمده, زده, گرفته, بوده, آورده

Degree and Polarity

Polarity

Neg
- AUX: نباید, نمی‌توان, نبود, نخواهد, نخواهم, نیست, نخواهند, نباشد, نخواهیم, نبودند
- AUX-Fin: نخواهد, نخواهم, نخواهند, نخواهیم, نخواهید, برنخواهند, نخواهی, برنخواهد, خواهد, نمی‌خواهد
- VERB: نیست, نکنید, ندارد, نمی‌تواند, نکرده, نمی‌شود, نکند, نداشته, نداشت, نشده
- VERB-Part: نکرده, نشده, نداشته, نکرده‌اند, نداده, نبوده, نداشته‌اند, نتوانسته, نکرده‌ام, نکرده‌ایم

Verbal Features

Mood

Imp
- VERB: کنید, کن, نکنید, بکنید, بزنید, بدهید, دهید, بگیرید, نکن, بگذارید

Sub
- AUX: باشد, باشند, باشم, باشید, باشیم, باشی
- VERB: شود, شوند, نشود, بشود, بماند, شوید, شویم

Tense

Fut
- AUX-Fin: خواهد, خواهند, خواهم, خواهیم, خواهید, نخواهد, خواهی, نخواهم, نخواهند, نخواهیم

Past
- AUX: بود, بودند, بودم, بودیم, بودی, بودید, بوده, شد
- VERB: کرد, کرده, شد, شده, داد, کردند, داشت, داده, داشته, زد
- VERB-Part: کرده, شده, داده, داشته, بوده, زده, گرفته, آمده, آورده, رفته

Pres
- AUX: است, باشد, باشند, باشم, باشید, باشیم, باشی, باش, می‌گردند
- VERB: می‌کند, می‌کنند, می‌شود, کنید, دارد, می‌کنیم, می‌کنید, می‌کنم, کن, نکنید

Voice

Act
- AUX: دارد, داشت, دارید, دارم, داریم, داشتم, داری, دارند, داشتند, داشتیم
- VERB: کرد, کرده, می‌کند, شد, کنید, می‌کنند, کند, می‌کرد, شده, کرده‌اند
- VERB-Part: کرده, کرده‌اند, شده, کرده‌ام, کرده‌ایم, داده, داشته, کرده‌اید, آمده, زده

Pass
- VERB: داده, شده, زده, گرفته, دیده, گفته, گذاشته, ساخته, کشیده, برده
- VERB-Part: شده, داده, شده‌اند, ساخته, گرفته, برده, خورده‌اند, نهاده, شکسته, کشته

Pronouns, Determiners, Quantifiers

PronType

Prs
- PRON: ش, م, شان, تان, مان, ت, اش, ام, یش, ات

Person

1
- AUX: خواهم, خواهیم, بودم, بودیم, باشم, باشیم, نخواهم, نخواهیم, دارم, داریم
- AUX-Fin: خواهم, خواهیم, نخواهم, نخواهیم, بازخواهم, برخواهم, برخواهیم, درخواهیم, درخواهم, فراخواهیم
- PRON: ما, من, م, مان, خود, ام, یم, یمان, او, بنده
- VERB: می‌کنیم, کردم, کنیم, می‌کنم, کردیم, کرده‌ام, کنم, کرده‌ایم, می‌کردم, م
- VERB-Part: کرده‌ام, کرده‌ایم, داده‌ایم, داده‌ام, داشته‌ام, داشته‌ایم, شده‌ام, آورده‌ام, زده‌ام, گرفته‌ایم

2
- AUX: باشید, خواهید, خواهی, بودی, بودید, باش, باشی, دارید, داری, نباشید
- AUX-Fin: خواهید, خواهی, نخواهید, برخواهی, بازخواهی, برخواهید, نخواهی, درخواهی, درخواهید
- PRON: شما, تو, تان, ت, خود, ات, یت, یتان, شماها, شماهایی
- VERB: کنید, می‌کنید, نکنید, بکنید, کن, بزنید, کرده‌اید, بدهید, می‌توانید, کردی
- VERB-Part: کرده‌اید, داده‌اید, زده‌اید, کرده‌ای, گرفته‌اید, آورده‌اید, داشته‌اید, دیده‌اید, شده‌اید, شنیده‌اید

3
- AUX: است, بود, خواهد, خواهند, باشد, بودند, باشند, ست, نبود, بوده
- AUX-Fin: خواهد, خواهند, نخواهد, نخواهند, درخواهد, فروخواهد, برخواهد, درخواهند, بازخواهد, برخواهند
- PRON: او, ش, آنها, شان, وی, آنان, خود, اش, ایشان, یش
- VERB: کرد, کرده, می‌کند, شد, می‌کنند, کند, شده, می‌کرد, می‌شود, کرده‌اند
- VERB-Part: کرده, کرده‌اند, شده, داده, داشته, آمده, شده‌اند, زده, داده‌اند, گرفته

Other Features

Syntax

Auxiliary Verbs and Copula

This corpus uses 2 lemmas as copulas (cop). Examples: است، بود.

This corpus uses 9 lemmas as auxiliaries (aux). Examples: خواست، بود، است، بایست، توان، داشت، کرد، توانست، گشت.

Core Arguments, Oblique Arguments and Adjuncts

Here we consider only relations between verbs (parent) and nouns or pronouns (child).

nsubj
- VERB--NOUN (13875)
- VERB--NOUN-ADP(در) (1)
- VERB--NOUN-ADP(مثل) (1)
- VERB--NOUN-ADP(میان) (1)
- VERB--NOUN-ADP(همراه) (1)
- VERB--NOUN-ADP(پیش)-ADP(از) (1)
- VERB--PRON (3531)
- VERB-Part--NOUN (2018)
- VERB-Part--PRON (468)

obj
- VERB--NOUN (4779)
- VERB--NOUN-ADP(از)-ADP(را) (3)
- VERB--NOUN-ADP(بین)-ADP(را) (1)
- VERB--NOUN-ADP(تا)-ADP(را) (5)
- VERB--NOUN-ADP(توی)-ADP(را) (2)
- VERB--NOUN-ADP(جز)-ADP(را) (1)
- VERB--NOUN-ADP(جلو)-ADP(را) (7)
- VERB--NOUN-ADP(جلوی)-ADP(را) (2)
- VERB--NOUN-ADP(را) (10446)
- VERB--NOUN-ADP(را)-ADP(و) (4)
- VERB--NOUN-ADP(را)-ADP(که) (1)
- VERB--NOUN-ADP(رو) (4)
- VERB--NOUN-ADP(روی)-ADP(را) (1)
- VERB--NOUN-ADP(سوء)-ADP(را) (1)
- VERB--PRON (181)
- VERB--PRON-ADP(بین)-ADP(را) (2)
- VERB--PRON-ADP(جز)-ADP(را) (2)
- VERB--PRON-ADP(جلو)-ADP(را) (2)
- VERB--PRON-ADP(را) (1786)
- VERB--PRON-ADP(را)-ADP(و) (3)
- VERB--PRON-ADP(روی)-ADP(را) (1)
- VERB--PRON-ADP(میان)-ADP(را) (1)
- VERB-Part--NOUN (530)
- VERB-Part--NOUN-ADP(را) (1287)
- VERB-Part--NOUN-ADP(مورد)-ADP(را) (1)
- VERB-Part--PRON (18)
- VERB-Part--PRON-ADP(را) (211)
- VERB-Part--PRON-ADP(را)-ADP(و) (1)
- VERB-Part--PRON-ADP(پیرامون)-ADP(را) (1)

iobj
- VERB--NOUN (6)

Relations Overview

This corpus uses 5 relation subtypes: compound:lvc, flat:name, flat:num, nsubj:pass, obl:arg
The following 1 main types are not used alone, they are always subtyped: flat
The following 7 relation types are not used in this corpus at all: expl, dislocated, discourse, clf, list, orphan, reparandum