UD Arabic PUD
Language: Arabic (code: ar
)
Family: Afro-Asiatic
This treebank has been part of Universal Dependencies since the UD v2.1 release.
The following people have contributed to making this treebank part of UD: Hans Uszkoreit, Vivien Macketanz, Aljoscha Burchardt, Kim Harris, Katrin Marheinecke, Slav Petrov, Tolga Kayadelen, Mohammed Attia, Ali Elkahky, Zhuoran Yu, Emily Pitler, Saran Lertpradit, Luma Ateyah, Martin Popel, Daniel Zeman, Nizar Habash, Dima Taji.
Repository: UD_Arabic-PUD
Search this treebank on-line: PML-TQ
Download all treebanks: UD 2.15
License: CC BY-SA 3.0
Genre: news, wiki
Questions, comments? General annotation questions (either Arabic-specific or cross-linguistic) can be raised in the main UD issue tracker. You can report bugs in this treebank in the treebank-specific issue tracker on Github. If you want to collaborate, please contact [zeman (æt) ufal • mff • cuni • cz]. Development of the treebank happens directly in the UD repository, so you may submit bug fixes as pull requests against the dev branch.
Annotation | Source |
---|---|
Lemmas | not available |
UPOS | annotated manually in non-UD style, automatically converted to UD |
XPOS | not available |
Features | annotated manually in non-UD style, automatically converted to UD |
Relations | annotated manually in non-UD style, automatically converted to UD |
Description
This is a part of the Parallel Universal Dependencies (PUD) treebanks created for the CoNLL 2017 shared task on Multilingual Parsing from Raw Text to Universal Dependencies.
There are 1000 sentences in each language, always in the same order. (The sentence alignment is 1-1 but occasionally a sentence-level segment actually consists of two real sentences.) The sentences are taken from the news domain (sentence id starts in ‘n’) and from Wikipedia (sentence id starts with ‘w’). There are usually only a few sentences from each document, selected randomly, not necessarily adjacent. The digits on the second and third position in the sentence ids encode the original language of the sentence. The first 750 sentences are originally English (01). The remaining 250 sentences are originally German (02), French (03), Italian (04) or Spanish (05) and they were translated to other languages via English. Translation into German, French, Italian, Spanish, Arabic, Hindi, Chinese, Indonesian, Japanese, Korean, Portuguese, Russian, Thai and Turkish has been provided by DFKI and performed (except for German) by professional translators. Then the data has been annotated morphologically and syntactically by Google according to Google universal annotation guidelines; finally, it has been converted by members of the UD community to UD v2 guidelines.
Additional languages have been provided (both translation and native UD v2 annotation) by other teams: Czech by Charles University, Finnish by University of Turku and Swedish by Uppsala University.
The entire treebank is labeled as test set (and was used for testing in the shared task). If it is used for training in future research, the users should employ ten-fold cross-validation.
Acknowledgments
Statistics of UD Arabic PUD
POS Tags
ADJ – ADP – ADV – AUX – CCONJ – DET – NOUN – NUM – PART – PRON – PROPN – PUNCT – SCONJ – SYM – VERB – X
Features
Aspect – Case – Definite – Gender – Mood – Number – NumType – Person – Polarity – Tense – VerbForm – Voice
Relations
acl – acl:relcl – advcl – advmod – amod – appos – aux – case – cc – cc:preconj – ccomp – compound – compound:prt – conj – cop – csubj – csubj:pass – dep – det – discourse – dislocated – expl – fixed – flat – iobj – mark – nmod – nsubj – nsubj:pass – nummod – obj – obl – obl:tmod – orphan – parataxis – punct – root – vocative – xcomp
Tokenization and Word Segmentation
- This corpus contains 1000 sentences and 20747 tokens.
- This corpus contains 4833 tokens (23%) that are not followed by a space.
- This corpus does not contain words with spaces.
- This corpus contains 5 types of words that contain both letters and punctuation. Examples: "ريديت, إيه-ياسو, الامتياز", الواي-فاي, باس-
Morphology
Tags
- This corpus uses 16 UPOS tags out of 17 possible: ADJ, ADP, ADV, AUX, CCONJ, DET, NOUN, NUM, PART, PRON, PROPN, PUNCT, SCONJ, SYM, VERB, X
- This corpus does not use the following tags: INTJ
- This corpus contains 32 word types tagged as particles (PART): أم, أما, أن, أي, إلا, إما, إن, الفوق, بما, بيد, ثم, حتى, س, سواء, سوف, سوى, عندما, غير, ف, قد, كما, ل, لا, لقد, لكن, لم, لن, ليس, ما, هل, و, يا
- This corpus contains 16 lemmas tagged as pronouns (PRON): آخَر, أَحَد, أُولائِكَ, الَّذِي, ذ`لِكَ, شِبه, غالِبِيَّة, م, ما, ماذا, من, مَن, مِن, ه`ذا, هُوَ, ينتور
- This corpus contains 25 lemmas tagged as determiners (DET): آخَر, آخِر, أَحَد, أَغلَب, أَكثَر, أَكمَل, أَيّ, بَعض, بَقِيَّة, جَمِيع, ذا, سائِر, شِبه, عِدَّة, غالِبِيَّة, كامِل, كُلِّيّ, كُلّ, كِلَا, كِلَّة, لَو, مُعظَم, مُنتَصَف, نِسبَة, نِصف
- Out of the above, 4 lemmas occurred sometimes as PRON and sometimes as DET: آخَر, أَحَد, شِبه, غالِبِيَّة
- This corpus contains 2 lemmas tagged as auxiliaries (AUX): كَان, لَيس
- Out of the above, 1 lemmas occurred sometimes as AUX and sometimes as VERB: كَان
- There are 1 (de)verbal forms:
- Part
- ADJ: الخاصة, الخاص, قائلاً, التابعة, المرتبط, الموجودة, الواردة, الواقعة, خاصة, قائلةً
- NOUN: الضاربة, الظاهر, المؤرخة, المتبقيين, المتجهة, المجموع, المدربين, المرغوب, المسببة, المستخلصة
Nominal Features
- Fem
- ADJ: الخاصة, المتحدة, كبيرة, الأولى, أخرى, الجديدة, البريطانية, جديدة, الأمريكية, الشمالية
- ADJ-Part: الخاصة, التابعة, الموجودة, الواردة, الواقعة, خاصة, قائلةً, الكامنة, الخالية, الداعية
- AUX: كانت, تكن, تكون, ليست
- NOUN: النسبة, شركة, منطقة, المنطقة, نهاية, ذات, الحرب, المدينة, فترة, الدول
- NOUN-Part: الضاربة, المؤرخة, المتجهة, المسببة, المستخلصة, مرتدية, مزيلةً, منخرطة
- NUM: عشرة, أربعة, ثلاثة, ثمانية, خمسة, سبعة, المئة, ستة, الثلاثة, الثلاثين
- PRON: ها, التي, هذه, هي, تلك, هن, غالبيت, هذا, هم, ينتور
- PROPN: الصين, الولايات, فرنسا, أفريقيا, بريطانيا, روسيا, أستراليا, ألبانيا, أمريكا, أوروبا
- VERB: كانت, بدأت, قالت, تكون, تظهر, تضم, تقول, ظهرت, تبدأ, تعد
- Masc
- ADJ: الأول, الثاني, أكثر, إسترليني, كبير, الثالث, كبيراً, آخر, أكبر, المتوسط
- ADJ-Part: الخاص, قائلاً, المرتبط, الحائز, الخانق, القادر, المذكور, المستغرق, المسموح, المطبق
- AUX: كان, يكون, كانوا, كنت, كون, ليس, يكن
- NOUN: عام, شكلٍ, الوقت, اسم, القرن, الأمر, أجل, العالم, شأن, سبب
- NOUN-Part: الظاهر, المتبقيين, المجموع, المدربين, المرغوب, المسجل, المنخرطين, الواقع, مشيداً, مكوناً
- NUM: عشر, ثلاث, مليون, أربع, مليار, ست, آلاف, أربعة, أربعين, ألفي
- PRON: ه, هم, ذلك, هذا, الذي, هو, الذين, ك, أولئك, آخر
- PROPN: تشرين, البحر, كانون, ترامب, نيسان, الاتحاد, جوزيف, دي, مجلس, نهر
- VERB: يمكن, كان, قال, يكون, تم, يكن, بدأ, يقول, بات, أصبح
- Dual
- ADJ: أستراليان, ألحقا, إضافيتين, إضافيين, الثاني, الشمسيين, الماضيين, المتخاصمين, المعروضتان, طبيعيتان
- NOUN: سنتين, عامي, أسبوعين, الاثنين, عينا, قسمين, ألبومين, إدارتي, الأدبيتين, الاعتدالين
- NOUN-Part: المتبقيين
- NUM: ألفي, ملياري
- PRON: هما, اللذان, اللذين, هذان, هذين
- PROPN: الأمريكيتين, البحرين, القديسين, لأمريكيتين
- VERB: أنجبا, انتهيا, تجوبان, تحدثان, تغنيان, تقيسان, زرعا, شاركا, صنفتا, غمرا
- Plur
- ADJ: الأصليين, الحمر, الست, السياسيين, اللاتينيين, آخرين, أستراليون, أصليون, ألمانيين, أوائل
- ADJ-Part: مكتوفي, موجودين
- AUX: كانوا, كنا
- NOUN: الدول, الناس, الأراضي, سنوات, الشركات, المناطق, أراضي, الجزر, الذكور, السنوات
- NOUN-Part: المنخرطين, موالون
- NUM: ثلاث, عشر, مليون, أربعة, عشرة, مليار, أربع, ثلاثة, ثمانية, خمسة
- PRON: هم, نا, الذين, أولئك, هن, كم, نحن, هؤلاء
- PROPN: الولايات, الألعاب, الشيوخ, لولايات, الألب, الأمم, المايا, جزر, أخبار, أشياء
- VERB: يحملون, حصلوا, قرروا, كانوا, نحتاج, نرى, يتمتعون, يعانون, أثاروا, أجبروا
- Sing
- ADJ: الأول, الخاصة, المتحدة, كبيرة, الثاني, الأولى, أخرى, الجديدة, أكثر, إسترليني
- ADJ-Part: الخاصة, الخاص, قائلاً, التابعة, المرتبط, الموجودة, الواردة, الواقعة, خاصة, قائلةً
- AUX: كان, كانت, يكون, تكن, تكون, كنت, ليس, ليست, يكن, أكن
- NOUN: عام, شكلٍ, الوقت, اسم, القرن, الأمر, أجل, العالم, النسبة, شأن
- NOUN-Part: الضاربة, الظاهر, المؤرخة, المتجهة, المجموع, المدربين, المرغوب, المسببة, المستخلصة, المسجل
- NUM: عشر, مليون
- PRON: ه, ها, التي, ذلك, هذا, الذي, هذه, هو, هي, تلك
- PROPN: تشرين, البحر, الصين, ترامب, هونغ, كانون, دي, كونغ, نيسان, الاتحاد
- VERB: يمكن, كان, قال, كانت, يكون, تم, بدأت, قالت, يكن, بدأ
- Acc
- ADJ: أكثر, كبيراً, أكبر, الخاصة, جديداً, قائلاً, خاصة, كبيرة, أول, الأولى
- ADJ-Part: قائلاً, الخاصة, قائلةً, الخاص, الداعية, المتنامية, المستغرق, المقدم, تابعة, حاملاً
- DET: كل, عدة, آخر, أي, بعض, أحد, شبه, غالبية, إحدى, بقية
- NOUN: عاماً, وفقاً, العديد, بدءاً, بدلاً, اسم, الأمر, المزيد, نجاحاً, نفس
- NOUN-Part: المسببة, مرتدية, مزيلةً, مشيداً, مكوناً, منحوتاً, منخرطة, يافعاً
- NUM: عشر, مليون, أربع, أربعة, ثلاث, ثمانية, ست, ألف, الثلاثة, المليارات
- PRON: ه, ها, ما, هذا, الذي, هم, نا, التي, هذه, ذلك
- PROPN: الإمبراطورية, أبو, أندريه, الألعاب, الثلاثاء, الحرب, الله, الولايات, اليونان, بحر
- VERB: أملاً, انتقادات
- Gen
- ADJ: الأول, الخاصة, المتحدة, أكثر, أخرى, الثاني, الأولى, أول, إسترليني, كبير
- ADJ-Part: الخاصة, التابعة, الخاص, الكامنة, الواردة, الواقعة, أشبه, الخالية, الخانق, الرامية
- ADV: يوم
- AUX: كون
- DET: كل, أحد, أي, إحدى, عدة, بعض, آخر, جميع, معظم, أغلب
- NOUN: عام, شكلٍ, الوقت, القرن, أجل, النسبة, شأن, العالم, منطقة, نهاية
- NOUN-Part: الضاربة, الظاهر, المؤرخة, المتبقيين, المتجهة, المجموع, المدربين, المرغوب, المسجل, المنخرطين
- NUM: 2014, 1492, 2012, 2013, عشر, عشرة, مليون, 1879, 1911, 1916
- PRON: ه, ها, هم, التي, ما, ذلك, الذي, هذه, نا, هذا
- PROPN: البحر, الصين, الاتحاد, تشرين, الولايات, كانون, نهر, جنوب, العصر, المحيط
- VERB: إلباس, اعتبار, جعل, ذكرا
- Nom
- ADJ: أكثر, الأول, كبيرة, الثاني, الخاص, الخاصة, آخر, الأكثر, الأمريكية, الأهم
- ADJ-Part: الخاص, الخاصة, المرتبط, الموجودة, الحائز, المتمركزة, المحاذية, المسموح, المكتشفة, المنفصلة
- DET: كل, بعض, أحد, إحدى, أي, معظم, آخر, أغلب, أكثر, جميع
- NOUN: الأمر, العديد, اسم, الملك, رئيس, الجزء, الشركة, المستثمرون, زيادة, سبب
- NOUN-Part: المستخلصة, الواقع, موالون
- NUM: أربعة, ثلاث, أربع, ثلاثة, ثمانية, خمسة, خمسون, عشرون
- PRON: هذا, التي, الذي, ما, هو, هذه, هي, من, أنا, ذلك
- PROPN: الإمبراطورية, البحر, الثورة, الولايات, اليونان, حديقة, دير, رمسيس, سارة, مجلس
- VERB: الغاية, مهتمٌ
- Def
- ADJ: الأول, الخاصة, المتحدة, الثاني, الأولى, الجديدة, البريطانية, الثالث, الأمريكية, الشمالية
- ADJ-Part: الخاصة, الخاص, التابعة, المرتبط, الموجودة, الواردة, الواقعة, الكامنة, الحائز, الخالية
- AUX: كون
- NOUN: عام, الوقت, اسم, العديد, القرن, الأمر, العالم, النسبة, الكثير, المنطقة
- NOUN-Part: الضاربة, الظاهر, المؤرخة, المتبقيين, المتجهة, المجموع, المدربين, المرغوب, المسببة, المستخلصة
- PROPN: البحر, الولايات, الاتحاد, مجلس, نهر, الإمبراطورية, الحرب, المحيط, المملكة, بحر
- VERB: إلباس, اعتبار, الغاية, جعل, ذكرا
- Ind
- ADJ: أكثر, كبيرة, أخرى, أول, أكبر, إسترليني, جديدة, كبير, كبيراً, آخر
- ADJ-Part: قائلاً, خاصة, قائلةً, أشبه, تابعة, حاملاً, خاصٌ, شاملة, طالباً, قادراً
- NOUN: شكلٍ, جنيه, مرة, شكل, دولار, وقتٍ, سنوات, عاماً, فترة, وفقاً
- NOUN-Part: مرتدية, مشيداً, مكوناً, منافٍ, منحوتاً, منخرطة, موالون, يافعاً
- PROPN: أرض, أشياء, إمبراطورة, ابن, بيانو, تأسيس, جائزة, جزيرة, رأس, عاماً
- VERB: أملاً, انتقادات, مهتمٌ
Degree and Polarity
- Neg
- PART: لم, لا, غير, لن, ليس, ما
Verbal Features
- Imp
- ADJ: أفضل
- AUX: يكون, تكن, تكون, يكن, أكن, ليست
- NOUN: أسمي, ألعب, تبني
- VERB: يمكن, يكون, يكن, تكون, يقول, تظهر, تقول, يعمل, تضم, يعود
- Perf
- ADJ: أحدث, آمن, ألحقا, سافر, عادل
- AUX: كان, كانت, كانوا, كنت, ليس, كنا, ليست
- NOUN: وضع, عمل, تبعت, حكم, دار, درس, زحف, أعما, ألف, أملت
- VERB: كان, قال, كانت, تم, بدأت, قالت, بدأ, بات, أصبح, أدى
- Imp
- VERB: ضع
- Ind
- ADJ: أفضل
- AUX: يكون, تكون
- NOUN: أسمي
- VERB: يمكن, يقول, يكون, تقول, يعمل, تضم, تكون, يبدو, تبدأ, تبلغ
- Jus
- AUX: تكن, يكن, أكن
- VERB: يكن, تعد, تظهر, تلق, يتخذ, أعجب, أعرف, تتجاوز, تتعرض, تحقق
- Sub
- AUX: يكون, تكون
- NOUN: ألعب, تبني
- VERB: يكون, تصبح, تكون, تبقى, توفر, يبدأ, يصبح, يعود, يعيش, أهنئ
- Fut
- AUX: يكون
- VERB: يكون, تكون, يؤدي, يخفف, يسمح, يموت, أدخل, أصاب, تتحدث, تتغير
- Past
- ADJ: أحدث, آمن, ألحقا, سافر, عادل
- AUX: كان, كانت, كانوا, تكن, كنت, ليس, يكن, أكن, كنا, ليست
- NOUN: وضع, عمل, تبعت, حكم, دار, درس, زحف, أعما, ألف, أملت
- VERB: كان, قال, كانت, تم, بدأت, قالت, بدأ, يكن, بات, أصبح
- Pres
- ADJ: أفضل
- AUX: يكون, تكون, ليست
- NOUN: أسمي, ألعب, تبني
- VERB: يمكن, يقول, تقول, يعمل, يكون, تضم, يعود, تبدأ, تظهر, يبدو
- Act
- ADJ: الخاصة, الخاص, قائلاً, التابعة, المرتبط, الواردة, الواقعة, خاصة, قائلةً, أحدث
- ADJ-Part: الخاصة, الخاص, قائلاً, التابعة, المرتبط, الواردة, الواقعة, خاصة, قائلةً, الكامنة
- AUX: كان, كانت, يكون, كانوا, تكن, تكون, كنت, ليس, ليست, يكن
- NOUN: عمل, وضع, تبعت, حكم, دار, زحف, أسمي, أعما, ألعب, ألف
- NOUN-Part: الضاربة, الظاهر, المتبقيين, المتجهة, المنخرطين, الواقع, مرتدية, مزيلةً, مشيداً, منافٍ
- VERB: يمكن, كان, قال, كانت, يكون, تم, بدأت, قالت, يكن, بدأ
- Pass
- ADJ: الموجودة, موجودة, المتاحة, المذكور, المستخدمة, المستغرق, المسموح, المشتبه, المطبق, المطلوب
- ADJ-Part: الموجودة, المتاحة, المذكور, المستخدمة, المستغرق, المسموح, المشتبه, المطبق, المطلوب, المقدم
- NOUN: المؤرخة, المجموع, المدربين, المراعي, المرغوب, المسؤول, المسببة, المستخلصة, المسجل, المطبوعة
- NOUN-Part: المؤرخة, المجموع, المدربين, المرغوب, المسببة, المستخلصة, المسجل, مكوناً, منحوتاً, منخرطة
- VERB: تستخدم, يعتقد, أجريت, أطلق, أعيد, أنشئ, تعد, طرحت, يعرف, أعلن
Pronouns, Determiners, Quantifiers
- Ord
- ADJ: عشر, الثالث, الثاني, الرابع, السادس
- 1
- ADJ: أفضل
- AUX: كنت, كنا
- NOUN: أسمي, ألعب, عاملت
- PRON: نا, ي, أنا, ني, نحن
- VERB: أعرف, أحب, أعتقد, بحثت, نحتاج, نرى, آمل, أبحث, أتحدث, أتساءل
- 2
- AUX: كنت
- PRON: ك, كم, هما
- VERB: تريد, تستمد, تشاء, تشرع, تعرف, تفعل, تقف, تقول, تنام, زرعا
- 3
- ADJ: أحدث, آمن, ألحقا, سافر, عادل
- AUX: كان, كانت, يكون, كانوا, تكن, تكون, ليس, ليست, يكن, أكن
- NOUN: وضع, عمل, تبعت, حكم, دار, درس, زحف, أعما, ألف, أملت
- PRON: ه, ها, هم, هو, هي, هما, هن, التي, ينتور
- VERB: يمكن, كان, قال, كانت, يكون, تم, بدأت, قالت, يكن, بدأ
Other Features
Syntax
Auxiliary Verbs and Copula
- This corpus uses 2 lemmas as copulas (cop). Examples: كَان، لَيس.
- This corpus uses 1 lemmas as auxiliaries (aux). Examples: كَان.
Core Arguments, Oblique Arguments and Adjuncts
Here we consider only relations between verbs (parent) and nouns or pronouns (child).
- nsubj
- VERB--NOUN (9)
- VERB--NOUN-Acc (64)
- VERB--NOUN-Gen (47)
- VERB--NOUN-Nom (512)
- VERB--PRON (1)
- VERB--PRON-Acc (56)
- VERB--PRON-Gen (79)
- VERB--PRON-Nom (56)
- obj
- VERB--NOUN (9)
- VERB--NOUN-Acc (383)
- VERB--NOUN-Gen (34)
- VERB--NOUN-Nom (2)
- VERB--PRON-Acc (78)
- VERB--PRON-Gen (21)
- VERB--PRON-Nom (7)
- iobj
- VERB--NOUN-Acc (5)
- VERB--NOUN-Gen (2)
Relations Overview
- This corpus uses 6 relation subtypes: acl:relcl, cc:preconj, compound:prt, csubj:pass, nsubj:pass, obl:tmod
- The following 4 relation types are not used in this corpus at all: clf, list, goeswith, reparandum