UD Hebrew PostRab
Language: Hebrew (code: he)
Family: Afro-Asiatic
This treebank has been part of Universal Dependencies since the UD v2.18 release.
The following people have contributed to making this treebank part of UD: Rachel Tal, Elisheva Brauner, Shlomit Fuchs, Orly Albek, Avi Shmidman, Yitzchak Lindenbaum, Ephraim Meiri.
Repository: UD_Hebrew-PostRab
Search this treebank on-line: PML-TQ
Download all treebanks: UD 2.18
License: CC BY-SA 4.0
Genre: legal, bible, poetry
Questions, comments? General annotation questions (either Hebrew-specific or cross-linguistic) can be raised in the main UD issue tracker. You can report bugs in this treebank in the treebank-specific issue tracker on Github. If you want to collaborate, please contact [yitzilindenbaum (æt) gmail • com]. Development of the treebank happens outside the UD repository. If there are bugs, either the original data source or the conversion procedure must be fixed. Do not submit pull requests against the UD repository.
| Annotation | Source |
|---|---|
| Lemmas | annotated manually |
| UPOS | annotated manually, natively in UD style |
| XPOS | annotated manually |
| Features | assigned by a program, with some manual corrections, but not a full manual verification |
| Relations | annotated manually, natively in UD style |
Description
A Universal Dependencies treebank of post-Rabbinic historical Hebrew, comprising ~300 (~8000 tokens) sentences annotated for morphology and syntax from diverse pre-modern sources.
This treebank provides a Universal Dependencies (UD) annotation of post-Rabbinic historical Hebrew, extending existing Hebrew UD resources beyond modern and Biblical-era language varieties.
The dataset consists of manually annotated sentences from historical Hebrew texts across genres and periods. The annotation follows UD v2 guidelines, with adaptations to account for differences in orthography, morphology, and syntax relative to modern Hebrew.
Acknowledgments
This work has been funded by the European Union (ERC, MiDRASH, Project No. 101071829; Principal investigators: Nachum Dershowitz, Tel-Aviv University; Judith Olszowy-Schlanger, EPHEPSL; Avi Shmidman, Bar-Ilan University, and Daniel Stoekl Ben Ezra, EPHE-PSL), for which we are grateful. Views and opinions expressed are those of the authors only and do not necessarily reflect those of the European Union or the European Research Council Executive Agency. Neither the European Union nor the granting authority can be held responsible for them.
Funding for and maintenance of the treebank is also provided by Dicta - The Israel Center for Text Analysis.
References
To cite this dataset please refer to the following paper:
Rachel Tal, Shlomit Fuchs, Orly Albeck, Elisheva Brauner, Yitzchak Lindenbaum, Ephraim Meiri, and Avi Shmidman. 2025. A New Hebrew Universal Dependency Treebank: The First Treebank of Post-Rabbinic Historical Hebrew. In Proceedings of the 23rd International Workshop on Treebanks and Linguistic Theories (TLT, SyntaxFest 2025), pages 91–96, Ljubljana, Slovenia. Association for Computational Linguistics.
@inproceedings{tal-etal-2025-new,
title = "A New {H}ebrew {U}niversal {D}ependency Treebank: The First Treebank of Post-Rabbinic Historical {H}ebrew",
author = "Tal, Rachel and
Fuchs, Shlomit and
Albeck, Orly and
Brauner, Elisheva and
Lindenbaum, Yitzchak and
Meiri, Ephraim and
Shmidman, Avi",
editor = {Jablotschkin, Sarah and
K{\"u}bler, Sandra and
Zinsmeister, Heike},
booktitle = "Proceedings of the 23rd International Workshop on Treebanks and Linguistic Theories (TLT, SyntaxFest 2025)",
month = aug,
year = "2025",
address = "Ljubljana, Slovenia",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2025.tlt-1.11/",
pages = "91--96",
ISBN = "979-8-89176-291-6",
abstract = "The corpus of post-Rabbinic historical Hebrew is a foundational corpus of Jewish heritage, containing over a billion words of legal, hermeneutical, and philosophic texts (and more). However, because the linguistic norms of the corpus diverge so often from that of modern Hebrew, the corpus cannot be computationally analyzed with existing Hebrew parsers. In order to fill this lacuna, we present the first Universal Dependencies corpus of post-Rabbinic historical Hebrew. The corpus comprises over 11,800 words, and we are pleased to release it to the community."
}
Statistics of UD Hebrew PostRab
POS Tags
ADJ – ADP – ADV – AUX – CCONJ – DET – INTJ – NOUN – NUM – PRON – PROPN – SCONJ – VERB
Features
Definite – ExtPos – Gender – Mood – Number – Person – Reflex – Tense – VerbForm
Relations
acl – acl:relcl – advcl – advmod – amod – appos – aux – case – case:acc – case:gen – cc – ccomp – compound:redup – compound:smixut – compound:svc – conj – cop – csubj – dep – det – discourse – dislocated – fixed – flat – iobj – mark – nmod – nmod:poss – nmod:tmod – nmod:unmarked – nsubj – nsubj:cop – nsubj:outer – nummod – obj – obl – obl:tmod – obl:unmarked – orphan – parataxis – root – xcomp
Tokenization and Word Segmentation
- This corpus contains 296 sentences, 5288 tokens and 8029 syntactic words.
- All tokens in this corpus are followed by a space.
- This corpus does not contain words with spaces.
- This corpus contains 27 types of words that contain both letters and punctuation. Examples: ה', י', הקב"ה, י"ב, א', ד', חי"ת, כו', רמב"ן, ש"ס, ב', ג', ג׳, דל"ת, דלי"ת, ה"י, וכו', י"א, יו"ד, לע"ז, מהרי"ל, ק"ך, רמ"א, שד"י, שי"ח, שי"ן, ת"ר
- This corpus contains 2438 multi-word tokens. On average, one multi-word token consists of 2.12 syntactic words.
- There are 1563 types of multi-word tokens. Examples: לו, ולא, בו, שהוא, ואם, ואין, לה, שיש, שלא, וכל, שאין, בכל, הגט, והוא, עליו, ביום, הכנסת, ועל, אותו, בבית, בזה, במקום, העולם, ויש, להם, בה, הבית, לי, המעות, השליח, התורה, ואינו, ואמר, מהם, עליהם, עמו, שהיא, שלו, בהם, בהן, הזה, המצות, וגם, אביו, אותם, אינו, בדבר, בסלע, בשעת, הארץ.
Morphology
Tags
- This corpus uses 13 UPOS tags out of 17 possible: ADJ, ADP, ADV, AUX, CCONJ, DET, INTJ, NOUN, NUM, PRON, PROPN, SCONJ, VERB
- This corpus does not use the following tags: PART, SYM, PUNCT, X
- This corpus contains 10 lemmas tagged as pronouns (PRON): אותו, אלה, הא, הוא, הללו, זה, כך, מה, מי, עצמו
- This corpus contains 15 lemmas tagged as determiners (DET): אותו, ה, הרבה, יותר, כדי, כל, כמה, מעט, מקצת, עוד, קצת, רב, רוב, שאר, שום
- Out of the above, 1 lemmas occurred sometimes as PRON and sometimes as DET: אותו
- This corpus contains 6 lemmas tagged as auxiliaries (AUX): אמר, היה, יכל, עשוי, עתיד, צריך
- Out of the above, 2 lemmas occurred sometimes as AUX and sometimes as VERB: אמר, היה
- There are 2 (de)verbal forms:
- Inf
- AUX: בהיות
- VERB: ליתן, לעשות, לומר, להתפלל, לכתוב, להגיד, להניח, להפסיק, לילך, ללמוד
- Part
- ADJ: מכוון, ראוי, באין, בטל, דבוק, חייב, חלוקה, להוטים, מוכן, מחולקין
- AUX: צריך, יכול, יכולה, צריכים, צריכין
- VERB: אומר, אומרים, אוכל, מגורשת, קורא, נותן, רוצה, הולך, יוצא, יודע
Nominal Features
- Fem
- ADJ: אחרות, זרה, חדשות, קטנה, אחרת, נקיות, פשוטה, רצויה, אחרונה, אלהית
- ADJ-Part: חלוקה
- AUX: היתה, יכולה, עתידה, תהא, תהיה
- AUX-Part: יכולה
- DET: ה
- NOUN: ארץ, יד, שנה, מעות, תורה, דרך, כנסת, תפלה, ידי, מצוה
- NUM: ארבע, אחת, מאות, עשר, עשרה, שלוש, שש, שתי, שתים, ראשונה
- PRON: ה, היא, זו, זאת, נה, הן, ן, ך, אותן, אן
- PROPN: שרה, חובה, חנוכה, ירושלים, שמע
- VERB: מגורשת, עמדה, אמרה, יודעת, נכנסת, סולדת, אומרת, באה, הגיעה, הוחזקה
- VERB-Part: מגורשת, יודעת, נכנסת, סולדת, אומרת, באה, הורגת, חוששת, מגיירת, מדלקת
- Fem,Masc
- AUX: היו, יהיו, אמרתי, הייתי
- NOUN: דרכי
- NUM: עשרים
- PRON: י, אלו, נו, אני, אנו, אלה, הללו, אנחנו, אנכי, הן
- VERB: נהגו, ידעו, ימכרו, נ, נאבדו, ראו, ראיתי, אדרוש, אמרו, אעשה
- VERB-Part: בא
- Masc
- ADJ: אחר, מותר, אסור, ברוך, גדול, אחרים, קדוש, גבוה, זול, חייב
- ADJ-Part: מכוון, ראוי, באין, בטל, דבוק, חייב, להוטים, מוכן, מחולקין, סמוכים
- AUX: היה, צריך, יכול, יהיה, יהא, יהיו, עתידין, צריכים, יוכל, עשויים
- AUX-Part: צריך, יכול, צריכים, צריכין
- DET: שאר, אותו, ה, מעט, רוב
- NOUN: בית, מקום, יום, גט, ראש, זמן, בעל, שליח, בני, ימי
- NUM: אחד, שני, ראשון, שניה, שנים, ארבעה, מחצה, עשר, עשרה, רביעי
- PRON: ו, הוא, ם, הם, זה, ך, הו, נו, אתה, ה
- PROPN: ניסן, אברהם, נח, ישראל, אדם, ה', הקב"ה, משה, עמרם, קהת
- VERB: אמר, אומר, אומרים, אוכל, יצא, נאמר, קורא, בא, נותן, נתנ
- VERB-Inf: זכור, שמור
- VERB-Part: אומר, אומרים, אוכל, קורא, נותן, רוצה, הולך, יוצא, יודע, יודעים
- Dual
- NOUN: אפיים, פעמים, שנתים
- NUM: שני, שניה, שנים, שתי, שתים, תרין
- Plur
- ADJ: אחרים, אחרות, חדשות, קדומים, כשרים, נקיות, ראשונים, רבים, אמורות, אמצעיים
- ADJ-Part: באין, להוטים, מחולקין, סמוכים, צריכים
- AUX: היו, יהיו, עתידין, צריכים, עשויים, צריכין
- AUX-Part: צריכים, צריכין
- DET: ה
- NOUN: בני, ימי, מעות, עדים, ידי, דברי, חכמים, פירות, שמות, דברים
- NUM: עשרה, ארבעה, מאות, ק"ך, שלשה, שמונה, שמונים, ארבע, חמישים, עשרים
- PRON: הם, ם, נו, אלו, הן, ן, אנו, כם, תם, אלה
- PROPN: נוצרים
- VERB: אומרים, נהגו, ידעו, יודעים, ימכרו, מכניסי, נאבדו, נוהגין, קורין, ראו
- VERB-Part: אומרים, יודעים, מכניסי, נוהגין, קורין, חותמים, יוצאים, כותבין, מורים, מתפללים
- Sing
- ADJ: אחר, מותר, אסור, ברוך, גדול, קדוש, גבוה, זול, חייב, ראשון
- ADJ-Part: מכוון, ראוי, בטל, דבוק, חייב, חלוקה, מוכן, קרוע, רשאי
- AUX: היה, צריך, היתה, יכול, יהיה, יהא, יכולה, אמרתי, הייתי, יוכל
- AUX-Part: צריך, יכול, יכולה
- DET: ה, אותו, מעט, רוב
- NOUN: בית, מקום, יום, גט, ראש, זמן, ארץ, בעל, יד, שליח
- NUM: אחד, ארבע, אחת, עשר, ראשון, מחצה, שני, שש, חד, חמישי
- PRON: ו, ה, הוא, זה, י, ך, היא, זו, הו, זאת
- PROPN: ה', ניסן, אברהם, נח, ישראל, שם, אדם, הקב"ה, משה, עמרם
- VERB: אמר, אומר, אוכל, מגורשת, בא, יצא, נאמר, קורא, נותן, נתנ
- VERB-Inf: זכור, שמור
- VERB-Part: אומר, אוכל, מגורשת, קורא, נותן, רוצה, הולך, יוצא, יודע, כופר
- Def
- ADP: ב, ל, כ
Degree and Polarity
Verbal Features
- Imp
- VERB: צא, תן, חשוב, חתמו, המיתו, התהלך, חלל, כתבו, עשה, עשו
- Fut
- AUX: יהיו, יהיה, יהא, יוכל, תהא, תהיה
- VERB: יכתוב, יקרא, יבא, יביא, יבוא, יחזיר, ימכרו, יעשה, ירצה, יתבאר
- Past
- AUX: היה, היו, היתה, אמרתי, הייתי
- VERB: אמר, נאמר, יצא, בא, נתנ, כתב, נתן, חזר, מכר, נ
- Pres
- VERB: אוכל, אין, כותבין, מוטל, בא, גורע, חוצבו, חותך, יודעים, יוצא
- VERB-Part: אוכל, כותבין, מוטל, בא, גורע, חותך, יודעים, יוצא, יוצאין, כופר
Pronouns, Determiners, Quantifiers
- Yes
- PRON: עצמו, עצמה, עצמן
- 1
- AUX: אמרתי, הייתי
- PRON: י, נו, אני, אנו, ני, אנחנו, אנכי, ו, תיך
- VERB: נ, ראיתי, אדרוש, אעשה, בינותי, ידעתי, מצינו, שמעתי, אאריך, אבאר
- 1,2,3
- AUX: צריך, יכול, יכולה, צריכים, צריכין
- AUX-Part: צריך, יכול, יכולה, צריכים, צריכין
- VERB: אומר, אומרים, אוכל, קורא, נותן, רוצה, יוצא, מגורשת, הולך, יודע
- VERB-Part: אומר, אומרים, אוכל, קורא, נותן, רוצה, יוצא, מגורשת, הולך, יודע
- 2
- PRON: ך, אתה, כם, אתם
- VERB: צא, תן, חשוב, חתמו, נתפללת, אעש, הכניסו, התהלך, חלל, כתבו
- 3
- AUX: היה, היו, יהיו, היתה, יהיה, יהא, יוכל, עתידה, תהא, תהיה
- PRON: ו, ה, הוא, ם, הם, זה, היא, זו, אלו, הן
- VERB: אמר, יצא, נאמר, בא, נתנ, יכתוב, יקרא, כתב, נתן, חזר
Other Features
- ExtPos
- ADP
- ADJ: סמוך
- ADV
- ADP: אחר, על
- DET: כל
- NOUN: פנים, שתי
- SCONJ
- DET: כל
- ADP
Syntax
Auxiliary Verbs and Copula
- This corpus uses 2 lemmas as copulas (cop). Examples: היה, הוא.
- This corpus uses 5 lemmas as auxiliaries (aux). Examples: היה, יכל, עתיד, אמר, עשוי.
Core Arguments, Oblique Arguments and Adjuncts
Here we consider only relations between verbs (parent) and nouns or pronouns (child).
- nsubj
- VERB--NOUN (114)
- VERB--NOUN-ADP(אחר) (1)
- VERB--PRON (30)
- VERB-Inf--NOUN (6)
- VERB-Inf--NOUN-ADP(ב) (1)
- VERB-Inf--PRON (2)
- VERB-Part--NOUN (62)
- VERB-Part--PRON (52)
- obj
- VERB--NOUN (115)
- VERB--NOUN-ADP(אלא) (1)
- VERB--NOUN-ADP(את) (4)
- VERB--NOUN-ADP(ב) (2)
- VERB--PRON (67)
- VERB--PRON-ADP(את) (4)
- VERB--PRON-ADP(את)-ADP(של) (1)
- VERB-Inf--NOUN (52)
- VERB-Inf--PRON (20)
- VERB-Inf--PRON-ADP(על) (1)
- VERB-Part--NOUN (53)
- VERB-Part--NOUN-ADP(את) (2)
- VERB-Part--NOUN-ADP(ל) (1)
- VERB-Part--PRON (9)
- VERB-Part--PRON-ADP(את) (12)
- iobj
- VERB--PRON (1)
Verbs with Reflexive Core Objects
- This corpus contains 3 lemmas that occur at least once with a reflexive core object (obj or iobj). Examples: הכין עצמן, הראה עצמה, סמך עצמו
Relations Overview
- This corpus uses 13 relation subtypes: acl:relcl, case:acc, case:gen, compound:redup, compound:smixut, compound:svc, nmod:poss, nmod:tmod, nmod:unmarked, nsubj:cop, nsubj:outer, obl:tmod, obl:unmarked
- The following 1 main types are not used alone, they are always subtyped: compound
- The following 7 relation types are not used in this corpus at all: vocative, expl, clf, list, goeswith, reparandum, punct