home edit page issue tracker

This page pertains to UD version 2.

Treebank Statistics: UD_Hebrew-HTB: POS Tags: NOUN

There are 4200 NOUN lemmas (38%), 6946 NOUN types (37%) and 38046 NOUN tokens (24%). Out of 15 observed tags, the rank of NOUN is: 1 in number of lemmas, 1 in number of types and 1 in number of tokens.

The 10 most frequent NOUN lemmas: בית, _, שנה, איש, יום, חברה, דבר, משרד, מדינה, ארץ

The 10 most frequent NOUN types: בית, יום, משרד, משטרה, %, שר, משפט, ארץ, ממשלה, חברה

The 10 most frequent ambiguous lemmas: _ (NOUN 365, VERB 326, ADJ 230, ADV 192, AUX 169, CCONJ 109, X 76, PRON 57, SCONJ 46, DET 33), ארץ (NOUN 172, PROPN 1), בן (NOUN 167, PROPN 27), שר (NOUN 158, VERB 2), דרך (NOUN 143, ADP 6, VERB 2), חודש (NOUN 133, X 1), פה (NOUN 128, ADV 8, PROPN 2), חבר (NOUN 126, VERB 1), קבוצה (NOUN 121, X 1), עובד (NOUN 118, VERB 1)

The 10 most frequent ambiguous types: בית (NOUN 296, X 1), שר (NOUN 141, VERB 1), ארץ (NOUN 136, PROPN 1), חברה (NOUN 122, VERB 1), פועל (NOUN 116, VERB 8), משחק (NOUN 104, VERB 5, X 1), פי (NOUN 99, PROPN 10, ADV 7), חוץ (NOUN 92, ADP 4, ADV 3), דרך (NOUN 88, ADP 6, VERB 1), עובדים (NOUN 77, VERB 6)

Morphology

The form / lemma ratio of NOUN is 1.653810 (the average of all parts of speech is 1.702584).

The 1st highest number of forms (215) was observed with the lemma “_”: __, אבדן, אביב, אדם, או”ם, אוכלי, אוריאה, אחת, איחוד, איש, אנדוקרינולוגיה, אסטרטגיה, אסיפה, אקמה, ארץ, אתיאיזם, בא, באי, באס, בג”ץ, בוסריותו, בחירות, ביהמ”ש, ביולוגיה, בית, ביתך, במאי, בניין, בעייתיות, בקיאיה, בשר, גדול, גדעונים, גובהה, גודו, גוני, גוף, גיהאד, גילופין, דאבל, דומני, דוקטור, דיסקרציה, דיפרנסיאס, דמי, ה”ה, הגזת, הופיעו, הוקוס, החסרונות, היטל, הינדים, הכל, המשך, הנדסאים, הפריית, השכלה, התייחסו, זכאי, זנב, ח, ח”כ, חאג, חבר, חברה, חברות, חולונים, חוץ, חילול, חסרת, חצי, חצר, טראנספר, יום, יורדי, יושביו, יחידה, יחסים, ימים, ינקים, יצואן, יתו, יתר, כולם, כלי, כללי, כנסת, כתבתך, לבותיהן, לבך, לימפה, מאציזמו, מבנים, מהלכים, מהנהיגות, מו”לות, מו”ם, מו”ף, מולוקולות, מחוז, מחסום, מטמון, מי”ל, מינסוטים, מישנהו, מכשיר, מכתב, מע”ם, מפלגת, מפעל, מצב, מצבים, מק”ם, מקרים, מרכז, משק, משקפיים, נ”ל, נאורלוג, נאות, ניגוסים, ניו, נס, נסותה, נפאלי, סביבן, סופר, סוציאל, סטאזר, סטאזרים, סטנדרד, סכו”ם, סכסכוך, סלקציה, סנסאציה, ספורט, ספזטינו, סקלופיני, סרגלים, ע”א, ע”ר, עבר, עד, עולם, עין, עכואים, עלייה, עלת, עשתונותיו, פאי, פאנטום, פדרל, פוטבול, פולחן, פועל, פורדים, פילנטרופואידים, פמלייתו, פנים, פקוע, פקידי, פרופיל, פרוץ, צדקת, צימצום, צימרים, ציפיות, צפי, קול, קופ”ח, קיטש, קש, רבות, רבי, רבע, רגל, רגלו, רגליו, רגשי, רובם, רובן, רוקפלרים, רח, רמדאן, רנסאנס, רפובליקאים, רצועה, רצח, ש”ח, שב”ך, שב”ס, שבועיים, שבחי, שחומי, שיויוון, שיח, שים, שיפוצניק, שיקול, שיתוף, שמשונים, שעה, שפע, שרפות, תבלינים, תגבר, תוארי, תובנה, תוככי, תחנה, תימנחיה, תנ”ך, תנאים, תקציבי, תשנא.

The 2nd highest number of forms (10) was observed with the lemma “איש”: איש, איש_, אישה, אנשי, אנשים, אשה, אשת, נשות, נשי, נשים.

The 3rd highest number of forms (7) was observed with the lemma “ועדה”: וועדה, וועדות, וועדת, ועדה, ועדה_, ועדות, ועדת.

NOUN occurs with 4 features: Number (37509; 99% instances), Gender (37499; 99% instances), Definite (11797; 31% instances), Abbr (595; 2% instances)

NOUN occurs with 11 feature-value pairs: Abbr=Yes, Definite=Cons, Definite=Def, Gender=Fem, Gender=Fem,Masc, Gender=Masc, Number=Dual, Number=Dual,Plur, Number=Plur, Number=Plur,Sing, Number=Sing

NOUN occurs with 38 feature combinations. The most frequent feature combination is Gender=Masc|Number=Sing (11088 tokens). Examples: משפט, פועל, שבוע, אביב, מקום, אדם, דבר, חוץ, דולר, אוצר

Relations

NOUN nodes are attached to their parents using 24 different relations: obl (9139; 24% instances), compound:smixut (7430; 20% instances), nsubj (5641; 15% instances), nmod (5500; 14% instances), obj (3216; 8% instances), conj (2312; 6% instances), nmod:poss (1007; 3% instances), dep (903; 2% instances), appos (619; 2% instances), root (585; 2% instances), fixed (411; 1% instances), flat:name (294; 1% instances), nsubj:cop (287; 1% instances), acl (167; 0% instances), acl:relcl (165; 0% instances), ccomp (91; 0% instances), advcl (71; 0% instances), parataxis (59; 0% instances), amod (58; 0% instances), nsubj:outer (39; 0% instances), xcomp (28; 0% instances), dislocated (12; 0% instances), nummod (11; 0% instances), flat (1; 0% instances)

Parents of NOUN nodes belong to 14 different parts of speech: NOUN (17231; 45% instances), VERB (17138; 45% instances), ADJ (1253; 3% instances), PROPN (698; 2% instances), (585; 2% instances), ADP (401; 1% instances), ADV (204; 1% instances), NUM (173; 0% instances), AUX (154; 0% instances), PRON (146; 0% instances), CCONJ (21; 0% instances), X (19; 0% instances), DET (14; 0% instances), SCONJ (9; 0% instances)

3806 (10%) NOUN nodes are leaves.

10524 (28%) NOUN nodes have one child.

12943 (34%) NOUN nodes have two children.

10773 (28%) NOUN nodes have three or more children.

The highest child degree of a NOUN node is 48.

Children of NOUN nodes are attached using 34 different relations: case (14846; 19% instances), det (13705; 18% instances), compound:smixut (8449; 11% instances), amod (6820; 9% instances), nmod (6746; 9% instances), punct (5031; 7% instances), nmod:poss (4024; 5% instances), acl:relcl (2493; 3% instances), conj (2293; 3% instances), cc (1840; 2% instances), nummod (1602; 2% instances), case:gen (1531; 2% instances), case:acc (1431; 2% instances), flat:name (1137; 1% instances), appos (956; 1% instances), advmod (941; 1% instances), dep (672; 1% instances), nsubj (598; 1% instances), acl (564; 1% instances), cop (549; 1% instances), mark (335; 0% instances), nsubj:cop (236; 0% instances), compound:affix (73; 0% instances), advcl (66; 0% instances), fixed (40; 0% instances), parataxis (37; 0% instances), xcomp (30; 0% instances), obj (14; 0% instances), ccomp (10; 0% instances), nsubj:outer (5; 0% instances), mark:q (4; 0% instances), obl (4; 0% instances), dislocated (1; 0% instances), flat (1; 0% instances)

Children of NOUN nodes belong to 14 different parts of speech: ADP (17720; 23% instances), NOUN (17231; 22% instances), DET (13078; 17% instances), ADJ (6756; 9% instances), PUNCT (5031; 7% instances), PRON (4299; 6% instances), PROPN (3680; 5% instances), VERB (3142; 4% instances), NUM (2185; 3% instances), CCONJ (2017; 3% instances), ADV (1171; 2% instances), SCONJ (373; 0% instances), AUX (361; 0% instances), X (40; 0% instances)