home edit page issue tracker

This page pertains to UD version 2.

Treebank Statistics: UD_Hebrew: POS Tags: NOUN

There are 4202 NOUN lemmas (38%), 6947 NOUN types (36%) and 38249 NOUN tokens (24%). Out of 16 observed tags, the rank of NOUN is: 1 in number of lemmas, 1 in number of types and 1 in number of tokens.

The 10 most frequent NOUN lemmas: בית, _, שנה, איש, יום, חברה, דבר, משרד, מדינה, ארץ

The 10 most frequent NOUN types: בית, יום, משרד, משטרה, %, ארץ, שר, משפט, ממשלה, חברה

The 10 most frequent ambiguous lemmas: _ (VERB 420, NOUN 368, ADJ 231, ADP 190, ADV 174, PRON 130, CCONJ 113, AUX 99, X 86, SCONJ 47, PART 34, DET 33), ארץ (NOUN 173, PROPN 1), בן (NOUN 172, PROPN 27), שר (NOUN 158, VERB 2), דרך (NOUN 145, ADP 6, VERB 2), חודש (NOUN 141, X 1), פה (NOUN 128, ADV 10, PROPN 2), חבר (NOUN 126, VERB 1), קבוצה (NOUN 121, X 1), בנק (NOUN 118, X 2)

The 10 most frequent ambiguous types: בית (NOUN 298, X 1), ארץ (NOUN 143, PROPN 1), שר (NOUN 141, VERB 1), חברה (NOUN 122, VERB 1), פועל (NOUN 116, VERB 8), משחק (NOUN 104, VERB 5, X 1), פי (NOUN 99, PROPN 10, ADV 7), ימים (NOUN 93, X 1), חוץ (NOUN 92, ADP 4, ADV 3), דרך (NOUN 88, ADP 6, VERB 1)

Morphology

The form / lemma ratio of NOUN is 1.653260 (the average of all parts of speech is 1.709692).

The 1st highest number of forms (211) was observed with the lemma “_”: __, אבדן, אביב, אדם, או”ם, אוכלי, אוריאה, אחת, איחוד, איש, אנדוקרינולוגיה, אסטרטגיה, אסיפה, אקמה, ארץ, אתיאיזם, בא, באי, באס, בג”ץ, בוסריותו, בחירות, ביהמ”ש, ביולוגיה, בית, ביתך, במאי, בניין, בעייתיות, בקיאיה, בשר, גדול, גדעונים, גובהה, גודו, גוני, גוף, גיהאד, גילופין, ד, דאבל, דומני, דוקטור, דיסקרציה, דיפרנסיאס, דמי, ה”ה, הגזת, הופיעו, הוקוס, החסרונות, היטל, הינדים, הכל, המשך, הנדסאים, הפריית, השכלה, התייחסו, זכאי, זנב, ח, ח”כ, חאג, חבר, חברה, חברות, חולונים, חוץ, חילול, חסרת, חצר, טראנספר, יום, יורדי, יושביו, יחידה, ינקים, יצואן, יתו, כולם, כלי, כללי, כנסת, כתבתך, לבותיהן, לבך, לימפה, מאציזמו, מבנים, מהנהיגות, מו”לות, מו”ם, מו”ף, מולוקולות, מחוז, מחסום, מטמון, מי”ל, מינסוטים, מישנהו, מכשיר, מכתב, מע”ם, מפלגת, מפעל, מצב, מצבים, מק”ם, מרכז, משק, משקפיים, נ”ל, נאורלוג, נאות, ניגוסים, ניו, נס, נסותה, נפאלי, סביבן, סופר, סוציאל, סטאזר, סטאזרים, סטנדרד, סכו”ם, סכסכוך, סלקציה, סנסאציה, ספורט, ספזטינו, סקלופיני, סרגלים, ע”א, ע”ר, עבר, עד, עו, עולם, עין, עכואים, עלייה, עלת, עשתונותיו, פאי, פאנטום, פדרל, פוטבול, פולחן, פועל, פורדים, פילנטרופואידים, פמלייתו, פנים, פקוע, פקידי, פרופיל, פרוץ, צדקת, צימצום, צימרים, ציפיות, צפי, קול, קופ”ח, קיטש, קש, רבות, רבי, רבע, רגל, רגלו, רגליו, רגשי, רובם, רובן, רוקפלרים, רח, רמדאן, רנסאנס, רפובליקאים, רצועה, רצח, ש”ח, שב”ך, שב”ס, שבחי, שחומי, שיויוון, שיח, שים, שיפוצניק, שיקול, שיתוף, שמשונים, שעה, שפע, שרפות, תבלינים, תגבר, תוארי, תובנה, תוככי, תחנה, תימנחיה, תנ”ך, תנאים, תק”ם, תקציבי, תשנא.

The 2nd highest number of forms (10) was observed with the lemma “איש”: איש, איש_, אישה, אנשי, אנשים, אשה, אשת, נשות, נשי, נשים.

The 3rd highest number of forms (7) was observed with the lemma “ועדה”: וועדה, וועדות, וועדת, ועדה, ועדה_, ועדות, ועדת.

NOUN occurs with 5 features: Number (37706; 99% instances), Gender (37696; 99% instances), Definite (11857; 31% instances), HebSource (618; 2% instances), Abbr (596; 2% instances)

NOUN occurs with 13 feature-value pairs: Abbr=Yes, Definite=Cons, Definite=Def, Gender=Fem, Gender=Fem,Masc, Gender=Masc, HebSource=ConvUncertainHead, HebSource=ConvUncertainLabel, Number=Dual, Number=Dual,Plur, Number=Plur, Number=Plur,Sing, Number=Sing

NOUN occurs with 71 feature combinations. The most frequent feature combination is Gender=Masc|Number=Sing (10970 tokens). Examples: משפט, פועל, שבוע, אביב, דבר, מקום, אדם, חוץ, דולר, קיבוץ

Relations

NOUN nodes are attached to their parents using 29 different relations: compound:smixut (7459; 20% instances), obl (5987; 16% instances), nsubj (5703; 15% instances), nmod (5310; 14% instances), obj (3228; 8% instances), iobj (2798; 7% instances), conj (2329; 6% instances), nmod:poss (1019; 3% instances), dep (922; 2% instances), appos (626; 2% instances), root (608; 2% instances), fixed (410; 1% instances), advmod (345; 1% instances), nsubj:cop (318; 1% instances), flat:name (297; 1% instances), parataxis (233; 1% instances), acl:relcl (174; 0% instances), acl (167; 0% instances), ccomp (98; 0% instances), advcl (67; 0% instances), amod (59; 0% instances), det:quant (43; 0% instances), conj:discourse (19; 0% instances), dislocated (12; 0% instances), nummod (7; 0% instances), case (4; 0% instances), goeswith (3; 0% instances), advmod:phrase (2; 0% instances), det (2; 0% instances)

Parents of NOUN nodes belong to 16 different parts of speech: NOUN (17327; 45% instances), VERB (17288; 45% instances), ADJ (971; 3% instances), PROPN (720; 2% instances), (608; 2% instances), AUX (473; 1% instances), ADP (399; 1% instances), PRON (142; 0% instances), ADV (130; 0% instances), NUM (100; 0% instances), CCONJ (24; 0% instances), X (23; 0% instances), PUNCT (20; 0% instances), DET (14; 0% instances), SCONJ (9; 0% instances), PART (1; 0% instances)

3871 (10%) NOUN nodes are leaves.

10580 (28%) NOUN nodes have one child.

12890 (34%) NOUN nodes have two children.

10908 (29%) NOUN nodes have three or more children.

The highest child degree of a NOUN node is 48.

Children of NOUN nodes are attached using 40 different relations: case (15040; 19% instances), det:def (12450; 16% instances), compound:smixut (8484; 11% instances), amod (7431; 10% instances), nmod (6605; 9% instances), punct (4872; 6% instances), nmod:poss (4053; 5% instances), acl:relcl (2500; 3% instances), conj (2306; 3% instances), cc (1878; 2% instances), nummod (1605; 2% instances), case:gen (1543; 2% instances), case:acc (1440; 2% instances), det (1408; 2% instances), appos (1405; 2% instances), dep (903; 1% instances), nsubj (633; 1% instances), flat:name (589; 1% instances), advmod (528; 1% instances), mark (353; 0% instances), aux (308; 0% instances), acl:inf (280; 0% instances), acl (270; 0% instances), cop (246; 0% instances), nsubj:cop (243; 0% instances), parataxis (60; 0% instances), det:quant (47; 0% instances), advcl (44; 0% instances), fixed (43; 0% instances), iobj (38; 0% instances), xcomp (31; 0% instances), obj (15; 0% instances), advmod:inf (14; 0% instances), ccomp (9; 0% instances), conj:discourse (9; 0% instances), advmod:phrase (8; 0% instances), obl:tmod (6; 0% instances), aux:q (4; 0% instances), goeswith (3; 0% instances), dislocated (1; 0% instances)

Children of NOUN nodes belong to 15 different parts of speech: NOUN (17327; 22% instances), ADP (15062; 19% instances), DET (13173; 17% instances), ADJ (6713; 9% instances), PUNCT (5100; 7% instances), PRON (4101; 5% instances), VERB (3774; 5% instances), PROPN (3485; 4% instances), PART (2995; 4% instances), NUM (2243; 3% instances), CCONJ (2058; 3% instances), ADV (1103; 1% instances), SCONJ (396; 1% instances), AUX (144; 0% instances), X (31; 0% instances)