Treebank Statistics: UD_Hebrew-HTB: POS Tags: NOUN
There are 4200 NOUN
lemmas (38%), 6944 NOUN
types (36%) and 38246 NOUN
tokens (24%).
Out of 15 observed tags, the rank of NOUN
is: 1 in number of lemmas, 1 in number of types and 1 in number of tokens.
The 10 most frequent NOUN
lemmas: בית, _, שנה, איש, יום, חברה, דבר, משרד, מדינה, ארץ
The 10 most frequent NOUN
types: בית, יום, משרד, משטרה, %, ארץ, שר, משפט, ממשלה, חברה
The 10 most frequent ambiguous lemmas: _ (NOUN 366, AUX 268, VERB 251, ADJ 231, ADV 177, CCONJ 110, X 86, PRON 57, SCONJ 47, DET 33), ארץ (NOUN 173, PROPN 1), בן (NOUN 172, PROPN 27), שר (NOUN 158, VERB 2), דרך (NOUN 145, ADP 6, VERB 2), חודש (NOUN 141, X 1), פה (NOUN 128, ADV 10, PROPN 2), חבר (NOUN 126, VERB 1), קבוצה (NOUN 121, X 1), בנק (NOUN 118, X 2)
The 10 most frequent ambiguous types: בית (NOUN 298, X 1), ארץ (NOUN 143, PROPN 1), שר (NOUN 141, VERB 1), חברה (NOUN 122, VERB 1), פועל (NOUN 116, VERB 8), משחק (NOUN 104, VERB 5, X 1), פי (NOUN 99, PROPN 10, ADV 7), ימים (NOUN 93, X 1), חוץ (NOUN 92, ADP 4, ADV 3), דרך (NOUN 88, ADP 6, VERB 1)
- בית
- ארץ
- שר
- NOUN 141: שר ה אוצר ימנה עובד מ משרד_ של _הוא ש יהיה אחראי על מאגר זה .
- VERB 1: ה קולנוע הוא ללא ספק ה מקום ה מושלם ל דיון ב פנטסיות ; פס ה קול ה מוסיקלי נושא איכויות הוליוודיות , ו לעתים הופך ה סרט ל מיוזיקל ; כאשר קולף ו ה מלכה רוקדים את ה וולס של_ הם , בין אורות ו צללים , ב ה מועדון של ה שכונה , יושב ל_ הוא רפאל קלצקין , ב תפקיד קבצן מקומי , ו שר ל נסים עזיקרי את “ ציפור מכנסי ה שבת של _אני “ .
- חברה
- פועל
- משחק
- פי
- ימים
- חוץ
- דרך
Morphology
The form / lemma ratio of NOUN
is 1.653333 (the average of all parts of speech is 1.701287).
The 1st highest number of forms (209) was observed with the lemma “_”: __, אבדן, אביב, אדם, או”ם, אוכלי, אוריאה, אחת, איחוד, איש, אנדוקרינולוגיה, אסטרטגיה, אסיפה, אקמה, ארץ, אתיאיזם, בא, באי, באס, בג”ץ, בוסריותו, בחירות, ביהמ”ש, ביולוגיה, בית, ביתך, במאי, בניין, בעייתיות, בקיאיה, בשר, גדול, גדעונים, גובהה, גודו, גוני, גוף, גיהאד, גילופין, דאבל, דומני, דוקטור, דיסקרציה, דיפרנסיאס, דמי, ה”ה, הגזת, הופיעו, הוקוס, החסרונות, היטל, הינדים, הכל, המשך, הנדסאים, הפריית, השכלה, התייחסו, זכאי, זנב, ח, ח”כ, חאג, חבר, חברה, חברות, חולונים, חוץ, חילול, חסרת, חצר, טראנספר, יום, יורדי, יושביו, יחידה, ינקים, יצואן, יתו, כולם, כלי, כללי, כנסת, כתבתך, לבותיהן, לבך, לימפה, מאציזמו, מבנים, מהנהיגות, מו”לות, מו”ם, מו”ף, מולוקולות, מחוז, מחסום, מטמון, מי”ל, מינסוטים, מישנהו, מכשיר, מכתב, מע”ם, מפלגת, מפעל, מצב, מצבים, מק”ם, מרכז, משק, משקפיים, נ”ל, נאורלוג, נאות, ניגוסים, ניו, נס, נסותה, נפאלי, סביבן, סופר, סוציאל, סטאזר, סטאזרים, סטנדרד, סכו”ם, סכסכוך, סלקציה, סנסאציה, ספורט, ספזטינו, סקלופיני, סרגלים, ע”א, ע”ר, עבר, עד, עולם, עין, עכואים, עלייה, עלת, עשתונותיו, פאי, פאנטום, פדרל, פוטבול, פולחן, פועל, פורדים, פילנטרופואידים, פמלייתו, פנים, פקוע, פקידי, פרופיל, פרוץ, צדקת, צימצום, צימרים, ציפיות, צפי, קול, קופ”ח, קיטש, קש, רבות, רבי, רבע, רגל, רגלו, רגליו, רגשי, רובם, רובן, רוקפלרים, רח, רמדאן, רנסאנס, רפובליקאים, רצועה, רצח, ש”ח, שב”ך, שב”ס, שבחי, שחומי, שיויוון, שיח, שים, שיפוצניק, שיקול, שיתוף, שמשונים, שעה, שפע, שרפות, תבלינים, תגבר, תוארי, תובנה, תוככי, תחנה, תימנחיה, תנ”ך, תנאים, תק”ם, תקציבי, תשנא.
The 2nd highest number of forms (10) was observed with the lemma “איש”: איש, איש_, אישה, אנשי, אנשים, אשה, אשת, נשות, נשי, נשים.
The 3rd highest number of forms (7) was observed with the lemma “ועדה”: וועדה, וועדות, וועדת, ועדה, ועדה_, ועדות, ועדת.
NOUN
occurs with 4 features: Number (37706; 99% instances), Gender (37696; 99% instances), Definite (11857; 31% instances), Abbr (596; 2% instances)
NOUN
occurs with 11 feature-value pairs: Abbr=Yes
, Definite=Cons
, Definite=Def
, Gender=Fem
, Gender=Fem,Masc
, Gender=Masc
, Number=Dual
, Number=Dual,Plur
, Number=Plur
, Number=Plur,Sing
, Number=Sing
NOUN
occurs with 38 feature combinations.
The most frequent feature combination is Gender=Masc|Number=Sing
(11168 tokens).
Examples: משפט, פועל, אביב, שבוע, דבר, מקום, אדם, חוץ, קיבוץ, דולר
Relations
NOUN
nodes are attached to their parents using 24 different relations: obl (8920; 23% instances), compound:smixut (7459; 20% instances), nsubj (5703; 15% instances), nmod (5371; 14% instances), obj (3228; 8% instances), conj (2329; 6% instances), nmod:poss (1019; 3% instances), dep (915; 2% instances), appos (624; 2% instances), root (608; 2% instances), fixed (431; 1% instances), advmod (326; 1% instances), nsubj:cop (318; 1% instances), flat:name (297; 1% instances), acl:relcl (172; 0% instances), acl (167; 0% instances), ccomp (98; 0% instances), advcl (75; 0% instances), amod (59; 0% instances), parataxis (59; 0% instances), det (45; 0% instances), dislocated (12; 0% instances), nummod (7; 0% instances), case (4; 0% instances)
Parents of NOUN
nodes belong to 14 different parts of speech: NOUN (17346; 45% instances), VERB (17133; 45% instances), ADJ (972; 3% instances), PROPN (707; 2% instances), AUX (636; 2% instances), (608; 2% instances), ADP (400; 1% instances), PRON (142; 0% instances), ADV (132; 0% instances), NUM (102; 0% instances), X (23; 0% instances), CCONJ (22; 0% instances), DET (14; 0% instances), SCONJ (9; 0% instances)
3239 (8%) NOUN
nodes are leaves.
10759 (28%) NOUN
nodes have one child.
12894 (34%) NOUN
nodes have two children.
11354 (30%) NOUN
nodes have three or more children.
The highest child degree of a NOUN
node is 39.
Children of NOUN
nodes are attached using 32 different relations: case (14849; 19% instances), det (14434; 18% instances), compound:smixut (8484; 11% instances), amod (6851; 9% instances), nmod (6690; 9% instances), punct (5580; 7% instances), nmod:poss (4053; 5% instances), acl:relcl (2498; 3% instances), conj (2306; 3% instances), cc (1845; 2% instances), nummod (1605; 2% instances), case:gen (1543; 2% instances), case:acc (1440; 2% instances), flat:name (1148; 1% instances), appos (963; 1% instances), dep (669; 1% instances), nsubj (633; 1% instances), advmod (626; 1% instances), acl (564; 1% instances), cop (514; 1% instances), mark (353; 0% instances), nsubj:cop (243; 0% instances), compound:affix (73; 0% instances), advcl (65; 0% instances), fixed (41; 0% instances), aux (40; 0% instances), parataxis (38; 0% instances), xcomp (31; 0% instances), obj (15; 0% instances), ccomp (10; 0% instances), mark:q (4; 0% instances), dislocated (1; 0% instances)
Children of NOUN
nodes belong to 14 different parts of speech: ADP (17836; 23% instances), NOUN (17346; 22% instances), DET (13173; 17% instances), ADJ (6714; 9% instances), PUNCT (5587; 7% instances), PRON (4101; 5% instances), PROPN (3706; 5% instances), VERB (3284; 4% instances), NUM (2244; 3% instances), CCONJ (2041; 3% instances), ADV (1123; 1% instances), AUX (634; 1% instances), SCONJ (389; 0% instances), X (31; 0% instances)