UD_Thai-PUD
|
UD_Thai-TUD
|
Tokenization and Word Segmentation
|
Tokenization and Word Segmentation
|
- This corpus contains 1000 sentences and 22330 tokens.
|
- This corpus contains 3627 sentences and 77215 tokens.
|
- This corpus contains 19174 tokens (86%) that are not followed by a space.
|
- This corpus contains 68893 tokens (89%) that are not followed by a space.
|
- This corpus does not contain words with spaces.
|
- This corpus does not contain words with spaces.
|
- This corpus contains 11 types of words that contain both letters and punctuation. Examples: น., โยเลียต-กูรี, 'Ya, กอร์ดอน-เลวิตต์, การ“, ค.ศ., ดร., ศศ.ม., อินโด-ออสเตรเลียน, แซงต์-โกดองส์, โอต์-การอนน์
|
- This corpus contains 70 types of words that contain both letters and punctuation. Examples: พ.ศ., ค.ศ., อ., ธ.ค., ม.ค., ต., ก.พ., น.ส., จ., ตร., น., พ.ย., ศก., ผบ., พ.ต.อ., สน., Lo-Society, ดร., ผช., ผญบ., ล., สภ., อบจ., ก.ล.ต., กม., พ.ร.บ., พล.ต.อ., ส.ท., โทร., 802.1x/RADIUS, A., CSMA/CA, S., http://www.unseencar.com/content5.php, l'Opéra, ก.น., ก.ย., ก.หน., กทม., จนท., จอง-อิล, ฉก., ด.ญ., ดี.ซี., ท., นบ., นศ., บช., บช.น., ผกก.
|
|
|
|
Morphology
Tags
- This corpus uses 16 UPOS tags out of 17 possible: ADJ, ADP, ADV, AUX, CCONJ, DET, NOUN, NUM, PART, PRON, PROPN, PUNCT, SCONJ, SYM, VERB, X
- This corpus does not use the following tags: INTJ
|
Morphology
Tags
- This corpus uses 15 UPOS tags out of 17 possible: ADJ, ADP, ADV, AUX, CCONJ, DET, NOUN, NUM, PART, PRON, PROPN, PUNCT, SCONJ, SYM, VERB
- This corpus does not use the following tags: INTJ, X
|
- This corpus contains 22 word types tagged as particles (PART): การไม่, ขึ้น, ครับ, ความไม่, นะ, มา, มิ, ลง, ล่ะ, หรอก, หรือ, หรือเปล่า, หรือไม่, อย่าง, อย่างไม่, ออก, เข้า, เสีย, เหรอ, ไป, ไม่, ไหม
|
- This corpus contains 62 word types tagged as particles (PART): ก็, ก็ดี, ก็แล้วกัน, ขนาด, ขี้, ครับ, คือ, ค่ะ, ช่าง, ซะ, ซะแล้ว, ซึ่ง, ดังเช่น, ด้วย, ตาม, ทั้ง, ทั้งสิ้น, ที, ที่, นะ, นัก, นั่น, นั่นเอง, นั้น, นี่, นี่เอง, นี่แหละ, นี้, น่า, บ้าง, ฟะ, ล่ะ, ล่ะกัน, หรอ, หรอก, หรือไม่, ห้าม, อย่าง, อย่างน้อย, อย่างไร, อะไร, อาทิ, อีก, เช่น, เช่นกัน, เดียว, เป็นต้น, เลย, เสีย, เอง, แต่, แม้กระทั่ง, แม้แต่, แล้ว, แหละ, โดย, ใคร, ใด, ให้, ไม่, ไหน, ไหม
|
- This corpus contains 29 lemmas tagged as pronouns (PRON): 'Ya, You, กัน, ข้าพเจ้า, คุณ, ฉัน, ตนเอง, ตัวเอง, ต่าง, ทั้งหมด, ที่, นั่น, นั้น, นาย, นี่, นี้, ผม, พระองค์, มัน, มี, ยู, อะไร, อื่น, เขา, เธอ, เรา, เอง, ใคร, ไหน
|
- This corpus contains 1 lemmas tagged as pronouns (PRON): _
|
- This corpus contains 25 lemmas tagged as determiners (DET): คนละ, ซึ่ง, ดังกล่าว, ทั้ง, ทั้งหมด, ที่, ทุก, นั่น, นั้น, นั้นเอง, นี่, นี้, บาง, ผู้, ละ, หลาย, อะ, อะไร, อัน, อีก, เกือบ, เดอะ, แต่ละ, ใด, ไหน
|
- This corpus contains 1 lemmas tagged as determiners (DET): _
|
- Out of the above, 8 lemmas occurred sometimes as PRON and sometimes as DET: ทั้งหมด, ที่, นั่น, นั้น, นี่, นี้, อะไร, ไหน
|
- Out of the above, 1 lemmas occurred sometimes as PRON and sometimes as DET: _
|
- This corpus contains 10 lemmas tagged as auxiliaries (AUX): กำลัง, จะ, ต้อง, ถูก, มา, เคย, เป็น, แล้ว, ได้, ได้รับ
|
- This corpus contains 1 lemmas tagged as auxiliaries (AUX): _
|
- Out of the above, 5 lemmas occurred sometimes as AUX and sometimes as VERB: จะ, ถูก, มา, เป็น, ได้
|
- Out of the above, 1 lemmas occurred sometimes as AUX and sometimes as VERB: _
|
- This corpus does not use the VerbForm feature.
|
- This corpus does not use the VerbForm feature.
|
Nominal Features
|
Nominal Features
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Degree and Polarity
|
Degree and Polarity
|
|
|
|
|
|
|
- Neg
- PART: ไม่, ความไม่, มิ, อย่างไม่, การไม่
|
|
|
|
|
Verbal Features
|
Verbal Features
|
|
|
|
- Perf
- AUX: ได้, แล้ว, มา, เคย
- VERB: การได้, อยู่, แลัว
|
|
- Prog
- AUX: กำลัง
- VERB: อยู่, ยัง, ยังคง, ค่อนข้าง
|
|
|
|
|
|
|
|
|
|
|
- Pass
- AUX: ถูก, ได้รับ, ต้อง
- VERB: การถูก
|
|
|
|
|
Pronouns, Determiners, Quantifiers
|
Pronouns, Determiners, Quantifiers
|
|
|
|
|
|
|
- Dem
- DET: นี้, นั้น, ดังกล่าว, นั่น, นั้นเอง, นี่
- PRON: นี้, นี่, นั้น, นั่น, อื่น
|
|
- Ind
- DET: หลาย, อีก, บาง, ใด, เกือบ
- PRON: ต่าง
|
|
- Int
- ADV: ทำไม, อย่างไร
- DET: อะไร
- PART: หรือเปล่า, หรือไม่, เหรอ, หรือ, ไหม
- PRON: อะไร, ใคร, ไหน
|
|
- Prs
- PRON: เขา, กัน, เธอ, เรา, ฉัน, มัน, พระองค์, ผม, คุณ, เอง
|
|
- Rel
- DET: ที่, ซึ่ง, อัน, ผู้, ไหน
- PRON: ที่, ใคร, ไหน
|
|
- Tot
- DET: ทุก, ทั้ง, ทั้งหมด, แต่ละ, คนละ, ละ
- PRON: ทั้งหมด
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
- 1
- PRON: เรา, ฉัน, ผม, ข้าพเจ้า, มี
|
|
- 2
- PRON: คุณ, 'Ya, You, นาย, ยู
|
|
- 3
- PRON: เขา, เธอ, มัน, พระองค์, ตัวเอง, ตนเอง, ต่าง
|
|
|
|
|
|
|
|
|
|
|
Other Features
|
Other Features
|
- ExtPos
- ADP
- ADP: หลัง, จน, เนื่อง, โดย, นอก, แม้, จาก, ตั้ง, ตาม, ทาง
- NOUN: ภาย, เช่น
- VERB: เกี่ยว, ตั้ง, ได้, นับ
- ADV
- CCONJ
- ADP: อย่าง, ถึง, นอก, แม้, แล้ว, โดย, ใน
- ADV: ยิ่ง
- CCONJ: อย่าง, จาก, นอก, ใน, ดัง, ถึง, หรือ, หลัง
- DET: ทั้ง
- NOUN: ท้าย
- PART: ไม่
- VERB: รวม, พร้อม
- SCONJ
- ADP: หลัง, เนื่อง, ก่อน, จน, ตาม, แม้, ถึง, ทั้ง, อย่าง, เพื่อ
- ADV: ตาม, ทันที
- PART: ไม่
- VERB: ตั้ง, เว้น, เสีย, แทน
|
- ExtPos
- ADJ
- ADJ: ต่อ, ทั่ว, เดียว, ขยัน, ถัด, ที่, เขียว, แวด
- ADP
- ADP: จน, ตั้ง, ท่าม, โดย, พร้อม, ภาย, หลัง, เช่น, ให้, ของ
- PART: อาทิ
- ADV
- ADV: ต่อ, ก็, แต่, ใน, ตลอด, ทรง, ทัน, มาก, เพียง, ค่อน
- PART: นะ, เลย, แต่
- AUX
- AUX: ยัง, ควร, จะ, อาจ, คง, ที่, อยู่, เพิ่ง
- CCONJ
- CCONJ: อย่างไร, ขณะ, รวม, นอก, แต่, ดัง, ทั้ง, ใน, พร้อม, อย่าง
- DET
- PRON
- SCONJ
- PART: ไม่
- SCONJ: เนื่อง, หลัง, ไม่, ถึง, เป็น, ตัวอย่าง, แม้, ขณะ, นอก, ภาย
- VERB: ยก
|
- Foreign
- Yes
- ADJ: นิว
- ADP: ออน, ออฟ
- CCONJ: แอนด์
- DET: เดอะ, อะ
- NOUN: นาว, พาวเวอร์, วิง, เพรเยอร์, เอิร์ธ
- PRON: 'Ya, You, มี, ยู
|
|
- Typo
- Yes
- PROPN: ซิกูร์, บัวโนส, ฟยอกูร์, มาเร
|
|
Syntax
Auxiliary Verbs and Copula
- This corpus uses 1 lemmas as copulas (cop). Examples: เป็น.
|
Syntax
Auxiliary Verbs and Copula
- This corpus uses 1 lemmas as copulas (cop). Examples: _.
|
- This corpus uses 8 lemmas as auxiliaries (aux). Examples: ได้, จะ, ต้อง, แล้ว, กำลัง, มา, เคย, ได้รับ.
- This corpus uses 3 lemmas as passive auxiliaries (aux:pass). Examples: ถูก, ได้รับ, ต้อง.
|
- This corpus uses 1 lemmas as auxiliaries (aux). Examples: _.
|
Core Arguments, Oblique Arguments and Adjuncts
Here we consider only relations between verbs (parent) and nouns or pronouns (child).
- nsubj
- VERB--NOUN (566)
- VERB--PRON (229)
|
Core Arguments, Oblique Arguments and Adjuncts
Here we consider only relations between verbs (parent) and nouns or pronouns (child).
- nsubj
- VERB--NOUN (2452)
- VERB--NOUN-ADP(_) (49)
- VERB--PRON (1978)
- VERB--PRON-ADP(_) (1)
|
- obj
- VERB--NOUN (1244)
- VERB--NOUN-ADP(ของ) (1)
- VERB--NOUN-ADP(อัน) (1)
- VERB--PRON (74)
|
- obj
- VERB--NOUN (5932)
- VERB--NOUN-ADP(_) (29)
- VERB--PRON (549)
- VERB--PRON-ADP(_) (1)
|
|
|
- iobj
- VERB--NOUN (29)
- VERB--NOUN-ADP(_) (2)
- VERB--PRON (12)
|
|
|
|
|
|
|
Verbs with Reflexive Core Objects
- This corpus contains 5 lemmas that occur at least once with a reflexive core object (obj or iobj). Examples: ปกครอง ตนเอง, ป้องกัน ตัวเอง, สถาปนา ตนเอง, สน ตัวเอง, เคารพ ตัวเอง
|
|
Relations Overview
- This corpus uses 9 relation subtypes: acl:relcl, aux:pass, cc:preconj, compound:prt, flat:name, nmod:poss, nsubj:pass, obl:poss, obl:tmod
- The following 1 main types are not used alone, they are always subtyped: flat
- The following 3 relation types are not used in this corpus at all: expl, list, orphan
|
Relations Overview
- This corpus does not use relation subtypes.
- The following 2 relation types are not used in this corpus at all: goeswith, reparandum
|