home edit page issue tracker

This page pertains to UD version 2.

UD_Thai-PUD

UD_Thai-TUD

Tokenization and Word Segmentation

Tokenization and Word Segmentation

  • This corpus contains 1000 sentences and 22330 tokens.
  • This corpus contains 3627 sentences and 77215 tokens.
  • This corpus contains 19174 tokens (86%) that are not followed by a space.
  • This corpus contains 68893 tokens (89%) that are not followed by a space.
  • This corpus does not contain words with spaces.
  • This corpus does not contain words with spaces.
  • This corpus contains 11 types of words that contain both letters and punctuation. Examples: น., โยเลียต-กูรี, 'Ya, กอร์ดอน-เลวิตต์, การ“, ค.ศ., ดร., ศศ.ม., อินโด-ออสเตรเลียน, แซงต์-โกดองส์, โอต์-การอนน์
  • This corpus contains 70 types of words that contain both letters and punctuation. Examples: พ.ศ., ค.ศ., อ., ธ.ค., ม.ค., ต., ก.พ., น.ส., จ., ตร., น., พ.ย., ศก., ผบ., พ.ต.อ., สน., Lo-Society, ดร., ผช., ผญบ., ล., สภ., อบจ., ก.ล.ต., กม., พ.ร.บ., พล.ต.อ., ส.ท., โทร., 802.1x/RADIUS, A., CSMA/CA, S., http://www.unseencar.com/content5.php, l'Opéra, ก.น., ก.ย., ก.หน., กทม., จนท., จอง-อิล, ฉก., ด.ญ., ดี.ซี., ท., นบ., นศ., บช., บช.น., ผกก.

Morphology

Tags

Morphology

Tags

  • This corpus contains 22 word types tagged as particles (PART): การไม่, ขึ้น, ครับ, ความไม่, นะ, มา, มิ, ลง, ล่ะ, หรอก, หรือ, หรือเปล่า, หรือไม่, อย่าง, อย่างไม่, ออก, เข้า, เสีย, เหรอ, ไป, ไม่, ไหม
  • This corpus contains 62 word types tagged as particles (PART): ก็, ก็ดี, ก็แล้วกัน, ขนาด, ขี้, ครับ, คือ, ค่ะ, ช่าง, ซะ, ซะแล้ว, ซึ่ง, ดังเช่น, ด้วย, ตาม, ทั้ง, ทั้งสิ้น, ที, ที่, นะ, นัก, นั่น, นั่นเอง, นั้น, นี่, นี่เอง, นี่แหละ, นี้, น่า, บ้าง, ฟะ, ล่ะ, ล่ะกัน, หรอ, หรอก, หรือไม่, ห้าม, อย่าง, อย่างน้อย, อย่างไร, อะไร, อาทิ, อีก, เช่น, เช่นกัน, เดียว, เป็นต้น, เลย, เสีย, เอง, แต่, แม้กระทั่ง, แม้แต่, แล้ว, แหละ, โดย, ใคร, ใด, ให้, ไม่, ไหน, ไหม
  • This corpus contains 29 lemmas tagged as pronouns (PRON): 'Ya, You, กัน, ข้าพเจ้า, คุณ, ฉัน, ตนเอง, ตัวเอง, ต่าง, ทั้งหมด, ที่, นั่น, นั้น, นาย, นี่, นี้, ผม, พระองค์, มัน, มี, ยู, อะไร, อื่น, เขา, เธอ, เรา, เอง, ใคร, ไหน
  • This corpus contains 1 lemmas tagged as pronouns (PRON): _
  • This corpus contains 25 lemmas tagged as determiners (DET): คนละ, ซึ่ง, ดังกล่าว, ทั้ง, ทั้งหมด, ที่, ทุก, นั่น, นั้น, นั้นเอง, นี่, นี้, บาง, ผู้, ละ, หลาย, อะ, อะไร, อัน, อีก, เกือบ, เดอะ, แต่ละ, ใด, ไหน
  • This corpus contains 1 lemmas tagged as determiners (DET): _
  • Out of the above, 8 lemmas occurred sometimes as PRON and sometimes as DET: ทั้งหมด, ที่, นั่น, นั้น, นี่, นี้, อะไร, ไหน
  • Out of the above, 1 lemmas occurred sometimes as PRON and sometimes as DET: _
  • This corpus contains 10 lemmas tagged as auxiliaries (AUX): กำลัง, จะ, ต้อง, ถูก, มา, เคย, เป็น, แล้ว, ได้, ได้รับ
  • This corpus contains 1 lemmas tagged as auxiliaries (AUX): _
  • Out of the above, 5 lemmas occurred sometimes as AUX and sometimes as VERB: จะ, ถูก, มา, เป็น, ได้
  • Out of the above, 1 lemmas occurred sometimes as AUX and sometimes as VERB: _
  • This corpus does not use the VerbForm feature.
  • This corpus does not use the VerbForm feature.

Nominal Features

Nominal Features

Degree and Polarity

Degree and Polarity

  • Neg
    • PART: ไม่, ความไม่, มิ, อย่างไม่, การไม่

Verbal Features

Verbal Features

  • Perf
    • AUX: ได้, แล้ว, มา, เคย
    • VERB: การได้, อยู่, แลัว
  • Prog
    • AUX: กำลัง
    • VERB: อยู่, ยัง, ยังคง, ค่อนข้าง
  • Pass
    • AUX: ถูก, ได้รับ, ต้อง
    • VERB: การถูก

Pronouns, Determiners, Quantifiers

Pronouns, Determiners, Quantifiers

  • Art
    • DET: เดอะ, อะ
  • Dem
    • DET: นี้, นั้น, ดังกล่าว, นั่น, นั้นเอง, นี่
    • PRON: นี้, นี่, นั้น, นั่น, อื่น
  • Ind
    • DET: หลาย, อีก, บาง, ใด, เกือบ
    • PRON: ต่าง
  • Int
    • ADV: ทำไม, อย่างไร
    • DET: อะไร
    • PART: หรือเปล่า, หรือไม่, เหรอ, หรือ, ไหม
    • PRON: อะไร, ใคร, ไหน
  • Prs
    • PRON: เขา, กัน, เธอ, เรา, ฉัน, มัน, พระองค์, ผม, คุณ, เอง
  • Rel
    • DET: ที่, ซึ่ง, อัน, ผู้, ไหน
    • PRON: ที่, ใคร, ไหน
  • Tot
    • DET: ทุก, ทั้ง, ทั้งหมด, แต่ละ, คนละ, ละ
    • PRON: ทั้งหมด
  • Yes
    • PRON: เอง, ตนเอง, ตัวเอง
  • 1
    • PRON: เรา, ฉัน, ผม, ข้าพเจ้า, มี
  • 2
    • PRON: คุณ, 'Ya, You, นาย, ยู
  • 3
    • PRON: เขา, เธอ, มัน, พระองค์, ตัวเอง, ตนเอง, ต่าง

Other Features

Other Features

  • ExtPos
    • ADP
      • ADP: หลัง, จน, เนื่อง, โดย, นอก, แม้, จาก, ตั้ง, ตาม, ทาง
      • NOUN: ภาย, เช่น
      • VERB: เกี่ยว, ตั้ง, ได้, นับ
    • ADV
      • ADP: อย่าง
    • CCONJ
      • ADP: อย่าง, ถึง, นอก, แม้, แล้ว, โดย, ใน
      • ADV: ยิ่ง
      • CCONJ: อย่าง, จาก, นอก, ใน, ดัง, ถึง, หรือ, หลัง
      • DET: ทั้ง
      • NOUN: ท้าย
      • PART: ไม่
      • VERB: รวม, พร้อม
    • SCONJ
      • ADP: หลัง, เนื่อง, ก่อน, จน, ตาม, แม้, ถึง, ทั้ง, อย่าง, เพื่อ
      • ADV: ตาม, ทันที
      • PART: ไม่
      • VERB: ตั้ง, เว้น, เสีย, แทน
  • ExtPos
    • ADJ
      • ADJ: ต่อ, ทั่ว, เดียว, ขยัน, ถัด, ที่, เขียว, แวด
    • ADP
      • ADP: จน, ตั้ง, ท่าม, โดย, พร้อม, ภาย, หลัง, เช่น, ให้, ของ
      • PART: อาทิ
    • ADV
      • ADV: ต่อ, ก็, แต่, ใน, ตลอด, ทรง, ทัน, มาก, เพียง, ค่อน
      • PART: นะ, เลย, แต่
    • AUX
      • AUX: ยัง, ควร, จะ, อาจ, คง, ที่, อยู่, เพิ่ง
    • CCONJ
      • CCONJ: อย่างไร, ขณะ, รวม, นอก, แต่, ดัง, ทั้ง, ใน, พร้อม, อย่าง
    • DET
      • DET: ดัง, นั่น, เหล่า
    • PRON
      • PRON: ที่, ฝ่า
    • SCONJ
      • PART: ไม่
      • SCONJ: เนื่อง, หลัง, ไม่, ถึง, เป็น, ตัวอย่าง, แม้, ขณะ, นอก, ภาย
      • VERB: ยก
  • Foreign
    • Yes
      • ADJ: นิว
      • ADP: ออน, ออฟ
      • CCONJ: แอนด์
      • DET: เดอะ, อะ
      • NOUN: นาว, พาวเวอร์, วิง, เพรเยอร์, เอิร์ธ
      • PRON: 'Ya, You, มี, ยู
  • Typo
    • Yes
      • PROPN: ซิกูร์, บัวโนส, ฟยอกูร์, มาเร

Syntax

Auxiliary Verbs and Copula

  • This corpus uses 1 lemmas as copulas (cop). Examples: เป็น.

Syntax

Auxiliary Verbs and Copula

  • This corpus uses 1 lemmas as copulas (cop). Examples: _.
  • This corpus uses 8 lemmas as auxiliaries (aux). Examples: ได้, จะ, ต้อง, แล้ว, กำลัง, มา, เคย, ได้รับ.
  • This corpus uses 3 lemmas as passive auxiliaries (aux:pass). Examples: ถูก, ได้รับ, ต้อง.
  • This corpus uses 1 lemmas as auxiliaries (aux). Examples: _.

Core Arguments, Oblique Arguments and Adjuncts

Here we consider only relations between verbs (parent) and nouns or pronouns (child).
  • nsubj
    • VERB--NOUN (566)
    • VERB--PRON (229)

Core Arguments, Oblique Arguments and Adjuncts

Here we consider only relations between verbs (parent) and nouns or pronouns (child).
  • nsubj
    • VERB--NOUN (2452)
    • VERB--NOUN-ADP(_) (49)
    • VERB--PRON (1978)
    • VERB--PRON-ADP(_) (1)
  • obj
    • VERB--NOUN (1244)
    • VERB--NOUN-ADP(ของ) (1)
    • VERB--NOUN-ADP(อัน) (1)
    • VERB--PRON (74)
  • obj
    • VERB--NOUN (5932)
    • VERB--NOUN-ADP(_) (29)
    • VERB--PRON (549)
    • VERB--PRON-ADP(_) (1)
  • iobj
    • VERB--NOUN (2)
  • iobj
    • VERB--NOUN (29)
    • VERB--NOUN-ADP(_) (2)
    • VERB--PRON (12)

Verbs with Reflexive Core Objects

  • This corpus contains 5 lemmas that occur at least once with a reflexive core object (obj or iobj). Examples: ปกครอง ตนเอง, ป้องกัน ตัวเอง, สถาปนา ตนเอง, สน ตัวเอง, เคารพ ตัวเอง

Relations Overview

Relations Overview

  • This corpus does not use relation subtypes.
  • The following 2 relation types are not used in this corpus at all: goeswith, reparandum