home edit page issue tracker

This page pertains to UD version 2.

UD_Vietnamese-TueCL

UD_Vietnamese-VTB

Tokenization and Word Segmentation

Tokenization and Word Segmentation

  • This corpus contains 100 sentences and 1888 tokens.
  • This corpus contains 3323 sentences and 58069 tokens.
  • This corpus contains 207 tokens (11%) that are not followed by a space.
  • All tokens in this corpus are followed by a space.
  • This corpus contains 285 types of words with spaces. Examples: chúng ta, có thể, chúng tôi, bất cứ, không thể, tham số, thay đổi, anh ta, bắt đầu, khác nhau, một vài, thành viên, thực sự, Dù sao, bao giờ, bác sĩ, bệnh nhân, cho đến, cung cấp, các bạn, cô ấy, cả hai, gia đình, hoàn toàn, hành trình, kết quả, lĩnh vực, mục tiêu, ngay cả, người ta, quan hệ, quyết định, quân đội, thành phố, thí nghiệm, thế giới, thực ra, tiếng nói, trở nên, tác động, tương lai, tương tác, tất cả, tổ chức, từ bi, tự do, xem xét, xây dựng, xảy ra, yêu cầu
  • This corpus contains 4152 types of words with spaces. Examples: chúng tôi, gia đình, công ty, thám tử, có thể, điện thoại, không thể, hà nội, tất cả, vợ chồng, đầu tiên, cơ quan, tuy nhiên, tổ chức, câu chuyện, quyết định, kiểm tra, cuộc đời, khủng bố, xây dựng, giám đốc, một số, thông tin, thời gian, tiếp tục, theo dõi, điều tra, cuộc sống, muay thái, thủ phạm, bà con, cuối cùng, kế hoạch, anh em, bắt đầu, hàng xóm, khu vực, làm việc, phát hiện, trung tâm, bây giờ, cán bộ, công tác, thực hiện, đầu tư, dự án, nhà nước, đàn ông, đại học, bảo vệ
  • This corpus contains 1 types of words that contain both letters and punctuation. Examples: Four-six
  • This corpus contains 28 types of words that contain both letters and punctuation. Examples: tp., h., K., wai-kru, G., TP .HCM, 20-Dec, 20-Jun, 20-Mar, 3-Feb, 43H-016, 54N-7, 6-Jan, F., GD-ĐT, Lung-nan, M., N., TP.HCM, Th., Tr’ hy, bktt.vn, cà-rem, knock-out, p., q., q.1, www.anangquangnamfund.org

Morphology

Tags

Morphology

Tags

  • This corpus contains 15 word types tagged as particles (PART): Bộ, Mà, chứ, hề, nhé, phi, phải, ra, thi, thì, tụi, vậy, à, đâu, đấy
  • This corpus contains 57 word types tagged as particles (PART): Thì, Thật ra, chao, chính, chứ, cái, có, cơ mà, cả, dạ, gì, hà, hả, hết, hề, là, lắm, mà, mất, mấy, mỗi, ngay, nhá, nhé, nhất là, nhỉ, nào, này, nữa, quả, riêng, rùi, rồi, sao, thay, thiệt, thì có, thôi, thật, thế, trời, tận, tổ, tới, ui, vậy, à, đi, đâu, đây, đó, được, đấy, đến, ơi, ạ, Ấy
  • This corpus contains 36 lemmas tagged as pronouns (PRON): ai, anh, anh ta, anh ấy, bạn, bản thân, cha, chúng, chúng ta, chúng tôi, các anh, các bạn, cô, cô ấy, cậu, em, gì, hắn, họ, kia, mà, mày, mình, ngài, nhau, nào, nó, ta, tao, tôi, tự, ông, ông ấy, đâu, đây, đó
  • This corpus contains 66 lemmas tagged as pronouns (PRON): ai, anh, bao, bao giờ, bao lâu, bao nhiêu, bà, bây giờ, bấy giờ, chúng, chúng mình, chúng nó, chúng ta, chúng tôi, cô ta, cả, giờ đây, gã, gì, hey, hiện nay, hùng, hắn, họ, kia, mày, mình, mô, nay, người ta, nhau, ni, nào, này, nó, nọ, phòng, rày, rứa, sao, ta, tao, thằng, thế, thế nào, thế này, toàn, tui, tôi, tại sao, tất cả, tớ, từng, tự, vầy, vậy, ông, ông ta, đâu, đâu đó, đây, đây đó, đích thân, đó, đấy, ấy
  • This corpus contains 17 lemmas tagged as determiners (DET): ai, bất cứ, các, cả, cả hai, kia, mấy, mọi, mỗi, một vài, nay, những, này, tất cả, từng, vài, đó
  • This corpus contains 37 lemmas tagged as determiners (DET): bao, bao nhiêu, bấy nhiêu, chút, chút đỉnh, các, cả, hàng loạt, hầu hết, l, làng, muôn, muôn vàn, mấy, mọi, mỗi, một, một chút, một nửa, một số, một vài, nhiều, những, nửa, phần lớn, toàn, toàn bộ, toàn thể, tất cả, từng, vài, vài ba, vô khối, vô số, vô vàn, đa số, đôi
  • Out of the above, 3 lemmas occurred sometimes as PRON and sometimes as DET: ai, kia, đó
  • Out of the above, 6 lemmas occurred sometimes as PRON and sometimes as DET: bao, bao nhiêu, cả, toàn, tất cả, từng
  • This corpus contains 8 lemmas tagged as auxiliaries (AUX): bị, có thể, có vẻ, không thể, là, nghĩa là, phải, được
  • This corpus contains 13 lemmas tagged as auxiliaries (AUX): bị, chưa thể, chắc chắn, có thể, có vẻ, cần, không thể, là, muốn, nên, phải, được, định
  • Out of the above, 1 lemmas occurred sometimes as AUX and sometimes as VERB: được
  • Out of the above, 9 lemmas occurred sometimes as AUX and sometimes as VERB: bị, chắc chắn, có vẻ, cần, muốn, nên, phải, được, định
  • This corpus does not use the VerbForm feature.
  • This corpus does not use the VerbForm feature.

Nominal Features

Nominal Features

  • Fem
    • PRON: cô ấy, cô
  • Masc
    • PRON: anh, cậu, hắn, ông, anh ta, Anh ấy, các anh, ông ấy
  • Neut
    • PRON: nó
  • Plur
    • DET: các
    • PART: tụi
    • PRON: chúng ta, họ, ta, chúng tôi, chúng, các bạn, các anh
  • Sing
    • PRON: tôi, nó, bạn, anh, cậu, hắn, ta, ông, anh ta, cô ấy
  • Voc
    • NOUN: vua
    • PROPN: Arthur

Degree and Polarity

Degree and Polarity

  • Neg
    • ADJ: không thể
    • ADV: không, chưa, chẳng, đừng, ko
    • AUX: không thể
    • INTJ: không
    • PART: hề, phi
  • Pos
    • PART: phải

Verbal Features

Verbal Features

  • Imp
    • ADV: hãy, đừng
  • Pot
    • AUX: có thể, không thể
  • Fut
    • ADV: sẽ, sắp
  • Past
    • ADV: đã, mới, rồi, vừa
  • Pres
    • ADV: đang
  • Pass
    • AUX: được, bị

Pronouns, Determiners, Quantifiers

Pronouns, Determiners, Quantifiers

  • Dem
    • DET: này, đó, kia, nay
    • PRON: đó, đây, kia
  • Ind
    • DET: một vài, vài
    • PRON: gì, nào, ai
  • Int
    • DET: ai
    • PRON: gì, đâu, ai
  • Prs
    • PRON: tôi, chúng ta, nó, bạn, ta, họ, chúng tôi, chúng, anh, cậu
  • Rcp
    • PRON: nhau
  • Rel
    • PRON: mà, ai, gì
  • Tot
    • DET: cả hai, tất cả, mỗi
  • Card
    • NUM: một, hai, sáu, 19, 2004, 50, mười, tám
  • Ord
    • ADJ: đầu tiên
  • Yes
    • PRON: mình, bản thân, tự
  • 1
    • PRON: tôi, chúng ta, ta, chúng tôi, em, tao
  • 2
    • PRON: bạn, cậu, anh, chúng, các bạn, ông, Mày, chúng ta, các anh, cô
  • 3
    • PRON: nó, họ, chúng, hắn, anh ta, cô ấy, Anh ấy, anh, ông, ông ấy
  • Elev
    • NOUN: vua
  • Form
    • PRON: cô ấy, Ngài, ông, ông ấy
  • Infm
    • PRON: nó, hắn, Mày, cậu, tao

Other Features

Other Features

  • AdvType
    • Cau
      • ADV: vì sao, vì thế
    • Deg
      • ADV: nhất, rất, khá, nhiều, quá, vô cùng
    • Loc
      • ADV: ngoài, trong
    • Man
      • ADV: sao
    • Mod
      • ADV: chỉ, hãy, được, đừng
    • Tim
      • ADV: đã, sẽ, đang, bao giờ, Hôm nay, bây giờ, nay, sắp, trước đây, mới
  • Deixis
    • Prox
      • DET: này
      • PRON: đây
    • Remt
      • DET: đó
      • PRON: đó, kia, đây
  • Foreign
    • Yes
      • INTJ: Yeah
      • PROPN: Cenote, Famillia, Federation, Fordham, Four-six, Future, Knights, Los, Michoacana, Ops
  • NameType
    • Com
      • PROPN: Google, Four-six, Ops, Sergeant, Special
    • Geo
      • PROPN: Bangalore, Florida, Thái Bình Dương, nước Mỹ, Cenote, Fordham, Mexico, Parkway, River, Road
    • Giv
      • PROPN: Abdul, Gerda, Gregor, Jude
    • Nat
      • PROPN: Châu Á, Na Uy, Trung, Ả Rập
    • Oth
      • PROPN: F, PhET, ông trời, Famillia, Federation, Future, Knights, Los, Michoacana, Sinaloa
    • Pro
      • PROPN: Ba, Giày, Lê, Stirling, Yêu, Đáng
    • Prs
      • PROPN: Benjamin, Con, Dolarhyde, Leed, Sanghamitra, Sơ, Tony, Trai, Arthur
    • Sur
      • PROPN: Nazari
  • Style
    • Arch
      • PRON: ta
    • Arch,Vulg
      • PRON: hắn
  • Typo
    • Yes
      • NOUN: sò, ván trược tuyết, xác xuất, ánh sánh
      • PART: thi
      • PROPN: Mexico
      • SCONJ: trù khi
      • VERB: bủa vây, dũa
  • VerbType
    • Aux
      • AUX: phải, được, có vẻ, nghĩa là
    • Cop
      • AUX: là
    • Mod
      • AUX: có thể, phải, được, bị, không thể
      • VERB: muốn, thích, cần, biết, được

Syntax

Auxiliary Verbs and Copula

  • This corpus uses 1 lemmas as copulas (cop). Examples: là.

Syntax

Auxiliary Verbs and Copula

  • This corpus uses 1 lemmas as copulas (cop). Examples: là.
  • This corpus uses 5 lemmas as auxiliaries (aux). Examples: phải, có thể, được, không thể, nghĩa là.
  • This corpus uses 2 lemmas as passive auxiliaries (aux:pass). Examples: được, bị.
  • This corpus uses 12 lemmas as auxiliaries (aux). Examples: phải, muốn, có thể, được, cần, bị, nên, không thể, chưa thể, chắc chắn, có vẻ, định.
  • This corpus uses 2 lemmas as passive auxiliaries (aux:pass). Examples: được, bị.

Core Arguments, Oblique Arguments and Adjuncts

Here we consider only relations between verbs (parent) and nouns or pronouns (child).
  • nsubj
    • VERB--NOUN (34)
    • VERB--NOUN-ADP(trong) (2)
    • VERB--PRON (97)

Core Arguments, Oblique Arguments and Adjuncts

Here we consider only relations between verbs (parent) and nouns or pronouns (child).
  • nsubj
    • VERB--NOUN (2180)
    • VERB--NOUN-ADP(nếu) (1)
    • VERB--NOUN-ADP(trong) (1)
    • VERB--NOUN-ADP(từ) (1)
    • VERB--NOUN-ADP(ở) (1)
    • VERB--PRON (531)
  • obj
    • VERB--NOUN (81)
    • VERB--NOUN-ADP(lên) (1)
    • VERB--NOUN-ADP(về) (1)
    • VERB--NOUN-ADP(ở) (1)
    • VERB--PRON (29)
  • obj
    • VERB--NOUN (3779)
    • VERB--NOUN-ADP(cùng) (1)
    • VERB--NOUN-ADP(của) (2)
    • VERB--NOUN-ADP(tận) (1)
    • VERB--NOUN-ADP(vào) (1)
    • VERB--NOUN-ADP(về) (1)
    • VERB--NOUN-ADP(với) (1)
    • VERB--NOUN-ADP(đến) (2)
    • VERB--NOUN-ADP(ở) (1)
    • VERB--PRON (160)
  • iobj
    • VERB--NOUN (1)
    • VERB--PRON (3)
    • VERB--PRON-ADP(cho) (1)
  • iobj
    • VERB--NOUN (21)
    • VERB--NOUN-ADP(cho) (1)
    • VERB--NOUN-ADP(với) (1)
    • VERB--PRON (3)
    • VERB--PRON-ADP(cho) (1)

Verbs with Reflexive Core Objects

  • This corpus contains 1 lemmas that occur at least once with a reflexive core object (obj or iobj). Examples: thứ tự

Relations Overview

Relations Overview