UD Vietnamese TueCL
Language: Vietnamese (code: vi
)
Family: Austro-Asiatic
This treebank has been part of Universal Dependencies since the UD v2.14 release.
The following people have contributed to making this treebank part of UD: Hoa Do, Çağrı Çöltekin.
Repository: UD_Vietnamese-TueCL
Search this treebank on-line: PML-TQ
Download all treebanks: UD 2.15
License: CC BY-SA 4.0
Genre: spoken
Questions, comments? General annotation questions (either Vietnamese-specific or cross-linguistic) can be raised in the main UD issue tracker. You can report bugs in this treebank in the treebank-specific issue tracker on Github. If you want to collaborate, please contact [hoa • do (æt) student • uni-tuebingen • de,cagri • coeltekin (æt) uni-tuebingen • de]. Development of the treebank happens directly in the UD repository, so you may submit bug fixes as pull requests against the dev branch.
Annotation | Source |
---|---|
Lemmas | annotated manually |
UPOS | annotated manually, natively in UD style |
XPOS | not available |
Features | annotated manually, natively in UD style |
Relations | annotated manually, natively in UD style |
Description
This treebank includes a set of sentences from OPUS, sourced from subtitles, talks, and educational videos.
…
Acknowledgments
…
References
- (citation)
Statistics of UD Vietnamese TueCL
POS Tags
ADJ – ADP – ADV – AUX – CCONJ – DET – INTJ – NOUN – NUM – PART – PRON – PROPN – PUNCT – SCONJ – VERB
Features
Abbr – AdvType – Case – Deixis – Foreign – Gender – Mood – NameType – NounType – Number – NumType – Person – Polarity – Polite – PronType – Reflex – Style – Tense – Typo – VerbType – Voice
Relations
acl – acl:relcl – advcl – advmod – amod – appos – aux – aux:pass – case – cc – ccomp – clf – compound – compound:prt – conj – cop – csubj – det – discourse – fixed – flat – iobj – mark – nmod – nmod:poss – nmod:tmod – nsubj – nsubj:outer – nsubj:pass – nummod – obj – obl – obl:tmod – parataxis – punct – reparandum – root – vocative – xcomp
Tokenization and Word Segmentation
- This corpus contains 100 sentences and 1888 tokens.
- This corpus contains 207 tokens (11%) that are not followed by a space.
- This corpus contains 285 types of words with spaces. Examples: chúng ta, có thể, chúng tôi, bất cứ, không thể, tham số, thay đổi, anh ta, bắt đầu, khác nhau, một vài, thành viên, thực sự, Dù sao, bao giờ, bác sĩ, bệnh nhân, cho đến, cung cấp, các bạn, cô ấy, cả hai, gia đình, hoàn toàn, hành trình, kết quả, lĩnh vực, mục tiêu, ngay cả, người ta, quan hệ, quyết định, quân đội, thành phố, thí nghiệm, thế giới, thực ra, tiếng nói, trở nên, tác động, tương lai, tương tác, tất cả, tổ chức, từ bi, tự do, xem xét, xây dựng, xảy ra, yêu cầu
- This corpus contains 1 types of words that contain both letters and punctuation. Examples: Four-six
Morphology
Tags
- This corpus uses 15 UPOS tags out of 17 possible: ADJ, ADP, ADV, AUX, CCONJ, DET, INTJ, NOUN, NUM, PART, PRON, PROPN, PUNCT, SCONJ, VERB
- This corpus does not use the following tags: SYM, X
- This corpus contains 15 word types tagged as particles (PART): Bộ, Mà, chứ, hề, nhé, phi, phải, ra, thi, thì, tụi, vậy, à, đâu, đấy
- This corpus contains 36 lemmas tagged as pronouns (PRON): ai, anh, anh ta, anh ấy, bạn, bản thân, cha, chúng, chúng ta, chúng tôi, các anh, các bạn, cô, cô ấy, cậu, em, gì, hắn, họ, kia, mà, mày, mình, ngài, nhau, nào, nó, ta, tao, tôi, tự, ông, ông ấy, đâu, đây, đó
- This corpus contains 17 lemmas tagged as determiners (DET): ai, bất cứ, các, cả, cả hai, kia, mấy, mọi, mỗi, một vài, nay, những, này, tất cả, từng, vài, đó
- Out of the above, 3 lemmas occurred sometimes as PRON and sometimes as DET: ai, kia, đó
- This corpus contains 8 lemmas tagged as auxiliaries (AUX): bị, có thể, có vẻ, không thể, là, nghĩa là, phải, được
- Out of the above, 1 lemmas occurred sometimes as AUX and sometimes as VERB: được
- This corpus does not use the VerbForm feature.
Nominal Features
- Fem
- PRON: cô ấy, cô
- Masc
- PRON: anh, cậu, hắn, ông, anh ta, Anh ấy, các anh, ông ấy
- Neut
- PRON: nó
- Plur
- DET: các
- PART: tụi
- PRON: chúng ta, họ, ta, chúng tôi, chúng, các bạn, các anh
- Sing
- PRON: tôi, nó, bạn, anh, cậu, hắn, ta, ông, anh ta, cô ấy
- Voc
- NOUN: vua
- PROPN: Arthur
Degree and Polarity
- Neg
- ADJ: không thể
- ADV: không, chưa, chẳng, đừng, ko
- AUX: không thể
- INTJ: không
- PART: hề, phi
- Pos
- PART: phải
Verbal Features
- Imp
- ADV: hãy, đừng
- Pot
- AUX: có thể, không thể
- Fut
- ADV: sẽ, sắp
- Past
- ADV: đã, mới, rồi, vừa
- Pres
- ADV: đang
- Pass
- AUX: được, bị
Pronouns, Determiners, Quantifiers
- Dem
- DET: này, đó, kia, nay
- PRON: đó, đây, kia
- Ind
- DET: một vài, vài
- PRON: gì, nào, ai
- Int
- DET: ai
- PRON: gì, đâu, ai
- Prs
- PRON: tôi, chúng ta, nó, bạn, ta, họ, chúng tôi, chúng, anh, cậu
- Rcp
- PRON: nhau
- Rel
- PRON: mà, ai, gì
- Tot
- DET: cả hai, tất cả, mỗi
- Card
- NUM: một, hai, sáu, 19, 2004, 50, mười, tám
- Ord
- ADJ: đầu tiên
- Yes
- PRON: mình, bản thân, tự
- 1
- PRON: tôi, chúng ta, ta, chúng tôi, em, tao
- 2
- PRON: bạn, cậu, anh, chúng, các bạn, ông, Mày, chúng ta, các anh, cô
- 3
- PRON: nó, họ, chúng, hắn, anh ta, cô ấy, Anh ấy, anh, ông, ông ấy
- Elev
- NOUN: vua
- Form
- PRON: cô ấy, Ngài, ông, ông ấy
- Infm
- PRON: nó, hắn, Mày, cậu, tao
Other Features
- Abbr
- Yes
- ADV: ko
- Yes
- AdvType
- Cau
- ADV: vì sao, vì thế
- Deg
- ADV: nhất, rất, khá, nhiều, quá, vô cùng
- Loc
- ADV: ngoài, trong
- Man
- ADV: sao
- Mod
- ADV: chỉ, hãy, được, đừng
- Tim
- ADV: đã, sẽ, đang, bao giờ, Hôm nay, bây giờ, nay, sắp, trước đây, mới
- Cau
- Deixis
- Prox
- DET: này
- PRON: đây
- Remt
- DET: đó
- PRON: đó, kia, đây
- Prox
- Foreign
- Yes
- INTJ: Yeah
- PROPN: Cenote, Famillia, Federation, Fordham, Four-six, Future, Knights, Los, Michoacana, Ops
- Yes
- NameType
- Com
- PROPN: Google, Four-six, Ops, Sergeant, Special
- Geo
- PROPN: Bangalore, Florida, Thái Bình Dương, nước Mỹ, Cenote, Fordham, Mexico, Parkway, River, Road
- Giv
- PROPN: Abdul, Gerda, Gregor, Jude
- Nat
- PROPN: Châu Á, Na Uy, Trung, Ả Rập
- Oth
- PROPN: F, PhET, ông trời, Famillia, Federation, Future, Knights, Los, Michoacana, Sinaloa
- Pro
- PROPN: Ba, Giày, Lê, Stirling, Yêu, Đáng
- Prs
- PROPN: Benjamin, Con, Dolarhyde, Leed, Sanghamitra, Sơ, Tony, Trai, Arthur
- Sur
- PROPN: Nazari
- Com
- NounType
- Clf
- NOUN: cái
- Clf
- Style
- Arch
- PRON: ta
- Arch,Vulg
- PRON: hắn
- Arch
- Typo
- Yes
- NOUN: sò, ván trược tuyết, xác xuất, ánh sánh
- PART: thi
- PROPN: Mexico
- SCONJ: trù khi
- VERB: bủa vây, dũa
- Yes
- VerbType
- Aux
- AUX: phải, được, có vẻ, nghĩa là
- Cop
- AUX: là
- Mod
- AUX: có thể, phải, được, bị, không thể
- VERB: muốn, thích, cần, biết, được
- Aux
Syntax
Auxiliary Verbs and Copula
- This corpus uses 1 lemmas as copulas (cop). Examples: là.
- This corpus uses 5 lemmas as auxiliaries (aux). Examples: phải, có thể, được, không thể, nghĩa là.
- This corpus uses 2 lemmas as passive auxiliaries (aux:pass). Examples: được, bị.
Core Arguments, Oblique Arguments and Adjuncts
Here we consider only relations between verbs (parent) and nouns or pronouns (child).
- nsubj
- VERB--NOUN (34)
- VERB--NOUN-ADP(trong) (2)
- VERB--PRON (97)
- obj
- VERB--NOUN (81)
- VERB--NOUN-ADP(lên) (1)
- VERB--NOUN-ADP(về) (1)
- VERB--NOUN-ADP(ở) (1)
- VERB--PRON (29)
- iobj
- VERB--NOUN (1)
- VERB--PRON (3)
- VERB--PRON-ADP(cho) (1)
Verbs with Reflexive Core Objects
- This corpus contains 1 lemmas that occur at least once with a reflexive core object (obj or iobj). Examples: thứ tự
Relations Overview
- This corpus uses 8 relation subtypes: acl:relcl, aux:pass, compound:prt, nmod:poss, nmod:tmod, nsubj:outer, nsubj:pass, obl:tmod
- The following 6 relation types are not used in this corpus at all: expl, dislocated, list, orphan, goeswith, dep