UD Tamil MWTT
Language: Tamil (code: ta
)
Family: Dravidian, Southern
This treebank has been part of Universal Dependencies since the UD v2.7 release.
The following people have contributed to making this treebank part of UD: Sarveswaran K, Parameswari Krishnamurthy, Keerthana Balasubramani.
Repository: UD_Tamil-MWTT
Search this treebank on-line: PML-TQ
Download all treebanks: UD 2.7
License: CC BY-SA 4.0
Genre: Book
Questions, comments? General annotation questions (either Tamil-specific or cross-linguistic) can be raised in the main UD issue tracker. You can report bugs in this treebank in the treebank-specific issue tracker on Github. If you want to collaborate, please contact [sarves (æt) cse • mrt • ac • lk]. Development of the treebank happens outside the UD repository. If there are bugs, either the original data source or the conversion procedure must be fixed. Do not submit pull requests against the UD repository.
Annotation | Source |
---|---|
Lemmas | annotated manually in non-UD style, automatically converted to UD |
UPOS | annotated manually in non-UD style, automatically converted to UD |
XPOS | annotated manually |
Features | annotated manually in non-UD style, automatically converted to UD |
Relations | annotated manually in non-UD style, automatically converted to UD |
Description
MWTT - Modern Written Tamil Treebank has sentences taken primarily from a text called “A Grammar of Modern Tamil by Thomas Lehmann (1993). This initial release has 536 sentences of various lengths, and all of these are added as the test set.
…
Acknowledgments
We would also like to thank our institutions, University of Hyderabad, India (Krishnamurthy, Parameswari; Balasubramani, Keerthana) and National Language Processing Centre, University of Moratuwa, Sri Lanka (Sarveswaran, K) for allowing us to work on the treebank
We thank Thomas Lehmann, Germany for permitting us to use the sentences from his text on A Modern Grammar of Tamil.
References
Lehmann, T. (1993). A grammar of modern Tamil. Pondicherry Institute of Linguistics and Culture.
Statistics of UD Tamil MWTT
POS Tags
ADJ – ADP – ADV – AUX – CCONJ – DET – NOUN – NUM – PART – PRON – PROPN – PUNCT – VERB
Features
AdpType – Animacy – Case – Gender – Mood – Number – NumType – Person – Polarity – Polite – PunctType – Tense – VerbForm – Voice
Relations
acl – acl:relcl – advcl – advcl:cond – advmod – advmod:emph – amod – aux – aux:neg – aux:pass – case – cc – compound – compound:nv – compound:redup – conj – dep – det – fixed – iobj – iobj:loc – mark – nmod – nmod:poss – nsubj – nsubj:nc – nsubj:pass – nummod – obj – obl – obl:abl – obl:agent – obl:arg – obl:ben – obl:cmpr – obl:inst – obl:loc – obl:pmod – obl:soc – obl:tmod – punct – root – vocative – xcomp
Tokenization and Word Segmentation
- This corpus contains 534 sentences, 2536 tokens and 2583 syntactic words.
- This corpus contains 1 tokens (0%) that are not followed by a space.
- This corpus does not contain words with spaces.
- This corpus does not contain words that contain both letters and punctuation.
- This corpus contains 42 multi-word tokens. On average, one multi-word token consists of 2.12 syntactic words.
- There are 40 types of multi-word tokens. Examples: வந்திருக்கிறான், அடிக்கப்பட்டான், அடித்துக்கொண்டான், அடுத்தாற்போல, இவ்விரண்டு, உட்கார்ந்திருக்கிறான், உட்கார்ந்துகொண்டிருக்கிறான், எழுதியிருந்தான், ஏறிக்கொண்டுவரும், கட்டுப்பாட்டுப்படி, கற்றுக்கொண்டான், கஷ்டப்படுகிறான், கொடுத்தாயிற்று, கொண்டிருக்கிறது, சந்தோஷப்படுகிறது, சம்பாதித்திருப்பான், செய்துகொண்டுவந்தார்கள், செய்துவந்தார்கள், செய்வானேன், சொல்லிக்கொண்டுவந்தார், சொல்வதுதானே, தங்கியிருக்கிறான், படித்திருக்கிறான், படித்துக்கொண்டிருந்தான், பணத்துக்குத்தான், பணமில்லாமல், பாடிக்கொண்டேவந்தேன், பேசிக்கொண்டிருப்பான், பேசிக்கொண்டேயிருப்பார்கள், போயிருக்கிறான், போய்விட்டான், மாறிவிட்டான், வந்தாயிற்று, வந்தால்தானே, வந்திருக்கிறார், வரமாட்டான், வரமாட்டாய், வரமாட்டேன், விடமாட்டேன், வேண்டிவரும்.
Morphology
Tags
- This corpus uses 13 UPOS tags out of 17 possible: ADJ, ADP, ADV, AUX, CCONJ, DET, NOUN, NUM, PART, PRON, PROPN, PUNCT, VERB
- This corpus does not use the following tags: SCONJ, INTJ, SYM, X
- This corpus contains 1 word types tagged as particles (PART): தான்
- This corpus contains 22 lemmas tagged as pronouns (PRON): அது, அவன், அவர், அவர்கள், அவள், இது, இவன், இவர், இவர்கள், இவள், எங்கள், எது, என்ன, எல்லாம், எல்லோரும், எவன், ஒவ்வொருவர், தான், நாங்கள், நான், நீ, நீங்கள்
- This corpus contains 2 lemmas tagged as determiners (DET): அந்த, இந்த
- This corpus contains 14 lemmas tagged as auxiliaries (AUX): ஆகு, இரு, உள், கூடு, கொடு, கொள், படு, போ, மாட்டு, முடி, வா, விடு, வேண்டு, வை
- Out of the above, 11 lemmas occurred sometimes as AUX and sometimes as VERB: ஆகு, இரு, உள், கொடு, கொள், படு, போ, முடி, வா, விடு, வேண்டு
- There are 4 (de)verbal forms:
- Conv
- ADV: நிமிர்ந்து, திரும்பி
- AUX: கொண்டு, வேண்டி, கொடுக்க, விட்டு
- VERB: வந்து, படித்து, போய், உட்கார்ந்து, கற்றுக், கிடைத்து, கொடுத்து, செய்து, திருப்பி, அனுப்பாமல்
- Fin
- AUX: ஆயிற்று
- NOUN: தகும்
- VERB: உண்டு, வரவில்லை, வந்தால், வரட்டும், ஏறலாம், கேட்கலாம், கொடுத்தால், சாப்பிடலாம், சொன்னால், தூங்கலாம்
- Inf
- VERB: வர, அடிக்கப், எடுக்க, கேட்க, சாப்பிட, செய்ய, பேச, முடிக்க, அடிக்க, அடிக்கப்பட்டான்
- Part
- VERB: சொன்ன, தகுந்த, போதாத, வந்த, வாங்கிய, வேண்டிய
Nominal Features
- Com
- ADV: தானே
- AUX: வேண்டும், இருக்கிறார்கள், முடியும், வந்தார்கள், வரும், இருக்கிறார், இருக்கும், இருப்பார்கள், கூடும், போகும்
- PRON: தன், தன்னை, நீ, என், எங்கள், என்னை, நீங்கள், அவர்கள், நாங்கள், அவர்
- VERB: கொடுத்தார், வந்தார்கள், வேண்டும், பிடிக்கும், வருவார்கள், எழுதினேன், பாடுகிறார்கள், போனேன், போவோம், வாங்கினேன்
- Fem
- ADJ: அழகியவள்
- PRON: அவள், இவள்
- VERB: இருக்கிறாள், பாடினாள், வெறுக்கிறாள்
- Masc
- AUX: இருக்கிறான், விட்டான், வைத்தான், இருந்தான், இருப்பான், கொண்டான், பட்டான், மாட்டான், உள்ளேன், படுகிறான்
- NOUN: வேலைக்காரன்
- PRON: அவன், அவனுக்கு, இவன், அவனிடம், அவனுடைய, அவளை, அவள், எவன், அவனாக, அவளுக்கு
- VERB: வந்தான், இருக்கிறான், சாப்பிட்டான், உட்கார்ந்தான், பேசினான், கேட்டான், போனான், வாங்கினான், இருந்தான், கொடுத்தான்
- VERB-Inf: அடிக்கப்பட்டான்
- Neut
- ADJ: நல்லது
- AUX: ஆயிற்று, முடிந்தது, இருக்கிறது, போகிறது, வேண்டியது
- AUX-Fin: ஆயிற்று
- PRON: அது, இது, இதை, இதைப், அவைகள், இதைத், இவைகள், எதுவும்
- VERB: இருக்கிறது, வரவில்லை, வந்தது, வந்தன, இருக்கின்றன, ஓடுகிறது, திறந்தது, தொங்குகிறது, நேர்ந்தது, அரித்தது
- VERB-Fin: வரவில்லை, கொடுக்கவில்லை, செய்யவில்லை, புரியவில்லை, பேசவில்லை, வாங்கவில்லை
- VERB-Inf: வந்ததும்
- Anim
- VERB: வாங்கள்
- Plur
- AUX: ஆயிற்று, இருக்கிறார்கள், வந்தார்கள், இருப்பார்கள்
- AUX-Fin: ஆயிற்று
- NOUN: பையன்கள், சட்டைகள், ஐய்யர்களாக, நாய்கள், பிள்ளைகள், புத்தகங்கள், மாணவர்கள், வீடுகள், கதைகளை, நினைவுகள்
- PRON: எல்லோரும், எங்கள், நீங்கள், அவர்கள், நாங்கள், உங்களுக்கு, உங்களை, அவைகள், இவர்கள், இவைகள்
- VERB: வந்தார்கள், வரவில்லை, வந்தன, இருக்கின்றன, வருவார்கள், பாடுகிறார்கள், போவோம், அடித்தீர்கள், இருக்கிறார்கள், கட்டுவார்கள்
- VERB-Fin: வரவில்லை, கொடுக்கவில்லை, செய்யவில்லை, புரியவில்லை, பேசவில்லை, வாங்கவில்லை
- Sing
- ADJ: அழகியவள், நல்லது
- ADV: நாளைக்கு, வக்கீலாக, வக்கீலாய், அழகாய், தானே, முன்னுக்கு, வேகமாய், அங்குக்கு, இன்றைக்கு, கோபமாக
- AUX: இருக்கிறான், வேண்டும், விட்டான், வைத்தான், இருந்தான், இருப்பான், கொண்டான், பட்டான், மாட்டான், மாட்டேன்
- DET: அந்த
- NOUN: நேற்று, வீடு, பரிசு, வீட்டுக்கு, குழந்தைக்கு, மந்திரி, பையன், பணம், புத்தகம், பெண்
- PRON: நான், அவன், தன், தன்னை, நீ, என், என்னை, அது, இது, அவனுக்கு
- PROPN: குமார், குமாருக்கு, குமாரை, குமாருக்குத், குமாருக்குப், அமெரிகாவுக்கு, குமாருக்குச், குமாரும், குமாரைத், குமாரோ
- VERB: வந்தான், இருக்கிறது, கொடுத்தார், இருக்கிறான், சாப்பிட்டான், உட்கார்ந்தான், பேசினான், வா, கேட்டான், போனான்
- VERB-Inf: அடிக்கப்பட்டான், வந்ததும்
- Abl
- NOUN: அப்பாவிடமிருந்து, கோயிலிலிருந்து, நெருப்பிலிருந்து, புலியிடமிருந்து, மந்திரியிலிருந்து, மரத்திலிருந்து, வெளிநாட்டிலிருந்து
- Acc
- NOUN: ராஜாவை, வீட்டை, கடிதத்தை, கதவைத், பன்றியை, பழத்தை, வேலையை, அப்பாவை, படத்தைப், மூட்டையை
- PRON: தன்னை, என்னை, இதை, அவளை, இதைப், உங்களை, இதைத், என்னையே
- PROPN: குமாரை, குமாரைத், கமலாவைக், குமாரைப், ராமனை
- Ben
- NOUN: அப்பாவுக்காகச், பையனுக்காகப், வேலைக்காக
- PRON: தனக்காக
- Com
- NOUN: அன்போடு, ஆத்திரத்தோடு, உதவியோடு, சட்டையோடு, தெருவோடு, நேரத்தோடு, பேனாவோடு, மனைவியோடு, மாதத்தோடு, வீட்டோடு
- PROPN: குமாரோடு
- Dat
- ADV: நாளைக்கு, முன்னுக்கு, அங்குக்கு, இன்றைக்கு, நாளைக்குப்
- NOUN: வீட்டுக்கு, குழந்தைக்கு, மணிக்கு, ஊருக்கு, அப்பாவுக்கு, மேசைக்கு, ராஜாவுக்கு, விருந்துக்கு, கோயிலுக்குப், நாளுக்கு
- PRON: அவனுக்கு, உங்களுக்கு, ஒவ்வொருவருக்கும், அவளுக்கு, எனக்குப்
- PROPN: குமாருக்கு, குமாருக்குத், குமாருக்குப், அமெரிகாவுக்கு, குமாருக்குச்
- VERB: விளக்கு
- Gen
- NOUN: அப்பாவின், குமாரது, மரத்தின், மேசையின்
- PRON: தன், என், எங்கள், அவனுடைய, உன், அவன், உங்கள்
- PROPN: குமாருடையது
- Ins
- NOUN: அப்பாவால், விறகால், அனுபவத்தால், கத்தியால், சாவியால், மண்ணால், மழையால்
- PROPN: குமாரால்
- Loc
- NOUN: நாற்காலியில், வீட்டில், கூட்டத்தில், அப்பாவிடம், காலத்தில், வயதில், அறையில், ஆபிசில், இராமேஷ்வரத்தில், ஊரில்
- PRON: அவனிடம், என்னிடம்
- PROPN: குமாரிடம்
- Nom
- ADV: வக்கீலாக, வக்கீலாய், கோபமாக, கோபமாய், வாத்தியாராக, வாத்தியாராய்
- NOUN: நேற்று, வீடு, பரிசு, மந்திரி, பையன், பணம், புத்தகம், பெண், ராஜா, கோயில்
- NUM: ஐந்து, மூன்று, இரண்டு, ஒன்று, ஆயிரம், பத்து, ஆறு, நான்கு, நூறு, முப்பது
- PRON: அவன், எல்லோரும், நீ, நீங்கள், அது, அவர்கள், அவள், இது, நாங்கள், அவர்
- PROPN: குமார், குமாரும், குமாரோ, குமாராவது, குமாரே, குமார்தான்
- VERB: டிக்கெட்டு, துணி
Degree and Polarity
- Neg
- AUX: கூடாது, ஆகாது, மாட்டான், மாட்டேன்
- VERB: வா, கிடையாது, வேண்டாம், கேட்காது, தெரியாது, பிடிக்காது, போடு, முடியாது, அதுக்கு, அனுப்பாமல்
- VERB-Conv: அனுப்பாமல், செய்யாமல், போதாமல்
- VERB-Fin: சரியில்லையாம்
- VERB-Part: போதாத
- Pos
- ADV-Conv: நிமிர்ந்து, திரும்பி
- AUX-Conv: கொண்டு, கொடுக்க, விட்டு
- AUX-Fin: ஆயிற்று
- NOUN-Fin: தகும்
- VERB: வந்து, உண்டு, வரவில்லை, படித்து, போய், உட்கார்ந்து, கிடைத்து, கொடுத்து, செய்து, ஆறிப்
- VERB-Conv: வந்து, படித்து, போய், உட்கார்ந்து, கிடைத்து, கொடுத்து, செய்து, ஆறிப், எழுதி, ஏறிக்கொண்டு
- VERB-Fin: உண்டு, வரவில்லை, கொடுக்கவில்லை, செய்யவில்லை, புரியவில்லை, பேசவில்லை, வாங்கவில்லை, வாழ்க
- VERB-Part: தகுந்த
Verbal Features
- Cnd
- VERB: தொட்டால்
- Imp
- VERB: வா, வேண்டாம், போடு, அதுக்கு, எண்ணு, கொடுங்கள், சாப்பிடு, போ, வாங்கள், வாங்கு
- Ind
- AUX-Fin: ஆயிற்று
- VERB: வரவில்லை, கொடுக்கவில்லை, செய்யவில்லை, புரியவில்லை, பேசமாட்டேன், பேசவில்லை, போதும், வரமாட்டான், வாங்கவில்லை
- VERB-Fin: வரவில்லை, கொடுக்கவில்லை, செய்யவில்லை, புரியவில்லை, பேசவில்லை, வாங்கவில்லை
- Opt
- VERB-Fin: வாழ்க
- Fut
- AUX: வேண்டும், இருப்பான், முடியும், வரும், இருக்கும், இருப்பார்கள், கூடும், போகும், விடுவான்
- VERB: வேண்டும், பிடிக்கும், வருவான், வருவார்கள், இருப்பான், செய்வான், போவோம், கட்டுவார்கள், கொடுப்பான், கோபப்படுவார்
- Past
- AUX: விட்டான், வைத்தான், இருந்தான், கொண்டான், பட்டான், முடிந்தது, வந்தார்கள், உள்ளேன், வந்தார், வந்தேன்
- VERB: வந்தான், கொடுத்தார், வந்தார்கள், சாப்பிட்டான், உட்கார்ந்தான், பேசினான், கேட்டான், போனான், வந்தது, வாங்கினான்
- VERB-Inf: வந்ததும்
- VERB-Part: சொன்ன, வந்த, வாங்கிய, வேண்டிய
- Pres
- AUX: இருக்கிறான், இருக்கிறார்கள், இருக்கிறது, இருக்கிறார், படுகிறான், போகிறது, போகிறான்
- VERB: இருக்கிறது, இருக்கிறான், செய்கிறான், வருகிறான், இருக்கின்றன, ஓடுகிறது, தூங்குகிறான், தேடுகிறான், தொங்குகிறது, பாடுகிறார்கள்
- Pass
- VERB-Inf: அடிக்கப்பட்டான்
Pronouns, Determiners, Quantifiers
- Card
- NUM: வேறொன்று, வேறொரு
- Ord
- ADJ: இரண்டாவது
- NUM: இரண்டாம், இரண்டாவது, இரண்டே
- 1
- AUX: மாட்டேன், வந்தேன்
- PRON: நான், என், எங்கள், என்னை, நாங்கள், எனக்குப், என்னால், என்னிடம், என்னையே, நானாக
- VERB: எழுதினேன், போனேன், போவோம், வாங்கினேன், இருக்கிறேன், கேட்டேன், சொன்னேனோ, சொல்லுவேன், தொலைத்தேன், பண்ணுவேன்
- 2
- AUX: மாட்டாய்
- PRON: நீ, நீங்கள், உங்களுக்கு, உங்களை, உன், உங்கள், நீங்களாவது
- VERB: வா, போடு, வேண்டாம், அடித்தீர்கள், அதுக்கு, எண்ணு, கொடுங்கள், சாப்பிடு, செத்தாய், பிழைத்தாய்
- 3
- ADJ: அழகியவள், நல்லது
- ADV: வக்கீலாக, வக்கீலாய், கோபமாக, கோபமாய், பைத்தியக்காரனாக, வாத்தியாராக, வாத்தியாராய்
- AUX: இருக்கிறான், வேண்டும், விட்டான், வைத்தான், ஆயிற்று, இருக்கிறார்கள், இருந்தான், இருப்பான், கொண்டான், பட்டான்
- AUX-Fin: ஆயிற்று
- DET: அந்த
- NOUN: நேற்று, வீடு, பரிசு, வீட்டுக்கு, குழந்தைக்கு, மந்திரி, பையன், பணம், புத்தகம், பெண்
- PRON: அவன், அது, அவர்கள், இது, அவனுக்கு, அவள், இதை, இவன், அவனிடம், அவனுடைய
- PROPN: குமார், குமாருக்கு, குமாரை, குமாருக்குத், குமாருக்குப், அமெரிகாவுக்கு, குமாருக்குச், குமாரும், குமாரைத், குமாரோ
- VERB: வந்தான், இருக்கிறது, கொடுத்தார், இருக்கிறான், சாப்பிட்டான், வந்தார்கள், உட்கார்ந்தான், பேசினான், கேட்டான், வரவில்லை
- VERB-Fin: வரவில்லை, கொடுக்கவில்லை, செய்யவில்லை, புரியவில்லை, பேசவில்லை, வாங்கவில்லை
- VERB-Inf: அடிக்கப்பட்டான், வந்ததும்
- Form
- AUX: இருக்கிறார், வந்தார்
- PRON: அவர், இவர்
- PUNCT: .
- VERB: கொடுத்தார், அடித்தீர்கள், கோபப்படுவார், பிறந்தார், வந்தார்கள், வந்தீர்கள்
Other Features
- AdpType
- Post
- ADP: மேலே, மேல், வரை, அப்புறம், கீழே, பற்றி, மாதிரி, முதல், வரைக்கும், வரையில்
- Post
- PunctType
- Peri
- PUNCT: .
- Peri
Syntax
Auxiliary Verbs and Copula
- This corpus does not contain copulas.
- This corpus uses 13 lemmas as auxiliaries (aux). Examples: இரு, வேண்டு, கொள், விடு, வா, வை, கூடு, முடி, ஆகு, போ, மாட்டு, படு, கொடு.
- This corpus uses 1 lemmas as passive auxiliaries (aux:pass). Examples: படு.
Core Arguments, Oblique Arguments and Adjuncts
Here we consider only relations between verbs (parent) and nouns or pronouns (child).
- nsubj
- VERB--NOUN-Nom (77)
- VERB--PRON (16)
- VERB--PRON-Nom (36)
- VERB-Conv--NOUN-Nom (9)
- VERB-Conv--PRON (2)
- VERB-Conv--PRON-Nom (3)
- VERB-Fin--NOUN-Nom (12)
- VERB-Fin--PRON (1)
- VERB-Fin--PRON-Nom (4)
- VERB-Inf--NOUN-Nom (6)
- VERB-Inf--PRON (4)
- VERB-Inf--PRON-Dat (1)
- VERB-Inf--PRON-Nom (6)
- VERB-Part--NOUN-Nom (1)
- VERB-Part--PRON (1)
- obj
- VERB--NOUN-Acc (41)
- VERB--NOUN-Acc-ADP(குறித்து) (1)
- VERB--NOUN-Acc-ADP(பற்றி) (1)
- VERB--NOUN-Nom (64)
- VERB--PRON (3)
- VERB--PRON-Acc (15)
- VERB-Conv--NOUN-Acc (6)
- VERB-Conv--NOUN-Nom (7)
- VERB-Conv--PRON-Acc (1)
- VERB-Fin--NOUN-Acc (1)
- VERB-Fin--NOUN-Nom (4)
- VERB-Fin--PRON (1)
- VERB-Fin--PRON-Acc (2)
- VERB-Inf--NOUN-Acc (5)
- VERB-Inf--NOUN-Loc (1)
- VERB-Inf--NOUN-Nom (3)
- VERB-Inf--PRON (1)
- VERB-Inf--PRON-Acc (3)
- VERB-Part--NOUN-Acc (1)
- iobj
- VERB--NOUN-Dat (16)
- VERB--NOUN-Loc (1)
- VERB--PRON-Dat (2)
- VERB--PRON-Loc (2)
- VERB-Fin--NOUN-Dat (1)
- VERB-Fin--PRON-Loc (1)
Relations Overview
- This corpus uses 21 relation subtypes: acl:relcl, advcl:cond, advmod:emph, aux:neg, aux:pass, compound:nv, compound:redup, iobj:loc, nmod:poss, nsubj:nc, nsubj:pass, obl:abl, obl:agent, obl:arg, obl:ben, obl:cmpr, obl:inst, obl:loc, obl:pmod, obl:soc, obl:tmod
- The following 14 relation types are not used in this corpus at all: csubj, ccomp, expl, dislocated, discourse, cop, appos, clf, flat, list, parataxis, orphan, goeswith, reparandum