UD Italian ParTUT
Language: Italian (code: it
)
Family: Indo-European, Romance
This treebank has been part of Universal Dependencies since the UD v2.0 release.
The following people have contributed to making this treebank part of UD: Cristina Bosco, Manuela Sanguinetti.
Repository: UD_Italian-ParTUT
Search this treebank on-line: PML-TQ
Download all treebanks: UD 2.14
License: CC BY-NC-SA 4.0
Genre: legal, news, wiki
Questions, comments? General annotation questions (either Italian-specific or cross-linguistic) can be raised in the main UD issue tracker. You can report bugs in this treebank in the treebank-specific issue tracker on Github. If you want to collaborate, please contact [msanguin (æt) di • unito • it]. Development of the treebank happens outside the UD repository. If there are bugs, either the original data source or the conversion procedure must be fixed. Do not submit pull requests against the UD repository.
Annotation | Source |
---|---|
Lemmas | annotated manually in non-UD style, automatically converted to UD, with some manual corrections of the conversion |
UPOS | annotated manually in non-UD style, automatically converted to UD, with some manual corrections of the conversion |
XPOS | annotated manually in non-UD style, automatically converted to UD, with some manual corrections of the conversion |
Features | annotated manually in non-UD style, automatically converted to UD, with some manual corrections of the conversion |
Relations | annotated manually in non-UD style, automatically converted to UD, with some manual corrections of the conversion |
Description
UD_Italian-ParTUT is a conversion of a multilingual parallel treebank developed at the University of Turin, and consisting of a variety of text genres, including talks, legal texts and Wikipedia articles, among others.
UD_Italian-ParTUT data is derived from the already-existing parallel treebank Par(allel)TUT.
ParTUT is a morpho-syntactically annotated collection of Italian/French/English parallel sentences, which includes texts from different sources and representing different genres and domains, released in several formats.
ParTUT comprises approximately 167,000 tokens, with an average amount of 2,100 sentences per language. The texts of the collection currently available were gathered from a large number of sources and domains:
- the Creative Commons open license;
- the DGT-Translation Memory
- the Europarl parallel corpus (section ep_00_01_17);
- publicly available pages from Facebook website;
- the JRC-Acquis multilingual parallel corpus (section jrc52006DC243);
- several articles from Project Syndicate© [ABSENT IN UD_French-ParTUT];
- the Universal Declaration of Human Rights;
- Wikipedia articles retrieved in the English section and then translated into Italian only by graduate students in Translation Studies [ABSENT IN UD_French-ParTUT];
- the Web Inventory of Translated Talks .
ParTUT data can be downloaded here and here.
NOTE: While the Italian section of ParTUT is already included in UD_Italian, UD_Italian-ParTUT comprises just those sentences having a 1:1 correspondence with their English and French counterparts.
Acknowledgments
We are deeply grateful to Project Syndicate© for letting us download and exploit their articles as text material, under the terms of educational use.
Statistics of UD Italian ParTUT
POS Tags
ADJ – ADP – ADV – AUX – CCONJ – DET – NOUN – NUM – PRON – PROPN – PUNCT – SCONJ – SYM – VERB – X
Features
Clitic – Definite – Degree – Foreign – Gender – Mood – Number – NumType – Person – Poss – PronType – Reflex – Tense – VerbForm
Relations
acl – acl:relcl – advcl – advmod – amod – appos – aux – aux:pass – case – cc – ccomp – compound – conj – cop – csubj – csubj:pass – dep – det – det:poss – det:predet – discourse – expl – expl:impers – expl:pass – fixed – flat – flat:foreign – flat:name – iobj – mark – nmod – nsubj – nsubj:pass – nummod – obj – obl – obl:agent – orphan – parataxis – punct – root – vocative – xcomp
Tokenization and Word Segmentation
- This corpus contains 2090 sentences, 51614 tokens and 55558 syntactic words.
- This corpus contains 6678 tokens (13%) that are not followed by a space.
- This corpus does not contain words with spaces.
- This corpus contains 42 types of words that contain both letters and punctuation. Examples: l', un', d', c', quest', e', e-mail, King's, n., Chamberlain's, anch', com', po', G., S., T., cinquant', e/o, A.C., D., H., Hopkin's, Iv-438, John's, Love's, M., Poet's, Queen's, W., W.h., ecc., mr., nn., pag., pagg., passa-parola, quell', self-service, stand-by, sud-orientale, trent', vent'
- This corpus contains 3943 multi-word tokens. On average, one multi-word token consists of 2.00 syntactic words.
- There are 191 types of multi-word tokens. Examples: del, della, dei, delle, nel, al, dell', alla, nella, all', degli, ai, dal, alle, dalla, nell', nei, sulla, nelle, sul, dall', negli, sull', dalle, sui, agli, dai, allo, dello, sulle, dagli, nello, sugli, dallo, congratularmi, esserci, farlo, rivolgersi, sullo, accontentarci, affermarsi, assicurati, citarne, coi, considerarsi, dirlo, dirmi, essersi, impegnarsi, iscriverti.
Morphology
Tags
- This corpus uses 15 UPOS tags out of 17 possible: ADJ, ADP, ADV, AUX, CCONJ, DET, NOUN, NUM, PRON, PROPN, PUNCT, SCONJ, SYM, VERB, X
- This corpus does not use the following tags: PART, INTJ
- This corpus contains 68 lemmas tagged as pronouns (PRON): alcuno, altro, che, chi, chiunque, ci, ciò, colei, coloro, come, cosa, cui, diverso, egli, entrambi, essi, esso, gli, il, io, la, le, lei, li, lo, loro, lui, me, meno, mi, mio, molto, ne, nessuno, niente, noi, nulla, ognuno, più, poco, primo, proprio, qualcosa, qualcuno, quale, quanto, quarto, quello, questo, quinto, se, secondo, si, stesso, suo, sé, taluno, te, terzo, ti, tu, tuo, tutto, ultimo, un, uno, vi, voi
- This corpus contains 54 lemmas tagged as determiners (DET): Every, Les, Ma, Une, alcun, alcuno, altro, altrui, ambedue, che, ciascuno, cui, dei, del, determinato, di, diverso, entrambi, gli, il, la, le, lo, loro, mio, molto, nessuno, nostro, numeroso, ogni, più, poco, proprio, qualche, qualcuno, quale, qualsiasi, qualsivoglia, qualunque, quanto, quello, questo, suo, svariato, tale, taluno, tanto, the, troppo, tuo, tutto, un, uno, vostro
- Out of the above, 29 lemmas occurred sometimes as PRON and sometimes as DET: alcuno, altro, che, cui, diverso, entrambi, gli, il, la, le, lo, loro, mio, molto, nessuno, più, poco, proprio, qualcuno, quale, quanto, quello, questo, suo, taluno, tuo, tutto, un, uno
- This corpus contains 8 lemmas tagged as auxiliaries (AUX): andare, avere, dovere, essere, potere, stare, venire, volere
- Out of the above, 7 lemmas occurred sometimes as AUX and sometimes as VERB: andare, avere, dovere, essere, stare, venire, volere
- There are 4 (de)verbal forms:
- Fin
- AUX: è, sono, ha, era, hanno, sia, può, fu, possono, potrebbe
- VERB: ha, è, hanno, scrisse, rappresenta, sono, riguarda, tratta, credo, fa
- Ger
- AUX: essendo, avendo
- VERB: facendo, cercando, creando, sostenendo, tenendo, aumentando, considerando, incoraggiando, passando, portando
- Inf
- AUX: essere, aver, dover, poter, esser, voler
- VERB: far, fare, garantire, migliorare, creare, fornire, aumentare, avere, dare, contribuire
- Part
- AUX: stato, stati, stata, state, potuto, dovuto, andato, andata, potuta, voluto
- VERB: considerato, fatto, dato, avuto, concernente, emergenti, visto, svolto, data, detto
Nominal Features
- Fem
- ADJ: economica, prima, relative, altre, pericolose, stessa, nuova, nuove, altra, direttrici
- AUX-Part: stata, state, andata, potuta
- DET: la, le, una, sua, un', questa, sue, queste, alcuna, tutte
- NOUN: società, commissione, parte, opera, opere, vita, attività, sicurezza, crescita, licenza
- PRON: la, quella, le, questa, lei, una, essa, esse, molte, quelle
- PROPN: hye
- VERB-Part: data, presentata, concessa, pubblicate, applicate, considerata, messe, adottate, armonizzate, modificata
- Masc
- ADJ: altri, europeo, primo, nuovo, stesso, finanziario, altro, nuovi, necessario, relativi
- ADP: du
- AUX-Part: stato, stati, potuto, dovuto, andato, voluto
- DET: il, i, un, gli, suo, lo, questo, tutti, alcuni, suoi
- NOUN: anni, lavoro, programma, euro, parlamento, membri, modo, paesi, diritto, stati
- PRON: lo, ciò, quanto, quello, altri, uno, questo, tutti, tutto, alcuni
- VERB-Part: considerato, fatto, dato, avuto, visto, svolto, detto, portato, previsto, scritto
- Plur
- ADJ: strutturali, altri, principali, teatrali, importanti, nazionali, ambientali, sociali, applicabili, fondamentali
- AUX-Fin: sono, hanno, possono, dovrebbero, erano, siano, furono, siamo, devono, potrebbero
- AUX-Part: stati, state
- DET: i, le, gli, sue, tali, tutti, alcuni, suoi, questi, queste
- NOUN: anni, opere, membri, paesi, stati, diritti, prodotti, persone, termini, condizioni
- PRON: ci, altri, noi, tutti, alcuni, li, vi, coloro, essi, molti
- PROPN: hye
- VERB-Fin: hanno, sono, consumano, fanno, sappiamo, trovano, accumulano, aspettiamo, facevano, includono
- VERB-Part: emergenti, nominati, pubblicate, applicate, messe, pubblicati, adottate, armonizzate, chiamati, compresi
- Sing
- ADJ: presente, sociale, importante, possibile, grande, europeo, intellettuale, primo, internazionale, forte
- ADP: du
- AUX-Fin: è, ha, era, sia, può, fu, potrebbe, deve, dovrebbe, puoi
- AUX-Part: stato, stata, potuto, dovuto, andato, andata, potuta, voluto
- DET: il, la, l', un, una, sua, suo, lo, un', questo
- NOUN: presidente, commissione, parte, opera, onorevole, lavoro, programma, vita, parlamento, modo
- PRON: lo, ciò, mi, quanto, quello, uno, questo, tutto, la, quella
- VERB-Fin: ha, è, scrisse, rappresenta, riguarda, tratta, credo, fa, iniziò, morì
- VERB-Part: considerato, fatto, dato, avuto, concernente, visto, svolto, data, detto, portato
- Def
- DET: il, la, l', i, le, gli, lo, the, Les
- Ind
- DET: un, una, un', uno, dei, Une, delle, l'
Degree and Polarity
- Abs
- ADJ: elevatissimo, importantissimo, pericolosissima
- ADV: moltissimo
- DET: numerosissimi
- Cmp
- ADJ: maggiore, maggior, migliori, migliore, maggiori, inferiore, superiore, miglior, minore, inferiori
Verbal Features
- Cnd
- AUX-Fin: potrebbe, dovrebbero, dovrebbe, sarebbe, vorrei, avrebbe, potrebbero, avrebbero, sarebbero, dovremmo
- VERB-Fin: comporterebbe, consentirebbe, gradirei, Vorrei, aiuterebbe, attenuerebbe, aumenterebbe, aumenterebbero, avrebbero, avvallerebbe
- Imp
- VERB-Fin: clicca, Condividi, Scegli, assicura, Connetti, Fat, Immaginate, Permettete, Promuovi, Scopri
- Ind
- AUX-Fin: è, sono, ha, era, hanno, può, fu, possono, deve, erano
- VERB-Fin: ha, è, hanno, scrisse, rappresenta, sono, riguarda, tratta, credo, fa
- Sub
- AUX-Fin: sia, siano, abbia, venga, possa, fosse, debba, possano, vengano, fossero
- VERB-Fin: abbia, abbiano, faccia, sia, continuino, dia, permetta, raggiungesse, rappresentino, restringa
- Fut
- AUX-Fin: sarà, potrà, saranno, dovrà, potranno, verrà, dovremo, avrai, avremo, avrà
- VERB-Fin: continuerà, avrà, avranno, avrò, richiederà, visualizzeranno, aderiranno, approveremo, avrete, baseranno
- Imp
- AUX-Fin: era, erano, aveva, fosse, fossero, avesse, avevano, venivano, avevamo, poteva
- VERB-Fin: facevano, aveva, erano, avevano, cercava, chiamava, consideravano, esprimeva, garantiva, includevano
- Past
- AUX-Fin: fu, furono, venne, vennero, potè
- AUX-Part: stato, stati, stata, state, potuto, dovuto, andato, andata, potuta, voluto
- VERB-Fin: scrisse, iniziò, morì, portò, divenne, ebbe, diede, fece, lasciò, pubblicò
- VERB-Part: considerato, fatto, dato, avuto, visto, svolto, data, detto, portato, presentata
- Pres
- AUX-Fin: è, sono, ha, hanno, sia, può, possono, potrebbe, deve, dovrebbero
- VERB-Fin: ha, è, hanno, rappresenta, sono, riguarda, tratta, credo, fa, consumano
- VERB-Part: concernente, emergenti, derivanti, integrante, esistenti, vigenti, affascinante, proveniente, derivante, fluttuanti
Pronouns, Determiners, Quantifiers
- Art
- DET: il, la, l', i, le, un, gli, una, lo, un'
- Dem
- DET: questo, tale, questa, tali, questi, queste, quest', tal, quel, quei
- PRON: ciò, quello, questo, quella, questa, coloro, quelle, quelli, questi, stesso
- Ind
- DET: ogni, alcuni, più, qualsiasi, molti, alcuna, nessun, alcun, diversi, alcune
- PRON: altri, uno, tutto, tutti, alcuni, altro, molti, una, molte, nulla
- Int
- DET: quali, che, quante, quanti, quale
- PRON: cosa, qual, Quanti, quale, quanto
- Neg
- ADV: non, neanche, neppure, no
- Prs
- DET: sua, suo, loro, sue, suoi, mio, nostro, nostra, proprio, propria
- PRON: si, lo, ci, ne, mi, vi, c', noi, la, li
- Rel
- DET: cui
- PRON: che, cui, quanto, quale, quali, chi, chiunque, come
- Tot
- DET: tutti, tutte, tutto, tutta, entrambi, entrambe, ambedue
- Card
- NUM: due, tre, 1, 6, quattro, 2000, 1999, cinque, 3, 18
- Ord
- ADJ: primo, prima, ultimi, prime, seconda, ultime, primi, secondo, terzo, ultima
- PRON: quarto, ultima, terzo, ultimo, prima, primo, primi, quarti, quinti, secondo
- Yes
- DET: sua, suo, loro, sue, suoi, mio, nostro, nostra, proprio, propria
- PRON: mio, proprio, sue, suo, tuo
- Yes
- PRON: si
- 1
- AUX-Fin: siamo, vorrei, ho, abbiamo, stiamo, possiamo, dobbiamo, posso, devo, sono
- PRON: ci, mi, noi, io, me, ce
- VERB-Fin: credo, desidero, sappiamo, ringrazio, spero, aspettiamo, chiedo, vediamo, abbiamo, penso
- 2
- AUX-Fin: puoi, devi, hai, siete, Avete, abbiate, avrai, potrai, sarai, sei
- PRON: vi, ti, te, tu, voi
- VERB-Fin: ricevi, clicca, hai, Raggiungi, condividi, crei, distribuisci, esegui, rappresenti, reciti
- 3
- AUX-Fin: è, sono, ha, era, hanno, sia, può, fu, possono, potrebbe
- PRON: si, lo, la, li, gli, le, lui, egli, lei, essi
- VERB-Fin: ha, è, hanno, scrisse, rappresenta, sono, riguarda, tratta, fa, iniziò
Other Features
- Clitic
- Yes
- PRON: si, lo, ci, ne, mi, vi, c', la, li, gli
- Yes
- Foreign
- Yes
- X: la, King's, Men, Humaine, Le, Comédie, Illusions, perdues, Chagrin, Peau
- Yes
Syntax
Auxiliary Verbs and Copula
- This corpus uses 1 lemmas as copulas (cop). Examples: essere.
- This corpus uses 7 lemmas as auxiliaries (aux). Examples: avere, potere, essere, dovere, stare, volere, andare.
- This corpus uses 4 lemmas as passive auxiliaries (aux:pass). Examples: essere, venire, andare, stare.
Core Arguments, Oblique Arguments and Adjuncts
Here we consider only relations between verbs (parent) and nouns or pronouns (child).
- nsubj
- VERB-Fin--NOUN (642)
- VERB-Fin--PRON (328)
- VERB-Ger--NOUN (9)
- VERB-Ger--PRON (2)
- VERB-Inf--NOUN (110)
- VERB-Inf--PRON (23)
- VERB-Part--NOUN (173)
- VERB-Part--PRON (75)
- obj
- VERB-Fin--NOUN (706)
- VERB-Fin--NOUN-ADP(di) (1)
- VERB-Fin--PRON (135)
- VERB-Ger--NOUN (86)
- VERB-Ger--PRON (12)
- VERB-Inf--NOUN (664)
- VERB-Inf--PRON (89)
- VERB-Part--NOUN (198)
- VERB-Part--PRON (38)
- iobj
- VERB-Fin--PRON (45)
- VERB-Ger--PRON (1)
- VERB-Inf--PRON (18)
- VERB-Part--PRON (15)
Reflexive Passive
- This corpus contains 2 lemmas that occur at least once with an expl:pass child. Examples: ampliare si, attestare si
Verbs with Reflexive Core Objects
- This corpus contains 13 lemmas that occur at least once with a reflexive core object (obj or iobj). Examples: basare si, affidare si, connettere si, dichiarare si, dividere si, esibire si, fondare si, impegnare si, incontrare si, moltiplicare si, offrire si, riprodurre si, ritrovare si
Relations Overview
- This corpus uses 11 relation subtypes: acl:relcl, aux:pass, csubj:pass, det:poss, det:predet, expl:impers, expl:pass, flat:foreign, flat:name, nsubj:pass, obl:agent
- The following 5 relation types are not used in this corpus at all: dislocated, clf, list, goeswith, reparandum