UD Portuguese PetroGold
Language: Portuguese (code: pt
)
Family: IE
This treebank has been part of Universal Dependencies since the UD v2.11 release.
The following people have contributed to making this treebank part of UD: Elvis de Souza, Cláudia Freitas, Aline Silveira, Tatiana Cavalcanti, Maria Clara Castro, Wograine Evelyn.
Repository: UD_Portuguese-PetroGold
Search this treebank on-line: PML-TQ
Download all treebanks: UD 2.15
License: CC BY-SA 4.0
Genre: academic
Questions, comments?
General annotation questions (either Portuguese-specific or cross-linguistic) can be raised in the main UD issue tracker.
You can report bugs in this treebank in the treebank-specific issue tracker on Github.
If you want to collaborate, please contact [elvis • desouza99 (æt) gmail • com].
Development of the treebank happens in the UD repository but not directly in the final CoNLL-U files.
You may submit bug fixes as pull requests against the dev branch but you have to go to the folder called not-to-release
and locate the source files there.
Contact the treebank maintainers if in doubt.
Annotation | Source |
---|---|
Lemmas | annotated manually |
UPOS | annotated manually, natively in UD style |
XPOS | not available |
Features | annotated manually, natively in UD style |
Relations | annotated manually, natively in UD style |
Description
UD_Portuguese-PetroGold is a fully revised treebank which consists of academic texts from the oil & gas domain in Brazilian Portuguese.
UD_Portuguese-PetroGold is a fully revised treebank which consists of academic texts from the oil & gas domain in Brazilian Portuguese processed in full: only elements such as summary, abstract, appendices and bibliographic references were excluded, as well as figures, graphs, formulas and tables. The annotation was manually revised from automatic annotation by a team of linguists from PUC-Rio (Brazil).
The corpus was created as part of the Petrolês Project (http://petroles.puc-rio.ai), a partnership between Petrobras Research and Development Center (CENPES) and Applied Computational Intelligence Lab (PUC-Rio/ICA). Petrolês aims to promote research initiatives related to Natural Language Processing and Computational Linguistics for the Portuguese Language.
Acknowledgments
We want to thank everyone from ICA/PUC-Rio who assisted in the process of gathering the text from originally PDF files. We also want to thank Petrobras researchers and geoscientists for making the Petrolês corpus publicly available, for their technical assistance and funding.
How to contribute
Changes should be made via pull request directly to not-to-release/petrogold.conllu
in the dev
branch.
How to cite
@inproceedings{souza2022polishing,
title={Polishing the gold--how much revision do we need in treebanks?},
author={de{ }Souza, Elvis and Freitas, Cl{\'a}udia},
booktitle={Procedings of the Universal Dependencies Brazilian Festival},
pages={1--11},
year={2022}
}
References
-
de Souza, E., & Freitas, C. (2022, March). Polishing the gold–how much revision do we need in treebanks?. In Procedings of the Universal Dependencies Brazilian Festival (pp. 1-11). Link
-
de Souza, E., & Freitas, C. (2022, March). Still on arguments and adjuncts: the status of the indirect object and the adverbial adjunct relations in Universal Dependencies for Portuguese. In Procedings of the Universal Dependencies Brazilian Festival (pp. 1-10). Link
-
de Souza, E., Silveira, A., Cavalcanti, T., Castro, M. C., & Freitas, C. (2021, November). PetroGold–Corpus padrão ouro para o domínio do petróleo. In Anais do XIII Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana (pp. 29-38). SBC. Link
Statistics of UD Portuguese PetroGold
POS Tags
ADJ – ADP – ADV – AUX – CCONJ – DET – INTJ – NOUN – NUM – PRON – PROPN – PUNCT – SCONJ – SYM – VERB – X
Features
Case – Definite – Foreign – Gender – Mood – Number – NumType – Person – Polarity – PronType – Tense – Typo – VerbForm – Voice
Relations
acl – acl:relcl – advcl – advmod – amod – appos – aux – aux:pass – case – cc – ccomp – conj – cop – csubj – det – discourse – expl – expl:impers – expl:pass – expl:pv – fixed – flat – flat:foreign – flat:name – goeswith – iobj – mark – nmod – nsubj – nsubj:pass – nummod – obj – obl – obl:agent – obl:arg – orphan – parataxis – punct – root – xcomp
Tokenization and Word Segmentation
- This corpus contains 8946 sentences, 232333 tokens and 250605 syntactic words.
- This corpus contains 28416 tokens (12%) that are not followed by a space.
- This corpus does not contain words with spaces.
- This corpus contains 985 types of words that contain both letters and punctuation. Examples: al., NE-SW, pré-sal, NW-SE, p/p, e/ou, sub-bacia, cm-1, Fm., Fonte:, CBV-720, alto-forno, pós-rifte, E-W, d’água, mg/L, seção-colunar, III.1, O/A, III.3, A/O, III.2, N-S, matéria-prima, min-1, CBV-740, I’, KCBV-740, P-35, cana-de-açúcar, core-flow, etc., físico-químicas, não-iônicos, sub-domínio, óleo/água, ENE-WSW, P-37, extra-rede, matérias-primas, seções-colunares, três-vias, Jr., PNA-1, VAZ,, físico-química, lb/bbl, n-parafina, transgressivo-regressivo, vs.
- This corpus contains 18272 multi-word tokens. On average, one multi-word token consists of 2.00 syntactic words.
- There are 432 types of multi-word tokens. Examples: do, da, na, no, dos, das, ao, à, pela, nos, pelo, nas, neste, deste, desta, aos, às, nesta, pode-se, destes, pelos, pelas, observa-se, destas, percebe-se, nesse, dessa, utilizando-se, desse, tem-se, desses, disso, encontra-se, observou-se, deve-se, dessas, analisou-se, têm-se, utilizou-se, nestes, encontram-se, numa, usando-se, nestas, num, nessa, delas, realizou-se, verifica-se, adicionou-se.
Morphology
Tags
- This corpus uses 16 UPOS tags out of 17 possible: ADJ, ADP, ADV, AUX, CCONJ, DET, INTJ, NOUN, NUM, PRON, PROPN, PUNCT, SCONJ, SYM, VERB, X
- This corpus does not use the following tags: PART
- This corpus contains 33 lemmas tagged as pronouns (PRON): algum, ambos, aquele, demais, ela, elas, ele, eles, esse, este, eu, isso, isto, mesmo, muito, nenhum, nos, nós, o, o/o, onde, outro, pouco, qual, quanto, que, se, si, tal, todo, um, várias, ηapp
- This corpus contains 38 lemmas tagged as determiners (DET): Do, algum, ambos, aquele, bastante, cada, certo, cujo, dado, demais, determinado, diverso, esse, essse, este, mais, muito, nenhum, nosso, o, outro, pouco, próprio, qual, qualquer, quanto, que, seu, sua, tais, tal, tanto, todo, um, vário, vários, µ,
- Out of the above, 17 lemmas occurred sometimes as PRON and sometimes as DET: algum, ambos, aquele, demais, esse, este, muito, nenhum, o, outro, pouco, qual, quanto, que, tal, todo, um
- This corpus contains 5 lemmas tagged as auxiliaries (AUX): estar, haver, ir, ser, ter
- Out of the above, 5 lemmas occurred sometimes as AUX and sometimes as VERB: estar, haver, ir, ser, ter
- There are 4 (de)verbal forms:
- Fin
- AUX: é, são, foi, foram, estão, está, será, serão, era, seja
- VERB: pode, podem, apresenta, tem, apresentam, deve, mostra, ocorre, possui, seja
- Ger
- AUX: sendo, tendo, estando
- VERB: utilizando, podendo, formando, contendo, visando, apresentando, usando, permitindo, variando, reduzindo
- Inf
- AUX: ser, estar, serem, ter, terem, estarem
- VERB: partir, observar, seguir, aumentar, obter, apresentar, ter, produzir, determinar, verificar
- Part
- AUX: sido, estado
- VERB: devido, utilizado, utilizados, obtidos, apresentados, utilizada, observado, produzida, obtido, realizados
Nominal Features
- Fem
- ADJ: maior, grande, magnética, alta, baixa, menor, mesma, magnéticas, aquosa, continental
- ADV: onde, SIM, melhor
- DET: a, as, uma, esta, sua, estas, essa, suas, cada, essas
- NOUN: água, figura, produção, área, argila, perfuração, forma, pressão, formação, tabela
- NUM: II.7, II.7.2, II.8.1, nove
- PRON: que, a, uma, esta, elas, ela, qual, as, estas, mesma
- PROPN: Bacia, Formação, NE-SW, MEG, ilha, Petrobras, ANP, NW-SE, Fm, Goma
- VERB-Ger: formando
- VERB-Part: utilizada, produzida, utilizadas, realizada, feita, obtidas, obtida, observada, associadas, observadas
- Masc
- ADJ: magnético, maior, possível, necessário, magnéticos, natural, presente, diferentes, mesmo, total
- ADV: onde
- AUX-Part: sido
- DET: o, os, um, este, estes, esse, seu, esses, todos, cada
- NOUN: óleo, fluido, petróleo, gás, fluidos, processo, dados, campo, sistema, tempo
- NUM: III.2, 36º, 43º, 44,6º, 80º, 8º, II.1, II.2.3, II.3, II.4.1
- PRON: que, o, isso, isto, este, um, qual, eles, mesmo, estes
- PROPN: CO2, C, Membro, Brasil, Rio, Grupo, Campos, PHPA, GX, MDL
- VERB: devido, utilizado, utilizados, obtidos, apresentados, observado, realizados, obtido, associados, realizado
- VERB-Fin: indica
- VERB-Ger: utilizado
- VERB-Inf: remover
- VERB-Part: devido, utilizado, utilizados, obtidos, apresentados, observado, realizados, obtido, associados, realizado
- X: drill-in
- Plur
- ADJ: diferentes, principais, grandes, maiores, presentes, magnéticos, magnéticas, sedimentares, químicos, altas
- ADV: onde
- AUX-Fin: são, foram, estão, serão, eram, sejam, têm, seriam, estejam, teriam
- AUX-Inf: serem, terem, estarem
- DET: os, as, estes, estas, suas, esses, todos, tais, essas, outros
- NOUN: fluidos, dados, resultados, valores, fácies, propriedades, emissões, custos, poços, características
- PRON: que, eles, estes, elas, os, quais, outros, as, estas, aqueles
- PROPN: RCEs, GPM, estados, ARGILAS, Formações, MW, Barras, Camadas, Campos, Cartas
- VERB: podem, apresentam, utilizados, obtidos, apresentados, possuem, realizados, associados, ocorrem, preparados
- VERB-Fin: podem, apresentam, possuem, ocorrem, têm, existem, encontram, devem, mostram, representam
- VERB-Inf: possuírem, apresentarem, fazerem, mariscarem, ocorrerem, podermos, utilizarem, adentrarem, aparecerem, associarem
- VERB-Part: utilizados, obtidos, apresentados, realizados, associados, preparados, utilizadas, observados, obtidas, associadas
- X: drill-in
- Sing
- ADJ: maior, grande, menor, possível, magnético, total, natural, magnética, presente, necessário
- ADV: onde, Antes, SIM, melhor
- AUX-Fin: é, foi, está, será, era, seja, seria, tem, for, irá
- AUX-Inf: ser, estar, ter
- AUX-Part: sido
- DET: a, o, um, uma, este, esta, sua, esse, cada, seu
- NOUN: óleo, água, figura, fluido, petróleo, gás, produção, área, argila, processo
- NUM: 1, 19, 2.3, 4, 8, II.7, III.2, ii, 36º, 43º
- PRON: que, o, isso, a, isto, este, qual, um, uma, esta
- PROPN: et, al., CO2, Bacia, Cabo, Frio, Santos, Campos, &, grande
- VERB: pode, devido, apresenta, utilizado, tem, deve, mostra, ocorre, possui, seja
- VERB-Fin: pode, apresenta, tem, deve, mostra, ocorre, possui, seja, encontra, observa
- VERB-Ger: utilizado
- VERB-Inf: associar, atingir, atravessar, chegar, contribuir, equivaler, espalhar, ficar, fornecer, hidratar
- VERB-Part: devido, utilizado, utilizada, observado, produzida, obtido, realizado, produzido, realizada, associado
- Acc
- PRON: o, a, lo, los, la, las, as, os, nos, O/A
- Dat
- PRON: lhes, lhe
- Nom
- PRON: ele, eles, ela, elas, EU, ηapp
- Def
- DET: a, o, os, as, esta, , Do, µ, á
- PRON: o
- Ind
- DET: um, uma, uns
Degree and Polarity
- Neg
- ADV: não, nao
Verbal Features
- Cnd
- AUX-Fin: seria, seriam, estaria, teriam, estariam, teria, iria
- VERB-Fin: poderia, poderiam, teria, ocorreria, resultaria, teriam, aumentaria, contribuiria, ocorreriam, possibilitaria
- Imp
- VERB-Fin: vide
- Ind
- AUX-Fin: é, são, foi, foram, estão, está, será, serão, era, tem
- VERB-Fin: pode, podem, apresenta, tem, apresentam, deve, mostra, ocorre, possui, encontra
- Sub
- AUX-Fin: seja, for, sejam, fosse, estejam, tenha, esteja, fossem, estiver, forem
- VERB-Fin: seja, possa, tenha, ocorra, haja, apresentem, apresente, possam, exista, venha
- Fut
- AUX-Fin: será, serão, for, irá, estiver, irão, forem, estarão, sera, tiver
- VERB-Fin: poderá, terá, haverá, deverá, poderão, ocorrerá, abordará, dependerá, houver, permanecerá
- Imp
- AUX-Fin: era, eram, fosse, estava, fossem, havia, haviam, estavam, estivessem, estivesse
- VERB-Fin: continha, continham, apresentava, possuía, tinha, houvesse, ocorria, pudesse, apresentavam, contavam
- Past
- AUX-Fin: foi, esteve, estiveram, teve
- VERB-Fin: ocorreu, apresentou, houve, teve, observou, apresentaram, mostrou, utilizou, analisou, obteve
- Pqp
- VERB-Fin: intemperara, observara
- Pres
- AUX-Fin: é, são, estão, está, seja, tem, sejam, têm, vai, estejam
- VERB-Fin: pode, podem, apresenta, tem, apresentam, deve, mostra, ocorre, possui, seja
- Pass
- ADJ: elevado
- VERB-Fin: espessa, Denomina, Notam, adiciona, atribui, dilui, inicia, observa, utilizou
- VERB-Inf: observar
- VERB-Part: utilizado, apresentados, utilizados, realizada, realizado, observado, feita, utilizada, realizados, obtidos
Pronouns, Determiners, Quantifiers
- Art
- DET: a, o, os, as, um, uma, , Do, uns, µ
- Dem
- DET: este, esta, estes, estas, esse, essa, esses, tais, essas, aquela
- PRON: o, isso, isto, este, a, esta, mesmo, estes, os, estas
- Emp
- DET: própria, próprio, próprios
- Ind
- DET: cada, outros, alguns, tal, outras, diversos, outra, vários, algumas, outro
- PRON: um, uma, outros, outro, alguns, outra, algumas, outras, demais, muitos
- Int
- DET: qual, quais, quanto, que
- Prs
- DET: sua, seu, suas, seus, Essse, nosso, nossos
- PRON: se, eles, elas, ele, ela, si, a, o, lo, los
- Rel
- ADV: onde
- DET: cuja, cujo, cujos, cujas, quanto, que
- PRON: que, qual, onde, quais, quanto
- Tot
- DET: todos, todas, todo, toda, ambos, ambas, cada
- PRON: ambas, ambos, todo, todas, todos
- Card
- NUM: dois, 1, 3, 2, 5, 10, duas, três, 4, 2005
- Ord
- ADJ: primeiro, segundo, segunda, primeira, último, primeiros, últimos, última, terceiro, 36º
- NOUN: 20º
- NUM: II.3.1, II.3.2, II.3.3, II.4.2, II.5.1, II.5.2, II.5.3, II.5.4, II.7.1.1, III.2
- Range
- NUM: 2.2.1, 2.4.1, 3.2.3.2, 3.2.7, 5-5-Viscosidade
- 1
- PRON: nos, EU, nós
- VERB-Fin: podemos, temos, vemos, aumentamos, obtivemos, aplicamos, comparamos, encontramos, obtemos, passamos
- VERB-Inf: podermos, atingirmos, avaliarmos, certificarmos, diminuirmos, encontrarmos, observarmos, submetermos
- 2
- VERB-Fin: vide
- 3
- AUX-Fin: é, são, foi, foram, estão, está, será, serão, era, seja
- AUX-Inf: serem, ser, terem, estar, ter, estarem
- PRON: a, eles, elas, ele, ela, si, as, o, lo, los
- VERB-Fin: pode, podem, apresenta, tem, apresentam, deve, mostra, ocorre, possui, seja
- VERB-Inf: possuírem, apresentarem, fazerem, mariscarem, ocorrerem, utilizarem, adentrarem, aparecerem, associar, associarem
Other Features
- Foreign
- Yes
- NOUN: grid, grids, download
- X: drill, n, in, flow, booster, situ, core, station, balling, bit
- Yes
- Typo
- Yes
- ADJ: físico, t
- ADV: a
- NOUN: ,, produ, commons., meso, varia, www.gasprocessingnews, www.petrobras
- PRON: está
- PROPN: C, FPSO
- Yes
Syntax
Auxiliary Verbs and Copula
- This corpus uses 2 lemmas as copulas (cop). Examples: ser, estar.
- This corpus uses 5 lemmas as auxiliaries (aux). Examples: estar, ter, ir, ser, haver.
- This corpus uses 1 lemmas as passive auxiliaries (aux:pass). Examples: ser.
Core Arguments, Oblique Arguments and Adjuncts
Here we consider only relations between verbs (parent) and nouns or pronouns (child).
- nsubj
- VERB--NOUN (3)
- VERB-Fin--NOUN (3547)
- VERB-Fin--NOUN-ADP(a) (4)
- VERB-Fin--NOUN-ADP(como) (1)
- VERB-Fin--NOUN-ADP(desde) (1)
- VERB-Fin--NOUN-ADP(em) (2)
- VERB-Fin--NOUN-ADP(por) (1)
- VERB-Fin--PRON (1452)
- VERB-Fin--PRON-ADP(a) (3)
- VERB-Fin--PRON-ADP(em) (1)
- VERB-Fin--PRON-Acc (1)
- VERB-Fin--PRON-Nom (48)
- VERB-Ger--NOUN (22)
- VERB-Ger--NOUN-ADP(a) (1)
- VERB-Ger--NOUN-ADP(com) (1)
- VERB-Ger--NOUN-ADP(de) (1)
- VERB-Ger--PRON (4)
- VERB-Inf--NOUN (95)
- VERB-Inf--PRON (11)
- VERB-Inf--PRON-Nom (1)
- VERB-Part--NOUN (237)
- VERB-Part--PRON (49)
- obj
- VERB-Fin--NOUN (2906)
- VERB-Fin--NOUN-ADP(sobre) (1)
- VERB-Fin--PRON (43)
- VERB-Fin--PRON-Acc (47)
- VERB-Ger--NOUN (928)
- VERB-Ger--PRON (5)
- VERB-Ger--PRON-Acc (13)
- VERB-Inf--NOUN (1499)
- VERB-Inf--PRON (11)
- VERB-Inf--PRON-Acc (39)
- VERB-Part--NOUN (119)
- VERB-Part--NOUN-ADP(a) (9)
- VERB-Part--PRON (4)
- VERB-Part--PRON-Nom (1)
- iobj
- VERB-Fin--PRON-Acc (1)
- VERB-Fin--PRON-Dat (8)
- VERB-Ger--PRON-Dat (2)
- VERB-Part--PRON-Dat (2)
Reflexive Verbs
- This corpus contains 143 lemmas that occur at least once with an expl:pv child. Examples: encontrar se, tornar se, estender se, basear se, dar se, dever se, apresentar se, localizar se, tratar se, associar se, destacar se, comportar se, caracterizar se, fazer se, desenvolver se, referir se, manter se, mostrar se, relacionar se, concentrar se, depositar se, situar se, ajustar se, dissolver se, aprofundar se, aproximar se, dividir se, formar se, acumular se, constituir se, deslocar se, unir se, desprender se, transformar se, dissociar se, distribuir se, hidratar se, horizontalizar se, iniciar se, manifestar se, originar se, assentar se, chamar se, demonstrar se, dispersar se, espalhar se, estabilizar se, misturar se, orientar se, prolongar se
Reflexive Passive
- This corpus contains 153 lemmas that occur at least once with an expl:pass child. Examples: observar se, utilizar se, perceber se, obter se, usar se, analisar se, verificar se, adicionar se, considerar se, realizar se, esperar se, notar se, iniciar se, fazer se, colocar se, estimar se, variar se, aplicar se, calcular se, concluir se, pesar se, injetar se, adotar se, assumir se, aumentar se, construir se, medir se, sugerir se, acionar se, constatar se, inferir se, preparar se, apresentar se, atribuir se, comparar se, desenvolver se, destacar se, fechar se, produzir se, recomendar se, retirar se, seguir se, ver se, adelgaçar se, citar se, dar se, definir se, desejar se, empregar se, encontrar se
Relations Overview
- This corpus uses 10 relation subtypes: acl:relcl, aux:pass, expl:impers, expl:pass, expl:pv, flat:foreign, flat:name, nsubj:pass, obl:agent, obl:arg
- The following 7 relation types are not used in this corpus at all: vocative, dislocated, clf, compound, list, reparandum, dep