UD French FQB
Language: French (code: fr
)
Family: IE
This treebank has been part of Universal Dependencies since the UD v2.4 release.
The following people have contributed to making this treebank part of UD: Djamé Seddah, Marie Candito, Bruno Guillaume.
Repository: UD_French-FQB
Search this treebank on-line: PML-TQ
Download all treebanks: UD 2.15
License: LGPL-LR
Genre: nonfiction, news
Questions, comments? General annotation questions (either French-specific or cross-linguistic) can be raised in the main UD issue tracker. You can report bugs in this treebank in the treebank-specific issue tracker on Github. If you want to collaborate, please contact [djame • seddah (æt) gmail • com]. Development of the treebank happens outside the UD repository. If there are bugs, either the original data source or the conversion procedure must be fixed. Do not submit pull requests against the UD repository.
Annotation | Source |
---|---|
Lemmas | annotated manually in non-UD style, automatically converted to UD |
UPOS | annotated manually in non-UD style, automatically converted to UD |
XPOS | annotated manually |
Features | annotated manually in non-UD style, automatically converted to UD |
Relations | annotated manually in non-UD style, automatically converted to UD |
Description
The corpus UD_French-FQB is an automatic conversion of the French QuestionBank v1, a corpus entirely made of questions.
The original French QuestionBank is described in Hard Time Parsing Questions: Building a QuestionBank for French.. It was converted to UD with the conversion system described in the chapter 3 of the book Application of Graph Rewriting to Natural Language Processing and available on Inria Gitlab.
The original annotation scheme versions (phrase-structure, surface dependencies following the FTB scheme, Deep syntax annotations following the Deep Sequoia scheme are available at the following URL.
Acknowledgments
- contributors: Marie Candito, Bruno Guillaume, Djamé Seddah
- contact: Djamé Seddah: djame.seddah@paris-sorbonne.fr, Marie Candito: marie.candito@linguist.univ-paris-diderot.fr
- UD maintainer: Bruno Guillaume, bruno.guillaume@loria.fr
References
-
Djamé Seddah, Marie Candito. Hard Time Parsing Questions: Building a QuestionBank for French. Tenth International Conference on Language Resources and Evaluation (LREC 2016), May 2016, Portorož, Slovenia.
-
Guillaume Bonfante, Bruno Guillaume, Guy Perrier. Application of Graph Rewriting to Natural Language Processing. ISTE Wiley, 1, pp.272, 2018, Logic, Linguistics and Computer Science Set, Christian Rétoré, 1786300966. ⟨hal-01814386⟩
-
John Judge, Aoife Cahill, and Joseph van Genabith, (2006). QuestionBank: Creating a Corpus of Parse-Annotated Questions. In Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the Association for Computational Linguistics (COLING-ACL 2006), pages 497–504, Sydney, Australia.
Statistics of UD French FQB
POS Tags
ADJ – ADP – ADV – AUX – CCONJ – DET – INTJ – NOUN – NUM – PRON – PROPN – PUNCT – SCONJ – SYM – VERB – X
Features
Definite – ExtPos – Foreign – Gender – Mood – Number – NumType – Person – Polarity – Poss – PronType – Reflex – Tense – Typo – VerbForm – Voice
Relations
acl – acl:relcl – advcl – advcl:cleft – advmod – amod – appos – aux:caus – aux:pass – aux:tense – case – cc – ccomp – conj – cop – dep – det – dislocated – expl:comp – expl:subj – fixed – flat:foreign – flat:name – goeswith – iobj – mark – nmod – nsubj – nsubj:caus – nsubj:pass – nummod – obj – obl:agent – obl:arg – obl:mod – orphan – parataxis – punct – root – xcomp
Tokenization and Word Segmentation
- This corpus contains 2289 sentences, 23347 tokens and 23899 syntactic words.
- This corpus contains 2285 tokens (10%) that are not followed by a space.
- This corpus contains 1 types of words with spaces. Examples: 17 451
- This corpus contains 121 types of words that contain both letters and punctuation. Examples: l', d', qu', -ce, -t-il, -il, -je, -t-elle, États-Unis, -t-on, -elle, s', -ils, -on, j', n', 's, -elles, -vous, Croix-Rouge, C., lorsqu', D., B., J., Sainte-Hélène, afro-américain, m', S., vice-président, 'n, -moi, Dr., E., F., Grande-Bretagne, Nouvelle-Zélande, O', Viêt-nam, W., Wal-Mart, nouveau-né, outre-mer, plus-value, quelqu'un, t-il, A., Ben-Hur, Blanche-Neige, E.coli
- This corpus contains 552 multi-word tokens. On average, one multi-word token consists of 2.00 syntactic words.
- There are 4 types of multi-word tokens. Examples: du, des, au, aux.
Morphology
Tags
- This corpus uses 16 UPOS tags out of 17 possible: ADJ, ADP, ADV, AUX, CCONJ, DET, INTJ, NOUN, NUM, PRON, PROPN, PUNCT, SCONJ, SYM, VERB, X
- This corpus does not use the following tags: PART
- This corpus contains 25 lemmas tagged as pronouns (PRON): 2000, _, autre, ce, cela, celui, celui-ci, dont, il, il_y_a, le, le/lui, lequel, où, que, quelqu'un, quels, qui, quoi, soi, t-il, tout, un, y, y_compris
- This corpus contains 15 lemmas tagged as determiners (DET): 17 451, _, ce, certain, chaque, du, il, le, plusieurs, quel, quelque_chose, son, tout, un, un_peu
- Out of the above, 6 lemmas occurred sometimes as PRON and sometimes as DET: _, ce, il, le, tout, un
- This corpus contains 3 lemmas tagged as auxiliaries (AUX): avoir, faire, être
- Out of the above, 3 lemmas occurred sometimes as AUX and sometimes as VERB: avoir, faire, être
- There are 3 (de)verbal forms:
- Fin
- AUX: est, a, était, fut, sont, ai, ont, suis, étaient, avez
- VERB: trouve, est, a, signifie, Nommez, puis, eut, fait, dois, ai
- Inf
- AUX: avoir, être, faire
- VERB: faire, obtenir, bénéficier, donner, payer, avoir, déclarer, trouver, déduire, partir
- Part
- AUX: été, ayant, étant, fait
- VERB: inventé, né, situé, écrit, mort, connu, joué, eu, fait, remporté
Nominal Features
- Fem
- ADJ: quelle, première, américaine, quelles, principale, grande, haute, dernière, foncière, télévisée
- ADP: de
- DET: la, quelle, une, sa, ma, quelles, certaines, cette
- NOUN: année, ville, compagnie, population, capitale, guerre, date, taxe, université, équipe
- PRON: -t-elle, -elle, laquelle, -elles, une, celle, celle-ci, elle, elles, lesquelles
- PROPN: Californie, Australie, Angleterre, Italie, Afrique, Amérique, Corée, Philippines, Berlin, Chine
- VERB-Part: connue, située, devenue, construite, déroulée, intitulée, morte, fabriquée, faite, fondée
- Masc
- ADJ: quel, premier, américain, grand, Quels, mondial, anglais, national, personnel, calleux
- AUX-Part: fait
- DET: le, quel, un, les, quels, ce, cet, du, tout
- NOUN: nom, pays, président, état, lieu, logement, film, prix, corps, temps
- PRON: -t-il, -il, -ils, il, lequel, le, un, quelqu'un, celui, celui-ci
- PROPN: Alaska, John, York, Charles, Kentucky, Jackson, Japon, Mississippi, Londres, Reims
- VERB-Part: inventé, né, situé, écrit, mort, connu, joué, eu, fait, remporté
- Plur
- ADJ: Quels, quelles, américains, olympiques, touristiques, Unies, acides, généraux, militaires, solaires
- AUX-Fin: sont, ont, étaient, avez, furent, êtes, soient, aient
- DET: les, des, mes, quelles, de, ses, quels, vos, ces, d'
- NOUN: enfants, gens, habitants, impôts, lettres, pièces, revenus, Nations, années, automobiles
- PRON: -ils, vous, -elles, -vous, les, ceux, elles, eux, lesquelles, nous
- PROPN: Philippines, Alpes, Bahamas, Fidji, Pays-Bas, Pyrénées
- VERB-Fin: Nommez, trouvent, ont, devez, mangent, sont, vivaient, jouent, proviennent, vivent
- VERB-Part: connus, connues, conservés, morts, produits, remportés, allés, approfondies, autorisés, basés
- Sing
- ADJ: quel, quelle, premier, célèbre, première, américain, grand, autre, américaine, islamique
- ADP: de
- AUX-Fin: est, a, était, fut, ai, suis, soit, ait, sera
- AUX-Part: fait
- DET: le, la, l', quelle, quel, un, une, mon, sa, ma
- NOUN: nom, année, ville, aide, président, état, lieu, espace, logement, film
- PRON: -t-il, -il, -je, -t-elle, je, -t-on, -elle, -on, j', il
- PROPN: Californie, Logan, Alaska, John, San, York, Charles, Kentucky, Marley, Australie
- VERB-Fin: trouve, est, a, signifie, puis, eut, fait, dois, ai, nomme
- VERB-Part: inventé, né, situé, écrit, mort, connu, joué, eu, fait, remporté
- Def
- DET: le, la, l', les
- Ind
- DET: un, une, des, de, d', tout
Degree and Polarity
- Neg
- ADV: pas, n', ne, plus, que
Verbal Features
- Cnd
- VERB-Fin: devrait, pourrait, prendrait, procurerait, recevrait, voudrais
- Imp
- VERB-Fin: Nommez, Dites, Définissez, Laissez, Rions
- Ind
- AUX-Fin: est, a, était, fut, sont, ai, ont, suis, étaient, avez
- PRON: Il
- VERB-Fin: trouve, est, a, signifie, puis, eut, fait, dois, ai, nomme
- Sub
- AUX-Fin: soit, ait, soient, aient
- Fut
- AUX-Fin: sera
- VERB-Fin: connaîtra, disposera, produira
- Imp
- AUX-Fin: était, étaient
- VERB-Fin: avait, jouait, vivaient, coûtait, nommait, portait, produisait, était, aidait, appelait
- Past
- AUX-Fin: fut, furent
- AUX-Part: été, fait
- VERB-Fin: eut, signa, vécut, agit, apprit, connut, construisit, débuta, détint, développa
- VERB-Part: inventé, né, situé, écrit, mort, connu, joué, eu, fait, remporté
- Pres
- AUX-Fin: est, a, sont, ai, ont, suis, avez, êtes, soit, ait
- AUX-Part: ayant, étant
- VERB-Fin: trouve, est, a, signifie, Nommez, puis, fait, dois, ai, nomme
- VERB-Part: provenant, appartenant, ayant, accordant, attendant, causant, entourant, excluant, figurant, permettant
- Pass
- VERB-Part: situé, connu, inventé, connue, construit, enterré, fait, située, construite, élu
Pronouns, Determiners, Quantifiers
- Art
- DET: le, la, l', les, un, une, des, de, d', tout
- Dem
- DET: ce, ces, cet, cette
- PRON: cela, celle, celle-ci, celui, celui-ci, ceux
- Ind
- PRON: quelqu'un
- Int
- ADV: où, quand, combien, comment, pourquoi
- DET: quelle, quel, quelles, quels
- PRON: qui, Qu', que, quoi, Quels
- Prs
- PRON: eux, moi
- Rel
- PRON: qui, que, dont, laquelle, lequel, qu', où, lesquelles
- Card
- NOUN: milles, mille, cent, cents, million, millions
- NUM: deux, 1994, 1993, 1989, 1990, 1991, 1992, 1988, 10, 1929
- PRON: 2000
- Ord
- ADJ: premier, première, dernière, deuxième, troisième, 19e, trente-troisième, vingt-deuxième, vingt-et-unième, vingt-troisième
- Yes
- DET: mon, mes, sa, ma, son, votre, ses, vos, leur, leurs
- NOUN: son
- Yes
- PRON: se, s', me, m', vous
- 1
- AUX-Fin: ai, suis
- PRON: -je, je, j', me, m', -moi, moi, nous
- VERB-Fin: puis, ai, vais, Rions, utilisons
- 2
- AUX-Fin: avez, êtes
- PRON: vous, -vous
- VERB-Fin: Nommez, dois, devez, viens, Définissez, Laissez, Pouvez, participiez, perçois, peux
- 3
- AUX-Fin: est, a, était, fut, sont, ont, étaient, furent, soit, ait
- DET: l'
- PRON: -t-il, se, -il, -t-elle, y, -t-on, -elle, s', -ils, -on
- VERB-Fin: trouve, est, a, signifie, eut, fait, nomme, appelle, peut, avait
Other Features
- ExtPos
- ADJ
- ADP: d'
- ADP
- ADP: à, en, Par, d'
- ADV: lord, près, auprès, afin, autour
- NOUN: suite
- PRON: Il
- ADV
- ADP: en, pour, à
- ADV: aujourd', ne
- DET: un
- CCONJ
- CCONJ: et
- PRON: y
- DET
- ADP: de, d'
- NOUN
- ADV: trop
- PRON
- DET: l', quelqu'
- SCONJ
- ADP: pour
- ADV: afin, alors, après, avant, dès
- ADJ
- Foreign
- Yes
- NUM: 1
- X: the, of, 's, and, caliente, is, west, hazmat, in, to
- Yes
- Typo
- Yes
- NOUN: Porto
- Yes
Syntax
Auxiliary Verbs and Copula
- This corpus uses 1 lemmas as copulas (cop). Examples: être.
- This corpus uses 1 lemmas as passive auxiliaries (aux:pass). Examples: être.
Core Arguments, Oblique Arguments and Adjuncts
Here we consider only relations between verbs (parent) and nouns or pronouns (child).
- nsubj
- VERB-Fin--NOUN (343)
- VERB-Fin--PRON (291)
- VERB-Inf--NOUN (2)
- VERB-Part--NOUN (109)
- VERB-Part--PRON (140)
- obj
- VERB-Fin--NOUN (267)
- VERB-Fin--NOUN-ADP(de) (4)
- VERB-Fin--PRON (71)
- VERB-Inf--NOUN (137)
- VERB-Inf--NOUN-ADP(de) (1)
- VERB-Inf--PRON (29)
- VERB-Part--NOUN (192)
- VERB-Part--PRON (14)
- iobj
- VERB-Fin--PRON (3)
- VERB-Inf--PRON (2)
- VERB-Part--PRON (4)
Verbs with Reflexive Core Objects
- This corpus contains 1 lemmas that occur at least once with a reflexive core object (obj or iobj). Examples: adresser m'
Relations Overview
- This corpus uses 14 relation subtypes: acl:relcl, advcl:cleft, aux:caus, aux:pass, aux:tense, expl:comp, expl:subj, flat:foreign, flat:name, nsubj:caus, nsubj:pass, obl:agent, obl:arg, obl:mod
- The following 4 main types are not used alone, they are always subtyped: aux, expl, flat, obl
- The following 7 relation types are not used in this corpus at all: csubj, vocative, discourse, clf, compound, list, reparandum