UD French FQB
Language: French (code: fr)
Family: IE
This treebank has been part of Universal Dependencies since the UD v2.4 release.
The following people have contributed to making this treebank part of UD: Djamé Seddah, Marie Candito, Bruno Guillaume.
Repository: UD_French-FQB
Search this treebank on-line: PML-TQ
Download all treebanks: UD 2.18
License: LGPL-LR
Genre: nonfiction, news
Questions, comments? General annotation questions (either French-specific or cross-linguistic) can be raised in the main UD issue tracker. You can report bugs in this treebank in the treebank-specific issue tracker on Github. If you want to collaborate, please contact [djame • seddah (æt) gmail • com]. Development of the treebank happens outside the UD repository. If there are bugs, either the original data source or the conversion procedure must be fixed. Do not submit pull requests against the UD repository.
| Annotation | Source |
|---|---|
| Lemmas | annotated manually in non-UD style, automatically converted to UD |
| UPOS | annotated manually in non-UD style, automatically converted to UD |
| XPOS | annotated manually |
| Features | annotated manually in non-UD style, automatically converted to UD |
| Relations | annotated manually in non-UD style, automatically converted to UD |
Description
The corpus UD_French-FQB is an automatic conversion of the French QuestionBank v1, a corpus entirely made of questions.
The original French QuestionBank is described in Hard Time Parsing Questions: Building a QuestionBank for French.. It was converted to UD with the conversion system described in the chapter 3 of the book Application of Graph Rewriting to Natural Language Processing and available on Inria Gitlab.
The original annotation scheme versions (phrase-structure, surface dependencies following the FTB scheme, Deep syntax annotations following the Deep Sequoia scheme are available at the following URL.
Acknowledgments
- contributors: Marie Candito, Bruno Guillaume, Djamé Seddah
- contact: Djamé Seddah: djame.seddah@paris-sorbonne.fr, Marie Candito: marie.candito@linguist.univ-paris-diderot.fr
- UD maintainer: Bruno Guillaume, bruno.guillaume@loria.fr
References
-
Djamé Seddah, Marie Candito. Hard Time Parsing Questions: Building a QuestionBank for French. Tenth International Conference on Language Resources and Evaluation (LREC 2016), May 2016, Portorož, Slovenia.
-
Guillaume Bonfante, Bruno Guillaume, Guy Perrier. Application of Graph Rewriting to Natural Language Processing. ISTE Wiley, 1, pp.272, 2018, Logic, Linguistics and Computer Science Set, Christian Rétoré, 1786300966. ⟨hal-01814386⟩
-
John Judge, Aoife Cahill, and Joseph van Genabith, (2006). QuestionBank: Creating a Corpus of Parse-Annotated Questions. In Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the Association for Computational Linguistics (COLING-ACL 2006), pages 497–504, Sydney, Australia.
Statistics of UD French FQB
POS Tags
ADJ – ADP – ADV – AUX – CCONJ – DET – INTJ – NOUN – NUM – PRON – PROPN – PUNCT – SCONJ – SYM – VERB – X
Features
Definite – ExtPos – Foreign – Gender – Mood – Number – NumType – Person – Polarity – Poss – PronType – Reflex – Tense – Typo – VerbForm – Voice
Relations
acl – acl:relcl – advcl – advcl:cleft – advmod – amod – appos – aux:caus – aux:pass – aux:tense – case – cc – ccomp – conj – cop – dep – det – dislocated – expl:comp – expl:pass – expl:pv – expl:subj – fixed – flat:foreign – flat:name – goeswith – iobj – mark – nmod – nsubj – nsubj:caus – nsubj:pass – nummod – obj – obl:agent – obl:arg – obl:mod – orphan – parataxis – punct – root – xcomp
Tokenization and Word Segmentation
- This corpus contains 2289 sentences, 23344 tokens and 23896 syntactic words.
- This corpus contains 2282 tokens (10%) that are not followed by a space.
- This corpus contains 1 types of words with spaces. Examples: 17 451
- This corpus contains 122 types of words that contain both letters and punctuation. Examples: l', d', qu', -ce, -t-il, -il, -je, -t-elle, États-Unis, -t-on, -elle, s', -ils, -on, j', n', 's, -elles, -vous, Croix-Rouge, C., lorsqu', D., B., J., Sainte-Hélène, afro-américain, m', S., vice-président, 'n, -moi, Dr., E., F., Grande-Bretagne, Nouvelle-Zélande, O', Viêt-nam, W., Wal-Mart, l'on, nouveau-né, outre-mer, plus-value, quelqu'un, t-il, A., Ben-Hur, Blanche-Neige
- This corpus contains 552 multi-word tokens. On average, one multi-word token consists of 2.00 syntactic words.
- There are 4 types of multi-word tokens. Examples: du, des, au, aux.
Morphology
Tags
- This corpus uses 16 UPOS tags out of 17 possible: ADJ, ADP, ADV, AUX, CCONJ, DET, INTJ, NOUN, NUM, PRON, PROPN, PUNCT, SCONJ, SYM, VERB, X
- This corpus does not use the following tags: PART
- This corpus contains 23 lemmas tagged as pronouns (PRON): autre, ce, cela, celui, celui-ci, dont, il, l'on, lequel, lui, moi, nous, on, que, quel, quelqu'un, qui, quoi, soi, tout, un, vous, y
- This corpus contains 11 lemmas tagged as determiners (DET): ce, certains, chaque, du, le, plusieurs, quel, quelque, son, tout, un
- Out of the above, 4 lemmas occurred sometimes as PRON and sometimes as DET: ce, quel, tout, un
- This corpus contains 3 lemmas tagged as auxiliaries (AUX): avoir, faire, être
- Out of the above, 3 lemmas occurred sometimes as AUX and sometimes as VERB: avoir, faire, être
- There are 3 (de)verbal forms:
- Fin
- AUX: est, a, était, fut, sont, ai, ont, suis, étaient, avez
- VERB: trouve, est, a, signifie, Nommez, puis, eut, dois, fait, ai
- Inf
- AUX: avoir, être, faire
- VERB: faire, obtenir, bénéficier, donner, payer, avoir, déclarer, trouver, déduire, partir
- Part
- ADJ: affilé
- AUX: été, ayant, étant, fait
- VERB: inventé, né, situé, écrit, mort, connu, joué, eu, fait, remporté
Nominal Features
- Fem
- ADJ: quelle, première, américaine, quelles, principale, grande, haute, dernière, foncière, télévisée
- DET: la, quelle, une, sa, ma, quelles, certaines, cette
- NOUN: année, ville, compagnie, population, capitale, guerre, date, taxe, université, équipe
- PRON: -t-elle, -elle, laquelle, -elles, une, celle, celle-ci, elle, elles, lesquelles
- PROPN: Californie, Australie, Angleterre, Italie, Afrique, Amérique, Corée, Philippines, Berlin, Chine
- VERB-Part: connue, située, devenue, construite, déroulée, intitulée, morte, fabriquée, faite, fondée
- Masc
- ADJ: quel, premier, américain, grand, Quels, mondial, anglais, national, personnel, calleux
- ADJ-Part: affilé
- AUX-Part: fait
- DET: le, quel, un, les, quels, ce, cet, d', du, tout
- NOUN: nom, pays, président, état, lieu, logement, film, prix, corps, temps
- PRON: -t-il, -il, -ils, il, lequel, le, un, l'on, quelqu'un, celui
- PROPN: Alaska, John, Kentucky, Japon, Mississippi, Londres, Reims, Croix-Rouge, Bob, Canada
- VERB-Part: inventé, né, situé, écrit, mort, connu, joué, eu, fait, remporté
- Plur
- ADJ: Quels, quelles, américains, olympiques, touristiques, Unies, acides, généraux, militaires, solaires
- AUX-Fin: sont, ont, étaient, avez, furent, êtes, soient, aient
- DET: les, des, mes, quelles, de, ses, quels, vos, d', ces
- NOUN: enfants, gens, habitants, impôts, lettres, pièces, revenus, Nations, années, automobiles
- PRON: -ils, vous, -elles, -vous, les, ceux, elles, eux, lesquelles, nous
- PROPN: Philippines, Alpes, Bahamas, Fidji, Pays-Bas, Pyrénées
- VERB-Fin: Nommez, trouvent, ont, devez, mangent, sont, vivaient, jouent, proviennent, vivent
- VERB-Part: connus, connues, conservés, morts, produits, remportés, allés, approfondies, autorisés, basés
- Sing
- ADJ: quel, quelle, premier, première, célèbre, américain, grand, autre, américaine, islamique
- ADJ-Part: affilé
- AUX-Fin: est, a, était, fut, ai, suis, soit, ait, sera
- AUX-Part: fait
- DET: le, la, l', quelle, quel, un, une, mon, sa, ma
- NOUN: nom, année, ville, aide, président, état, lieu, espace, logement, film
- PRON: -t-il, -il, -je, -t-elle, je, -t-on, -elle, -on, j', il
- PROPN: Californie, Logan, Alaska, John, Kentucky, San, Australie, Japon, Mississippi, Angleterre
- VERB-Fin: trouve, est, a, signifie, puis, eut, dois, fait, ai, nomme
- VERB-Part: inventé, né, situé, écrit, mort, connu, joué, eu, fait, remporté
- Def
- DET: le, la, l', les
- Ind
- DET: un, une, des, de, d', tout
Degree and Polarity
- Neg
- ADV: pas, n', ne, plus, que
Verbal Features
- Cnd
- VERB-Fin: devrait, pourrait, prendrait, coureriez, procurerait, recevrait, voudrais
- Imp
- VERB-Fin: Nommez, Dites, Définissez, Laissez, Rions
- Ind
- AUX-Fin: est, a, était, fut, sont, ai, ont, suis, étaient, avez
- VERB-Fin: trouve, est, a, signifie, puis, eut, dois, fait, ai, nomme
- Sub
- AUX-Fin: soit, ait, soient, aient
- Fut
- AUX-Fin: sera
- VERB-Fin: connaîtra, disposera, produira
- Imp
- AUX-Fin: était, étaient
- VERB-Fin: avait, jouait, vivaient, coûtait, nommait, portait, produisait, était, aidait, appelait
- Past
- ADJ-Part: affilé
- AUX-Fin: fut, furent
- AUX-Part: été, fait
- VERB-Fin: eut, signa, vécut, agit, apprit, connut, construisit, débuta, détint, développa
- VERB-Part: inventé, né, situé, écrit, mort, connu, joué, eu, fait, remporté
- Pres
- AUX-Fin: est, a, sont, ai, ont, suis, avez, êtes, soit, ait
- AUX-Part: ayant, étant
- VERB-Fin: trouve, est, a, signifie, Nommez, puis, dois, fait, ai, nomme
- VERB-Part: provenant, appartenant, ayant, accordant, attendant, causant, entourant, excluant, figurant, permettant
- Pass
- VERB-Part: situé, connu, inventé, connue, construit, enterré, fait, située, construite, élu
Pronouns, Determiners, Quantifiers
- Art
- DET: le, la, l', les, un, une, des, de, d', du
- Dem
- DET: ce, ces, cet, cette
- PRON: -ce, cela, ce, celle, celle-ci, celui, celui-ci, ceux
- Ind
- DET: chaque, certaines, plusieurs, quelqu', tout
- PRON: -t-on, -on, un, autre, l'on, quelqu'un, une, on, tout
- Int
- ADV: où, quand, combien, comment, pourquoi
- DET: quelle, quel, quelles, quels
- PRON: qui, Qu', que, quoi, Quels
- Prs
- DET: mon, mes, sa, ma, son, votre, ses, vos, leur, leurs
- PRON: -t-il, se, -il, -je, -t-elle, je, -elle, s', -ils, y
- Rel
- ADV: où
- PRON: qui, que, dont, laquelle, lequel, qu', lesquelles
- Card
- NOUN: milles, mille, cent, cents, million, millions
- NUM: deux, 1994, 1993, 1989, 1990, 1991, 1992, 1988, 10, 1929
- Ord
- ADJ: premier, première, dernière, deuxième, troisième, 19e, trente-troisième, vingt-deuxième, vingt-et-unième, vingt-troisième
- Yes
- DET: mon, mes, sa, ma, son, votre, ses, vos, leur, leurs
- NOUN: son
- Yes
- PRON: se, s', me, m', vous
- 1
- AUX-Fin: ai, suis
- PRON: -je, je, j', me, m', -moi, moi, nous
- VERB-Fin: puis, ai, vais, Rions, utilisons
- 2
- AUX-Fin: avez, êtes
- PRON: vous, -vous
- VERB-Fin: Nommez, dois, devez, viens, Définissez, Laissez, Pouvez, participiez, perçois, peux
- 3
- AUX-Fin: est, a, était, fut, sont, ont, étaient, furent, soit, ait
- PRON: -t-il, se, -il, -t-elle, -t-on, -elle, s', -ils, -on, y
- VERB-Fin: trouve, est, a, signifie, eut, fait, nomme, appelle, peut, avait
Other Features
- ExtPos
- ADP
- ADP: en, d', à
- ADV: auprès, autour, lord, près
- NOUN: suite
- PRON: Il
- ADV
- ADP: à, d', pour
- ADV: dès
- CCONJ
- PRON: y
- SYM: /
- DET
- ADP: de
- NOUN
- ADV: trop
- PRON
- ADV: moins, plus
- DET: le, quelqu', un
- NUM: 2000
- ADP
- Foreign
- Yes
- NUM: 1
- X: the, of, 's, and, caliente, is, west, hazmat, in, to
- Yes
- Typo
- Yes
- ADV: lord
- NOUN: Porto, titres
- PRON: t-il
- VERB-Fin: coureriez, on
- Yes
Syntax
Auxiliary Verbs and Copula
- This corpus uses 1 lemmas as copulas (cop). Examples: être.
- This corpus uses 1 lemmas as passive auxiliaries (aux:pass). Examples: être.
Core Arguments, Oblique Arguments and Adjuncts
Here we consider only relations between verbs (parent) and nouns or pronouns (child).
- nsubj
- VERB-Fin--NOUN (342)
- VERB-Fin--PRON (293)
- VERB-Inf--NOUN (2)
- VERB-Part--NOUN (109)
- VERB-Part--PRON (140)
- obj
- VERB-Fin--NOUN (254)
- VERB-Fin--NOUN-ADP(de) (4)
- VERB-Fin--PRON (73)
- VERB-Inf--NOUN (135)
- VERB-Inf--PRON (32)
- VERB-Part--NOUN (192)
- VERB-Part--PRON (18)
- iobj
- VERB-Fin--PRON (3)
- VERB-Inf--PRON (2)
- VERB-Part--PRON (2)
Reflexive Verbs
- This corpus contains 30 lemmas that occur at least once with an expl:pv child. Examples: trouver se, nommer se, appeler s', dérouler s', passer se, élever s', rendre s', situer se, jeter se, accoupler s', adonner s', adresser m', agir s', disloquer s', déplacer se, dérouler se, emparer s', envoler s', forcer s', inspirer s', intituler s', louer se, marier se, marier vous, produire se, suicider s', suicider se, écouler s', écraser s', épeler s'
Reflexive Passive
- This corpus contains 6 lemmas that occur at least once with an expl:pass child. Examples: tenir s', terminer s', étendre s', développer s', tenir se, terminer se
Verbs with Reflexive Core Objects
- This corpus contains 9 lemmas that occur at least once with a reflexive core object (obj or iobj). Examples: joindre s', mensualiser me, engager se, installer se, mensualiser se, nourrir se, présenter s', présenter se, toucher se
- Out of those, 2 lemmas occurred more than once, but never without a reflexive dependent. Examples: mensualiser, joindre
Relations Overview
- This corpus uses 16 relation subtypes: acl:relcl, advcl:cleft, aux:caus, aux:pass, aux:tense, expl:comp, expl:pass, expl:pv, expl:subj, flat:foreign, flat:name, nsubj:caus, nsubj:pass, obl:agent, obl:arg, obl:mod
- The following 4 main types are not used alone, they are always subtyped: aux, expl, flat, obl
- The following 7 relation types are not used in this corpus at all: csubj, vocative, discourse, clf, compound, list, reparandum