UD French ParisStories
Language: French (code: fr
)
Family: IE
This treebank has been part of Universal Dependencies since the UD v2.9 release.
The following people have contributed to making this treebank part of UD: Kim Gerdes, Sylvain Kahane, Menel Mahamdi.
Repository: UD_French-ParisStories
Search this treebank on-line: PML-TQ
Download all treebanks: UD 2.15
License: CC BY-SA 4.0
Genre: spoken
Questions, comments? General annotation questions (either French-specific or cross-linguistic) can be raised in the main UD issue tracker. You can report bugs in this treebank in the treebank-specific issue tracker on Github. If you want to collaborate, please contact [gerdes (æt) lisn • fr]. Development of the treebank happens outside the UD repository. If there are bugs, either the original data source or the conversion procedure must be fixed. Do not submit pull requests against the UD repository.
Annotation | Source |
---|---|
Lemmas | annotated manually in non-UD style, automatically converted to UD |
UPOS | annotated manually in non-UD style, automatically converted to UD |
XPOS | not available |
Features | annotated manually in non-UD style, automatically converted to UD |
Relations | annotated manually in non-UD style, automatically converted to UD |
Description
Paris Stories is a corpus of oral French collected and transcribed by Linguistics students from Sorbonne Nouvelle and corrected by students from the Plurital Master’s Degree of Computational Linguistics ( Inalco, Paris Nanterre, Sorbonne Nouvelle) between 2017 and 2021. It contains monologues and dialogues from speakers living in the Parisian region.
For an assignment, students had to record a friend or a relative sharing an anecdote about a given theme (meaningful encounters, vacations, interesting stories..). The corpus was created for the study of contemporary spoken French and to train a syntactic parser for spoken French. All data has been morpho-syntactically annotated following the SUD (Surface Syntactic Universal Dependencies) guidelines.
See SUD Guidelines : https://surfacesyntacticud.github.io/guidelines/u/
The Treebank can be found here : http://match.grew.fr/?corpus=SUD_French-ParisStories@latest
The recordings can be downloaded via the url given in the ‘# sound_url’ metadata.
Description
– Paris Stories 2019 –
Creation Year : 2017
Annotation Year : 2019
Size :
- 19 samples
- 13951 tokens
- 709 sentences
- app. 1 hour of recordings
Topics : travels, funny/unusual stories
– Paris Stories 2020 –
Creation Year : 2018
Annotation Year : 2020
Size :
- 16 samples
- 9064 tokens
- 553 sentences
- app. 30 min of recordings
Topics : vacation stories, funny/unusual stories
– Paris Stories 2021 –
Creation Year : 2020
Annotation Year : 2021
Size :
- 14 samples
- 7825 tokens
- 499 sentences
- app. 45 minutes of recordings
Topics : first encounters, funny/unusual stories
Development
The corpus is maintained here in the SUD framework and automatically converter into UD using the Grew software with the conversions rules described here.
Data Split
The file fr_parisstories-ud-test.conllu
contains the following data:
ParisStories_2019_cuisineApproximative.conllu
ParisStories_2019_devoirPhilosophie.conllu
ParisStories_2019_peripitiesVoiture.conllu
ParisStories_2019_prepaScientifique.conllu
ParisStories_2019_vacancesEte.conllu
ParisStories_2019_voyageItalie.conllu
ParisStories_2020_blessureRecreation.conllu
ParisStories_2020_campBedouin.conllu
ParisStories_2020_concoursInstagram.conllu
ParisStories_2020_histoireHorreur.conllu
ParisStories_2020_poissonsNoel.conllu
ParisStories_2020_sortiesAdolescence.conllu
ParisStories_2021_adoptionMouts.conllu
ParisStories_2021_couruLaVoir.conllu
ParisStories_2021_loulouLeChat.conllu
ParisStories_2021_soireeHalloweenGrange.conllu
The file fr_parisstories-ud-train.conllu
contains the following data:
ParisStories_2019_concoursEquitation.conllu
ParisStories_2019_experienceFac.conllu
ParisStories_2019_histoireDeBanlieue.conllu
ParisStories_2019_journeeTournage.conllu
ParisStories_2019_mauriceAventure.conllu
ParisStories_2019_mercrediSoir.conllu
ParisStories_2019_patisserieFine.conllu
ParisStories_2019_peripleCrous.conllu
ParisStories_2019_stagePrimaire.conllu
ParisStories_2019_voyageEcosse.conllu
ParisStories_2020_aideAuxEnfants.conllu
ParisStories_2020_alarmeTrain.conllu
ParisStories_2020_anecdoteMetro.conllu
ParisStories_2020_descenteCanoe.conllu
ParisStories_2020_dragQueen.conllu
ParisStories_2020_galereNice.conllu
ParisStories_2020_histoireOurs.conllu
ParisStories_2020_maisonAbondonnee.conllu
ParisStories_2020_requinReunion.conllu
ParisStories_2020_sangDEncre.conllu
ParisStories_2021_discussionSansAbris.conllu
ParisStories_2021_maintenantJeSais.conllu
ParisStories_2021_neesLeMemeMois.conllu
ParisStories_2021_nouveauxEleves.conllu
ParisStories_2021_nouvelleCollegue.conllu
ParisStories_2021_pireSoireeHorrible.conllu
ParisStories_2021_pluieEtMamie.conllu
ParisStories_2021_prenomDeVieille.conllu
ParisStories_2021_rencontreAngelaMerkel.conllu
ParisStories_2021_rencontreMourinho.conllu
Acknowledgments
Annotation : Sylvain Kahane, Bruno Guillaume, Mariam Nakhlé, Vanessa Gaudray-Bouju, Menel Mahamdi
Annotation tools development : Kim Gerdes, Marine Courtin, Gaël Guibon
Conversion and handling of data validation : Bruno Guillaume
Direction of data collection : Cédric Gendrot, Kim Gerdes, Marine Courtin
We would like to thank all the students who participated in this project.
References
An article about the annotation of spoken French will soon be released (Kahane et al. 2021)
Statistics of UD French ParisStories
POS Tags
ADJ – ADP – ADV – AUX – CCONJ – DET – INTJ – NOUN – NUM – PRON – PROPN – PUNCT – SCONJ – VERB – X
Features
Definite – ExtPos – Gender – Mood – Number – Number[psor] – Person – Person[psor] – Polarity – Poss – PronType – Reflex – Tense – Typo – VerbForm
Relations
acl – acl:relcl – advcl – advcl:cleft – advmod – amod – appos – aux:caus – aux:pass – aux:tense – case – cc – ccomp – compound – conj – cop – csubj – dep – dep:comp – det – discourse – dislocated – expl:comp – expl:pass – expl:pv – expl:subj – fixed – flat – flat:name – iobj – iobj:agent – mark – nmod – nmod:appos – nsubj – nsubj:caus – nsubj:pass – nummod – obj – obj:agent – obj:lvc – obl – obl:agent – obl:arg – obl:mod – parataxis – parataxis:parenth – punct – reparandum – root – vocative – xcomp
Tokenization and Word Segmentation
- This corpus contains 2776 sentences, 42243 tokens and 42786 syntactic words.
- This corpus contains 10247 tokens (24%) that are not followed by a space.
- This corpus does not contain words with spaces.
- This corpus contains 100 types of words that contain both letters and punctuation. Examples: c', j', l', qu', d', s', m', n', -ce, t', là-bas, -là, peut-être, quelqu'un, jusqu', grands-parents, -y, après-midi, aujourd'hui, demi-tour, haut-parleur, puisqu', -moi, dix-neuf, quarante-sept, rendez-vous, vingt-deux, vingt-six, Français-Chinois, [vous, c'est-à-dire, centre-ville, demi-heure, demi-soeur, dix-huit, dix-sept, franco-allemand, grand-mère, là-haut, quarante-deux, soixante-quinze, trente-cinq, vingt-cinq, vingt-et-un, -Alpes, Marie-Paul, Mitry-Claye, O'Takey, RuPaul's, Saint-Louis
- This corpus contains 543 multi-word tokens. On average, one multi-word token consists of 2.00 syntactic words.
- There are 4 types of multi-word tokens. Examples: du, au, des, aux.
Morphology
Tags
- This corpus uses 15 UPOS tags out of 17 possible: ADJ, ADP, ADV, AUX, CCONJ, DET, INTJ, NOUN, NUM, PRON, PROPN, PUNCT, SCONJ, VERB, X
- This corpus does not use the following tags: PART, SYM
- This corpus contains 44 lemmas tagged as pronouns (PRON): aucun, autre, autrui, auxquelles, ce, cela, celui, celui-là, certain, chacun, cinq, dont, en, eux, eux-mêmes, i~, j~, lequel, lesquelles, lui, lui-même, moi, moi-même, nous, on, où, personne, que, quelqu'un, qui, quoi, rien, sien, six, soi, son, tien, toi, tous, tout, un, vous, y, ça
- This corpus contains 23 lemmas tagged as determiners (DET): aucun, ce, certain, cette, chaque, de, de+le, des, différent, dix, du, du~, le, les, plusieurs, quel, quelle, quelque, quelques, son, tout, un, une
- Out of the above, 6 lemmas occurred sometimes as PRON and sometimes as DET: aucun, ce, certain, son, tout, un
- This corpus contains 4 lemmas tagged as auxiliaries (AUX): avoir, faire, refaire, être
- Out of the above, 4 lemmas occurred sometimes as AUX and sometimes as VERB: avoir, faire, refaire, être
- There are 3 (de)verbal forms:
- Fin
- AUX: est, était, a, ai, suis, étais, avait, avais, sont, étaient
- VERB: avait, a, est, sais, fait, était, dit, va, avais, vois
- Inf
- AUX: être, faire, avoir, refaire
- VERB: faire, aller, dire, voir, parler, prendre, avoir, manger, être, rentrer
- Part
- ADJ: specialisée, spécialisée
- AUX: été, fait, eu
- VERB: fait, dit, eu, vu, passé, allée, mis, pris, allé, parlé
Nominal Features
- Fem
- ADJ: première, petite, bonne, toute, seule, toutes, grande, petites, autre, contente
- ADJ-Part: specialisée, spécialisée
- DET: la, une, ma, cette, sa, ta, aucune, quelle, certaines, toute
- NOUN: fois, maison, mère, heures, année, chose, vie, peur, ville, heure
- NUM: une
- PRON: elle, elles, la, une, personne, auxquelles, certaines, elle-même, lesquelles
- PROPN: Flora, Caraïbes, GoPro, Latine, Terres
- VERB-Fin: avance
- VERB-Part: allée, rencontrée, vue, arrivée, partie, venue, accompagnée, rentrée, mise, devenue
- Masc
- ADJ: tout, petit, tous, gros, vrai, mignon, petits, beau, bizarre, sympa
- ADV: mal, tout, plus, super
- AUX-Part: été, fait, eu
- DET: le, un, ce, du, cet, des, les, l', aucun, quelques
- NOUN: coup, fait, peu, temps, ans, moment, truc, jour, monde, côté
- NUM: neuf, un
- PRON: on, c', il, ça, lui, ils, ce, le, -ce, tout
- PROPN: Anglais, PSG, Chevaliers, M
- VERB-Fin: fait
- VERB-Inf: revoir
- VERB-Part: fait, dit, eu, vu, passé, pris, allé, parlé, commencé, rencontré
- Plur
- ADJ: tous, petits, autres, toutes, petites, scolaires, meilleures, mêmes, atypiques, courts
- ADV: sympas
- AUX-Fin: sont, étaient, ont, avaient, étiez, êtes, avez, avons, seraient, soient
- DET: les, des, mes, ses, nos, quelques, leurs, d', tes, ces
- NOUN: ans, gens, heures, parents, potes, jours, choses, activités, cours, enfants
- NUM: deux, trois, six, dix, quatre, cinq, quatorze, sept, quinze, quarante
- PRON: nous, ils, vous, les, tous, elles, leur, eux, ceux, autres
- PROPN: Anglais, Caraïbes, Cinq, Chevaliers, Terres
- VERB-Fin: sont, avaient, étaient, ont, avez, disent, disaient, voulez, allez, arrivent
- VERB-Part: partis, choqués, restés, vues, arrêtés, emmenés, rapprochées, rencontrées, sortis, amenées
- Sing
- ADJ: tout, première, petit, autre, petite, même, horrible, bonne, sympa, vrai
- ADJ-Part: specialisée, spécialisée
- ADV: mal, tout, même, sympa, plus, super
- AUX-Fin: est, était, a, ai, suis, étais, avait, avais, as, serait
- AUX-Part: été, fait, eu
- DET: le, la, un, une, l', mon, ma, cette, ce, son
- NOUN: coup, fait, peu, temps, fois, maison, moment, mère, truc, jour
- NUM: une, huit, un, vingt-deux, neuf
- PRON: on, je, c', il, j', ça, elle, tu, me, moi
- PROPN: Flora, PSG, GoPro, Latine, M
- VERB: avait, a, fait, dit, est, sais, était, va, avais, vois
- VERB-Fin: avait, a, est, sais, fait, était, dit, va, avais, vois
- VERB-Inf: revoir
- VERB-Part: fait, dit, eu, vu, passé, allée, allé, parlé, commencé, rencontré
- Def
- DET: le, la, les, l'
- Ind
- DET: un, une, des, du, d', de, le, les
Degree and Polarity
- Neg
- ADV: pas, n', ne, non, qu'
Verbal Features
- Cnd
- AUX-Fin: serait, aurait, aurais, seraient
- VERB-Fin: voudrais, dirait, irait, pourrait, serait, aimerais, changerait, connaîtrais, courait, devrait
- Imp
- AUX-Fin: sois
- VERB-Fin: vas, dis, allez, inquiète, écoute, allume, attends, demande, faites, laisse
- Ind
- AUX-Fin: est, était, a, ai, suis, étais, avait, avais, sont, étaient
- AUX-Part: fait
- VERB-Fin: avait, a, est, sais, fait, était, dit, va, avais, vois
- VERB-Part: fait
- Sub
- AUX-Fin: soit, soient, soyez
- VERB-Fin: fasse, ait, passe, soit, cherche, choisisse, décolle, puisse, accompagnes, appelle
- Fut
- AUX-Fin: sera
- VERB-Fin: passerez, rappellerai, reverrai, verras
- Imp
- AUX-Fin: était, étais, avait, avais, étaient, avaient, étiez
- VERB-Fin: avait, était, avais, faisait, allait, étais, voulait, fallait, savais, devait
- Past
- ADJ-Part: specialisée, spécialisée
- AUX-Part: été, fait, eu
- VERB-Part: fait, dit, eu, vu, passé, allée, mis, pris, allé, parlé
- Pres
- AUX-Fin: est, a, ai, suis, sont, as, ont, serait, soit, es
- VERB-Fin: a, est, sais, fait, dit, va, vois, ai, souviens, faut
- VERB-Part: sachant, demandant, indiquant, arrivant, attendant, ayant, connaissant, courant, croyant, descendant
Pronouns, Determiners, Quantifiers
- Art
- DET: le, la, un, les, une, l', des, du, d', de
- Dem
- DET: cette, ce, ces, cet
- PRON: c', ça, ce, -ce, celui, ceux, cela, celui-là
- Ind
- ADJ: tout, tous, toute
- DET: quelque, chaque, quelques, plusieurs, certaines, toute, différents, tous
- PRON: on, tout, tous, quelqu'un, un, une, autre, quoi, chacun, autres
- Int
- DET: quelle
- PRON: qu', quoi
- Neg
- ADV: jamais, nul, rien
- DET: aucune, aucun
- PRON: rien, personne, aucuns
- Prs
- DET: mon, ma, mes, son, ses, nos, sa, notre, leurs, leur
- PRON: je, il, j', y, elle, tu, me, moi, s', se
- Rel
- ADV: où
- PRON: qui, que, où, qu', dont, quoi, auxquelles, lequel, lesquelles
- Yes
- DET: mon, ma, mes, son, ses, nos, sa, notre, leurs, leur
- Yes
- PRON: me, s', se, te, m', elle-même, eux-mêmes, lui-même, moi-même, t'
- 1
- AUX-Fin: ai, suis, étais, avais, aurais, fais, avait, avons, sommes
- PRON: je, j', me, moi, nous, m', toi, -moi, moi-même
- VERB-Fin: sais, ai, avais, pense, souviens, crois, dis, vais, vois, étais
- VERB-Part: revenue, expliquant
- 2
- AUX-Fin: as, es, étais, étiez, êtes, avais, avez, sois, fais, soyez
- PRON: tu, vous, te, t', toi
- VERB-Fin: vois, as, sais, vas, fais, peux, veux, avais, souviens, avez
- 3
- AUX-Fin: est, était, a, avait, sont, étaient, ont, avaient, serait, soit
- AUX-Part: fait
- PRON: on, c', il, ça, y, elle, s', se, lui, ils
- VERB: avait, a, est, fait, était, dit, va, faisait, faut, allait
- VERB-Fin: avait, a, est, fait, était, dit, va, faisait, faut, allait
- VERB-Part: fait, dit, passé
- Plur
- DET: nos, notre, leurs, leur, ses, vos
- PRON: leur
- Sing
- DET: mon, ma, mes, son, ses, sa, tes, ton, ta
Other Features
- ExtPos
- ADJ
- ADP: en, à
- ADP
- ADP: en, à
- PRON: il
- ADV
- ADP: en, de, d', à, par, pour, pendant, dès, a, sauf
- ADV: bien, quand, pas, bel, que
- CCONJ: et
- DET: un, une, des
- INTJ: oh
- NOUN: pile
- SCONJ: quand
- CCONJ
- CCONJ: et, c'est-à-dire
- DET
- ADP: de
- INTJ
- ADJ: génial, normal, sympa
- ADV: enfin, oui, non, ~enfin, alors, genre, [clairement, effectivement, franchement, là
- INTJ: ah, quoi
- NOUN: genre, machin, pardon, dieu, bonjour, nana, patacaisse, patati
- VERB: voilà
- NOUN
- ADP: à
- NOUN: drag, bac, road, tote
- PRON
- DET: quelque
- PROPN
- X: XXX
- SCONJ
- ADP: sauf
- ADV: parce, alors, surtout, déjà, même, peut-être
- SCONJ: parce
- VERB-Part: vu
- VERB
- PRON: se, s', il, me, te, y
- X: port
- ADJ
- Person[psor]
- 1
- DET: mon, ma, mes, nos, notre
- 2
- DET: tes, ton, ta, vos
- 3
- DET: son, ses, sa, leurs, leur
- PRON: leur
- 1
- Typo
- Yes
- PUNCT: .
- Yes
Syntax
Auxiliary Verbs and Copula
- This corpus uses 1 lemmas as copulas (cop). Examples: être.
- This corpus uses 1 lemmas as passive auxiliaries (aux:pass). Examples: être.
Core Arguments, Oblique Arguments and Adjuncts
Here we consider only relations between verbs (parent) and nouns or pronouns (child).
- nsubj
- VERB--PRON (14)
- VERB-Fin--NOUN (58)
- VERB-Fin--PRON (2011)
- VERB-Inf--NOUN (2)
- VERB-Inf--PRON (8)
- VERB-Part--NOUN (33)
- VERB-Part--PRON (940)
- obj
- VERB--NOUN (3)
- VERB--PRON (5)
- VERB-Fin--NOUN (516)
- VERB-Fin--NOUN-ADP(de) (6)
- VERB-Fin--NOUN-ADP(par) (1)
- VERB-Fin--NOUN-ADP(que) (2)
- VERB-Fin--PRON (299)
- VERB-Fin--PRON-ADP(de) (1)
- VERB-Fin--PRON-ADP(quand) (1)
- VERB-Fin--PRON-ADP(que) (2)
- VERB-Inf--NOUN (191)
- VERB-Inf--NOUN-ADP(de) (2)
- VERB-Inf--PRON (144)
- VERB-Inf--PRON-ADP(de) (1)
- VERB-Part--NOUN (222)
- VERB-Part--NOUN-ADP(dans) (1)
- VERB-Part--NOUN-ADP(de) (1)
- VERB-Part--NOUN-ADP(à) (1)
- VERB-Part--PRON (206)
- VERB-Part--PRON-ADP(que) (1)
- VERB-Part--PRON-ADP(sans) (1)
- iobj
- VERB--PRON (2)
- VERB-Fin--PRON (176)
- VERB-Inf--PRON (52)
- VERB-Part--PRON (121)
Reflexive Verbs
- This corpus contains 18 lemmas that occur at least once with an expl:pv child. Examples: souvenir me, appeler s', passer se, rendre me, souvenir te, adresser s', balader se, entendre s', méfier se, appeler t', apprêter s', asseoir s', lever se, mettre s', plaindre se, ramener se, retrouver me, souvenir m'
Reflexive Passive
- This corpus contains 17 lemmas that occur at least once with an expl:pass child. Examples: améliorer s', apprendre s', décoller se, faire s', faire se, bouffer me, coiffer se, décoller s', détacher se, enrager s', faire me, maquiller se, prendre se, trouver se, tuer s', éjecter se, étaler s'
Verbs with Reflexive Core Objects
- This corpus contains 40 lemmas that occur at least once with a reflexive core object (obj or iobj). Examples: dire me, dire s', arrêter s', connaître se, rappeler me, dire se, retrouver s', voir s', arrêter se, demander me, inscrire me, parler se, rappeler te, rappeller te, sentir me, acheter s', faire me, faire s', imaginer me, infliger m', inscrire s', joindre me, mettre me, moi te, poser se, prendre s', prere me, raconter se, rappeler m', rappeler se, rappeller me, rapprocher s', regarder s', regarder se, remettre me, rencontrer s', reparler s', retourner me, s~ me, vexer s'
Relations Overview
- This corpus uses 21 relation subtypes: acl:relcl, advcl:cleft, aux:caus, aux:pass, aux:tense, dep:comp, expl:comp, expl:pass, expl:pv, expl:subj, flat:name, iobj:agent, nmod:appos, nsubj:caus, nsubj:pass, obj:agent, obj:lvc, obl:agent, obl:arg, obl:mod, parataxis:parenth
- The following 2 main types are not used alone, they are always subtyped: aux, expl
- The following 4 relation types are not used in this corpus at all: clf, list, orphan, goeswith