UD French ParisStories
Language: French (code: fr)
Family: IE
This treebank has been part of Universal Dependencies since the UD v2.9 release.
The following people have contributed to making this treebank part of UD: Kim Gerdes, Sylvain Kahane, Menel Mahamdi.
Repository: UD_French-ParisStories
Search this treebank on-line: PML-TQ
Download all treebanks: UD 2.18
License: CC BY-SA 4.0
Genre: spoken
Questions, comments? General annotation questions (either French-specific or cross-linguistic) can be raised in the main UD issue tracker. You can report bugs in this treebank in the treebank-specific issue tracker on Github. If you want to collaborate, please contact [gerdes (æt) lisn • fr]. Development of the treebank happens outside the UD repository. If there are bugs, either the original data source or the conversion procedure must be fixed. Do not submit pull requests against the UD repository.
| Annotation | Source |
|---|---|
| Lemmas | annotated manually in non-UD style, automatically converted to UD |
| UPOS | annotated manually in non-UD style, automatically converted to UD |
| XPOS | not available |
| Features | annotated manually in non-UD style, automatically converted to UD |
| Relations | annotated manually in non-UD style, automatically converted to UD |
Description
Paris Stories is a corpus of oral French collected and transcribed by Linguistics students from Sorbonne Nouvelle and corrected by students from the Plurital Master’s Degree of Computational Linguistics ( Inalco, Paris Nanterre, Sorbonne Nouvelle) between 2017 and 2021. It contains monologues and dialogues from speakers living in the Parisian region.
For an assignment, students had to record a friend or a relative sharing an anecdote about a given theme (meaningful encounters, vacations, interesting stories…). The corpus was created for the study of contemporary spoken French and to train a syntactic parser for spoken French. All data has been morpho-syntactically annotated following the SUD (Surface Syntactic Universal Dependencies) guidelines.
See SUD Guidelines: https://surfacesyntacticud.github.io/guidelines/u/
The Treebank can be found here: http://match.grew.fr/?corpus=SUD_French-ParisStories@latest
The recordings can be downloaded via the url given in the ‘# sound_url’ metadata.
Description
– Paris Stories 2019 –
Creation Year : 2017
Annotation Year : 2019
Size :
- 19 samples
- 13951 tokens
- 709 sentences
- app. 1 hour of recordings
Topics : travels, funny/unusual stories
– Paris Stories 2020 –
Creation Year : 2018
Annotation Year : 2020
Size :
- 16 samples
- 9064 tokens
- 553 sentences
- app. 30 min of recordings
Topics : vacation stories, funny/unusual stories
– Paris Stories 2021 –
Creation Year : 2020
Annotation Year : 2021
Size :
- 14 samples
- 7825 tokens
- 499 sentences
- app. 45 minutes of recordings
Topics : first encounters, funny/unusual stories
Development
The corpus is maintained here in the SUD framework and automatically converter into UD using the Grew software with the conversions rules described here.
Data Split
The file fr_parisstories-ud-test.conllu contains the following data:
ParisStories_2019_cuisineApproximative.conlluParisStories_2019_devoirPhilosophie.conlluParisStories_2019_peripitiesVoiture.conlluParisStories_2019_prepaScientifique.conlluParisStories_2019_vacancesEte.conlluParisStories_2019_voyageItalie.conlluParisStories_2020_blessureRecreation.conlluParisStories_2020_campBedouin.conlluParisStories_2020_concoursInstagram.conlluParisStories_2020_histoireHorreur.conlluParisStories_2020_poissonsNoel.conlluParisStories_2020_sortiesAdolescence.conlluParisStories_2021_adoptionMouts.conlluParisStories_2021_couruLaVoir.conlluParisStories_2021_loulouLeChat.conlluParisStories_2021_soireeHalloweenGrange.conllu
The file fr_parisstories-ud-train.conllu contains the following data:
ParisStories_2019_concoursEquitation.conlluParisStories_2019_experienceFac.conlluParisStories_2019_histoireDeBanlieue.conlluParisStories_2019_journeeTournage.conlluParisStories_2019_mauriceAventure.conlluParisStories_2019_mercrediSoir.conlluParisStories_2019_patisserieFine.conlluParisStories_2019_peripleCrous.conlluParisStories_2019_stagePrimaire.conlluParisStories_2019_voyageEcosse.conlluParisStories_2020_aideAuxEnfants.conlluParisStories_2020_alarmeTrain.conlluParisStories_2020_anecdoteMetro.conlluParisStories_2020_descenteCanoe.conlluParisStories_2020_dragQueen.conlluParisStories_2020_galereNice.conlluParisStories_2020_histoireOurs.conlluParisStories_2020_maisonAbondonnee.conlluParisStories_2020_requinReunion.conlluParisStories_2020_sangDEncre.conlluParisStories_2021_discussionSansAbris.conlluParisStories_2021_maintenantJeSais.conlluParisStories_2021_neesLeMemeMois.conlluParisStories_2021_nouveauxEleves.conlluParisStories_2021_nouvelleCollegue.conlluParisStories_2021_pireSoireeHorrible.conlluParisStories_2021_pluieEtMamie.conlluParisStories_2021_prenomDeVieille.conlluParisStories_2021_rencontreAngelaMerkel.conlluParisStories_2021_rencontreMourinho.conllu
Acknowledgments
Annotation : Sylvain Kahane, Bruno Guillaume, Mariam Nakhlé, Vanessa Gaudray-Bouju, Menel Mahamdi
Annotation tools development : Kim Gerdes, Marine Courtin, Gaël Guibon
Conversion and handling of data validation : Bruno Guillaume
Direction of data collection : Cédric Gendrot, Kim Gerdes, Marine Courtin
We would like to thank all the students who participated in this project.
The final discussions on the guidelines for spoken treebanks were supported by the COST Action CA21167 —Universality, diversity and idiosyncrasy in language technology (UniDive). Resource maintenance has been supported by Autogramm, ANR (Agence Nationale de la Recherche), Projet-ANR-21-CE38-0017 (2021-2026).
References
An article about the annotation of spoken French will soon be released (Kahane et al. 2021)
Statistics of UD French ParisStories
POS Tags
ADJ – ADP – ADV – AUX – CCONJ – DET – INTJ – NOUN – NUM – PRON – PROPN – PUNCT – SCONJ – VERB – X
Features
Case – Definite – Emph – ExtPos – Foreign – Gender – Mood – Number – Number[psor] – Person – Person[psor] – Polarity – Poss – PronType – Reflex – Tense – VerbForm – Voice
Relations
acl – acl:relcl – advcl – advcl:cleft – advmod – amod – appos – aux:caus – aux:pass – aux:tense – case – cc – ccomp – compound – conj – cop – csubj – dep – dep:comp – det – discourse – dislocated – dislocated:mod – dislocated:obj – dislocated:obl – dislocated:subj – expl:comp – expl:pass – expl:pv – expl:subj – fixed – flat – flat:foreign – flat:name – iobj – iobj:agent – mark – nmod – nmod:appos – nsubj – nsubj:caus – nsubj:outer – nsubj:pass – nummod – obj – obj:agent – obj:lvc – obl – obl:agent – obl:arg – obl:mod – parataxis – parataxis:parenth – punct – reparandum – root – vocative – xcomp
Tokenization and Word Segmentation
- This corpus contains 2776 sentences, 42257 tokens and 42789 syntactic words.
- This corpus contains 10245 tokens (24%) that are not followed by a space.
- This corpus does not contain words with spaces.
- This corpus contains 91 types of words that contain both letters and punctuation. Examples: c', j', l', qu', d', s', m', n', -ce, t', là-bas, -là, peut-être, quelqu'un, jusqu', grands-parents, -y, après-midi, aujourd'hui, demi-tour, haut-parleur, puisqu', -moi, celui-là, dix-neuf, quarante-sept, rendez-vous, vingt-deux, vingt-six, Français-Chinois, c'est-à-dire, centre-ville, demi-heure, demi-soeur, dix-huit, dix-sept, franco-allemand, grand-mère, là-haut, quarante-deux, quatre-vingt, soixante-quinze, trente-cinq, vingt-cinq, vingt-et-un, -Alpes, -on, Marie-Paul, Mitry-Claye, O'Takey
- This corpus contains 532 multi-word tokens. On average, one multi-word token consists of 2.00 syntactic words.
- There are 5 types of multi-word tokens. Examples: du, au, des, aux, auxquelles.
Morphology
Tags
- This corpus uses 15 UPOS tags out of 17 possible: ADJ, ADP, ADV, AUX, CCONJ, DET, INTJ, NOUN, NUM, PRON, PROPN, PUNCT, SCONJ, VERB, X
- This corpus does not use the following tags: PART, SYM
- This corpus contains 34 lemmas tagged as pronouns (PRON): aucun, autre, autrui, ce, cela, celui, celui-là, chacun, dont, en, eux-mêmes, lequel, lui, lui-même, moi, moi-même, nous, on, personne, que, quelqu'un, qui, quoi, rien, sien, soi, tien, toi, tous, tout, un, vous, y, ça
- This corpus contains 14 lemmas tagged as determiners (DET): aucun, ce, certains, chaque, différents, du, le, plusieurs, quel, quelque, quelques, son, tout, un
- Out of the above, 4 lemmas occurred sometimes as PRON and sometimes as DET: aucun, ce, tout, un
- This corpus contains 4 lemmas tagged as auxiliaries (AUX): avoir, faire, refaire, être
- Out of the above, 4 lemmas occurred sometimes as AUX and sometimes as VERB: avoir, faire, refaire, être
- There are 3 (de)verbal forms:
- Fin
- AUX: est, était, a, ai, suis, étais, avait, sont, avais, étaient
- VERB: avait, a, sais, fait, dit, va, avais, vois, ai, faisait
- Inf
- AUX: être, faire, avoir, refaire
- VERB: faire, aller, dire, voir, parler, prendre, avoir, manger, rentrer, passer
- Part
- ADJ: specialisée, spécialisée
- AUX: été, fait, eu
- VERB: fait, dit, vu, eu, passé, allée, mis, pris, allé, parlé
- X: re~, dispro~, fa~
Nominal Features
- Fem
- ADJ: petite, première, toute, bonne, toutes, même, contente, seule, autre, grande
- ADJ-Part: specialisée, spécialisée
- DET: la, une, l', ma, cette, sa, mon, ta, aucune, quelle
- NOUN: fois, maison, mère, heures, année, chose, vie, peur, ville, heure
- NUM: une
- PRON: elle, elles, la, une, lesquelles, toutes, elle-même
- PROPN: Flora, Caraïbes, Ecosse, Île, GoPro, Latine, Terres
- VERB-Fin: avance
- VERB-Part: allée, rencontrée, vue, arrivée, partie, venue, accompagnée, rentrée, mise, devenue
- X: ju~, quest~
- Masc
- ADJ: tout, petit, tous, vrai, même, premier, bizarre, sympa, gros, mignon
- ADV: mal, tout, plus, super
- AUX-Part: été, fait, eu
- DET: le, un, mon, l', ce, son, du, ton, cet, aucun
- NOUN: coup, fait, peu, genre, temps, ans, moment, jour, truc, monde
- NUM: neuf, un
- PRON: on, c', il, ça, ils, ce, le, lui, -ce, tous
- PROPN: Anglais, PSG, M
- VERB-Fin: fait
- VERB-Inf: revoir
- VERB-Part: fait, dit, vu, eu, passé, pris, allé, parlé, commencé, rencontré
- X: re~, dispro~, fa~, frig~, fr~, hu~, mid~
- X-Part: re~, dispro~, fa~
- Plur
- ADJ: tous, toutes, petits, autres, petites, meilleures, mêmes, courts, différentes, grands
- ADV: ensemble, sympas
- AUX-Fin: sont, étaient, ont, avaient, êtes, étiez, avez, avons, seraient, soient
- DET: les, des, mes, ses, nos, quelques, leurs, d', tes, ces
- NOUN: ans, gens, heures, parents, jours, potes, choses, activités, cours, enfants
- NUM: deux, trois, dix, six, quatre, cinq, quatorze, sept, douze, huit
- PRON: nous, ils, vous, les, tous, elles, leur, eux, ceux, autres
- PROPN: Anglais, Caraïbes, Cinq, Terres
- VERB-Fin: avaient, ont, avez, disent, disaient, voulez, étaient, allez, arrivent, faisaient
- VERB-Part: partis, choqués, restés, vues, arrêtés, emmenés, enfermés, rapprochées, rencontrées, sortis
- Sing
- ADJ: tout, petit, petite, première, même, vrai, toute, autre, bonne, sympa
- ADJ-Part: specialisée, spécialisée
- ADV: mal, tout, même, sympa, plus, super
- AUX-Fin: est, était, a, ai, suis, étais, avait, avais, as, serait
- AUX-Part: été, fait, eu
- DET: le, la, un, une, l', mon, ma, cette, ce, son
- NOUN: coup, fait, peu, genre, temps, fois, maison, moment, mère, truc
- NUM: deux, dix-neuf, quarante-sept, quinze, vingt, quarante, six, trente-cinq, vingt-deux, 3
- PRON: on, je, c', il, j', ça, elle, tu, me, moi
- PROPN: Flora, PSG, GoPro, Latine, M
- VERB-Fin: avait, a, sais, fait, dit, va, avais, vois, ai, faisait
- VERB-Inf: revoir
- VERB-Part: fait, dit, vu, eu, passé, allée, allé, parlé, commencé, rencontré
- X: re~, a~, dispro~, d~, fa~, frig~, fr~, hu~, ju~, mid~
- X-Part: re~, dispro~, fa~
- Acc
- PRON: l', nous, le, m', me, les, te, la, t', vous
- Dat
- PRON: me, lui, m', nous, leur, te, t', vous
- Nom
- PRON: on, je, il, j', elle, tu, ils, vous, nous, elles
- Def
- DET: le, la, les, l'
- Ind
- DET: un, une, des, du, d', de, le, les
Degree and Polarity
- Neg
- ADV: pas, n', ne, que, non, plus, qu'
- SCONJ: qu', que
Verbal Features
- Cnd
- AUX-Fin: serait, aurait, aurais, seraient
- VERB-Fin: voudrais, dirait, irait, pourrait, aimerais, changerait, connaîtrais, devrait, essaierait, faudrait
- Imp
- AUX-Fin: sois
- VERB-Fin: vas, dis, allez, inquiète, écoute, allume, attends, demande, faites, laisse
- Ind
- AUX-Fin: est, était, a, ai, suis, étais, avait, sont, avais, étaient
- VERB-Fin: avait, a, sais, fait, dit, va, avais, vois, ai, faisait
- Sub
- AUX-Fin: soit, soient, soyez
- VERB-Fin: fasse, ait, passe, cherche, choisisse, décolle, puisse, accompagnes, appelle, crie
- Fut
- AUX-Fin: sera
- VERB-Fin: passerez, rappellerai, reverrai, verras
- Imp
- AUX-Fin: était, étais, avait, avais, étaient, avaient, étiez
- VERB-Fin: avait, avais, faisait, était, allait, voulait, fallait, savais, devait, voulais
- Past
- ADJ-Part: specialisée, spécialisée
- AUX-Part: été, fait, eu
- X-Part: re~, dispro~, fa~
- Pres
- AUX-Fin: est, a, ai, suis, sont, as, ont, serait, soit, es
- VERB-Fin: a, sais, fait, dit, va, vois, ai, souviens, faut, pense
- Act
- AUX-Part: été
- VERB-Part: fait, eu, dit, vu, pris, commencé, parlé, rencontré, mis, demandé
- Pass
- VERB-Part: amélioré, dit, fait, rentrée, repartie, tiré, assise, confrontée, déguisé, mise
Pronouns, Determiners, Quantifiers
- Art
- DET: le, la, un, les, une, l', des, du, de, d'
- Dem
- DET: cette, ce, ces, cet
- PRON: c', ça, ce, -ce, ceux, celui, celui-là, cela
- Ind
- ADJ: tout, tous, toute
- DET: quelque, chaque, quelques, plusieurs, certaines, toute, différents
- PRON: on, tous, tout, quelqu'un, un, une, autre, chacun, autres, quoi
- Int
- ADV: où
- DET: quelle
- PRON: quoi, qu'
- Neg
- ADV: jamais, nul, rien
- DET: aucune, aucun
- PRON: rien, personne, aucuns
- Prs
- DET: mon, ma, mes, son, ses, nos, sa, notre, leurs, leur
- PRON: je, il, j', y, elle, tu, me, moi, s', se
- Rel
- ADV: où
- PRON: qui, que, qu', dont, quoi, lesquelles, lequel
- Yes
- DET: mon, ma, mes, son, ses, nos, sa, notre, leurs, leur
- Yes
- PRON: s', se, me, te, m', elle-même, eux-mêmes, lui-même, moi-même, t'
- 1
- AUX-Fin: ai, suis, étais, avais, aurais, fais, avait, avons, sommes
- PRON: je, j', me, moi, nous, m', toi, -moi, moi-même
- VERB-Fin: sais, ai, avais, pense, souviens, crois, dis, vais, vois, fais
- VERB-Part: revenue, expliquant
- 2
- AUX-Fin: as, es, étais, êtes, étiez, avais, avez, sois, fais, soyez
- PRON: tu, vous, te, t', toi
- VERB-Fin: vois, as, sais, vas, fais, peux, veux, avais, souviens, avez
- 3
- AUX-Fin: est, était, a, avait, sont, étaient, ont, avaient, serait, soit
- AUX-Part: fait
- PRON: on, c', il, ça, y, elle, s', se, lui, ils
- VERB-Fin: avait, a, fait, dit, va, faisait, faut, était, est, allait
- VERB-Part: fait, passé
- X: a~, d~, s~, é~
- Plur
- DET: nos, notre, leurs, leur, ses, vos
- Sing
- DET: mon, ma, mes, son, ses, sa, tes, ton, ta
Other Features
- Emph
- No
- PRON: on, je, il, j', elle, tu, me, nous, m', ils
- Yes
- PRON: moi, lui, elle, toi, eux, soi, -moi, elle-même, elles, eux-mêmes
- No
- ExtPos
- ADJ
- ADP: en, à
- X: ferm~, jus~, ty~
- ADP
- ADP: en, à
- PRON: il
- VERB-Part: vu
- X: d~, de~
- ADV
- ADP: en, de, à, d', par, pour, pendant, dès, a, sauf
- ADV: pas, bien, quand, non, pourquoi, bel, que
- CCONJ: et
- DET: un, une, des
- INTJ: oh
- NOUN: grâce, pile
- SCONJ: quand
- X: aus~, préci~, vraim~
- CCONJ
- CCONJ: et, c'est-à-dire
- DET
- ADP: de
- X: du~
- INTJ
- ADJ: génial, normal, sympa
- ADV: enfin, non, ~enfin, alors, clairement, effectivement, franchement, là, vraiment
- INTJ: ah, quoi
- NOUN: genre, dieu, machin, pardon, patati, bonjour, nana, patacaisse
- VERB: voilà
- X: euh~
- NOUN
- ADP: à
- NOUN: drag, bac, road, tote
- X: an~, clip~, d~, fai~, indé~, mob~, pers~, zom~, frig~, fr~
- PRON
- X: j~, i~
- PROPN
- X: XXX, Céc~, Re~
- SCONJ
- ADP: sauf
- ADV: parce, alors, surtout, déjà, même, peut-être
- SCONJ: parce
- X: qu~
- VERB
- AUX-Fin: était
- PRON: il, me, te, y
- VERB-Fin: appelle, passe, dit, passait, appelait, dirige, fait, sentaient, souhaite, trouve
- VERB-Inf: balader, mettre, taper
- X: s~, a~, é~, confron~, con~, do~, dé~, e~, manif~, port
- X-Part: re~, dispro~, fa~
- ADJ
- Foreign
- Yes
- X: best, sellers
- Yes
- Person[psor]
- 1
- DET: mon, ma, mes, nos, notre
- 2
- DET: tes, ton, ta, vos
- 3
- DET: son, ses, sa, leurs, leur
- 1
Syntax
Auxiliary Verbs and Copula
- This corpus uses 1 lemmas as copulas (cop). Examples: être.
- This corpus uses 1 lemmas as passive auxiliaries (aux:pass). Examples: être.
Core Arguments, Oblique Arguments and Adjuncts
Here we consider only relations between verbs (parent) and nouns or pronouns (child).
- nsubj
- VERB-Fin--NOUN (56)
- VERB-Fin--PRON (315)
- VERB-Fin--PRON-Nom (1574)
- VERB-Inf--NOUN (2)
- VERB-Inf--PRON (8)
- VERB-Inf--PRON-Nom (6)
- VERB-Part--NOUN (33)
- VERB-Part--PRON (89)
- VERB-Part--PRON-Nom (843)
- obj
- VERB--NOUN (3)
- VERB-Fin--NOUN (517)
- VERB-Fin--NOUN-ADP(de) (6)
- VERB-Fin--NOUN-ADP(par) (1)
- VERB-Fin--NOUN-ADP(que) (2)
- VERB-Fin--PRON (170)
- VERB-Fin--PRON-ADP(de) (1)
- VERB-Fin--PRON-ADP(que) (1)
- VERB-Fin--PRON-Acc (125)
- VERB-Fin--PRON-Nom (2)
- VERB-Inf--NOUN (189)
- VERB-Inf--NOUN-ADP(de) (2)
- VERB-Inf--PRON (59)
- VERB-Inf--PRON-ADP(de) (1)
- VERB-Inf--PRON-Acc (83)
- VERB-Inf--PRON-Nom (1)
- VERB-Part--NOUN (218)
- VERB-Part--NOUN-ADP(dans) (1)
- VERB-Part--NOUN-ADP(de) (1)
- VERB-Part--NOUN-ADP(à) (1)
- VERB-Part--PRON (86)
- VERB-Part--PRON-Acc (114)
- iobj
- VERB-Fin--PRON (31)
- VERB-Fin--PRON-Acc (3)
- VERB-Fin--PRON-Dat (151)
- VERB-Inf--PRON (13)
- VERB-Inf--PRON-Acc (1)
- VERB-Inf--PRON-Dat (38)
- VERB-Part--PRON (26)
- VERB-Part--PRON-Acc (1)
- VERB-Part--PRON-Dat (92)
Reflexive Verbs
- This corpus contains 44 lemmas that occur at least once with an expl:pv child. Examples: souvenir me, passer se, appeler s', passer s', balader se, entendre s', rendre me, rendre s', souvenir te, adresser s', aller s', faire se, lever s', mettre s', méfier se, plaindre se, promener se, relever se, échouer s', évaporer s', amuser s', appeler t', apprêter s', asseoir s', attendre s', balader s', baser se, coller s', croire s', diriger se, ennuyer s', imaginer me, lever se, péter se, qualifier s', ramener se, rendre se, renseigner s', retrouver me, retrouver se, souvenir m', taper s', tourner se, tromper s'
Reflexive Passive
- This corpus contains 17 lemmas that occur at least once with an expl:pass child. Examples: améliorer s', apprendre s', décoller se, faire s', faire se, trouver se, bouffer me, coiffer se, décoller s', détacher se, enrager s', faire me, maquiller se, prendre se, tuer s', éjecter se, étaler s'
Verbs with Reflexive Core Objects
- This corpus contains 74 lemmas that occur at least once with a reflexive core object (obj or iobj). Examples: dire me, connaître se, dire s', arrêter s', dire se, rappeler me, installer s', parler se, rencontrer s', retrouver s', spécialiser se, taper se, faire s', habituer s', mettre se, rappeler te, rapprocher s', voir s', voir se, amuser s', arrêter se, demander me, faire se, inscrire me, inscrire s', lancer s', mettre s', parler s', poser se, raconter se, rappeler se, sentir me, acheter s', aider s', assouplir s', attacher s', cacher se, coucher se, engueuler s', envoyer s', faire me, falloir se, infliger m', insulter s', intégrer s', joindre me, manifester se, mettre me, moi te, passer s'
- Out of those, 3 lemmas occurred more than once, but never without a reflexive dependent. Examples: inscrire, habituer, amuser
Relations Overview
- This corpus uses 27 relation subtypes: acl:relcl, advcl:cleft, aux:caus, aux:pass, aux:tense, dep:comp, dislocated:mod, dislocated:obj, dislocated:obl, dislocated:subj, expl:comp, expl:pass, expl:pv, expl:subj, flat:foreign, flat:name, iobj:agent, nmod:appos, nsubj:caus, nsubj:outer, nsubj:pass, obj:agent, obj:lvc, obl:agent, obl:arg, obl:mod, parataxis:parenth
- The following 2 main types are not used alone, they are always subtyped: aux, expl
- The following 4 relation types are not used in this corpus at all: clf, list, orphan, goeswith