UD French ParisStories
Language: French (code: fr)
Family: IE
This treebank has been part of Universal Dependencies since the UD v2.9 release.
The following people have contributed to making this treebank part of UD: Kim Gerdes, Sylvain Kahane, Menel Mahamdi.
Repository: UD_French-ParisStories
Search this treebank on-line: PML-TQ
Download all treebanks: UD 2.17
License: CC BY-SA 4.0
Genre: spoken
Questions, comments? General annotation questions (either French-specific or cross-linguistic) can be raised in the main UD issue tracker. You can report bugs in this treebank in the treebank-specific issue tracker on Github. If you want to collaborate, please contact [gerdes (æt) lisn • fr]. Development of the treebank happens outside the UD repository. If there are bugs, either the original data source or the conversion procedure must be fixed. Do not submit pull requests against the UD repository.
| Annotation | Source |
|---|---|
| Lemmas | annotated manually in non-UD style, automatically converted to UD |
| UPOS | annotated manually in non-UD style, automatically converted to UD |
| XPOS | not available |
| Features | annotated manually in non-UD style, automatically converted to UD |
| Relations | annotated manually in non-UD style, automatically converted to UD |
Description
Paris Stories is a corpus of oral French collected and transcribed by Linguistics students from Sorbonne Nouvelle and corrected by students from the Plurital Master’s Degree of Computational Linguistics ( Inalco, Paris Nanterre, Sorbonne Nouvelle) between 2017 and 2021. It contains monologues and dialogues from speakers living in the Parisian region.
For an assignment, students had to record a friend or a relative sharing an anecdote about a given theme (meaningful encounters, vacations, interesting stories..). The corpus was created for the study of contemporary spoken French and to train a syntactic parser for spoken French. All data has been morpho-syntactically annotated following the SUD (Surface Syntactic Universal Dependencies) guidelines.
See SUD Guidelines : https://surfacesyntacticud.github.io/guidelines/u/
The Treebank can be found here : http://match.grew.fr/?corpus=SUD_French-ParisStories@latest
The recordings can be downloaded via the url given in the ‘# sound_url’ metadata.
Description
– Paris Stories 2019 –
Creation Year : 2017
Annotation Year : 2019
Size :
- 19 samples
- 13951 tokens
- 709 sentences
- app. 1 hour of recordings
Topics : travels, funny/unusual stories
– Paris Stories 2020 –
Creation Year : 2018
Annotation Year : 2020
Size :
- 16 samples
- 9064 tokens
- 553 sentences
- app. 30 min of recordings
Topics : vacation stories, funny/unusual stories
– Paris Stories 2021 –
Creation Year : 2020
Annotation Year : 2021
Size :
- 14 samples
- 7825 tokens
- 499 sentences
- app. 45 minutes of recordings
Topics : first encounters, funny/unusual stories
Development
The corpus is maintained here in the SUD framework and automatically converter into UD using the Grew software with the conversions rules described here.
Data Split
The file fr_parisstories-ud-test.conllu contains the following data:
ParisStories_2019_cuisineApproximative.conlluParisStories_2019_devoirPhilosophie.conlluParisStories_2019_peripitiesVoiture.conlluParisStories_2019_prepaScientifique.conlluParisStories_2019_vacancesEte.conlluParisStories_2019_voyageItalie.conlluParisStories_2020_blessureRecreation.conlluParisStories_2020_campBedouin.conlluParisStories_2020_concoursInstagram.conlluParisStories_2020_histoireHorreur.conlluParisStories_2020_poissonsNoel.conlluParisStories_2020_sortiesAdolescence.conlluParisStories_2021_adoptionMouts.conlluParisStories_2021_couruLaVoir.conlluParisStories_2021_loulouLeChat.conlluParisStories_2021_soireeHalloweenGrange.conllu
The file fr_parisstories-ud-train.conllu contains the following data:
ParisStories_2019_concoursEquitation.conlluParisStories_2019_experienceFac.conlluParisStories_2019_histoireDeBanlieue.conlluParisStories_2019_journeeTournage.conlluParisStories_2019_mauriceAventure.conlluParisStories_2019_mercrediSoir.conlluParisStories_2019_patisserieFine.conlluParisStories_2019_peripleCrous.conlluParisStories_2019_stagePrimaire.conlluParisStories_2019_voyageEcosse.conlluParisStories_2020_aideAuxEnfants.conlluParisStories_2020_alarmeTrain.conlluParisStories_2020_anecdoteMetro.conlluParisStories_2020_descenteCanoe.conlluParisStories_2020_dragQueen.conlluParisStories_2020_galereNice.conlluParisStories_2020_histoireOurs.conlluParisStories_2020_maisonAbondonnee.conlluParisStories_2020_requinReunion.conlluParisStories_2020_sangDEncre.conlluParisStories_2021_discussionSansAbris.conlluParisStories_2021_maintenantJeSais.conlluParisStories_2021_neesLeMemeMois.conlluParisStories_2021_nouveauxEleves.conlluParisStories_2021_nouvelleCollegue.conlluParisStories_2021_pireSoireeHorrible.conlluParisStories_2021_pluieEtMamie.conlluParisStories_2021_prenomDeVieille.conlluParisStories_2021_rencontreAngelaMerkel.conlluParisStories_2021_rencontreMourinho.conllu
Acknowledgments
Annotation : Sylvain Kahane, Bruno Guillaume, Mariam Nakhlé, Vanessa Gaudray-Bouju, Menel Mahamdi
Annotation tools development : Kim Gerdes, Marine Courtin, Gaël Guibon
Conversion and handling of data validation : Bruno Guillaume
Direction of data collection : Cédric Gendrot, Kim Gerdes, Marine Courtin
We would like to thank all the students who participated in this project.
References
An article about the annotation of spoken French will soon be released (Kahane et al. 2021)
Statistics of UD French ParisStories
POS Tags
ADJ – ADP – ADV – AUX – CCONJ – DET – INTJ – NOUN – NUM – PRON – PROPN – PUNCT – SCONJ – VERB – X
Features
Case – Definite – Emph – ExtPos – Gender – Mood – Number – Number[psor] – Person – Person[psor] – Polarity – Poss – PronType – Reflex – Tense – VerbForm – Voice
Relations
acl – acl:relcl – advcl – advcl:cleft – advmod – amod – appos – aux:caus – aux:pass – aux:tense – case – cc – ccomp – compound – conj – cop – csubj – dep – dep:comp – det – discourse – dislocated – expl:comp – expl:pass – expl:pv – expl:subj – fixed – flat – flat:name – iobj – iobj:agent – mark – nmod – nmod:appos – nsubj – nsubj:caus – nsubj:outer – nsubj:pass – nummod – obj – obj:agent – obj:lvc – obl – obl:agent – obl:arg – obl:mod – parataxis – parataxis:parenth – punct – reparandum – root – vocative – xcomp
Tokenization and Word Segmentation
- This corpus contains 2776 sentences, 42257 tokens and 42789 syntactic words.
- This corpus contains 10245 tokens (24%) that are not followed by a space.
- This corpus does not contain words with spaces.
- This corpus contains 91 types of words that contain both letters and punctuation. Examples: c', j', l', qu', d', s', m', n', -ce, t', là-bas, -là, peut-être, quelqu'un, jusqu', grands-parents, -y, après-midi, aujourd'hui, demi-tour, haut-parleur, puisqu', -moi, celui-là, dix-neuf, quarante-sept, rendez-vous, vingt-deux, vingt-six, Français-Chinois, c'est-à-dire, centre-ville, demi-heure, demi-soeur, dix-huit, dix-sept, franco-allemand, grand-mère, là-haut, quarante-deux, quatre-vingt, soixante-quinze, trente-cinq, vingt-cinq, vingt-et-un, -Alpes, -on, Marie-Paul, Mitry-Claye, O'Takey
- This corpus contains 532 multi-word tokens. On average, one multi-word token consists of 2.00 syntactic words.
- There are 5 types of multi-word tokens. Examples: du, au, des, aux, auxquelles.
Morphology
Tags
- This corpus uses 15 UPOS tags out of 17 possible: ADJ, ADP, ADV, AUX, CCONJ, DET, INTJ, NOUN, NUM, PRON, PROPN, PUNCT, SCONJ, VERB, X
- This corpus does not use the following tags: PART, SYM
- This corpus contains 37 lemmas tagged as pronouns (PRON): aucun, autre, autrui, ce, cela, celui, celui-là, certain, chacun, dont, en, eux, eux-mêmes, lequel, lesquelles, lui, lui-même, moi, moi-même, nous, on, où, personne, que, quelqu'un, qui, quoi, rien, sien, soi, tien, toi, tout, un, vous, y, ça
- This corpus contains 19 lemmas tagged as determiners (DET): aucun, ce, certain, cette, chaque, de, différent, du, le, les, plusieurs, quel, quelle, quelque, quelques, son, tout, un, une
- Out of the above, 5 lemmas occurred sometimes as PRON and sometimes as DET: aucun, ce, certain, tout, un
- This corpus contains 4 lemmas tagged as auxiliaries (AUX): avoir, faire, refaire, être
- Out of the above, 4 lemmas occurred sometimes as AUX and sometimes as VERB: avoir, faire, refaire, être
- There are 3 (de)verbal forms:
- Fin
- AUX: est, était, a, ai, suis, étais, avait, sont, avais, étaient
- VERB: avait, a, sais, fait, dit, va, avais, vois, ai, faisait
- Inf
- AUX: être, faire, avoir, refaire
- VERB: faire, aller, dire, voir, parler, prendre, avoir, manger, rentrer, passer
- Part
- ADJ: specialisée, spécialisée
- AUX: été, fait, eu
- VERB: fait, dit, allée, allé, eu, vu, passé, parti, arrivé, parlé
- X: re~, dispro~, fa~
Nominal Features
- Fem
- ADJ: petite, première, toute, toutes, bonne, contente, grande, petites, dernière, différentes
- ADJ-Part: specialisée, spécialisée
- DET: la, une, ma, cette, sa, ta, aucune, quelle, certaines, toute
- NUM: une
- PRON: elle, elles, la, une, lesquelles, toutes, certaines, elle-même
- PROPN: Flora, Caraïbes, GoPro, Latine, Terres
- VERB-Fin: avance
- VERB-Part: mise, prise, assise, morte, ouverte, soumise
- X: ju~, quest~
- Masc
- ADJ: tout, petit, tous, premier, gros, mignon, beau, petits, bon, long
- ADV: mal, tout, plus, super
- AUX-Part: été, fait, eu
- DET: le, un, mon, ce, son, du, ton, cet, des, les
- NOUN: champignon, coocooning
- NUM: neuf, un
- PRON: on, c', il, ça, ils, ce, le, lui, -ce, tout
- PROPN: Anglais, PSG, Chevaliers, M
- VERB-Fin: fait
- VERB-Inf: revoir
- VERB-Part: fait, dit, pris, mis, pu, été, compris, écrit, découvert, dégouté
- X: re~, dispro~, fa~, frig~, fr~, hu~, mid~
- X-Part: re~, dispro~, fa~
- Plur
- ADJ: petits, meilleures, grands, autres, amicaux, beaux, bonnes, jeunes, musicaux, mêmes
- ADV: sympas
- AUX-Fin: sont, étaient, ont, avaient, êtes, étiez, avez, avons, seraient, soient
- DET: les, des, mes, ses, nos, quelques, leurs, d', tes, ces
- NOUN: yeux, animaux, œufs, hôpitaux
- NUM: dix, cinq, mille, cents, cinquante, deux, dix-sept, douze, quatre, six
- PRON: nous, ils, vous, les, tous, elles, leur, eux, ceux, autres
- PROPN: Anglais, Caraïbes, Cinq, Chevaliers, Terres
- VERB-Fin: avaient, ont, avez, disent, disaient, voulez, étaient, allez, arrivent, faisaient
- VERB-Part: dégoutés, expliquant
- Sing
- ADJ: génial, normal, bonne, spécial, première, général, meilleure, même, deuxième, petit
- ADV: mal, tout, même, sympa, plus, super
- AUX-Fin: est, était, a, ai, suis, étais, avait, avais, as, serait
- AUX-Part: été, fait, eu
- DET: le, la, un, une, l', mon, ma, cette, ce, son
- NOUN: cheval, mal, animal, signal, général, hôpital, terminale, rougail, total
- PRON: on, je, c', il, j', ça, elle, tu, me, moi
- PROPN: Flora, PSG, GoPro, Latine, M
- VERB-Fin: avait, a, sais, fait, dit, va, avais, vois, ai, faisait
- VERB-Inf: revoir
- VERB-Part: pu, été, dégouté, fallu, courru, intéragi, menais, supspendu
- X: re~, a~, dispro~, d~, fa~, frig~, fr~, hu~, ju~, mid~
- X-Part: re~, dispro~, fa~
- Acc
- PRON: l', nous, le, m', me, les, te, la, t', vous
- Dat
- PRON: me, lui, m', nous, leur, te, t', vous
- Nom
- PRON: on, je, il, j', elle, tu, ils, vous, nous, elles
- Def
- DET: le, la, les, l'
- Ind
- DET: un, une, des, du, d', de, le, les
Degree and Polarity
- Neg
- ADV: pas, n', ne, que, non, plus, qu'
- SCONJ: qu', que
Verbal Features
- Cnd
- AUX-Fin: serait, aurait, aurais, seraient
- VERB-Fin: voudrais, dirait, irait, pourrait, aimerais, changerait, connaîtrais, courait, devrait, essaierait
- Imp
- AUX-Fin: sois
- VERB-Fin: vas, dis, allez, inquiète, écoute, allume, attends, demande, faites, laisse
- Ind
- AUX-Fin: est, était, a, ai, suis, étais, avait, sont, avais, étaient
- VERB-Fin: avait, a, sais, fait, dit, va, avais, vois, ai, faisait
- Sub
- AUX-Fin: soit, soient, soyez
- VERB-Fin: fasse, ait, passe, cherche, choisisse, décolle, puisse, accompagnes, appelle, crie
- Fut
- AUX-Fin: sera
- VERB-Fin: passerez, rappellerai, reverrai, verras
- Imp
- AUX-Fin: était, étais, avait, avais, étaient, avaient, étiez
- VERB-Fin: avait, avais, faisait, était, allait, voulait, fallait, savais, devait, voulais
- Past
- ADJ-Part: specialisée, spécialisée
- AUX-Part: été, fait, eu
- X-Part: re~, dispro~, fa~
- Pres
- AUX-Fin: est, a, ai, suis, sont, as, ont, serait, soit, es
- VERB-Fin: a, sais, fait, dit, va, vois, ai, souviens, faut, pense
- Act
- AUX-Part: été
- VERB-Part: fait, eu, dit, vu, pris, commencé, parlé, rencontré, mis, demandé
- Pass
- VERB-Part: amélioré, dit, fait, rentrée, repartie, tiré, assise, confrontée, déguisé, mise
Pronouns, Determiners, Quantifiers
- Art
- DET: le, la, un, les, une, l', des, du, de, d'
- Dem
- DET: cette, ce, ces, cet
- PRON: c', ça, ce, -ce, ceux, celui, celui-là, cela
- Ind
- ADJ: tout, tous, toute
- DET: chaque, quelque, quelques, plusieurs, certaines, toute, différents, tous
- PRON: on, tout, tous, quelqu'un, un, une, autre, chacun, autres, quoi
- Int
- DET: quelle
- PRON: quoi, qu'
- Neg
- ADV: jamais, nul, rien
- DET: aucune, aucun
- PRON: rien, personne, aucuns
- Prs
- DET: mon, ma, mes, son, ses, nos, sa, notre, leurs, leur
- PRON: je, il, j', y, elle, tu, me, moi, s', se
- Rel
- ADV: où
- PRON: qui, que, où, qu', dont, quoi, lesquelles, lequel
- Yes
- DET: mon, ma, mes, son, ses, nos, sa, notre, leurs, leur
- Yes
- PRON: me, s', se, te, m', elle-même, eux-mêmes, lui-même, moi-même, t'
- 1
- AUX-Fin: ai, suis, étais, avais, aurais, fais, avait, avons, sommes
- PRON: je, j', me, moi, nous, m', toi, -moi, moi-même
- VERB-Fin: sais, ai, avais, pense, souviens, crois, dis, vais, vois, fais
- VERB-Part: revenue, expliquant
- 2
- AUX-Fin: as, es, étais, êtes, étiez, avais, avez, sois, fais, soyez
- PRON: tu, vous, te, t', toi
- VERB-Fin: vois, as, sais, vas, fais, peux, veux, avais, souviens, avez
- 3
- AUX-Fin: est, était, a, avait, sont, étaient, ont, avaient, serait, soit
- AUX-Part: fait
- PRON: on, c', il, ça, y, elle, s', se, lui, ils
- VERB-Fin: avait, a, fait, dit, va, faisait, faut, était, est, allait
- VERB-Part: fait, dit, menais, passé
- X: a~, d~, s~, é~
- Plur
- DET: nos, notre, leurs, leur, ses, vos
- Sing
- DET: mon, ma, mes, son, ses, sa, tes, ton, ta
Other Features
- Emph
- No
- PRON: on, je, il, j', elle, tu, me, nous, m', ils
- Yes
- PRON: moi, lui, elle, toi, eux, soi, -moi, elle-même, elles, eux-mêmes
- No
- ExtPos
- ADJ
- ADP: en, à
- X: ferm~, jus~, ty~
- ADP
- ADP: en, à
- PRON: il
- VERB: vu
- VERB-Part: vu
- X: d~, de~
- ADV
- ADP: en, de, à, d', par, pour, pendant, dès, a, sauf
- ADV: bien, quand, non, pas, bel, que
- CCONJ: et
- DET: un, une, des
- INTJ: oh
- NOUN: pile
- SCONJ: quand
- X: aus~, préci~, vraim~
- CCONJ
- CCONJ: et, c'est-à-dire
- DET
- ADP: de
- X: du~
- INTJ
- ADJ: sympa, génial, normal
- ADV: enfin, non, ~enfin, alors, clairement, effectivement, franchement, là, vraiment
- INTJ: ah, quoi
- NOUN: genre, dieu, machin, pardon, bonjour, nana, patacaisse, patati
- VERB: voilà
- X: euh~
- NOUN
- ADP: à
- NOUN: drag, bac, road, tote
- X: an~, clip~, d~, fai~, indé~, mob~, pers~, zom~, frig~, fr~
- PRON
- DET: quelque
- X: j~, i~
- PROPN
- X: XXX, Céc~, Re~
- SCONJ
- ADP: sauf
- ADV: parce, alors, surtout, déjà, même, peut-être
- SCONJ: parce
- X: qu~
- VERB
- PRON: se, s', il, me, te, y
- X: s~, a~, é~, confron~, con~, do~, dé~, e~, manif~, port
- X-Part: re~, dispro~, fa~
- ADJ
- Person[psor]
- 1
- DET: mon, ma, mes, nos, notre
- 2
- DET: tes, ton, ta, vos
- 3
- DET: son, ses, sa, leurs, leur
- 1
Syntax
Auxiliary Verbs and Copula
- This corpus uses 1 lemmas as copulas (cop). Examples: être.
- This corpus uses 1 lemmas as passive auxiliaries (aux:pass). Examples: être.
Core Arguments, Oblique Arguments and Adjuncts
Here we consider only relations between verbs (parent) and nouns or pronouns (child).
- nsubj
- VERB--PRON (2)
- VERB-Fin--NOUN (55)
- VERB-Fin--PRON (301)
- VERB-Fin--PRON-Nom (1566)
- VERB-Inf--NOUN (2)
- VERB-Inf--PRON (8)
- VERB-Inf--PRON-Nom (6)
- VERB-Part--NOUN (33)
- VERB-Part--PRON (89)
- VERB-Part--PRON-Nom (845)
- obj
- VERB--NOUN (3)
- VERB--PRON (1)
- VERB-Fin--NOUN (513)
- VERB-Fin--NOUN-ADP(de) (6)
- VERB-Fin--NOUN-ADP(par) (1)
- VERB-Fin--NOUN-ADP(que) (2)
- VERB-Fin--PRON (167)
- VERB-Fin--PRON-ADP(de) (1)
- VERB-Fin--PRON-ADP(que) (1)
- VERB-Fin--PRON-Acc (125)
- VERB-Fin--PRON-Nom (1)
- VERB-Fin--PRON-Nom-ADP(quand) (1)
- VERB-Inf--NOUN (189)
- VERB-Inf--NOUN-ADP(de) (2)
- VERB-Inf--PRON (57)
- VERB-Inf--PRON-ADP(de) (1)
- VERB-Inf--PRON-Acc (83)
- VERB-Inf--PRON-Nom (1)
- VERB-Part--NOUN (219)
- VERB-Part--NOUN-ADP(dans) (1)
- VERB-Part--NOUN-ADP(de) (1)
- VERB-Part--NOUN-ADP(à) (1)
- VERB-Part--PRON (86)
- VERB-Part--PRON-Acc (114)
- iobj
- VERB-Fin--PRON (27)
- VERB-Fin--PRON-Acc (3)
- VERB-Fin--PRON-Dat (150)
- VERB-Inf--PRON (14)
- VERB-Inf--PRON-Acc (1)
- VERB-Inf--PRON-Dat (38)
- VERB-Part--PRON (27)
- VERB-Part--PRON-Acc (1)
- VERB-Part--PRON-Dat (93)
Reflexive Verbs
- This corpus contains 19 lemmas that occur at least once with an expl:pv child. Examples: souvenir me, appeler s', passer se, rendre me, souvenir te, adresser s', balader se, entendre s', méfier se, appeler t', apprêter s', asseoir s', imaginer me, lever se, mettre s', plaindre se, ramener se, retrouver me, souvenir m'
Reflexive Passive
- This corpus contains 17 lemmas that occur at least once with an expl:pass child. Examples: améliorer s', apprendre s', décoller se, faire s', faire se, bouffer me, coiffer se, décoller s', détacher se, enrager s', faire me, maquiller se, prendre se, trouver se, tuer s', éjecter se, étaler s'
Verbs with Reflexive Core Objects
- This corpus contains 38 lemmas that occur at least once with a reflexive core object (obj or iobj). Examples: dire me, dire s', arrêter s', connaître se, rappeler me, dire se, rappeler te, retrouver s', voir s', arrêter se, demander me, inscrire me, parler se, sentir me, acheter s', faire me, faire s', infliger m', inscrire s', joindre me, mettre me, moi te, poser se, prendre me, prendre s', raconter se, rappeler m', rappeler se, rappeller te, rapprocher s', regarder s', regarder se, remettre me, rencontrer s', reparler s', retourner me, s~ me, vexer s'
Relations Overview
- This corpus uses 22 relation subtypes: acl:relcl, advcl:cleft, aux:caus, aux:pass, aux:tense, dep:comp, expl:comp, expl:pass, expl:pv, expl:subj, flat:name, iobj:agent, nmod:appos, nsubj:caus, nsubj:outer, nsubj:pass, obj:agent, obj:lvc, obl:agent, obl:arg, obl:mod, parataxis:parenth
- The following 2 main types are not used alone, they are always subtyped: aux, expl
- The following 4 relation types are not used in this corpus at all: clf, list, orphan, goeswith