UD Danish DDT
Language: Danish (code: da
)
Family: IE
This treebank has been part of Universal Dependencies since the UD v1.1 release.
The following people have contributed to making this treebank part of UD: Anders Johannsen, Héctor Martínez Alonso, Barbara Plank.
Repository: UD_Danish-DDT
Search this treebank on-line: PML-TQ
Download all treebanks: UD 2.15
License: CC BY-SA 4.0
Genre: news, fiction, spoken, nonfiction
Questions, comments? General annotation questions (either Danish-specific or cross-linguistic) can be raised in the main UD issue tracker. You can report bugs in this treebank in the treebank-specific issue tracker on Github. If you want to collaborate, please contact [zeman (æt) ufal • mff • cuni • cz]. Development of the treebank happens directly in the UD repository, so you may submit bug fixes as pull requests against the dev branch.
Annotation | Source |
---|---|
Lemmas | annotated manually in non-UD style, automatically converted to UD |
UPOS | annotated manually in non-UD style, automatically converted to UD |
XPOS | not available |
Features | annotated manually in non-UD style, automatically converted to UD |
Relations | annotated manually in non-UD style, automatically converted to UD |
Description
The Danish UD treebank is a conversion of the Danish Dependency Treebank.
The Danish UD treebank has been converted from the Danish Dependency Treebank (Buch-Kromman,2003) into Universal Dependencies (UD). It consists of 5,512 sentences (100k words). The Danish source texts and the Danish part-of-speech tags were created by the PAROLE-DK project (Keson 1998) by the Danish Society for Language and Literature.
In the DDT formalism, determiners head nouns, and auxiliaries head verbs. In order to promote content words to heads, we have applied a cascade of graph transformations that make function words (determiners, auxiliaries, conjunctions, etc) leaves in the dependency tree, instead of intermediate elements between content heads.
The part-of-speech tags and labels from the original treebank have been partially converted using mappings, and partially using the new calculated tree structure as a reference to assign labels.
The Danish Dependency Treebank was released under the GNU GPL license, hence that license can be used for UD_Danish as well. However, since GPL is more suitable for programs than for data (see https://github.com/UniversalDependencies/docs/issues/296 for a discussion), we asked for and Matthias Buch-Kromann was kind enough to grant the permission to use the Creative Commons license as an alternative.
Acknowledgments
Contributors (in order of last names)
- Anders Johannsen
- Héctor Martínez Alonso
- Barbara Plank
References
-
Johannsen, Anders, Martínez Alonso, Héctor and Plank, Barbara. “Universal Dependencies for Danish”. TLT14, 2015.
-
Buch-Kromann, Matthias T., Line Mikkelsen, and Stine Kern Lynge. “Danish dependency treebank.”. TLT. 2003.
-
Keson, Britt (1998). Documentation of The Danish Morpho-syntactically Tagged PAROLE Corpus. Technical report, DSL
Statistics of UD Danish DDT
POS Tags
ADJ – ADP – ADV – AUX – CCONJ – DET – INTJ – NOUN – NUM – PART – PRON – PROPN – PUNCT – SCONJ – SYM – VERB – X
Features
Abbr – AdpType – Case – Definite – Degree – Foreign – Gender – Mood – Number – Number[psor] – NumType – PartType – Person – Polite – Poss – PronType – Reflex – Style – Tense – VerbForm – Voice
Relations
acl – acl:relcl – advcl – advmod – advmod:lmod – amod – appos – aux – case – cc – ccomp – compound – compound:prt – conj – cop – dep – det – discourse – dislocated – expl – fixed – flat – iobj – list – mark – nmod – nmod:poss – nsubj – nsubj:outer – nummod – obj – obl – obl:lmod – obl:tmod – orphan – parataxis – punct – reparandum – root – vocative – xcomp
Tokenization and Word Segmentation
- This corpus contains 5512 sentences and 100733 tokens.
- This corpus contains 13278 tokens (13%) that are not followed by a space.
- This corpus does not contain words with spaces.
- This corpus contains 1015 types of words that contain both letters and punctuation. Examples: kr., f.eks., bl.a., pct., pr., ca., B.T., mill., kg., kgl., B., Bosnien-Hercegovina, fig., kl., IKKE-skyldig, K., P., mia., stk., A/S, H., J., a., kvm., C., H.L., m.v., nr., Ellemann-Jensen, Inc., KV-regeringen, Ninn-Hansens, bl., d., forsknings-, ha', hhv., km., sgu', tre-fire, 19-årige, 1980'erne, 23-årige, 42-årige, 80'erne, Astma-Bodil, EF-lande, EF-landene, Elvis', FN's
Morphology
Tags
- This corpus uses 17 UPOS tags out of 17 possible: ADJ, ADP, ADV, AUX, CCONJ, DET, INTJ, NOUN, NUM, PART, PRON, PROPN, PUNCT, SCONJ, SYM, VERB, X
- This corpus contains 1 word types tagged as particles (PART): at
- This corpus contains 36 lemmas tagged as pronouns (PRON): I, alting, anden, begge, de, den, denne, der, deres, det, du, en, enhver, han, hans, hendes, her, hinanden, hun, hvad, hvem, hver, hvilken, hvis, ingen, ingenting, jeg, man, min, nogen, selv, sig, sin, som, vi, vores
- This corpus contains 23 lemmas tagged as determiners (DET): alting, anden, begge, den, denne, dens, deres, det, dets, din, en, enhver, hans, hendes, hver, ingen, jeres, min, nogen, selv, sin, somme, vores
- Out of the above, 18 lemmas occurred sometimes as PRON and sometimes as DET: alting, anden, begge, den, denne, deres, det, en, enhver, hans, hendes, hver, ingen, min, nogen, selv, sin, vores
- This corpus contains 9 lemmas tagged as auxiliaries (AUX): blive, burde, have, kunne, måtte, skulle, turde, ville, være
- Out of the above, 8 lemmas occurred sometimes as AUX and sometimes as VERB: blive, have, kunne, måtte, skulle, turde, ville, være
- There are 4 (de)verbal forms:
- Fin
- AUX: er, har, kan, var, skal, vil, blev, kunne, havde, må
- VERB: er, har, siger, var, får, fik, sagde, bliver, kommer, blev
- Ger
- VERB: medvirken, afventen, banken, formåen, fremtræden, gåen, hvislen, indgriben, mumlen, skaben
- Inf
- AUX: være, have, blive, kunne, skulle, turde, ville, ku', måtte
- VERB: få, gå, se, have, komme, blive, være, gøre, tage, finde
- Part
- AUX: været, blevet, kunnet, måttet, turdet, villet, værende
- VERB: fået, været, blevet, set, haft, gjort, gået, kommet, sagt, kommende
Nominal Features
- Com
- ADJ: stor, ny, klar, lang, god, egen, sådan, al, almindelig, fri
- DET: en, den, sin, denne, min, ingen, anden, nogen, én, din
- NOUN: kr., gang, dag, tid, del, mand, måde, verden, dage, gange
- NUM: halv, en, halvanden, én
- PRON: han, jeg, vi, man, hun, den, du, ham, mig, os
- VERB-Part: foretrukne, udskårne
- Neut
- ADJ: alt, stort, godt, nyt, svært, muligt, eget, klart, vigtigt, halvt
- DET: et, det, sit, noget, mit, dette, andet, intet, vort, ethvert
- NOUN: år, folk, går, par, børn, mennesker, stedet, fald, arbejde, sted
- NUM: halvt
- PRON: det, noget, andet, dette, et, hvilket, hvert, intet, a., dét
- Plur
- ADJ: alle, mange, flere, danske, store, nye, fleste, forskellige, få, gamle
- DET: de, andre, nogle, sine, disse, vore, begge, mine, andres, dine
- NOUN: år, kr., børn, folk, mennesker, dage, gange, kroner, problemer, pct.
- NUM: flere
- PRON: vi, de, dem, os, andre, hinanden, nogle, I, begge, hvilke
- VERB-Part: ansatte, gensplejsede, Forenede, gentagne, dræbte, interesserede, nævnte, orienterede, designede, feterede
- Sing
- ADJ: hele, danske, alt, mere, dansk, ny, lille, stor, store, meget
- AUX-Part: været, blevet, kunnet, måttet, turdet, villet
- DET: en, den, et, det, sin, denne, min, sit, ingen, anden
- NOUN: gang, dag, år, tid, del, går, mand, måde, par, verden
- NUM: halv, halvt, en, halvanden, kvart, én
- PRON: det, han, jeg, hun, den, du, hvad, ham, mig, noget
- VERB-Part: fået, været, blevet, set, haft, gjort, gået, kommet, sagt, skrevet
- Acc
- PRON: det, sig, den, ham, mig, dem, os, hende, dig, jer
- Gen
- ADJ: Konservatives, Langes, bankansattes, besindiges, dødes, enkeltes, gamles, handicappedes, helliges, hvides
- DET: andres, dennes, ds., ens
- NOUN: års, Jordens, landets, aftes, regeringens, statens, Kræftens, politiets, ugens, verdens
- PRON: hvis, hinandens
- PROPN: Danmarks, Københavns, Brøndbys, USAs, Ungbos, DSBs, FNs, Ninn-Hansens, EFs, Elvis'
- VERB-Part: tiltaltes
- Nom
- PRON: han, jeg, vi, de, man, hun, du, I
- Def
- ADJ: hele, danske, store, fleste, nye, bedste, største, gamle, økonomiske, seneste
- NOUN: stedet, tiden, politiet, sagen, byen, landet, dagen, året, klokken, børnene
- VERB-Part: samlede, fortsatte, lukkede, nævnte, udsendte, anklagede, erklærede, organiserede, restaurerede, undertegnede
- Ind
- ADJ: mere, dansk, stor, meget, ny, klar, lang, stort, god, godt
- AUX-Part: været, blevet, kunnet, måttet, turdet, villet
- NOUN: år, kr., gang, dag, tid, del, folk, går, mand, måde
- NUM: halv, halvt, halvanden, kvart
- VERB-Part: fået, været, blevet, set, haft, gjort, gået, kommet, sagt, skrevet
Degree and Polarity
- Abs
- ADJ: allerinderst, allerstørste
- ADV: allerhelst, allermindst, alleryderst
- Cmp
- ADJ: flere, større, bedre, tidligere, mere, mindre, højere, ældre, længere, kortere
- ADV: mere, længere, senere, tidligere, mindre, yderligere, bedre, hurtigere, nærmere, højere
- Pos
- ADJ: samme, første, alle, sidste, mange, danske, store, hele, nye, fælles
- ADV: meget, helt, godt, lidt, langt, faktisk, længe, ofte, hurtigt, umiddelbart
- Sup
- ADJ: fleste, bedste, største, seneste, ny, mindre, mindste, øverste, meste, nyeste
- ADV: mest, mindst, senest, nærmest, bedst, længst, oftest, venligst, hurtigst, hårdest
Verbal Features
- Imp
- VERB: lad, rør, se, skær, brug, hold, hæld, steg, prøv, Bland
- Ind
- AUX-Fin: er, har, kan, var, skal, vil, blev, kunne, havde, må
- VERB-Fin: er, har, siger, var, får, fik, sagde, bliver, kommer, blev
- Past
- AUX-Fin: var, blev, kunne, havde, skulle, ville, måtte, burde, ku', sku'
- AUX-Part: været, blevet, kunnet, måttet, turdet, villet
- VERB-Fin: var, fik, sagde, blev, havde, gik, kom, begyndte, tog, gjorde
- VERB-Part: fået, været, blevet, set, haft, gjort, gået, kommet, sagt, skrevet
- Pres
- AUX-Fin: er, har, kan, skal, vil, må, bliver, bør, tør, ka'
- AUX-Part: værende
- VERB: er, har, siger, får, bliver, kommer, går, ved, gør, mener
- VERB-Fin: er, har, siger, får, bliver, kommer, går, ved, gør, mener
- VERB-Part: kommende, manglende, administrerende, følgende, overlevende, tilfredsstillende, overraskende, stigende, stående, fascinerende
- Act
- AUX-Fin: er, har, kan, var, skal, vil, blev, kunne, havde, må
- AUX-Inf: være, have, blive, kunne, skulle, turde, ville, ku', måtte
- VERB-Fin: er, har, siger, var, får, fik, sagde, bliver, kommer, blev
- VERB-Inf: få, gå, se, have, komme, blive, være, gøre, tage, finde
- Pass
- VERB-Fin: ventes, udsendes, sælges, kaldes, fås, menes, skabes, vises, betragtes, gives
- VERB-Inf: bruges, tages, nævnes, gøres, ses, sættes, fjernes, løses, behandles, betragtes
Pronouns, Determiners, Quantifiers
- Dem
- DET: den, de, det, denne, disse, dette, begge, dén, dennes, selv
- PRON: selv, de, dette, den, begge, det, denne, disse
- Ind
- DET: en, et, andre, nogle, ingen, anden, noget, nogen, én, hvert
- PRON: man, noget, en, andre, hver, andet, ingen, et, anden, nogle
- Int,Rel
- PRON: hvad, hvilket, hvem, hvilke, hvilken, hvis, HVA', Hva
- Prs
- DET: sin, deres, hans, min, sit, hendes, sine, vores, mit, din
- PRON: det, han, jeg, vi, de, sig, hun, den, du, ham
- Rcp
- PRON: hinanden, hinandens
- Card
- NUM: to, tre, fire, 20, fem, seks, 10, otte, 100, 1
- Ord
- ADJ: 1., anden, 2., tredje, 3., andet, 12., 17., fjerde, 10.
- Yes
- DET: sin, deres, hans, min, sit, hendes, sine, vores, mit, din
- PRON: deres, hans, min, sin, sine, hendes, mit, sit, vore
- Yes
- DET: sin, sit, sine
- PRON: sig, sin, sine, sit
- 1
- DET: min, vores, mit, vore, mine, vor, vort
- PRON: jeg, vi, mig, os, min, mit, vore
- 2
- DET: din, Deres, dit, jeres, dine
- PRON: du, dig, De, I, Dem, jer, Deres
- 3
- DET: sin, deres, hans, sit, hendes, sine, dets, dens
- PRON: det, han, de, sig, hun, den, ham, dem, hende, dét
- Form
- DET: Deres
- PRON: De, Dem, Deres
- Plur
- DET: deres, vores, vore, vor, vort, jeres
- PRON: deres, vore
- Sing
- DET: sin, hans, min, sit, hendes, sine, mit, din, mine, dets
- PRON: hans, min, sin, sine, hendes, mit, sit
Other Features
- Abbr
- Yes
- ADV: 4-cyl.
- X: fru, km/t., vind., B, cand.-jur., kl, o/m., E, G, M
- Yes
- AdpType
- Prep
- ADP: i, til, på, af, med, for, om, fra, ved, efter
- Prep
- Foreign
- Yes
- ADV: a, downtown, en, fun-music, julienne, racing, retro, roadracing, servo, stadium
- X: of, are, the, we, and, children, dead, in, junkmail, la
- Yes
- PartType
- Inf
- ADP: som
- ADV: der
- PART: at
- PRON: der, som
- Inf
- Style
- Arch
- DET: somme
- Form
- DET: vore, vor, vort
- PRON: vore
- Arch
Syntax
Auxiliary Verbs and Copula
- This corpus uses 1 lemmas as copulas (cop). Examples: være.
- This corpus uses 9 lemmas as auxiliaries (aux). Examples: have, kunne, være, skulle, ville, blive, måtte, burde, turde.
Core Arguments, Oblique Arguments and Adjuncts
Here we consider only relations between verbs (parent) and nouns or pronouns (child).
- nsubj
- VERB--PRON-Nom (2)
- VERB-Fin--NOUN (1599)
- VERB-Fin--NOUN-ADP(omkring) (1)
- VERB-Fin--NOUN-Gen (6)
- VERB-Fin--PRON (449)
- VERB-Fin--PRON-Acc (399)
- VERB-Fin--PRON-Nom (1639)
- VERB-Inf--NOUN (376)
- VERB-Inf--NOUN-ADP(end) (1)
- VERB-Inf--NOUN-Gen (1)
- VERB-Inf--PRON (117)
- VERB-Inf--PRON-Acc (89)
- VERB-Inf--PRON-Nom (542)
- VERB-Part--NOUN (498)
- VERB-Part--NOUN-ADP(omkring) (2)
- VERB-Part--NOUN-ADP(over) (1)
- VERB-Part--NOUN-Gen (5)
- VERB-Part--PRON (156)
- VERB-Part--PRON-Acc (67)
- VERB-Part--PRON-Gen (1)
- VERB-Part--PRON-Nom (374)
- obj
- VERB--NOUN (79)
- VERB--PRON (1)
- VERB--PRON-Acc (32)
- VERB-Fin--NOUN (1562)
- VERB-Fin--NOUN-ADP(af) (1)
- VERB-Fin--NOUN-ADP(efter) (1)
- VERB-Fin--NOUN-ADP(end) (1)
- VERB-Fin--NOUN-ADP(for) (1)
- VERB-Fin--NOUN-ADP(omkring) (4)
- VERB-Fin--NOUN-ADP(over) (1)
- VERB-Fin--NOUN-ADP(på) (2)
- VERB-Fin--NOUN-ADP(som) (4)
- VERB-Fin--NOUN-ADP(til) (2)
- VERB-Fin--NOUN-ADP(under) (1)
- VERB-Fin--NOUN-Gen (4)
- VERB-Fin--PRON (179)
- VERB-Fin--PRON-Acc (392)
- VERB-Fin--PRON-Gen (2)
- VERB-Inf--NOUN (1005)
- VERB-Inf--NOUN-ADP(mellem) (1)
- VERB-Inf--NOUN-ADP(på) (1)
- VERB-Inf--NOUN-Gen (8)
- VERB-Inf--PRON (71)
- VERB-Inf--PRON-ADP(om) (1)
- VERB-Inf--PRON-Acc (250)
- VERB-Inf--PRON-Gen (1)
- VERB-Part--NOUN (424)
- VERB-Part--NOUN-ADP(af) (2)
- VERB-Part--NOUN-ADP(om) (1)
- VERB-Part--NOUN-Gen (2)
- VERB-Part--PRON (45)
- VERB-Part--PRON-Acc (76)
- iobj
- VERB--NOUN (2)
- VERB--PRON-Acc (2)
- VERB-Fin--NOUN (14)
- VERB-Fin--PRON (1)
- VERB-Fin--PRON-Acc (41)
- VERB-Inf--NOUN (19)
- VERB-Inf--PRON (1)
- VERB-Inf--PRON-Acc (40)
- VERB-Part--NOUN (7)
- VERB-Part--PRON (2)
- VERB-Part--PRON-Acc (19)
Verbs with Reflexive Core Objects
- This corpus contains 153 lemmas that occur at least once with a reflexive core object (obj or iobj). Examples: vise sig, dreje sig, lade sig, føle sig, sætte sig, befinde sig, gøre sig, holde sig, udtale sig, beskæftige sig, kaste sig, klare sig, melde sig, tage sig, få sig, opføre sig, sige sig, tænke sig, bevæge sig, bryde sig, bøje sig, finde sig, gemme sig, glæde sig, koncentrere sig, lægge sig, påtage sig, rejse sig, se sig, skynde sig, trække sig, vende sig, bane sig, beslutte sig, blande sig, brede sig, dumme sig, egne sig, engagere sig, forestille sig, gifte sig, give sig, hygge sig, komme sig, notere sig, rette sig, sikre sig, skaffe sig, snige sig, strække sig
- Out of those, 6 lemmas occurred more than once, but never without a reflexive dependent. Examples: koncentrere, påtage, skynde, brede, egne, udmønte
Relations Overview
- This corpus uses 7 relation subtypes: acl:relcl, advmod:lmod, compound:prt, nmod:poss, nsubj:outer, obl:lmod, obl:tmod
- The following 3 relation types are not used in this corpus at all: csubj, clf, goeswith