This is part of archived UD v1 documentation. See http://universaldependencies.org/ for the current version.

home issue tracker

Extra material

This page contains material from the TDT guidelines that has not yet been incorporated into the primary UD Finnish documentation. The following should not be considered part of the UD Finnish guidelines.

`rel` (relativizer)

(The following section was lifted from the TDT documentation for rel, which is removed in UD Finnish. See https://github.com/UniversalDependencies/docs/issues/73 for more information.)

In TDT, the relativizer (rel) is the head of the phrase containing the relative pronoun (or other relative word). Most often, but not always, this is the relative word itself. The governor of the dependency is the main predicate of the relative clause.

For UD Finnish, relative markers are be mapped to the syntactic role that the relative is playing in the relative clause, such as nsubj or dobj. This information is present in the second annotation layer of the TDT corpus.

NOTE: this is TDT example using rel, not a UD Finnish example.



  
    input
    brat
    info
  
Auto , joka ohitti meidät , ajoi hyvin nopeasti . \n The_car , which passed us , drove very fast .
acl:relcl(Auto-1, ohitti-4)
punct(ohitti-4, ,-2)
rel(ohitti-4, joka-3)
dobj(ohitti-4, meidät-5)
punct(ohitti-4, ,-6)
nsubj(ajoi-7, Auto-1)
advmod(ajoi-7, nopeasti-9)
advmod(nopeasti-9, hyvin-8)
punct(ajoi-7, .-10)
{
    "text": "Auto , joka ohitti meidät , ajoi hyvin nopeasti . \n The_car , which passed us , drove very fast . ",
    "entities": [
        [ "embedded-1-T1", "token", [ [ 0, 4 ] ] ],
        [ "embedded-1-T2", "token", [ [ 5, 6 ] ] ],
        [ "embedded-1-T3", "token", [ [ 7, 11 ] ] ],
        [ "embedded-1-T4", "token", [ [ 12, 18 ] ] ],
        [ "embedded-1-T5", "token", [ [ 19, 25 ] ] ],
        [ "embedded-1-T6", "token", [ [ 26, 27 ] ] ],
        [ "embedded-1-T7", "token", [ [ 28, 32 ] ] ],
        [ "embedded-1-T8", "token", [ [ 33, 38 ] ] ],
        [ "embedded-1-T9", "token", [ [ 39, 47 ] ] ],
        [ "embedded-1-T10", "token", [ [ 48, 49 ] ] ],
        [ "embedded-1-T12", "token", [ [ 52, 59 ] ] ],
        [ "embedded-1-T13", "token", [ [ 60, 61 ] ] ],
        [ "embedded-1-T14", "token", [ [ 62, 67 ] ] ],
        [ "embedded-1-T15", "token", [ [ 68, 74 ] ] ],
        [ "embedded-1-T16", "token", [ [ 75, 77 ] ] ],
        [ "embedded-1-T17", "token", [ [ 78, 79 ] ] ],
        [ "embedded-1-T18", "token", [ [ 80, 85 ] ] ],
        [ "embedded-1-T19", "token", [ [ 86, 90 ] ] ],
        [ "embedded-1-T20", "token", [ [ 91, 95 ] ] ],
        [ "embedded-1-T21", "token", [ [ 96, 97 ] ] ]
    ],
    "relations": [
        [ "embedded-1-R1", "acl:relcl", [ [ "arg1", "embedded-1-T1" ], [ "arg2", "embedded-1-T4" ] ] ],
        [ "embedded-1-R2", "punct", [ [ "arg1", "embedded-1-T4" ], [ "arg2", "embedded-1-T2" ] ] ],
        [ "embedded-1-R3", "rel", [ [ "arg1", "embedded-1-T4" ], [ "arg2", "embedded-1-T3" ] ] ],
        [ "embedded-1-R4", "dobj", [ [ "arg1", "embedded-1-T4" ], [ "arg2", "embedded-1-T5" ] ] ],
        [ "embedded-1-R5", "punct", [ [ "arg1", "embedded-1-T4" ], [ "arg2", "embedded-1-T6" ] ] ],
        [ "embedded-1-R6", "nsubj", [ [ "arg1", "embedded-1-T7" ], [ "arg2", "embedded-1-T1" ] ] ],
        [ "embedded-1-R7", "advmod", [ [ "arg1", "embedded-1-T7" ], [ "arg2", "embedded-1-T9" ] ] ],
        [ "embedded-1-R8", "advmod", [ [ "arg1", "embedded-1-T9" ], [ "arg2", "embedded-1-T8" ] ] ],
        [ "embedded-1-R9", "punct", [ [ "arg1", "embedded-1-T7" ], [ "arg2", "embedded-1-T10" ] ] ]
    ],
    "attributes": [],
    "error": false,
    "sentlabels": [ "1" ]
}

NOTE: this is TDT example using rel, not a UD Finnish example.



  
    input
    brat
    info
  
Nainen , jonka auto hajosi , pyysi apuamme . \n The_lady , whose car broke , asked_for our_help .
acl:relcl(Nainen-1, hajosi-5)
punct(hajosi-5, ,-2)
nmod:poss(auto-4, jonka-3)
rel(hajosi-5, auto-4)
punct(hajosi-5, ,-6)
nsubj(pyysi-7, Nainen-1)
dobj(pyysi-7, apuamme-8)
punct(pyysi-7, .-9)
{
    "text": "Nainen , jonka auto hajosi , pyysi apuamme . \n The_lady , whose car broke , asked_for our_help . ",
    "entities": [
        [ "embedded-2-T1", "token", [ [ 0, 6 ] ] ],
        [ "embedded-2-T2", "token", [ [ 7, 8 ] ] ],
        [ "embedded-2-T3", "token", [ [ 9, 14 ] ] ],
        [ "embedded-2-T4", "token", [ [ 15, 19 ] ] ],
        [ "embedded-2-T5", "token", [ [ 20, 26 ] ] ],
        [ "embedded-2-T6", "token", [ [ 27, 28 ] ] ],
        [ "embedded-2-T7", "token", [ [ 29, 34 ] ] ],
        [ "embedded-2-T8", "token", [ [ 35, 42 ] ] ],
        [ "embedded-2-T9", "token", [ [ 43, 44 ] ] ],
        [ "embedded-2-T11", "token", [ [ 47, 55 ] ] ],
        [ "embedded-2-T12", "token", [ [ 56, 57 ] ] ],
        [ "embedded-2-T13", "token", [ [ 58, 63 ] ] ],
        [ "embedded-2-T14", "token", [ [ 64, 67 ] ] ],
        [ "embedded-2-T15", "token", [ [ 68, 73 ] ] ],
        [ "embedded-2-T16", "token", [ [ 74, 75 ] ] ],
        [ "embedded-2-T17", "token", [ [ 76, 85 ] ] ],
        [ "embedded-2-T18", "token", [ [ 86, 94 ] ] ],
        [ "embedded-2-T19", "token", [ [ 95, 96 ] ] ]
    ],
    "relations": [
        [ "embedded-2-R1", "acl:relcl", [ [ "arg1", "embedded-2-T1" ], [ "arg2", "embedded-2-T5" ] ] ],
        [ "embedded-2-R2", "punct", [ [ "arg1", "embedded-2-T5" ], [ "arg2", "embedded-2-T2" ] ] ],
        [ "embedded-2-R3", "nmod:poss", [ [ "arg1", "embedded-2-T4" ], [ "arg2", "embedded-2-T3" ] ] ],
        [ "embedded-2-R4", "rel", [ [ "arg1", "embedded-2-T5" ], [ "arg2", "embedded-2-T4" ] ] ],
        [ "embedded-2-R5", "punct", [ [ "arg1", "embedded-2-T5" ], [ "arg2", "embedded-2-T6" ] ] ],
        [ "embedded-2-R6", "nsubj", [ [ "arg1", "embedded-2-T7" ], [ "arg2", "embedded-2-T1" ] ] ],
        [ "embedded-2-R7", "dobj", [ [ "arg1", "embedded-2-T7" ], [ "arg2", "embedded-2-T8" ] ] ],
        [ "embedded-2-R8", "punct", [ [ "arg1", "embedded-2-T7" ], [ "arg2", "embedded-2-T9" ] ] ]
    ],
    "attributes": [],
    "error": false,
    "sentlabels": [ "2" ]
}

The null token

The null token is not a dependency type, but an extra token that is added into the sentence to represent a missing token. A null token is only added when the missing token is required in order to construct an analysis, that is, when it governs another token that is present in the sentence. Thus, for instance copulas and auxiliaries are not represented by null tokens when absent, because if they are absent, their dependents are as well. The null token is most commonly, but not always, a verb.

There are two basic uses for the null token. First, it is used in fragments: sentences or clauses with an omitted main predicate.



  
    input
    brat
    info
  
Presidentti *null* Kiinaan solmimaan sopimusta . \n The_president *null* to_China to_make a_deal .
nsubj(*null*-2, Presidentti-1)
nmod(*null*-2, Kiinaan-3)
xcomp(*null*-2, solmimaan-4)
dobj(solmimaan-4, sopimusta-5)
punct(*null*-2, .-6)
{
    "text": "Presidentti *null* Kiinaan solmimaan sopimusta . \n The_president *null* to_China to_make a_deal . ",
    "entities": [
        [ "embedded-3-T1", "token", [ [ 0, 11 ] ] ],
        [ "embedded-3-T2", "token", [ [ 12, 18 ] ] ],
        [ "embedded-3-T3", "token", [ [ 19, 26 ] ] ],
        [ "embedded-3-T4", "token", [ [ 27, 36 ] ] ],
        [ "embedded-3-T5", "token", [ [ 37, 46 ] ] ],
        [ "embedded-3-T6", "token", [ [ 47, 48 ] ] ],
        [ "embedded-3-T8", "token", [ [ 51, 64 ] ] ],
        [ "embedded-3-T9", "token", [ [ 65, 71 ] ] ],
        [ "embedded-3-T10", "token", [ [ 72, 80 ] ] ],
        [ "embedded-3-T11", "token", [ [ 81, 88 ] ] ],
        [ "embedded-3-T12", "token", [ [ 89, 95 ] ] ],
        [ "embedded-3-T13", "token", [ [ 96, 97 ] ] ]
    ],
    "relations": [
        [ "embedded-3-R1", "nsubj", [ [ "arg1", "embedded-3-T2" ], [ "arg2", "embedded-3-T1" ] ] ],
        [ "embedded-3-R2", "nmod", [ [ "arg1", "embedded-3-T2" ], [ "arg2", "embedded-3-T3" ] ] ],
        [ "embedded-3-R3", "xcomp", [ [ "arg1", "embedded-3-T2" ], [ "arg2", "embedded-3-T4" ] ] ],
        [ "embedded-3-R4", "dobj", [ [ "arg1", "embedded-3-T4" ], [ "arg2", "embedded-3-T5" ] ] ],
        [ "embedded-3-R5", "punct", [ [ "arg1", "embedded-3-T2" ], [ "arg2", "embedded-3-T6" ] ] ]
    ],
    "attributes": [],
    "error": false,
    "sentlabels": [ "3" ]
}

Second, the null token is used in gapping, a type of ellipsis where a head word has been omitted to avoid repetition. Gapping is the only type of ellipsis marked with null tokens, as according to the definition of a null token, only words required for constructing an analysis should be represented by one.



  
    input
    brat
    info
  
Matti tilasi jäätelön ja Pekka *null* leivoksen . \n Matti ordered ice_cream and Pekka *null* cake .
nsubj(tilasi-2, Matti-1)
dobj(tilasi-2, jäätelön-3)
cc(tilasi-2, ja-4)
conj(tilasi-2, *null*-6)
nsubj(*null*-6, Pekka-5)
dobj(*null*-6, leivoksen-7)
punct(tilasi-2, .-8)
{
    "text": "Matti tilasi jäätelön ja Pekka *null* leivoksen . \n Matti ordered ice_cream and Pekka *null* cake . ",
    "entities": [
        [ "embedded-4-T1", "token", [ [ 0, 5 ] ] ],
        [ "embedded-4-T2", "token", [ [ 6, 12 ] ] ],
        [ "embedded-4-T3", "token", [ [ 13, 21 ] ] ],
        [ "embedded-4-T4", "token", [ [ 22, 24 ] ] ],
        [ "embedded-4-T5", "token", [ [ 25, 30 ] ] ],
        [ "embedded-4-T6", "token", [ [ 31, 37 ] ] ],
        [ "embedded-4-T7", "token", [ [ 38, 47 ] ] ],
        [ "embedded-4-T8", "token", [ [ 48, 49 ] ] ],
        [ "embedded-4-T10", "token", [ [ 52, 57 ] ] ],
        [ "embedded-4-T11", "token", [ [ 58, 65 ] ] ],
        [ "embedded-4-T12", "token", [ [ 66, 75 ] ] ],
        [ "embedded-4-T13", "token", [ [ 76, 79 ] ] ],
        [ "embedded-4-T14", "token", [ [ 80, 85 ] ] ],
        [ "embedded-4-T15", "token", [ [ 86, 92 ] ] ],
        [ "embedded-4-T16", "token", [ [ 93, 97 ] ] ],
        [ "embedded-4-T17", "token", [ [ 98, 99 ] ] ]
    ],
    "relations": [
        [ "embedded-4-R1", "nsubj", [ [ "arg1", "embedded-4-T2" ], [ "arg2", "embedded-4-T1" ] ] ],
        [ "embedded-4-R2", "dobj", [ [ "arg1", "embedded-4-T2" ], [ "arg2", "embedded-4-T3" ] ] ],
        [ "embedded-4-R3", "cc", [ [ "arg1", "embedded-4-T2" ], [ "arg2", "embedded-4-T4" ] ] ],
        [ "embedded-4-R4", "conj", [ [ "arg1", "embedded-4-T2" ], [ "arg2", "embedded-4-T6" ] ] ],
        [ "embedded-4-R5", "nsubj", [ [ "arg1", "embedded-4-T6" ], [ "arg2", "embedded-4-T5" ] ] ],
        [ "embedded-4-R6", "dobj", [ [ "arg1", "embedded-4-T6" ], [ "arg2", "embedded-4-T7" ] ] ],
        [ "embedded-4-R7", "punct", [ [ "arg1", "embedded-4-T2" ], [ "arg2", "embedded-4-T8" ] ] ]
    ],
    "attributes": [],
    "error": false,
    "sentlabels": [ "4" ]
}

Conjunct propagation and additional dependencies

This section describes four phenomena that are annotated in the second annotation layer of TDT, termed the conjunct propagation and additional dependencies layer. These phenomena are the propagation of conjunct dependencies, external subjects, syntactic functions of relativizers and gapping. The annotation of this layer is added on top of the first layer, meaning that the analyses are no longer trees.

Conjunct propagation

The SD scheme analyzes coordinations so that the first coordinated element is the head of the whole coordination.

FIGURE MISSING

In this analysis alone, it is not possible to distinguish dependents and governors of the first coordinated element from those of the whole coordination, nor from elements that depend on or govern some but not all conjuncts. Therefore in the extended variants of the SD scheme, this distinction is made explicit with additional dependencies on top of the tree structure. That is, if an element modifies or governs multiple coordinated elements, it should be propagated to them. In principle, any dependency type introduced in Sections 2 and 3, with the exceptions of punct, conj, cc and ellipsis, can propagate in the second layer of annotation. Note especially that the dependencies introduced in the second layer, that is, external subjects and syntactic functions of relativizers, are also allowed to propagate.



  
    input
    brat
    info
  
Tultuaan kotiin Maija söi ensin lounaan ja imuroi sitten . \n After_coming home Maija ate first lunch and hoovered then .
nmod(Tultuaan-1, kotiin-2)
advcl(söi-4, Tultuaan-1)
nsubj(söi-4, Maija-3)
advmod(söi-4, ensin-5)
dobj(söi-4, lounaan-6)
cc(söi-4, ja-7)
conj(söi-4, imuroi-8)
advmod(imuroi-8, sitten-9)
punct(söi-4, .-10)
advcl(imuroi-8, Tultuaan-1)
nsubj(imuroi-8, Maija-3)
{
    "text": "Tultuaan kotiin Maija söi ensin lounaan ja imuroi sitten . \n After_coming home Maija ate first lunch and hoovered then . ",
    "entities": [
        [ "embedded-5-T1", "token", [ [ 0, 8 ] ] ],
        [ "embedded-5-T2", "token", [ [ 9, 15 ] ] ],
        [ "embedded-5-T3", "token", [ [ 16, 21 ] ] ],
        [ "embedded-5-T4", "token", [ [ 22, 25 ] ] ],
        [ "embedded-5-T5", "token", [ [ 26, 31 ] ] ],
        [ "embedded-5-T6", "token", [ [ 32, 39 ] ] ],
        [ "embedded-5-T7", "token", [ [ 40, 42 ] ] ],
        [ "embedded-5-T8", "token", [ [ 43, 49 ] ] ],
        [ "embedded-5-T9", "token", [ [ 50, 56 ] ] ],
        [ "embedded-5-T10", "token", [ [ 57, 58 ] ] ],
        [ "embedded-5-T12", "token", [ [ 61, 73 ] ] ],
        [ "embedded-5-T13", "token", [ [ 74, 78 ] ] ],
        [ "embedded-5-T14", "token", [ [ 79, 84 ] ] ],
        [ "embedded-5-T15", "token", [ [ 85, 88 ] ] ],
        [ "embedded-5-T16", "token", [ [ 89, 94 ] ] ],
        [ "embedded-5-T17", "token", [ [ 95, 100 ] ] ],
        [ "embedded-5-T18", "token", [ [ 101, 104 ] ] ],
        [ "embedded-5-T19", "token", [ [ 105, 113 ] ] ],
        [ "embedded-5-T20", "token", [ [ 114, 118 ] ] ],
        [ "embedded-5-T21", "token", [ [ 119, 120 ] ] ]
    ],
    "relations": [
        [ "embedded-5-R1", "nmod", [ [ "arg1", "embedded-5-T1" ], [ "arg2", "embedded-5-T2" ] ] ],
        [ "embedded-5-R2", "advcl", [ [ "arg1", "embedded-5-T4" ], [ "arg2", "embedded-5-T1" ] ] ],
        [ "embedded-5-R3", "nsubj", [ [ "arg1", "embedded-5-T4" ], [ "arg2", "embedded-5-T3" ] ] ],
        [ "embedded-5-R4", "advmod", [ [ "arg1", "embedded-5-T4" ], [ "arg2", "embedded-5-T5" ] ] ],
        [ "embedded-5-R5", "dobj", [ [ "arg1", "embedded-5-T4" ], [ "arg2", "embedded-5-T6" ] ] ],
        [ "embedded-5-R6", "cc", [ [ "arg1", "embedded-5-T4" ], [ "arg2", "embedded-5-T7" ] ] ],
        [ "embedded-5-R7", "conj", [ [ "arg1", "embedded-5-T4" ], [ "arg2", "embedded-5-T8" ] ] ],
        [ "embedded-5-R8", "advmod", [ [ "arg1", "embedded-5-T8" ], [ "arg2", "embedded-5-T9" ] ] ],
        [ "embedded-5-R9", "punct", [ [ "arg1", "embedded-5-T4" ], [ "arg2", "embedded-5-T10" ] ] ],
        [ "embedded-5-R10", "advcl", [ [ "arg1", "embedded-5-T8" ], [ "arg2", "embedded-5-T1" ] ] ],
        [ "embedded-5-R11", "nsubj", [ [ "arg1", "embedded-5-T8" ], [ "arg2", "embedded-5-T3" ] ] ]
    ],
    "attributes": [],
    "error": false,
    "sentlabels": [ "5" ]
}

In addition to simply propagating to other coordinated elements, it is possible for a dependency to change its type while doing so. This may happen in coordinations of elements with differing parts-of-speech, and cases where a sentence element acts in one syntactic role for the first conjunct and in an another role for some other conjunct.



  
    input
    brat
    info
  
Pieni ja savuttava nuotio paloi yön ja sammutettiin sitten . \n Small and smoking bonfire burned for_night and was_extinguished then .
amod(nuotio-4, Pieni-1)
cc(Pieni-1, ja-2)
conj(Pieni-1, savuttava-3)
nsubj(paloi-5, nuotio-4)
nmod(paloi-5, yön-6)
cc(paloi-5, ja-7)
conj(paloi-5, sammutettiin-8)
nmod(sammutettiin-8, sitten-9)
punct(paloi-5, .-10)
acl:partmod(nuotio-4, savuttava-3)
dobj(sammutettiin-8, nuotio-4)
{
    "text": "Pieni ja savuttava nuotio paloi yön ja sammutettiin sitten . \n Small and smoking bonfire burned for_night and was_extinguished then . ",
    "entities": [
        [ "embedded-6-T1", "token", [ [ 0, 5 ] ] ],
        [ "embedded-6-T2", "token", [ [ 6, 8 ] ] ],
        [ "embedded-6-T3", "token", [ [ 9, 18 ] ] ],
        [ "embedded-6-T4", "token", [ [ 19, 25 ] ] ],
        [ "embedded-6-T5", "token", [ [ 26, 31 ] ] ],
        [ "embedded-6-T6", "token", [ [ 32, 35 ] ] ],
        [ "embedded-6-T7", "token", [ [ 36, 38 ] ] ],
        [ "embedded-6-T8", "token", [ [ 39, 51 ] ] ],
        [ "embedded-6-T9", "token", [ [ 52, 58 ] ] ],
        [ "embedded-6-T10", "token", [ [ 59, 60 ] ] ],
        [ "embedded-6-T12", "token", [ [ 63, 68 ] ] ],
        [ "embedded-6-T13", "token", [ [ 69, 72 ] ] ],
        [ "embedded-6-T14", "token", [ [ 73, 80 ] ] ],
        [ "embedded-6-T15", "token", [ [ 81, 88 ] ] ],
        [ "embedded-6-T16", "token", [ [ 89, 95 ] ] ],
        [ "embedded-6-T17", "token", [ [ 96, 105 ] ] ],
        [ "embedded-6-T18", "token", [ [ 106, 109 ] ] ],
        [ "embedded-6-T19", "token", [ [ 110, 126 ] ] ],
        [ "embedded-6-T20", "token", [ [ 127, 131 ] ] ],
        [ "embedded-6-T21", "token", [ [ 132, 133 ] ] ]
    ],
    "relations": [
        [ "embedded-6-R1", "amod", [ [ "arg1", "embedded-6-T4" ], [ "arg2", "embedded-6-T1" ] ] ],
        [ "embedded-6-R2", "cc", [ [ "arg1", "embedded-6-T1" ], [ "arg2", "embedded-6-T2" ] ] ],
        [ "embedded-6-R3", "conj", [ [ "arg1", "embedded-6-T1" ], [ "arg2", "embedded-6-T3" ] ] ],
        [ "embedded-6-R4", "nsubj", [ [ "arg1", "embedded-6-T5" ], [ "arg2", "embedded-6-T4" ] ] ],
        [ "embedded-6-R5", "nmod", [ [ "arg1", "embedded-6-T5" ], [ "arg2", "embedded-6-T6" ] ] ],
        [ "embedded-6-R6", "cc", [ [ "arg1", "embedded-6-T5" ], [ "arg2", "embedded-6-T7" ] ] ],
        [ "embedded-6-R7", "conj", [ [ "arg1", "embedded-6-T5" ], [ "arg2", "embedded-6-T8" ] ] ],
        [ "embedded-6-R8", "nmod", [ [ "arg1", "embedded-6-T8" ], [ "arg2", "embedded-6-T9" ] ] ],
        [ "embedded-6-R9", "punct", [ [ "arg1", "embedded-6-T5" ], [ "arg2", "embedded-6-T10" ] ] ],
        [ "embedded-6-R10", "acl:partmod", [ [ "arg1", "embedded-6-T4" ], [ "arg2", "embedded-6-T3" ] ] ],
        [ "embedded-6-R11", "dobj", [ [ "arg1", "embedded-6-T8" ], [ "arg2", "embedded-6-T4" ] ] ]
    ],
    "attributes": [],
    "error": false,
    "sentlabels": [ "6" ]
}

External subjects (xsubj)

(see [xsubj] for start of section)

External subjects interact with conjunct propagation in two ways: an external subject may propagate, and also a propagated nsubj dependency may be the source of a new xsubj dependency.



  
    input
    brat
    info
  
Matti ryhtyi lukemaan ja kirjoittamaan . \n Matti started_to read and write .
nsubj(ryhtyi-2, Matti-1)
xcomp(ryhtyi-2, lukemaan-3)
punct(ryhtyi-2, .-6)
cc(lukemaan-3, ja-4)
conj(lukemaan-3, kirjoittamaan-5)
xsubj(lukemaan-3, Matti-1)
xsubj(kirjoittamaan-5, Matti-1)
{
    "text": "Matti ryhtyi lukemaan ja kirjoittamaan . \n Matti started_to read and write . ",
    "entities": [
        [ "embedded-7-T1", "token", [ [ 0, 5 ] ] ],
        [ "embedded-7-T2", "token", [ [ 6, 12 ] ] ],
        [ "embedded-7-T3", "token", [ [ 13, 21 ] ] ],
        [ "embedded-7-T4", "token", [ [ 22, 24 ] ] ],
        [ "embedded-7-T5", "token", [ [ 25, 38 ] ] ],
        [ "embedded-7-T6", "token", [ [ 39, 40 ] ] ],
        [ "embedded-7-T8", "token", [ [ 43, 48 ] ] ],
        [ "embedded-7-T9", "token", [ [ 49, 59 ] ] ],
        [ "embedded-7-T10", "token", [ [ 60, 64 ] ] ],
        [ "embedded-7-T11", "token", [ [ 65, 68 ] ] ],
        [ "embedded-7-T12", "token", [ [ 69, 74 ] ] ],
        [ "embedded-7-T13", "token", [ [ 75, 76 ] ] ]
    ],
    "relations": [
        [ "embedded-7-R1", "nsubj", [ [ "arg1", "embedded-7-T2" ], [ "arg2", "embedded-7-T1" ] ] ],
        [ "embedded-7-R2", "xcomp", [ [ "arg1", "embedded-7-T2" ], [ "arg2", "embedded-7-T3" ] ] ],
        [ "embedded-7-R3", "punct", [ [ "arg1", "embedded-7-T2" ], [ "arg2", "embedded-7-T6" ] ] ],
        [ "embedded-7-R4", "cc", [ [ "arg1", "embedded-7-T3" ], [ "arg2", "embedded-7-T4" ] ] ],
        [ "embedded-7-R5", "conj", [ [ "arg1", "embedded-7-T3" ], [ "arg2", "embedded-7-T5" ] ] ],
        [ "embedded-7-R6", "xsubj", [ [ "arg1", "embedded-7-T3" ], [ "arg2", "embedded-7-T1" ] ] ],
        [ "embedded-7-R7", "xsubj", [ [ "arg1", "embedded-7-T5" ], [ "arg2", "embedded-7-T1" ] ] ]
    ],
    "attributes": [],
    "error": false,
    "sentlabels": [ "7" ]
}



  
    input
    brat
    info
  
Matti luki ja ryhtyi kirjoittamaan . \n Matti read and started_to write .
nsubj(luki-2, Matti-1)
punct(luki-2, .-6)
cc(luki-2, ja-3)
conj(luki-2, ryhtyi-4)
xcomp(ryhtyi-4, kirjoittamaan-5)
nsubj(ryhtyi-4, Matti-1)
xsubj(kirjoittamaan-5, Matti-1)
{
    "text": "Matti luki ja ryhtyi kirjoittamaan . \n Matti read and started_to write . ",
    "entities": [
        [ "embedded-8-T1", "token", [ [ 0, 5 ] ] ],
        [ "embedded-8-T2", "token", [ [ 6, 10 ] ] ],
        [ "embedded-8-T3", "token", [ [ 11, 13 ] ] ],
        [ "embedded-8-T4", "token", [ [ 14, 20 ] ] ],
        [ "embedded-8-T5", "token", [ [ 21, 34 ] ] ],
        [ "embedded-8-T6", "token", [ [ 35, 36 ] ] ],
        [ "embedded-8-T8", "token", [ [ 39, 44 ] ] ],
        [ "embedded-8-T9", "token", [ [ 45, 49 ] ] ],
        [ "embedded-8-T10", "token", [ [ 50, 53 ] ] ],
        [ "embedded-8-T11", "token", [ [ 54, 64 ] ] ],
        [ "embedded-8-T12", "token", [ [ 65, 70 ] ] ],
        [ "embedded-8-T13", "token", [ [ 71, 72 ] ] ]
    ],
    "relations": [
        [ "embedded-8-R1", "nsubj", [ [ "arg1", "embedded-8-T2" ], [ "arg2", "embedded-8-T1" ] ] ],
        [ "embedded-8-R2", "punct", [ [ "arg1", "embedded-8-T2" ], [ "arg2", "embedded-8-T6" ] ] ],
        [ "embedded-8-R3", "cc", [ [ "arg1", "embedded-8-T2" ], [ "arg2", "embedded-8-T3" ] ] ],
        [ "embedded-8-R4", "conj", [ [ "arg1", "embedded-8-T2" ], [ "arg2", "embedded-8-T4" ] ] ],
        [ "embedded-8-R5", "xcomp", [ [ "arg1", "embedded-8-T4" ], [ "arg2", "embedded-8-T5" ] ] ],
        [ "embedded-8-R6", "nsubj", [ [ "arg1", "embedded-8-T4" ], [ "arg2", "embedded-8-T1" ] ] ],
        [ "embedded-8-R7", "xsubj", [ [ "arg1", "embedded-8-T5" ], [ "arg2", "embedded-8-T1" ] ] ]
    ],
    "attributes": [],
    "error": false,
    "sentlabels": [ "8" ]
}

Syntactic functions of relativizers

Relativizers, that is, the phrases containing the relative word are marked as such in the base layer of annotation, using the dependency type rel (see Section 2.44). However, the relativizers also always have a secondary syntactic function, such as a subject, which cannot be marked on the base layer of annotation due to the treeness restriction. Therefore these functions are marked on the conjunct propagation and additional dependencies layer on top of the tree structure. In principle any dependency type from Section 2 may represent the syntactic function of a relativizer, although in practice certain types (such as punct) will not do so.



  
    input
    brat
    info
  
Auto , joka ohitti meidät , ajoi hyvin nopeasti . \n The_car , which passed us , drove very fast .
nsubj(ajoi-7, Auto-1)
punct(ajoi-7, .-10)
advmod(ajoi-7, nopeasti-9)
advmod(nopeasti-9, hyvin-8)
acl:relcl(Auto-1, ohitti-4)
punct(ohitti-4, ,-2)
punct(ohitti-4, ,-6)
rel(ohitti-4, joka-3)
nsubj(ohitti-4, joka-3)
{
    "text": "Auto , joka ohitti meidät , ajoi hyvin nopeasti . \n The_car , which passed us , drove very fast . ",
    "entities": [
        [ "embedded-9-T1", "token", [ [ 0, 4 ] ] ],
        [ "embedded-9-T2", "token", [ [ 5, 6 ] ] ],
        [ "embedded-9-T3", "token", [ [ 7, 11 ] ] ],
        [ "embedded-9-T4", "token", [ [ 12, 18 ] ] ],
        [ "embedded-9-T5", "token", [ [ 19, 25 ] ] ],
        [ "embedded-9-T6", "token", [ [ 26, 27 ] ] ],
        [ "embedded-9-T7", "token", [ [ 28, 32 ] ] ],
        [ "embedded-9-T8", "token", [ [ 33, 38 ] ] ],
        [ "embedded-9-T9", "token", [ [ 39, 47 ] ] ],
        [ "embedded-9-T10", "token", [ [ 48, 49 ] ] ],
        [ "embedded-9-T12", "token", [ [ 52, 59 ] ] ],
        [ "embedded-9-T13", "token", [ [ 60, 61 ] ] ],
        [ "embedded-9-T14", "token", [ [ 62, 67 ] ] ],
        [ "embedded-9-T15", "token", [ [ 68, 74 ] ] ],
        [ "embedded-9-T16", "token", [ [ 75, 77 ] ] ],
        [ "embedded-9-T17", "token", [ [ 78, 79 ] ] ],
        [ "embedded-9-T18", "token", [ [ 80, 85 ] ] ],
        [ "embedded-9-T19", "token", [ [ 86, 90 ] ] ],
        [ "embedded-9-T20", "token", [ [ 91, 95 ] ] ],
        [ "embedded-9-T21", "token", [ [ 96, 97 ] ] ]
    ],
    "relations": [
        [ "embedded-9-R1", "nsubj", [ [ "arg1", "embedded-9-T7" ], [ "arg2", "embedded-9-T1" ] ] ],
        [ "embedded-9-R2", "punct", [ [ "arg1", "embedded-9-T7" ], [ "arg2", "embedded-9-T10" ] ] ],
        [ "embedded-9-R3", "advmod", [ [ "arg1", "embedded-9-T7" ], [ "arg2", "embedded-9-T9" ] ] ],
        [ "embedded-9-R4", "advmod", [ [ "arg1", "embedded-9-T9" ], [ "arg2", "embedded-9-T8" ] ] ],
        [ "embedded-9-R5", "acl:relcl", [ [ "arg1", "embedded-9-T1" ], [ "arg2", "embedded-9-T4" ] ] ],
        [ "embedded-9-R6", "punct", [ [ "arg1", "embedded-9-T4" ], [ "arg2", "embedded-9-T2" ] ] ],
        [ "embedded-9-R7", "punct", [ [ "arg1", "embedded-9-T4" ], [ "arg2", "embedded-9-T6" ] ] ],
        [ "embedded-9-R8", "rel", [ [ "arg1", "embedded-9-T4" ], [ "arg2", "embedded-9-T3" ] ] ],
        [ "embedded-9-R9", "nsubj", [ [ "arg1", "embedded-9-T4" ], [ "arg2", "embedded-9-T3" ] ] ]
    ],
    "attributes": [],
    "error": false,
    "sentlabels": [ "9" ]
}

Relativizers and their secondary functions may propagate in coordinations, and if the dependencies are between the same tokens (see Section 5.6 for discussion of cases where they are not), they will propagate together.



  
    input
    brat
    info
  
Mies , joka puhui ja puhui , oli serkkuni . \n The_man , who talked and talked , was my_cousin .
nsubj:cop(serkkuni-9, Mies-1)
cop(serkkuni-9, oli-8)
punct(serkkuni-9, .-10)
punct(puhui-4, ,-2)
punct(puhui-4, ,-7)
rel(puhui-4, joka-3)
cc(puhui-4, ja-5)
conj(puhui-4, puhui-6)
nsubj(puhui-4, joka-3)
rel(puhui-6, joka-3)
nsubj(puhui-6, joka-3)
{
    "text": "Mies , joka puhui ja puhui , oli serkkuni . \n The_man , who talked and talked , was my_cousin . ",
    "entities": [
        [ "embedded-10-T1", "token", [ [ 0, 4 ] ] ],
        [ "embedded-10-T2", "token", [ [ 5, 6 ] ] ],
        [ "embedded-10-T3", "token", [ [ 7, 11 ] ] ],
        [ "embedded-10-T4", "token", [ [ 12, 17 ] ] ],
        [ "embedded-10-T5", "token", [ [ 18, 20 ] ] ],
        [ "embedded-10-T6", "token", [ [ 21, 26 ] ] ],
        [ "embedded-10-T7", "token", [ [ 27, 28 ] ] ],
        [ "embedded-10-T8", "token", [ [ 29, 32 ] ] ],
        [ "embedded-10-T9", "token", [ [ 33, 41 ] ] ],
        [ "embedded-10-T10", "token", [ [ 42, 43 ] ] ],
        [ "embedded-10-T12", "token", [ [ 46, 53 ] ] ],
        [ "embedded-10-T13", "token", [ [ 54, 55 ] ] ],
        [ "embedded-10-T14", "token", [ [ 56, 59 ] ] ],
        [ "embedded-10-T15", "token", [ [ 60, 66 ] ] ],
        [ "embedded-10-T16", "token", [ [ 67, 70 ] ] ],
        [ "embedded-10-T17", "token", [ [ 71, 77 ] ] ],
        [ "embedded-10-T18", "token", [ [ 78, 79 ] ] ],
        [ "embedded-10-T19", "token", [ [ 80, 83 ] ] ],
        [ "embedded-10-T20", "token", [ [ 84, 93 ] ] ],
        [ "embedded-10-T21", "token", [ [ 94, 95 ] ] ]
    ],
    "relations": [
        [ "embedded-10-R1", "nsubj:cop", [ [ "arg1", "embedded-10-T9" ], [ "arg2", "embedded-10-T1" ] ] ],
        [ "embedded-10-R2", "cop", [ [ "arg1", "embedded-10-T9" ], [ "arg2", "embedded-10-T8" ] ] ],
        [ "embedded-10-R3", "punct", [ [ "arg1", "embedded-10-T9" ], [ "arg2", "embedded-10-T10" ] ] ],
        [ "embedded-10-R4", "punct", [ [ "arg1", "embedded-10-T4" ], [ "arg2", "embedded-10-T2" ] ] ],
        [ "embedded-10-R5", "punct", [ [ "arg1", "embedded-10-T4" ], [ "arg2", "embedded-10-T7" ] ] ],
        [ "embedded-10-R6", "rel", [ [ "arg1", "embedded-10-T4" ], [ "arg2", "embedded-10-T3" ] ] ],
        [ "embedded-10-R7", "cc", [ [ "arg1", "embedded-10-T4" ], [ "arg2", "embedded-10-T5" ] ] ],
        [ "embedded-10-R8", "conj", [ [ "arg1", "embedded-10-T4" ], [ "arg2", "embedded-10-T6" ] ] ],
        [ "embedded-10-R9", "nsubj", [ [ "arg1", "embedded-10-T4" ], [ "arg2", "embedded-10-T3" ] ] ],
        [ "embedded-10-R10", "rel", [ [ "arg1", "embedded-10-T6" ], [ "arg2", "embedded-10-T3" ] ] ],
        [ "embedded-10-R11", "nsubj", [ [ "arg1", "embedded-10-T6" ], [ "arg2", "embedded-10-T3" ] ] ]
    ],
    "attributes": [],
    "error": false,
    "sentlabels": [ "10" ]
}

If the syntactic function of a relativizer is a subject, the relativizer may also act as an external subject to another verb.



  
    input
    brat
    info
  
mies , joka ryhtyi laulamaan \n the_man , who started_to sing
acl:relcl(mies-1, ryhtyi-4)
punct(ryhtyi-4, ,-2)
rel(ryhtyi-4, joka-3)
xcomp(ryhtyi-4, laulamaan-5)
nsubj(ryhtyi-4, joka-3)
xsubj(laulamaan-5, joka-3)
{
    "text": "mies , joka ryhtyi laulamaan \n the_man , who started_to sing ",
    "entities": [
        [ "embedded-11-T1", "token", [ [ 0, 4 ] ] ],
        [ "embedded-11-T2", "token", [ [ 5, 6 ] ] ],
        [ "embedded-11-T3", "token", [ [ 7, 11 ] ] ],
        [ "embedded-11-T4", "token", [ [ 12, 18 ] ] ],
        [ "embedded-11-T5", "token", [ [ 19, 28 ] ] ],
        [ "embedded-11-T7", "token", [ [ 31, 38 ] ] ],
        [ "embedded-11-T8", "token", [ [ 39, 40 ] ] ],
        [ "embedded-11-T9", "token", [ [ 41, 44 ] ] ],
        [ "embedded-11-T10", "token", [ [ 45, 55 ] ] ],
        [ "embedded-11-T11", "token", [ [ 56, 60 ] ] ]
    ],
    "relations": [
        [ "embedded-11-R1", "acl:relcl", [ [ "arg1", "embedded-11-T1" ], [ "arg2", "embedded-11-T4" ] ] ],
        [ "embedded-11-R2", "punct", [ [ "arg1", "embedded-11-T4" ], [ "arg2", "embedded-11-T2" ] ] ],
        [ "embedded-11-R3", "rel", [ [ "arg1", "embedded-11-T4" ], [ "arg2", "embedded-11-T3" ] ] ],
        [ "embedded-11-R4", "xcomp", [ [ "arg1", "embedded-11-T4" ], [ "arg2", "embedded-11-T5" ] ] ],
        [ "embedded-11-R5", "nsubj", [ [ "arg1", "embedded-11-T4" ], [ "arg2", "embedded-11-T3" ] ] ],
        [ "embedded-11-R6", "xsubj", [ [ "arg1", "embedded-11-T5" ], [ "arg2", "embedded-11-T3" ] ] ]
    ],
    "attributes": [],
    "error": false,
    "sentlabels": [ "11" ]
}

Gapping (ellipsis of a head word)

As described in Section 2.47, gapping in TDT is marked by inserting a so called null token to represent the omitted token. In addition, the second layer annotation uses the dependency type ellipsis to mark the elided word so that the null token acts as the dependent, and the governor is the non-elided occurrence of the word (Note that the elided word can also precede the non-elided occurrence).

Note that according to the policy of only inserting a null token where necessary for constructing an analysis (see Section 2.47), gapping is the only form of ellipsis marked using null tokens and ellipsis dependencies in TDT. Some other elliptical structures may be less explicitly marked as conjunct propagation (see Section 3.1).

FIGURE MISSING

Differences between the Finnish and English versions of the SD scheme

The original SD scheme by de Marneffe and Manning includes in total 55 dependency types arranged in a hierarchy; excluding six intermediate types that are not meant to be used if a more specific type can be selected, the total number of dependency types is 49. The Finnish-specific scheme version used in this work includes 46 dependency types in the base layer and 3 additional types in the conjunct propagation and additional dependencies layer. This section discusses the differences between the two scheme versions. Figure 1 shows the original SD type hierarchy as described in the SD scheme manual, and Figure 2 the hierarchy of the Finnish-specific version.

To maintain a hierarchy similar to the original one, Figure 2 includes four intermediate types which have not been introduced above and are not used in TDT: arg (argument), comp (complement), subj (subject) and mod (modifier). This makes the overall number of types in the Finnish SD scheme 53.

New dependency types in Finnish-specific SD

(Parts of the content of this section are now found here)

Also we have moved the existing xsubj type from under the sdep category to under the subject category, and added a new subtype for xsubj, xsubj-cop. The external subject types are part of the conjunct propagation and additional dependencies layer of the treebank.

The type vocative is introduced to be able to analyze vocatives, and the type discourse is for interjections. Both vocatives and interjections are fairly common in more informal genres, such as blog text.

The type ellipsis is part of the conjunct propagation and additional dependencies layer and used to mark the elided word in gapping.

Hierarchy changes

Finally, there are two minor changes made in the SD hierarchy. First, as prepositional objects are no longer needed in the Finnish-specific scheme due to the changes made to handling adpositional phrases, and as indirect objects do not occur in Finnish, the type dobj was the sole subtype of the intermediate, unused type obj, we have removed this intermediate type, and made dobj a direct subtype of complement.

Second, the neg dependency type, for marking negations, has been moved from under adverbial modifiers to under auxiliaries in the hierarchy. This is because in Finnish, the negation word ei is in most contexts a verb and acts in an auxiliary-like manner. It should be noted, however, that in TDT there are few cases where it is considered that for instance a noun phrase has been negated or where ei functions as the counterpart of kyllä “yes”, and is thus an adverb.