home edit page issue tracker

This page pertains to UD version 2.

It appears that you have Javascript disabled. Please consider enabling Javascript for this page to see the visualizations.

UD Slovenian SST

Language: Slovenian (code: sl)
Family: IE

This treebank has been part of Universal Dependencies since the UD v1.3 release.

The following people have contributed to making this treebank part of UD: Kaja Dobrovoljc, Joakim Nivre.

Repository: UD_Slovenian-SST
Search this treebank on-line: PML-TQ
Download all treebanks: UD 2.18

License: CC BY-SA 4.0

Genre: spoken

Questions, comments? General annotation questions (either Slovenian-specific or cross-linguistic) can be raised in the main UD issue tracker. You can report bugs in this treebank in the treebank-specific issue tracker on Github. If you want to collaborate, please contact [kaja • dobrovoljc (æt) ff • uni-lj • si]. Development of the treebank happens outside the UD repository. If there are bugs, either the original data source or the conversion procedure must be fixed. Do not submit pull requests against the UD repository.

Annotation	Source
Lemmas	annotated manually in non-UD style, automatically converted to UD
UPOS	annotated manually in non-UD style, automatically converted to UD
XPOS	annotated manually
Features	annotated manually in non-UD style, automatically converted to UD
Relations	annotated manually, natively in UD style

Description

The Spoken Slovenian Treebank (SST) is a manually annotated collection of transcribed audio recordings featuring spontaneous speech in various everyday situations. It includes 344 unique speech events (documents) amounting to approximately 10 hours of speech, encompassing a total of 6,121 utterances and 98,393 tokens.

Spoken Slovenian Treebank (SST) is a manually grammatically annotated sample of the GOS reference corpus of spoken Slovenian. It contains transcribed audio recordings of monologic, dialogic and multi-pary spontaneous speech in different everyday situations, balanced so as to be representative of speaker demographics (sex, age, region, education), channels (TV, radio, telephone, personal contact) and communication settings (TV and radio shows, lectures, meetings, consultations, services, conversations between friends etc.).

The spelling, tokenization and segmentation principles follow the transcription guidelines of the reference corpus (Verdonik et al. 2013) with the syntactic trees spanning over individual utterances (semantically, syntactically and acoustically delimited units, roughly corresponding to written-like sentences). The annotation has been performed on top of normalized transcriptions, i.e. words with standardized spelling. To accommodate the structural and pragmatic particularities of spoken language data, such as self-repairs, fillers, discourse markers and parentheticals, we relied on the guidelines proposed by Dobrovoljc and Nivre (2016) and Dobrovoljc (2022).

As of UD release v2.14 in May 2024, the original version of the SST UD treebank (Dobrovoljc in Nivre 2016) has been partially revised and substantially extended with new data from GOS v2 (Verdonik et al. 2024), such as parliamentary debates, round tables and online events. The latest version of the SST treebank thus includes 6,108 utterances, produced by 676 speakers in 344 different speech events (48% public and 52% non-public tokens) amounting to approximately 10 hours of recordings. For the UD release v2.15 (November 2025), punctuation symbols such as commas and sentence-final punctuation, which were previously missing, have been added.

The train-dev-test data split has been randomized on document-level. The CONLL-U files include links to original audio recordings, and information on the GOS speaker/event IDs, which can be used to retrieve additional metadata information from the original GOS corpus, such as the information on speaker demographics, speech event details or transcribed markers of prosody.

Please refer to the issues section of the repository for the SSJ treebank for general discussion regarding suggestions for the Slovenian UD guidelines and other open issues.

Acknowledgments

We wish to thank all the collaborators who have helped with dependency annotation (Nives Hüll, Karolina Zgaga, Luka Terčon, Matija Škofljanec), JOS-MTE lemmatization and morphological annotation (Jaka Čibej, Tina Munda, Matija Škofljanec), punctuation insertion (Iztok Lebar Bajec, Tina Munda), data sampling and splitting (Darinka Verdonik, Nikola Ljubešić, Peter Rupnik), automatic pre-annotation (Luka Krsnik), JOS-to-UD morphology conversion (Jaka Čibej), and original guidelines consulting (Joakim Nivre).

This work was financially supported by the Slovenian Research and Innovation Agency (grant no. Z6-4617 - A Treebank-Driven Approach to the Study of Spoken Slovenian and Young Researcher Programme 2013) and the COST Action PARSEME. This work was also supported by COST Action CA21167 — Universality, diversity and idiosyncrasy in language technology (UniDive).

References

Kaja Dobrovoljc and Joakim Nivre. 2016. The Universal Dependencies Treebank of Spoken Slovenian. In: Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC’16), Portorož, Slovenia.

@inproceedings{dobrovoljc-nivre-2016-universal,
title = "The {U}niversal {D}ependencies Treebank of Spoken {S}lovenian",
author = "Dobrovoljc, Kaja and Nivre, Joakim",
booktitle = "Proceedings of the Tenth International Conference on Language Resources and Evaluation ({LREC}'16)",
year = "2016",
publisher = "European Language Resources Association (ELRA)",
url = "https://aclanthology.org/L16-1248",
pages = "1566--1573",
}

Other references

Kaja Dobrovoljc. 2022. Spoken Language Treebanks in Universal Dependencies: An Overview. LREC 2022.
Verdonik et al. 2024. Gos 2: A New Reference Corpus of Spoken Slovenian. LREC-COLING 2024.
Kaja Dobrovoljc. 2025. Treebanking Spoken Slovenian: New Data, Models, and Lessons Learned. PNZ 65(3) - Special Issue on Language Technologies and DH.

Changelog

2026-04-30 v2.18
* Added (some) speaker- and speech-related metadata from the Gos corpus
* Added co-construction annotations as proposed by Pannitto et al.

2024-12-20 v2.16
* Split up several sentences that were very long into shorter segments
* Updated readme

2024-10-28 v2.15
* Added punctuation symbols (22,055 new tokens)
* Corrected some errors in manual transcription and annotation
* Introduced new data split to comply with ROG-Artur
* Updated readme

2024-04-11 v2.14
* Extended original dataset with 2,916 new sentences (46,853 tokens)
* Revised original dataset to implement guidelines changes (e.g. reparandum and discourse)
* Removed conj:extend label
* Added Gos2.1 document/sentence/token IDs for easier lookup
* Changed license to CC-BY-SA
* Updated readme


2023-04-12 v2.12
* Added metadata information on speaker ID and soundfile URL
* Renamed sentence IDs to comply with the GOS 2.0 nomenclature
* Corrected mistakes pertaining to Reflex and Polarity features
* Corrected inconsistent UPOS tags for non-lexical tokens (all PUNCT)
* Corrected some minor errors in manual annotation
* Removed old msd info from MISC and renamed 'word' to 'pronunciation'

2022-04-20 v2.10
* Manual relabelling of the few examples raising validation errors, mostly from goeswith to fixed

2019-10-30 v2.5
* Fixed legacy validation errors, i.e.
* Re-tagging the [gap]-like punctuation from X to PUNCT
* Re-attaching the [gap]-like punctuation causing non-projectivity
* Re-attaching leafs of unlike parents
* Fixing random mistakes in annotation

2015-01-30 v2.0
* Manual and automatic conversions from UDv1 to UDv2 guidelines
* Manual corrections of some mistakes in previous versions
* Resizing of train-dev-test (in accordance with CONLL ST 2017 requirements)
* Random utterance shuffling to ensure more representative genre distributions.

2015-03-15 v2.2
* Manual corrections of some mistakes in previous versions
* New (text-level) data randomization
* Resizing of train-test datasets (in accordance with CONLL ST 2018)

Acknowledgments

Statistics of UD Slovenian SST

POS Tags

ADJ – ADP – ADV – AUX – CCONJ – DET – INTJ – NOUN – NUM – PART – PRON – PROPN – PUNCT – SCONJ – VERB – X

Features

Abbr – Animacy – Aspect – Case – Definite – Degree – Foreign – Gender – Gender[psor] – Mood – Number – Number[psor] – NumForm – NumType – Person – Polarity – Poss – PronType – Reflex – Tense – Typo – Variant – VerbForm

Relations

acl – advcl – advmod – amod – appos – aux – case – cc – cc:preconj – ccomp – conj – cop – csubj – dep – det – discourse – discourse:filler – dislocated – expl – fixed – flat – flat:foreign – flat:name – goeswith – iobj – mark – nmod – nsubj – nummod – obj – obl – orphan – parataxis – parataxis:discourse – parataxis:restart – punct – reparandum – root – vocative – xcomp

Tokenization and Word Segmentation

This corpus contains 6121 sentences and 98393 tokens.

All tokens in this corpus are followed by a space.

This corpus does not contain words with spaces.

This corpus contains 316 types of words that contain both letters and punctuation. Examples: [name:personal], [name:surname], s-, z-, n-, j-, k-, p-, m-, t-, po-, b-, v-, [name:organisation], d-, o-, u-, na-, do-, š-, i-, [name:address], a-, ka-, pre-, re-, se-, ma-, ne-, pri-, za-, e-, ist-, l-, nek-, ni-, r-, raz-, Counter-Strike, RTV-ja, Zakonodajno-pravna, Zasp-a, am-, boogie-woogie, da-, dru-, g-, gos-, gospo-, hitro-

Morphology

Nominal Features

Gender

Fem
- ADJ: lepa, drugo, druga, sama, drugi, velika, dobra, prvi, določene, prve
- ADJ-Part: določene, spoštovana, znana, odprta, sprejeta, izplačane, ostale, postavljena, spoštovane, zapuščene
- AUX-Part: bila, bile
- DET: te, ta, to, tej, teh, neko, eno, tiste, vse, neke
- NOUN: strani, stvari, hvala, stvar, pot, šole, šoli, bolezni, šolo, država
- NUM: ena, eno, dve, tri, ene, eni, štiri, dveh, štirih, treh
- PRON: jo, jih, ona, ji, je, njo, njej, midve, nje, njimi
- PROPN: Sloveniji, Slovenija, Slovenije, Ljubljani, Ljubljane, Ljubljana, rtv, Evropi, Nemčiji, Nemčijo
- VERB-Part: rekla, bila, imela, šla, prišla, delala, videla, dala, naredila, mogla

Masc
- ADJ: drugi, dober, sam, prvi, sami, lep, pozdravljeni, velik, cel, drugih
- ADJ-Part: pozdravljeni, spoštovani, ostali, prepričani, vnet, zaposleni, zaposlenih, znan, odraslih, pripravljen
- AUX-Part: bil, bili, bila
- DET: ta, tisti, vsi, tem, tega, en, neki, ti, teh, vsak
- NOUN: dan, čas, način, otrok, ljudi, primer, redu, koncu, ljudje, evrov
- NUM: dva, en, eden, enega, tri, trije, eni, štiri, štirje, dveh
- PRON: ga, mi, jih, kdo, on, vi, mu, jim, oni, nekdo
- PROPN: Mariboru, Agropop, Jones, Maribor, Tom, Triglav, David, Healy, Netflixu, Romov
- VERB-Part: rekel, bil, imeli, imel, rekli, šli, šel, bili, mogel, videl

Neut
- ADJ: dobro, zanimivo, pomembno, glavnem, drugo, fajn, drugega, potrebno, mogoče, super
- ADJ-Part: rečeno, določeno, narejeno, povezano, preverjeno, ostalo, povezana, pripravljeno, znano, določena
- AUX-Part: bilo, bila
- DET: to, vse, tega, tem, tisto, nič, temu, tole, nekaj, svoje
- NOUN: bistvu, leta, leto, let, delo, letih, mesto, vprašanje, dela, mestu
- NUM: tri, eno, dve, enem, štiri, dveh, ena, tremi, drugem, enega
- PRON: kaj, kar, nekaj, nič, ga, jih, česa, isto, karkoli, čemer
- PROPN: Celja, Celje, Celju, Pohorja, Slovenskem, Ivanovo, Šmarja, Štajerskem, Švedskem, Celjskega
- VERB-Part: bilo, šlo, prišlo, zgodilo, uspelo, dalo, trajalo, spremenilo, dogajalo, imelo

Animacy

Anim
- NOUN: otroka, zdravnika, cimra, gospoda, črnca, avtorja, bolnika, kolega, lastnika, novinarja
- PROPN: Poljanška, Arturja, Boruca, Dušana, Francoza, Goloba, Igorja, Kikija, Kitajca, Kristusa

Inan
- NOUN: dan, način, primer, čas, teden, program, denar, mesec, glas, konec
- PROPN: Triglav, Bruselj, Harvard, Maribor, Paranoid, Counter-Strike, Okrešelj, Pekel, Rodik, Tržič

Number

Dual
- ADJ: polna, blagovni, blagovnih, bolezenski, drugih, fer, grozna, ločeni, mali, medicinski
- ADJ-Part: ločeni, napisana, oživljena, predvidena, sprejeta, upognjena, zaposlena
- AUX-Fin: sta, sva, bova, bosta, nisva, bodita, nista
- AUX-Part: bila
- DET: oba, obe, ta, obeh, moja, ona, ena, naša, obadva, onih
- NOUN: leti, brata, otroka, dni, elementa, fanta, kovčka, meseca, milijona, oddelka
- NUM: dva, dve, dveh, dvema
- PRON: midva, naju, onadva, vidva, midve, nama, ju, njima, jima, vidve
- PROPN: Afganistanca, Američanki, Italijanki, štajer
- VERB-Fin: sta, sva, imata, imava, delava, gledava, gresta, morata, bosta, bova
- VERB-Part: šla, imela, bila, prišla, gledala, dobila, našla, videla, začela, bili

Plur
- ADJ: različne, sami, različnih, drugih, pozdravljeni, zadnjih, določene, nove, socialnih, dobri
- ADJ-Part: pozdravljeni, določene, ostali, prepričani, spoštovani, zaposlenih, odraslih, ostale, Združenih, določeni
- AUX-Fin: so, smo, ste, bomo, boste, bodo, niso, nismo, bojo, niste
- AUX-Part: bili, bile, bila
- DET: te, teh, vsi, ti, vse, vseh, tiste, tistih, tisti, katerih
- NOUN: let, stvari, ljudi, ljudje, otrok, evrov, leta, letih, dni, otroke
- NUM: tri, tisoč, pet, dvajset, trideset, deset, petnajst, štiri, sto, petdeset
- PRON: jih, mi, nas, nam, vi, vam, jim, vas, oni, nami
- PROPN: Romov, Božjah, Karavanke, slovenci, Italijani, Romi, Abitanti, Afganistanci, Izlake, Jesenice
- VERB-Fin: recimo, so, imamo, imajo, imate, vemo, moramo, gremo, smo, veste
- VERB-Part: imeli, rekli, šli, bili, videli, dobili, prišli, delali, dali, naredili

Sing
- ADJ: drugi, dobro, drugo, prvi, zanimivo, dober, sam, lepa, pomembno, druga
- ADJ-Part: določeno, rečeno, narejeno, spoštovana, vnet, znan, znana, določenem, imenovani, napisano
- AUX-Fin: je, sem, ni, bo, si, bom, nisem, boš, nisi, bodi
- AUX-Part: bilo, bila, bil
- DET: to, ta, tega, vse, tem, tisto, neko, en, neki, tej
- NOUN: bistvu, strani, dan, čas, leto, način, hvala, primer, redu, koncu
- NUM: ena, en, eno, eden, enega, eni, ene, enem, enim, drugem
- PRON: kaj, jaz, mi, ti, ga, kar, jo, me, meni, kdo
- PROPN: Sloveniji, Slovenija, Slovenije, Ljubljani, Ljubljane, Mariboru, Agropop, Ljubljana, rtv, Celja
- VERB-Fin: je, vem, veš, mislim, ni, ima, pravi, gre, zdi, bo
- VERB-Part: bilo, rekel, bil, rekla, bila, imela, imel, šla, šel, šlo

Case

Acc
- ADJ: drugo, različne, celo, dobro, dober, drugi, lep, novo, prvo, nove
- ADJ-Part: določene, določeno, izplačane, napisano, imenovano, narejeno, narezan, odrasle, ostale, razširjeni
- ADP: za, na, v, po, čez, skozi, med, nad, pod, pred
- DET: to, ta, vse, te, tisto, neko, eno, svoje, neki, tiste
- NOUN: dan, način, leto, primer, čas, leta, otroke, šolo, teden, delo
- NUM: eno, dva, tri, pet, en, dve, dvajset, tisoč, trideset, štiri
- PRON: kaj, ga, jih, jo, kar, me, nas, te, nekaj, vas
- PROPN: Nemčijo, Slovenijo, Ljubljano, Triglav, Ameriko, Bruselj, Harvard, Maribor, Paranoid, Celje

Dat
- ADJ: novim, drugemu, ostalim, drugim, zaposlenim, zdravniški, zdravniškim, Evropski, Svetemu, celoviti
- ADJ-Part: ostalim, zaposlenim, določenemu, določenim, pokritemu, pospešeni, razgibanemu, sestavljeni, zaposlenemu
- ADP: proti, k, kljub, h, blizu, navkljub, preblizu
- DET: temu, vsem, tem, vsakemu, našim, tej, enemu, kateremu, mojemu, nekaterim
- NOUN: ljudem, bolniku, bogu, boleznim, bolnikom, otrokom, očetu, covidu, državam, gostom
- NUM: devetim, eni, štirim
- PRON: mi, si, ti, nam, meni, vam, jim, mu, ji, njemu
- PROPN: Ljubljani, Andreju, Antonu, Belvedurju, Dragonji, HPV-ju, Kamniku, Konjičanu, Luciji, Lutahrju

Gen
- ADJ: drugega, različnih, drugih, prve, slovenske, socialnih, javnega, novih, parlamentarne, prvega
- ADJ-Part: zaposlenih, imenovanega, lečečega, ljubljene, odprtih, odraslih, ostalih, zasedenih, Mešanega, Združenih
- ADP: od, do, iz, zaradi, brez, z, s, preko, poleg, znotraj
- DET: tega, teh, vseh, tistih, te, takega, nekega, nekih, takih, neke
- NOUN: let, leta, otrok, evrov, časa, ljudi, dni, strani, dela, minut
- NUM: ene, dveh, petih, treh, enega, dvajsetih, dvanajstih, enih, osmih, sedmih
- PRON: jih, ga, je, mene, česa, nas, vas, nje, njih, tebe
- PROPN: Slovenije, Ljubljane, Celja, Evrope, Romov, Antona, Avstrije, Dunaja, Maribora, Kranja

Ins
- ADJ: drugimi, drugim, drugo, kratkim, strokovno, porodniško, različnimi, tretjo, vremenskimi, Slovensko
- ADJ-Part: določenimi, govorjeno, improvizirano, obstoječimi, odraslimi, ohranjenimi, omejenimi, omenjeno, pridruženimi, sesekljanimi
- ADP: z, s, med, pred, pod, za, nad
- DET: tem, temi, katerimi, neko, vsemi, to, svojimi, takimi, katerim, tistim
- NOUN: leti, ljudmi, stresom, boleznimi, debelostjo, avtobusom, letom, pomočjo, avtom, besedami
- NUM: enim, sedmimi, tremi, dvema, eno, dvanajstimi, enaindvajsetimi, enainpetdesetimi, petdesetimi, sedemnajstimi
- PRON: sabo, nami, njimi, mano, njo, seboj, vami, njim, čim, njima
- PROPN: Branetom, Špelo, Štefko, Alenko, Alešem, Andersonom, Antoličičem, Avstrijci, Avstrijo, Bennyjem

Loc
- ADJ: drugi, glavnem, prvi, zadnjem, prvem, osnovni, zadnjih, sami, akademskem, drugem
- ADJ-Part: določenem, Združenih, določenih, imenovani, končanem, odraslih, dani, določeni, govorjenem, govorjeni
- ADP: v, na, po, pri, o, ob, za
- DET: tem, tej, teh, katerih, vseh, nekem, katerem, naši, tistem, kateri
- NOUN: bistvu, strani, redu, koncu, času, letih, mestu, šoli, področju, primeru
- NUM: eni, dveh, enem, desetih, štirih, treh, devetnajstih, drugem, enajstih, osemnajstih
- PRON: nas, sebi, njej, njem, njih, čemer, vas, kom, meni, tebi
- PROPN: Sloveniji, Ljubljani, Mariboru, Evropi, Nemčiji, Netflixu, Avstriji, Božjah, Bruslju, Iraku

Nom
- ADJ: sam, zanimivo, lepa, dobro, drugi, pomembno, druga, sami, dober, sama
- ADJ-Part: pozdravljeni, spoštovani, ostali, prepričani, rečeno, znana, določene, spoštovana, sprejeta, vnet
- DET: to, ta, vse, tisti, vsi, te, ti, tisto, en, tak
- NOUN: hvala, ljudje, gospod, del, stvar, otroci, pot, država, gospa, zgodba
- NUM: ena, dva, en, tisoč, pet, eden, tri, devet, dvajset, trije
- PRON: jaz, kaj, ti, mi, kar, kdo, on, vi, ona, oni
- PROPN: Slovenija, Agropop, Ljubljana, Jones, Nigerija, Tom, Bistrica, David, Healy, Alenka

Definite

Def
- ADJ: drugi, pravi, mali, naslednji, stari, boljši, edini, največji, rojstni, delovni
- ADJ-Part: spoštovani, razširjeni, animirani, imenovani, predsedujoči, zaposleni, delujoči, igrani, nariti, ostali

Ind
- ADJ: dober, sam, lep, velik, cel, drug, zanimiv, slab, star, celoten
- ADJ-Part: vnet, znan, pripravljen, določen, navajen, zaposlen, narezan, omenjen, organiziran, pozdravljen

Degree and Polarity

Degree

Cmp
- ADJ: boljši, manjši, boljše, mlajši, večja, večji, manjša, boljša, manjše, starejša
- ADV: bolj, prej, kasneje, boljše, večkrat, rajši, raje, lažje, pozneje, lepše

Pos
- ADJ: dobro, zanimivo, dober, sam, sami, lepa, pomembno, različne, lep, sama
- ADJ-Part: pozdravljeni, določene, spoštovani, ostali, prepričani, določeno, rečeno, znana, narejeno, odprta
- ADV: tako, zdaj, lahko, potem, zelo, kako, kar, tam, res, a
- DET: pol, nekaj, nič, kaj

Sup
- ADJ: največji, najboljše, največje, največja, najmlajši, najboljša, najboljši, najboljših, najljubši, najnujnejše
- ADV: najbolj, najprej, najmanj, najlažje, najrajši, najbolje, najboljše, najpogosteje, najraje, najverjetneje

Polarity

Neg
- AUX-Fin: ni, nisem, niso, nismo, nisi, niste, nisva, nista
- PART: ne, bržkone, kajne
- VERB-Fin: ni, nima, nimam, nimajo, nisem, niso, nimamo, nimaš, niste, noče

Pos
- AUX-Fin: je, so, sem, smo, bo, si, ste, bom, bomo, sta
- VERB-Fin: je, so, ima, imamo, bo, imajo, imaš, imam, sem, si

Variant

Bound
- PRON: zame, zase, zanj, zanjo, nanj, zate, vanj, vanjo

Short
- PRON: se, mi, jih, ga, si, jo, ti, me, jim, mu

Verbal Features

Aspect

Imp
- AUX-Fin: bodita
- AUX-Part: bil, bilo
- VERB-Fin: vem, veš, mislim, ima, imamo, zdi, imajo, imaš, imam, imate
- VERB-Inf: imeti, govoriti, zavedati, delati, gledati, iskati, jesti, vedeti, hoditi, učiti
- VERB-Part: imeli, imela, imel, mogel, delala, delali, delal, gledala, mogla, mislil
- VERB-Sup: delat, gledat, nabirat, spat, jest, ponavljat, študirat, guglat, jebat, kuhat

Perf
- VERB-Fin: recimo, da, daj, pride, spomnim, rečem, prideš, začne, dobi, reče
- VERB-Inf: narediti, reči, povedati, priti, kupiti, naučiti, pogledati, prenesti, prilagoditi, zmeniti
- VERB-Part: rekel, rekla, rekli, prišla, prišel, dobil, dobili, prišli, dal, dala
- VERB-Sup: naredit, izpeljat, naročit, pogledat, povedat, reč, rešit, stuširat, vrnit

Mood

Cnd
- AUX-Fin: bi
- VERB-Fin: bi

Imp
- AUX-Fin: bodite, bodi, bodita
- VERB-Fin: recimo, daj, čakaj, glej, poglejte, povej, glejte, dajmo, dajte, gremo

Ind
- AUX-Fin: je, so, sem, smo, ni, bo, si, ste, bom, bomo
- VERB-Fin: je, vem, veš, mislim, so, ni, ima, pravi, imamo, gre

Tense

Fut
- AUX-Fin: bo, bom, bomo, boš, boste, bodo, bojo, bova, bosta
- VERB-Fin: bo, bom, bomo, boš, bodo, bojo, bosta, bova, boste

Pres
- AUX-Fin: je, so, sem, smo, ni, si, ste, sta, nisem, sva
- VERB-Fin: je, vem, veš, mislim, so, ni, ima, pravi, imamo, gre

Pronouns, Determiners, Quantifiers

PronType

Dem
- DET: to, ta, tega, tem, te, teh, tisto, tisti, toliko, ti
- PRON: le-ta, le-teh, le-ti

Ind
- DET: malo, pol, več, nekaj, veliko, dosti, neki, manj, neko, preveč
- PRON: nekaj, nekdo, nekoga, nekomu, isto, marsikdo, marsikaj, marsikoga, marsikomu, marsičem

Int
- DET: koliko, kakšen, kateri, kakšno, katerih, kakšne, kakšna, kakšni, katero, katere
- PRON: kaj, kdo, koga, česa, čim, kom, komu, čem, čemu, što

Neg
- DET: nič, noben, nobenega, nobene, nobena, nikako, nikakršne, ničesar, nobenem, nobenemu
- PRON: nič, nekaj, nihče, nikomer, ničesar, nobeden

Prs
- ADJ: sirovo, Andrejevo, Belvijevega, Bertrandova, Blaževi, Dolinarjeva, Heglovem, Putzerjeva, Pärsonovo, Saudovi
- DET: svoje, naše, naši, naša, moj, naš, moje, moja, svoj, naših
- PRON: se, mi, jaz, ti, jih, ga, si, jo, nas, nam

Rel
- DET: kakršnekoli, kakršnih, kakršna, kakršnakoli, kakršne, kakršnega, kakršni, kakršno, katerikoli, katerimkoli
- PRON: kar, karkoli, čemer, kdor, česar, česarkoli, komerkoli, čimer

Tot
- DET: vse, vsi, vseh, vsak, vsem, ves, vsako, vsa, vso, vsega
- PRON: vsakdo

NumType

Card
- DET: en, eno, ena, ene, enega, eni, enem, enih, enemu, enim
- NUM: dva, ena, en, tri, tisoč, pet, eno, dve, dvajset, trideset

Mult
- ADJ: dvojni, dvojno, trojni

Ord
- ADJ: prvi, prvo, prva, prve, prvem, tretji, prvega, sedemindvajsetega, tretjo, šesti
- NUM: štire

Sets
- NUM: dvoje

Poss

Yes
- ADJ: otrokovih, sirovo, Dopplerjev, Staničevi, krompirjevo, paradižnikovo, Andrejevo, Asimovih, Barbičeva, Belvijevega
- DET: naše, svoje, naši, naša, moj, naš, moje, moja, naših, svoj

Reflex

Yes
- DET: svoje, svoj, svojega, svojo, svojih, svoji, svojimi, svojem, svoja, svojim
- PRON: se, si, sabo, sebe, sebi, seboj, zase

Person

1
- AUX-Fin: sem, smo, bom, bomo, nisem, sva, nismo, bova, nisva
- DET: naše, naši, naša, moj, naš, moje, moja, naših, našega, našo
- PRON: mi, jaz, nas, nam, me, meni, mene, nami, zame, mano
- VERB-Fin: vem, mislim, recimo, imamo, imam, sem, vemo, moram, moramo, gremo

2
- AUX-Fin: si, ste, boš, boste, nisi, niste, sta, bodite, bodi, bodita
- DET: vaši, vaš, vaše, tvoja, vašo, tvoj, vaša, vašem, tvoje, vašega
- PRON: ti, vi, vam, te, vas, tebe, tebi, vami, vidva, tabo
- VERB-Fin: veš, imaš, si, daj, imate, čakaj, glej, greš, moraš, moreš

3
- AUX-Fin: je, so, ni, bo, sta, bodo, niso, bojo, bosta, biti
- DET: njihovo, njihove, njegova, njen, njeni, njihovih, njegovo, njene, njihova, njegov
- PRON: jih, ga, jo, on, ona, jim, mu, oni, ji, njih
- VERB-Fin: je, so, ni, ima, pravi, gre, zdi, bo, imajo, pomeni

Gender[psor]

Fem
- DET: njen, njeni, njene, njeno, njenega, njenem

Masc
- DET: njegova, njegovo, njegov, njegove, njegovi, njegovim, njegovega

Number[psor]

Dual
- DET: najino, njune

Plur
- DET: naše, naši, naša, naš, naših, našega, našo, njihovo, vaši, našem

Sing
- DET: moj, moje, moja, mojega, moji, mojo, mojem, njegova, njen, njeni

Other Features

Abbr
- Yes
  - X: d., o.

Foreign
- Yes
  - X: the, of, green, stop, on, grass, home, non, Assistant, Beautiful

NumForm
- Word
  - DET: en, eno, ena, ene, enega, eni, enem, enih, enemu, enim
  - NUM: dva, ena, en, tri, tisoč, pet, eno, dve, dvajset, trideset

Typo
- Yes
  - ADJ: fizikalni
  - AUX-Fin: ni
  - DET: dosti, ta
  - NOUN: znamenitosti
  - PRON: se
  - X: nar-, pa, sto, z-, če

Syntax

Auxiliary Verbs and Copula

This corpus uses 1 lemmas as copulas (cop). Examples: biti.

This corpus uses 1 lemmas as auxiliaries (aux). Examples: biti.

Core Arguments, Oblique Arguments and Adjuncts

Here we consider only relations between verbs (parent) and nouns or pronouns (child).

nsubj
- VERB-Fin--NOUN-Acc (11)
- VERB-Fin--NOUN-Gen (104)
- VERB-Fin--NOUN-Nom (789)
- VERB-Fin--NOUN-Nom-ADP(kakor) (1)
- VERB-Fin--PRON-Acc (9)
- VERB-Fin--PRON-Dat (3)
- VERB-Fin--PRON-Gen (18)
- VERB-Fin--PRON-Nom (462)
- VERB-Inf--NOUN-Nom (3)
- VERB-Part--NOUN-Acc (4)
- VERB-Part--NOUN-Gen (39)
- VERB-Part--NOUN-Gen-ADP(do) (1)
- VERB-Part--NOUN-Nom (353)
- VERB-Part--PRON-Acc (2)
- VERB-Part--PRON-Gen (14)
- VERB-Part--PRON-Nom (293)

obj
- VERB-Fin--NOUN-Acc (729)
- VERB-Fin--NOUN-Acc-ADP(na) (1)
- VERB-Fin--NOUN-Acc-ADP(preko) (1)
- VERB-Fin--NOUN-Dat (19)
- VERB-Fin--NOUN-Gen (174)
- VERB-Fin--NOUN-Gen-ADP(preko) (1)
- VERB-Fin--NOUN-Gen-ADP(čez) (1)
- VERB-Fin--NOUN-Loc (2)
- VERB-Fin--NOUN-Nom (23)
- VERB-Fin--NOUN-Nom-ADP(kot) (1)
- VERB-Fin--PRON (4)
- VERB-Fin--PRON-Acc (381)
- VERB-Fin--PRON-Acc-ADP(za) (1)
- VERB-Fin--PRON-Dat (192)
- VERB-Fin--PRON-Gen (33)
- VERB-Fin--PRON-Nom (13)
- VERB-Inf--NOUN-Acc (129)
- VERB-Inf--NOUN-Dat (3)
- VERB-Inf--NOUN-Gen (31)
- VERB-Inf--NOUN-Nom (6)
- VERB-Inf--PRON-Acc (61)
- VERB-Inf--PRON-Dat (2)
- VERB-Inf--PRON-Gen (5)
- VERB-Inf--PRON-Nom (1)
- VERB-Part--NOUN-Acc (506)
- VERB-Part--NOUN-Acc-ADP(navkljub) (1)
- VERB-Part--NOUN-Dat (16)
- VERB-Part--NOUN-Gen (106)
- VERB-Part--NOUN-Nom (7)
- VERB-Part--PRON (4)
- VERB-Part--PRON-Acc (239)
- VERB-Part--PRON-Dat (78)
- VERB-Part--PRON-Gen (18)
- VERB-Part--PRON-Nom (1)
- VERB-Sup--NOUN-Acc (13)
- VERB-Sup--NOUN-Gen (1)
- VERB-Sup--PRON-Acc (2)

iobj
- VERB-Fin--NOUN-Dat (20)
- VERB-Fin--PRON-Acc (7)
- VERB-Fin--PRON-Dat (133)
- VERB-Fin--PRON-Gen (1)
- VERB-Inf--NOUN-Acc (2)
- VERB-Inf--NOUN-Dat (4)
- VERB-Inf--PRON-Acc (1)
- VERB-Inf--PRON-Dat (12)
- VERB-Part--NOUN-Acc (2)
- VERB-Part--NOUN-Dat (19)
- VERB-Part--PRON-Acc (15)
- VERB-Part--PRON-Dat (109)
- VERB-Part--PRON-Gen (1)
- VERB-Part--PRON-Nom (1)
- VERB-Sup--PRON-Dat (1)

Verbs with Reflexive Core Objects

This corpus contains 43 lemmas that occur at least once with a reflexive core object (obj or iobj). Examples: imeti svoje, pomagati si, izbrati si, kupiti si, narediti svoje, poiskati si, pripraviti si, vzeti si, zavarovati se, biti si, dajati sebe, govoriti si, imeti svoj, kriv si, misliti svoje, namestiti si, narediti sebe, narediti si, nesti si, obleči se, opisati sebe, podariti si, pokrivati si, posaditi si, povedati svoje, prebrati si, pridobiti si, pustiti si, razbremenjevati sebe, skriti se, tolažiti se, uriti se, videti sebe, vpisati se, zagotavljati si, zapisati si, zapisovati si, zatiskati si, zbrati si, zgraditi si, zlomiti si, zviti si, šaltati se

Out of those, 1 lemmas occurred more than once, but never without a reflexive dependent. Examples: zavarovati

Relations Overview

This corpus uses 6 relation subtypes: cc:preconj, discourse:filler, flat:foreign, flat:name, parataxis:discourse, parataxis:restart
The following 3 relation types are not used in this corpus at all: clf, compound, list