UD Slovenian SST
Language: Slovenian (code: sl
)
Family: IE
This treebank has been part of Universal Dependencies since the UD v1.3 release.
The following people have contributed to making this treebank part of UD: Kaja Dobrovoljc, Joakim Nivre.
Repository: UD_Slovenian-SST
Search this treebank on-line: PML-TQ
Download all treebanks: UD 2.15
License: CC BY-SA 4.0
Genre: spoken
Questions, comments? General annotation questions (either Slovenian-specific or cross-linguistic) can be raised in the main UD issue tracker. You can report bugs in this treebank in the treebank-specific issue tracker on Github. If you want to collaborate, please contact [kaja • dobrovoljc (æt) ff • uni-lj • si]. Development of the treebank happens outside the UD repository. If there are bugs, either the original data source or the conversion procedure must be fixed. Do not submit pull requests against the UD repository.
Annotation | Source |
---|---|
Lemmas | annotated manually in non-UD style, automatically converted to UD |
UPOS | annotated manually in non-UD style, automatically converted to UD |
XPOS | annotated manually |
Features | annotated manually in non-UD style, automatically converted to UD |
Relations | annotated manually, natively in UD style |
Description
The Spoken Slovenian Treebank (SST) is a manually annotated collection of transcribed audio recordings featuring spontaneous speech in various everyday situations. It includes 344 unique speech events (documents) amounting to approximately 10 hours of speech, encompassing a total of 6,108 utterances and 98,396 tokens.
Spoken Slovenian Treebank (SST) is a manually grammatically annotated sample of the GOS reference corpus of spoken Slovenian. It contains transcribed audio recordings of monologic, dialogic and multi-pary spontaneous speech in different everyday situations, balanced so as to be representative of speaker demographics (sex, age, region, education), channels (TV, radio, telephone, personal contact) and communication settings (TV and radio shows, lectures, meetings, consultations, services, conversations between friends etc.).
The spelling, tokenization and segmentation principles follow the transcription guidelines of the reference corpus (Verdonik et al. 2013) with the syntactic trees spanning over individual utterances (semantically, syntactically and acoustically delimited units, roughly corresponding to written-like sentences). The annotation has been performed on top of normalized transcriptions, i.e. words with standardized spelling. To accommodate the structural and pragmatic particularities of spoken language data, such as self-repairs, fillers, discourse markers and parentheticals, we relied on the guidelines proposed by Dobrovoljc and Nivre (2016) and Dobrovoljc (2022).
As of UD release v2.14 in May 2024, the original version of the SST UD treebank (Dobrovoljc in Nivre 2016) has been partially revised and substantially extended with new data from GOS v2 (Verdonik et al. 2024), such as parliamentary debates, round tables and online events. The latest version of the SST treebank thus includes 6,108 utterances, produced by 676 speakers in 344 different speech events (48% public and 52% non-public tokens) amounting to approximately 10 hours of recordings. For the UD release v2.15 (November 2025), punctuation symbols such as commas and sentence-final punctuation, which were previously missing, have been added.
The train-dev-test data split has been randomized on document-level. The CONLL-U files include links to original audio recordings, and information on the GOS speaker/event IDs, which can be used to retrieve additional metadata information from the original GOS corpus, such as the information on speaker demographics, speech event details or transcribed markers of prosody.
Acknowledgments
We wish to thank all the collaborators who have helped with dependency annotation (Nives Hüll, Karolina Zgaga, Luka Terčon, Matija Škofljanec), JOS-MTE lemmatization and morphological annotation (Jaka Čibej, Tina Munda, Matija Škofljanec), punctuation insertion (Iztok Lebar Bajec, Tina Munda), data sampling and splitting (Darinka Verdonik, Nikola Ljubešić, Peter Rupnik), automatic pre-annotation (Luka Krsnik), JOS-to-UD morphology conversion (Jaka Čibej), and original guidelines consulting (Joakim Nivre). This work was financially supported by the Slovenian Research and Innovation Agency (grant no. Z6-4617 - A Treebank-Driven Approach to the Study of Spoken Slovenian and Young Researcher Programme 2013) and IC1207 COST Action PARSEME.
References
- Kaja Dobrovoljc and Joakim Nivre. 2016. The Universal Dependencies Treebank of Spoken Slovenian. In: Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC’16), Portorož, Slovenia.
@inproceedings{dobrovoljc-nivre-2016-universal,
title = "The {U}niversal {D}ependencies Treebank of Spoken {S}lovenian",
author = "Dobrovoljc, Kaja and Nivre, Joakim",
booktitle = "Proceedings of the Tenth International Conference on Language Resources and Evaluation ({LREC}'16)",
year = "2016",
publisher = "European Language Resources Association (ELRA)",
url = "https://aclanthology.org/L16-1248",
pages = "1566--1573",
}
Other references
- Verdonik et al. 2013. Compilation, transcription and usage of a reference speech corpus: the case of the Slovene corpus GOS. Language Resources and Evaluation, 47(4):1031–1048.
- Verdonik et al. 2024. Gos 2: A New Reference Corpus of Spoken Slovenian. LREC-COLING 2024.
- Kaja Dobrovoljc. 2022. Spoken Language Treebanks in Universal Dependencies: An Overview. LREC 2022.
Changelog
2024-10-28 v2.15 * Added punctuation symbols (22,055 new tokens) * Corrected some errors in manual transcription and annotation * Introduced new data split to comply with ROG-Artur * Updated readme 2024-04-11 v2.14 * Extended original dataset with 2,916 new sentences (46,853 tokens) * Revised original dataset to implement guidelines changes (e.g. reparandum and discourse) * Removed conj:extend label * Added Gos2.1 document/sentence/token IDs for easier lookup * Changed license to CC-BY-SA * Updated readme 2023-04-12 v2.12 * Added metadata information on speaker ID and soundfile URL * Renamed sentence IDs to comply with the GOS 2.0 nomenclature * Corrected mistakes pertaining to Reflex and Polarity features * Corrected inconsistent UPOS tags for non-lexical tokens (all PUNCT) * Corrected some minor errors in manual annotation * Removed old msd info from MISC and renamed 'word' to 'pronunciation' 2022-04-20 v2.10 * Manual relabelling of the few examples raising validation errors, mostly from goeswith to fixed 2019-10-30 v2.5 * Fixed legacy validation errors, i.e. * Re-tagging the [gap]-like punctuation from X to PUNCT * Re-attaching the [gap]-like punctuation causing non-projectivity * Re-attaching leafs of unlike parents * Fixing random mistakes in annotation 2015-01-30 v2.0 * Manual and automatic conversions from UDv1 to UDv2 guidelines * Manual corrections of some mistakes in previous versions * Resizing of train-dev-test (in accordance with CONLL ST 2017 requirements) * Random utterance shuffling to ensure more representative genre distributions. 2015-03-15 v2.2 * Manual corrections of some mistakes in previous versions * New (text-level) data randomization * Resizing of train-test datasets (in accordance with CONLL ST 2018)
Acknowledgments
Statistics of UD Slovenian SST
POS Tags
ADJ – ADP – ADV – AUX – CCONJ – DET – INTJ – NOUN – NUM – PART – PRON – PROPN – PUNCT – SCONJ – VERB – X
Features
Abbr – Animacy – Aspect – Case – Definite – Degree – Foreign – Gender – Gender[psor] – Mood – Number – Number[psor] – NumForm – NumType – Person – Polarity – Poss – PronType – Reflex – Tense – Typo – Variant – VerbForm
Relations
acl – advcl – advmod – amod – appos – aux – case – cc – cc:preconj – ccomp – conj – cop – csubj – dep – det – discourse – discourse:filler – dislocated – expl – fixed – flat – flat:foreign – flat:name – goeswith – iobj – mark – nmod – nsubj – nummod – obj – obl – orphan – parataxis – parataxis:discourse – parataxis:restart – punct – reparandum – root – vocative – xcomp
Tokenization and Word Segmentation
- This corpus contains 6108 sentences and 98393 tokens.
- All tokens in this corpus are followed by a space.
- This corpus does not contain words with spaces.
- This corpus contains 316 types of words that contain both letters and punctuation. Examples: [name:personal], [name:surname], s-, z-, n-, j-, k-, p-, m-, t-, po-, b-, v-, [name:organisation], d-, o-, u-, na-, do-, š-, i-, [name:address], a-, ka-, pre-, re-, se-, ma-, ne-, pri-, za-, e-, ist-, l-, nek-, ni-, r-, raz-, Counter-Strike, RTV-ja, Zakonodajno-pravna, Zasp-a, am-, boogie-woogie, da-, dru-, g-, gos-, gospo-, hitro-
Morphology
Tags
- This corpus uses 16 UPOS tags out of 17 possible: ADJ, ADP, ADV, AUX, CCONJ, DET, INTJ, NOUN, NUM, PART, PRON, PROPN, PUNCT, SCONJ, VERB, X
- This corpus does not use the following tags: SYM
- This corpus contains 57 word types tagged as particles (PART): a, ajde, alora, arki, baje, baš, bogve, bržkone, celo, cirka, da, domala, edino, evo, glih, i, itak, ja, jel, kajne, kajneda, kao, koli, le, ma, menda, morda, morebiti, naj, najbrž, najsibo, ne, niti, no, pač, prav, pravzaprav, predvsem, ravno, samo, seveda, sicer, skoraj, skorajda, sploh, te, tipo, tudi, valjda, več, vsaj, vsekakor, zgolj, zlasti, še, šele, že
- This corpus contains 30 lemmas tagged as pronouns (PRON): isto, jaz, kaj, kar, karkoli, kdo, kdor, kdorkoli, le-ta, marsikaj, marsikdo, mnogokaj, name, nekaj, nekdo, nihče, nič, nobeden, on, oni, ovi, se, ta, te, ti, vame, vsakdo, zame, zase, što
- This corpus contains 71 lemmas tagged as determiners (DET): dosti, dovolj, en, enak, enormno, isti, kaj, kak, kakršen, kakršenkoli, kakšen, kateri, katerikoli, koliko, kolikšen, majčkeno, malce, malo, manj, marsikateri, mnog, mnogo, moj, najin, največ, naš, nek, nekaj, nekakšen, nekateri, neki, nekšen, nikak, nikakršen, nič, njegov, njen, njihov, njun, noben, oba, obadva, oboj, ogromno, oni, ovi, par, pol, premnog, preveč, svoj, ta, taisti, tak, takle, takšen, tale, tisti, tolik, toliko, toti, tvoj, vaš, veliko, ves, več, vsak, vsakršen, četrt, čigav, čimveč
- Out of the above, 6 lemmas occurred sometimes as PRON and sometimes as DET: kaj, nekaj, nič, oni, ovi, ta
- This corpus contains 1 lemmas tagged as auxiliaries (AUX): biti
- Out of the above, 1 lemmas occurred sometimes as AUX and sometimes as VERB: biti
- There are 5 (de)verbal forms:
- Conv
- ADV: rekoč
- Fin
- AUX: je, so, sem, bi, smo, ni, bo, si, ste, bom
- VERB: je, vem, veš, mislim, recimo, so, ni, ima, pravi, imamo
- Inf
- AUX: biti
- VERB: biti, iti, narediti, reči, imeti, videti, povedati, priti, pomagati, govoriti
- Part
- ADJ: pozdravljeni, določene, spoštovani, ostali, prepričani, določeno, rečeno, znana, narejeno, odprta
- AUX: bilo, bila, bil, bili, bile
- VERB: bilo, rekel, bil, imeli, rekla, bila, imela, šla, imel, rekli
- Sup
- VERB: delat, gledat, nabirat, spat, jest, naredit, pomagat, ponavljat, študirat, žegnat
Nominal Features
- Fem
- ADJ: lepa, drugo, druga, sama, drugi, velika, dobra, prvi, določene, prve
- ADJ-Part: določene, spoštovana, znana, odprta, sprejeta, izplačane, ostale, postavljena, spoštovane, zapuščene
- AUX-Part: bila, bile
- DET: te, ta, to, tej, teh, neko, eno, tiste, vse, neke
- NOUN: strani, stvari, hvala, stvar, pot, šole, šoli, bolezni, šolo, država
- NUM: ena, eno, dve, tri, ene, eni, štiri, dveh, štirih, treh
- PRON: jo, jih, ona, ji, je, njo, njej, midve, nje, njimi
- PROPN: Sloveniji, Slovenija, Slovenije, Ljubljani, Ljubljane, Ljubljana, rtv, Evropi, Nemčiji, Nemčijo
- VERB-Part: rekla, bila, imela, šla, prišla, delala, videla, dala, naredila, mogla
- Masc
- ADJ: drugi, dober, sam, prvi, sami, lep, pozdravljeni, velik, cel, drugih
- ADJ-Part: pozdravljeni, spoštovani, ostali, prepričani, vnet, zaposleni, zaposlenih, znan, odraslih, pripravljen
- AUX-Part: bil, bili, bila
- DET: ta, tisti, vsi, tem, tega, en, neki, ti, teh, vsak
- NOUN: dan, čas, način, otrok, ljudi, primer, redu, koncu, ljudje, evrov
- NUM: dva, en, eden, enega, tri, trije, eni, štiri, štirje, dveh
- PRON: ga, mi, jih, kdo, on, vi, mu, jim, oni, nekdo
- PROPN: Mariboru, Agropop, Jones, Maribor, Tom, Triglav, David, Healy, Netflixu, Romov
- VERB-Part: rekel, bil, imeli, imel, rekli, šli, šel, bili, mogel, videl
- Neut
- ADJ: dobro, zanimivo, pomembno, glavnem, drugo, fajn, drugega, potrebno, mogoče, super
- ADJ-Part: rečeno, določeno, narejeno, povezano, preverjeno, ostalo, povezana, pripravljeno, znano, določena
- AUX-Part: bilo, bila
- DET: to, vse, tega, tem, tisto, nič, temu, tole, nekaj, svoje
- NOUN: bistvu, leta, leto, let, delo, letih, mesto, vprašanje, dela, mestu
- NUM: tri, eno, dve, enem, štiri, dveh, ena, tremi, drugem, enega
- PRON: kaj, kar, nekaj, nič, ga, jih, česa, isto, karkoli, čemer
- PROPN: Celja, Celje, Celju, Pohorja, Slovenskem, Ivanovo, Šmarja, Štajerskem, Švedskem, Celjskega
- VERB-Part: bilo, šlo, prišlo, zgodilo, uspelo, dalo, trajalo, spremenilo, dogajalo, imelo
- Anim
- NOUN: otroka, zdravnika, cimra, gospoda, črnca, avtorja, bolnika, kolega, lastnika, novinarja
- PROPN: Poljanška, Arturja, Boruca, Dušana, Francoza, Goloba, Igorja, Kikija, Kitajca, Kristusa
- Inan
- NOUN: dan, način, primer, čas, teden, program, denar, mesec, glas, konec
- PROPN: Triglav, Bruselj, Harvard, Maribor, Paranoid, Counter-Strike, Okrešelj, Pekel, Rodik, Tržič
- Dual
- ADJ: polna, blagovni, blagovnih, bolezenski, drugih, fer, grozna, ločeni, mali, medicinski
- ADJ-Part: ločeni, napisana, oživljena, predvidena, sprejeta, upognjena, zaposlena
- AUX-Fin: sta, sva, bova, bosta, nisva, bodita, nista
- AUX-Part: bila
- DET: oba, obe, ta, obeh, moja, ona, ena, naša, obadva, onih
- NOUN: leti, brata, otroka, dni, elementa, fanta, kovčka, meseca, milijona, oddelka
- NUM: dva, dve, dveh, dvema
- PRON: midva, naju, onadva, vidva, midve, nama, ju, njima, jima, vidve
- PROPN: Afganistanca, Američanki, Italijanki, štajer
- VERB-Fin: sta, sva, imata, imava, delava, gledava, gresta, morata, bosta, bova
- VERB-Part: šla, imela, bila, prišla, gledala, dobila, našla, videla, začela, bili
- Plur
- ADJ: različne, sami, različnih, drugih, pozdravljeni, zadnjih, določene, nove, socialnih, dobri
- ADJ-Part: pozdravljeni, določene, ostali, prepričani, spoštovani, zaposlenih, odraslih, ostale, Združenih, določeni
- AUX-Fin: so, smo, ste, bomo, boste, bodo, niso, nismo, bojo, niste
- AUX-Part: bili, bile, bila
- DET: te, teh, vsi, ti, vse, vseh, tiste, tistih, tisti, katerih
- NOUN: let, stvari, ljudi, ljudje, otrok, evrov, leta, letih, dni, otroke
- NUM: tri, tisoč, pet, dvajset, trideset, deset, petnajst, štiri, sto, petdeset
- PRON: jih, mi, nas, nam, vi, vam, jim, vas, oni, nami
- PROPN: Romov, Božjah, Karavanke, slovenci, Italijani, Romi, Abitanti, Afganistanci, Izlake, Jesenice
- VERB-Fin: recimo, so, imamo, imajo, imate, vemo, moramo, gremo, smo, veste
- VERB-Part: imeli, rekli, šli, bili, videli, dobili, prišli, delali, dali, naredili
- Sing
- ADJ: drugi, dobro, drugo, prvi, zanimivo, dober, sam, lepa, pomembno, druga
- ADJ-Part: določeno, rečeno, narejeno, spoštovana, vnet, znan, znana, določenem, imenovani, napisano
- AUX-Fin: je, sem, ni, bo, si, bom, nisem, boš, nisi, bodi
- AUX-Part: bilo, bila, bil
- DET: to, ta, tega, vse, tem, tisto, neko, en, neki, tej
- NOUN: bistvu, strani, dan, čas, leto, način, hvala, primer, redu, koncu
- NUM: ena, en, eno, eden, enega, eni, ene, enem, enim, drugem
- PRON: kaj, jaz, mi, ti, ga, kar, jo, me, meni, kdo
- PROPN: Sloveniji, Slovenija, Slovenije, Ljubljani, Ljubljane, Mariboru, Agropop, Ljubljana, rtv, Celja
- VERB-Fin: je, vem, veš, mislim, ni, ima, pravi, gre, zdi, bo
- VERB-Part: bilo, rekel, bil, rekla, bila, imela, imel, šla, šel, šlo
- Acc
- ADJ: drugo, različne, celo, dobro, dober, drugi, lep, novo, prvo, nove
- ADJ-Part: določene, določeno, izplačane, napisano, imenovano, narejeno, narezan, odrasle, ostale, razširjeni
- ADP: za, na, v, po, čez, skozi, med, nad, pod, pred
- DET: to, ta, vse, te, tisto, neko, eno, svoje, neki, tiste
- NOUN: dan, način, leto, primer, čas, leta, otroke, šolo, teden, delo
- NUM: eno, dva, tri, pet, en, dve, dvajset, tisoč, trideset, štiri
- PRON: kaj, ga, jih, jo, kar, me, nas, te, nekaj, vas
- PROPN: Nemčijo, Slovenijo, Ljubljano, Triglav, Ameriko, Bruselj, Harvard, Maribor, Paranoid, Celje
- Dat
- ADJ: novim, drugemu, ostalim, drugim, zaposlenim, zdravniški, zdravniškim, Evropski, Svetemu, celoviti
- ADJ-Part: ostalim, zaposlenim, določenemu, določenim, pokritemu, pospešeni, razgibanemu, sestavljeni, zaposlenemu
- ADP: proti, k, kljub, h, blizu, navkljub, preblizu
- DET: temu, vsem, tem, vsakemu, našim, tej, enemu, kateremu, mojemu, nekaterim
- NOUN: ljudem, bolniku, bogu, boleznim, bolnikom, otrokom, očetu, covidu, državam, gostom
- NUM: devetim, eni, štirim
- PRON: mi, si, ti, nam, meni, vam, jim, mu, ji, njemu
- PROPN: Ljubljani, Andreju, Antonu, Belvedurju, Dragonji, HPV-ju, Kamniku, Konjičanu, Luciji, Lutahrju
- Gen
- ADJ: drugega, različnih, drugih, prve, slovenske, socialnih, javnega, novih, parlamentarne, prvega
- ADJ-Part: zaposlenih, imenovanega, lečečega, ljubljene, odprtih, odraslih, ostalih, zasedenih, Mešanega, Združenih
- ADP: od, do, iz, zaradi, brez, z, s, preko, poleg, znotraj
- DET: tega, teh, vseh, tistih, te, takega, nekega, nekih, takih, neke
- NOUN: let, leta, otrok, evrov, časa, ljudi, dni, strani, dela, minut
- NUM: ene, dveh, petih, treh, enega, dvajsetih, dvanajstih, enih, osmih, sedmih
- PRON: jih, ga, je, mene, česa, nas, vas, nje, njih, tebe
- PROPN: Slovenije, Ljubljane, Celja, Evrope, Romov, Antona, Avstrije, Dunaja, Maribora, Kranja
- Ins
- ADJ: drugimi, drugim, drugo, kratkim, strokovno, porodniško, različnimi, tretjo, vremenskimi, Slovensko
- ADJ-Part: določenimi, govorjeno, improvizirano, obstoječimi, odraslimi, ohranjenimi, omejenimi, omenjeno, pridruženimi, sesekljanimi
- ADP: z, s, med, pred, pod, za, nad
- DET: tem, temi, katerimi, neko, vsemi, to, svojimi, takimi, katerim, tistim
- NOUN: leti, ljudmi, stresom, boleznimi, debelostjo, avtobusom, letom, pomočjo, avtom, besedami
- NUM: enim, sedmimi, tremi, dvema, eno, dvanajstimi, enaindvajsetimi, enainpetdesetimi, petdesetimi, sedemnajstimi
- PRON: sabo, nami, njimi, mano, njo, seboj, vami, njim, čim, njima
- PROPN: Branetom, Špelo, Štefko, Alenko, Alešem, Andersonom, Antoličičem, Avstrijci, Avstrijo, Bennyjem
- Loc
- ADJ: drugi, glavnem, prvi, zadnjem, prvem, osnovni, zadnjih, sami, akademskem, drugem
- ADJ-Part: določenem, Združenih, določenih, imenovani, končanem, odraslih, dani, določeni, govorjenem, govorjeni
- ADP: v, na, po, pri, o, ob, za
- DET: tem, tej, teh, katerih, vseh, nekem, katerem, naši, tistem, kateri
- NOUN: bistvu, strani, redu, koncu, času, letih, mestu, šoli, področju, primeru
- NUM: eni, dveh, enem, desetih, štirih, treh, devetnajstih, drugem, enajstih, osemnajstih
- PRON: nas, sebi, njej, njem, njih, čemer, vas, kom, meni, tebi
- PROPN: Sloveniji, Ljubljani, Mariboru, Evropi, Nemčiji, Netflixu, Avstriji, Božjah, Bruslju, Iraku
- Nom
- ADJ: sam, zanimivo, lepa, dobro, drugi, pomembno, druga, sami, dober, sama
- ADJ-Part: pozdravljeni, spoštovani, ostali, prepričani, rečeno, znana, določene, spoštovana, sprejeta, vnet
- DET: to, ta, vse, tisti, vsi, te, ti, tisto, en, tak
- NOUN: hvala, ljudje, gospod, del, stvar, otroci, pot, država, gospa, zgodba
- NUM: ena, dva, en, tisoč, pet, eden, tri, devet, dvajset, trije
- PRON: jaz, kaj, ti, mi, kar, kdo, on, vi, ona, oni
- PROPN: Slovenija, Agropop, Ljubljana, Jones, Nigerija, Tom, Bistrica, David, Healy, Alenka
- Def
- ADJ: drugi, pravi, mali, naslednji, stari, boljši, edini, največji, rojstni, delovni
- ADJ-Part: spoštovani, razširjeni, animirani, imenovani, predsedujoči, zaposleni, delujoči, igrani, nariti, ostali
- Ind
- ADJ: dober, sam, lep, velik, cel, drug, zanimiv, slab, star, celoten
- ADJ-Part: vnet, znan, pripravljen, določen, navajen, zaposlen, narezan, omenjen, organiziran, pozdravljen
Degree and Polarity
- Cmp
- ADJ: boljši, manjši, boljše, mlajši, večja, večji, manjša, boljša, manjše, starejša
- ADV: bolj, prej, kasneje, boljše, večkrat, rajši, raje, lažje, pozneje, lepše
- Pos
- ADJ: dobro, zanimivo, dober, sam, sami, lepa, pomembno, različne, lep, sama
- ADJ-Part: pozdravljeni, določene, spoštovani, ostali, prepričani, določeno, rečeno, znana, narejeno, odprta
- ADV: tako, zdaj, lahko, potem, zelo, kako, kar, tam, res, a
- DET: pol, nekaj, nič, kaj
- Sup
- ADJ: največji, najboljše, največje, največja, najmlajši, najboljša, najboljši, najboljših, najljubši, najnujnejše
- ADV: najbolj, najprej, najmanj, najlažje, najrajši, najbolje, najboljše, najpogosteje, najraje, najverjetneje
- Neg
- AUX-Fin: ni, nisem, niso, nismo, nisi, niste, nisva, nista
- PART: ne, bržkone, kajne
- VERB-Fin: ni, nima, nimam, nimajo, nisem, niso, nimamo, nimaš, niste, noče
- Pos
- AUX-Fin: je, so, sem, smo, bo, si, ste, bom, bomo, sta
- VERB-Fin: je, so, ima, imamo, bo, imajo, imaš, imam, sem, si
- Bound
- PRON: zame, zase, zanj, zanjo, nanj, zate, vanj, vanjo
- Short
- PRON: se, mi, jih, ga, si, jo, ti, me, jim, mu
Verbal Features
- Imp
- AUX-Fin: bodita
- AUX-Part: bil, bilo
- VERB-Fin: vem, veš, mislim, ima, imamo, zdi, imajo, imaš, imam, imate
- VERB-Inf: imeti, govoriti, zavedati, delati, gledati, iskati, jesti, vedeti, hoditi, učiti
- VERB-Part: imeli, imela, imel, mogel, delala, delali, delal, gledala, mogla, mislil
- VERB-Sup: delat, gledat, nabirat, spat, jest, ponavljat, študirat, guglat, jebat, kuhat
- Perf
- VERB-Fin: recimo, da, daj, pride, spomnim, rečem, prideš, začne, dobi, reče
- VERB-Inf: narediti, reči, povedati, priti, kupiti, naučiti, pogledati, prenesti, prilagoditi, zmeniti
- VERB-Part: rekel, rekla, rekli, prišla, prišel, dobil, dobili, prišli, dal, dala
- VERB-Sup: naredit, izpeljat, naročit, pogledat, povedat, reč, rešit, stuširat, vrnit
- Cnd
- AUX-Fin: bi
- VERB-Fin: bi
- Imp
- AUX-Fin: bodite, bodi, bodita
- VERB-Fin: recimo, daj, čakaj, glej, poglejte, povej, glejte, dajmo, dajte, gremo
- Ind
- AUX-Fin: je, so, sem, smo, ni, bo, si, ste, bom, bomo
- VERB-Fin: je, vem, veš, mislim, so, ni, ima, pravi, imamo, gre
- Fut
- AUX-Fin: bo, bom, bomo, boš, boste, bodo, bojo, bova, bosta
- VERB-Fin: bo, bom, bomo, boš, bodo, bojo, bosta, bova, boste
- Pres
- AUX-Fin: je, so, sem, smo, ni, si, ste, sta, nisem, sva
- VERB-Fin: je, vem, veš, mislim, so, ni, ima, pravi, imamo, gre
Pronouns, Determiners, Quantifiers
- Dem
- DET: to, ta, tega, tem, te, teh, tisto, tisti, toliko, ti
- PRON: le-ta, le-teh, le-ti
- Ind
- DET: malo, pol, več, nekaj, veliko, dosti, neki, manj, neko, preveč
- PRON: nekaj, nekdo, nekoga, nekomu, isto, marsikdo, marsikaj, marsikoga, marsikomu, marsičem
- Int
- DET: koliko, kakšen, kateri, kakšno, katerih, kakšne, kakšna, kakšni, katero, katere
- PRON: kaj, kdo, koga, česa, čim, kom, komu, čem, čemu, što
- Neg
- DET: nič, noben, nobenega, nobene, nobena, nikako, nikakršne, ničesar, nobenem, nobenemu
- PRON: nič, nekaj, nihče, nikomer, ničesar, nobeden
- Prs
- ADJ: sirovo, Andrejevo, Belvijevega, Bertrandova, Blaževi, Dolinarjeva, Heglovem, Putzerjeva, Pärsonovo, Saudovi
- DET: svoje, naše, naši, naša, moj, naš, moje, moja, svoj, naših
- PRON: se, mi, jaz, ti, jih, ga, si, jo, nas, nam
- Rel
- DET: kakršnekoli, kakršnih, kakršna, kakršnakoli, kakršne, kakršnega, kakršni, kakršno, katerikoli, katerimkoli
- PRON: kar, karkoli, čemer, kdor, česar, česarkoli, komerkoli, čimer
- Tot
- DET: vse, vsi, vseh, vsak, vsem, ves, vsako, vsa, vso, vsega
- PRON: vsakdo
- Card
- DET: en, eno, ena, ene, enega, eni, enem, enih, enemu, enim
- NUM: dva, ena, en, tri, tisoč, pet, eno, dve, dvajset, trideset
- Mult
- ADJ: dvojni, dvojno, trojni
- Ord
- ADJ: prvi, prvo, prva, prve, prvem, tretji, prvega, sedemindvajsetega, tretjo, šesti
- NUM: štire
- Sets
- NUM: dvoje
- Yes
- ADJ: otrokovih, sirovo, Dopplerjev, Staničevi, krompirjevo, paradižnikovo, Andrejevo, Asimovih, Barbičeva, Belvijevega
- DET: naše, svoje, naši, naša, moj, naš, moje, moja, naših, svoj
- Yes
- DET: svoje, svoj, svojega, svojo, svojih, svoji, svojimi, svojem, svoja, svojim
- PRON: se, si, sabo, sebe, sebi, seboj, zase
- 1
- AUX-Fin: sem, smo, bom, bomo, nisem, sva, nismo, bova, nisva
- DET: naše, naši, naša, moj, naš, moje, moja, naših, našega, našo
- PRON: mi, jaz, nas, nam, me, meni, mene, nami, zame, mano
- VERB-Fin: vem, mislim, recimo, imamo, imam, sem, vemo, moram, moramo, gremo
- 2
- AUX-Fin: si, ste, boš, boste, nisi, niste, sta, bodite, bodi, bodita
- DET: vaši, vaš, vaše, tvoja, vašo, tvoj, vaša, vašem, tvoje, vašega
- PRON: ti, vi, vam, te, vas, tebe, tebi, vami, vidva, tabo
- VERB-Fin: veš, imaš, si, daj, imate, čakaj, glej, greš, moraš, moreš
- 3
- AUX-Fin: je, so, ni, bo, sta, bodo, niso, bojo, bosta, biti
- DET: njihovo, njihove, njegova, njen, njeni, njihovih, njegovo, njene, njihova, njegov
- PRON: jih, ga, jo, on, ona, jim, mu, oni, ji, njih
- VERB-Fin: je, so, ni, ima, pravi, gre, zdi, bo, imajo, pomeni
- Fem
- DET: njen, njeni, njene, njeno, njenega, njenem
- Masc
- DET: njegova, njegovo, njegov, njegove, njegovi, njegovim, njegovega
- Dual
- DET: najino, njune
- Plur
- DET: naše, naši, naša, naš, naših, našega, našo, njihovo, vaši, našem
- Sing
- DET: moj, moje, moja, mojega, moji, mojo, mojem, njegova, njen, njeni
Other Features
- Abbr
- Yes
- X: d., o.
- Yes
- Foreign
- Yes
- X: the, of, green, stop, on, grass, home, non, Assistant, Beautiful
- Yes
- NumForm
- Word
- DET: en, eno, ena, ene, enega, eni, enem, enih, enemu, enim
- NUM: dva, ena, en, tri, tisoč, pet, eno, dve, dvajset, trideset
- Word
- Typo
- Yes
- ADJ: fizikalni
- AUX-Fin: ni
- DET: dosti, ta
- NOUN: znamenitosti
- PRON: se
- X: nar-, pa, sto, z-, če
- Yes
Syntax
Auxiliary Verbs and Copula
- This corpus uses 1 lemmas as copulas (cop). Examples: biti.
- This corpus uses 1 lemmas as auxiliaries (aux). Examples: biti.
Core Arguments, Oblique Arguments and Adjuncts
Here we consider only relations between verbs (parent) and nouns or pronouns (child).
- nsubj
- VERB-Fin--NOUN-Acc (11)
- VERB-Fin--NOUN-Gen (104)
- VERB-Fin--NOUN-Nom (789)
- VERB-Fin--NOUN-Nom-ADP(kakor) (1)
- VERB-Fin--PRON-Acc (9)
- VERB-Fin--PRON-Dat (3)
- VERB-Fin--PRON-Gen (18)
- VERB-Fin--PRON-Nom (462)
- VERB-Inf--NOUN-Nom (3)
- VERB-Part--NOUN-Acc (4)
- VERB-Part--NOUN-Gen (39)
- VERB-Part--NOUN-Gen-ADP(do) (1)
- VERB-Part--NOUN-Nom (353)
- VERB-Part--PRON-Acc (2)
- VERB-Part--PRON-Gen (14)
- VERB-Part--PRON-Nom (293)
- obj
- VERB-Fin--NOUN-Acc (729)
- VERB-Fin--NOUN-Acc-ADP(na) (1)
- VERB-Fin--NOUN-Acc-ADP(preko) (1)
- VERB-Fin--NOUN-Dat (19)
- VERB-Fin--NOUN-Gen (174)
- VERB-Fin--NOUN-Gen-ADP(preko) (1)
- VERB-Fin--NOUN-Gen-ADP(čez) (1)
- VERB-Fin--NOUN-Loc (2)
- VERB-Fin--NOUN-Nom (23)
- VERB-Fin--NOUN-Nom-ADP(kot) (1)
- VERB-Fin--PRON (4)
- VERB-Fin--PRON-Acc (381)
- VERB-Fin--PRON-Acc-ADP(za) (1)
- VERB-Fin--PRON-Dat (192)
- VERB-Fin--PRON-Gen (33)
- VERB-Fin--PRON-Nom (13)
- VERB-Inf--NOUN-Acc (129)
- VERB-Inf--NOUN-Dat (3)
- VERB-Inf--NOUN-Gen (31)
- VERB-Inf--NOUN-Nom (6)
- VERB-Inf--PRON-Acc (61)
- VERB-Inf--PRON-Dat (2)
- VERB-Inf--PRON-Gen (5)
- VERB-Inf--PRON-Nom (1)
- VERB-Part--NOUN-Acc (506)
- VERB-Part--NOUN-Acc-ADP(navkljub) (1)
- VERB-Part--NOUN-Dat (16)
- VERB-Part--NOUN-Gen (106)
- VERB-Part--NOUN-Nom (7)
- VERB-Part--PRON (4)
- VERB-Part--PRON-Acc (239)
- VERB-Part--PRON-Dat (78)
- VERB-Part--PRON-Gen (18)
- VERB-Part--PRON-Nom (1)
- VERB-Sup--NOUN-Acc (13)
- VERB-Sup--NOUN-Gen (1)
- VERB-Sup--PRON-Acc (2)
- iobj
- VERB-Fin--NOUN-Dat (20)
- VERB-Fin--PRON-Acc (7)
- VERB-Fin--PRON-Dat (133)
- VERB-Fin--PRON-Gen (1)
- VERB-Inf--NOUN-Acc (2)
- VERB-Inf--NOUN-Dat (4)
- VERB-Inf--PRON-Acc (1)
- VERB-Inf--PRON-Dat (12)
- VERB-Part--NOUN-Acc (2)
- VERB-Part--NOUN-Dat (19)
- VERB-Part--PRON-Acc (15)
- VERB-Part--PRON-Dat (109)
- VERB-Part--PRON-Gen (1)
- VERB-Part--PRON-Nom (1)
- VERB-Sup--PRON-Dat (1)
Verbs with Reflexive Core Objects
- This corpus contains 43 lemmas that occur at least once with a reflexive core object (obj or iobj). Examples: imeti svoje, pomagati si, izbrati si, kupiti si, narediti svoje, poiskati si, pripraviti si, vzeti si, zavarovati se, biti si, dajati sebe, govoriti si, imeti svoj, kriv si, misliti svoje, namestiti si, narediti sebe, narediti si, nesti si, obleči se, opisati sebe, podariti si, pokrivati si, posaditi si, povedati svoje, prebrati si, pridobiti si, pustiti si, razbremenjevati sebe, skriti se, tolažiti se, uriti se, videti sebe, vpisati se, zagotavljati si, zapisati si, zapisovati si, zatiskati si, zbrati si, zgraditi si, zlomiti si, zviti si, šaltati se
- Out of those, 1 lemmas occurred more than once, but never without a reflexive dependent. Examples: zavarovati
Relations Overview
- This corpus uses 6 relation subtypes: cc:preconj, discourse:filler, flat:foreign, flat:name, parataxis:discourse, parataxis:restart
- The following 3 relation types are not used in this corpus at all: clf, compound, list