Sisukord

Lühidalt

Tekstikorpus on mahukas kirjalikest või suulistest tekstidest koosnev elektrooniline andmekogu. Tekstikorpusi kasutatakse keele uurimisel, kirjeldamisel ja keelemuutuste jälgimisel, näiteks uute sõnade ja tähenduste tuvastamiseks, ent ka loomuliku keele töötluses.

Pikemalt

Korpust kasutatakse tänapäeval ka sõnaraamatute koostamisel, et saada keele kohta autentset infot. Keeleandmete uurimiseks korpuses kasutatakse spetsiaalseid programme ehk korpuspäringusüsteeme (nt Sketch Engine, KORP), mis võimaldavad mitmekülgselt analüüsida sõnade kasutust ja sõnakasutuse muutumist. Korpustest avaneb keeleuurijale ja sõnaraamatukoostajale pilt tegelikust keelekasutusest.

Korpused võivad sisaldada ühe keele tekste (siis on tegemist ükskeelse korpusega) või mitme keele tekste (mitmekeelne korpus). Esimene digitaalne kirjaliku keele korpus oli 1960. aastatel loodud Browni korpus (täisnimi: A Standard Corpus of Present-Day Edited American English for Use with Digital Computers), mis sisaldas 1961. aastal avaldatud kirjalikest tekstidest kogutud ühte miljonit Ameerika inglise sõna. Esimene eesti keele korpus oli baaskorpus, mille Tartu Ülikool lõi 1990. aastatel Browni korpuse eeskujul. See sisaldab 1980-ndatel avaldatud tekstikatkeid samuti ühe miljoni sõna mahus.

Eesti keele ühendkorpuste sari

Eesti keele ühendkorpus on kaasaegseim, mahukaim ja žanriliselt mitmekesiseim eestikeelsete digitekstide kogu. Esimese ühendkorpuse kogusime Eesti Keele Instituudi ja tarkvarafirma Lexical Computing Ltd. koostöös kokku 2013. aastal. Jätkuvas koostöös on ühendkorpuste sarjas valminud praeguseks juba neli versiooni: eesti keele ühendkorpus 2013, 2017, 2019 ja 2021 (vt tabel 1). Uuendame ühendkorpust iga kahe aasta tagant.

Seni uusim, 2021. aasta versioon sisaldab 2,9 miljardit sõnet. See on nii mahukas, et annab esindusliku ülevaate tänapäeva eesti keele kasutusest. Samuti on sealt võimalik kasutus­näiteid leida ka väga madala sagedusega keelenähtuste kohta.


Tabel 1. Eesti keele ühendkorpuste suurused

 sõnesid*lauseidlõikedokumente
ühendkorpus 20212,9 mld197 mln64 mln12 mln
ühendkorpus 20191,8 mld120 mln35 mln6 mln
ühendkorpus 20171,3 mld88 mln27 mln3 mln
ühendkorpus 2013563 mln38 mln7,5 mln700 tuh

* Sõne ehk tekstisõna on tekstis esinev sõna (nt jooksma) või selle muutevorm (nt jooksin, joostud). Tekstikorpuse suuruse mõõtühikuna kasutataksegi tavaliselt sõnesid.

Kuidas tekstid korpusesse saavad?

Sõnastikukoostajad on sõnade tähenduste ja kasutusmustrite uurimisel ikka toetunud keeleandmetele. Algselt kasutati keeleallikana sedelkartoteeke, mis sisaldasid käsitsi üles kirjutatud sõnasedeleid. Arvutite tulekuga hakati sisse skaneerima paberil avaldatud tekste, et need masinloetaval kujul ära märgendada ning korpusesse üles laadida. Tänapäeval on tekstide kogumise põhiallikaks saanud aga hoopis internet, sest eritüübilisi tekste on seal palju, nende allalaadimine kiire ja töötlemine lihtne. 

Tekste kogub veebist spetsiaalne tööriist ehk kroolija, mis alustab tekstide kogumist usaldusväärsetelt veebilehtedelt, mille korpusekspert on käsitsi tuvastanud. Kokkukogutud tekstid puhastatakse üleliigsest: kustutatakse muukeelsed ja automaattõlkelised tekstid, mittetekstiline materjal (pildid, tabelid, hüperlingid) jms, samuti eemaldatakse identsed dokumendid.

Kõik tekstides esinevad sõnad varustatakse morfoloogilise infoga: määratakse tema algvorm ja sõnaliik, eristatakse muutelõpud. Näiteks sõnavormi lambaid algvorm on lammas, sõnaliik nimisõna ja muutevorm mitmuse osastav. Eesti keele ühendkorpus 2021 on märgendatud ka süntaktiliselt. See tähendab seda, et igale sõnale on lisatud märgend tema süntaktilise funktsiooni kohta lauses (nt kas tegemist on aluse, öeldise või sihitisega).

Mis tekstid korpuses on?

Suure osa ühendkorpuse mahust moodustavad veebist kogutud tekstid. Oma olemuselt on see niisiis veebikorpus. Ühendkorpus sisaldab ka Tartu Ülikoolis loodud eesti keele koondkorpust ja tasakaalus korpust, mis sisaldavad tekste 1990. aastate algusest kuni 2008. aastani. Seega saab ühendkorpusest eestlaste keelekasutust vähemal või rohkemal määral uurida ligikaudu 30 aasta lõikes.

Meediaportaalide ja perioodikaväljaannete tekstid. Neid on korpuses kõige rohkem. Esikolmikus on Delfi, Postimees ja Õhtuleht, viiendal kohal ERRi portaal, kümnendal Saarte Hääl. Esindatud on  paljud teisedki päeva- ja nädalalehed ning ajakirjad, näiteks Eesti Ekspress, Eesti Päevaleht, Maaleht, Äripäev, Õpetajate Leht, Sirp, Horisont, Tehnikamaailm, Eesti Loodus, Pealinn, Kesknädal, Lääne Elu, Eesti Kirik, Hiiu Leht, Põhjarannik jpm.

Ametlikud ja haldustekstid. Ametlikud tekstid on kogutud näiteks Riigi Teataja, Euroopa Parlamendi, Riigikohtu kodulehelt, aga ka teistelt valitsuse ja riigiametite kodulehtedelt (nt Riigikogu, Vabariigi Valitsus, Vabariigi Presidendi Kantselei, Riigikontroll, Õiguskantsleri Kantselei, Välisministeerium, Rahandusministeerium, Haridus- ja Teadusministeerium, Majandus- ja Kommunikatsiooniministeerium, Keskkonnaministeerium, Kaitseministeerium, Siseministeerium, Sotsiaalministeerium, Maksu- ja Tolliamet, Politsei- ja Piirivalveamet, Statistikaamet, Töötukassa, Terviseamet, Maanteeamet, Maa-amet, Transpordiamet, Riigi Infosüsteemi Amet, Eesti Keele Instituut jm). Lisaks sisaldab korpus näiteks Eesti Vabariigi põhiseaduse kommenteeritud väljaannet. Palju tekste on kogutud ka näiteks linnade jm haldusüksuste kodulehtedelt (tallinn.ee, tartu.ee).

Asutuste kodulehed ja veebipoed. Korpus sisaldab ka palju tekste ülikoolide (Tartu Ülikool, Eesti Maaülikool, Tallinna Tehnikaülikool), muuseumide ja teatrite kodulehtedelt (Kirjandusmuuseum, Eesti Kunsti Muuseum, Vanemuine, Linnateater), era- ja suurfirmade kodulehtedelt (TV3, Apollo, LHV), aga ka veebipoodidest (Kaup24, Photopoint, Tradehouse).

Ilukirjandus.  Selle lisamiseks oleme teinud eraldi jõupingutusi. Kui vanemad tekstid on autoriõiguste alt vabastatud, siis uuemad mitte. Seepärast tuleb enne materjali korpusesse lisamist esmalt tegeleda autoriõiguste ja intellektuaalse omandi õigusega. Eesti keele ühendkorpus 2021 sisaldab ligikaudu 400 kirjandusteost, nende seas on nii originaal- kui ka tõlketeoseid. Näiteks on seal teoseid Indrek Hargla, Karen Orlau, Tõnu Õnnepalu, Lehte Hainsalu jt sulest. EKI koostöö kirjastustega jätkub, ühendkorpuse järgmises versioonis on ilukirjandust senisest veelgi rohkem.

Teaduskeel. Seda on kogutud näiteks teadusajakirjadest Keel ja Kirjandus, Eesti ja soome-ugri keeleteaduse ajakiri, Eesti Rakenduslingvistika Ühingu aastaraamat, Lähivõrdlusi, Methis: Studia Humaniora Estonica, LingVaria, Folklore, Eesti Arst, Eesti Haridusteaduste Ajakiri, Ajalooline Ajakiri, Mäetagused, Estonian Journal of Earth Sciences, Eesti Majanduspoliitilised Väitlused ning Agraarteadus. Samuti sisaldab ühendkorpus kogu eestikeelset Vikipeediat.

Blogid ja foorumid. Eesti keelt on kogutud ka blogidest (nt Mallukas, Marimell, Paljas Porgand, Päevakera; poliitikute jm avaliku elu tegelaste blogidest (nt Tunne Kelam, Kaja Kallas, Henn Põlluaas, Varro Vooglaid, Yoko Alender, Urmas Paet, Simo Runnel) ning foorumitest (nt Matkafoorum, Fotofoorum, Ulmefoorum, Elektroonikafoorum). Paljudes blogides ja foorumites kasutatakse rohkem toimetamata keelt, mis annab keeleuurijale huvitavat infot tegeliku keelekasutuse kohta. Kuna netis kasutusel oleval kirjalikul keelel on palju suulise keele jooni, korvab blogide ja foorumite keelekasutus mõnevõrra suulise keele puudumist ühendkorpusest.

Kas korpus saab olla esinduslik ja tasakaalus?

Ühendkorpusele on ette heidetud seda, et see pole piisavalt esinduslik ehk ei sisalda kõiki tekstitüüpe, mis antud kultuuris antud ajavahemikul olemas on, ega tasakaalus ehk nende tekstitüüpide esindatus korpuses ei vasta nende esindatusele antud kultuuris. Esinduslikkust ja tasakaalustatust on korpuste puhul aga väga keeruline tagada. Esiteks on keeruline defineerida inimrühmi, kelle keelekasutust korpus peaks esindama − nende arv on piiramatu ning omadused teadmata. Kuna iga kultuuri inimrühmad muutuvad ja kasvavad pidevalt, siis on ka loogiliselt võimatu saavutada eri tekstitüüpide korrektset vahekorda tekstikorpuses. Ka tasakaalustatuse saavutamine sisaldab endas palju subjektiivseid otsuseid, näiteks missuguseid tekste korpusesse võtta ning millised finantsilised ja juriidilised faktorid korpuse loomist mõjutavad.

Ka 2000. aastatel Tartu Ülikoolis loodud koondkorpus − suurim eesti keele korpus enne ühendkorpuste tulekut − polnud samuti tasakaalus ega esinduslik. Seal olid ülekaalus ajalehetekstid (u 75%), internetisuhtluse keelekasutus moodustas kogumahust 9%, ilukirjandus ja teadustekstid kumbki 2%. Ka ühendkorpuses on ülekaalus perioodikatekstid, järgnevad foorumite ja blogide keel. Ilukirjandus ja teaduskeel on ühendkorpuses vaeslapse rollis – esimest neist on ühendkorpuses pisut üle ühe protsendi, teist alla selle.

Kirjandus

Koostanud Kristina Koppel

Anna tagasisidet