Sisukord

Lühidalt

Lisanäidete all mõistame tekstikorpusest automaatselt valitud lauseid. Need on mõeldud lisainfona neile, kes tahavad näha rohkem näiteid selle kohta, kuidas sõnu tegelikult kasutatakse.

Pikemalt

EKI ühendsõnastikus sõnatähenduste juures esitatud näited (näitelaused) pärinevad eesti keele ühendkorpusest. Näitelause toetab seletust ja aitab tähendust paremini mõista. Näited on korpusest välja valinud sõnaraamatu koostajad, sealjuures on vähesel määral lauseid lühendatud ja kohendatud. Tsitaadi puhul on ära toodud tsitaadi allikas. Lisaks neile näidetele kuvatakse Sõnaveebi kasutajale lehe paremas veerus lisanäiteid.

Lisanäited on üks sellistest infokihtidest, mis on tekstikorpusest arvuti abil automaatselt loodud ning mida sõnaraamatukoostaja pole üle toimetanud. Sellised infokihid on Sõnaveebis veel näiteks „Veel sarnaseid sõnu“ (sünonüümid) ja „Võimalikud vasted“ (võõrkeelsed vasted). Sõnaveeb ei ole aga kindlasti ei esimene ega ka viimane portaal, kus automaatselt tuvastatud autentset ja toimetamata keeleinfot kasutajale näidatakse. Sarnaselt kuvatakse lisanäiteid ka näiteks inglise sõnastikes: „Collins Dictionary“ (vt „Examples of X in a sentence”), „Merriam-Webster Dictionary“ (vt „Recent Examples on the Web”) ja „Longman Dictionary of Contemporary English“ (vt „Examples from the Corpus”).

Sõnaveebis kuvatavad lisanäited pärinevad eesti keele veebilausete korpusest, mis sisaldab erinevaid meedia- ja teadusartikleid, ilukirjandust, eestikeelset Wikipediat, aga ka blogi- ja foorumipostitusi. Lisanäidete eesmärk on täiendada sõnaraamatukoostajate valitud lauseid, kuid nende kasulikkus ilmneb eriti selliste sõnaartiklite juures, kuhu leksikograaf pole ise näidet lisada jõudnud. Ka leksikograafi valitud näitelaused EKI ühendsõnastikus on tegelikult valitud korpusest, vajadusel on neid toimetatud. Nii on see alati käinud − kui varasemalt kasutasid sõnaraamatukoostajad näidete allikana sedelkartoteeke, mis sisaldasid käsitsi üles kirjutatud sõnasedeleid, siis nüüd e-korpusi, mis sisaldab kõikvõimalikke digitekste.

EKI ühendsõnastik Sõnaveebis on niisiis kaetud eri tüüpi näidetega − tähenduste juures näitame sõnastikukoostaja valitud(/toimetatud) näiteid ning „Lisanäidete“ plokis automaatselt valitud korpuslauseid. Sõnaveebi kasutaja järgmine samm võiks olla ligipääs korpusele, kust ta saaks ise kõiki näiteid lugeda ja analüüsida.

Kuidas lisanäiteid valitakse?

Lisanäited on valitud spetsiaalse programmi abil (GDEX ehk Good Dictionary Examples), mis hindab lause vastamist etteantud hea näitelause reeglitele.

Need reeglid on kohandatud just eesti keelele. Alustatakse sellest, et lause algab suure tähega ja lõpeb lauselõpumärgiga. Lisaks arvestatakse lausete ja sõnade pikkust. Samuti mõõdetakse sõnade esinemist korpuses: kõrvale jäävad laused, milles esinevad  väga madala sagedusega sõnad. (Nii saab välistada üsna palju trükivigadega lauseid.) Samuti ei kuvata lauseid, mis sisaldavad teatud vulgaarseid või tundlikke sõnu. Kõrvale jäävad laused, mis algavad eelnevale kontekstile viitava sõna või fraasiga (nt seetõttu, sellest lähtuvalt), sest üksikuna võivad nad olla raskesti mõistetavad.

Reegleid, mida programm arvestab, on tegelikult palju rohkem (loe täpsemalt Koppel 2020).

Miks on lisanäidetes vigu?

Kuna lisanäiteid valib arvuti, mitte inimene, siis võib näidete hulka sattuda ka ebatäpsusi. Eeskätt tekib segadusi sõnade puhul, millel on eri tähendused, aga sama kirjakuju: näiteks kuvatakse homonüümide tamm : tamme ja tamm : tammi juures samu lisanäiteid, mitmetähendusliku sõna leht juures on läbisegi laused, milles räägitakse kord ajalehtedest, kord puulehtedest.

Lisanäidete hulka võib sattuda ka vigaseid lauseid. Siin on lauseid, milles autor on eksinud näiteks mõne ortograafiareegli vastu või teinud trükivea. Aga vea võib olla teinud ka masin – automaatse märgenduse tööriist. EKI kasutab Tartu Ülikooli tarkvaraarendajate loodud tööriistakasti EstNLTK, mis on loodud just eestikeelsete tekstide töötluseks. Vead võivad tekkida algvormi määramisel, morfoloogilisel analüüsil vm protseduuri käigus. Näiteks võib juhtuda, et pärisnimi Malle on märgendatud hoopis nimisõnaks mall või nimisõna koha (teatud kala) on märgendatud kui nimisõna koht omastava käände vorm. Sellised  vead paistavad kahjuks  väga hästi silma just Sõnaveebi lisanäidetes.

Oluline on rõhutada, et korpuselauseid ei suuda keegi kunagi käsitsi parandada – neid on selleks lihtsalt liiga palju. Seeasemel saame aina paremaks arendada lisanäidete automaatset analüüsi. Uuendame lisanäidete korpust iga kahe aasta tagant, samuti kasutame korpuste märgendamisel alati uusimat ja parimat EstNLTK versiooni, mis eelmiste versioonidega võrreldes vähem märgendamise vigu teeb. Lisaks loodame tulevikus kasutada muid meetodeid, näiteks on võimalik rahva kaasabil lisanäidete korpuse kvaliteeti veelgi parandada.

Kirjandus

Koostanud Kristina Koppel

Anna tagasisidet