Lühidalt
Veebilausete all mõistame tekstikorpusest automaatselt valitud lauseid. Need on mõeldud lisainfona neile, kes tahavad näha, kuidas sõnu tegelikult kasutatakse.
Pikemalt
Veebilauseid kuvame Sõnaveebi kasutajale lehe paremas veerus. See on üks sellistest infokihtidest, mis on tekstikorpusest arvuti abil automaatselt loodud ning mida sõnaraamatukoostaja pole üle toimetanud. Sellised infokihid on Sõnaveebis veel näiteks „Veel sarnaseid sõnu“ (sünonüümid) ja „Võimalikud vasted“ (võõrkeelsed vasted). Sõnaveeb ei ole aga kindlasti ei esimene ega ka viimane portaal, kus automaatselt tuvastatud autentset ja toimetamata keeleinfot kasutajale näidatakse. Veebilauseid kuvatakse näiteks ka inglise sõnastikes „Collins Dictionary“, „Merriam-Webster Dictionary“ ja „Longman Dictionary of Contemporary English“.
Sõnaveebis kuvatavad veebilaused pärinevad eesti keele veebilausete korpusest, mis sisaldab erinevaid meedia- ja teadusartikleid, ilukirjandust, eestikeelset Wikipediat, aga ka blogi- ja foorumipostitusi. Veebilausete eesmärk on täiendada sõnaraamatukoostajate valitud lauseid, kuid nende kasulikkus ilmneb eriti selliste sõnaartiklite juures, kuhu leksikograaf pole ise näidet lisada jõudnud. Ka leksikograafi valitud näitelaused EKI ühendsõnastikus on tegelikult valitud korpusest, vajadusel on neid toimetatud. Nii on see alati käinud − kui varasemalt kasutasid sõnaraamatukoostajad näidete allikana sedelkartoteeke, mis sisaldasid käsitsi üles kirjutatud sõnasedeleid, siis nüüd e-korpusi, mis sisaldab kõikvõimalikke digitekste.
EKI ühendsõnastik Sõnaveebis on niisiis kaetud eri tüüpi näidetega − tähenduste juures näitame sõnastikukoostaja valitud(/toimetatud) näiteid ning „Veebilausete“ plokis automaatselt valitud korpuslauseid. Sõnaveebi kasutaja järgmine samm võiks olla ligipääs korpusele, kust ta saaks ise kõiki näiteid lugeda ja analüüsida.
Kuidas veebilauseid valitakse?
Veebilaused on valitud spetsiaalse programmi abil (GDEX ehk Good Dictionary Examples), mis hindab lause vastamist etteantud hea näitelause reeglitele.
Need reeglid on kohandatud just eesti keelele. Alustatakse sellest, et lause algab suure tähega ja lõpeb lauselõpumärgiga. Lisaks arvestatakse lausete ja sõnade pikkust. Samuti mõõdetakse sõnade esinemist korpuses: kõrvale jäävad laused, milles esinevad väga madala sagedusega sõnad. (Nii saab välistada üsna palju trükivigadega lauseid.) Samuti ei kuvata lauseid, mis sisaldavad teatud vulgaarseid või tundlikke sõnu. Kõrvale jäävad laused, mis algavad eelnevale kontekstile viitava sõna või fraasiga (nt seetõttu, sellest lähtuvalt), sest üksikuna võivad nad olla raskesti mõistetavad.
Reegleid, mida programm arvestab, on tegelikult palju rohkem (loe täpsemalt Koppel 2020).
Miks on veebilausetes vigu?
Kuna veebilauseid valib arvuti, mitte inimene, siis võib näidete hulka sattuda ka ebatäpsusi. Eeskätt tekib segadusi sõnade puhul, millel on eri tähendused, aga sama kirjakuju: näiteks kuvatakse homonüümide tamm : tamme ja tamm : tammi juures samu veebilauseid, mitmetähendusliku sõna leht juures on läbisegi laused, milles räägitakse kord ajalehtedest, kord puulehtedest.
Veebilausete hulka võib sattuda ka vigaseid lauseid. Siin on lauseid, milles autor on eksinud näiteks mõne ortograafiareegli vastu või teinud trükivea. Aga vea võib olla teinud ka masin – automaatse märgenduse tööriist. EKI kasutab Tartu Ülikooli tarkvaraarendajate loodud tööriistakasti EstNLTK, mis on loodud just eestikeelsete tekstide töötluseks. Vead võivad tekkida algvormi määramisel, morfoloogilisel analüüsil vm protseduuri käigus. Näiteks võib juhtuda, et pärisnimi Malle on märgendatud hoopis nimisõnaks mall või nimisõna koha (teatud kala) on märgendatud kui nimisõna koht omastava käände vorm. Sellised vead paistavad kahjuks väga hästi silma just Sõnaveebi veebilausetes.
Oluline on rõhutada, et korpuselauseid ei suuda keegi kunagi käsitsi parandada – neid on selleks lihtsalt liiga palju. Seeasemel saame aina paremaks arendada veebilausete automaatset analüüsi. Uuendame veebilausete korpust iga kahe aasta tagant, samuti kasutame korpuste märgendamisel alati uusimat ja parimat EstNLTK versiooni, mis eelmiste versioonidega võrreldes vähem märgendamise vigu teeb. Lisaks loodame tulevikus kasutada muid meetodeid, näiteks on võimalik rahva kaasabil veebilausete korpuse kvaliteeti veelgi parandada.
Kirjandus
- Koppel, Kristina (2022). Veebilaused – mis tegelased need on? Keelesäuts (Vikerraadio). 22.07.2022 Eesti Rahvusringhääling.
- Koppel, Kristina (2020). Näitelausete korpuspõhine automaattuvastus eesti keele õppesõnastikele. (Doktoritöö, Tartu Ülikool). Tartu: Tartu Ülikooli Kirjastus.
- Kosem, Iztok; Koppel, Kristina; Kuhn, Tanara Zingano; Michelfeit, Jan; Tiberius, Carole (2019). Identification and automatic extraction of good dictionary examples: the case(s) of GDEX. International Journal of Lexicography, 32 (2), 119−137. DOI: 10.1093/ijl/ecy014.
Koostanud Kristina Koppel
Anna tagasisidet