AK EKI keelekool: kui palju on eesti keeles sõnu? (2)

Kristina Koppel
, EKI arvutileksikograaf
Copy
Kristina Koppel
Kristina Koppel Foto: Annika Lepp
  • Eesti keelest on teada 2,4 miljardit sõna
  • Nende kokku kogumist alustati kümme aastat tagasi
  • Kõik sõnad ei jõua paraku kunagi sõnastikesse

Keeleuurijad, rõõmustage! Kohe-kohe saab avalikuks uus, varasemast palju mahukam eestikeelsete tekstide kogu ehk keelekorpus. Eesti keele ühendkorpusest 2021, mis on abiks eesti keele uurimisel ja kirjeldamisel, kirjutab Eesti Keele Instituudi vanemarvutileksikograaf Kristina Koppel.

Oled kunagi mõelnud, kui palju on eesti keeles sõnu? Meid EKIs huvitab see väga. Vastuse saamisega aitab meid eestikeelsete tekstide kogu ehk keelekorpus. Nimelt, uude, peagi avalikuks saavasse eesti keele ühendkorpusesse 2021 kogusime eelmise aasta lõpu seisuga sõnu kokku 2,4 miljardit – just nii palju sõnu praegu eesti keeles teada ongi.

Esimese ühendkorpuse (2013) kogumisega alustasime EKIs pea kümme aastat tagasi. Sellest ajast saadik oleme korpuse sisu regulaarselt uuendanud. Selleks rehitseme iga kahe aasta tagant läbi kogu eestikeelse veebi, kogudes sealt kokku kõik eestikeelsed tekstid. Nii on kümne aastaga eesti keele ühendkorpuse maht kasvanud 464 miljonilt sõnalt 2,4 miljardi sõnani. See on hüppeline kasv, kui mõelda, et 1970ndatel arvati eesti kirjakeeles (oskus- ja murdekeelt arvestamata) olevat umbes 700 000 sõna.

Korpusest on peale uute (ja ka vanade) sõnade leidmise palju kasu muudegi keelenähtuste uurimisel ja kirjeldamisel, samuti keelemuutuste jälgimisel. Korpusest näeme, kuidas keelt päriselt kasutatakse. See omakorda aitab meil koostada ajakohast sõnaraamatut, EKI ühendsõnastikku Sõnaveebis. Seal kirjeldame eelkõige tänapäeva eesti keelt. Korpusandmete analüüsimine on sõnastiku koostajate igapäevane töö ka seepärast, et sõnastikku tehes ei saa toetuda ainult oma sisetundele. Uurida tuleb paljude inimeste ühist keelekasutust.

Tänapäeval on põhiliseks keeleandmete kogumise allikaks saanud veeb – selle rehitsemine on odav ja kiire ning andmemahud suured.

Iga korpusele toetuv sõnastik on pisut korpuse nägu. Seepärast on oluline, et see oleks võimalikult suur ja mitmekesine. Tänapäeval on põhiliseks keeleandmete kogumise allikaks saanud veeb – selle rehitsemine on odav ja kiire ning andmemahud suured. Kõige mahukama osa ühendkorpusest moodustavad perioodikaväljaannete (nt Postimees, Horisont, Sirp) ning meediaportaalide (nt Delfi, Femme) artiklid. Neile järgnevad blogi- ja foorumipostitused, eestikeelse Vikipeedia artiklid ning avalikud teadusartiklid kõikidest teaduse valdkondadest. Uude korpusesse oleme oluliselt juurde lisanud ka (ilu- ja aime)kirjandust, samuti reisikirju, käsiraamatuid jm. Seega võib öelda, et ühendkorpus sisaldab normingulist kirjakeelt ja argikeelt, kirjandus- ja teaduskeelt.

Nii nagu kõiki eestikeelseid sõnu ei jõua paraku mitte kunagi sõnastikus registreerida, ei jõua kõik eestikeelsed sõnad mitte kunagi ka ühendkorpusesse. Veebist on võimalik kätte saada vaid murdosa keeleandmetest, väga palju sõnu jääb tasulistesse uudistesse ning avalikkuse eest peidetud (sotsiaalmeedia)postitustesse, aga ka autoriõigustega kaitstud teostesse kinni.

Nii on tegelik vastus pealkirjas esitatud küsimusele, et me ei tea. Sest kõiki sõnu ei olegi võimalik kokku lugeda. Küll aga teame, et sõnu on eesti keeles kindlasti väga palju rohkem kui 2,4 miljardit.

Kommentaarid (2)
Copy
Tagasi üles