Suurandmed – «maavara» või «radioaktiivsed jäätmed»?

, TÜ ühiskonnateaduste instituudi vanemteadur, Zürichi Tehnikaülikooli Marie Curie stipendiaat
Copy
Juhime tähelepanu, et artikkel on rohkem kui viis aastat vana ning kuulub meie arhiivi. Ajakirjandusväljaanne ei uuenda arhiivide sisu, seega võib olla vajalik tutvuda ka uuemate allikatega.
Anu Masso
Anu Masso Foto: Erakogu

Miks on suurandmed sotsiotehniline probleem, mismoodi muudavad need võimusuhteid ja mida teha, et suurandmetest saaks «maavara» mitte «radioaktiivsed jäätmed»? Samateemalist arutelu vaata ka kell 15 algavast otseülkandest SIIT. 

Viimasel ajal näeme üha enam diskussioone suurandmete teemal. Millega on tegemist? Sisuliselt käib jutt virtuaalsetest «jalajälgedest», mis tähendab, et inimesed kasutavad oma igapäevaste tegevuste käigus erinevaid tehnoloogilisi vahendi ja rakendusi, mille tulemused salvestuvad samade tehniliste lahenduste logifailidesse. Allikad nagu näiteks sotsiaalmeedia postitused, mobiiltelefonide logifailid, online tehingud on vaid mõned üksikud näited sellistest isetekkelistest suurandmetest.  

Esialgu defineeriti suurandmeid kui uut nähtust eelkõige andmete mahu kaudu – varasemate kilo- ja gigabaitide asemel mõõdeti nüüd uusi tekkinud andmemahte terabaitides. Nii iseloomustas algselt suurandmeid ka asjaolu, et varasemad andmete hoiustamise, töötlemise ja analüüsimise vahendid ei pruukinud enam selleks sobida (nt andmete hoiustamine ühe arvuti asemel mitmes arvutis).

Hiljem selgus aga, et lisaks mahule iseloomustavad uusi andmeid ka mitmed teised omadused nagu andmete liikuvus / kiirus (andmete loomine toimub reaalajas), mitmekesisus (nt pildiline Youtube’i video materjal, teksti vormis Twitter’i säutsud, mobiilikõnede ajal salvestatud asukoha geograafilised koordinaadid) ning hiljem lisandunud andmete tõepärasuse teema (nt andmed pole kvaliteetsed, sisaldavad vigu, tühimikke, andmed pole esinduslikud jms).

Olulisim suurandmeid iseloomustav omadus on siiski neist saadav võimalik väärtus, kas individuaalsete isiklike otsustuste tegemisel, organisatsioonide arendamisel või ühiskondade jaoks tervikuna. Seetõttu tuleks suurandmete puhul rõhutada mitte niivõrd suurenenud andmemahte, vaid suurandmeid kui olemuslikult sotsiotehnilist probleemi. See tähendab, et suurandmed võivad muuta ühiskondlikke võimusuhteid – näiteks eristuvad andmestunud ühiskondades andmete poolest rikkad ja vaesed, andmete maaklerid /vahendajad, algoritmide kultuuris omavad võimu vastava «koodi» valdajad jms.

Teisalt on andmestunud ühiskonnas andmed ka teatud individuaalne ressurss, mis pole ainult osa igapäevastest tegevustest, vaid need võivad ka inimeste elusid muuta – näiteks salvestada ja analüüsida andmeid oma kehalise aktiivsuse kohta. Seetõttu esitab see inimestele väljakutse omandada teatud andmekirjaoskuse tase, et osata kasvõi privaatsusohte näha ning ennast nende eest kaitsta.

Nii on suurandmed tänapäeval sama oluline maavara nagu näiteks naftagi. Suurandmete kasutamise peamiste toetajate sõnul on andmetel mitmeid eeliseid: andmed võimaldavad analüüsida seni uurimata teemasid ning nende kaudu saab leida lahendusi seni lahendamata ühiskondlikele probleemidele. Veel võivad suurandmed pakkuda häid võimalusi analüüside tegemiseks ja nende põhjal otsustuste tegemiseks olukordades, kus olemasolevad nö traditsioonilisemad ühiskonnateaduslikud meetodid ei pruugi hästi sobida. Näiteks olemasolevate meetodite ja andmete probleemiks on juba kümnendeid tagasi alanud sotsioloogiliste küsitlusuuringute üha kahanevad vastamismäärad (Goyder, Leiper, Goyder, & Leiper, 1985), massiliselt kasutatud telefoniküsitluste mitte-esinduslikkus (Szolnoki & Hoffmann, 2013) ning esinduslike sotsioloogiliste küsitlusuuringute suhteliselt kõrge hind.  

Siiski ei tohi suurandmetest rääkides ära unustada suurandmete ning inimeste, organisatsioonide ja ühiskondade andmestumisega seotud ohtusid ja väljakutseid. Peamise suurandmete kasutamise kriitikana on välja toodud oht langeda kirjeldavasse empirismi (Kitchin, 2014), samuti on välja toodud «teooria lõpu» hüpotees (Anderson, 2008). See tähendab, et suurandmetel põhinevate analüüside korral on suur oht «uppuda» andmete tulva, mistõttu on olulist ebaolulisest üha keerulisem eristada. Lisaks lihtsalt korrelatiivsete seoste väljatoomisele on aga andmete suurt mahtu, mitmekesisust jm arvestades praktilistele ühiskondlikele probleemidele raske lahendusi pakkuda. Ka eeldavad uued isetekkelised andmed inimeste aktiivset rolli andmete loomisel ning sellega seoses võivad need ka inimeste privaatsuse ohtu seada.

Selleks, et suurandmete võimalikku potentsiaali ära kasutada ja teha nii, et neist saaks pigem  «maavara» mitte ohtlikud «tuumajäätmed», peavad erinevad teadusvaldkonnad tihedat koostööd tegema. See hõlmab nii suurandmete analüüsimiseks vajalike meetodite väljatöötamist, nende andmete tehnilist töötlust ja nende sisulist tõlgendamist. Samuti eeldab see inimeste teadlikkuse tõstmist ja andmete kirjaoskuse arendamist, et digitaliseeritud ühiskondade uute privaatse vormidega toime tulla. Eelkõige saaks kirjaoskust arendada ülikoolide vastavate õppekavade kaudu.

Kirjandus:

Anderson, C. (2008). The End Of Theory. Wired, 16(7), 108.

Goyder, J., Leiper, J. M., Goyder, J., & Leiper, J. M. (1985). The Decline in Survey Response: A Social Values Interpretation. Sociology, 19(1), 55–71.

Kitchin, R. (2014). Big Data, new epistemologies and paradigm shifts. Big Data & Society, 1(1).

Szolnoki, G., & Hoffmann, D. (2013). Online, face-to-face and telephone surveys—Comparing different sampling methods in wine consumer research. Wine Economics and Policy, 2(2), 57–66.

Kommentaarid
Copy
Tagasi üles