Teadusandmete otsing

Avaandmete otsing

Kust ja kuidas avaandmeid otsida, sõltub väga palju kasutajast, tema erialast ja infovajadusest. Andmeotsingu aluseks on teadlase poolt avaldatud standardsed metaandmed.

Sarnaselt otsingule artikliandmebaasides on andmeregistrites võimalik otsida andmekogu autori, pealkirja ja võtmesõnade järgi.

Lisaks nendele tunnustele on andmekogude puhul väga oluline ka andmetüüp:

Astronoom vajab pikaajaliste vaatluste andmeid, mis instrumentidest otse erialases repositooriumis salvestatakse, andmed on dünaamilised ja suuremahulised.
Tehisintellekti arendajatel on masinõppeks vaja suurandmeid.
Meditsiinis vajatakse näiteks piltdiagnostika faile ja 3D pilte, rääkimata patsientide terviseandmetest.
Arheoloogias pakuvad huvi välitööde päevikud, fotod, artefaktid; sotsiaalteadustes küsimustikud, küsitlusandmed, intervjuud, videomaterjal.
Humanitaarias on sageli teadustöö aluseks varem avaldatud publikatsioonid ja käsikirjad.

Ühe teadusprojekti käigus kogutakse enamasti mitut tüüpi andmeid. Näiteks uurides orkaane, on andmetüüpideks videod, pildid, asukohaandmed, tabelid mõõtmistulemustega jne.

Metaandmed

Metaandmed on andmed andmete kohta.
Metaandmed annavad teadusandmetele konteksti ja võimaldavad tuvastada andmete päritolu.

Metaandmeid on mitut tüüpi, kuid otsingu seisukohast on kõige olulisemad juba eelpool nimetatud andmekogu kirjeldavad e bibliograafilised metaandmed:

autor
pealkiri
võtmesõnad
avaldamise aasta.

Kui nende tunnuste põhjal on leitud huvipakkuv andmekogu, tuleks süveneda tehnilistesse metaandmetesse:

andmetüübid
failide mahud
kuidas on failid organiseeritud
kas on krüpteeritud faile
millist tarkvara on kasutatud

Administratiivsed metaandmed annavad infot selle kohta, kas ja kuidas saab leitud andmekogu taaskasutada või kelle poole pöörduda, kui on vaja taotleda juurdepääsuõigusi:

projekt ja vastutavad täitjad
kes on andmete omanik
litsentsid
juurdepääsupiirangud
embargoperiood
kontaktandmed

Iga andmekoguga kaasneb tekstifail, README.txt, kus on andmekogu loomulikus keeles kirjeldatud. Paljuski kordab see fail metaandmeid, kuid läheb andmekirjeldustes sügavamale, eesmärgiga teha oma andmekogu teistele teadlastele mõistetavaks. Seal võib olla selgitatud failide nimetamise põhimõtteid, failide omavahelisi seosed, kodeeringuid, erilisi failivormingud.
Teiseks on README.txt failis tähelepanu osutatud uurimismeetoditele ning kasutatud riist- ja tarkvarale, instrumentidele ning nende spetsifikatsioonidele, ikka sel eesmärgil, et uuringut oleks võimalik korrata.
Täpsemalt kirjeldatakse andmete pikaajalist säilitamist ja jagamist, eriti juhul, kui andmeid mingil põhjusel ei saa jagada või on kehtestatud juurdepääsupiirangud.
Failis peaks olema nimetatud kõik kasutatud standardid (andmestandardid, metaandmete standardid, turvastandardid jne).

Metaandmete põhjal saab otsustada, kas on tegemist FAIR andmetega, kas need on inimesele mõistetavad ja samas masinloetavad.
Sellise infoga varustatuna saab otsustada, kas leitud andmekogu võib osutuda vajalikuks ning alles siis hakata andmeid alla laadima.

Metaandmete standardid

Metaandmed on oma olemuselt struktureeritud masinloetav informatsioon ja sellist infot on lihtne standardiseerida ning arvuti abil töödelda, see ongi otsingumootori toimimise aluseks. Mida rohkem on ühe andmekogu kohta metaandmeid, seda lihtsam on andmekogu leida ja mõista.

Tulenevalt asjaolust, et eri teadusvaldkondade andmed on väga erinevad, vajatakse nede kirjeldamiseks ka erinevaid tunnuseid.
Toome näiteks foneetikauuringud. Andmeteks on konkreetse keele kõnelejaga tehtud helisalvestised, mida saab hiljem paljudest aspektidest uurida. Sellise andmestiku metaandmeteks on lisaks sisulistele metaandmetele (keel, murre, dialekt, mille häälikuid uuritakse) ka

info kõneleja kohta (sugu, vanus, elukoht, päritolu, sotsiaalne staatus, tervislik seisund)
info salvestustingimuste kohta (ilm, taustamüra, segavad asjaolud)
tehniline info (salvestusseadmed, tarkvara, kvaliteedinäitajad)

Metaandmete põhjal võib näiteks etnoloog otsustada, et ka tema uuringus on need andmed kasulikud.

Sellised valdkonnaspetsiifilised tunnused on kokku kogutud ja struktureeritud erialastes metaandmete standardides.

Metaandmete standard on loend andmeelementidest, mis võimalikult täpselt kirjeldavad ühe või teise eriala andmeid.

Mitmed registrid võimaldavad otsitulemuste piiramist metaandmete standardi järgi, selle tõttu on hea olla kursis oma valdkonna metaandmete standarditega.
Mõned näited metaandmete standarditest:

DDI – Data Documentation Initiative: palju kasutatav standard sotsiaal- ja majandusteadustes
SPASE Data Model: kosmosefüüsika
MIAME standard: DNA mikrokiip-tehnoloogia
MIDAS-Heritage: kultuuripärandi objektide standard (ehitised, leiukohad, laevavrakid, pargid, aiad, artefaktid)

Erialaste standardite kõrval on välja töötatud ka üldisemaid standardeid, mis rahuldavad väga paljude kasutajate vajadusi.
Tõenäoliselt kõige tuntum neist on Dublin Core standard, mida on lihtne mõista ja infosüsteemides rakendada. Dublin Core standardit kasutab ka TÜ raamatukogu hallatav andmerepositoorium DataDOI, olgu näiteks ühe andmekogu metaandmed: http://dx.doi.org/10.23673/re-272

metaandmed

Kust võib andmeid leida

Kõigepealt tuleks läbi mõelda, kust ja kuidas andmeid otsida, kavandada strateegia. Teadusandmeteni jõudmiseks on mitu teed, tuleb osata neid ära tunda ja kasutada. Üldiselt on andmed antud pikaajalisele säilitamisele andmerepositooriumidesse ja neid vaatame eraldi. Lisaks otsingule repositooriumides ja andmete registrites võib leida infot andmete kohta ka teadusajakirjadest.

Andmed koos artikliga

Kuna paljud teadust rahastavad organisatsioonid ja teaduskirjastused nõuavad, et artikliga koos avaldataks ka selle alusandmed, siis kõige lihtsam ongi alati uurida, kas artikli juures on kohe olemas või on lingitud ka andmed. Linkimiseks kasutatakse artikli ja andmete püsiidentifikaatorit, mis viib otse andmete juurde.
Andmed, meetodid ja kood võivad olla leitavad artikli juures kui täiendav materjal (supplemental material, supporting information) või siis selgesõnaliselt Data and code availability rubriigist.
Mitmed teaduskirjastused nõuavad koos artikliga ka „andmete kättesaadavuse avaldust“ (Data Availability Statement, DAS), olgu näiteks Taylor&Francis kirjastuse nõue: A data availability statement (also sometimes called a ‘data access statement’) tells the reader where the data associated with a paper is available, and under what conditions the data can be accessed. They also include links (where applicable) to the data set.

Olgu siinkohal näide ajakirjast PLoS ONE: https://doi.org/10.1371/journal.pone.0230416

citation

Andmeajakirjad

Andmeajakirjad avaldavad eelretsenseeritud andmeartikleid, st. artikleid, mis käsitlevad andmeid, kuid mitte nende analüüsi tulemust. Selline artikli vorm annab teadlasele võimaluse oma andmekogu põhjalikumalt käsitleda, näiteks selgitada andmete kogumise meetodeid. Andmeartiklist on kindlasti palju kasu teadlastele, kes sooviksid neid andmeid kasutada, aga ka artikli avaldanud teadlasele endale, sest tsiteeringute arv suureneb. Andmeajakirju on paljudel erialadel, näiteks:

Nature Scientific Data
Biodiversity Data Journal
Research Data Journal for the Humanities and Social Sciences
Journal of Open Archaeology Data (JOAD)
Journal of Open Health Data

Andmerepositooriumid ja andmeregistrid vt. järgnevad õppematerjalid

Tulemuslik andmeotsing

Kui otsing on viinud huvipakkuvate andmekogudeni, tuleb neid põhjalikult uurida ja hinnata andmekogu kvaliteeti ning taaskasutatavust.
Selle juures on abiks README.txt fail ja kõik metaandmed. Kui hakata nendesse süvenema, võib praegu leida väga palju häid ja halbu näiteid.
Metaandmed peaksid andma nii palju infot, et andmeid alla laadida ei oleks vaja enne, kui olete täiesti veendunud, et soovite neid täpsemalt uurida või kasutada.

Järgnevas artiklis on antud mõned näpunäited tulemuslikuks andmeotsinguks, artikli avamisel saab igasse punkti süveneda:
Gregory K, Khalsa SJ, Michener WK, Psomopoulos FE, de Waard A, Wu M (2018) Eleven quick tips for finding research data. PLoS Comput Biol 14(4): e1006038. https://doi.org/10.1371/journal.pcbi.1006038

Tip 1: Think about the data you need and why you need them.
Tip 2: Select the most appropriate resource.
Tip 3: Construct your query strategically.
Tip 4: Make the repository work for you.
Tip 5: Refine your search.
Tip 6: Assess data relevance and fitness -for -use.
Tip 7: Save your search and data- source details.
Tip 8: Look for data services, not just data.
Tip 9: Monitor the latest data.
Tip 10: Treat sensitive data responsibly.
Tip 11: Give back (cite and share data).