Andmehaldus
FAIR andmed
FAIR printsiipide eesmärgiks on, et andmed oleksid internetis leitavad, ligipääsetavad, teiste arvutisüsteemidega koostöövõimelised ning taaskasutatavad nii inimestele kui ka masinatele.
Lühend FAIR tuleb ingliskeelsetest sõnadest Findable, Accessible, Interoperable ja Reusable.
Tänapäeva andmemahtude juures on mõeldamatu, et andmete otsing toimuks ainult käsitööna teadlase enda poolt.
FAIR printsiibid tulenesid otseselt vajadusest tagada infrastruktuur, mis toetaks andmete masinloetavust, et neid leida, mõista ja jagada ning tänu sellele suurendada teadustöö läbipaistvust ja reprodutseeritavust.
Teaduse avaandmete jagamine oli olnud teemaks juba mitmed aastad, kuni tunnistati, et teadlaste jõupingutustest ning korrektsest andmehaldusest üksi ei piisa, et nende andmed oleksid teistele teadlastele taaskasutatavad.
2014. aastal kogunes grupp huvipoolte esindajaid, kes hakkasid välja töötama põhialuseid, mis tagaksid andmete masinloetavuse.
2016. aastal avaldati selle töö tulemus – FAIR printsiibid.
FAIR andmete alusartikkel:
Wilkinson, M.D. et al.,. (2016). The FAIR Guiding Principles for scientific data management and stewardship, Scientific Data 3, https://doi.org/10.1038/sdata.2016.18
Neis 15 printsiibis on välja toodud nii teadlaste kui ka neid toetava infrastruktuuri roll.
Allpool on iga ploki juures lühikene selgitus. Põhjalikum käsitlus järgneb vastavas teemas.
The FAIR Guiding Principles
To be Findable:
F1. (meta)data are assigned a globally unique and persistent identifier
F2. data are described with rich metadata (defined by R1 below)
F3. metadata clearly and explicitly include the identifier of the data it describes
F4. (meta)data are registered or indexed in a searchable resource
F1. (meta)data are assigned a globally unique and persistent identifier
Tingimuste F1-F4 täitmine on peamiselt andmete looja tagada. See puudutab oma andmete kirjeldamist võimalikult täieliku metaandmete kogumiga ning DOI võtmist oma andmekogule.
Mida selleks teha, loe õppematerjalidest teemadest Metaandmed, Repositooriumid ning DOI.
To be Accessible:
A1. (meta)data are retrievable by their identifier using a standardized communications protocol
A1.1 the protocol is open, free, and universally implementable
A1.2 the protocol allows for an authentication and authorization procedure, where necessary
A2. metadata are accessible, even when the data are no longer available
Kui andmete leidmise eelduseks on metaandmete ja DOI olemasolu, siis tingimused A1-A2 rõhutavad seda, et metaandmed peaksid olema standardsed. Metaandmete standardeid on nii üldisi ja tuntumaid kui ka väga erialaspetsiifilisi. Teadlase ülesanne ongi valida oma andmete kirjeldamiseks sobiv standard.
Andmetöötlusel kasutatakse üldiselt mingit tarkvara. Andmed on hästi ligipääsetavad, kui see on vaba tarkvara, mis on võimalikult universaalne ja tasuta. Siiski on vahel vaja ise arendada tarkvara mingil spetsiifilisel eesmärgil. Sel juhul kehtivad tarkvarale kõik samad nõuded, mis andmetele. Loe teemat Avatud tarkvara.
Loe õppematerjali Metaandmed.
To be Interoperable:
I1. (meta)data use a formal, accessible, shared, and broadly applicable language for knowledge representation.
I2. (meta)data use vocabularies that follow FAIR principles
I3. (meta)data include qualified references to other (meta)data
Andmete masinloetavuse ja koostöövõime peaksid aitama tagada infosüsteemid. Sõltub sellest, kuidas andmebaasid on üles ehitatud, milliseid sõnastikke, ontoloogiaid ja taksonoomiat kasutatakse.
Paljud tehnilist laadi metaandmed luuakse ka automaatselt infosüsteemide poolt.
Selle teema kohta loe rohkem peatükis Repositooriumid.
To be Reusable:
R1. meta(data) are richly described with a plurality of accurate and relevant attributes
R1.1. (meta)data are released with a clear and accessible data usage license
R1.2. (meta)data are associated with detailed provenance
R1.3. (meta)data meet domain-relevant community standards
Kui taaskasutamiseks mõeldud andmed repositooriumidest üles leitud, tuleb need asetada konteksti, neid mõista, et hinnata, kas neid saab oma töös kasutada. Taas on abiks standardsed metaandmed ja andmetega kaasnev dokumentatsioon, et hinnata andmete päritolu ja terviklust.
Taaskasutamiseks on oluline aru saada, kuidas litsentsid lubavad andmeid kasutada ja kuidas kasutatavaid andmeid õigesti tsiteerida.
Loe lähemalt teemasid andmete dokumenteerimise, metaandmete ja litsentside kohta.
FAIR andmed ja avatud andmed ei ole sünonüümid. FAIR andmed saavutatakse koostöös teadlase ja e-infrastruktuuriga, kuid kas need on ka avatud andmed, on ainuüksi teadlase otsustada lähtuvalt nende sisust.
FAIR printsiibid leidsid ametliku heakskiidu G20 riikide juhtide tippkohtumisel Hiinas Hangzhous, 5. sept. 2016. a. Sellest ajast on läbi viidud kestevuuringuid teaduse avaandmeid ja FAIR andmeid puudutavast olukorrast. Uuringu viimane raport käsitleb aastaid 2018-2020, millest nähtub, et teadlikkus FAIR printsiipidest iga aastaga tõuseb, kuid võiks kindlasti olla kõrgem:
Science, Digital; Hahnel, Mark; McIntosh Borrelli, Leslie; Hyndman, Alan; Baynes, Grace; Crosas, Merce; et al. (2020): The State of Open Data 2020. Digital Science. Report.https://doi.org/10.6084/m9.figshare.13227875.v2
Siia kõrvale võib tuua andmed 2022. a avaldatud dokumendist: European Commission, Directorate-General for Research and Innovation, European Research Data Landscape – Final report, Publications Office of the European Union, 2022, https://data.europa.eu/doi/10.2777/3648
Nagu näha, üldine teadlikkus FAIR andmetest on mõnevõrra paranenud. Päris üks-ühele neid graafikuid võrrelda ei saa, sest valimid on olnud erinevad.
FAIR andmete tähtsust on lihtsam mõista selliste teadusuuringute puhul, kus andmete kogumine on väga kallis või siis saab andmeid koguda või vaatlusi korraldada ainult üks kord, vigade paranduse võimalust ei ole.
Hariduslikel eesmärkidel on Austraalias välja töötatud enesehindamise tööriist FAIR self assessment tool, millega saab igaüks katsetada, kui FAIR on tema andmed.
Igal juhul nõuab andmete avaldamine FAIR andmetana arvestatavat ajakulu, teadmisi, oskusi ja motivatsiooni seda teha.
Räägitakse ka FAIR andmete ökosüsteemist (data ecosystem), mis on andmed koos infosüsteemi komponentide ja nende vastastikkuse toimimise ja ühise võrgustikuga.
Ökosüsteemi moodustavad andmepoliitika, andmehaldusplaanid, standardid, püsiidentifikaatorid, repositooriumid ja automatiseeritud töövood nende vahel, mis kokku moodustavad võrgustiku. Võrgustiku jätkusuutlikuks toimimiseks on vaja välja töötatud teenuseid, tööriistu ja e-infrastruktuuri ning nende toimimise rahastamist.
Hiljuti viidi Põhja- ja Baltimaades läbi uurimisprojekt, mille eesmärk oli teada saada, kuidas stimuleerida FAIR andmete kultuuri:
Nordling, Josefine, Assinen, Pauli, Fuchs, Siiri, Kuusniemi, Mari Elisa, Lembinen, Liisi, Mihai, Hannah, Alaterä, Tuomas, Meerman, Bert, Vecpuise, Elza, & Ivarsson, Lars-Owe. (2022). D4.4 Report and recommendations on FAIR incentives and expected impacts in the Nordics, Baltics and EOSC. Zenodo. https://doi.org/10.5281/zenodo.6881009
Loodi kaks arhetüüpi, FAIR Newbie ja FAIR Master ning väljendati kokkuvõtlikult nende suhtumist FAIR andmetesse. Püstitati küsimus, kuidas saaks algajast meister, mida tuleks selleks teha ja milliseid stiimuleid kasutada.
FAIR Cookbook pakub palju näiteid, kuidas teha oma andmed FAIR andmeteks.
Lisalugemist FAIR andmete teemal ja kasulikke allikaid andmebaasist Nature Index (11.veebr. 2019): “A love letter to your future self”: What scientists need to know about FAIR data”.
Prof. Susanna-Assunta Sansone (Associate Director of Oxford eResearch Centre and Associate Professor (FAIR Data Science) at the University of Oxford), käsitleb oma ettekandes FAIR andmete teemat üldiselt ja biomeditsiini valdkonnas: