Andmehaldus

Andmehaldusplaan

Teadusandmete halduse all mõistetakse kõiki tegevusi andmetega, mis tagavad teadusandmete kõrge kvaliteedi: andmete organiseerimine, dokumenteerimine, säilitamine ja arhiveerimine. Need kõik võimaldavad andmetele juurdepääsu ning andmete taaskasutamist.

 

Slaidid (pdf)

[ Slaid 1] Selle kursuse kõige olulisemaks osaks on andmehaldusplaani koostamine.

[Slaid 2] Andmehaldusplaan on ametlik dokument, mis kirjeldab, kuidas käsitletakse teadusandmeid kogu teadusprojekti vältel ja pärast projekti lõppemist.

[Slaid 3] Andmehaldusplaani nõude tõid teadusesse grantide andjad, teaduse rahastajad. Nende soov on näha, mida maksumaksja raha eest ära tehakse ja kuidas see on kogu ühiskonnale kasulik, lisaks vältida samade teemade mitu korda rahastamist. Selline nõue sunnib praktiseerima avatud teadust, et kõikidel kodanikel oleks ligipääs teadustulemustele. Teadlane saab globaliseeruvas maailmas otsida kergemini koostööpartnereid, tema teadustulemuste usaldusväärsust kinnitab nende läbipaistvus ja reprodutseeritavus. Tulevikuteaduse seisukohalt on oluline see, et mida rohkem on kõigile kättesaadavaid teadusandmeid, seda rohkem tekib uusi küsimusi ja ideid ning uusi vastuseid. Ülikool kui tööandja võib olla kindel, et läbimõeldud plaani alusel kogutud, säilitatud ja publitseeritud andmed on igati kvaliteetsed: nende töötlemisel on järgitud kõiki kehtivaid seadusi, kasutatud kõige efektiivsemaid andmetöötlusmeetodeid ning andmed on leitavad avatud andmerepositooriumidest.

[Slaid 4] Andmehaldusplaani koostamine on üsna suur töö ja pikaajaline pidev protsess, kuid teadlastele teeb see projektijuhtimise ja osalemise oluliselt lihtsamaks. Pikaajaline planeerimine tagab andmete turvalisuse ja kvaliteedi. Mida suurem on tiim, seda olulisem on kirja panna ja järgida reegleid ja kokkuleppeid, et kõik saaksid asjadest ühtmoodi aru. See tagab andmete tervikluse kogu projekti vältel. Kuna avatud teaduse poliitika on väga paljudes riikides ja ülikoolides juba kehtiv, tuleb koostööprojektide puhul tunda ja järgida välispartneri nõudeid.

[Slaid 5] Järgneva kursuse jooksul käsitleme andmehaldusplaani koostamist üle kogu teadusandmete elutsükli. Selleks on olemas vabavaraline tööriist DMPonline [slaid 6], mille kasutamist õpime töö käigus.

Andmehaldusplaan on ametlik dokument, mis kirjeldab, kuidas käsitletakse teadusandmeid kogu teadusprojekti vältel ja pärast projekti lõppemist.

Teadusandmete elutsükkel

Võib öelda, et andmehaldus on andmepoliitikast põhjustatud tegevus, mis viib andmed turvaliselt läbi nende “elu”. Seda võib esitada tsüklina: 

elutsykkel.png

Sellel lihtsal skeemil on visualiseeritud teadusandmete haldamise kõik olulised etapid, mis aitavad andmehaldusele süsteemselt läheneda. Iga etapp koosneb omakorda paljudest konkreetsetest tegevustest, mis enne alustamist on vaja läbi mõelda ja kirja panna. 

Võib tekkida küsimus, miks seda nimetatakse teadusandmete elutsükliks, sest rangelt võttes samade andmetega täpselt samu toiminguid ju enam ei teostata. Siinkohal on võtmeks „taaskasutus“. Juba avaldatud andmeid saab kasutada jätkuuuringutes või mõnedes teistes uuringutes teiste teadlaste poolt. 

Andmete elutsükkel on oma olemuselt loogiliste tegevuste jada või ring, mitte andmevooskeem. 

Siin ongi veidi teisel viisil – lineaarselt – väljendatud andmehalduse etapid kogu teadustöö vältel. Seejuures on rõhutatud, et andmete, meetodite ja protsesside dokumenteerimine, kvaliteedikontroll ning andmeturve on olulised kogu tsükli jooksul. Sellisel skeemil on ka stardipunkt paremini määratletud.

usgs_elutsykkel.png

Faundeen, J.L., Burley, T.E., Carlino, J.A., Govoni, D.L., Henkel, H.S., Holl, S.L., Hutchison, V.B., Martín, Elizabeth, Montgomery, E.T., Ladino, C.C., Tessler, Steven, and Zolly, L.S., 2013, The United States Geological Survey Science Data Lifecycle Model: U.S. Geological Survey Open-File Report 2013–1265, 4 p., http://dx.doi.org/10.3133/ofr20131265

Andmehaldusplaan kui teekaart

Teadusuuringu läbiviimine on enamasti mitu aastat kestev projekt. Projekti juhtimine ja aruandlus on lihtsamad, kui tegevuskava on läbi mõeldud, tööjõud ja eelarve planeeritud ning kõik olulised sammud dokumenteeritud.

Abiks on andmehaldusplaan, mida projekti edenedes saab muuta ja täiendada, et kõik osalised oleksid teadlikud, kuidas käitutakse andmetega kogu projekti vältel ja pärast selle lõppemist ning kes mille eest vastutab.

Viimastel aastatel on andmehaldusplaani koostamine enne uuringuga alustamist oluliselt suurenenud. Praegu on selle põhjuseks enamasti rahastaja nõue esitada andmehaldusplaan.
DMP2020

Science, Digital; Hahnel, Mark; McIntosh Borrelli, Leslie; Hyndman, Alan; Baynes, Grace; Crosas, Merce; et al. (2020): The State of Open Data 2020. Digital Science. Report. https://doi.org/10.6084/m9.figshare.13227875.v2 

 

1997. aastal avaldatud graafikul on välja toodud infokao põhjused ning ajaline kulg. On näha, et erilist tähelepanu tuleb pöörata andmehaldusele pärast projekti lõppemist ning artiklite avaldamist, kuna ilmnevad mitmed objektiivsed ja subjektiivsed põhjused, miks andmed ei ole enam kättesaadavad ega mõistetavad. 

 

 

andmekadu.png

Michener et al. (1997 William K. Michener , James W. Brunt , John J. Helly , Thomas B. Kirchner and Susan G. Stafford , `Nongeospatial Metadata for the Ecological Sciences’, Ecological Applications 7/1 (February): 330-342.

Andmehaldusplaani loomine ja järgimine on eriti vajalik doktorantidele, sest selleks ajaks, kui nad jõuavad oma teeside esitamiseni on töö alusandmete avaldamine saanud kindlasti normiks.

Uuringuga alustades on mõistlik defineerida oma andmepoliitika. Seda eriti juhul, kui on hõlmatud välispartnerid ülikoolidest, kus andmepoliitika on olemas.

Soovitan lugeda raamatut Teadlane miiniväljal : lähen ütlen tihastele, et teeme nüüd uuesti / Virgo Siil ; [toimetaja Triin Olvet ; kujundaja Kaspar Ehlvest, kaanefoto: Kristjan Teedema] Ilmunud [Tallinn] : Argo, 2019; https://www.ester.ee/record=b5245221*est

 

Siil

Autor on intervjueerinud teadlasi, kes ausalt räägivad oma tõsisematest ja humoorikamatest äpardustest teadustöö tegemisel. Tõenäoliselt oleks saanud paljusid neid ebaõnnestumisi vältida, koostades andmehaldusplaani, mida kõik uurimisgrupi liikmed tunnevad ja järgivad. 

DMPonline – tööriist andmehaldusplaani koostamiseks

Suurbritannias asuv Digital Curation Centre pakub vabal tarkvaral põhinevat keskkonda andmehaldusplaanide koostamiseks. DMPonline tööriista käsitleme edaspidistes peatükkides põhjalikumalt.

NB! DMPonline keskkonnas koostatud andmehaldusplaanide näiteid: https://dmponline.dcc.ac.uk/public_planshttps://www.dmptuuli.fi/public_plans 
Näidetes toodud DMPTuuli on Soomele kohandatud DMPonline. 

DMPonline juhendmaterjalid on üsna üldised ega arvesta erialade vajadusi, mistõttu on Euroopa teadusrahastajate liit Science Europe välja töötamas andmehaldusplaanide standardeid nn disciplinary research data management protocols, Domain Data Protocols (DDPs). 

Andmehaldusplaanide hindamine

Esimeseks hinnangu andjateks on teadlased ise: kas see on ühiselt koostatud dokument, mida on hea järgida, või dokument, mis on valminud ainult teadusbürokraatidele esitamiseks. 
Grandi taotlemise ja teadusprojekti elluviimisega kaasnevaid andmehaldusplaane hindavad üldjuhul sama eriala eksperdid, kuid ka nemad järgivad ametlikke juhendeid, kui need on olemas.

Lisalugemist: Science Europe’i poolt välja antud Practical Guide to the International Alignment of Research Data Management avaldati 2019. a ja täiendati 2021. a jaanuaris. See sisaldab juhiseid andmehaldusplaanide hindamiseks, nende põhinõudeid ja hindamistabeleid.