Andmehaldus

Andmerepositooriumid

Teadusandmete repositooriumid on andmehoidlad, mis säilitavad ja kureerivad andmekogusid, tagades nende pikaajalise säilimise ja ligipääsu andmetele.

Teadlasel on oluline juba andmehalduse planeerimisel otsustada, millisesse repositooriumisse oma andmed hoiule anda.

Repositooriumid on leitavad registrist re3data

re3data

Repositooriume on nelja peamist tüüpi:

Universaalsed

Need repositooriumid peaksid vastu võtma igas vormingus andmeid, ehkki väga spetsiifiliste vormingute puhul soovitatakse rohkem erialaseid repositooriume.

  • Zenodo on teadusandmete repositoorium, mida rahastatakse Euroopa Liidu fondidest ning sellesse võivad oma andmeid (kuni 50 GB) üles laadida kõik teadlased
  • Figshare on samuti universaalne repositoorium, kuhu võib üles laadida andmekogusid, artikleid, videosid, postreid, koodi jne
  • Open Science Framework on repositoorium ja andmehaldusplatvorm, mis on koostöövõimeline Dropboxi, GitHubi ja Zoteroga

Lisalugemist: General Repository Comparison on regulaarselt täiendatav tööriist teadlasele, et valida parim universaalne repositoorium oma andmete või muude digitaalsete objektide säilitamiseks. 

Erialased

Seda tüüpi repositooriumid on teadlastele väga olulised, kuna toetavad spetsiifilisemaid vorminguid ning erialaseid metaandmete standardeid. Nende nimekiri on üsna pikk, kuid olgu siin nimetatud mõned:

Vahel avaldavad rahastajad nende poolt aktsepteeritavate repositooriumide nimekirja, olgu siin näiteks valik biomeditsiini-alaseid repositooriume koos juhenditega, kuidas andmeid üles laadida ja kuidas andmetele juurdepääs on tagatud. 

Riiklikud

  • UK Data Service – Suurbritannia teadusandmete hoidla; kogub ja säilitab avalikke avaandmeid (rahvaloendused, terviseandmed, pikaajaliste uuringute andmed, sotsiaalmajanduslikud andmed)
  • ANDS – Austraalia riiklik teadusandmete hoidla

Institutsionaalsed

Need on andmehoidlad, mida pakuvad oma teadlastele ülikoolid.
Hiljutisest uuringust selgub, et teadlastele üldiselt meeldib kasutada oma ülikooli repositooriumit, kuid samavõrra kasutatakse universaalseid repositooriume (international + general-purpose sellel graafikul)

Repos

Allikas:  European Commission, Directorate-General for Research and Innovation, European Research Data Landscape – Final report, Publications Office of the European Union, 2022, https://data.europa.eu/doi/10.2777/3648

 

Tartu Ülikooli teadusandmete repositoorium on DataDOI, mis on DSpace’i baasil loodud platvorm teadusandmete kestvaks säilitamiseks. Kui andmete jaoks puudub erialane ning säilimist tagav keskkond, sisestatakse need DataDOI-sse. Andmetele omistatakse ka DOI ning metaandmed registreeritakse DataCite vahendusel.

Andmete säilimise ning kättesaadavuse tagab edaspidi repositooriumi haldaja, milleks on TÜ raamatukogu. Samuti on tagatud uuendused, vastavus standarditele, andmevahetuse toimimine jm. Sihtgrupiks on üksikteadlased ning allüksused/töögrupid Tartu ülikoolis ja väljaspool seda. TÜ teadlastele on DataDOI kasutamine tasuta.

 

Vaata videojuhendit, kuidas oma andmed DataDOI-sse sisestada: 

Teised DataCite Eesti konsortsiumisse kuuluvad andmehoidlad on näha DataCite Eesti lehelt. Kõikidele nendele on tagatud täpselt samasugused teenused nagu DataDOI-le.

Kui te ei kasuta nimetatud andmekeskusi, tuleks näidata valitud repositooriumi usaldusväärsust.

Kvaliteetseid repositooriume saab otsida DataCite’i teenuse Repository Finder abil, kus tulemuseks kuvatakse FAIR andmeid säilitavad repositooriumid re3data registrist. 
Mitmed ajakirjad soovitavad samuti andmerepositooriume, mille kvaliteet vastab ajakirja nõuetele, näiteks Nature Scientific Data Recommended Data Repositories

Teine andmehoidla kvaliteedinäitaja on Core Trust Seal sertifikaat. See arvestab repositooriumi organisatsioonilist ja tehnilist ülesehitust, andmete kureerimise taset jms.

Andmete ettevalmistamine

Selleks, et otsustada, millised andmed anda säilitamiseks repositooriumisse, tuleks läbi mõelda ja kirja panna, mis eesmärgil ning kui kaua neid säilitatakse.

Säilitamise eesmärk võib olla grandi andja või teadusajakirja nõue, teadustulemuse valideerimise vajadus või õppeotstarbel kasutamine.

Repositooriumid lubavad säilitada ja kureerida andmeid üldjuhul 10 aastat. Selle aja jooksul tagatakse andmete kättesaadavus, koostöövõime ja taaskasutatavus. Andmeid võib säilitada loomulikult kauem kui 10 aastat, kuid siis ei pruugi kõik funktsioonid enam töötada.

Erilist tähelepanu tuleb pöörata isikuandmete kaitsele ning veenduda, et andmed, mida kavatsetakse säilitada avaandmetena,  oleksid anonümiseeritud. 

Andmeid võib ja vahel tulebki kustutada, kuid põhjuste kohta peaks andma selgituse.

Lisalugemist: Helsingi ülikoolis on hiljuti välja antud juhend, mida võiks järgida enne andmete repositooriumisse panemist: 
Lahtinen, T., Mela, M., Mäkelä, M., Nurmi, N., & Kuusniemi, M. E. (2023). How to become a data preserver: The official University of Helsinki guide to the responsible preservation of research data (2.0). Zenodo. https://doi.org/10.5281/zenodo.10424017

 

Andmehoidlate teenused

Suured repositooriumid pakuvad sageli tarkvara enamlevinud vormingute töötluseks. Probleemiks on alati uued formaadid, mis teevad andmete hooldamise keeruliseks. Andmevorming võib erijuhul olla ka teadlase ja repositooriumi vahelise läbirääkimise objekt, et peaeesmärk – säilitamine ja ligipääs – oleksid tagatud ning teadlase vajadused rahuldatud. Üldjuhul toimub andmetöötlus ikkagi pärast andmete allalaadimist.

Veel võivad repositooriumid pakkuda bibliomeetrilisi andmeid, statistikat andmekogu allalaadimise ning visualiseerimise kohta, samuti tsiteerimise vormindamist.

Repositooriumid abistavad teadlast ka litsentside valikul.

Üldiselt kasutavad repositooriumid kindlat tüüpi deponeerimislitsentse, mis määravad ära õigused, mis andmete omanik on repositooriumile üle andnud. See tagab andmete kureerimise kvaliteedi. Andmete üleslaadimisel repositooriumisse ei muutu andmete omanik.

Litsenseerimine on üks olulisemaid repositooriumi teenuseid, sest see võimaldab teadlasel kõvasti aega kokku hoida nii deponeerijana kui ka andmete kasutajana (võrreldes iga üksiku autori nõusoleku küsimisega mõne muu andmete jagamise ja hankimise meetodi puhul). Andmete omanik peab repositooriumi kasutamiseks registreeruma ja valima endale sobiva litsentsi tüübi. Seejuures tuleb veenduda, et andmekogu ning sellega seotud dokumendid oleksid ühtmoodi litsentseeritud.

Repositooriumide kodulehtedel on kasutustingimused ja instruktsioonid andmete üleslaadijatele, millega peaks tutvuma juba enne andmete kogumist.

Viimane faas on andmete ettevalmistamine pikaajaliseks säilitamiseks. 

ICPSRi (Inter-university Consortium for Political and Social Research) direktor Margaret Levenstein räägib masinloetavate andmehaldusplaanidede ja püsiidentifikaatoritede olulisusest uurimistöö tõhustamisel ning kasulikkusest repositooriumide teenuste kavandamisel.

 

 

 

OpenAIRE

OpenAIRE on Euroopa Liidu projekt, mis toetab avatud juurdepääsu ja avaandmeid ning ühtlustab avatud teaduse poliitikat Euroopas, ehitades e-infrastruktuuri ja Euroopa teaduspilve (EOSC).

OpenAIRE portaalis peavad olema nähtavad ning otsitavad kõik Euroopa Komisjoni rahastatud projektid, publikatsioonid, andmed ja rahastajad, mis on omavahel lingitud. Teadustulemuste säilitamiseks pakub OpenAIRE repositooriumit Zenodo, kuid andmed võivad olla ükskõik millises repositooriumis, mis annab DOI.

openairenäide

Digitaalobjekti Identifikaator DOI

DOI ehk Digital Object Identifier on jada numbreid, tähti ja sümboleid, mis püsivalt ning ajas muutumatuna identifitseerib artiklit, dokumenti, andmekogu, e-raamatut vms ning viitab sellele veebis. Näiteks andmekogule “E-raamatute eeltöödeldud ja lemmatiseeritud failid” on antud DOI http://dx.doi.org/10.15155/re-46, mis viib veebiaadressile http://datadoi.ee/handle/33/76. Kui ka veebiaadress mingil põhjusel muutub (nt toimub andmerepositooriumi üleviimine uuele domeenile), siis DOI püsib muutumatuna ning tagab, et andmekogu on alati leitav õigelt veebiaadressilt.  

Eesti andmehoidlad saavad anda andmekogudele DOI DataCite Eesti konsortsiumi vahendusel. Vaata, millistel keskustel on õigus omistada DOI ja võimaluse korral kasuta neid: DataCite Eesti konsortsiumi repositooriumid.

datacite

Kuidas saada DOI oma teadusandmetele?

Eestis käib teadusandmete registreerimine DataCite Eesti konsortsiumiga liitunud ülikoolide kaudu. Nende ülikoolide teadlastele on DataCite’i teenused tasuta.

Teiste asutuste teadlased saavad omandada DOI-sid vastavalt hinnakirjale.

Teadlane ise peaks astuma järgmised sammud: 

  1. Korrastama oma andmed
  2. Varustama oma andmekogu metaandmetega
  3. Leidma endale sobiva andmekeskuse (erialane või institutsionaalne)
  4. Laadima oma andmed üles vastavalt juhendile
  5. Küsimuste ja probleemide korral võtma ühendust andmekeskuse haldajaga

Infot jagavad ja koolitusi pakuvad ülikoolide raamatukogude spetsialistid või TÜ raamatukogu kui DataCite’i liige.