Andmehaldus

Dokumenteerimine ja metaandmed

Dokumenteerimine

Andmetega töötamist peaks dokumenteerima igas etapis alates andmete kogumisest kuni pikaajalisele säilitamisele andmiseni. Kõigepealt ongi vaja otsustada, mille kohta üldse dokumentatsioon koostatakse, millises vormis ja kes vastutab selle tegevuse eest.

Kuna andmehaldusplaan iseenesest on ka ametlik dokument, ei ole vaja pikemalt korrata neid punkte, mida andmehaldusplaan nagunii kirjeldab.

Dokumentatsioon on oluline, kui grupiga liituvad uued teadlased ja doktorandid. Korralikult dokumenteeritud andmed väldivad väärkasutust ja valesti mõistmist tulevikus, mis ongi üks teadlase suurimaid hirme.

Näiteks metaandmed lisatakse andmetele küll töö käigus, kuid millist standardit kasutatakse ja milliseid välju sellest standardist täidetakse, tuleb otsustada juba varem ning täita jooksvalt. Sellega seoses tuleks ühtlasi otsustada, millises repositooriumis hakatakse andmeid hoidma pärast projekti lõppemist, kuna universaalsed repositooriumid ei toeta kõiki metaandmete standardeid. Seevastu erialased repositooriumid just sellepärast ongi erialased, et need toetavad erialaseid standardeid.

Dokumenteerimine ja metaandmetega kirjeldamine on läbi kogu andmetsükli toimuv tegevus. 

Helsing Ülikoolis on välja antud väga hea andmete dokumenteerimise juhend, mis käsitleb andmete dokumenteerimist uuringu jooksul ja pärast töö lõppemist andmete avaldamiseks:
Siiri Fuchs, & Mari Elisa Kuusniemi. (2018). Making a research project understandable – Guide for data documentation (1.2). Zenodo. https://doi.org/10.5281/zenodo.1914401
Siinkohal võiks tähele panna, et lisatud link viib Zenodo repositooriumisse, kust on alati võimalik endale alla laadida juhendi viimane täiendatud versioon. 

 

Metaandmed

Metaandmed on andmed andmete kohta. Metaandmed annavad teadusandmetele konteksti ja võimaldavad tuvastada päritolu.

Metaandmete eesmärk on teha andmed otsitavaks, arusaadavaks ja kasutatavaks ka tulevikus, ilma et keegi peaks andma lisaselgitusi andmekogu kohta. Metaandmed kirjeldavad uurimisandmeid ja võimaldavad otsingut. Mõtle järele, kust sa need saad (lood ise, automaatselt) ning kus säilitad ja kuidas lingid andmetega.
Metaandmed peavad olema avalikud ka juhul, kui andmekogu ise jääb suletuks. 

Metaandmete elutsükkel on üks osa teadusandmete elutsüklist, kuid see ei tule ette mitte üks kord tsükli jooksul, vaid metaandmestada  tuleks pidevalt, pöördudes tagasi eelmiste etappide juurde.

Seda iseloomustab metaandmete spiraal, mis eristab, millised metaandmed on vajalikud andmete otsimiseks ja leidmiseks ning millised andmete mõistmiseks ja taaskasutamiseks. 

spiraal

Habermann, T. (2018). Metadata Life Cycles, Use Cases and Hierarchies. Geosciences, 8(5), 179. https://doi.org/10.3390/geosciences8050179

Metaandmeid on kolme põhitüüpi:

  1. Administratiivsed metaandmed (projekti ja vastutusalade kohta, juurdepääsuõiguste haldamine, litsentsid, embargoperiood). Eesmärk: andmete juurdepääsetavus.
  2. Tehnilised ja struktuuri metaandmed (riist- ja tarkvara kohta, autentimine, krüpteerimine, andmed allikate digiteerimise kohta, digitaalobjektide ja andmekogu struktuur, koodid, muutujad jne). Eesmärk: süsteemide koostöövõime ja andmete taaskasutatavus.
  3. Kirjeldavad metaandmed (DOI, bibliograafilised metaandmed). Eesmärk: et andmed oleksid leitavad ja mõistetavad.

metadata.png

Riley, J.: Understanding Metadata: What is Metadata, and What is it For?: A Primer. NISO Press, Bethesda (2017)

Juuresolevast tabelist on hästi näha, kui olulised on andmekogu metaandmed FAIR andmete seisukohalt. Andmekogu looja ülesanne on anda andmekogule sisu kirjeldavad ja õigusi määravad metaandmed. Repositooriumid peavad lõpuks tagama pikaajalisele säilitamisele antud andmete koostöövõimelisuse (interoperability) teiste infosüsteemidega.
Ja mitte ainult. Sama oluline on semantiline koostöövõime, et andmete tähendus ja mõte kaduma ei läheks, ning ka juriidiline ühilduvus. 

Standardeid ja metaandmete raamistikke on väga palju, nii üldisemaid kui ka väga erialaspetsiifilisi. Need näevad ette metaandmete esitamise struktuuri ja andmeelemendid, arvestades konkreetsel erialal kogutavaid teadusandmeid.

Metaandmete raamistikud ja standardid kasutavad kontrollitud sõnastikke ning taksonoomiaid. See tähendab, et paljudele andmeelemente kirjeldavatele metaandmete väljadele ei ole võimalik sisestada ükskõik mida, vaid väärtused tuleb valida etteantud hulgast, kontrollitud sõnastikust. Sellega tagataksegi andmevahetus ja koostöövõimelisus.

Eesti repositooriumides on standardiks Eesti märksõnastik
Teine hea näide on paljudesse Euroopa keeltesse tõlgitud sotsiaalteaduste tesaurus: ELSST – European Language Social Science Thesaurus.

Internetiotsinguga võib leida mitmeid loetelusid erialastest standarditest, näiteks

Metadata Standards Catalog

 

 

 

DataCite

Vaatame lähemalt üht metaandmete raamistikku.

Tartu Ülikool on liitunud mittetulundusliku organisatsiooniga DataCite ning TÜ raamatukogu on teenusepakkuja ja vahendaja rollis. Selleks on loodud konsortsium DataCite Eesti. DataCite annab andmekogudele püsiidentifikaatori DOI ja registreerib metaandmed. TÜ andmerepositooriumid PlutoF, DataDOI ja QsarDB on DataCite’i poolt tunnustatud ja kõik sellesse laaditud andmekogud saavad DOI ning on leitavad DataCite otsinguga tänu metaandmetele. 

DataCite’i metaandmete raamistik jagab metaandmed kolme gruppi: kohustuslikud, soovituslikud ja valikulised.

Kohustuslike ja soovituslike metaandmete kirjeldus:

dc_k_meta.png

 

dc_s_meta.png

Metaandmed on avatud ka siis, kui andmekogum ise pole mingil põhjusel kõigile juurdepääsetav. Metaandmed on püsivad ja nende elutsükkel on pikem kui nendes metaandmetes kirjeldatud andmetel.

Mida rohkem metaandmeid, seda lihtsam on andmekogu leida ja mõista!