Andmehaldus

Avatud teadusandmed

Sõna andmed, data (ainsus datum) pärineb ladina keelest: word origin of ’data’: from Latin, literally: (things) given, from dare to give (Collins English Dictionary).

Seega juba oma olemuselt on andmed midagi, mis kirjeldavad objektiivselt olemasolevat.

Andmed on toormaterjal, mille põhjal on võimalik maailma struktureerida, kategoriseerida ja mõõta. Andmetele annab väärtuse nende kasutamine.

 

Teadusandmed on teadustöö tarbeks omandatud või kogutud andmed.

Suurbritannias välja antud Concordat on Open Research Data defineerib teadusandmed järgnevalt: 

Research data are the evidence that underpins the answer to the research question, and can be used to validate findings regardless of its form (e.g. print, digital, or physical). These might be quantitative information or qualitative statements collected by researchers in the course of their work by experimentation, observation, modelling, interview or other methods, or information derived from existing evidence. Data may be raw or primary (e.g. direct from measurement or collection) or derived from primary data for subsequent analysis or interpretation (e.g. cleaned up or as an extract from a larger data set), or derived from existing sources where the rights may be held by others. Data may be defined as ‘relational’ or ‘functional’ components of research, thus signalling that their identification and value lies in whether and how researchers use them as evidence for claims. They may include, for example, statistics, collections of digital images, sound recordings, transcripts of interviews, survey data and fieldwork observations with appropriate annotations, an interpretation, an artwork, archives, found objects, published texts or a manuscript.

Teaduse avaandmed, avatud teadusandmed (open research data) on teadusandmed, mis tehakse avatud juurdepääsuga kättesaadavaks, teistele jagamiseks ja kasutamiseks, viidates seejuures algsetele andmetele. Seega peamine tunnus, mis lubab öelda, et teadusandmed on avatud, on nende andmete kättesaadavus.

Avaliku sektori avaandmed (public data, government data) on avaliku sektori loodud andmekogudes sisalduvad andmed, millele ei ole kehtestatud juurdepääsupiirangut. Need on aluseks avalikele teenustele ja otsustustele. Kui avaliku sektori andmeid kasutatakse teadusuuringus, on need ühtlasi ka teadusandmed. Eesti avaliku sektori andmeid koondab Eesti avaandmete portaal. 

Andmeid liigitatakse mitmetel alustel, näiteks:

  • Kvantitatiivsed ja kvalitatiivsed andmed

Kvantitatiivsed andmed on need, mida saab väljendada arvudes: mõõta või kaaluda, kasutada suhteskaalat (1-100), ei/jah otsuseid jne.

Kvalitatiivsed andmed ei ole otsekohe arvudega väljendatavad, näiteks tekst, pilt, video. Küll aga saab kvalitatiivseid andmeid analüüsides need konverteerida arvandmeteks.

Näide: Suudlevate tudengite mõistatus

  • Struktureeritud ja struktureerimata andmed

Struktureeritud andmed on organiseeritud andmed, kus igale tunnusele vastab väärtus ja tunnus-väärtus paarid moodustavad andmebaasi. Selliseid andmeid on arvuti abil võimalik töödelda ja otsida, kasutades algoritme ning päringukeeli. Ühesõnaga, tegemist on masinloetavate andmetega. Andmetöötluse tulemust saab visualiseerida, luua mudeleid ja simulatsioone.

Struktureeritud andmetega on seotud mõiste linkandmed (linked data). Andmed on struktureeritud nii, et neid saab standardi alusel omavahel linkida ning need moodustavad semantilise veebi. Avatud linkandmete näiteks on DBPedia.

Struktureerimata andmetel ei ole kindlat mudelit või struktuuri, seega on neid raske arvutiga töödelda.

  • Primaarsed ja sekundaarsed andmed

Primaarsed andmed on need, mida teadlane ise on kogunud. Kui neid ei ole veel töödeldud ega analüüsitud, on tegemist toorandmetega.

Sekundaarsed andmed on teadlase enda või kellegi teise poolt varem kogutud andmed. Tegemist on andmete taaskasutusega.

  • Metaandmed 

Metaandmed on andmed andmete kohta, mis peaksid olema avatud ka juhul, kui andmed ise ei ole kõigile kättesaadavad. 

  • Suurandmed ja long tail andmed

Suurandmeid iseloomustavad suur andmemaht, pidev ja suur andmete töötlemise kiirus ning väga erinevad andmetüübid (3V: Volume, Velocity, Variety). Suurandmed on struktureeritud andmed, mida saab automatiseeritult töödelda.

Suurandmeteks on näiteks asjade interneti (Internet of Things, IoT) andmed ehk andmed nutikatelt tarbijaseadmetelt, mis pidevalt tegelevad andmesalvestuse ning andmete jagamisega. 

Suurandmed võivad olla avaandmed, kuid peamine iseloomustav tunnus on andmemaht.

Teisalt suurem osa tänapäeva teadusest tegeleb siiski väiksemamahuliste andmetega, mida nimetatakse long tail data, sest graafikul, kus üheks teljeks on andmemaht ning teiseks vastavate andmehulkade arv, moodustab tavapärane teadus just selle pika saba. Seal on andmemahud väikesed, korraga kogutakse ja töödeldakse kindlaid andmetüüpe. Andmete kogumise ja töötlemise meetodid on traditsioonilised ning võivad olla lausa rätsepatöö mingi kindla probleemi uurimiseks.

Culina, A., M. Baglioni, T.W. Crowther, M.E. Visser, S. Woutersen-Windhouwer, and P. Manghi. 2018. Navigating the unfolding open data landscape in ecology and evolution. Nature Ecology & Evolution 2: 420-426

“Long tail of science. Dispersed scientific research that is conducted by many individual researchers/teams, and is often of a limited spatial and temporal scale. Data produced in the long tail tend to be small in volume, and less standardized within the same field of study. The majority of scientific funding is spent on this type of research”.

 

long_tail.png

 

Ferguson, A. R., Nielson, J. L., Cragin, M. H., Bandrowski, A. E. & Martone, M. E. Big data from small data: data-sharing in the ‘long tail’ of neuroscience. Nat. Neurosci. 17, 1442–1447 (2014)