Andmehaldus

Andmete kogumine ja organiseerimine

Andmete kogumine ja organiseerimine on tulemusliku teadustöö alus. Selles etapis tehtavaid otsuseid on hiljem raske kui mitte võimatu ümber mõelda. Sellega on seotud inimesed, nende tööülesanded ning koolitused. Andmete kogumine eeldab sobiva riist- ja tarkvara olemasolu.

Andmete kogumise juures tuleb kirjeldada: 

  • milleks andmeid kogutakse 
  • kuidas andmed saadakse 
  • milliseid andmetüüpe ja vorminguid kasutatakse 
  • kui suur on eeldatav andmemaht 

Kui need on otsustatud, saab läbi mõelda, kuidas andmed ja failid korraldatakse.

Kuidas andmed saadakse? 

Andmeid on võimalik ise koguda, (taas)kasutada oma varem kogutud andmeid, kasutada avalikke avaandmeid, taaskasutada teiste poolt kogutud andmeid või osta andmeid.

Oma varasemate andmete kasutamine eeldab, et need olid korrektselt hallatud ning need on sisult mõistetavad ja tehniliselt töödeldavad kaasaegsete IT-vahenditega.

Teiste poolt kogutud andmeid võib leida avaandmete repositooriumidest (vt repositooriumid) ning avalikke andmeid Eesti avaandmete portaalist.

Äriettevõtete poolt kogutud andmed on andmemajanduse aluseks ja neid tuleb üldjuhul omanikult osta.

Teiste poolt kogutud andmete kasutamisel tuleb kindlaks teha, kelle omad need andmed on ja kas on õigust neid kasutada.

Andmemaht

Suur andmemaht võib kaasa tuua suuri kulutusi andmevahetusel ja andmete pikaajalisel säilitamisel. Paljudel repositooriumidel on andmete mahu piirang ning kui soovitakse seda ületada, siis küsitakse lisatasu. Ülemine piir on väga erinev, varieerudes vahemikus 2GB-10GB.

Andmemaht esitab oma nõudmised ka riist- ja tarkvarale, näiteks ruumiandmeid ei saa koguda tavapärasesse arvutustabelisse.

Arvesta andmemahtusid andmete säilitamisele, varundusele ja juurdepääsule mõeldes. Hinda andmete mahtu projekti lõpus (MB, GB, TB) ning mõtle, kas sul on piisavalt salvestusruumi ja tehnilist tuge.

Andmevormingud

Too välja ja põhjenda kogutavate andmete vormingut. Võimalusel kasuta avatud vorminguid (nt TXT, RTF, HTML, XHTML, PDF, JPEG, PNG, SVG) ning standardeid. Kommertstarkvara kasutamisel on oht, et ühtäkki seda enam ei toetata või hind ei ole jõukohane. Standardiseeritud ja andmevahetust võimaldavate vormingute kasutamisega kindlustatakse pikaajaline andmete taaskasutamine.

Siin on mõned soovitused:

UK Data Archive

DANS failivormingud (on ka lisatud, mida mitte kasutada)

 

vormingud.png

Andmed lisatakse pikaajaliseks säilitamiseks andmerepositooriumisse. Võib juhtuda, et repositoorium ei toetada kõiki teenuseid (visualiseerimine, bibliomeetria, altmeetria, statistika) absoluutselt kõikide vormingute puhul. Kui nii, siis peab see olema kasutustingimustes teada antud, et teadlane saaks teha oma valiku kas mõne teise vormingu või teise repositooriumi kasuks.

Andmekirjeldus ja andmetüübid

Kirjelda, millised andmed luuakse töö käigus ning milline on nende sisu ja ulatus. Täpsustada tuleks näiteks: instrumendiandmed, mõõtmisandmed, kaugseireandmed, küsitlusandmed, vaatlusandmed, füüsilised objektid, audio- ja videosalvestised, tekstid jne.

Liigitada võib ka teistel alustel: ajaloolised, avalikud, taaskasutatavad, dünaamilised jne.

Siinkohal võiks ka otsustada, millised andmed väärivad pikaajalist säilitamist. Tuleb arvestada, et repositooriumis säilitamine on kulukas repositooriumi haldajale ning kõiki andmeid ei ole vaja säilitada ega avada. Hinda seda aspekti alati tulemuste läbipaistvuse ja reprodutseeritavuse seisukohast.

Andmete organiseerimine

Failide organiseerimine enne andmete kogumist on üks keerulisemaid ülesandeid. Abiks võib olla, kui mõelda läbi järgnevad küsimused:

  • Kas suudetakse mõelda aastate peale ette, kuidas andmed võivad muutuda?
  • Kuidas lisanduvad uued andmed ja uued vormingud?
  • Kuidas toimub varundamine?
  • Milline on failide omavaheline suhe? Kuidas seda kajastatakse?
  • Kuidas lisatakse olemasolevatele failidele metaandmed?

The State of Open Data Report 2018 kohaselt oli andmete mitte jagamise põhjus 46% juhtudest just asjaolu, et andmed ei olnud presenteeritaval kujul organiseeritud. 

Failide mõistliku organiseerimise aluseks on lihtne ja loogiline failide nimetamine. 
Arvestades, et andmete esitamine koos teadusartikliga on siiski viimaste aastate praktika, võib tekkida vajadus juba varem kogutud andmete faile või taaskasutatavate andmete faile ümber nimetada. 

Failide nimetamine

Loogiliselt nimetatud failide ja organiseeritud kaustade struktuur teevad andmete leidmise lihtsaks ning muutuste jälgimise võimalikuks. Faili nimes võiks sisalduda järgmised elemendid:

  • Projekti ID või lühike ja tähendusrikas nimi (mnemoonika!)
  • Faili tüüp (nt dokumendifail, tabelarvutusfail, andmebaasifail, esitlusfail, graafikafail jne)
  • Kuupäev
  • Looja nimi (initsiaalid, pseudonüüm)
  • Versioon
  • Staatus

Kasuta kõike, mille kohta on juba olemas standardid (näiteks ISO 8601 Date and Time Formats) või üldtuntud lühendid (riikide ja rahaühikute tähised, inimeste sugu jne).

Failide kopeerimine mitmesse kohta ei ole hea praktika. Kui mingil põhjusel peaks üks ja seesama fail olema mitmes kohas, siis tuleks luua otsetee. 

Failide ümbernimetamine

Kui projekti jaoks on kogutud juba suurem hulk andmeid ning faile on vaja ümber nimetada, siis käsitsi võib see osutuda üsna tülikaks.  

Failide ümbernimetamise lihtsustamiseks võib valida mõne alljärgneva tööriista, mis kõik võimaldavad mitmeid faile korraga muuta, teha asendusi, reorganiseerida, kustutada, lisada numeratsiooni, prefikseid ning sufikseid, muuta suur- ja väiketähelisust, manipuleerida ajaformaatidega. Lisaks saab ümber nimetada pildi- ja helifaile ning failide laiendeid. Enne salvestamist on võimalik vaadata muudatuste eelvaadet ning ennistada eelmist versiooni. Samuti toetatakse regulaaravaldisi, mis võimaldavad keerukamaid tekstimanipulatsioone.  

  • Bulk Rename Utility  

    • Windows operatsioonisüsteemile (kohandub kõigi versioonidega) 
    • Tavakasutajale tasuta, ettevõtte või kommertskasutuseks on vajalik soetada litsents 
    • Toetab ID3 ja EXIF märgiseid 
    • Kohandub rakendusega Windows File Properties 
  • ReNamer 

    • Windows operatsioonisüsteemile 
    • Programm saadaval mitmetes eri keeles 
    • Toetab ID3v1, ID3v2, EXIF, OLE, AVI, MD5, CRC32, SHA1 märgiseid
  • Transnomino 

    • Mac OS operatsioonisüsteemile 
    • Toetab ID3 ja EXIF märgiseid 
  • Inviska 

    • Linux (ka Windows ja Mac OS) operatsioonisüsteemile 
    • Toetab D3v2 ja FLAC märgiseid
  • Metamorphose 

    • Linux (ka Windows ja Mac OS) operatsioonisüsteemile 
    • Toetab EXIF ja ID3 märgiseid

Kõigi tööriistade kõikide funktsioonide kohta saab rohkem ning detailsemat infot nende kodulehelt, kasutusjuhendist või korduma kippuvate küsimuste alt. 

Nii Windows, Mac OS kui ka Linux operatsioonisüsteemid ise võimaldavad samuti lihtsamat mitmete failide ümbernimetamist, kuid olulisemalt vähemate funktsionaalsustega. 

Failide organiseerimine

Kaustade struktuur ja hierarhia sõltub väga palju projekti olemusest. Ainult sama süsteemi rakendamine kogu projekti vältel kõikide osalejate poolt tagab järjepidevuse. Struktuuri võib määrata ka kasutatav instrument. Võimalikud variandid kaustade struktureerimiseks:

  • Kaustad on aastate kaupa
  • Andmetüüpide järgi (tekst, tabelid, pildid, andmebaas)
  • Materjali laadi järgi (küsitlusandmed, fookusgrupid, seireandmed)

failipuu.png

Allikas

Tundub mõistlik kogu eelpool nimetatud info esitamine ülevaatliku tabelina, kui andmetüübid seda võimaldavad.  Juuresolevasse näidistabelisse saab lisada veerge ka muu olulise infoga, näiteks kes vastutab andmete kogumise eest, millised metaandmed lisatakse failidele, kas andmed avatakse või jäävad suletuks jne. 

 

 

Technique of collecting data

Type of data

Format

Volume

File identity

Note

Interview

Audio recording

WAVE, WMA or MP3

 

Int.rec.

Semi-structured interviews in Estonian

 

Transcript and summary

RTF & PDF

 

Int.trans.

Transcript in Estonian, summary in English

Observation

Observation note

RTF & PDF

 

Obs.note.

Participant observation by researcher

 

Photo documentation

JPEG

 

Obs.photo.

Taken by researcher

Focus Group Discussion

Audio recording

WAVE, WMA or MP3

 

FGD.rec.

Focus group on….

 

Transcript and summary

RTF & PDF

 

FGD.trans.

Transcript in Estonian, summary in English

 

Photo documentation

JPEG

 

FGD.photo.

 

Workshop

Audio recording

WAVE, WMA or MP3

 

Work.rec.

Workshop on …

 

Transcript and summary

RTF & PDF

 

Work.trans.

Transcript in Estonian, summary in English

 

Photo documentation

JPEG

 

Work.photo.

Taken by the researcher

 

Video documentation

MP4

 

Work.vid.

Produced by the participants

Survey – questionnaire

Survey data

MS Excel & PDF

 

Surv.

Open questionnaire model, link

Document study

Archive

PDF, ZIP, or JPEG

 

Arch.

Archives gathered from relevant sources,

Scoping survey

 

Articles, text

PDF

 

Scop.surv

List of selected articles

Fieldwork

 

Notes, memos

doc

 

Notes

Linked to relevant type

 

 

 

Väga oluline on failide nimetamist ja organiseerimist kirjeldada README failis. See on tekstifail, mis annab infot teiste failide kohta ning aitab tagada ühtse arusaama andmete kohta kõigi kasutajate vahel. Kasu toob see kindlasti nii uurijale endale, kes ehk mõne aja möödudes oma kogutud andmed taas töösse rakendada soovib, kui ka teistele, kes uurimisandmeid kasutada tahavad.  

README fail salvestatakse .txt või .md faililaiendiga ning laetakse üles koos andmefailidega. 

Pealkirjasta README fail alati ja ainult kui README nii inglise- kui ka eestikeelses versioonis (mitte readme, read_me, about, LOEMIND vms)! 

README fail võiks koosneda järgmistest jaotusest ning sisaldada infot: 

  • Sissejuhatav info 

    • Andmekogu pealkiri 
    • Lühike kirjeldus millised failid millist infot sisaldavad 
    • Kes on andmekogu sihtrühm ning kellele võivad need andmed kasulikuks osutuda 
  • Metodoloogiline ülevaade 

    • Andmete kogumisel ja genereerimisel kasutatud meetodite kirjeldus. Samuti andmete töötlemise meetodite ülevaade, kui tegemist on muude kui toorandmetega.  
  • Andmespetsiifiline informatsioon 

    • Tabeliveergude pealkirjade defineerimine (sh lühendite tähendus) 
    • Kasutatud mõõtühikud 
    • Sümbolite või muude märgistuste kirjeldus puuduvate andmete väljadel 
    • Spetsiifiliste vormingute või lühendite selgitamine 
  • Jagamise ja ligipääsetavusega seotud teave 

    • Andmetega seotud litsentsid või piirangud 

Näide, mida README fail võiks veel sisaldada:

PDF icon Guidelines for creating a README file

Kirjastaja poolne vaade README failidele, miks need on vajalikud + veel nõuandeid hea README faili koostamiseks: 
For authors: Creating a README for rapid data publication (18.10.2023)