1. Johdanto (kuka tekee?)

esim. miten organisaatiot keräävät dataa, datan määritelmä, näissä yhteyksissä syntyy dataan (esim. tutkimushankkeet, TKI-hankkeet - oma kappale TKI-hankkeille)


TKI-hankkeiden data-aineistot ovat niitä keskeisiä aineistoja joihin hankkeen tuotokset perustuvat. Data-aineistojen tulisi olla tallennettuina pitkäaikaissäilytyksen mahdollistavaan tallennuspaikkaan (data-arkisto, tietokanta) ja niillä tulisi olla pysyvä tunniste PID. 

2. Organisaation järjestelmään hyväksyttävä data

2.1 Datan tunnistaminen (ehdotus: pitäisikö tämän olla kohdassa 2. ensimmäisenä kohtana, kokouksessa tätä ehdotettiin johdantoon)

Tutkimusdata voi ilmetä monessa muodossa. Yhden henkilön työ voi olla toisen henkilön tutkimusdata. Data voi sisältää liikkuvaa kuvaa, numeerista dataa, kuvia, nuottikirjoituksia, äänitallenteita, haastattelujen litterointeja, kokeellisten tutkimusten tuloksia, ohjelmointikoodi, tietokantoja, laboratoriomuistikirjoja  ja paljo muuta. Tässä ohjeessa on jaoteltu datatyypit sen mukaan, minkälaisissa muodoissa ne esiintyvät. Huom! On tärkeää huomioida, että datatyyppien määrittely ja luokittelu voi vaihdella tutkimusalueen, käyttötarkoituksen ja kontekstin mukaan. Sama tieto voi ilmetä niin numeerisena kuin visuaalisena datana riippuen siitä, miten sitä käsitellään ja esitetään. Samalla pitää myös erottaa raakadata ja sen esitystapa. Esimerkiksi visuaalinen raakadata voidaan tulkita dataksi, kun taas numeerista raakadatasta johdettu kuvaaja tai kaavio ei yleensä ole dataa itsessään, vaan pikemminkin visuaalinen esitystapa datalle. Lisäksi samassa datasetissä voi olla dataa monenlaisessa eri muodossa, esimerkiksi sekä visuaalista että numeerista dataa. 

2.1.1 Numeerinen data

Tieto, joka on esitetty numeroina ja jota voidaan käyttää kvantitatiivisessa analyysissä.

  • Tilastolliset mittaukset, laitteiden mittaustulokset, geospatiaalinen informaatio, taulukkolaskelmat.
  • Yleiset formaattimuodot: Stata, SPSS, Excel, GIS.

2.1.2 Tekstidata

Tekstimuotoinen data on yleensä dokumentteja, jotka koostuvat sanoista, lauseista tai vapaamuotoisista tekstikappaleista:

  • Avoimia vastauksia kyselyissä, tutkimusraportteja, blogeja, sosiaalisen median aineistoja, päiväkirjoja, kenttäkirjoja, proteiini- tai geenisekvenssejä tai muita tekstipohjaisia sisältöjä.
  • Yleiset formaattimuodot: PDF, Word, HTML, XML tai tekstitiedosto.

2.1.3 Visuaalinen data

Visuaalista dataa ovat sellaiset tiedostot ja aineistot, jotka välittävät informaatiota visuaalisesti. (Huom! Visuaaliseksi dataksi ei lasketa raakadatasta johdettuja visuaalisia esityksiä, kuten infografiikkaa.) Visuaalisen datan esimerkkejä ovat:

  • Kuvat, kuten valokuvat ja piirustukset, videot, äänitteet (haastattelut), sekamedia (yhdistelmät teksti-, numeerisista tiedoista, videoista ja äänistä.), kartat
  • Yleiset formaattimuodot: jpeg, png, tiff, mp3, wav, mpeg, quicktime

2.1.4 Koodit ja ohjelmistot

  • Tutkimusohjelmistot: Kehitetyt työkalut tai sovellukset, joita käytetään datan analysointiin, simulointeihin, mallintamiseen jne.

  • Koodi: Sisältää ohjelmointiskriptit, algoritmit ja räätälöidyt ohjelmistot

  • Yleiset formaattimuodot: Python, Java, Stata, SPSS, R, MATLAB
2.1.5 Tutkimusalakohtaiset 

Esimerkkejä tutkimusalakohtaisesta datasta ovat:

  • Joustava kuvansiirtosysteemi (FITS) [Tähtitiede]
  • Sekvenssi (FASTQ) [Bioinformatiikka]
  • Kristallografiadata (CIF) [Kemia]
  • Rakenteellisesti kuvaillut säätiedostot (GRIB) [Meteorologia]
2.1.6 Artikkelin liitteenä oleva data (ns. Supplementary material) (siirretty tähän lukuun 22.4.2024 kokouksen ehdotuksen perusteella) 
  • Tutkimusjulkaisun (usein vertaisarvioidun) liitteenä julkaistu data, joka on artikkelista erillinen julkaisu (ns. supplementary material). Tarvittaessa voidaan datan tunnistamisessa voidaan hyödyntää julkaisun Data Availability Statement:in (DAS) tietoja.
  • Ne voidaan hyväksyä tallennettaviksi, jos ne täyttävät seuraavat vaatimukset:
    • Niillä oma yksilöivä pysyvä tunniste
    • Täyttävät datan määritelmän
    • Data on saatavilla artikkelin liitteenä. .

Huom! Tutkimusjulkaisujen liitteissä on kuitenkin usein monenlaista sisältöä, kuten datasta johdettuja tilastollisia koonteja joten ne on arvioitava tapauskohtaisesti. 


2.2 Datan tekijyys

Datan tekijyyteen voidaan soveltaa opetus- ja kulttuuriministeriön julkaisutiedonkeruun julkaisun tekijyyttä koskevaa ohjeistusta (3.2.2.7). Pääsääntönä on, että

  1. tiedonkeruun kohteena olevan datan tulee pohjautua tekijöiden tutkimus- tai asiantuntijatyöhön, ja
  2. datan tekijöillä ja tutkimus- ja asiantuntijatyöllä tulee olla yhteys raportoivaan organisaatioon.  

Tarkennuksia ja erityistapauksia:

  • Tekijöiden roolit: Data voidaan hyväksyä organisaation dataksi myös tapauksessa, jossa organisaation ainoa tekijä on toiminut supervisor-roolissa. Tällaisissa tapauksissa on tehtävä selväksi missä suhteessa data on organisaatioon, eli tekijän rooli (esim. creator, supervisor). Tarvittaessa tarkennusta voi kysyä tutkijalta. Esimerkki: https://zenodo.org/doi/10.5281/zenodo.10407222
  • Yhteisötekijyys: Datasettiin voidaan merkitä yhteisötekijäksi organisaatio, jos yksittäisiä tekijöitä ei ole mahdollista yksilöidä. Eräissä repositorioissa (esim. NIMH ja SRA) tekijöiltä voi puuttua affiliaatio tai tekijänä on organisaatio ilman tekijöitä. Myös Metax hyväksyy tekijäksi organisaation.
  • Nimimerkit: Erityisesti ohjelmistoissa tekijöiden joukossa saattaa olla nimimerkkejä. Jos nimimerkin haltijan oikeaa nimeä ei pystytä selvittämään, organisaatio voi ratkaista ottaako se nimimerkin järjestelmäänsä vai poistaako sen. 
  • Tekijyys tapauksissa, joissa tekijöitä on suuri määrä: Esimerkiksi CERNin dataseteissä saattaa olla yli 1000 tekijää. Näitä voi hyväksyä organisaation dataseteiksi? 
  • Jatkossa pohdittavaksi: Mikä voisi olla yhteismitallinen tapa ilmaista se, että tekijää ei tunneta? (Tämän voisi laittaa seuraavan kokouksen asialistalle)

2.3 Pysyvät tunnisteet

Datasetillä tai datasetin metadatalla tulee olla oma yksilöllinen pysyvä tunniste (PID). PIDit ovat olennaisia tutkimusdatan saavutettavuuden ja FAIR-periaatteiden noudattamisen kannalta. PIDin avulla data on löydettävissä, vaikka se siirrettäisiin toiseen sijaintiin. Ne helpottavat datan ja metatietojen löydettävyyttä sekä yhteyksien luomista tutkimusdatan, siihen liittyvien julkaisujen ja tekijöiden välillä.

PIDin avulla myös helpotetaan samankaltaisten tietueiden tunnistamista data-arkistoissa tai katalogeissa, sekä erotetaan datasetin eri versiot toisistaan. 

Datasetissä ei pitäisi käyttää samaa PIDiä kuin siihen liittyvässä artikkelissa, koska se voi aiheuttaa ongelmia, jos samaa dataa halutaan hyödyntää uudestaan eri tarkoituksiin. Yksilöllisen PID:n käyttäminen mahdollistaa kaikkien kyseiseen dataan liittyvien artikkelien yhdistämisen ja viittausdatan keräämisen siten, että jokainen artikkeli voidaan tunnistaa ja liittää oikein siihen liittyvään datasettiin.

Pysyviä tunnisteita

  1. DOI (Digital Object Identifier)
  2. URN (Uniform Resource Number)
  3. Handle

Halutaanko tässä kohdassa mainita vielä esim. DOI ei aina takaa, että kyseessä on datasetti. Esim. Harvardin Dataverse: datasetin tiedostot ovat erillisiä tietueita, joilla kaikilla on oma DOI. https://dataverse.harvard.edu/dataset.xhtml?persistentId=doi:10.7910/DVN/2SH38F ; Mille kaikelle annetaan pysyvä tunniste? Haaste niille, jotka antavat pysyviä tunnisteita: miten voisi olla ratkaistavissa? 

Huom! Metax-integraatioon tarvitaan pysyvä tunniste. 

2.4 Versiot

Datasta tulisi pyrkiä tallentamaan tallennushetkellä viimeisimmän version tiedot. Vain yhden version tiedot raportoidaan järjestelmässä, vaikka eri versiot ovat usein yksilöitynä omilla pysyvillä tunnisteillaan mikäli ne ovat riittävän erilaiset. On myös mahdollista käyttää tunnistetta joka viittaa aina aineiston uusimpaan versioon, mikäli lähdetietokanta sen mahdollistaa. On huomionarvoista, että kuvailutiedoissa voi olla eroja versioiden välillä (esim. ohjelmistoversioiden otsikot). Mikäli versiotieto halutaan kirjata, se on suositeltavinta esittää kuvailutiedoissa viittauksena edelliseen versioon.

2.5 Datasetit (dataperheet) - pidetäänkö molemmat?

Datasetillä tai dataperheellä tarkoitetaan kokonaisuutta, johon voi kuulua useita tiedostoja, jotka sisältävät dataa ja siihen liitettyä dokumentaatiota. Sekä päätietueella että siihen kuuluvilla tiedostoilla voi olla omat pysyvät tunnisteensa. On suositeltavaa tallentaa vain niiden yhteinen tunniste (päätietue), mikäli sellainen on. Yhteys voi myös muodostua datatiedostojen välille kuvailutiedoissa esitettyjen viittausten perusteella, mutta relaatiomuotoinen viittaus voi myös puuttua vaikka yhteys olisikin olemassa. Tällöin tallennetaan niiden tiedostojen tunnisteet, jotka täyttävät datan määritelmän. Tällaisia ovat esimerkiksi julkaisujen ns. supplementary-tiedostot (ks. 2.5 "Supplementary data").

Esimerkki dataperheestä Figsharessa: http://www.doi.org/10.6084/m9.figshare.c.6208081.v1

(Ovatko dataperheet ja osajulkaisu kaksi eri asiaa vai sama asia? Kaksi eri asiaa)

2.6 Datan osajulkaisu

Datan osajulkaisu on datakokonaisuuden pienempi yksittäinen osa jolle on selkeästi määriteltävissä emojulkaisu eli emodata. Osajulkaisujen tietoja ei pääsääntöisesti tallenneta erikseen vaan niistä liitetään maininta emodatan tietoihin.

Osajulkaisun tiedot voidaan kuitenkin tallentaa tarvittaessa erillisinä tietoina seuraavien kriteerien täyttyessä:

  1. Osajulkaisun tulee olla merkittävä ja itsenäinen osa datakokonaisuutta.
  2. Osajulkaisulla tulee olla pysyvä tunniste PID (doi, urn, handle). PID ei yksin riitä tietojen tallennuksen perusteeksi (huomio kohta 1.).
  3. Emodatan tiedot (nimi, PID) on kirjattava osajulkaisun tietoihin ja osajulkaisun tiedot vastaavasti emojulkaisun tietoihin.

Esimerkkejä osajulkaisusta:

(Ovatko dataperheet ja osajulkaisu kaksi eri asiaa vai sama asia? Kaksi eri asiaa)

3. Tietueiden minimitiedot (työn alla: Kaisa)

(Metaxin vaatimukset, FAIR, organisaation omat linjaukset, Ohje tutkimusaineistojen kuvailuun → kohta kuvailun peruselementtejä (vasta luonnos)...)

4. Julkaisija (työn alla: Päivi)

Mikä on julkaisija/lähderepo

Tutkimusaineistojen kuvailuohjetyöryhmän määritelmä: "Nimeä toimija, jolla on oikeus julkaista pelkät metatiedot TAI metatiedot ja data TAi metatiedot ja datan dokumentaatio: esimerkiksi repositorio, arkisto tai tutkimusorganisaatio. Organisaation nimen lisäksi on hyvä käyttää organisaation koodia."

Huom! Organisaation repositorio voi toimia julkaisijana vaikka organisaatio ei olisi aineiston tekijä.

5. Julkaisuvuosi (ehdotus: Julkaisupäivämäärä) (työn alla: Eeva)

(Ei jätettäväksi ohjeeseen: Julkaisutiedonkeruun ohjeen 3.2.2.12 Julkaisuvuosi määritelmä ei mielestäni ole relevantti datan osalta, mitä mieltä olette?)

Julkaisupäivämääräksi merkitään se päivä, jolloin data/aineisto tai sen metatiedot on julkaistu. Karttuvissa dataseteissä julkaisupäivämääräksi voidaan merkitä päivämäärä, jolloin data/aineisto on julkaistu ensimmäisen kerran (tämä on Aallon käytäntö, merkitäänkö asiaksi johon tarvitaan keskustelua?).

6. Avoin saatavuus (ehdotus: Datan saatavuustiedot) (työn alla: Laura)

Metadatassa tulisi olla selkeästi määritelty datan saatavuustiedot, jotka kuvaavat, miten muut käyttäjät voivat päästä käsiksi tietoaineistoon. Data-repositoriossa tarjotaan erilaisia saatavuuden asteita, joista yleisimmät ovat seuraavat:

Avoin pääsy dataan (open)Tarkoittaa, että kuka tahansa saa käyttää, uudelleenkäyttää ja jakaa dataa vapaasti
Data saatavilla embargon jälkeen (embargoed)Tarkoittaa, että data on saatavilla tietyn päivämäärän jälkeen
Rajoitettu pääsy/Luvanvarainen käyttö (restricted)Tarkoittaa, että dataa jaetaan tietyin ehdon. Uudelleenkäyttäjän on pyydettävä käyttöoikeuta, ja tietoaineiston tuottaja sallii tai evää pääsyn.
Suljettu pääsy dataan (closed)Tarkoittaa, että käyttäjillä ei ole pääsyä dataan.

(Taulukon lähde: https://www.aalto.fi/fi/palvelut/tutkimusdatan-dokumentointi-kansioiden-organisointi-ja-data-arkistojen-metadata)

Datan saatavuudesta voi löytää tietoja myös dataan liittyvän artikkelin "Data availability statement" (DAS)-kohdasta, joka löytyy usein artikkelien lopusta.

7. Datasettien relaatiot (kuka tekee?)


Lähteitä:

  • No labels