1. Johdanto (ES)

Organisaatiot tuottavat ja hyödyntävät dataa useissa eri yhteyksissä, mutta erityisesti tutkimus- ja TKI-hankkeissa. Sekä tutkimus- että TKI-hankkeissa data on lyhyesti sanottuna aineistoa, johon tuotokset perustuvat. Ihanteena on, että aineistot tallennetaan pitkäaikaissäilytyksen mahdollistavaan tallennuspaikkaan (data-arkisto, tietokanta), ja että niillä on pysyvä tunniste (PID).

Viime vuosina yhä useammat organisaatiot ovat alkaneet kerätä tietoja organisaation henkilöstön tuottamasta datasta. Tiedonkeruun tarpeen taustalla on muun muassa organisaatioiden sisäinen kiinnostus tuotettujen aineistojen määrään ja rahoitusehtojen mukaisuuteen, tutkijan vastuulliseen arviointiin liittyvä pyrkimys huomioida tutkimustuotosten moninaisuus ja avoimen tieteen ja tutkimuksen seurannan indikaattorit.

Datan tiedonkeruuta on vauhdittanut myös työkalujen kehitys. Tutkimusaineistojen metatietoja haravoidaan tällä hetkellä ainakin Tampereen ja Oulun yliopistoissa sekä Aalto-yliopistossa. Jyväskylän yliopistossa on rakennettu omat haravointityökalut, jotka käyvät läpi esimerkiksi organisaation artikkelien dataviittaukset ja DataCiten DOI:t. Monien organisaatioiden tutkimusaineistojen metatietoja tuodaan organisaatioiden omista järjestelmistä myös kansalliseen Tiedejatutkimus.fi-portaaliin.

OKM:n julkaisutiedonkeruulla on pitkät perinteet ja vakiintunut ohjeistus, mutta datatiedonkeruulta vastaava ohje on toistaiseksi puuttunut. Syksyllä 2023 FinnARMA-verkostoon perustettu datatiedonkeruun yhteistyöryhmä käynnisti kansallisen ohjeen valmistelun. Yhteiselle ohjeistukselle nähtiin olevan tarvetta, sillä muun muassa datan määritelmät, jakaantuminen alatietueisiin ja eri versiot asettavat tiedonkeruulle haasteita, jotka eroavat julkaisutiedonkeruusta. Ohjeistuksessa on hyödynnetty soveltuvin osin julkaisutiedonkeruun ohjeistuksia ja avoimen tieteen koordinaation piirissä laadittua tutkimusaineistojen kuvailuohjetta. Lisäksi on kirjattu ylös datatiedonkeruun yhteistyöryhmän kokouksissa sovittuja käytäntöjä.

Keskeisiä käsitteitä: 

  • Tutkimusaineisto/aineisto/data = Tieteellisessä tutkimuksessa tuotettu tai tutkimusprosessin aikana käytetty resurssi, johon tutkimuksen löydökset ja tulokset perustuvat (Tieteen termipankki: tutkimusaineisto)
  • Metatieto = Metatiedot ovat tietoja tutkimusaineistosta. Niissä esitetään tavallisesti aineiston nimen ja yleiskuvauksen lisäksi avain- ja asiasanat, keräämiseen osallistuneet henkilöt tai organisaatiot, aineiston julkaisuajankohta sekä versiohistoria, ja tiedot aineiston avoimuudesta ja käyttöoikeuksista. (Tieteen termipankki: metatietoTutkimusaineistojen kuvailuohje)

2. Organisaation järjestelmään hyväksyttävä data

Suosituksena on, että organisaation järjestelmään hyväksytään vain dataa, jonka metatiedot asiantuntija on validoinut. Metatietojen/datan validoinnista kertova attribuutti datan yhteydessä lisäisi metatietojen/datan arvoa ja käytettävyyttä, mutta toistaiseksi tällaiselle tiedolle ei välttämättä ole tietojärjestelmissä sopivaa paikkaa.

Seuraavissa alaluvuissa käydään tarkemmin lävitse organisaation järjestelmään hyväksyttävän datan kriteereitä. Tutkimusdatan määritelmää käsitellään luvussa 2.1, pysyviä tunnisteita luvuissa 2.2 ja tekijyyttä luvussa 2.3. Luvuissa 2.4-2.7 pohditaan version, datasetin ja osajulkaisun käsitteitä ja niiden välisiä suhteita. (ES)

2.1 Datan tunnistaminen (LM)

Tutkimusdata voidaan määritellä kaikiksi niiksi aineistoiksi, joita tarvitaan tutkimuksen tulosten perustelemiseen ja toistamiseen. 

Käytännössä tämä voi tarkoittaa mitä tahansa aineistoa, jota käytetään tutkimustarkoituksessa. Tutkimusdata voi ilmetä monissa eri muodoissa, kuten liikkuvana kuvana, numeerisena datana, kuvina, nuottikirjoituksina, äänitallenteina, haastattelujen litterointeina, kokeellisten tutkimusten tuloksina, ohjelmointikoodina, tietokantoina tai laboratoriomuistikirjoina.

Datan käyttö raportoinnissa edellyttää seuraavia vaatimuksia:

  1. Datalle on oltava oma yksilöivä ja pysyvä tunniste. (Huom! Katso kohta 2.2)
  2. Data täyttää tutkimusdatan määritelmän eli voidaan käyttää tutkimustulosten todentamiseksi.

2.2 Pysyvät tunnisteet (LM)

Datasetillä tai datasetin metatiedoilla tulee olla oma yksilöllinen pysyvä tunniste (PID):

  • PIDit ovat olennaisia tutkimusdatan saavutettavuuden ja FAIR-periaatteiden noudattamisen kannalta.
  • PIDien avulla voidaan varmistaa, että digitaalinen sisältö pysyy helposti tunnistettavana ja löydettävänä vaikka sen verkkosijainti tai muut yksityiskohdat muuttuisivat ajan myötä. Ne helpottavat datan ja metatietojen löydettävyyttä sekä yhteyksien luomista tutkimusdatan, siihen liittyvien julkaisujen ja tekijöiden välillä.
  • PIDin avulla helpotetaan samankaltaisten tietueiden tunnistamista data-arkistoissa tai katalogeissa, sekä erotetaan datasetin eri versiot toisistaan. 

Kun rekisteröidään dataa organisaatiolle, niin suositeltavaa on käyttää joko viimeisimmän version pysyvää tunnistetta tai tunnistetta, joka edustaa kaikkia versioita (nk. mastertunniste, esim. Zenodon master-DOI), mikälsi sellainen on repositoriossa käytössä.

Datasetissä ei pitäisi käyttää samaa PIDiä kuin siihen liittyvässä artikkelissa, koska se voi aiheuttaa ongelmia, jos samaa dataa halutaan hyödyntää uudestaan eri tarkoituksiin. Yksilöllisen PID:n käyttäminen mahdollistaa kaikkien kyseiseen dataan liittyvien artikkelien yhdistämisen ja viittausdatan keräämisen siten, että jokainen artikkeli voidaan tunnistaa ja liittää oikein siihen liittyvään datasettiin.

Datalle on tärkeää käyttää juuri datalle tarkoitettuja pysyviä tunnisteita, sillä ne on suunniteltu kattamaan nimenomaan datan erityispiirteet ja tarpeet, esim. DataCiten DOI-tunnisteet on optimoitu tukemaan tutkimusdatan pitkän aikavälin saavutettavuutta, hallintaa ja viittaamista. 

Pysyvä tunniste ei aina takaa, että kyseessä on datasetti. Esim. Harvardin Dataverse: datasetin tiedostot ovat erillisiä tietueita, joilla kaikilla on oma DOI. https://dataverse.harvard.edu/dataset.xhtml?persistentId=doi:10.7910/DVN/2SH38F.

Pysyviä tunnisteita datalle:

DOI (Digital Object Identifier)

DOI järjestelmä käyttää taustarakenteena Handle-järjestelmää. DOI-järjestelmä on suunniteltu erityisesti tieteellisten julkaisujen ja tutkimusaineistojen tunnistamiseen, mutta esimerkiksi CrossRef myöntää DOI-tunnuksia myös projekteille.  

URN (Uniform Resource Name)

Standarditunnus, joka toimii stabiilina viittauksena URL-osoitteille (Uniform Resource Locator). URN-tunnukset ovat osa Uniform Resource Identifier (URI) -järjestelmää. Esimerkiksi Kansalliskirjasto käyttää URN-tunnisteita digitaalisten resurssien identifiointiin. URN-tunnusten käyttöön ei liity lisenssimaksuja, mutta URN-rekisteröintiviranomaisen on luotava tunnusten jakamiseen ja ratkaisemiseen tarvittava infrastruktuuri. Huom! Pelkkä URN ei riitä Metax-tiedonsiirrossa, vaan pitää olla URI-muodossa (eli URL).

Handle (HNDL)

Handle on yleiskäyttöinen tunnistusjärjestelmä, joka toimii pääasiassa taustarakenteena tunnistejärjestelmille, kuten DOI-järjestelmälle, mutta sitä voidaan myös käyttää itsenäisenä tunnistejärjestelmänä. Handle-tunnisteet ovat monipuolisia ja niitä voidaan käyttää laajemmalle aineistoille kuin datalle. 

ARK Archival Resource Key

Tunnistejärjestelmä, joka on suunniteltu erityisesti arkistoille, kirjastoille ja museoille. ARK tarjoaa joustavan tavan viitata resursseihin, jotka voivat muuttua tai saada uusia versioita ajan mittaan. ARK mahdollistaa myös pääsyn eri palveluihin, kuten metatietoihin ja käyttöpolitiikkoihin.

SWHID Software Heritage Identifier

SWHID on Software Heritage -projektin tarjoama pysyvä tunniste ohjelmistoille. Se on ainutlaatuinen tunnus, joka yhdistää tietyn ohjelmistoprojektin ja sen version.

2.3 Datan tekijyys (ES)

Datan tekijyyteen voidaan soveltaa opetus- ja kulttuuriministeriön julkaisutiedonkeruun julkaisun tekijyyttä koskevaa ohjeistusta (3.2.2.7). Pääsääntönä on, että

  1. tiedonkeruun kohteena olevan datan tulee pohjautua tekijöiden tutkimus- tai asiantuntijatyöhön, ja
  2. datan tekijöillä ja tutkimus- ja asiantuntijatyöllä tulee olla yhteys raportoivaan organisaatioon.  

Tarkennuksia ja erityistapauksia:

  • Tekijöiden roolit: Data voidaan hyväksyä organisaation dataksi myös tapauksessa, jossa organisaation ainoa tekijä on toiminut supervisor-roolissa. Tällaisissa tapauksissa on tehtävä selväksi missä suhteessa data on organisaatioon, eli tekijän rooli (esim. creator, supervisor). Tarvittaessa tarkennusta voi kysyä tutkijalta. Esimerkki: https://zenodo.org/doi/10.5281/zenodo.10407222
  • Yhteisötekijyys: Datasettiin voidaan merkitä yhteisötekijäksi organisaatio, jos yksittäisiä tekijöitä ei ole mahdollista yksilöidä. Eräissä repositorioissa (esim. NIMH ja SRA) tekijöiltä voi puuttua affiliaatio tai tekijänä on organisaatio ilman tekijöitä. Myös Metax hyväksyy tekijäksi organisaation.
  • Nimimerkit: Erityisesti ohjelmistoissa tekijöiden joukossa saattaa olla nimimerkkejä. Jos nimimerkin haltijan oikeaa nimeä ei pystytä selvittämään, organisaatio voi ratkaista ottaako se nimimerkin järjestelmäänsä vai poistaako sen. 
  • Tekijyys tapauksissa, joissa tekijöitä on suuri määrä: Esimerkiksi CERNin dataseteissä saattaa olla yli 1000 tekijää. Nämä voi hyväksyä organisaation dataseteiksi. Tällä hetkellä dataan liittyviä metatietoja pääasiallisesti importoidaan, jolloin tekijätietoja ei tarvitse lisätä käsin. Jos tarvetta suuren tekijäjoukon käsin lisäämiseen tulee, on tekijöiden merkitsemiseen liittyvistä käytännöistä sovittava tarkemmin (esim. kuinka monta tekijää merkitään). Jos suuria tekijämääriä on tarpeen lisätä Qvaimessa, käytännön toteutuksesta voi keskustella CSC:n kanssa. 
  • Datan kerääjä (esim. laborantti) ei aina välttämättä osallistu julkaisun kirjoittamiseen. 

2.4 Versiot (PL)

Datasta tulisi pyrkiä tallentamaan tallennushetkellä viimeisimmän version tiedot. Vain yhden version tiedot raportoidaan järjestelmässä, vaikka eri versiot ovat usein yksilöitynä omilla pysyvillä tunnisteillaan mikäli ne ovat riittävän erilaiset. On myös mahdollista käyttää tunnistetta joka viittaa aina aineiston uusimpaan versioon, mikäli lähdetietokanta sen mahdollistaa. On huomionarvoista, että kuvailutiedoissa voi olla eroja versioiden välillä (esim. ohjelmistoversioiden otsikot). Mikäli versiotieto halutaan kirjata, se on suositeltavinta esittää kuvailutiedoissa viittauksena edelliseen versioon. Mikäli kyseessä on kumulatiivinen data tai elävä tietokanta, tietylle aikavälille rajattu osuus voidaan tulkita datan osajulkaisuksi, eikä versioksi (ks. kohta 2.6 ja 2.7.).

2.5 Datasetit (PL)

Datasetti on itsenäinen, merkityksellinen aineistokokonaisuus, joka voi koostua yhdestä tai useasta tiedostosta/osasta. Kokonaisuuteen voi sisältyä dataa ja siihen liitettyä dokumentaatiota. Sekä datasetin ns. päätietueella että siihen kuuluvilla tiedostoilla voi olla omat pysyvät tunnisteensa. Tällöin on suositeltavaa tallentaa vain päätietueen tunniste, mikäli sellainen on. Datatiedostojen välinen yhteys esitetään kuvailutiedoissa viittausten eli relaatioiden avulla (ks. luku 7). Relaatiomuotoinen viittaus voi myös puuttua datasetin osien väliltä vaikka yhteys olisikin olemassa, esimerkiksi silloin, kun data on jaettu julkaisujen ns. supplementary-tiedostoissa. Tällöin myös ns. päätietue voi puuttua. Tällöin tallennetaan niiden datasettiin kuuluvien yksittäisten tiedostojen tunnisteet, jotka täyttävät datan määritelmän (luku 2.1.).

Esimerkkejä dataseteistä Figsharessa: https://doi.org/10.6084/m9.figshare.c.7173634.v1, https://doi.org/10.6084/m9.figshare.c.6915266.v1 

 

2.6 Datan osajulkaisu (KK)

Datan osajulkaisu on datakokonaisuuden pienempi yksittäinen osa jolle on selkeästi määriteltävissä emojulkaisu eli emodata. Osajulkaisujen tietoja ei pääsääntöisesti tallenneta erikseen vaan niistä liitetään maininta emodatan tietoihin.

Osajulkaisun tiedot voidaan kuitenkin tallentaa tarvittaessa erillisinä tietueina seuraavien kriteerien täyttyessä:

  1. Osajulkaisun tulee olla merkittävä ja itsenäinen osa datakokonaisuutta.
  2. Osajulkaisulla tulee olla pysyvä tunniste PID (doi, urn, handle). PID ei yksin riitä tietojen tallennuksen perusteeksi (huomio kohta 1.).
  3. Emodatan tiedot (nimi, PID) on kirjattava osajulkaisun tietoihin ja osajulkaisun tiedot vastaavasti emojulkaisun tietoihin.

Esimerkkejä osajulkaisusta:

 

2.7 Versio, datasetti vai osajulkaisu? (JM)

Lähtökohtaisesti versiolla tarkoitetaan päivitettyä (jollain tavalla muutettua) versiota jo julkaistusta datasetistä. Esimerkiksi Zenodossa versiot on toteutettu niin, että uusi aineisto saa aina kaksi DOI:ta, joista toinen on ns. master-DOI, joka viittaa aina datasetin uusimpaan versioon ja toinen on versio-DOI, joka viittaa datasetin tiettyyn versioon. Näin kyetään tunnistamaan yksittäiset versiot, mutta myös viittaamaan aina tarvittaessa datasetin uusimpaan versioon. Versioiden suhteen merkityksellistä on, että tutkimuksellisesti relevanttina pidetään aina uusinta versiota, mutta julkaisuissa pitää pystyä viittaamaan tiettyyn versioon tulosten todentamiseksi.

Harmaalle alueelle päädytään kertyvien aineistojen ja niin sanottujen aineistojen tilannekuvien (snapshot) kanssa. On mahdollista tulkita kertyvän aineiston eri ajankohtina tallennetut kokonaisuudet versioiksi. On kuitenkin yhtäältä mahdollista datasetin luonne huomioiden, että kyse on itsenäisistä tilannekuvista tietyllä ajanhetkellä. Esimerkiksi tietokannoista voi olla arvokasta tutkimuksellisesti tietää, miltä elävä tietokanta on tietyllä ajanhetkellä näyttänyt, jolloin kyse on selvästi itsenäisestä tilannekuvasta, joka täyttää datan osajulkaisun ehdot, eikä vain versiosta. Tällaisissakin tapauksissa tilannekuvat tulisi kytkeä koko tietokannan kuvaavaan emoaineistoon.

Esimerkki tilannekuvista muodostuvasta aineistosta sekä emoaineistokuvailusta:

Datasetti on puolestaan itsenäinen kokonaisuutensa, joka voi koostua useista eri tiedostoista. Datasetistä voi olla versioita, se voi sisältää osajulkaisuja tai olla itse osajulkaisu. Datasetin ero osajulkaisuun on, että datasetti on tapa esittää datajoukko ja koota se yhteen, kun emojulkaisu koostuu erillisistä, itsenäisemmistä dataseteistä.

Datan julkaisun tavat ovat vielä kirjavia ja riippuvat paljon yksittäisen julkaisualustan käytänteistä, miten se kykenee esittämään aineistojen suhteita, niiden osituksia ja mahdollisia versioita. Teknisistä rajoitteista johtuen jotkut julkaisualustoista saattavat esittää versiot ala-aineistoina tai tarjota vain yhden DOIn koko datasetille, vaikka se koostuisi useista osista.

Mikäli dataan sisältyy koodia, on versiointi erityisen tärkeässä roolissa. Koodin versiointiin suositellaan siihen erikseen tarkoitettuja työkaluja, esim. Git-ympäristöjä (esimerkiksi https://github.com/ tai organisaation oma vastaava palvelu, esim. https://gitlab.jyu.fi/).


3. Tietueiden minimitiedot (KK)

Minimitiedot ovat niitä tietoja joita tutkimusaineiston metatietoihin julkaisuarkistossa tai metatietotietokannassa tulisi aina olla tallenettuna. Minimitiedot varmistavat aineiston ja/tai sen metatietojen löydettävyyden sekä tietojen siirtymisen kansalliseen metatietovarantoon.

KuvailutietoSisältö

Nimi/otsikko

Aineiston nimi tai otsikko.

Tekijä

Aineiston tekijä/tuottaja. On yleensä henkilö, joissain tapauksessa myös organisaatio (yhteisötekijä). ks. Luku 2.3. Nimen lisäksi on hyvä käyttää tutkijatunnistetta (ORCID).

Tekijän affiliaatio

Tekijän organisaatio. Organisaatio on se jonka piirissä ja resursseilla aineisto on tuotettu. Organisaation nimen lisäksi on hyvä käyttää organisaation tunnusta.

Tekijän rooli

Määrittele millainen rooli tekijällä on ollut aineistoa tuotettaessa. Rooleja voivat olla esimerkiksi Creator, Contributor, Data Collector tai Supervisor. 

Julkaisija

Toimija, joka on julkaissut metatiedot ja/tai aineiston. Toimijoita voivat olla esim. repositorio, arkisto tai tutkimusorganisaatio. Ei yksittäinen henkilö. Katso luku 4. Jos julkaisija on organisaatio, on hyvä käyttää nimen lisäksi organisaation tunnusta.

Julkaisupäivämäärä

Päivämäärä jolloin aineisto on julkaistu/asetettu saataville julkaisijan toimesta. Ks. luku 5.

Kuvaus

Aineiston sisällön kuvaus. 

Tieteenala

Aineiston tieteenala. Katso: OKM:n tieteenalaluokitus.

Avainsanat

Aineiston aihetta kuvailevat sanat.

Saatavuus

Kuinka aineisto on saatavilla. Tieto siitä onko aineisto avoimesti käytössä, liittyykö käyttöön embargo, vaatiiko käyttö kirjautumisen, onko aineistoon pääsyä rajattu vai vaatiiko sen käyttö erillisen luvan. Ks. luku 6.

Perustelu rajoitetulle pääsylle

Perustelu rajoitetulle aineistoon pääsylle. Saatavuutta on voitu rajoittaa esimerkiksi aineistoon liittyvien sopimusten perusteella, luottamuksellisiin henkilötietoihin perustuen tai tekijäoikeuden perusteella. Lisätietoja.

Lisenssi

Lisenssi määrittelee ehdot, joilla aineistoa saa käyttää uudelleen. Lisenssejä ovat esimerkiksi Creative Commons 4.0 -lisenssit sekä GNU- ja MIT-lisenssit. 

Pysyvä tunniste

Yksilöllinen, pysyvä tunniste (PID). Pysyviä tunnisteita ovat DOI, URN ja Handle.

Yhteys muuhun aineistoon

Suhde muihin tutkimusaineistoihin. Tapauksissa jossa aineisto liittyy tiiviisti johonkin toiseen aineistoon.  Aineisto voi olla johdettu toisesta aineistosta (IsBasedOn), voi olla osa toista aineistoa (IsPartOf) tai aineistoon liittyy toisia aineistoja (HasPart). 

Aineistoon liittyvät julkaisut

Ilmoita mahdolliset julkaisut, joilla on yhteys tähän tutkimusaineistoon.

Rahoittaja

Taho, jonka rahoituksella ja resursseilla aineisto on tuotettu. Organisaation nimen lisäksi on hyvä käyttää organisaation tunnusta.

(Katso myös: Metaxin vaatimukset, FAIR-periaatteet, organisaation omat linjaukset, Ohje tutkimusaineistojen kuvailuun)


4. Julkaisija (PL)

Tutkimusaineistojen kuvailuohjetyöryhmä määrittelee julkaisijan seuraavasti: "Nimeä toimija, jolla on oikeus julkaista pelkät metatiedot TAI metatiedot ja data TAi metatiedot ja datan dokumentaatio: esimerkiksi repositorio, arkisto tai tutkimusorganisaatio. Organisaation nimen lisäksi on hyvä käyttää organisaation koodia."

Mikäli metatiedot on julkaistu organisaation repositoriossa, julkaisijana on kyseinen organisaatio. On huomiotava, että organisaation repositorio voi toimia julkaisijana vaikka organisaatio tai siihen affilioitunut tutkija ei olisi aineiston tekijä. Mikäli metatiedot on julkaistu tieteenalakohtaisessa tai monialaisessa repositoriossa (Esim. Tietoarkisto tai Zenodo), julkaisijaksi katsotaan repositorio. Mikäli data on esitetty datajulkaisussa (data-artikkelissa) tai tutkimusjulkaisun liitteenä (supplementary data) kustantajan palvelussa, julkaisijaksi määritellään kustantaja.

Haravoitujen tietueiden tapauksessa julkaisijaksi tulisi merkitä se toimija, joka on merkitty julkaisijaksi alkuperäisessä aineistokuvailussa. Haravoitujen tietueiden tapauksessa ei usein tiedetä mikä yksittäinen organisaatio on vastannut aineiston/metatietojen arkistoon saattamisesta. Mikäli julkaisijatieto puuttuu, julkaisija voidaan tulkita tahoksi joka on alunperin ollut vastuussa aineiston julkaisemisesta lähdepalvelussa. Julkaisijaksi voi myös määritellä myös sen organisaation, joka on päättänyt että aineistokuvailu julkaistaan tietyssä repositoriossa. Metaxissa julkaisijan tulisi olla aineistosta vastuussa oleva organisaatio mutta käytännössä kenttään on mahdollista syöttää myös henkilö.

Vinkki: Jos ihmisluettavissa metatiedoissa ei ole mainittu julkaisijaa, tietoa voi etsiä koneluettavista metatiedoista. Esimerkki 1 (figshare): https://doi.org/10.6084/m9.figshare.27329787.v1 → lataa koneluettavat metatiedot kohdasta Exports ja tarkista Publisher-kenttä. Esimerkki 2 (figshare API): api.datacite.org/dois/10.6084/m9.figshare.c.6586615.v1

5. Julkaisupäivämäärä (ES)

Julkaisupäivämääräksi merkitään se päivä, jolloin data/aineisto on julkaistu ensimmäisen kerran. Jos datasta/aineistosta julkaistaan vain metatiedot tai jos kyseessä on embargollinen data, julkaisupäivämääräksi merkitään se päivä, jolloin metatiedot on julkaistu ensimmäisen kerran. 

6. Datan saatavuustiedot (LM)

Metatiedoissa tulisi olla selkeästi määritelty datan saatavuustiedot, jotka kuvaavat, miten muut käyttäjät voivat päästä käsiksi tietoaineistoon. Datarepositoriossa tarjotaan erilaisia saatavuuden asteita, joista yleisimmät ovat seuraavat: 

Avoin pääsy dataan (open)Tarkoittaa, että kuka tahansa saa käyttää, uudelleenkäyttää ja jakaa dataa vapaasti datan lisenssin määrittelemin ehdoin.
Data saatavilla embargon jälkeen (embargoed)Tarkoittaa, että data on saatavilla tietyn päivämäärän jälkeen
Rajoitettu pääsy/Luvanvarainen käyttö (restricted)Tarkoittaa, että dataa jaetaan tietyin ehdon. Uudelleenkäyttäjän on pyydettävä käyttöoikeutta, ja tietoaineiston omistaja sallii tai evää pääsyn.
Suljettu pääsy dataan (closed)Tarkoittaa, että käyttäjillä ei ole pääsyä dataan.
Ota yhteyttä tutkijaan tai organisaatioon (Contact owner)Tarkoittaa, että datan omistaja sallii tai evää pääsyn.

(Taulukon lähde: https://www.aalto.fi/fi/palvelut/tutkimusdatan-dokumentointi-kansioiden-organisointi-ja-data-arkistojen-metadata)

Metax-integraatiossa pitää olla kerrottuna syy, jos data on ei ole avoimesti saatavilla, data on saataville embargoajan jälkeen tai siihen on rajoitettu pääsy.

Rajoiteperusteluokat: https://koodistot.suomi.fi/codescheme;registryCode=fairdata;schemeCode=restriction_grounds

Datan saatavuudesta voi löytää tietoja myös dataan liittyvän artikkelin "Data availability statement" (DAS)-kohdasta, joka löytyy usein artikkelien lopusta.

7. Datasettien relaatiot (JM)

Dataseteillä voi olla monenlaisia suhteita toisiinsa. Näitä ilmaistaan metatietoihin liittyvissä tietomalleissa erilaisin teknisin ilmaisuin. Esimerkiksi DataCiten metatietoskeema sisältää 36 erilaista relaatiota tietojen/tietueiden/datasettien välisiä suhteita kuvaamaan (https://support.datacite.org/docs/connecting-to-works). Relaatiot ovat tärkeitä tietokantahakujen tekemisen ja relaatioiden yhteisen ymmärtämisen kannalta. Keskeisimpiä relaatioita datatiedonkeruussa ovat:

isPartOf, (ja vastineet muissa skeemoissa) - kuvaa hierarkista suhdetta tietueiden välillä, toisin sanoen A on osa aineistoa B, joka tekee B:stä ns. emoaineiston. 

hasPart (ja vastineet muissa skeemoissa) - kuvaa datasetin koostuvan useista osista, A koostuu aineistosta B, C, D....

isSourceOf/isDerivedFrom - kuvaa datasetin perustuvan toiseen olemassa olevaan datasettiin.

isVersionOf - kertoo tietueen olevan yksi versio kokonaisuudesta. A on aineiston B versio

hasVersion - kuvaa, että aineistosta on eri versioita. Aineisto A:sta on olemassa versio B, C ja D.

isSupplementTo - kuvaa, että aineisto täydentää jotakin toista kokonaisuutta (useimmiten julkaisua).

8. Datatyypit (LM)

Eri datatyypit voivat auttaa tunnistamaan dataa.  Alla on eritelty erilaisia datatyyppejä ja jaottelun perustana ovat datan esitysmuodot (ks. myös PAS:n tiedostomuodot: https://urn.fi/urn:nbn:fi-fe2020100578095). Huomio: Tämä luku sisältää esimerkkejä eikä ole kattava. Jos jokin tapaus ei ole listattu esimerkeissä, se ei tarkoita, etteikö kyseessä olisi data tai tutkimusaineisto (esimerkiksi PDF on mainittu tekstin kohdalla, mutta se voisi olla tiedostomuotona myös visuaalisen datan kohdalla). On myös tärkeää huomioida, että datatyyppien määrittely ja luokittelu voi vaihdella tutkimusalueen, käyttötarkoituksen ja kontekstin mukaan. Sama tieto voi ilmetä niin numeerisena kuin visuaalisena datana riippuen siitä, miten sitä käsitellään ja esitetään. Samalla pitää myös erottaa raakadata ja sen esitystapa. Esimerkiksi silloin, kun visuaalista raakadataa tulkitaan, sitä pidetään datana. Sen sijaan kuvaaja tai kaavio, joka on johdettu numeerisesta raakadatasta, ei yleensä ole dataa sinänsä, vaan se on pikemminkin visuaalinen esitystapa datalle. Lisäksi samassa datasetissä voi olla dataa monenlaisessa eri muodossa, esimerkiksi sekä visuaalista että numeerista dataa. 

8.1 Numeerinen data

Tieto, joka on esitetty numeroina ja jota voidaan käyttää kvantitatiivisessa analyysissä.

  • Tilastolliset mittaukset, laitteiden mittaustulokset, geospatiaalinen informaatio, taulukkolaskelmat.
  • Yleiset formaattimuodot: Stata, SPSS, Excel, GIS.

8.2 Tekstidata

Tekstimuotoinen data on yleensä dokumentteja, jotka koostuvat sanoista, lauseista tai vapaamuotoisista tekstikappaleista:

  • Avoimia vastauksia kyselyissä, tutkimusraportteja, blogeja, sosiaalisen median aineistoja, päiväkirjoja, kenttäkirjoja, proteiini- tai geenisekvenssejä tai muita tekstipohjaisia sisältöjä.
  • Yleiset formaattimuodot: PDF, Word, HTML, XML tai tekstitiedosto.

8.3 Visuaalinen ja audiovisuaalinen data

Visuaalinen data koostuu tiedostoista ja aineistoista, jotka välittävät informaatiota kuvallisessa muodossa. Audiovisuaalinen data sisältää elementtejä sekä visuaalisista että ääneen perustuvista lähteistä. (Huom! Visuaaliseksi dataksi ei lasketa raakadatasta johdettuja visuaalisia esityksiä, kuten infografiikkaa.) Visuaalisen ja audiovisuaalisen datan esimerkkejä ovat:

  • Kuvat, kuten valokuvat ja piirustukset, videot, äänitteet (haastattelut), sekamedia (yhdistelmät teksti-, numeerisista tiedoista, videoista ja äänistä.), kartat
  • Yleiset formaattimuodot: jpeg, png, tiff, mp3, wav, mpeg, quicktime

8.4 Koodit ja ohjelmistot

  • Tutkimusohjelmistot ovat kehitettyjä työkaluja tai sovelluksia, joita käytetään esimerkiksi datan analysoinnissa, simuloinneissa tai mallinnuksissa.

  • Koodi: Sisältää ohjelmointiskriptit, algoritmit ja räätälöidyt ohjelmistot

  • Yleiset formaattimuodot: Python, Java, Stata, SPSS, R, MATLAB
8.5 Tutkimusalakohtaiset 

Esimerkkejä tutkimusalakohtaisesta datasta ovat:

  • Joustava kuvansiirtosysteemi (FITS) [Tähtitiede]
  • Sekvenssi (FASTQ) [Bioinformatiikka]
  • Kristallografiadata (CIF) [Kemia]
  • Rakenteellisesti kuvaillut säätiedostot (GRIB) [Meteorologia]
8.6 Artikkelin liitteenä oleva data (ns. Supplementary material)
  • Tutkimusjulkaisun liitteenä julkaistu data, joka on artikkelista erillinen julkaisu, tunnetaan yleisesti nimellä supplementary material tai liiteaineisto. On tärkeää huomata, että tutkimusjulkaisujen liitteissä voi olla monenlaista sisältöä, kuten datasta johdettuja tilastollisia koonteja. Siksi onkin arvioitava tapauskohtaisesti, onko kyseessä data vai muu liiteaineisto.


Lähteitä

  • No labels