Nykyilan analyysin kommentointi on suljettu. Viitearkkitehtuurityötä voi edelleen kommentoida eDuuni wiki-sivuille: https://wiki.eduuni.fi/x/3gnzEw

Versio 1.0 

Hyväksytty Yhteistyöfoorumin kokouksessa 22.11.2023.

Tutkimuksen datanhallinnan tila Suomessa 2023

Tieteellisen laskennan ja datanhallinnan yhteistyöfoorumi (Yhteistyöfoorumi, YTF, https://okm.fi/hanke?tunnus=OKM020:00/2022) on saanut tehtäväkseen toimikaudella 2022-2024 "kartoittaa, identifioida ja ohjata tieteellisen datan koko elinkaaren aikaisen hallinnan viitearkkitehtuurin laatimista".  Tutkimuksen datan hallinnan arkkitehtuurityön (DAHA, https://wiki.eduuni.fi/x/3gnzEw) osana on laadittu oheinen nykytilan kuvaus syksyllä 2023.  Analyysin laatimiseen ovat osallistuneet arkkitehtuuriryhmän jäsenet, työtä ohjaavan Yhteistyöfoorumin jäsenet sekä avoimen kommentoinnin kautta eri sidosryhmät.

Nykytilan kuvausta käytetään fokusoimaan viitearkkitehtuuriin tavoitteita. Se auttaa osaltaan tunnistamaan vaatimuksia ja kyvykkyyksiä, joita tarvitaan tutkimusdatan hallinnassa. Nykytilan analyysi kuvaa tutkimuksen datanhallinnan keskeisimmät haasteet. Haasteiden pohjalta on tunnistettu kriittisimmät kehityskohteet sekä vahvuudet, joiden varaan toimintaa voidaan rakentaa.

Suomi on kansainvälisesti vertailtuna kehittänyt tutkimuksen datan hallinnan palveluita ansiokkaasti. Tyypillisesti kehitys on toteutettu hankemuotoisesti. Tutkimuksen datan hallinta on kuitenkin nykyisin kiinteä osa TKI-toimintaa, jolloin panostus jatkuviin palveluihin on tärkeää. Datanhallinnassa tarvitaan jatkuvaa kehitystyötä, resursointia ja koordinointia. Tavoitteena on parantaa palveluiden tarjontaa tutkijoille, tukea tutkimuksen toistettavuutta ja hyödyntää tutkimusdatan potentiaalia.  Avoimen tieteen kulttuurin muutos on ollut vahva ohjaava tekijä tutkimuksen datanhallinnan kehittymisessä. Datanhallinnan viitearkkitehtuurissa on kuitenkin myös muita ajureita, kuten datan määrä, datan pitkäaikaissäilytys, datanhallinnan sääntely ja sensitiivinen data. Tässä analyysissa tarkastellaan eri näkökulmia, kuten datanhallinnan palveluja, sääntelyä, osaamista, rahoitusta ja tutkimustiedonhallintaa sekä datan ominaisuuksia ja arvoa. Ensisijainen näkökulma on tutkimusprosessi sekä sitä tukevat palvelut ja tukirakenteet.

Viitearkkitehtuuri on ohjaava ylätason kuvaus tutkimuksen datan hallinnan tavoitetilasta, ja sitä suositellaan käytettäväksi esimerkiksi tiedolla johtamisen tueksi, toiminnan kehittämisessä sekä yhteisten palveluiden tuottamisessa ja yhteistyön suunnittelussa. Se tarjoaa yhteisen mallin ja käsitteistön korkeakoulujen ja tutkimuslaitosten sekä muiden organisaatioiden omien arkkitehtuurien suunnitteluun ja toteuttamiseen. Viitearkkitehtuuri määrittää kohteeseen kuuluvat rakenteet ja niiden väliset suhteet. Tutkimuksen datanhallinnan viitearkkitehtuuri muodostaa kokonaisuuden Tieteellisen laskennan viitearkkitehtuurin, TiLa (2021) ja Avoimen tieteen ja tutkimuksen viitearkkitehtuurin, AVOTT (2023) kanssa.  

Johtaminen ja ohjaus: Yhteinen kansallinen tutkimuksen datanhallinnan tavoitetila puuttuu eikä datanhallinnan vaikuttavuutta pystytä arvioimaan kokonaisuutena.

Nykytila

  • Tutkimusorganisaatiossa tutkimuksen datanhallinta leikkaa monia toimintoja, kuten tutkimusta, osaamisen kehittämistä, digitalisaatiota, tiedonhallintaa ja arkistointia, tietosuojaa ja -turvaa. Suomalaiset tutkimusorganisaatiot ovatkin viimeisen kymmenen vuoden aikana aktiivisesti laatineet tutkimuksen datanhallinnan linjauksia ja kehittäneet tukipalveluita.
  • Datanhallinnan tavoitteita on määritelty (mm. 11), mutta niiden seuranta, erityisesti yli organisaatioiden, on käytännössä haastavaa eikä vaikuttavuutta voida arvioida. Näyttää siltä, että systeeminen ja kansallinen ohjaus on haastavaa.
  • Organisaatioilla ja tutkimushankkeilla on tällä hetkellä hyvin erilaisia ​​resursseja datanhallinnan tukemiseen ja palveluiden kehittämiseen.

Kehittämistarpeet

  • Tarvitaan vahvaa ja selkeää yhteistä datanhallinnan tavoitetilaa sekä sen toteutumisen ja vaikuttavuuden seurantaa. Toimijoiden sitoutuminen jaettuun tavoitetilaan mahdollistaa systeemisen tai verkostomaisen johtamisen, jolloin tutkimusta tukevat palvelut voidaan järjestää kansainvälisesti, kansallisesti ja/tai organisaatiotasolla. Yhteinen tavoitetila helpottaa yhteentoimivien palveluiden tuottamista sekä mahdollistaa palveluiden yhteistuottamisen yli hallinto- ja organisaatiorajojen. (9) (5) Samalla on huomioitava tutkimusorgaanisaatioiden erilaiset tavoitteet ja tarpeet. Kansallisesti ei kannata johtaa sellaisia asioita, jotka parhaiten toteutuvat organisaatiotasolla. 
  • Tavoitetilan ja seurannan määrittely tarkoittaa käytännössä sitä, että tutkimuksen datanhallinnalle ja palveluille sekä infrastruktuureille täytyy yhteisesti määritellä tavoiteltava (minimi)taso ja toteuttaa seuranta. (11) Samalla on huomioitava, että liian tarkka seuranta ja mittaaminen eivät saa muodostua itsetarkoituksiksi. 
  • Tarvitaan parempaa koordinointia ja yhteistyötä eri toimijoiden välillä datanhallinnan kehittämisessä. Toimijoiden roolit ja vastuut datanhallinnassa tulee selkeyttää.
  • Tutkimuksen datanhallinnan palveluiden kehittäminen tulee toteuttaa niin, ettei kansallisen tason ja EU-tason verkostoissa tuoteta rinnakkaisia ja heikosti yhteentoimivia ratkaisuja. (4)
  • Yhteistyöverkostojen vahvistaminen ja vahva kansallinen johtaminen voivat edistää datanhallinnan kehittämistä.
  • Tutkimuksen arvioinnissa ja tutkijan urakehityksessä avoimen tieteen näkökulman huomioiminen voi tuoda lisäarvoa ja kannustaa hyvän aineistonhallinnan toteuttamiseen. (10)


Palvelut: Datanhallinnan palvelukokonaisuus on hajanainen eikä se kata koko tutkimusdatan hallinnan elinkaarta.

Nykytila

  • Korkeakouluissa ja tutkimuslaitoksissa on toimivia datanhallinnan tukipalveluita. Datanhallinnan tukipalveluita tarvitaan yhä enemmän, ja niiden käyttöä tulee edistää. Tutkimuksen datanhallinnan palveluiden kehittämisessä on epäselvyyksiä prosesseihin, vastuisiin, palveluiden käyttöön ja sääntelyyn liittyen. Vahvempi koordinaatio edistäisi palveluiden ja infrastruktuurien kehittämistä Suomessa.
  • Suuri osa tutkimuksen datanhallinnan vaatimista palveluista järjestetään yksittäisissä tutkimusorganisaatioissa. Palveluiden kokonaisuuden organisoiminen voi olla kohtuuttoman monimutkaista yksittäisen toimijan näkökulmasta todennettavaan hyötyyn nähden.
  • Tutkimuksen tukena käytetään myös julkishallinnon palveluita (esim. https://www.avoindata.fi/fi). Näiden käyttöä tulee edistää edelleen.
  • Kansainvälisten palveluiden (esim. Zenodo) käytön ja rakenteilla olevien yhteiseurooppalaisten palveluiden (kuten EOSC) merkitys on kasvanut. Näkyvyys kansainvälisissä palveluissa oleviin suomalaisen tutkimusjärjestelmän tuottamiin aineistoihin on valitettavasti huono.
  • Kaikki nykyiset ratkaisut tutkimuksen datanhallinnassa eivät täytä palveluiden kriteereitä, ja usein kyse on itsepalveluista, alustoista ja työkaluista. 
  • Datanhallinnan palveluita on kehitetty erityisesti avoimen tieteen sekä laskentainfastruktuurien investointien yhteydessä. Tämä on johtanut siihen, että palveluiden tosiasiallinen käyttö painottuu tiettyihin organisaatioihin, tutkimusaloihin ja tutkimusaineistotyyppeihin. Tekniset resurssivaatimukset ovat korostuneet palveluiden rakentamisessa. Olisi syytä arvioida uudelleen, millaiset palvelut palvelisivat myös laajempaa TKI-toiminnan ja tutkimusdatan kirjoa. 
  • Tutkijan affiliaatio vaikuttaa siihen, millaisia palveluita hänellä on käytettävissään. Palveluiden puutteellinen yhtenäisyys muodostavat haasteen, joka vaatii holistista näkökulmaa tutkijan palvelupolkuun. On myös otettava huomioon vapaiden tutkijoiden toiminta.
  • Erityisinä haasteina on tunnistettu suurten datamassojen pitkäaikaissäilytyksen ja sen vaatiman pitkän aikavälin rahoitussuunnitelman puuttuminen.
  • Ns. keskipitkän aikavälin (määritelmästä riippuen 5-15 vuotta) datan tallennusmahdollisuudet ovat rajallisia. Niihin ei ole kansallisia palveluita, ja on epäselvää, kenen vastuulla näiden tallennuspalveluiden kehittäminen on ja miten se voidaan tehdä resurssitehokkaasti.
  • (Isojen) sensitiivisten aineistojen hallinta- ja käsittely-ympäristöissä on merkittäviä puutteita.
  • Suomalainen tutkimusyhteisö on osana avoimen tieteen ja tutkimuksen kansallista yhteistyötä linjannut, että viimeistään vuonna 2022 tutkimusdatalle on mahdollistettu hyvän datanhallinnan kannalta asianmukainen, tutkimusdatan elinkaaren huomioiva, tallennus- tai säilytysratkaisu, infrastruktuuri ja palvelut. (11) Tämän toteuttaminen on osoittautunut ennakoituakin haastavammaksi ja palvelutarpeiden kartoitus on edelleen meneillään sekä osana avoimen tieteen viitearkkitehtuurityötä että tätä tutkimuksen datan hallinnan viitearkkitehtuurityötä. (2) Haasteet datanhallinnassa hidastavat tieteellisen tiedon saamista käyttöön.
  • Datanhallintasuunnitelmia ei pystytä hyödyntämään tutkimuksen palveluiden suunnittelussa eikä kohdentamisessa.

Kehittämiskohteet

  • Tavoitteena tulisi olla kattavan palveluinfrastruktuurin luominen. Tarvitaan sekä yleisiä että alakohtaisia (dataspesifit) tukipalveluita. (4)
  • Jatkossa olisi tärkeää keskittyä siihen, miten kansainväliset ja kansalliset, tutkimukseen liittyvien aineistojen elinkaarenhallinnan palvelut integroituvat entistä paremmin korkeakoulujen ja tutkimuslaitoksien omiin prosesseihin.
  • Tarvitaan varmistus siitä, että palvelut tuotetaan tarvelähtöisesti ja ne vastaavat tutkijoiden erilaisiin tarpeisiin. (4) Palveluresurssien tehokasta kohdentamista tukisi muun muassa datanhallintasuunnitelmien parempi hyödyntäminen palveluiden kartoittamisessa ja kohdentamisessa sekä datan arvon määrittäminen ja valikoiminen tallennukseen ja säilytykseen. 
  • Suurten datamassojen pitkäaikaissäilytyksen vaatima infrastruktuuri avoimen tieteen periaatteiden mukaisesti on tärkeä tulevaisuuden kehityskohde. Lisäksi huomiota tulee kiinnittää sensitiiviseen dataan ja datan hallinnoinnin prosesseihin mukaan lukien datan hyödyntämisen tutkimuseettiset kysymykset. (8)
  • Vastuut lyhyen, keskipitkän ja pitkän aikavälin säilyttämiseen on tarkasteltava kokonaisuutena.
  • Aineistonhallintasuunnitelmien tulee olla koneluettavia ja niiden tulee olla käytettävissä palveluiden kohdentamisessa. Aineistonhallinnan suunnittelutiedon tulee olla hyödynnettävissä tutkimuksen elinkaaren kaikissa vaiheissa.
  • Datanhallinnan ja sen tuen merkitys tieteelliselle laskennalle on huomioitava yhä paremmin (sujuvia, tutkijalähtöisiä ja toistettavuutta tukevia palveluita tarvitaan).
  • Nykytilan analyysin tekemisen yhteydessä on tunnistettu myös muita puuttuvia palvelualueita ja tukirakenteita. Näitä kerätään wikiin koko arkkitehtuurityön ajan: https://wiki.eduuni.fi/x/i7CmFg


Osaaminen: Datanhallinnan vastuullinen toteuttaminen vaatii uudenlaista ja erilaista osaamista sekä tutkijoilta että tutkimusorganisaatioilta.

Nykytila

  • Tutkimuksen datanhallinta vaatii laaja-alaista ja jatkuvasti kehittyvää osaamista.  Uudenlaisten toimitapojen kehittäminen sekä organisaatioiden sisällä että niiden välillä on tärkeää. Datanhallinnan koulutuksia järjestetään (kansainväliset, kansalliset, organisaatiokohtaiset). Datanhallinnan oppaita on saatavilla. 
  • Datanhallinnan hyvien käytäntöjen tai työkalujen jalkauttaminen tutkimusprojektien arkeen vaihtelee.
  • Avoimen tieteen edistäminen on motivoinut osaamisen kehittämistä. On kuitenkin huomioitava myös muut näkökulmat, jotka liittyvät datanhallinnan osaamisen kasvattamiseen.
  • Suomessa datanhallinnan osaajat ja toimijat tuntevat toisensa, ja kansallinen yhteistyö on toimivaa. Tukea ja jatkuvaa oppimisen sekä vertaisoppimisen mahdollisuuksia on saatavilla ja näistä tulee edelleen huolehtia.
  • Datanhallinnan merkitys hyvän tieteellisen käytännön osana on vahvistunut. Vuonna 2023 päivitetyn Tutkimuseettisen neuvottelukunnan (TENK) Hyvä tieteellinen käytäntö ja sen loukkausepäilyjen käsitteleminen Suomessa (HTK) -ohjeen mukaan Tutkimustulosten ja -aineistojen puutteellinen dokumentointi ja säilyttäminen on hyvän tieteellisen käytännön vastaista toimintaa. (6)

Kehittämiskohteet

  • Uusien palveluiden kehittämiseen tulee kiinnittää huomiota, esimerkiksi datasteward-tehtävien osalta. (12) Datanhallinnan koulutusten jatkuva kehittäminen huomioitava organisaatioiden resursseissa. Kansallisen yhteistyön vahvempi organisoiminen.
  • Tutkijoiden ja tutkijakoulutettavien datanhallinnan osaamista tulee edelleen vahvistaa.
  • Tutkijan ja tutkimuksen arvioinnin uudistaminen kansainvälisesti ja kansallisesti tukee tutkijan ansioiden huomioimista hyvän aineistonhallinnan edistämisessä. Uudet arviointitavat (mm. COARA) antavat mahdollisuuden arvostaa ja antaa tunnustusta datanhallinnasta ja datan hallitusta avaamisesta. (3)
  • Eettisen osaamisen kehittäminen kuuluu olennaisesti asianmukaiseen tutkimuksen datanhallintaan. Vastuullinen tutkimusaineistojen hallinta on laaja ja muuttuva kokonaisuus, jonka toteuttamiseksi tutkijoilla on tarve ja oikeus saada tukea oman osaamisensa pitämiseksi ajantasaisena. (5; 6)


Data: Datasta saatavaa arvoa ei tunnisteta tai pystytä hyödyntämään. Tutkimus- ja innovaatiopotentiaali jää toteutumatta. 

Nykytila

  • Kuvaileva metatieto on osa tutkimusdatan ohjausta ja hallintaa. Nykytilassa laadukkaan metadatan tuotanto on vielä usein varsin puutteellisella tasolla. Sekalaiset käytännöt ohjaavat metadatan tuotantoa datan elinkaaren eri vaiheissa.
  • Kansallisella ja paikallisella tasolla ei tiedetä kattavasti, mitä dataa tutkimuksessa on tuotettu ja käytetty eikä sitä, missä datoja säilytetään. Aineistojen tunnisteiden ja niitä kokoavien datakatalogien puute vaikuttaa osaltaan tähän.
  • Suomalaisissa tutkimusorganisaatioissa on merkittävä määrä tutkimustoimintaa, jossa syntyy aineetonta omaisuutta sekä huomattava määrä erilaista dataa, joka on olennaisessa roolissa yritysten kanssa yhteistyössä tehtävissä innovaatioissa. Taustaselvityksen mukaan aineettomien oikeuksien hyödyntämistä tutkimusorganisaatioissa vaikeuttavat muun muassa tutkijoiden vähäinen tietoisuus tutkimusorganisaatioiden sisäisistä IPR-prosesseista sekä tutkijoiden puutteellinen motivaatio tutkimustulosten kaupallistamiseen. Tutkimusorganisaatioille asetetut tulostavoitteet eivät myöskään painota kaupallistamista varsinkaan yliopistoissa, vaan yliopistot kannustavat tutkijoita keskittymään julkaisujen tuottamiseen, joka tuo perusrahoitusta. Vuonna 2007 voimaan tullut korkeakoulukeksintölaki nähdään niin ikään keskeiseksi pullonkaulaksi tutkimuksesta syntyvän aineettoman omaisuuden kaupallisessa hyödyntämisessä. (11)
  • Osin jo lainsäädäntö vaatii, että aineistoihin liittyvät oikeudet, rajoitteet, henkilötiedot ja muut kuvailu tuotetaan riippumatta siitä kuinka pitkää elinkaari aineistoilla ennustetaan olevan. Tämä korostaa entisestään tarpeita metatietojen yhteentoimivuudelle ja koko elinkaaren mukana kulkemiselle.
  • Tekoälyn vaikutusta tutkimukseen, menetelmiin ja datanhallintaan on vaikea ennakoida systemaattisesti.

Kehittämiskohteet

  • FAIR-periaatteiden toteutumista ja metadataosaamista tulee vahvistaa. Laadukkaan metadatan avulla voidaan yhdistää aineistoja yli tutkimus- ja kielirajojen. Minimimetatietomallin hyödyntäminen toimii lähtökohtana.
  • Data tutkimuksen tuotoksena tulee tunnistaa tutkimusprosessin alusta saakka ja sen elinkaari suunnitella hallittavaksi. Datakatalogien kehittymistä pitää tukea tuomaan näkyvyyttä ja saavutettavuutta aineistoihin. Tekoälyn mahdollisuuksia aineistojen hallinnassa tulee arvioida ja kokeilla.
  • Tutkimusaineistojen arvonmääritystä tulee tukea. Teknisten ratkaisuiden lisäksi tarvitaan myös hallinnollisia ratkaisuita mm. säilytykseen valittavista aineistoista. On luotava läpinäkyvät prosessit säilytettävien datojen tunnistamiseksi ja kriteerit datan arvon määrittämiseksi. Samalla on huolehdittava siitä, että arvonmäärityksen kriteerit ovat selkeät eivätkä ne muodostu esteeksi datan pitkäaikaissäilytykselle tai tuhoamiselle.
  • Databroker-palveluiden käyttöä tutkimusaineistojen yhdistelemiseksi on tuettava.
  • Aineistojen kattavien metatietojen hallitsemiseksi tulisi mahdollistaa se, että kertaalleen syötetyt metatiedot ovat käytettävissä ja täydennettävissä aineistojen elinkaaren kaikissa vaiheissa ja niihin liittyvissä palveluissa.


Kannustimet ja resursointi: Kannustimet systemaattiselle tutkimuksen datanhallinnalle eivät ole toistaiseksi riittäviä eikä datanhallinnan palveluiden kehittämistä ja ylläpitoa ole resursoitu riittävästi eikä kestävästi.

Nykytila

  • Tutkijan datanhallintaan käyttämä aika ja ansiokas datanhallinta eivät meritoi riittävästi. Vaikka tutkijan arviointia kehitetään huomioimaan datanhallinta entistä paremmin, vaikeuttaa nykytila datanhallinnan priorisoimista osana tutkimusprosessia.
  • Datanhallinnan kustannusten kehittymisestä ja resurssien käytöstä tarvitaan tarkempaa tietoa, jotta näihin voidaan varautua organisaatioissa ja hankkeissa. Datanhallinnan kustannustenjako tutkimusorganisaatioiden sisällä herättää edelleen keskustelua.

Kehittämiskohteet

  • Tarvitaan kannustimia vastuullisen datanhallinnan toteuttamiseen osana tutkijanuraa.  Tarvitaan edelleen kulttuurinmuutosta, jossa datanhallinta nähdään kiinteänä osana tutkimustyötä. Datanhallinta voi parhaimmillaan tukea tutkijan, oppijan, opettajan polkua uran eri vaiheissa.
  • Tutkimuksen datanhallinnan palveluiden jatkuvuus tulee varmistaa myös silloin kuin palveluita kehitetään (osittain) täydentävällä hankerahoituksella.
  • Palveluihin tehtyjen investointien vaikuttavuutta tulisi arvioida systemaattisesti. Tällä hetkellä vaikuttaisi siltä, että arvioinnin tavat ja perusteet vaihtelevat tilannekohtaisesti ja ovat pitkälti toimijoiden sisäisiä prosesseja. 
  • Datan arvon maksimointi sekä avoimen tieteen periaatteiden edistäminen voi toimia kannustimena datanhallinnan tukipalveluiden kehittämiseen ja palveluinvestointien houkuttelemiseen.


Sääntely: Tutkimuksen datanhallintaa ohjaava säädöspohja on kompleksinen ja monitulkintainen.

Nykytila

  • Tutkimuksen datan hallintaan liittyviä asetuksia, lakeja ja linjauksia valmistellaan eri toimielimissä (esim. kansainvälinen, eurooppalainen ja kansallinen valmistelu) ja toimialakohtaisista näkökulmista (esim. eri ministeriöt). Tällöin säädöspohja saattaa olla ristiriitainen (7). Tutkimusorganisaatioille ja tutkijoille ei ole selvää, miten eri lakeja ja linjauksia sovitetaan yhteen tai kuka vastaa ristiriitaisuuksien selvittämisestä.
  • Organisaatiotasolla on haastavaa varmistua datanhallinnan vaatimustenmukaisuudesta (compliance) (mm. GDPR).
  • Tutkimuksen datanhallinnan prosesseihin, vastuisiin, palveluiden käyttöön ja sääntelyyn liittyvät epäselvyydet korostuvat erityisesti kansainvälisessä tutkimusyhteistyössä ja projekteissa, mutta tulevat ilmi myös eri tutkimusorganisaatioiden välisessä toiminnassa sekä yritysyhteistyössä toteutettavassa TKI-toiminnassa.

Kehittämiskohteet

  • Datanhallintaa ohjaavaa säädöspohjaa tulee selkeyttää ja yhdenmukaistaa siten, että tutkijoiden ja tutkimusorganisaatioiden on helppo noudattaa ohjaavaa lainsäädäntöä. Eri toimielinten välillä tulisi jatkossa lisätä vuoropuhelua riittävän yhteensopivuuden varmistamiseksi liittyen asetuksiin, lakeihin ja linjauksiiin, joilla tutkimuksen datanhallintaa säädellään. 
  • Säädöspohjan tulee vahvistaa tutkimusdatan uudelleenkäyttöä ja saavutettavuutta. Sääntelyn ei tule olla esteenä dataintensiiviselle tutkimukselle ja datan arvonluomiselle. Tutkimusaineistojen jatkohyödynnettävyys TKI-toiminnassa ja elinkeinoelämässä on turvattava. Säädösten yhteensovittaminen eri toimielinten välillä voi edistää avoimen tieteen periaatteiden toteutumista datanhallinnassa.


(1) Aineettomien oikeuksien strategia, 2021: https://valtioneuvosto.fi/hanke?tunnus=TEM066:00/2021

(2) Avoimen tieteen ja tutkimuksen viitearkkitehtuuri (valmistunee 2023): https://wiki.eduuni.fi/x/ISvICw

(3) Coalition for Advancing Research Assessment, CoARA: https://coara.eu/

(4) EOSC Nordic: D4.4 Report and recommendations on FAIR incentives and expected impacts in the Nordics, Baltics and EOSC, 2022; https://doi.org/10.5281/zenodo.6881008

(5) FAIRSFAIR: D2.7 Framework for assessing FAIR Services, 2021: https://doi.org/10.5281/zenodo.5336233

(6) Hyvä tieteellinen käytäntö ja sen loukkausepäilyjen käsitteleminen Suomessa 2023: https://tenk.fi/sites/default/files/2023-03/HTK-ohje_2023.pdf 

(7) Selvitys tutkimusta koskevien sosiaali- ja terveydenhuollon säädösten vaikutuksesta tutkimuksen vapauteen ja tutkimus-, kehittämis- ja innovaatiotoimintaan, 2021: http://urn.fi/URN:ISBN:978-952-263-870-0

(8) Tieteellisen laskennan viitearkkitehtuuri 2021: https://wiki.eduuni.fi/x/MCk8C

(9) Tutkimuksen datanhallinnan viitearkkitehtuurin projektisuunnitelma, hyödyt: https://wiki.eduuni.fi/x/ngQoF

(10) Tutkijan arvioinnin hyvät käytännöt:  https://doi.org/10.23847/isbn.9789525995268

(11) Tutkimusaineistojen ja -menetelmien avoimuus Korkeakoulu- ja tutkimusyhteisön kansallinen linjaus ja toimenpideohjelma 2021–2025: Osalinjaus 1: Tutkimusdatan avoin saatavuus (https://doi.org/10.23847/isbn.9789525995466) tunnistaa datanhallinnan nykytilaan liittyvät haasteet sekä tavoitteet. Linjauksessa on myös ehdotettu minimitason määrittelyä palveluille ja infrastruktuureille.

(12) Wildgaard, L., & Rantasaari, J. (2022). Gaps in data stewardship: What kind of needs for training do data stewards face in supporting research? Data stewardship landscape initial report. https://doi.org/10.15497/RDA00076

Lisäksi on hyödynnetty taustakirjallisuutta: https://wiki.eduuni.fi/x/5Bu7FQ


  • No labels

12 Comments

  1. Minusta tähän on hienosti koottu monitahoisen asian keskeisiä ulottuvuuksia. Itse toivoisin enemmän puhetta datan arvon määrityksen tärkeydestä. Tämä tulee esiin rahoituksesta puhumisen yhteydessä mutta on minusta tärkeää muutenkin ("Lisäksi on luotava prosessit säilytettävien datojen tunnistamiseksi (priorisointi)". Tämä voisi ajatella myös palveluresurssien kohdentamisen kautta, eli jos kyse on todella ainutlaatuisesta aineistosta, kannattaa siihen enemmän tutkimuspalvelujen resursseja. Jos taas kyse on nopeasti vanhenevasta aineistosta, kevyempi avaaminen voisi riittää. Edellinen kohdennus tarkoittaisi kuitenkin sitä, että meillä olisi keskustelua ja kyvykkyyttä tunnistaa paremmin yksittäisten aineistojen arvo. Tämä arvonmääritys voisi siis minusta olla oma palluransa listassa, ja sitä voisi katsoa sekä säilyttämisen että muiden mahdollisten palvelukustannusten näkökulmasta.

    1. Tämä kuulostaa järkevältä ja rationaaliselta resurssien käytön kannalta, mutta mitä tarkoittaisi "kevyempi avaaminen"? Entä kuinka helppoa aineistojen arvonmääritys on ja kuka sen tekisi? Esim. meillä on aineisto, joka kuvaa ilmiön x nykytilaa. Toteamme, että maailma muuttuu kyseisen ilmiön kohdalla niin, että puolen vuoden kuluttua se ei kuvaa enää nykytilaa eikä sen avulla voida selvittää nykytilaa koskevia kysymyksiä, joten kyse on nk. nopeasti vanhenevasta aineistosta. Kuitenkin vaikkapa viiden vuoden kuluttua se voisi toimia hyvänä vertailupohjana uuden nykytilaa kuvaavan aineiston rinnalla, jolloin voisimme niiden molempien aineistojen avulla analysoida, miten kyseinen ilmiö on muuttunut.

      1. Katriinan kommentti on hyvä! Luulisin, että avaamisen eri asteet on hyvin alakohtaisia. Eli jos otetaan vaikka laadullinen haastatteluja sisältävä aineisto vaikka johtamistieteistä, niin vaihtoehto on kaiketi esim. A) aineiston anonymisointi ja tallentaminen FSDhen tai sitten esimerkiksi vain B) metadatan avaaminen ja tämän jälkeen aineistojen sopimuksiin perustuva jakaminen. Aineistojen anonymisointiin menee paljon aikaa ja rahaa, kun taas ymmärtääkseni pseudonymisoinnin ja sopimuksen varaisen jakamisen pystyisi helpommin saavuttamaan. Molemmissa tapauksissa aineisto olisi varmaankin viiden vuoden päästä vielä saatavissa. Minusta aineistojen arvonmääritys tulisi tehdä ennen kaikkea vanhempien tutkijoiden toimesta, niin että he varaisivat palveluresursseja merkittävimmille aineistoillensa. Aineistojen todelliseen pitkäaikaissäilytykseenhän arvonmääritys kuuluu ymmärtääkseni keskeisesti, ja CSC esitteli PAS-päivillä omat ehdotusensa arvonmäärityksen kriteereiksi (https://digitalpreservation.fi/files/passeminaari/pas-semma-2023-fairdata.pdf, slide 8). Mutta Katriiinan kysymykset ovat hyviä enkä pysty niihin tässä tyhjentävästi vastaamaan. 

    2. Samaa mieltä, että tulisi voida olla erilaisia kategorioita sille miten kovasti panostamme aineistojen julkaisemiseen. Tämä pitäisi voida tuoda esille käytännössä, ohjeissa. Eli kehitellä sitä mitä tämä kevyempi avaaminen käytännössä eri datojen osalta tarkoittaisi.

  2. Toisena kommenttina haluaisin vielä lisätä, että meillä ei oikein ole tapoja mitätä avoimen tieteen ja datan hallinnan palvelujen Return of Investment arvoa? Esim. millä tavoin voisi perustella DMPeiden kommentointiin käytettävän asiantuntijatyön hintaa? Mitä tämä asiantuntijatyö tuottaa? Mikä on sen ROI? Näkisin mielelläni tämä tutkimuspalvelujen ROI arvon tarkastelun (tai useimmiten sen puuttumisen) jollakin tapana osana tätä hyvää listaa.

  3. Resurssien varmistaminen DAHA-paveluiden kehittämiseen ja ylläpitoon. Tämä tuotiin esille jo kokouksessa, mutta pistän tähän silti. On yllä kohdassa 1, mutta toivoisin erillistä kohtaa, ja elaborointia, jota yllä onkin jo: kansallinen tahtotila; paikallinen resurssointi, että voidaan seurata linjausten toteutumista ja kehittää palveluita niin linjusten kuin muuttuneiden olosuhteiden mukaan. 

  4. Kommentoin kokouksen aikana tuota ilmaisua "Datahallinnan palvelurakenne on hajautettu". Voi olla etten ymmärrä mitä sillä tässä tarkoitetaan, mutta hajautettuna erilaisiin organisaatioihin saadaan kuitenkin (parhaimmmillaan) dataspesifiä ja kunkin organisaation lähtökohtia ja tarkoituksia palvelevia DAHA-palveluita. Kyse on minusta siitä muodostuuko yhtenäinen, yhteentoimiva ja kattava kokonaisuus. Ei muodostu kaikilta osin (osin siksi, että kehitämme/kehitymme mutta prosessi on kesken).  

  5. Selvien puutteiden listaus. Olisiko syytä lisätä kohta, jossa listataan seikat, joissa on tunnistettu puuttuvia palveluita? Yllä on mainittu koodi ja menetelmät. Palvelun, jossa voisi avata menetelmiä ja kytkeä ne tuotoksiin, ainakin tunnistan. Lisäksi minulle tulee mieleen mallit. Löytämäni kv-palvelut ovat olleet liian tietylle alalle suunnattuja. 

  6. Säädöspohjan selkeyttäminen. Minulla ei ole tähän asiaan tällä hetkellä lisättävää mutta jatkossa konkreettisesti mitä pitäisi selkeyttää, mitä säädöksissä pitäisi kehittää ja/tai täytäntöönpanoon pitäisi kiinnittää huomiota. 

  7. "Datanhallintaa ohjaavaa säädöspohjaa tulee selkeyttää." Tänne voisi lisätä kohdan: "Asetuksia, lakeja, linjauksia, ohjeita, jne. liittyen tutkimuksen datan hallintaan tulee monista eri toimielimistä (EU, eri ministeriöt, jne.). Tutkimusorganisaatioissa (tutkijat, palvelut, jne.) ei ole selvää, kuinka niitä yhteensovitetaan, esimerkiksi kuka tarkistaa, ettei näissä olla ristiriitaisuuksia keskenään. Eri toimielimien välillä tulisi siten olla jatkossa riittävästi vuoropuhelua."

    1. Nousisiko tästä arkkitehtuurivaatimus juuri viitearkkitehtuuritasolle. Eli, pitäisikö viitearkkitehtuurissa tunnistaa ne tahot ja mekanismit, joiden tulisi huolehtia, että sääntelyyn ei tule uusia ristiriitaisuuksia. Käytännössä varmaan erityisesti erilaisten esitysten lausunto- ja kuulemisvaiheessa pitäisi voida nostaa esille potentiaalisia ristiriitoja ja seurannaisvaikutuksia. EU-tasolle toki kynnet riittävät huonosti, mutta ainakin kansalliseen päätöksentekoon tulisi voida vaikuttaa tältä osin.

  8. Puuttuvia palveluita:

    • Helppo tapa luoda DOI tunnisteita kansallisella tasolla
    • Tietojärjestelmäratkaisuja DOI tunnisteilla tallennettujen tietojen tallentamiseen tutkimuslaitoksissa ja Yliopistoissa