1. Johdanto
CSC toteutti 2025 yhteistyössä pilottiorganisaatioiden kanssa selvityksen siitä, miten valitut Datanhallinnan viitearkkitehtuurissa (DAHA) kuvatut prosessit toteutuvat nykytilassa ja tavoitetilassa erityisesti Fairdata-palveluiden näkökulmasta. Selvityksessä huomioitiin myös muiden datanhallinnan palveluiden rooleja ja kehitystarpeita kokonaisuuden ymmärtämiseksi. Mukana oli edustajia viidestä yliopistosta, yhdestä ammattikorkeakoulusta ja kahdesta tutkimuslaitoksesta. Pilotteihin osallistui organisaatioiden Fairdata-palveluiden yhteyshenkilöitä sekä datatuen ja tutkimuksen palveluiden asiantuntijoita.
Tämä dokumentti kokoaa yhteen organisaatioiden kanssa järjestettyjen työpajojen keskeiset havainnot.
Projektin tavoitteet
Projektin tavoitteena oli:
- Tunnistaa, miten mukaan valitut DAHA-prosessit toteutuvat nykytilassa ja tavoitetilassa Fairdata-palveluiden ja tutkimusorganisaatioiden yhteistyönä.
- Yhteensovittaa palveluprosesseja sekä selkeyttää rooleja, vastuita ja edellytyksiä palveluiden hyödyntämiselle.
- Tunnistaa mahdolliset järjestelmäintegraatiot ja kehitystarpeet.
Työskentelytapa ja työn kulku
Projektissa hyödynnettiin seuraavia työskentelytapoja:
- Itsenäiset pohjatyöt: CSC ja organisaatiot kuvasivat prosessien toteutusta ja mahdollisia kehityssuunnitelmia omista näkökulmistaan.
- Organisaatiokohtaiset työpajat: Kunkin organisaation kanssa järjestettiin 2–4 työpajaa, joissa käsiteltiin prosessien toteutusta, haasteita ja kehitystarpeita.
- Raportin käsittely: CSC laati työpajojen pohjalta organisaatiokohtaiset raportit, jotja käytiin läpi ja täydennettiin yhdessä kunkin organisaation kanssa. Raportit eivät ole julkisia.
Tuotokset ja tulokset
Projektin lopputuloksena syntyi:
- Organisaatiokohtaiset ei-julkiset raportit, joissa kuvattiin prosessien toteutusta ja kehittämiskohteita, kuten roolien ja vastuiden selkeyttämistä, osaamistarpeita, mahdollisia järjestelmäintegraatioita ja jatkokehitystarpeita.
- Yhteinen avoin kooste – tämä dokumentti – jossa yksittäisiä organisaatioita ei ole tunnistettavissa. Kooste julkaistaan Fairdata-verkoston wikisivuilla.
2. Yhteenveto piloteista
Hyödyt kansallisten palveluiden hyödyntämisestä
Pilotoinnin aikana organisaatioiden kanssa käydyissä keskusteluissa nousi esiin useita hyötyjä, joita kansallisten palveluiden laajamittainen hyödyntäminen voi tuoda tutkimusdatan hallintaan. Työpajoissa tunnistettiin muun muassa seuraavia etuja:
- Yhteentoimivuus: Yhtenäiset tietomallit ja rajapinnat koettiin tärkeiksi tiedonsiirron sujuvuuden ja päällekkäisen työn vähentämisen kannalta.
- Automaatio ja tehokkuus: Tulevien maDMP-integraatioden nähtiin mahdollistavan datanhallinnan prosessien automatisointia ja säästävän resurssien käyttöä.
- Tutkimuksen elinkaaren hallinta: Palveluiden koettiin tukevan datan säilytystä, kuvailua, julkaisemista ja pitkäaikaissäilytystä koko tutkimusprosessin ajan.
- Organisaation näkyvyys ja hallintamahdollisuudet: Palveluiden käyttö nähtiin lisäävän organisaation näkyvyyttä sekä kansallisesti että kansainvälisesti. Pääkäyttäjäroolit ja metatietojen seuranta tukevat sisäistä kirjanpitoa ja strategista ohjausta.
- Kustannustehokkuus ja riskienhallinta: Keskitetysti rahoitetut ja maksuttomat palvelut koettiin kustannustehokkaiksi ja vähentävän tarvetta rakentaa ja ylläpitää omia järjestelmiä. Lisäksi niiden tietoturva ja vaatimustenmukaisuus (esim. GDPR, ISO 27001) vähentävät organisaatioiden riskejä.
- Vaikuttavuus ja meritoituminen: Julkaistujen aineistojen näkyvyys kansallisesti ja kansainvälisesti tukee tutkijoiden profiilia ja tutkimuksen vaikuttavuutta.
- Strateginen asemointi: Yhteistyön CSC:n ja muiden toimijoiden kanssa nähtiin tukevan kansallisia linjauksia ja strategioita, kuten avoimen tieteen tiekarttaa. Organisaatiot kokivat voivansa vaikuttaa yhteisten palveluiden kehitykseen esimerkiksi DMP-konsortion tai Fairdata-palvelujen yhteiskehittämisen kautta.
Yhteiskäyttöisten kansallisten ratkaisujen nähtiin tarjoavan skaalautuva, turvallinen ja yhteentoimiva perusta tutkimusdatan hallinnalle.
Käyttäjäkokemus, motivaatio ja kulttuuri
Työpajoissa nousi esiin, että tutkijoiden motivaatio on keskeinen tekijä datanhallinnan käytäntöjen juurtumisessa. Useissa organisaatioissa koettiin, että ohjauksen ja selkeän ohjeistuksen puute vaikeuttaa kansallisten palveluiden laajamittaista hyödyntämistä. Keskusteluissa ehdotettiin muun muassa:
- selkeitä ja yksinkertaisia prosesseja palvelujen valintaan eri käyttötarkoituksiin,
- tutkijalle helppoja toimintamalleja, jotka mahdollistavat aineistojen varhaisen kuvailun,
- DMP:n kytkemistä tutkimuksessa tarvittavien resurssien hakemiseen joko kannustimena tai ehtona, sekä
- urahyötyjen näkyväksi tekemistä, esimerkiksi DMP:n validointi osana meritoitumista.
Onnistumisen edellytyksinä pidettiin helppokäyttöisiä työkaluja, selkeitä päätöksentekoketjuja ja järjestelmällistä viestintää.
Monissa organisaatioissa datanhallinta koettiin edelleen erilliseksi tai hallinnolliseksi tehtäväksi, jota tehdään lähinnä ulkoisten vaatimusten vuoksi – esimerkiksi rahoittajan, eettisen lautakunnan tai tohtorikoulutusvaatimusten takia. Tutkijat eivät aina kokeneet aineistonhallintasuunnitelmaa (DMP) aidosti hyödylliseksi oman tutkimustyönsä välineeksi, vaan pikemminkin muodolliseksi velvoitteeksi.
Motivaation vahvistamiseksi työpajoissa ehdotettiin ns. "porkkanoita", kuten datanhallinnan kytkemistä urameriitteihin, resurssien saantiin (esim. levytila, projektituki) tai tutkimuksen laadun arviointiin. Lisäksi korostettiin, että datanhallinta ja sen dokumentointi osana tutkimusprosessia – ei erillisenä velvoitteena – on keskeistä kulttuurin muutoksen kannalta.
Keskustelujen perusteella kulttuurin muutos edellyttää, että datanhallinta on helppo, hyödyllinen ja luontevasti tutkimukseen integroitu osa, ei irrallinen hallinnollinen tehtävä.
Osaaminen, koulutus ja paikallinen tuki
Työpajoissa korostui tarve käytännönläheiselle koulutukselle, palveludemoille ja tukihenkilöille, jotka voivat tukea tutkijoita työkalujen käytössä ja palveluympäristöjen käyttöönotossa. Työpajoissa ehdotettiin myös konkreettisia toimenpiteitä osaamisen ja tuen vahvistamiseksi, kuten ajankohtaisten koulutusten järjestämistä, CSC:n tarjoamien palvelujen kuvauksien parempaa saavutettavuutta (esim. linkittämällä intrasta palvelukatalogiin tai hyödyntämällä koneluettavaa rajapintaa), tukiroolien selkeyttämistä sekä onnistuneiden käyttöönottojen esiin nostamista esimerkkeinä muille.
Keskusteluissa todettiin, että datanhallinnan osaaminen ja käytännöt vaihtelevat merkittävästi eri tieteenalojen ja yksiköiden välillä. Monilla aloilla on vahvaa omaa osaamista, mutta kokonaisvaltaisen tuen ja yhteisten toimintamallien koettiin puuttuvan.
Toimivien tukirakenteiden merkitys nousi vahvasti esiin. Esimerkiksi datatuen keskitetty koordinointi, aineistonhallinnan koulutukset ja selkeät organisaatioiden omat ohjeistukset palveluiden käytöstä nähtiin tärkeinä edellytyksinä palveluiden hyödyntämiselle. Koulutuksen toivottiin painottuvan käytännönläheisiin esimerkkeihin ja datanhallinnan prosessien automatisoinnin mahdollisuuksiin.
Lisäksi ehdotettiin säännöllisiä tarkistuspisteitä (esimerkiksi tutkimuksen alussa ja ennen aineiston julkaisemista), joissa tutkijat saisivat konkreettista tukea datanhallintaan liittyviin päätöksiin.
Aineistonhallintasuunnitelmat ja automaatio (maDMP)
Työpajoissa koneluettavien aineistonhallintasuunnitelmien (maDMP) käyttöönotto nousi esiin merkittävänä mahdollistajana datanhallinnan automatisoinnissa. Keskusteluissa todettiin, että maDMP voi vähentää toisteista tiedonsyöttöä ja tukea eri prosessien automatisointia. Kun tutkija tallentaa tiedon kerran, sitä voidaan suoraan hyödyntää eri palveluissa. Tietoja voidaan hyödyntää esimerkiksi palvelujen käyttöönottoon liittyvissä hakemuksissa, lisäresurssipyynnöissä sekä tutkimusaineistojen kuvailuun liittyvissä järjestelmissä.
Pilotoinnin yhteydessä ehdotettiin, että maDMP:n käyttöönottoa voitaisiin edistää määrittelemällä eri tutkimuksen vaiheissa vaadittavat vähimmäistiedot ja versiohallinta sekä testaamalla 1–2 tosielämän käyttötapausta (esim. levytilatarpeen määrittely → automaattinen palvelupyyntö).
Tavoitetilassa maDMP toimii tutkimuksen "master-lähteenä", joka tuottaa ja välittää metatietoja eri prosesseihin, kuten tallennusratkaisuihin, kuvailutietojen tuottamiseen ja datan julkaisuprosesseihin. Kun tutkija täyttää DMP:n, sen perusteella voidaan automaattisesti avata pääsyjä palveluihin ja tuottaa kuvailutietoja esimerkiksi aineiston julkaisemista varten ilman erillistä manuaalista työtä.
Tämän toteutuminen edellyttää, että kansallisen tietomallin lisäksi määritellään tekninen ohjeistus maDMP-tietojen tuottamiseen ja järjestelmäintegraatioihin, ja että organisaatiot sitoutuvat maDMP:n käyttöönottoon ja kytkevät sen omiin palveluihinsa ja prosesseihinsa.
Varhainen aineiston kuvailu ja metatiedon kerryttäminen
Työpajoissa nousi esiin tarve aloittaa tutkimusaineistojen metatietojen tuottaminen jo tutkimuksen alkuvaiheessa. Tämä koettiin tärkeäksi aineistojen löydettävyyden, yhteentoimivuuden ja pitkäaikaisen ymmärrettävyyden kannalta, sekä jälkityön vähentämiseksi.
Useissa organisaatioissa oli jo käytössä luonnostilaa tukevia kuvailutyökaluja (esim. Qvain/Justus-tyyppiset ratkaisut), joissa kuvailu voi täydentyä vaiheittain tutkimuksen edetessä. Lisäksi ehdotettiin ajastettujen muistutusten hyödyntämistä kuvailun edistämiseksi. Käytäntö vaatii selkeät ohjeet pakollisista kuvailukentistä sekä organisaation pääkäyttäjän näkyvyyden keskeneräisiin kuvailuihin, jotta he voivat seurata etenemistä.
Kuvailun toivottiin linkittyvän myös tutkimusinfroihin, instrumenttitietoihin ja laitetunnisteisiin (PID), jotta aineistojen konteksti säilyy.
Tulevaisuudessa koneluettavat aineistonhallintasuunnitelmat (maDMP) voivat toimia keskeisenä lähteenä aineistokuvailujen tiedoille ja julkaisuun tarvittavien aineistotietojen keräämiselle. Lisäksi maDMP:n nähtiin tarjoavan mahdollisuuden linkittää esimerkiksi tutkimusinfrastruktuureihin liittyviä tietoja (esim. instrumentit, laitetunnisteet, PID:t) suoraan aineistokuvailuihin, mikä tukisi aineistojen kontekstin säilymistä ja yhteentoimivuutta.
Palveluintegraatio ja koneluettavat palvelukatalogit
Työpajoissa keskusteltiin palveluiden yhteentoimivuuden merkityksestä datanhallinnan prosessien sujuvuudelle. Monissa organisaatioissa pyritään kohti integroitua palveluekosysteemiä, jossa paikalliset ja kansalliset palvelut, kuten levytilat, arkistot, julkaisuportaalit ja metatietokatalogit, ovat kytketty toisiinsa koneluettavien rajapintojen kautta.
Keskusteluissa nousi esiin, että palvelukuvauksien yhtenäistäminen ja koneluettavien palvelukatalogien kehittäminen voisivat mahdollistaa automaattisen palveluvalinnan esimerkiksi maDMP:n tietojen perusteella. Tämä edellyttää yhteistä tietomallia, rajapintojen avaamista ja palveluiden sopivuuden arviointia kyseisen tutkijan näkökulmasta.
Pilotoinnin osalta ehdotettiin, että palvelujen kuvailu kannattaisi aloittaa niistä palveluista, joita tutkijat eniten tarvitsevat (esim. paikalliset ja kansalliset tallennus- ja säilytysratkaisut, aineiston kuvailu ja julkaiseminen, arkaluonteisten aineistojen käsittely-, säilytys- ja analyysiympäristöt sekä pitkäaikaissäilytyksen vaatimusten huomioiminen). Näiden palvelujen esittämistä maDMP:ssä voitaisi testata konkreettisilla käyttötapauksilla.
Palvelukatalogien avaaminen koneluettavassa muodossa nähtiin keinona edistää ajantasaisten ja yhdenmukaisten palvelutietojen saatavuutta ja vähentävän päällekkäistä palveluihin liittyvää kehitystyötä eri organisaatioissa.
Pitkäaikaissäilytys (PAS), datan arvonmääritys ja tiedostomuodot
Työpajoissa keskusteltiin tutkimusaineistojen pitkäaikaissäilytyksen (PAS) edellytyksistä ja siihen liittyvistä käytännöistä. Organisaatioissa nähtiin tarpeelliseksi kehittää sekä sisäisiä päätösmalleja että sopimuksellisia ja teknisiä ennakkotoimenpiteitä, kuten soveltuvien tiedostomuotojen tunnistamista varhaisessa vaiheessa tutkimusta. Haasteina nähtiin muun muassa puuttuvat prosessit tutkimusaineistojen elinkaaren hallinnassa, jonka kautta aineistojen pitkäaikaissäilyttämisen tarpeet tulisivat huomioiduksi tutkimuksen aikana, pitkäaikaissäilyttämisen teknisten vaatimuksien tunnistaminen, sopimukselliset asiat, ja sopivien aineistojen löytäminen pitkäaikaissäilttämisen pilointa varten.
Pitkäaikaissäilytyksen onnistuminen yleisemmin edellyttää selkeää prosessia, jossa organisaatiossa tunnistetaan säilytettävät aineistot ja vaadittavat toimenpiteet niiden pitkäaikaissäilyttämiseksi sekä haetaan opetus- ja kulttuuriministeriöltä säilytyspäätös. Lisäksi työpajoissa huomioitiin, että tiedostomuotojen säilytyskelpoisuus tulisi huomioida jo tutkimuksen alkuvaiheessa, niin että mahdollisuuksien mukaan valittaisiin data kerättäväksi ja tuotettavaksi pitkäaikaissäilytettävässä tiedostomuodossa.
Pitkäaikaissäilytyksen aloittamisen todettiin olevan helpointa 1-2 pilottiaineistosta, joiden tunnistetaan olevan riiittävän yksinkertaisia esim. dataan liiittyvien oikeuksien, tiedostomuotojen ja arvonmäärityksen osalta.
Datan arvonmääritys nousi esiin tärkeänä osana säilytyspäätöksiä. Sen toivottiin perustuvan monipuoliseen arviointiin: tieteelliseen, yhteiskunnalliseen, taloudelliseen ja ekologiseen näkökulmaan. Arvonmääritys auttaa määrittämään aineiston säilytysajan ja sopivan repositorion. Kansainväliset hankkeet, kuten EOSC EDEN, tarjoavat kehyksiä, joita voidaan hyödyntää myös kansallisesti datan arvonmääritykseen. Arvonmääritys ja sen jalkauttaminen osaksi datanhallinnan prosesseja ja aineistonhallintasuunnitelmia nähtiin keinona päästä kiinni pitkäaikaissäilyttämisen vaatimiin prosesseihin aikaisessa vaiheessa.
Fairdata PAS-palvelun nähtiin tarjoavan vakaan ratkaisun pitkäaikaissäilytykseen, jonka hyödyntäminen on kustannustehokasta ja teknisesti luotettavaa.
Arkaluonteiset tutkimusaineistot ja Sensitive Data -palvelut
Sensitive Data (SD) -palvelut ovat osa kansallista, opetus- ja kulttuuriministeriön rahoittamaa palvelutarjontaa, ja ne tarjoavat tutkijoille turvallisen ratkaisun arkaluonteisen aineiston käsittelyyn, säilytykseen ja julkaisemiseen. Työpajoissa keskusteltiin siitä, että palveluiden käyttöönotto voi vaatia enemmän ohjausta ja tukea kuin avoimempien ympäristöjen, koska ne on suunniteltu erityisesti korkeaa tietoturvaa vaativiin käyttötarkoituksiin.
Keskusteluissa nousi esiin tarve esim. Data Access Committee (DAC) -roolien määrittämiselle luvittamisen osalta, paikalliselle nimetylle tuelle sekä ohjeistukselle siitä, milloin ja miten SD-palveluita tulisi käyttää. Lisäksi pidettiin tärkeänä antaa tukea tutkijaryhmille, jotka haluavat testata palvelua oman tutkimuksensa tarpeisiin.
2 Comments
Antti Rousi
Jan 15, 2026Thank you for the useful summary! I think it does describe well the content discussed in the workshops. However, I wish that it would have been written in English as it is the main working language of our research data team
Juuso Marttila
Jan 22, 2026Olen eri mieltä siitä, voiko maDMP toimia masterina tai onko se edes tavoiteltavaa. Se on hyvä tiedonlähde muille järjestelmille, mutta koska se kertoo vain suunnitteluvaiheesta, tieto tulee elämään muualla. Jos jäädään katsomaan vain maDMP:n kautta, voi muita tärkeitä toimintoja/prosesseja jäädä vähemmälle huomiolle.