Tämän skenaarion alkuperäinen lähde: Tuula Tutkijan tarina

KUVAUS


Tuula Tutkija on arvostettu apulaisprofessori korkeakoulussaan. Tutkimusalansa johtoryhmän jäsenenä hänen täytyy ymmärtää mitä tutkimuksen palveluita ja miten järkevästi näitä oikeasti käytetään, ja käytetäänkö rajallisia resursseja tuottavasti monenlaisiin tutkimuksen palveluiden hankintoihin. 

Tutkimustyö alkaa vähitellen siirtyä yhä laajemmin erilaisiin ekosysteemeihin, joissa akateeminen yhteisö, työnantajat, erilaiset julkaiset organisaatiot tekevät yhteistyötä. Tämä edellyttää uudenlaista ajattelua myös infran ja tiedonhallinnan kannalta.

Suurimpia haasteita Tuulan työssä on tutkimuksessa syntyvän (osin sensitiivisen) tiedon hallinta. Dataa syntyy tutkimuksen aikana valtavia määriä, ja tästä tietty osa pitää pystyä tallentamaan myös projektin jälkeen hyödynnettäväksi oman organisaation lisäksi alansa kansainväliselle tutkijayhteisölle. Lisäksi tutkimus tehdään yhteistyössä yksityisen yrityksen kanssa, jonka henkilökuntaa on mukana projektissa ja joka hyödyntää syntyvää dataa. Tutkimuksen rahoittajat ja muut päättäjät edellyttävät, että Tuulan hankkeella on todennettavissa oleva datan/tiedonhallinan suunnitelma. Hyvinkin erilaisten datasettien yhdistäminen luo merkittäviä mahdollisuuksia uusille tutkimusinnovaatioille. Aineistot eivät välttämättä ole levytilan määrässä mitaten valtavia, mutta niiden heterogeenisyys vaatii datan esikäsittelyä ja mallintamista tutkimustyön helpottamiseksi. Vuonna 2030 Tuulalla on käytössään hyvät koneoppimiseen pohjautuvat työkalut tähän työhön. Työkalut auttavat vielä vuonna 2020 haastaviltakin tuntuvissa kohdissa kuten videohaastatteluiden automaattisessa annotoinnissa.

Luottamuksellisen aineiston hallintaan hänelle on käytössään selkeä ohjeistus, jonka mukaan hän itsekin pystyy tunnistamaan, milloin tarvitaan erityisiä suojaustoimia. Tarvittavien suojaustoimien tason mukaan hän löytää helposti ne alustapalvelut, jotka hänellä on käytettävissään. Palvelun käytön kustannukset on huomioitu rahoituksessa. Kansallisen identieetin avulla Tuulalla on pääsy keskeisiin kansallisiin palveluihin. Hän voi periyttää kansallista identieettiä eri korkeakouluille ja tutkimusryhmillekin. Aineistot ja palvelut on luokiteltu niin, että tunnistautumisen tasosta riippuen, vahvasti tunnistettu vai ei, henkilö saa erilaisia palveluita käyttöönsä. 
Erityisesti arkaluontoisen datan yhdistelylle on käytettävissä turvallinen ympäristö, joka ei ole riippuvainen datan tuottajasta.

Tuulan tutkimusryhmä tarvitsee runsaasti laskentakapasiteettia ja monia työvälineitä tiedon analysointia varten. Suuri osa ’raskaammasta’ työstä tehdään oman organisaation ulkopuolisten (pilvi)palvelun tarjoajien järjestelmillä ja valmisohjelmistoilla. Monet tutkijat kuitenkin kokevat haasteena järjestelmien käytettävyyden ja sopivien toimintamallien löytämisen oman tutkimuksen kannalta. Omien ideoiden pienimuotoisempi testaus tutkimusta varten räätälöidyillä algoritmeilla ei toimi lainkaan tai riittävän joustavasti ulkopuolisten toimittajien laskenta- ja datan analytiikkatyökalujen ympäristöissä.


KOMMENTIT


Värien koodaus: 

  • Pohdinta​
  • Kritiikki​
  • Suora korjaus​
  • Askel tiekartalla (backcasting)​


  • Ei pelkästään datan määrä, vaan myös sen laatu ratkaisee. Isoillakaan datamäärillä ei tee välttämättä mitään, jos se ei ole lähtökohtaisesti hyödynnettävässä muodossa. Jos olen oikein ymmärtänyt, esimerkiksi digitaalisten ihmistieteiden kentällä lähtödatan siivoaminen on valtava työ. Miten saadaan jatkossa entistä laadukkaampaa, kuratoitua ja metatiedoilla rikastettua dataa jakoon? Kuka luokittelun tekee - ihminen vai keinoäly, tutkimusavustaja vai botti?
  • Datan määrän ollessa suuri sitä ei voida enää siirtää paikasta toiseen. Tutkimuksen kansainvälisyyden myötä syntyy suuria kansainvälisiä tietovarantoja, joihin tutkija tunnistautuu korkeakoulunsa/kansallisen tunnistuksen kautta. Kansallisesti ylläpidetään vain suppeampia tietovarantoja. Dataan kiinni pääseminen saattaa edellyttää tutkimussuunnitelman yhteydessä tehtyä aineistonhallintasuunnitelmaa, joka kulkee tutkimuksen koko elinkaaren mukana. ​ Jos tietovaranto sisältää sensitiivistä dataa, vaatii kirjautuminen vahvempaa tunnistusta. Tällöin on mekanismi, jolla tieto tunnistamisen vahvuudesta välittyy tunnistuksen tekevän korkeakoulun järjestelmistä eri tietovarantoihin. Euroopan laajuisesti on yhtenäiset tavat toimia. Tämä edellyttää kansainvälisiä sopimuksia ja teknisiä järjestelyitä.​ Sensitiivisen datan ympäristöissä datan sisään ja ulos luku rekisteröidään ja pääsy on kytketty tutkimussuunnitelmaan, jonka pitää voida elää tutkimuksen aikana. Datan käsittely rajoitetaan niin, että data ei jää tutkijan päätelaitteelle esim. käyttämällä virtuaalisia työpöytiä. Sensitiivistä dataa varten on erilliset palvelut mm. kyselyjärjestelmät.​ Jos dataa käytetään laskennassa, pitää data saada laskennan ulottuville. Suurten datamassojen tapauksessa datan siirto verkon yli ei ole mahdollista. Tällöin pitää voida yhdistää erilaisia dataan liittyviä virtuaalisia palveluita tietovarantojen yhteyteen. Tutkija voi valita virtuaalisesta palvelukatalogista tarvitsemansa palvelun, jonka käytöstä maksetaan käytön mukaan tutkijan "tutkimussaldosta".​
  • Skenaario on suoraviivainen ja toteutettavissa korkeakoulun sisällä, kunhan saadaan päätös siitä, että johonkin muuhun nyt menevää resurssia siirretään dataintensiivisemmän tutkimuksen tukeen.​
  • Koska korkeatasoista tutkimusta tehdään kuitenkin yli korkeakoulu- ja maarajojen, ratkaisu löytynee tieteenalakohtaisista kansainvälisistä konsortioista.
  • No labels