Section | ||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
|
Mikä on VIRTA-julkaisutietopalvelu?
Korkeakoulujen valtakunnallinen tietovaranto VIRTA on järjestelmä, jonka kautta korkeakoulujen tuottamat tiedot ovat saatavilla yhdestä, tehokkaasta rajapintapalvelusta. Suunnitellussa VIRTA-julkaisutietopalvelussa tutkimusorganisaatiot voivat säilyttää kopiota osasta oman tutkimustietojärjestelmänsä tai julkaisurekisterinsä tietosisältöä (vrt. VIRTA-Opintotietopalvelu sisältää soveltuvin osin kopiot korkeakoulujen opintotietojärjestelmistä). Lisäksi organisaatioiden toimittamia tietoja rikastetaan tietovarannossa tietyiltä osin (esim. organisaatioiden välisten yhteisjulkaisujen tunnistaminen, Julkaisufoorumiluokan määrittäminen).
Tiedon tuottajan näkökulmasta tietovaranto on tekninen ratkaisu, jolla tietoja siirtyy tietojärjestelmistä toisiin – tieto avataan muiden käyttöön. Esimerkiksi viranomaiset voivat poimia tiedonkeruissa tarvittavia tietoja suoraan tietovarannosta, jolloin viranomaisraportointi yksinkertaistuu.
Taulukko 1. Nykyinen OKM:n tiedonkeruu ja VIRTA-julkaisutietopalvelun mahdollistama tavoitetila.
Nykytilanne (OKM-tiedonkeruu) | Tavoitetila (VIRTA-julkaisutietopalvelu) | |
Sisältyvät organisaatiot | Korkeakoulut | Korkeakoulut, valtion tutkimuslaitokset, sairaanhoitopiirit |
Tiedonsiirtomuoto | csv | XML (CERIF?) |
Päivityssykli | Kerran vuodessa | Esim. päivittäin, tilastopoiminta vuosittain |
Ajallinen kattavuus | Tietoja vuodesta 2011 | Tietoja mahdollista tuoda historiasta |
Tietojen korjattavuus | Tietoja ei voida korjata | Tietoja voidaan korjata |
Liittyvät palvelut | JUULI, Vipunen | JUULI, Vipunen + esim. rahoitushakemukset (SA, säätiöt), datakatalogit, hankerekisterit |
Tekijätunnisteet | Nimi | Nimi, ORCID |
Yhteisjulkaisut | Manuaalinen yhdistäminen | Automaattinen yhdistäminen |
JUFO-tasot | Manuaalisesti julkaisuille, vuosittainen arviointi | Automaattisesti julkaisuille, jatkuva arviointi |
|
Miksi?
Tavoitteena on toteuttaa tietovaranto, jonka jatkuvasti päivittyvänä tietosisältönä ovat kaikkien suomalaisten tutkimusorganisaatioiden julkaisut - myös mahdollisilta osin historiasta.
Tarkoituksena on, että korkeakoulujen julkaisutiedonkeruu OKM:lle toteutetaan jatkossa tulevaisuudessa VIRTA-julkaisutietopalvelun kautta. Päätavoite kuitenkin on kaikista suomalaisista tutkimusorganisaatioista yhteen koottujen julkaisutietojen hyödyntäminen tulevaisuudessa jatkossa erilaisten tutkijoille ja viranomaisille tarjottavien palveluiden ja muiden prosessien osana (esim. muiden viranomaisten tiedonkeruut, tietopyynnöt, tutkimusrahoittajien hakemus- ja raportointipalvelut, hankerekisterit, kansalliselle tasolle kerättyjen julkaisujen /tutkimusaineistojen/hankkeiden metatietojen linkittäminen, Julkaisufoorumi).
Lisäksi tavoitteena on, että kerättävien julkaisutietojen laatu paranee, kun tutkimusorganisaatioille tarjotaan edellytykset tietojen ajantasaiseen esittämiseen, korjaamiseen ja täydentämiseen, ohjeistusta parannetaan ja tutkimusorganisaatioiden yhteistyötä tiedonkeruussa edistetään.
Muut julkaisutiedonkeruun kehittämiskohteet
VIRTA-julkaisutietopalvelun toteutuksen lisäksi OKM:n julkaisutiedonkeruun kehittämiseen liittyy CSC:n toteuttamana seuraavia osakokonaisuuksia:
- Julkaisutiedonkeruun laajentaminen valtion tutkimuslaitoksiin ja yliopistollisiin sairaaloihin
- Tutkijan identifiointi kansallisella tasolla (ORCID-selvitys)
- Julkaisukanavatietokannan sisällöllinen kehittäminen ja integrointi julkaisutiedonkeruuseen
Mitä tehdään vuonna 2015?
Vuoden 2015 aikana
- Toteutetaan prosessi ja tarvittavat rajapinnat julkaisutietojen lataamiseksi automaattisesti ja ajantasaisesti tutkimusorganisaatioiden omista järjestelmistä VIRTA-julkaisutietopalveluun
- Toteutetaan automaattinen julkaisutietojen tarkistusprosessi julkaisutiedonkeruun vaatimuksia vastaavalla tavalla.
- Valmistellaan vuoden 2016 alussa tehtävä pilotti, jossa kerätään vuoden 2015 julkaisutiedot halukkaista pilottiorganisaatioista VIRTA-julkaisutietopalveluun.
- Ylläpidetään edelleen nykymallista vuosittaista tiedonkeruuta niille organisaatioille, joilla ei ole vielä edellytyksiä siirtää tietoja VIRTA-julkaisutietopalvelun kautta
- Annetaan teknistä tukea tutkimusorganisaatioille vanhanmallisen OKM-julkaisutiedonkeruun CSV-tiedoston muuttamiseksi VIRTA-julkaisutietopalvelun määritysten mukaiseksi
- Kartoitetaan tutkijalle ja viranomaisille tarjottavat palvelut, joissa VIRTA-julkaisutietopalvelua voidaan tulevaisuudessa hyödyntää ja valmistellaan toimenpidesuunnitelma julkaisutietojen hyödyntämiseksi valittujen palveluiden kehittämisessä
- Tuetaan tietolähteiden eli korkeakoulujen ja tutkimuslaitosten oman toiminnan saattamista tietovirran edellyttämälle tasolle
- Toteutetaan selvitys ORCID-tutkijatunnisteen käyttöönotosta kansallisella tasolla sekä mahdollinen toteutus OKM:n jatkotoimeksiannon mukaisesti
- Toteutetaan Julkaisufoorumin julkaisukanavatietokantaan tarvittavat sisällölliset ja tekniset muutokset, jotta se olisi mahdollisimman hyvin tutkimusorganisaatioiden hyödynnettävissä ja integroitavissa VIRTA-julkaisutietopalveluun
- Valmistellaan valtion tutkimuslaitosten ja yliopistolliset sairaaloiden liittymistä julkaisutiedonkeruuseen muutamien pilottiorganisaatioiden kanssa
- Luodaan VIRTA-julkaisutietopalvelun yhteyshenkilöverkosto
Tietosisällöt
Tietosisällölle on asetettava erikseen sovittavia vaatimuksia ja tarkistuksia, jotta tietojen yhteismitallisuus ja hyödyntäminen on mahdollista VIRTA-julkaisutietopalvelun tavoitteiden saavuttamiseksi.
Kuva 1. Julkaisuista korkeakouluilta nykyisin kerättävät metatiedot OKM:n julkaisutiedonkeruussa.
Tietyiltä osin VIRTA-julkaisutietopalveluun voidaan kuitenkin hyväksyä myös epätäydellinen, puutteellinen ja mahdollisesti virheellinenkin tieto. Tiedot voidaan näyttää ajantasaisesti JUULI-julkaisutietoportaalissa, mutta tällöin organisaation tulee täydentää kunkin tilastovuoden tiedot OKM:n tiedonkeruun vaatimusten mukaiseksi tiedonkeruiden aikatauluihin mennessä. Esimerkiksi tiettyjä luokittelutietoja (esim. ”kansainvälinen yhteisjulkaisu” -tieto) voidaan tuoda vuosittain julkaisun viitetietojen täydennykseksi julkaisun tunnisteen perusteella. Tietovarannosta toimitetaan säännöllisesti takaisin organisaatioille tiedon laatua kuvaava raportti, jonka perusteella varantoon lähetettäviä tietoja voidaan täydentää. Rinnalla kehitetään ja ylläpidetään toistaiseksi edelleen myös nykymallista poikkileikkausaineistojen keräämistä niille organisaatioille, joilla ei ole vielä valmiuksia tuottaa tietoja automaattisena ja jatkuvana tiedonsiirtona.
Näistä käytännöistä Käytännöistä neuvotellaan vielä tarkemmin korkeakoulujen ja tutkimuslaitosten kassa. Tavoitteena on , että sovitaan sopia yksi käytäntö, jota kaikki osapuolet noudattavat.
Kuva 2. Julkaisutiedonkeruun prosessi VIRTA-julkaisutietopalvelussa. Nykymallista tiedonkeruuta ylläpidetään rinnalla.
Tekninen toteutus
Tietovaranto vaatii toimiakseen sitä, että korkeakoulut lähettävät säännöllisesti julkaisutiedot, yhteisesti sovittua formaattia hyväksikäyttäen kansalliseen tietovarantoon. VIRTA-julkaisutietopalvelun osalta on päätetty ehdottaa, että tämä tiedosto muoto on XML, joka noudattaa CERIF-määrityksiä soveltuvilta osiltaan.
CERIF
CERIF on tietomalli jota ylläpitää ja kehittää euroCRIS (www.eurocris.org) – voittoa tavoittelematon eurooppalainen yhteenliittymä, jonka tarkoituksena on kehittää tutkimustietojärjestelmiä ja niiden yhteensopivuutta.
EuroCRIS:n kotisivuilta löytyvät tietomallin määritys sekä siihen liittyvät sisällölliset - tekniset kuvaukset, sekä tarvittavat XSD-määritykset esimerkki tiedostoineen. Osa suomalaisilla tutkimusorganisaatioilla käytössä olevista tutkimustietojärjestelmistä tukee CERIF-tietomallia sellaisenaan ja mahdollistaa tiedon siirtämisen järjestelmien välillä kyseistä mallia hyödyntäen.
CSC antaa tarvittaessa tukea ja ohjeita tiedonsiirtojen tekemistä ja mahdollisuuksien mukaan myös siirtotiedostojen luomista varten. Tarkoituksena on tukea myös OKM:n julkaisutiedonkeruun nykymallisen CSV-tiedoston konvertoimista XML-määritysten mukaiseen muotoon.
XML-tiedoston muodostaminen
Siirtotiedosto voidaan muodostaa joko siten, että aina toimitetaan koko aineisto, tai inkrementaalisesti niin, että ns. alkulatauksen jälkeen (ensimmäisellä kerralla kaikki julkaisutiedot) tuodaan julkaisutietovarantoon vain uudet tai muuttuneet tiedot. Toinen vaihtoehto on, että toimitetaan aina kaikki tiedot, esimerkiksi sovittujen vuosien ajalta, jolloin muuttuneet ja uudet tiedot pitää tarvittaessa tunnistaa VIRTA-julkaisutietopalvelun päässä.
Tiedonsiirto
Tietojen siirtäminen julkaisutietovarantoon tapahtuisi suojatun ja varmennetun yhteyden yli. Projektissa suositellaan käytettäväksi SFTP-protokollaa. Tunnistautuminen palveluun tapahtuu SSH-avaimia hyödyntäen. Lisäksi pääsy itse palvelimelle on rajattu palomuurein ja sallittu ainoastaan nimetyistä IP-osoitteista. SFTP-palvelua voidaan tarvittaessa käyttää tietojen siirtoon kumpaankin suuntaan – myös julkaisutietojärjestelmästä korkeakouluun tai tutkimuslaitokseen päin.
VIRTA-julkaisutietopalveluun tietoja siirtävillä organisaatioilla tulee olemaan mahdollisuus tarkistaa tietosisältö itse julkaisutietopalvelussa ja seurata latausten onnistumista. Virhetilanteissa latauksessa voidaan toimittaa sähköpostihälytys tai tarvittaessa raportoida muuten.
Uuden siirtotavan rinnalla kehitetään ja ylläpidetään myös vanhaa CSV-pohjaista tiedonsiirtoa siirtymäkauden ajan.
Kuva 3. Tietojen siirto tutkimusorganisaatiosta VIRTA-julkaisutietopalveluun.
Kysy lisää
Hanna-Mari Puuska, projektipäällikkö, p. 050 3818 568
Raine Rapo, tekninen vastuuhenkilö