Aika: 2.10.2024 klo 10-11.30
Paikalla: Laura Mure (Aalto-yliopisto, pj), Eeva Savolainen (Aalto-yliopisto, sihteeri), Beatrice Koponen (Aalto-yliopisto), Erja Kortelainen (CSC), Juha Lehtonen (CSC), Antti Laurila (Itä-Suomen yliopisto), Teemu Järvinen (Itä-Suomen yliopisto), Minna Rahnasto-Rilla (Itä-Suomen yliopisto), Nina-Mari Salminen (Luke), Riikka Leppä (Maanmittauslaitos), Tanja Heikkilä (Maanmittauslaitos), Päivi Leinonen (Oulun yo), Kaisa Kylmälä (TAU), Riikka Heikkonen (TAU), Katja Halonen (Turun yo), Essi Lempiäinen (Turun yliopisto), Jani Päivärinta (Vaasan yliopisto), Katja Laine (Vaasan yliopisto)
1.Puheenjohtaja Laura Mure avasi kokouksen klo 10.02.
2. Tarkistettiin edellisen kokouksen muistio.
3. Datatiedonkeruun ohje
Käsiteltiin DTK-iskuryhmän kokoamaa datatiedonkeruun ohjetta.
Johdanto
- CSC ei (enää, tällä hetkellä) haravoi aineistojen metatietoja. Organisaatio voi tuoda aineistojensa metatietoja Fairdatan kautta Tiedejatutkimus.fi:hin. Korjataan muotoilua tämän mukaan.
- Avataan johdantoon vielä keskeisin terminologia (esim. metatieto, data/aineisto)
2.1 Datan tunnistaminen
- Muutetaan sanamuotoa "on käytetty" → "on käytetty tai voidaan käyttää" (kattaa myös tapaukset, joissa dataa kerätään viranomaistehtävänä ja tapaukset, joissa metadata julkaistaan ennen dataa)
2.2 Pysyvät tunnisteet
- Lisätään esimerkki ohjelmistoihin/koodiin liittyvistä pysyvistä tunnisteista
- Lisätään esimerkki/kommentti siitä, minkä version pysyvää tunnistetta suositellaan käytettäväksi (esim. Zenodon master-DOI)
2.3 Tekijyys
- Keskusteltiin tapauksista, joissa on suuri määrä tekijöitä. Pitäisikö kirjata kaikki tekijät vai esimerkiksi muutama ensimmäinen ja oman organisaation tekijät, jos tietoja ei pysty importoimaan toisesta järjestelmästä, vaan ne joutuu kirjaamaan käsin? Vain oman organisaation tekijää/tekijöitä ei kannata kirjata, ettei tule harhaanjohtavaa kuvaa aineiston tekijyydestä. Todettiin, että tällä hetkellä tietoja pääsääntöisesti importoidaan eri lähteistä. Jos Qvaimessa on tarvetta tällaisessa, yksittäistapauksissa voi olla yhteydessä CSC:n servicedeskiin. Jos tarve toistuu, CSC voi miettiä tähän ratkaisua.
2.4 Versiot
- Osioon ei tullut suoria kommentteja, mutta keskusteltiin siitä, monitoroidaanko järjestelmissä sitä, minkä version tiedot siellä ovat ja mikä on ero muihin versioihin. Todettiin, että tiedot versioista löytyvät lähderepositoriosta, niitä ei ole käytännössä mahdollista seurata organisaatioiden omissa järjestelmissä, joihin tietoja haravoidaan.
2.5 Datasetit
- Termi dataperhe on jäänyt esimerkkiin → korjataan
2.6 Datan osajulkaisu
- Ei kommentteja
2.7 Versio, datasetti vai osajulkaisu
- Ei kommentteja
3. Tietueiden minimitiedot
- Ei kommentteja
4. Julkaisija
- Keskusteltiin julkaisijan käsitteestä aineistojen osalta. Todettiin, että julkaisijalle tarvitaan datatiedonkeruun ohjeistukseen tarkempi määritelmä. Keskustelu jäi kesken, ja sitä jatketaan seuraavassa kokouksessa.
- Metaxissa jako menee siten, että julkaisija (publisher) on organisaatio, joka on vastuussa aineistosta ja Fairdata on alusta (source). (Metaxissa ei kuitenkaan ole vielä source-kenttää).
- Julkaisija (publisher) ja alusta (source) voivat olla myös sama taho.
- Organisaatioilla on tarve tietää, millä alustalla aineistoja on julkaistu (esim. Zenodo, Fairdata), eli tämä tieto pitäisi saada jotenkin mukaan järjestelmiin.
- Keskusteltiin Tampereen esimerkistä: Kumpi on julkaisija, Figshare vai Springer? https://doi.org/10.6084/m9.figshare.c.6586615.v1 Springer on julkaisija (publisher), Figshare on alusta (source). Toisaalta voisi tulkita myös niin, että tämän esimerkin kaltaisessa tilanteessa julkaisija olisi aineistosta vastuussa oleva organisaatio (esim. Tampereen yliopisto).
- Tampereen esimerkin rinnalle oli nostettu JYX, jossa Dspace on alusta ja JYX on julkaisija. Kokouksessa nostettiin kysymyksenä esiin Jyväskylän yliopiston rooli tällaisessa tapauksessa, onko julkaisija siis arkisto (JYX) vai yliopisto?
- Jos data on Dryadissa, joka kuratoi dataa, voiko silloin ajatella, että Dryad on julkaisija (eikä alusta)?
- Pohdittiin myös, miksi Tiedejatutkimus.fi:ssä Tietoarkiston aineistot menevät Tampereen yliopiston alle. Tämä johtuu siitä, miten Metax haravoi aikanaan Tietoarkiston metatietoja. Tulisi yhtenäistää käytäntöä siitä, mihin kohtaan organisaatiotieto on järkevä laittaa.
- Todettiin, että aiheesta tarvitaan lisää keskustelua.
5. Julkaisupäivämäärä
- Tarkennetaan, että jos julkaistaan vain metatiedot, silloin julkaisupäivämäärän määrittää metadatan julkaisupäivämäärä, muissa tapauksissa datan/aineiston julkaisupäivämäärä.
6. Datan saatavuustiedot
- Tarkennus: "Ota yhteyttä tutkijaan → Ota yhteyttä tutkijaan tai organisaatioon"
- Muutetaan termiä kohdassa rajoitettu pääsy: tuottaja → omistaja
7. Datasettien relaatiot
- Ei kommentteja
8. Datatyypit
- Lisätään tähän kohtaan maininta PAS:sta
- Lisätään luvun alkuun maininta/huomautus, että luku sisältää esimerkkejä eikä ole kaikenkattava/tyhjentävä. Jos jotakin tapausta ei ole listattu esimerkeissä, ei tarkoita, etteikö kyseessä olisi data/tutkimusaineisto (esim. PDF on nyt esimerkeissä tekstin kohdalla, mutta voisi olla tiedostomuotona myös visuaalisen datan kohdalla).
5. Ilmoitusasiat
- AVOTTilla on tulossa webinaari 13.11.2024. Indikaattorikehitys vuoden 2026 AVOTT-seurantaan. Kannattaa osallistua ja päästä vaikuttamaan datasettien indikaattoreihin: Indikaattorikehitys vuoden 2026 AVOTT-seurantaan | Avoin tiede
6. Tulevia kokousaiheita
- Julkaisijan käsite (ks. muistion kohta 3., luku 4).
- Haravointimenetelmät (miten esim. Jyväskylässä tietoja haravoidaan, muita esimerkkejä?)
- CSC:llä käynnissä olevat kehityshankkeet
- Datatiedonkeruussa eteen tulleita tapauksia ja ongelmakohtia:
- Aalto: Opiskelijoiden tekemät datasetit → Hyväksytäänkö datatiedonkeruuseen? Huom! spcon | Kielipankki. -> vrt. Avoimessa linjauksessa kehotetaan opiskelijoita ja ohjaajia tuottamaan oppimateriaalia yhdessä, joten voisiko rinnastaa tutkimusaineiston ja oppimateriaalin toisiinsa.
- Aalto: Data Monitor -työkaluun tuli Fairdatasta ehdolle samasta PAS palveuun tallennetusta datasetistä useita eri versioita. Tallennettiin se, jossa oli kattavimmat tiedot (datasetin nimessä mainittu "preview"-termi oli tutkijan oma lisäys) ja linkitettiin muut versiot: https://research.aalto.fi/en/datasets/entrapped-pores-concrete-preview
- Aalto: Tapaus: tutkija haluaa GitLab-repositoriolleen DOI:n ja pyytää sitä tutkimustietojärjestelmästä, jonne aikoo tallentaa pelkän metadatan, sillä GitLab repo on jatkuvasti päivittyvä. CRISin metadatassa linkki GitLab-repoon. Miten tällaisiin pyyntöihin on suhtauduttu? Onko DOI myönnetty? Jyväskylä: GitLabista otetaan snapshot ja kuvaillaan ja julkaistaan JYX:issä.
- Mikä voisi olla yhteismitallinen tapa ilmaista se, että tekijää ei tunneta?
- Metaxissa contributor-roolilla olevat tekijät eivät listaudu viitteeseen, olisiko syytä?