Aika: ma 22.4.2024 klo 12-13.30 

Etäyhteys: https://aalto.zoom.us/j/67693903768

Paikalla: Laura Mure (Aalto-yliopisto) (pj), Eeva Savolainen (Aalto-yliopisto) (sihteeri), Erja Kortelainen (CSC), Juha Lehtonen (CSC), Juuso Marttila (Jyväskylän yliopisto), Päivi Leinonen (Oulun yliopisto), Kaisa Kylmälä (Tampereen yliopisto), Liisa Näpärä (HY), Timo Lahtinen (HY), Essi Lempiäinen (Turun yliopisto), Sonja Sipponen (CSC), Taisa Sallinen (Itä-Suomen yliopisto), Katja Halonen (Turun yliopisto), Nina-Mari Salminen (Luke), Minna Ala-Mantila (CSC)


  1. Puheenjohtaja Laura Mure avasi kokouksen klo 12.02.
  2. Käytiin läpi edellisen kokouksen muistio
  3. Datatiedonkeruun ohjeen kommentit:
    1. Ohjeen tämänhetkistä rakennetta pidettiin yleisesti toimivana (myöhemmissä kommenteissa joitakin ehdotuksia osioiden siirroista). Toivottiin, että lisätään kohta datasettien relaatioista (lähtökohtana esim. Dataciten skeema, isPartOf jne.)
    2. Johdantoon: Terminologiaa (data vs. aineisto, esim. humanistit puhuvat usein aineistoista myös digitaalisen aineiston kohdalla), ohjeen fokus (julkaistu data vs. julkaisematon data, josta on tallennettu metatietoja, keskitytään julkaistuun?), kohdan 2.3 datatyypit siirto tänne (otsikolla Datan tunnistaminen), mukaan myös kohta 2.5 ja 2.6. 
    3. Kohta 2.1: Datan tekijyys 2.2
      1. Ohjeluonnoksessa teksti: "Data voidaan hyväksyä organisaation dataksi myös tapauksessa, jossa organisaation ainoa tekijä on toiminut supervisor-roolissa, koska supervisor-rooli on projektin kannalta merkittävä. Esimerkki: https://zenodo.org/doi/10.5281/zenodo.10407222. (Kysymys ryhmälle: onko tällainen linjaus ok vai pitäisikö tällaiset jättää pois organisaation dataseteistä?)." → Voidaan tallentaa organisaation dataksi, mutta on oltava selvää missä suhteessa data on organisaatioon (onko tekijällä author- vai esim. supervisor-suhde → Metaxissa Contributor). Tarkistetaan asia vielä tutkijalta. 
      2. Yhteisötekijyys. Eräissä repositorioissa (esim. NIMH ja SRA) tekijöiltä voi puuttua affiliaatio tai tekijänä on organisaatio ilman tekijöitä. Harvestoinnissa joudutaan usein tyytymään siihen tietoon mitä saadaan. Metax hyväksyy tekijäksi organisaation. Jatkossa pohdittavaksi: mikä voisi olla yhteismitallinen tapa ilmaista "tekijää ei tunneta".
      3. Lisäesimerkki: esim. CERNin data, jossa 1000 tekijää → hyväksytäänkö organisaation dataksi?
    4. Kohta 2.2 Pysyvät tunnisteet → 2.3
      1. URN → pelkkä URN ei riitä Metaxiin, vaan pitää olla URI-muodossa (eli URL), tämä on haaste esim. SRA:n kanssa.
      2. DOI: Lisäysehdotus "Käytetään tutkimusaineistoille soveltuvaa DOI:ta (esim. DataCite)." 
      3. Fairdata-palveluissa pelkkä metadata saa URN:n. Kun data on IDA:ssa, myös metadata voi saada DOI:n. Jyväskylässä pelkälle metatiedollekin voidaan antaa DOI. 
      4. Pitäisikö Tutkijoita voi ohjeistaa kuvailemaan -kohtaa muuttaa (Onko Qvaimen mainiteminen liian spesifiä? Kaikilla kuvailu ei ole CRISissä?)
    5. Kohta 2.3 Datatyypit → 2.1
      1. Mihin tätä jakoa tarvitaan? Voisi periaatteessa käyttää suodattamiseen, esim. kristallografiadatan pois suodatus, mutta Metax ei ota datatyyppiin tällä hetkellä kantaa, joten suodatus ei toimi. Todettiin, että osion tarkoituksena on toimia apuna validoijille, jotka pohtivat mikä kaikki voi olla dataa. 
      2. Muutetaan otsikkoa: Datatyypit → Datan tunnistaminen, esimerkit: esimerkkejä erilaisista datoista. Data voi olla myös tietokanta, esim.  https://www.soundtoll.nl/ (esimerkkiä voisi nostaa?)
      3. Sijainti voisi olla johdannossa. 
      4. PAS:illa on tiedostomuotoluettelo eli säilytyksessä käytettävät tiedostomuodot. Jaettu: teksti, audio, kuva, video, tilasto, paikkatieto. Jos dataa tuotetaan, säilytyskelpoisia muotoja kannattaa suosia, jos sellaisia on. PAS:n tiedostomuodot: https://urn.fi/urn:nbn:fi-fe2020100578095
    6. Kohta 2.4 Versiot
      1. Avataan/sanotaan ääneen: Versioista raportoidaan vain yksi.
    7. Kohta 2.5 Supplementary data
      1. Onko tässä kyseessä enemmän datatyyppi / datan tunnistaminen? Tämän voisi siirtää datan tunnistaminen -kohtaan johdantoon. 
    8. Kohta 2.6 TKI-hankkeet ja data
      1. Tämän voisi siirtää johdanto-kohtaan. 
    9. Kohdat 2.7 Dataperhe → 2.5 ja 2.8 Datan osajulkaisu → 2.6
      1. Ovatko sama asia vai kaksi eri asiaa?→ Kaksi eri asiaa eli pidetään erillisinä kohtina.
      2. 2.7 -kohdan esimerkki on ehkä pikemminkin datasetti, pitäisikö dataperhe-termiä käyttää vaikka sulkeissa (vai käytetäänkö tässä yhteydessä ollenkaan)? Kyseessä on enemmän järjestelmän (esim. Figshare) ominaisuus/tapa ryhmitellä aineistoja. Jokainen tiedosto saa oman DOI:n, ja haravointityökalut tarjoavat kutakin tiedostoa erillisenä tietueena, mutta relaatioita "pääkuvailuun" ei ole määritelty. Jos kullakin tiedostolla olisi oma kuvaileva metatieto, voisi ottaa erillisinä tietueina. Tässä tapauksessa järkevämpää tallentaa ainoastaan pääkuvailu. 
      3. 2.8: "Erillisinä tietoina" → tietueina? Datan kuvailu osissa voi olla tärkeää löydettävyyden/metatiedon hallinnan kannalta (esim. iso tutkimushanke: data jaoteltava palasiin, jotta annettu kuvailu koskee koko datasettiä). Esimerkki 1 (ohjeessa): useampana vuonna toteutettu iso datasetti, johon kuuluu useita datasettejä, "subset of Clotho dataset". Esimerkki 2 (LIPAS Liikuntapaikkatietokanta JYX): https://jyx.jyu.fi/handle/123456789/78293, snapshot 2 x vuodessa. Lipas-aineiston kuvailu, ja alla osajulkaisuja, jotka on kuvailtu omaksi kokonaisuudekseen. Metatietotason sateenvarjokuvailu, joka sitoo ja mahdollistaa relaatioiden tekemisen. 
  4. Muita kommentteja/ehdotuksia/keskustelua
    1. Keskustelua järjestelmistä: Jyväskylä: Converis ja DSpace-pohjainen JYX (Converiksessa voi näkyä metatietoja jo ennen kuin aineisto on julkaistu JYX:issä), HY: datapankki, jossa aineistoa ei julkaista, metatiedot tulossa DSpace-pohjaiseen katalogiin, Purea ei käytetä lainkaan. Aalto: Pure-järjestelmä metadatakatalogina, tulossa Media Repository.
    2. Metaxiin pitäisi saada tieto siitä, onko metadata validoitu vai ei 
    3. Julkaisija-kohtaan: esimerkki tapauksesta, jossa organisaatio toimii vain julkaisijana mutta ei tekijänä (Jyväskylä)?
  5. Datatiedonkeruussa eteen tulleita tapauksia → Käsitellään seuraavalla kerralla. 
    1. Aalto: Opiskelijoiden tekemät datasetit → Hyväksytäänkö datatiedonkeruuseen? Huom! spcon | Kielipankki. -> vrt. Avoimessa linjauksessa kehotetaan opiskelijoita ja ohjaamaan tuottamaan oppimateriaalia yhdessä, joten voisiko rinnastaa tutkimusaineiston ja oppimateriaalin toisiinsa.
    2. Aalto: Data Monitor -työkaluun tuli Fairdatasta ehdolle samasta PAS palveuun tallennetusta datasetistä useita eri versioita. Tallennettiin se, jossa oli kattavimmat tiedot (datasetin nimessä mainittu "preview"-termi oli tutkijan oma lisäys) ja linkitettiin muut versiot: https://research.aalto.fi/en/datasets/entrapped-pores-concrete-preview 
    3. Aalto: Tapaus: tutkija haluaa GitLab-repositoriolleen DOI:n ja pyytää sitä tutkimustietojärjestelmästä, jonne aikoo tallentaa pelkän metadatan, sillä GitLab repo on jatkuvasti päivittyvä. CRISin metadatassa linkki GitLab-repoon. Miten tällaisiin pyyntöihin on suhtauduttu? Onko DOI myönnetty? Jyväskylä: GitLabista otetaan snapshot ja kuvaillaan ja julkaistaan JYX:issä.
  6. Seuraava kokous
    1. Viikolla 40 tai 41, Aalto doodlettaa tarkemmin. Jatkossa kokoukset Teamsissa. 
  • No labels