Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.

Aika: ke 7.2.2024 klo 12-13.30

Etäyhteys: https://aalto.zoom.us/j/65508601771

Kokouksen diaesitys: datan maaritelma.pptx

  1. Kokouksen avaaminen: puheenjohtaja avasi kokouksen klo 12.02. 
  2. Edellisen kokouksen muistio
  3. Ryhmän nimeäminen: sovittiin että ryhmän "lempinimi" on jatkossa DTK-ryhmä
  4. Käydään lävitse organisaatioiden ilmoittamia datankeruun ongelmia:
    • Aalto-yliopisto
      • Visuaalinen data: mikä on dataa ja mikä ei? Tämä tulkittu Aallossa datasetiksi: https://zenodo.org/records/8409340. Visuaalisessa datassa (yksi) keskeinen kysymys on se, onko kyseessä julkaisu/tuotos (esim. näyttely) vai data (esim. tuotokseen johtanut työ tai dokumentaatio). Tämä tulkittu jälkimmäiseksi (supplementary material). Ei kommentteja kokouksessa
      • Milloin kyseessä on Aalto-yliopiston data?
        • Esimerkkitapauksessa https://data.4tu.nl/datasets/6a696ee6-bed5-48b6-84cd-11385da2ee56/1  tekijät olleet Aalto-yliopistossa vierailijoina lyhyitä aikoja. Tulkittu myös Aalto-yliopiston dataksi, koska tekijät mainitsevat Aalto-yliopiston affiliaatioissa.  Samaan tapaan kuin julkaisuissa: jos affiliaatio laitettu, niin hyväksytään.
        • Tekijyys dataseteissä, mitä jos organisaation ainoa henkilö on Supervisor-roolissa datasetissä. Hyväksytäänkö se organisaation datasetiksi? Esim. https://zenodo.org/records/10554472 Itse tekijät Creator-roolissa, muut Contributor-roolissa (esim. supervisors). Pohdittava ohjeistuksessa. 
      • Tietoarkiston vai Etsimen URN omaan tutkimustietojärjestelmään? Aalto-yliopiston järjestelmään tullut Data Monitorista Etsimen kautta datasetti, joka on alun perin tallennettu Tietoarkistoon. Tietueeseen voisi merkitä URN:ksi 1) Tietoarkiston tai 2) Etsimen. Nyt merkitty Tietoarkiston URN. https://research.aalto.fi/en/datasets/memories-and-experiences-of-computer-use-2013 CSC: aikanaan annettu myös oma URN, vaikka on ollut myös alkuperäinen PID - uudemmille aineistoille ei pitäisi tällaisia syntyä. 
      • Kahdessa eri repositoriossa julkaistu sama datasetti: Validating the simulation of beam-ion charge exchange in MAST Upgrade, repoina Zenodo ja UKAEA (UK Atomic Energy Authority Open Data Portal) → yksi tietue organisaation metadatakatalogiin, kokouksessa ei kommentteja
      • Julkaisijaksi merkitty Etsimessä joskus Tutkija, Aallossa vaihdettu julkaisijaksi Fairdata DPS:ksi. CSC:n suositus: organisaatio julkaisijaksi; tarvitsee lisämäärittelyä (DPS viittaa PAS-palveluun), julkaisijasta tulossa tutkimusaineistojen kuvailuohjeeseen määritelmä.
      • Järjestelmäkommervenkki: yhteisötekijän merkitseminen datasetteihin. Pure-järjestelmässä ei ole datasettipohjassa mahdollisuutta luoda yhteisötekijää (esim. Aalto-yliopisto). Tämä kierretään siten, että luotiin henkilörekisteriin henkilö nimeltä Aalto-yliopisto. Pitäisikö datasetissä aina olla tekijä, voiko yhteisöä hyväksyä tekijäksi? Julkaisutiedonkeruun tekijyysohjeita voi soveltaa ohjeistuksissa, mutta toistaiseksi ei tarvetta olla niin tiukka. Yhteisötekijyys on määritelty julkaisutiedonkeruussa tarkkaan, mutta tämä ratkaisu kuulostaa tässä tilanteessa järkevältä. 
      • DOI ei aina takaa, että kyseessä on datasetti. Esim. Harvardin Dataverse: datasetin tiedostot ovat erillisiä tietueita, joilla kaikilla on oma DOI. https://dataverse.harvard.edu/dataset.xhtml?persistentId=doi:10.7910/DVN/2SH38FMille kaikelle annetaan pysyvä tunniste? Haaste niille, jotka antavat pysyviä tunnisteita: miten voisi olla ratkaistavissa? Itsenäiset objektit, joista kootaan datasetti - useista DOI:sta tulee haaste datatiedonkeruun kannalta. DOI ei aina tarkoita, että kyseessä on itsenäinen entiteetti. CSC:ltä kysytään välillä miksi yksittäiselle tiedostolle ei anneta DOI:ta, kun halutaan viitata vain yksittäiseen tiedostoon. CSC:ltä vastattu, että löydettävyyden kannalta mietittävä miten pienelle kokonaisuudelle kannattaa antaa DOI (esim. jos 5000 tiedostoa).  Aallossa ratkaistiin niin, että tuodaan vain päätietue ja yksittäisiä tiedostoja ei edes tuoda jatkossa järjestselmään. Lisäkysymys: miten julkaisuvuosi kirjataan karttuvissa dataseteissä? Aallossa laitettu julkaisuvuosi alkuperäisen julkaisuvuoden mukaan, vaikka uutta dataa tulee koko ajan lisää. Tätä hyvä pohtia.
    • Tampereen yliopisto
      • Mikä on dataa?
        • Miten suhtaudutaan additional/supplement-tiedostoihin? Milloin ne voidaan katsoa dataksi? (esim. https://doi.org/10.25384/SAGE.c.6210670.v1 , https://doi.org/10.25384/SAGE.c.6000090.v1Aallossa on hyväksytty tämäntapaisia (jos datasetti on artikkelin osa ja löytyy DOI, tosin jos ei-käytettävää esim. pdf-tiedosto, ei hyväksytty, mutta käytännössä horjuntaa). Tampereella on hyödynnetty artikkelin DAS-ilmoitusta (jos data on muualla kuin artikkelin liitteenä), ei ole otettu mukaan.  
        • Datamonitorin kautta tulee paljon figsharen tiedostoja, arviointi välillä vaikeaa. Tiedostot voivat olla moninaisia ja niitä voi olla paljon. Tuleeko Figsharen kaikille aladataseteille DOI - jäi epäselväksi? Aallossa saatettu tuoda välillä vahingossa "aladatasetti", mutta huomattu myöhemmin "päädatasetti" - poistettu aladatasetti ja tuotu vain päädatasetti ja laitettu tiedoksi aladatasetit. Figsharesta tulee Data Monitoriin paljon supplement-tiedostoja, joiden arviointi on hankalaa (dataa vai ei). 
        • Jos datakandidaattiin liittyy artikkeli, artikkelin DAS-ilmoitusta on hyödynnetty arvioinnissa ja validoinnissa Datoja ja julkaisuja ristiinlinkitetään.
        • Visuaaliset tai visualisoidut datat on luettu dataksi. Mutta mm. kristallisoinnit ovat mietityttäneet (DOI: 10.5517/ccdc.csd.cc24lg07Aallossa hyväksytty yksittäiset kristallisoinnit, samoin Tampereella otettu yksittäiset.
        • Joskus vain pieni osa kokonaisdatasta on voitu julkaista, milloin kokonaisuus on tarpeeksi ollakseen dataa? (esim. metodit) Figsharessa on tullut vastaan metodeja, joita ei ole välttämättä otettu mukaan. Pitäisikö metodit kuitenkin hyväksyä erilliseksi metadatatietueiksi? Vaatii määrittelyä mihin kuuluu – ei datojen alle vaan menetelmiin (maailmalla on kv-palveluja, joihin metodeja voi tallentaa)
      • Ohjelmistojen eri versiot (software) (esim. DOI 10.5281/zenodo.844625)
        • Versiot voivat olla toisistaan poikkeavia ja niitä voi olla paljon. Versiot voivat olla myös otsikoitu eri tavoin.
        • Yleisenä linjauksena versioiden kohdalla on ollut se, että tallennetaan vain viimeinen versio. Vanhemmat versiot ovat yleensä lähdetietokannassa uudemman yhteydessä tai esim. Zenodossa niille on yhteinen doi.
        • Kirjataanko versiotietoa jotenkin?
        • Tampereella ja Aallossa ei ole kirjattu. Aallossa lisätty kuvauskenttään lisätieto siitä, että tämä versio vastaa sitä tilannetta, kun datasetti on tuotu järjestelmään ensimmäisen kerran. 
      • Miten määritellään julkaisija/publisher?
        • Tämä olisi hyvä määrittää tarkemmin, mikä/kuka on julkaisija milloinkin (esim. CSC vai etsin/fairdata-palvelut, figshare vai sage/springer…). Pääsääntöisesti olemme laittaneet arkiston/tietokannan/palvelun tarjoajan, mutta meneekö se niin? Aallossa käytetty tekijänä Fairdata DPS:tä (DPS viittaa PAS-palveluun), ei CSC:tä. CSC käyttäisi jopa organisaatiota, jolla on oikeus jaella aineistoa. Tarvitsee lisämäärittelyä! Julkaisijasta tulossa tutkimusaineistojen kuvailuohjeeseen määritelmä.
      • Datamonitorin päivitykset
        • Ongelmana: päivitys korvaa jo validoidut tiedot uusilla tiedoilla. Ei olla käytetty sen vuoksi.
    • Metropolia amk
      • Mikä on dataa TKI-hankkeissa?
        • TKI-hankkeissa tuotetaan monenlaista aineistoa. Hankala määritellä, mistä kaikesta kannattaa kerätä tietoa: laaja määritelmä datasta vs. tiukempi tutkimusdatan määritelmä 
          • Laaja määritelmä datasta = poissuljetaan käytännössä lähinnä julkaisut, oppimateriaalit, viestintämateriaalit ja hallinnolliset dokumentit
        • Nyt usein arvioitu jatkokäyttöpotentiaalin ja aineiston säilyttämisen kannalta
      • Ei kommentteja kokouksessa
    • Oulun yliopisto
      • Datatiedonkeruuta ollaan vasta aloittamassa, mutta julkaistuihin metadatoihin on jo tehty alustava katsaus Datamonitorin ja Etsimen kautta.

      • Mikä katsotaan dataksi?
        • Käsitellään datana jos kerätty nimenomaiseen tutkimukseen, ei tulosten koonteja kaavioiksi tai tilastollisiksi yhteenvedoiksi, oppimateriaaleja, esitelmädioja, kirjallisia raportteja jne. Ei kommentteja kokouksessa
        • Esim. julkaisujen supplementary materiaaleissa monenlaista sisältöä. Jokainen tarkasteltava erikseen. Hyvä olla tarkkana. Kuka toimii portinvartijana/kuratoijana, mitä hyväksytään mukaan?
        • Entä kuvat? Esimerkki biodiversiteettitutkimuksesta: ovatko mikroskooppikuvat/DNA-määritysten tulokset dataa, kun lajeja tunnistetaan, kuvataan ja inventoidaan näiden perusteella (jokaisella oma DOI)? Suhtaudutaanko niihin eri tavoin jos ovat kuvana julkaisussa vai supplementaryssa? Aallossa ei oteta julkaisun osana olevia kuvia, supplementary-materiaalia ei ole hyväksytty ilman DOI:ta.
      • Yleisesti:
        • Julkaistujen metadatojen määrien seurantaan on ilmennyt tarvetta mutta vertailu lukumäärinä hankalaa ilman selkeitä määritelmiä (esim. onko koko datasetin metadata laskettu yhtenä tietueena vs. jokainen erikseen). Tärkeä erityisesti jos aletaan ottaa mukaan AVOTT-seurantaan. Olennaista hahmottaa miten lukumääriä lasketaan. Ohjeistuksessa tärkeä pohtia tätä? Määrien mukaan seuranta saattaa johtaa siihen, että ilmoitetaan liian pieniä kokonaisuuksia. Mikä on järkevää?
        • Olisi tärkeää pystyä näyttämään uusin versio myös haravoidusta metadatasta, koska näyttämällä ajantasaiset tiedot voidaan tukea sitä jos tutkija haluaa rikastaa metadataansa jälkikäteen. Resurssien kannalta voi olla hankala toteuttaa
  5. Muuta kokouksessa käsiteltyä:
    1. Miten organisaatiot keräävät tietoa datastaan? Usein: tutkimustietojärjestelmän kautta (esim. Tampereella ja Aallolla Data Monitor Pure-integraationa, Oulussa Data Monitor käytössä ilman kytköstä tutkimustietojärjestelmään)
    2. Tuotiin esiin tutkimuksen datan hallinnan viitearkkitehtuurityö, jossa menetelmät, koodit, algoritmit ja työvuot ovat yhtenä pohdittavana näkökulmana Projektisuunnitelma - tutkimuksen datan hallinnan viitearkkitehtuuri, ks. myös workflowt kategoriana: https://marketplace.sshopencloud.eu/
  6. Sovittiin, että pienryhmä alkaa työstää ohjetta: Pienryhmän jäseniä ovat Eeva Savolainen ja Laura Mure Aallosta, Päivi Leinonen Oulusta, Kaisa Kylmälä Tampereelta - jos löytyy lisää kiinnostuneita, tervetuloa mukaan!
  7. Seuraava kokous: huhtikuun viikolla 17, Aalto doodlettaa tarkemmin. Ohjeiskuryhmä tapaa aiemmin.