https://aalto.zoom.us/j/65508601771
Kokouksen diaesitys: datan maaritelma.pptx
- Mikä on dataa?
- Miten suhtaudutaan additional/supplement-tiedostoihin? Milloin ne voidaan katsoa dataksi? (esim. https://doi.org/10.25384/SAGE.c.6210670.v1 , https://doi.org/10.25384/SAGE.c.6000090.v1 ) Aallossa on hyväksytty tämäntapaisia (jos datasetti on artikkelin osa ja löytyy DOI, tosin jos ei-käytettävää esim. pdf-tiedosto, ei hyväksytty, mutta käytännössä horjuntaa). Tampereella on hyödynnetty artikkelin DAS-ilmoitusta (jos data on muualla kuin artikkelin liitteenä), ei ole otettu mukaan.
- Datamonitorin kautta tulee paljon figsharen tiedostoja, arviointi välillä vaikeaa. Tiedostot voivat olla moninaisia ja niitä voi olla paljon. Tuleeko Figsharen kaikille aladataseteille DOI - jäi epäselväksi? Aallossa saatettu tuoda välillä vahingossa "aladatasetti", mutta huomattu myöhemmin "päädatasetti" - poistettu aladatasetti ja tuotu vain päädatasetti ja laitettu tiedoksi aladatasetit. Figsharesta tulee Data Monitoriin paljon supplement-tiedostoja, joiden arviointi on hankalaa (dataa vai ei).
- Jos datakandidaattiin liittyy artikkeli, artikkelin DAS-ilmoitusta on hyödynnetty arvioinnissa ja validoinnissa Datoja ja julkaisuja ristiinlinkitetään.
- Visuaaliset tai visualisoidut datat on luettu dataksi. Mutta mm. kristallisoinnit ovat mietityttäneet (DOI: 10.5517/ccdc.csd.cc24lg07) Aallossa hyväksytty yksittäiset kristallisoinnit, samoin Tampereella otettu yksittäiset.
- Joskus vain pieni osa kokonaisdatasta on voitu julkaista, milloin kokonaisuus on tarpeeksi ollakseen dataa? (esim. metodit) Figsharessa on tullut vastaan metodeja, joita ei ole välttämättä otettu mukaan. Pitäisikö metodit kuitenkin hyväksyä erilliseksi metadatatietueiksi? Vaatii määrittelyä mihin kuuluu – ei datojen alle vaan menetelmiin (maailmalla on kv-palveluja, joihin metodeja voi tallentaa)
- Miten suhtaudutaan additional/supplement-tiedostoihin? Milloin ne voidaan katsoa dataksi? (esim. https://doi.org/10.25384/SAGE.c.6210670.v1 , https://doi.org/10.25384/SAGE.c.6000090.v1 ) Aallossa on hyväksytty tämäntapaisia (jos datasetti on artikkelin osa ja löytyy DOI, tosin jos ei-käytettävää esim. pdf-tiedosto, ei hyväksytty, mutta käytännössä horjuntaa). Tampereella on hyödynnetty artikkelin DAS-ilmoitusta (jos data on muualla kuin artikkelin liitteenä), ei ole otettu mukaan.
- Ohjelmistojen eri versiot (software) (esim. DOI 10.5281/zenodo.844625)
- Versiot voivat olla toisistaan poikkeavia ja niitä voi olla paljon. Versiot voivat olla myös otsikoitu eri tavoin.
- Yleisenä linjauksena versioiden kohdalla on ollut se, että tallennetaan vain viimeinen versio. Vanhemmat versiot ovat yleensä lähdetietokannassa uudemman yhteydessä tai esim. Zenodossa niille on yhteinen doi.
- Kirjataanko versiotietoa jotenkin?
- Tampereella ja Aallossa ei ole kirjattu. Aallossa lisätty kuvauskenttään lisätieto siitä, että tämä versio vastaa sitä tilannetta, kun datasetti on tuotu järjestelmään ensimmäisen kerran.
- Miten määritellään julkaisija/publisher?
- Tämä olisi hyvä määrittää tarkemmin, mikä/kuka on julkaisija milloinkin (esim. CSC vai etsin/fairdata-palvelut, figshare vai sage/springer…). Pääsääntöisesti olemme laittaneet arkiston/tietokannan/palvelun tarjoajan, mutta meneekö se niin? Aallossa käytetty tekijänä Fairdata DPS:tä (DPS viittaa PAS-palveluun), ei CSC:tä. CSC käyttäisi jopa organisaatiota, jolla on oikeus jaella aineistoa. Tarvitsee lisämäärittelyä! J
- Tämä olisi hyvä määrittää tarkemmin, mikä/kuka on julkaisija milloinkin (esim. CSC vai etsin/fairdata-palvelut, figshare vai sage/springer…). Pääsääntöisesti olemme laittaneet arkiston/tietokannan/palvelun tarjoajan, mutta meneekö se niin? Aallossa käytetty tekijänä Fairdata DPS:tä (DPS viittaa PAS-palveluun), ei CSC:tä. CSC käyttäisi jopa organisaatiota, jolla on oikeus jaella aineistoa. Tarvitsee lisämäärittelyä! J
- Datamonitorin päivitykset
- Ongelmana: päivitys korvaa jo validoidut tiedot uusilla tiedoilla. Ei olla käytetty sen vuoksi.
- Mikä on dataa?
- Metropolia amk
- Mikä on dataa TKI-hankkeissa?
- TKI-hankkeissa tuotetaan monenlaista aineistoa. Hankala määritellä, mistä kaikesta kannattaa kerätä tietoa: laaja määritelmä datasta vs. tiukempi tutkimusdatan määritelmä
- Laaja määritelmä datasta = poissuljetaan käytännössä lähinnä julkaisut, oppimateriaalit, viestintämateriaalit ja hallinnolliset dokumentit
- Nyt usein arvioitu jatkokäyttöpotentiaalin ja aineiston säilyttämisen kannalta
- TKI-hankkeissa tuotetaan monenlaista aineistoa. Hankala määritellä, mistä kaikesta kannattaa kerätä tietoa: laaja määritelmä datasta vs. tiukempi tutkimusdatan määritelmä
- Ei kommentteja kokouksessa
- Mikä on dataa TKI-hankkeissa?
- Oulun yliopisto
Datatiedonkeruuta ollaan vasta aloittamassa, mutta julkaistuihin metadatoihin on jo tehty alustava katsaus Datamonitorin ja Etsimen kautta.
- Mikä katsotaan dataksi?
- Käsitellään datana jos kerätty nimenomaiseen tutkimukseen, ei tulosten koonteja kaavioiksi tai tilastollisiksi yhteenvedoiksi, oppimateriaaleja, esitelmädioja, kirjallisia raportteja jne. Ei kommentteja kokouksessa
- Esim. julkaisujen supplementary materiaaleissa monenlaista sisältöä. Jokainen tarkasteltava erikseen. Hyvä olla tarkkana. Kuka toimii portinvartijana/kuratoijana, mitä hyväksytään mukaan?
- Entä kuvat? Esimerkki biodiversiteettitutkimuksesta: ovatko mikroskooppikuvat/DNA-määritysten tulokset dataa, kun lajeja tunnistetaan, kuvataan ja inventoidaan näiden perusteella (jokaisella oma DOI)? Suhtaudutaanko niihin eri tavoin jos ovat kuvana julkaisussa vai supplementaryssa? Aallossa ei oteta julkaisun osana olevia kuvia, supplementary-materiaalia ei ole hyväksytty ilman DOI:ta.
- Yleisesti:
- Julkaistujen metadatojen määrien seurantaan on ilmennyt tarvetta mutta vertailu lukumäärinä hankalaa ilman selkeitä määritelmiä (esim. onko koko datasetin metadata laskettu yhtenä tietueena vs. jokainen erikseen). Tärkeä erityisesti jos aletaan ottaa mukaan AVOTT-seurantaan. Olennaista hahmottaa miten lukumääriä lasketaan. Ohjeistuksessa tärkeä pohtia tätä? Määrien mukaan seuranta saattaa johtaa siihen, että ilmoitetaan liian pieniä kokonaisuuksia. Mikä on järkevää?
- Olisi tärkeää pystyä näyttämään uusin versio myös haravoidusta metadatasta, koska näyttämällä ajantasaiset tiedot voidaan tukea sitä jos tutkija haluaa rikastaa metadataansa jälkikäteen. Resurssien kannalta voi olla hankala toteuttaa
- Julkaistujen metadatojen määrien seurantaan on ilmennyt tarvetta mutta vertailu lukumäärinä hankalaa ilman selkeitä määritelmiä (esim. onko koko datasetin metadata laskettu yhtenä tietueena vs. jokainen erikseen). Tärkeä erityisesti jos aletaan ottaa mukaan AVOTT-seurantaan. Olennaista hahmottaa miten lukumääriä lasketaan. Ohjeistuksessa tärkeä pohtia tätä? Määrien mukaan seuranta saattaa johtaa siihen, että ilmoitetaan liian pieniä kokonaisuuksia. Mikä on järkevää?