34 osallistujaa
Agenda
- Toiminnon esittely
- Toiminnallisuuksien esittely
- Avoimet kysymykset ConceptBoardilla
- Miten jatketaan ensimmäisen suunnittelukokouksen jälkeen?
Muistiinpanot
- Noutajan esittely, kalvot
- Kommentti: Tiedejatutkimus.fi:n ja Etsimen tulkinnat organisaatiotiedosta poikkeaa toisistaan ja tiedoissa voi olla virheitä Tiedejatutkimus.fi:n puolella
- Vastaus tapaamisen jälkeen
- Tämä johtuu siitä, että Tiedejatutkimus.fi osaa näyttää aineiston oikeaan organisaatioon affilitoituneena vain, jos organisaation koodi on tuotu oikein.
- Kiinnitetään koodien käyttöön erityistä huomiota Noutajan toteutuksesta (selvitetään Metaxin mahdollisuudet mäpätä koodeja).
- Vastaus tapaamisen jälkeen
- Kommentti: Useita eri affiliaation nimityksiä pitäisi tunnistaa.
Kommentti: tärkeä pointti. Osaratkaisuina voi ehkä pohtia virallisia lähteitä (esim. ISNI/ROR -organisaatiotunnisteiden kautta), erilaisia sanastoja, mutta vaikkapa myös Named Entity Recognition -tyylisiä kielentunnistusteknologioita.
Kommentti: Meillä tämä on usein ongelma. Paljon löytyy ihan henkilöiden nimillä ja artikkeleiden viitteistä meidän datoja, jotka eivät muuten osuisi hakuihin organisaatiolla.
- Kysymys: Kenellä oikeus organisaatioissa käyttää noutajaa?
- Tuleva Qvain pääkäyttäjä alustavasti → positiivinen vastaanotto idealle
- Qvain-pääkäyttäjä tulossa käyttöön loppusyksystä
- Kysymys: Qvain pääkäyttäjästä: onko vain yksi henkilö?
- Voi olla niin monta kuin tarve
- Kysymys: Miten aineistot näytetään Etsimessä
- Granulariteettiongelma: voi olla, että tietystä organisaatiosta on 1 tekijä kahdensadan muun joukossa. Näitä aineistoja voi olla paljon, jolloin näkyvyys organisaation muihin aineistoihin katoaa. Filtteröintiominaisuudet tulisi olla hyviä.
- Joskus dataa yhdessä aineistossa yksi tiedosto ja aineistoja tuhansia, versus isompina kuvailuina, tuottaa haasteita
- Ratkaisuja tähän voidaan miettiä, esim. automaattinen yhdistäminen Fairdata-palvelussa
- Kysymys: Millä perusteella Noutaja hakee tietoja? Hakeeko mukaan lähtevien organisaatioiden tietoja organisaation antamien affiliaatioiden mukaan? Eli noutokriteerit muovautuvat sen mukaan, ketkä lähtevät mukaan.
- Hakee organisaation tiedoilla. Organisaatio itse voi määritellä millä kaikilla nimillä se tunnistetaan aineistoista
- Kysymys; Voiko palvelua testata ja miten tähän liitytään
- Palvelun käyttöä pääsee testaamaan vaiheittain
- Kun palvelu testattavissa, niin ilmoitetaan CSC:lle, että on mukana (maksutonta) ja määritellään hakukriteerit
- Kommentti; Datamonitori Elsevieriltä käytössä aiemmin, joka tunnisti affiliaatiotietoja → välillä yhden datasetin takaa löytyy lisää → miten tämä toimisi Noutajan kanssa? Voiko organisaatio edelleen lisätä löytämiään muitakin kautta?
- Voi lisätä
- Voisi myös "pyytää" noutajaa hakemaan itse löydetyn datasetin esim. PIDin perusteella
- Kommentti: Esim. Figsharessa iso ongelma affiliaation tunnistaminen.
- Kommentti: Tiedejatutkimus.fi:n ja Etsimen tulkinnat organisaatiotiedosta poikkeaa toisistaan ja tiedoissa voi olla virheitä Tiedejatutkimus.fi:n puolella
- Käyttöliittymäluonnosten esittely
- Kysymys: Olisiko omien datasettien puolella joku mahdollisuus saada tiedot myös ulos, esim. csv:na tms.?
- Tarjotaan lähdejärjestelmän muodossa vähintäänkin
- Myös metax -tietomallin muodossa
- Kysymys: Onko tarkoitus tehdä konversioita lähteen muodosta toiseen?
- Kyllä, konvertointi on tehtävä, jotta aineistot saadaan Metaxiin
- Pääkäyttäjyysristiriidat?
- Miten toimitaan jos monta tekijää, ja yksi pääkäyttäjä hyväksyy aineiston jossa esim. kahden organisaation affiliaatiot, ja tämän toisen organisaation pääkäyttäjä on sitä mieltä ettei aineisto oikeastaan ole heidän?
- Kysymys liittyy myös siihen, miten Etsin näyttää aineistot (esim. näyttääkö Etsin aineiston vain toisen organisaation aineistona, jossa sitten sattuu olemaan myös toisen organisaation henkilö tekijänä)
- Metatietojen linkitys toisiinsa: esim. aineistokuvailu julkaistu aiemmin, mutta sama kuvailu julkaistaan myöhemmin muualla → eri PID:it → näiden yhdistäminen toisiinsa olisi hienoa
- On myös mahdollista, että tutkija on linkittänyt jo datan ulkoisesta lähteestä Qvaimessa ja se tuotaisiin nyt myöhemmin Noutajan toimesta uudestaan.
- On tärkeä pystyä kertomaan, että näissä kahdessa on kyse samasta aineistosta
- On myös mahdollista, että tutkija on linkittänyt jo datan ulkoisesta lähteestä Qvaimessa ja se tuotaisiin nyt myöhemmin Noutajan toimesta uudestaan.
- Kuratoinnissa haasteena myös tulkinta. Zenodossa ja Figsharessa on esim. kuvia ja supplementary-taulukoita, joissa on tulkinnanvaraista että onko ne varsinaisia tutkimusaineistoja vai ei. Esim. valokuvia voi tulla Zenodon kautta hyvin paljon. Olisi hyvä että eri organisaatioilla olisi näistä samantyyppiset tulkinnat
- FIN-ARMAn alla työryhmä jossa on annettu kriteereihin liittyen ohjeita. Tätä voisi jatkokehittää.
- Kysymys: Olisiko omien datasettien puolella joku mahdollisuus saada tiedot myös ulos, esim. csv:na tms.?
- Conceptboard -läpikäynti
- Linkki: https://app.conceptboard.com/board/6gtx-h2oi-a63m-rh1p-21ck
- Mistä palveluista?
- Mistä aloittaa?
- POC Zenodolla tai DataCitellä
- Organisaatioilla on haasteita esim. NIH-geenipankin kanssa
- HepData (CERN) → löytyy paljon dataa
Pure-CRIS on ottanut juuri käyttöön DataCiten haravoinnin. DataCitestä saa metadatan oikeassa muodossa joten POC:ina helppo. Se haravoi jo valmiiksi useaa lähdettä (esim. Zenodo)
- Onko tietoa miten kattavaa DataCiten haravointi on, onko metadataa tippunut pois?
- Esim. Zenodon osalta todennäköisesti riittävää
- Monista palveluista on voitu lähettää vain hyvin minimaaliset tiedot DataCiteen
- Tätä voisi kuitenkin käyttää siihen, että löytää aineiston DOI:n ja pääsee alkuperäiseen lähteeseen kiinni, josta taas voi hakea rikkaammat kuvailutiedot
- Onko tietoa miten kattavaa DataCiten haravointi on, onko metadataa tippunut pois?
Kannatan myös Zenodoa. Sieltä löytyisi helposti pientenkin organisaatioiden datoja, joilla ei mahdollisuutta omiin haravointeihin.
Ammattikorkeakouluilla ei tietääkseni ole CRISejä, joten amkeille kaikki haravointi hyödyllistä.
- Mistä aloittaa?
- Mitä haku- ja tunnistamiskriteerejä?
- Affiliaatioiden muutokset ajan kanssa hankaloittavat haravointia
- Käytännössä usein tarvitsee hakea henkilöllä, ei organisaatiolla
- ORCID hyvin käytössä Zenodossa (tällöin organisaation pitäisi tietää relevantit ORCID-tunnisteet)
- Julkaisujen löytyessä olisi hienoa, jos siihen liittyvät aineistot pystyisi lähettämään Noutajalle haettavaksi organisaation toimesta
- Onko paljon aineistoja jotka käyttää muita kuin DOI:ta?
- Ainankin URN käytössä
- voi olla, että jotkut dataversen instanssit käyttää pelkkiä handleja, eivät DOI:ta
- Miten importoituja kuvailuja selattaisiin?
- AMK-näkökulma: saisiko näitä Justukseen?
- Metaxista aineistot haravoidaan Justukseen (tulossa oleva ominaisuus)
- AMK-näkökulma: saisiko näitä Justukseen?
- Aineistojen näkyminen Etsimessä?
- Verified ja unverified -ajatuksella? (riippuen kuratoinnin nopeudesta)
- Kuvailutietojen laatu / hakukriteerien osuvuus → Löytyykö paljon "kelpaamatonta", joka sitten turhaan tulisi näkyviin
- Conceptboardin oikeanpuolimmaisin vaihtoehto (filttereissä erikseen lähdejärjestelmä ja erikseen organisaatio) vaikuttaa parhaalta. Tämä käytössä myös tiedejatutkimus.fi:ssä. Tämä näyttää aineiston vain kerran, vaikka
- Onko kuratoijalla käyttäjälle väliä? → Kuratoija voisi näkyä jossain metadatassa, mutta ei välttämättä Etsimen haussa
- Etsimen fasettien epätarkkuus (Organisaation alla esim. Zenodo, tämä tieto voi olla myös kentässä "Julkaisija" eikä välttämättä tekijä-kentässä) → filtteri jatkokehitykseen Fairdatassa, lähemmäs Tiedejatutkimus.fi:n filttereitä
- Ovatko tutkimusinfrastruktuurit tai muut temaattiset "yhteisöt" olennainen asia näiden haravointien esittämisessä?
- Riippuu siitä miten metatiedoissa ilmaistaan tutkimusinfrastruktuurit. Riippuu lähdejärjestelmästä. Olisi hyviä lisätietoja, mutta niille ei ole välttämättä yhteisissä tietomalleissa paikkaa
- Osalla tutkimusinfroista on omat dedikoidut datarepositorionsa, joten voivat haravoinnissakin olla lähde, mutta tekijöiden affiliaatieto voi vaihdella, tai sitten infra lakitoimihenkilönä voi olla jonkin korkeakoulun (osittain) omistama/rahoittama tjms.
- Verified ja unverified -ajatuksella? (riippuen kuratoinnin nopeudesta)
- Muita kysymyksiä
- "Roskakori"-ominaisuus: Yhteinen roskakori jossa voisi näkyä eri organisaatioiden hylkäämiä aineistoja ja hylkäyssyitä. Voivat olla relevantteja muille organisaatioille.
- Roskakori voisi olla myös Noutajan omassa käytössä aineistoille, joiden affiliaatio on jäänyt epäselväksi (suomalaiset aineistot, joilla ei virallista suomalaista tekijää, yritysten tekemä tutkimus...)
- Aineiston muuttuminen alkuperäislähteessä
- Tämän käsittely riippuu siitä, miten lähdepalvelu kertoo aineiston muuttumisen
- "Roskakori"-ominaisuus: Yhteinen roskakori jossa voisi näkyä eri organisaatioiden hylkäämiä aineistoja ja hylkäyssyitä. Voivat olla relevantteja muille organisaatioille.
Aiheen jatkotyöstö
- Yhteinen tapaaminen 8.12.2025. CSC laittaa kutsun, jota voi tarpeen mukaan jakaa edelleen.
- Keskustelu tervetullutta chat.csc.fi:ssä (jos sinulla ei ole Fairdata-yhteiskehittämisen kanavalle kutsua, ota yhteys fairdata@csc.fi)
- Myös ConceptBoardia saa täydentää! https://app.conceptboard.com/board/6gtx-h2oi-a63m-rh1p-21ck