34 osallistujaa

Agenda


Muistiinpanot

  • Noutajan esittely, kalvot
    • Kommentti: Tiedejatutkimus.fi:n ja Etsimen tulkinnat organisaatiotiedosta poikkeaa toisistaan ja tiedoissa voi olla virheitä Tiedejatutkimus.fi:n puolella
      • Vastaus tapaamisen jälkeen
        • Tämä johtuu siitä, että Tiedejatutkimus.fi osaa näyttää aineiston oikeaan organisaatioon affilitoituneena vain, jos organisaation koodi on tuotu oikein.
        • Kiinnitetään koodien käyttöön erityistä huomiota Noutajan toteutuksesta (selvitetään Metaxin mahdollisuudet mäpätä koodeja).
    • Kommentti: Useita eri affiliaation nimityksiä pitäisi tunnistaa.
      • Kommentti: tärkeä pointti. Osaratkaisuina voi ehkä pohtia virallisia lähteitä (esim. ISNI/ROR -organisaatiotunnisteiden kautta), erilaisia sanastoja, mutta vaikkapa myös Named Entity Recognition -tyylisiä kielentunnistusteknologioita.

      • Kommentti: Meillä tämä on usein ongelma. Paljon löytyy ihan henkilöiden nimillä ja artikkeleiden viitteistä meidän datoja, jotka eivät muuten osuisi hakuihin organisaatiolla.

    • Kysymys: Kenellä oikeus organisaatioissa käyttää noutajaa?
      • Tuleva Qvain pääkäyttäjä alustavasti → positiivinen vastaanotto idealle
      • Qvain-pääkäyttäjä tulossa käyttöön loppusyksystä
    • Kysymys: Qvain pääkäyttäjästä: onko vain yksi henkilö?
      • Voi olla niin monta kuin tarve
    • Kysymys: Miten aineistot näytetään Etsimessä
      • Granulariteettiongelma: voi olla, että tietystä organisaatiosta on 1 tekijä kahdensadan muun joukossa. Näitä aineistoja voi olla paljon, jolloin näkyvyys organisaation muihin aineistoihin katoaa. Filtteröintiominaisuudet tulisi olla hyviä.
      • Joskus dataa yhdessä aineistossa yksi tiedosto ja aineistoja tuhansia, versus isompina kuvailuina, tuottaa haasteita
        • Ratkaisuja tähän voidaan miettiä, esim. automaattinen yhdistäminen Fairdata-palvelussa
    •  Kysymys: Millä perusteella Noutaja hakee tietoja? Hakeeko mukaan lähtevien organisaatioiden tietoja organisaation antamien affiliaatioiden mukaan? Eli noutokriteerit muovautuvat sen mukaan, ketkä lähtevät mukaan.
      • Hakee organisaation tiedoilla. Organisaatio itse voi määritellä millä kaikilla nimillä se tunnistetaan aineistoista
    • Kysymys; Voiko palvelua testata ja miten tähän liitytään
      • Palvelun käyttöä pääsee testaamaan vaiheittain
      • Kun palvelu testattavissa, niin ilmoitetaan CSC:lle, että on mukana (maksutonta) ja määritellään hakukriteerit
    • Kommentti; Datamonitori Elsevieriltä käytössä aiemmin, joka tunnisti affiliaatiotietoja → välillä yhden datasetin takaa löytyy lisää → miten tämä toimisi Noutajan kanssa? Voiko organisaatio edelleen lisätä löytämiään muitakin kautta?
      • Voi lisätä
      • Voisi myös "pyytää" noutajaa hakemaan itse löydetyn datasetin esim. PIDin perusteella
    • Kommentti: Esim. Figsharessa iso ongelma affiliaation tunnistaminen.
  • Käyttöliittymäluonnosten esittely
    • Kysymys: Olisiko omien datasettien puolella joku mahdollisuus saada tiedot myös ulos, esim. csv:na tms.?
      • Tarjotaan lähdejärjestelmän muodossa vähintäänkin
      • Myös metax -tietomallin muodossa
    • Kysymys: Onko tarkoitus tehdä konversioita lähteen muodosta toiseen?
      • Kyllä, konvertointi on tehtävä, jotta aineistot saadaan Metaxiin
    • Pääkäyttäjyysristiriidat?
      • Miten toimitaan jos monta tekijää, ja yksi pääkäyttäjä hyväksyy aineiston jossa esim. kahden organisaation affiliaatiot, ja tämän toisen organisaation pääkäyttäjä on sitä mieltä ettei aineisto oikeastaan ole heidän?
      • Kysymys liittyy myös siihen, miten Etsin näyttää aineistot (esim. näyttääkö Etsin aineiston vain toisen organisaation aineistona, jossa sitten sattuu olemaan myös toisen organisaation henkilö tekijänä)
    • Metatietojen linkitys toisiinsa: esim. aineistokuvailu julkaistu aiemmin, mutta sama kuvailu julkaistaan myöhemmin muualla → eri PID:it → näiden yhdistäminen toisiinsa olisi hienoa
      • On myös mahdollista, että tutkija on linkittänyt jo datan ulkoisesta lähteestä Qvaimessa ja se tuotaisiin nyt myöhemmin Noutajan toimesta uudestaan.
        • On tärkeä pystyä kertomaan, että näissä kahdessa on kyse samasta aineistosta
    • Kuratoinnissa haasteena myös tulkinta. Zenodossa ja Figsharessa on esim. kuvia ja supplementary-taulukoita, joissa on tulkinnanvaraista että onko ne varsinaisia tutkimusaineistoja vai ei. Esim. valokuvia voi tulla Zenodon kautta hyvin paljon. Olisi hyvä että eri organisaatioilla olisi näistä samantyyppiset tulkinnat
      • FIN-ARMAn alla työryhmä jossa on annettu kriteereihin liittyen ohjeita. Tätä voisi jatkokehittää.
  • Conceptboard -läpikäynti
    • Linkki: https://app.conceptboard.com/board/6gtx-h2oi-a63m-rh1p-21ck 
    • Mistä palveluista?
      • Mistä aloittaa?
        • POC Zenodolla tai DataCitellä
        •  Organisaatioilla on haasteita esim. NIH-geenipankin kanssa
        • HepData (CERN) → löytyy paljon dataa
      • Pure-CRIS on ottanut juuri käyttöön DataCiten haravoinnin. DataCitestä saa metadatan oikeassa muodossa joten POC:ina helppo. Se haravoi jo valmiiksi useaa lähdettä (esim. Zenodo)

        • Onko tietoa miten kattavaa DataCiten haravointi on, onko metadataa tippunut pois?
          • Esim. Zenodon osalta todennäköisesti riittävää
          • Monista palveluista on voitu lähettää vain hyvin minimaaliset tiedot DataCiteen
          • Tätä voisi kuitenkin käyttää siihen, että löytää aineiston DOI:n ja pääsee alkuperäiseen lähteeseen kiinni, josta taas voi hakea rikkaammat kuvailutiedot
      • Kannatan myös Zenodoa. Sieltä löytyisi helposti pientenkin organisaatioiden datoja, joilla ei mahdollisuutta omiin haravointeihin.

      • Ammattikorkeakouluilla ei tietääkseni ole CRISejä, joten amkeille kaikki haravointi hyödyllistä.

    • Mitä haku- ja tunnistamiskriteerejä?
      • Affiliaatioiden muutokset ajan kanssa hankaloittavat haravointia
      • Käytännössä usein tarvitsee hakea henkilöllä, ei organisaatiolla
      • ORCID hyvin käytössä Zenodossa (tällöin organisaation pitäisi tietää relevantit ORCID-tunnisteet)
      • Julkaisujen löytyessä olisi hienoa, jos siihen liittyvät aineistot pystyisi lähettämään Noutajalle haettavaksi organisaation toimesta
      • Onko paljon aineistoja jotka käyttää muita kuin DOI:ta?
        • Ainankin URN käytössä
        • voi olla, että jotkut dataversen instanssit käyttää pelkkiä handleja, eivät DOI:ta
    • Miten importoituja kuvailuja selattaisiin?
      • AMK-näkökulma: saisiko näitä Justukseen?
        • Metaxista aineistot haravoidaan Justukseen (tulossa oleva ominaisuus)
    • Aineistojen näkyminen Etsimessä?
      • Verified ja unverified -ajatuksella? (riippuen kuratoinnin nopeudesta)
        • Kuvailutietojen laatu /  hakukriteerien osuvuus → Löytyykö paljon "kelpaamatonta", joka sitten turhaan tulisi näkyviin
      • Conceptboardin oikeanpuolimmaisin vaihtoehto (filttereissä erikseen lähdejärjestelmä ja erikseen organisaatio) vaikuttaa parhaalta. Tämä käytössä myös tiedejatutkimus.fi:ssä. Tämä näyttää aineiston vain kerran, vaikka 
      • Onko kuratoijalla käyttäjälle väliä? → Kuratoija voisi näkyä jossain metadatassa, mutta ei välttämättä Etsimen haussa
      • Etsimen fasettien epätarkkuus (Organisaation alla esim. Zenodo, tämä tieto voi olla myös kentässä "Julkaisija" eikä välttämättä tekijä-kentässä) → filtteri jatkokehitykseen Fairdatassa, lähemmäs Tiedejatutkimus.fi:n filttereitä
      • Ovatko tutkimusinfrastruktuurit tai muut temaattiset "yhteisöt" olennainen asia näiden haravointien esittämisessä?
        • Riippuu siitä miten metatiedoissa ilmaistaan tutkimusinfrastruktuurit. Riippuu lähdejärjestelmästä. Olisi hyviä lisätietoja, mutta niille ei ole välttämättä yhteisissä tietomalleissa paikkaa
        • Osalla tutkimusinfroista on omat dedikoidut datarepositorionsa, joten voivat haravoinnissakin olla lähde, mutta tekijöiden affiliaatieto voi vaihdella, tai sitten infra lakitoimihenkilönä voi olla jonkin korkeakoulun (osittain) omistama/rahoittama tjms.
  • Muita kysymyksiä
    • "Roskakori"-ominaisuus: Yhteinen roskakori jossa voisi näkyä eri organisaatioiden hylkäämiä aineistoja ja hylkäyssyitä. Voivat olla relevantteja muille organisaatioille.
      • Roskakori voisi olla myös Noutajan omassa käytössä aineistoille, joiden affiliaatio on jäänyt epäselväksi (suomalaiset aineistot, joilla ei virallista suomalaista tekijää, yritysten tekemä tutkimus...)
    • Aineiston muuttuminen alkuperäislähteessä
      • Tämän käsittely riippuu siitä, miten lähdepalvelu kertoo aineiston muuttumisen

Aiheen jatkotyöstö

  • Yhteinen tapaaminen 8.12.2025. CSC laittaa kutsun, jota voi tarpeen mukaan jakaa edelleen.
  • Keskustelu tervetullutta chat.csc.fi:ssä (jos sinulla ei ole Fairdata-yhteiskehittämisen kanavalle kutsua, ota yhteys fairdata@csc.fi)



  • No labels