86 Osallistujaa

Historia/ Anu Lahtinen & Ville-Pekka Kääriäinen

Anu Lahtisen diat

Ville-Pekka Kääriäisen diat

Muinainen Anu Lahtinen aloittaa (smile)

  • Laadullista aineistoa, epämääräisellä muisnaiskielellä kirjoitettua ruotsiksi (Manna tarkentaa: saksalaisella käsialalla kirjoitettua ruotsia (big grin))
  • Aineisto ei taivu helppoihin lokeroihin eikä ole yhtenäinen.
  • Arkistot toimivat datapankkina, digitaalisina myös nykyään, tämä on jatkumo. Arkistojen ammattilaiset vaalivat laajaa aineistoa metatietoineen. (Mannan oma huomio: Palaan usein ajatukseen, että arkistoalalla tai arkistoalan koulutuksessa on ainakin Suomessa hämmentävän vähän esillä tutkimusaineistoasiat, vaikka arkisto/asiakirja/tietohallinna tyypit on tiedonhallinnan ammattilaisia.)
  • metadata-asiat, on paljon käsinkirjoitettuja muistiinpanokortistoja
  • aineistoja eikä lähteitä synny takautuvasti, pikemminkin murenee
  • Menneisyyden lähteitä ei synny enää - uutta aineistoa ei voi tehdä - mutta koonteja voidaan tehdä. Se mikä on säilynyt, on kaikki, mitä on. Manna lisää omana toteamuksenaan: Vanhaa aineistoa tulee tai voi tulla toki lisää tutkijoiden käyttöön (paljon matskua, joka ei ole vaikkapa päätynyt arkistoihin tai tietokantoihin syystä taikka toisesta) eli sillä tavalla uutta raaka-aineistoa syntyy kyllä. Tässäkin tulee tosi mielenkiintoisesti esiin jonkinlainen "arvottava" jako ns. alkuperäisen aineiston / raakadatan ja tutkimuksessa syntyvän datan välillä. → Kaikissa esityksissä tuli jollain tavoin esille datan "pienentäminen" ("ei ole high techiä", "ei ole paljon", "on vain x ja x"). Tätä voisi ehkä jotenkin käsitellä blogissa?!

  • aineistoja kooten tulee uusia datapaketteja -→ ovatko tallentamisen arvoisia datakoonteja vai tutkimuksen apumuistiinpanoja?!
  • Anu nosti esiin kysymyksen, mikä ylittää teoskynnyksen esim. muistiinpanojen kohdalla: Onko kyseessä teos vai yksittäisen hankkeen apuväline ja / tai liian fragmentaarinen teokseksi?
  • tarkat viitteet avainasemassa
  • Kvalitatiivisen aineiston kuvailu noudattaa usein huolellista arkistoluettelokuvausta.
  • Huolellista viittaamista aletaan opettaa opiskelijoille jo kandivaiheessa
  • Digidatan & arkistoluetteloiden ongelmat samat: kuvailut ovat aina vajaita.
  • Esimerkiksi: mieslähteet olleet tarkasti, naisläheet "sekaisissa". Manna: arkistojen tai arkistopolitiikan näkökulma (mitä säilytetään), mikä heijastuu myös suoraan kuvailuun (mitä ja miten kuvaillaan, millaista sisältämetadataa tuotetaan).
  • asiat aukenevat tuttujen näkökulmien kautta
  • datan säilytys: asiat eivät säily: reikäkortit, avokelanauhat, vanhat tietokantasovellukset, kortisto-ohjelmat (eivät toimi enää!)
  • mietitään, onko parempi yrittää kuvailla vai jättää epäselvät aineistot avoimeksi jokaisen itse tulkittavaksi (Manna: liittyykö tämä tuohon teoskynnyksen ylittävien muistiinpanojen pohdintaan?)
  • kannattaa kirjoittaa, koska kuvailu on tehty
  • "Tunnisteet" sattumanvaraisia - miten kuvailla vajaata tietoa? "kirje lieenee vuosien 1556-1566 väliseltä ajalta"
  • "Onni on kunnon asiahakemisto"


  • Ville-Pekka aloitti esityksen pohtimalla, puhuukohan edes annetusta aiheesta. Manna miettii, että heijasteleeko tämäkin sitä kuvailu-/metadata-/dokumentointitermien epäselvyyttä. V-P toi esiin mm. selkeät kansiorakenteet, joita noudattaa, ja mainitsi annotoinnin. Eikö se kaikki kuulu tavalla tai toisella kuvailun maailmaan?
  • lähdeaineiston kartoitus. osa digitoitu, täytyy myös itse kuvata aineistoja → pilveen/koneelle dataa (kuvia?), jonkunlainen jaottelu ollut pakko tehdä (kansiorakenne), mahdollisimman hyvät viitteet,
  • uutta: automaatisen tekstin tunnistus (HTR-prosessointi: koneoppiminen & tekoälyn pohjautuva) → mahdollistaa suurien aineistojen käsittelyn
  • HTR-teknologia, koneoppimiseen perustuva tekniikka, lukee kirjoitettuja tekstejä
  • helpottaa tukimuksen tekoa, mutta tavoitteena, että pääsee tiedon rakentamisessa myös korkeammalle tasolle, mahdollista koodata lisäosia?
  • lyhyitä suomenkileisiä käännöksiä lisäksi

  • tietokanta mahdollistaa esim tarkastamisen käräjäoikeuksissa tietty henkilö on ollut
  • yhdistellään tietoja tapausten kesken, esim. selviää, että oli piika jostain toisesta tapauksesta
  • Transkriptista mahdollista tehdä tietokanta (data digitaalisessa muodossa) ja analysoida esim. missä paikoissa tapahtumia on ollut (heat map kartat), verkosto-analyysit esim. ihmisistä) ja muita graafeja... → mahdollistuus nähdä ketkä ihmiset olleet "merkkihenkilöitä" / ketkä esiintyy useimmiten datassa
  • ei synny varsinaista kuvailua?, koska ei tee yhdessä muiden kanssa. Manna: Mielenkiintoisesti tuossa taulukossa näkyy Sarake-otsikon alla metatiedot omana kokonaisuutena, joka tarkoittaa tälle tutkijalle "paikkatietoja" (ajoitus, tilanne, missä kohdin asiakirjaa, mikä tietokannan tapaus). Saman sarakkeen alla on Pääluokka, Alaluokka, Roolit yms., jotka uppoavat kuvailun maailmaan ihan hienosti. → Termien monimerkityksellisyys → Mitä tutkija kertoo vaikkapa toteuttamastaan tai hyödyntämästään metadatasysteemistä?

Kysymyksiä:

  • miten tutkija ymmärtää kuvailun → tietokantaa rakentaessakin syntyy kuvailua 
  • Miten tutkijan digitoimat materiaalit voisi tallentaa → kyllä tietoarkistolle voi, kun ei ole kansallisarkiston kanssa päälekkäistä. FSD:llä tehdään myös arviointia kannattaako säilyttää, rohkeasti yhteyttä!
  • onko arkistojen kanssa ollut puhetta, että kiinnostaako niitä aineistojen kuvailut - ei ole varma miten eri toimijoilla riittää resurssit, jotkut eivät ole kiinnostuneita
  • järjestelmät hermeettisiä (kommentti yleisöltä)
  • Versioinnit: digitaalisten aineistojen eri versiot hämmentävät ohjaajaa ja opiskelijoita. Miten niihin tulisi suhtautua tutkimuksessa?



Datatiede / Pauli Miettinen UEF 

Pauli Miettisen diat

  • Datatiede= tässä esityksessä tietojenkäsittelytieteen & tilastotieteen leikkauksessa oleva metodologinen tiede. datatiede= kehittää menetelmiä, data ei ole tutkimuksen tuotos
  • ei millekään sovellusalalle erikoistunut, menetelmiä voi käyttää missä tahansa tieteenalalla
  • ei varsinaisesti tuoteta dataa, ovat menetelmätiede, kehittävät menetelmiä, toimivat jonkun muun keräämällä datalla
  • Dataa louhitaan internetistä, villilänsi meiningillä = koska data on internetissä niin kai sitä saa käyttää 
  • Ei mitään vakiintuneita meneltemiä, keräysprosessia ei dokumentoitu tai miten dataa tallennetaan tai kuvataaan, lukuisia formaatteja. Monet jaetut data on "tosielämän" dataa, mutta syntetisoitujakin datoja jaetaan
  • kaikki tietävät periaatteessa mitä pitäisi tehdä, mutta kukaan ei tee niin
  • suurin osa pyritään tallentamaan teksimuotoiseen tiedostoon
  • Tutkijat koodaavat omat ohjelmat, jotka muuntavat datan haluttuun muotoon (jatko-opiskelijat tekee samoin ja omat virheet)
  • koodi= datatieteen metadata, tyypillisesti medatadatan muoto on lyhyt kuvaus mitkä data on ja ohjelmalistaus. koodi itsessään on täsmällinen kuvaus siitä mitä on tehty!
  • nopeasti tehtyjä koodeja, ohjeistettu, että kaikki pitää automatisoida
  • koodi on siinä asemassa, jossa data on monessa muussa tutkimuksessa
  • yleensä koodi suositellaan julkaistavaksi
  • tyypillinen tutkimuksen tulos on menetelmä: menetelmä= idea miten ongelma voidaan ratkaista, koodi= menetelmän konkreettinen instanssi
  •  koodi tänä päivänä usein julkaistaan: data+koodi=toistettava tutkimus 
    • koodin edellytyksiä ei välttämättä julkaista (kääntäjien versiot, ympäristömuuttujat), esim. ohjelmaversiot puuttuu = voi vaikuttaa tulokseen
    • monesti githubissa + zenodosta doi
  • koodin metadataa ei välttämättä jaeta (oletuksia tai toimintaa ei ole dokumentoitu
  • koodin metadataan paljon eri vaihtoehtoja: JacaDoc, PyDoc, Cmake....?
  • summa summarum: Koodi on datan asemassa, tesiten toistettavuutta ei valvota, liian rajoitutetu ympäristöt rajoittaa mahdollisuuksia
  • koodin laatua ei mitenkään valvota

Kysymyksiä

  • onko dokumentointi ikään kuin vain raksi ruutuun, mutta mietitäänkö sen hyötyä? vastaus; luonnollisella kielellä tehty lisäys ei välttämättä lisää mitään "arvoa". Koodien tekijöille mielekästä ei ole välttämättä kuvailla koodeja "toisin sanoin", sillä koodareille tämä tarkoittaisi sitä, että sama teksti kirjoitettaisiin monella eri kielellä, mikä ei tunnu mielekkäältä.
  • mikä auttaisi vaikeuksissa? jos päästäisiin yhteisymmärrykseen siitä, että koodi on dataa, ei välttämättä aina riitä, että laitetaan pelkkä koodi, muistatko siis kaiken ulkoa, mitä olet tehnyt
    • teen itse HELP osion, jossa selitään mistä aiheessa oli kyse, koska harvoin sitä muistaa mikä oli kuningasidea enää kuukauden päästä. Helpin kirjoittamiseen voi kulua enemmän aikaa kuin itse ohjelman kirjoittamiseen
    • pakollinen kurssi "dokumentoinnista", josta kukaan ei pidä, mutta ymmärtää tärkeäksi
    • isoissa firmoissa erililliset ihmiset tekee dokumentointia
  • Enemmän hallinnollinen kysymys, mutta mitä olet mieltä: pitäisikö koodi ja ohjelmistot eriyttää dataseteistä, kun (joskus) tulevaisuudessa kansallisesti raportoidaan yliopistojen datoja? 
    • pitäisin eriytettyinä
  • Julkaisutyypeissä on jo aiemmin ollut I2 7.5 Julkaisutyypit#7.5Julkaisutyypit-I2Tieto-javiestint%C3%A4teknisetsovellukset , mutta tämän käyttö on ilmeisesti ollut vaihtelevaa.. Myös JYU:ssä pohdittu sopivaa kirjaustapaa näille, osa kirjattu kuin olisivat tutk. aineistoja, jolloin näille voidaan hakea pysyvät tunnisteet.
    • Tunnistettu että lähdekoodien / ohjelmistojen ym tallennukseen tarvitaan ratkaisuja & tukea!!!
    • kenties tutkimustietovarannossa tulisi olla oma kohta?
  • yhteisymmärryksen saaminen siihen mikä on dataa, olisi tärkeää

Eläinlääketiede/ Heli Hyytiäinen HY 


  • eläinten fysioterapiaan erikoistunut
  • kliininen eläinlääketiede
  • samat lainalaisuusdet kuin ihmistutkimuksessa, esim. GDPR, salassapitosyyt, luvallisuus, keräystavat, esim. voi liittyä rahapelit
  • Datan luonne: kliinistä potilasdataa, numeerista mittaustuloksia, kyselytutkimuksia
  • eläinten kylkiäisenä tulee omistajantiedot jollain tasolla
  • pitää olla mm. tietosuojaselosteet
  • Tiedon säilytyspaikat: excelit & analysoiti spss
    • tietoa monesti kerätään ensin paperilomakkeelle → tieto siirretään manuaalisesti tai skannaamalla
    • data pseudonymisointia, joskus anonymisoidaan
    • potilaspaperien säilytysaika 10 v, mutta pitääkö tutkimusaineistojen olla yhtä pitkä?
  • Datan omistajuus tutkimusryhmä → HY, tarkat sopimukset omistajuudesta
  • "ei high tech dataa, mutta dataa kuitenkin" (vaatimattomuus - mistä se kumpuaa? Koska dataa ei ole teratavuittain? Koska oma tausta ei ole it-vetoinen?)
  • Tarvitaan matalan tason ohjeita (esim. datan määrä/koko)!
  • Ainoa merkittävä hankaluus datanhallinnan käytännössä on oikeastaa inhimillinen tekijä (ihmiset tekevät virheitä esim. syöttäessään tietoja tms.
  • DMP tehty osana hankerahoitusta: ensin tuntui, että apua vaikea pitkä prosessi tehtävänä, mutta oli todella hyvä koulutus ja itse DMP on erinomainen ja briliantti ja on soveltanut sitä pienemmissäkin asioissa
  • avoin data= raakaradata sisältää potilastietoja, ei voi avata →  
  • voi silti olla FAIR

Kysymyksiä

  • Vaatimus datan avoimuudesta pitäisi osata avata tutkijalle fiksummin, että tutkijalle tulee ahaa-elämys, että kaikkea ei tarvitse olla avoimena vaan niin avoimena kuin mahdollista
  • ymmärsinkö oikein, että mitään ei tehdä avoimeksi (edes metadata)? vai että metadata julkaistaan? :) Julkaistaan analysoidut tulokset datasta, hyvin tarkan metologian mihin tulokset pohjautuu, versiota raakadatasta ei julkaista
  • Datan avaamiseen liittyen: Koetko, että jos joku muu olisi kerännyt samanlaista dataa kun te (esim jossain muualla maailmassa), että dataa yhdistämällä voisi saada hyötyä tutkimukseen?
  • Voisiko aineiston anonymisoida? :)
  • Mites tällaisen erikoissuojatun tutkimusdatan Pitkäaikaissäilytys?  Tietokoneista aika jätää, ja pilvipalveluistakin? Miten data jäisi jonnekin talteen?
  • Tilastokeskusen Fiona-etäkäyttöympäristössä voidaan käsitellä pseudonymisoituja aineistoja, joissa aineistoja voidaan yhdistellä. Suora tunnistaminen on toki estettävä.
  • Anun mainitsemasta historiantutkijoiden DMP-tilaisuudesta on myös blogiyhteenveto: https://blogs.helsinki.fi/mildred/2017/06/26/historians-improving-tuuli-guidance-15-notes-from-the-hackathon-discussions/



  • No labels