...
Historia/ Anu Lahtinen & Ville-Pekka Kääriäinen
Muinainen Anu Lahtinen aloittaa
...
Datatiede / Pauli Miettinen UEF
- Datatiede= tässä esityksessä tietojenkäsittelytieteen & tilastotieteen leikkauksessa oleva metodologinen tiede. datatiede= kehittää menetelmiä, data ei ole tutkimuksen tuotos
- ei millekään sovellusalalle erikoistunut, menetelmiä voi käyttää missä tahansa tieteenalalla
- ei varsinaisesti tuoteta dataa, ovat menetelmätiede, kehittävät menetelmiä, toimivat jonkun muun keräämällä datalla
- Dataa louhitaan internetistä, villilänsi meiningillä = koska data on internetissä niin kai sitä saa käyttää
- Ei mitään vakiintuneita meneltemiä, keräysprosessia ei dokumentoitu tai miten dataa tallennetaan tai kuvataaan, lukuisia formaatteja. Monet jaetut data on "tosielämän" dataa, mutta syntetisoitujakin datoja jaetaan
- kaikki tietävät periaatteessa mitä pitäisi tehdä, mutta kukaan ei tee niin
- suurin osa pyritään tallentamaan teksimuotoiseen tiedostoon
- Tutkijat koodaavat omat ohjelmat, jotka muuntavat datan haluttuun muotoon (jatko-opiskelijat tekee samoin ja omat virheet)
- koodi= datatieteen metadata, tyypillisesti medatadatan muoto on lyhyt kuvaus mitkä data on ja ohjelmalistaus. koodi itsessään on täsmällinen kuvaus siitä mitä on tehty!
- nopeasti tehtyjä koodeja, ohjeistettu, että kaikki pitää automatisoida
- koodi on siinä asemassa, jossa data on monessa muussa tutkimuksessa
- yleensä koodi suositellaan julkaistavaksi
- tyypillinen tutkimuksen tulos on menetelmä: menetelmä= idea miten ongelma voidaan ratkaista, koodi= menetelmän konkreettinen instanssi
- koodi tänä päivänä usein julkaistaan: data+koodi=toistettava tutkimus
- koodin edellytyksiä ei välttämättä julkaista (kääntäjien versiot, ympäristömuuttujat), esim. ohjelmaversiot puuttuu = voi vaikuttaa tulokseen
- monesti githubissa + zenodosta doi
- koodin metadataa ei välttämättä jaeta (oletuksia tai toimintaa ei ole dokumentoitu
- koodin metadataan paljon eri vaihtoehtoja: JacaDoc, PyDoc, Cmake....?
- summa summarum: Koodi on datan asemassa, tesiten toistettavuutta ei valvota, liian rajoitutetu ympäristöt rajoittaa mahdollisuuksia
- koodin laatua ei mitenkään valvota
...