Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.

...

Historia/ Anu Lahtinen & Ville-Pekka Kääriäinen

Anu Lahtisen diat

Ville-Pekka Kääriäisen diat

Muinainen Anu Lahtinen aloittaa (smile)

...

Datatiede / Pauli Miettinen UEF 

Pauli Miettisen diat

  • Datatiede= tässä esityksessä tietojenkäsittelytieteen & tilastotieteen leikkauksessa oleva metodologinen tiede. datatiede= kehittää menetelmiä, data ei ole tutkimuksen tuotos
  • ei millekään sovellusalalle erikoistunut, menetelmiä voi käyttää missä tahansa tieteenalalla
  • ei varsinaisesti tuoteta dataa, ovat menetelmätiede, kehittävät menetelmiä, toimivat jonkun muun keräämällä datalla
  • Dataa louhitaan internetistä, villilänsi meiningillä = koska data on internetissä niin kai sitä saa käyttää 
  • Ei mitään vakiintuneita meneltemiä, keräysprosessia ei dokumentoitu tai miten dataa tallennetaan tai kuvataaan, lukuisia formaatteja. Monet jaetut data on "tosielämän" dataa, mutta syntetisoitujakin datoja jaetaan
  • kaikki tietävät periaatteessa mitä pitäisi tehdä, mutta kukaan ei tee niin
  • suurin osa pyritään tallentamaan teksimuotoiseen tiedostoon
  • Tutkijat koodaavat omat ohjelmat, jotka muuntavat datan haluttuun muotoon (jatko-opiskelijat tekee samoin ja omat virheet)
  • koodi= datatieteen metadata, tyypillisesti medatadatan muoto on lyhyt kuvaus mitkä data on ja ohjelmalistaus. koodi itsessään on täsmällinen kuvaus siitä mitä on tehty!
  • nopeasti tehtyjä koodeja, ohjeistettu, että kaikki pitää automatisoida
  • koodi on siinä asemassa, jossa data on monessa muussa tutkimuksessa
  • yleensä koodi suositellaan julkaistavaksi
  • tyypillinen tutkimuksen tulos on menetelmä: menetelmä= idea miten ongelma voidaan ratkaista, koodi= menetelmän konkreettinen instanssi
  •  koodi tänä päivänä usein julkaistaan: data+koodi=toistettava tutkimus 
    • koodin edellytyksiä ei välttämättä julkaista (kääntäjien versiot, ympäristömuuttujat), esim. ohjelmaversiot puuttuu = voi vaikuttaa tulokseen
    • monesti githubissa + zenodosta doi
  • koodin metadataa ei välttämättä jaeta (oletuksia tai toimintaa ei ole dokumentoitu
  • koodin metadataan paljon eri vaihtoehtoja: JacaDoc, PyDoc, Cmake....?
  • summa summarum: Koodi on datan asemassa, tesiten toistettavuutta ei valvota, liian rajoitutetu ympäristöt rajoittaa mahdollisuuksia
  • koodin laatua ei mitenkään valvota

...