2024-05-29 Klo 8.30-10.00
Zoom: https://cscfi.zoom.us/s/62325159400
Agenda
Jaetaan puolin ja toisin ajatuksia tekoälyyn liittyvästä kehitystyöstä. Formaattina pika-alustuksia ja niiden pohjalta keskustelua case-kohtaisesti sekä mahdollisten yhteisten jatkoaskelten hahmottelu. Tavoitteena löytää yhteisiä kehitysaihioita jaettujen kokemusten perusteella.
Tapaamisessa voitaisiin jakaa kokemuksia tämänhetkisten nostojen perusteella esimerkiksi koulutustarjontadatan analysoinnista, JODista, tutkimushankedatasta, koneoppimisesta, generatiivisesta tekoälystä, arkkitehtuurinäkökulmasta, kielimallien hyödyntämisestä yms. yms.
Osallistujat
Aalto:
Ani-Jatta Immonen, Jukka Parviainen, Ville Kivimäki, Niko Suominen, Mika Niemi, Kristian Hentula, Mika Vatanen, Patrik Maltusch, Petri Mustajoki, Martti Rahkila, Juha Martikainen, Juha Juvonen, Heli Järvelä, Mikko Hakala, Kimmo Kauria
TAU:
Sami Hautakangas
CSC:
Hanna-Mari Puuska (poistui klo 9.00), Jutta Virolainen, Jukka Kohtanen, Heini Manninen, Sonja Sipponen, Katja Mankinen, Iina Mäkelä, Anttoni Lehto, Eeva Nyrövaara
Digivisio:
Jonna Piiroinen, Heini-Maari Kemppainen, Annu Schroderus, Leena Latva-Rasku, Sakari Heikkilä
Muistiinpanot
Katja Mankinen esitteli CSC:n AI-kehittämisen kuvaa
- Tekoälykehitystyötä projekteissa: CSC:n sisäisesti, asiakkaille (esim. JOD) ja EU-projekteissa.
- JOD - tekoälyä
- osaamisen tunnistamiseen
- suositteluun (samankaltaiset kiinnostukset)
- chatbot-keskusteluun (neuvoo esim. koulutustietojen ja avointen työpaikkailmoitusten pohjalta): käyttäjä voi kysyä lisätietoja koulutuksesta tai työpaikoista tai kuvata osaamistaan jolloin botti auttaa
- OWS.EU
- https://csc.fi/en/project/openwebsearch-eu/
- EU-hanke jolla kasvatetaan eurooppalaista hakukoneosaamista
- datan kerääminen, dataindeksin luominen
- datan rikastaminen, luokittelu
- hakulogiikka ja haun kehittäminen, miten vastauksia palautetaan
- ei kilpailija Googlelle, osaamisen kasvatus ja ekosysteemin luominen ja parantaminen
- Tiedejatutkimus
- OWS.EU monikielinen haku
- aihemallinnus: tutkimuksen löydettävyyden parantaminen
- "paljonko rahoitetaan aihetta X"
- "paljonko tutkitaan aihetta X"
- tieteenalarajat ylittäen
- JOD - tekoälyä
- Tekoälymallien hyödyntäminen laskentaympäristöissä: LUMI, Puhti ja Mahti
- Kehitteillä työkaluja esim. Aitta-palvelu tutkimuskäyttöön. Mahdollisuus hyödyntää CSC:n resursseja. Testikäyttöä Turun yliopistossa ja Helsingin yliopistossa, mahdollisuus myös muille.
- CSC järjestää AMK-rehtoreille tekoälykoulutusta
- Erityisesti kehitys- ja pilotointipuolella tehdään töitä. AI-tuotteiden tekeminen toistaiseksi muualla.
- Keskustelua
- Immonen: Minkätyyppisistä työkaluista ja lisensseistä puhutte brokeroinnin yhteydessä?
- Puuska: Lähinnä Microsoft-lisensseistä, Copilot. Voidaan toimia brokerointiosapuolena, jos korkeakoulut haluavat hankkia muita palveluita.
- Vatanen: Miten Aitta-palvelu sopisi AI API ja Local Models Hardwaren väliin (Aallon arkkitehtuurikuvassa kts. Vatasen esityksen pdf:n viimeinen sisältökalvo alla)? Onko roadmapilla?
- Mankinen: Ollaan keskusteltu rajapinnasta Open AI:n kautta. Voin ottaa tuoteomistajamme kanssa puheeksi.
- Vatanen: Rautapuoli kallista, kustannuspuolelle apua keskitetystä ratkaisusta.
- Maltusch: Rakennetaan mallia, jota muutkin korkeakoulut voisivat hyödyntää. Olemme valmiita jakamaan mallia ja miten se tehdään. Resursseja ja tahotilaa on.
- Immonen: Minkätyyppisistä työkaluista ja lisensseistä puhutte brokeroinnin yhteydessä?
Schroderus ja Latva-Rasku esittelivat tekoälyn hyödyntämistä Opin.fissa, kattava esitys alla.
- Keskustelua
- Immonen: Mistä teemat tulivat teemaluokitteluun (kalvo AI-PoC 4)?
- Kemppainen: Oppijaymmärryksestä nousevia teemoja, esim. oppijan tarve ymmärtää kokonaisvaltaisesti jotain laajempaa teemaa → poikkileikkaavat teemat siksi. Noin vuoden prosessi – DV:n osallistamisen rakenteet käytössä, yhteiskehittämistä korkeakoulujen kanssa. Työstetty teemaryhmien kanssa, jotka vastaavat siihen, mitkä teemat olisivat ajankohtaisia jatkuvalle oppijalle vuonna 2025. Korkeakoulujen kanssa katselmoitu, päätös yleiskokouksessa. Teemalistaus lukittu, mutta tulevat muuttumaan toki hallitun prosessin kautta.
- Immonen: Automatisoidaan tämäkin? Muodostettu sanasto, myöhemmin automaatio esim. tägitykseen?
- Kemppainen: Nyt teema on tunnistettu korkeakoulujen kanssa yhteistyössä ja niistä on tehty päätös lanseerattavaan versioon. Jatkossa, kun datan laatu saadaan tasalaatuisemmaksi, voisi olla mahdollista tunnistaa teemoja myös datasta käsin - tällöin teemalistaus edustaa otantaa (vs. nyt edetyssä tilanteessa se perustuu näkemykselisyyteen). Itse luokittelu perustuu dataan ja jotta päästään täysin dynaamiseen koneavusteiseen luokittelun prosessiin tarvitaan opetusdataa, joka ei synny ilman ihmistyötä.
- Teemalista nähtävissä: https://wiki.eduuni.fi/pages/viewpage.action?pageId=427083011&preview=/427083011/475577670/2024-05-07_Liite9_Teemaluokittelu_Yleiskokous.pptx
- Rahkila: Aiemmista PoCeista noussut esille datan laatu ja minkälaista dataa on käytössä. Edellytys ratkaisujen aikaansaamiselle. Kokeilut Opin.fi:ssä yhteistyötä vaativaa, data tulee korkeakoulupuolelta tai tahoilta, jotka tarjoavat Opin.fi:hin koulutustarjontaa. Millaista pohjadatan pitäisi olla, ja mitä laatuvaatimuksia liittyy? Korkeakoulupuolella monimutkaiset prosessit.
- Latva-Rasku: Laatuvaatimukset iso asia, vaatii keskustelua, erityinen haaste miten saadaan yhdenmukaiset luokittelut (esim. verkossa/kaumpuksella, mikä on vaikkapa ilta-aikaisen opetuksen määritelmä). Pitäisi saada Peppiin ja Sisuun sekä oppijoille sama käsitys. Haku ja suodattimet kuntoon Opin.fi:ssä. AI ei ratkaise tätä ainakaan suoraan. Integraatiologiikalla voidaan edistää.
- Immonen: Non-formaalia, informaalia yms. sisältöä tuotetaan: perussisältöisiä sisältöjä varmasti tulee paljon (esim. monia samansisältöisiä ohjelmointikursseja). Aikooko AI priorisoida mitä tarjotaan, mitä markkinoidaan ja millä kriteereillä?
- Latva-Rasku: Linjaukset yhtäaikaisista peruskursseista, tässä vaiheessa ei ole tulossa rajauksia, oppijan markkinat. Kun nähdään mitkä teemat tai aiheet korkeakoulut näkevät tärkeäksi tarjota oppijoille, ja mitkä sisällöt resonoivat Opin.fi-käyttäjiä, toivotaan, että korkeakoulut lähtevät teemojen alle tuottamaan tarjontaa. Ei profiloiduttaisi vain yhden teeman alle. Ei Digivisiona olla lähdetty rajaamaan. Yhteistä keskustelua tarvitaan.
- Hautakangas: Jos on samankaltaista tarjontaa, miten ne laitetaan järjestykseen? Miten soveltuvuussorttaus rakentuu, jos sellaista on? Paitsioon jääminen on oleellinen haaste.
- Latva-Rasku: Tällä hetkellä sanahakuun ei käytetä älykkäitä logiikoita, osuvuus ratkaisee. Opin.fissä formaalilla puolella kolmetasoisia sisältöjä: kokonaisuudet tulee aina ensin, sitten vasta kurssit ja kurssin osat. Hakua tutkitaan ja opitaan käytössä miten oppijat käyttäjät ja hakevat.
- Immonen: Olemme Samin kanssa myös SISU:n ohjausrakenteissa, eli meihin voi olla yhteydessä tuossa datan laatuasiassa suoraankin, jos halutaan vahvistaa SISU-roadmappia asian suhteen.
- Kemppainen: Hankkeessa muodostettu yhteiset pelisäännöt korkeakoulujen kanssa yhdessä. Palvelusta ei voi ostaa näkyvyyttä. Oppijan tarpeet tulee ohjaamaan tuloslistaa, saatavuuden näkökulma prioriteetti. Organisaation aakkosjärjestys ei tule vaikuttamaan hakutuloksiin. Oppijalle kiinnostavaa nähdä esim. ajallista ulottuvuutta, milloin jokin kurssi tai kokonaisuus järjestettään. Suositteluperiaatteet ovat läpinäkyviä ja ymmärrettäviä, tavoitteena myös oppijan suuntaan, mutta myös korkeakoulujen kesken.
- Immonen: Mistä teemat tulivat teemaluokitteluun (kalvo AI-PoC 4)?
- Rahkila: Teemat ylätasolla, todellisen haun tai tarjonnan esittelemiseen korkealla tasolla, hyvä alku kuitenkin. Suunnitelmat vaikuttavat hyvältä sen suhteen, miten oppijan käyttökokemusta on huomioitu. Foundation-mallien ja kielimallien hyödyntäminen parhaimimillaan nivoutuu suoraan käyttöliittymätasolle niin, että UI reagoi ja jonka kanssa keskustellaan. Pohjalle toki tarvitaan rakenteinen data. Odotukset tulevat olemaan enemmän siihen suuntaan, että palvelulta voi kysyä ja se tarjoilee sen mukaan asioita. Perinteinen hakulogiikkaa ei pitkään ihmiset odottele. Google ja Microsoft implementoinut omaan hakuunsa.
- Kemppainen: Iso muutos kuluttajien odotuksissa. AI-käyttötapauksia tunnistetaan LMM-botti-pohjainen ratkaisu kokeilun alla, korkeakoulujen kanssa.
- Maltusch: Haku on kyllä todella haastava missä tahansa ympäristössä. Oikeudenmukaista siitä ei saa koskaan, mutta kohtuulisen tasapuoliseksi kyllä. Ehkä keskeinen asia on siinä, että se on läpinäkyvä ja riittävän nopealla syklillä kehittyvä korkeakoulun tarpeiden mukaan.
- Rahkila: Teemat ylätasolla, todellisen haun tai tarjonnan esittelemiseen korkealla tasolla, hyvä alku kuitenkin. Suunnitelmat vaikuttavat hyvältä sen suhteen, miten oppijan käyttökokemusta on huomioitu. Foundation-mallien ja kielimallien hyödyntäminen parhaimimillaan nivoutuu suoraan käyttöliittymätasolle niin, että UI reagoi ja jonka kanssa keskustellaan. Pohjalle toki tarvitaan rakenteinen data. Odotukset tulevat olemaan enemmän siihen suuntaan, että palvelulta voi kysyä ja se tarjoilee sen mukaan asioita. Perinteinen hakulogiikkaa ei pitkään ihmiset odottele. Google ja Microsoft implementoinut omaan hakuunsa.
Vatanen esitteli Aalto AI Assistantia ai.aalto.fi. Taustamateriaalia lisää: https://wiki.eduuni.fi/x/F6dYH
(yllä mainittu "arkkitehtuurikuva" täällä viimeinen sisältökalvo)
- Noin 1000 käyttäjää, lähipäivinä koko staffille julkiseksi. Eri kielimalleja tuotu palveluun.
- Chatgpt-tyyppinen, ei vielä tietopankkeja taustalla muuten kuin julkiset kielimallit.
- Kustannusten muodostumista on myös tutkittu
- Compliance-puolta rakennusvaiheessa tutkittu paljon, henkilötietojen ja salaisten materiaalien suhteen ohjeistuksia luotu.
- Aalto.fi:n tietosisältö taustalla, tekee tekstin pohjalta haun tietopohjaan. Mätsää top 5 dokumentit, jossei löydä muuten yhteensopivia.
- Tulossa Aalto.fi siten taakse.
- Keskustelua:
- Mankinen: Validoinnista, miten olette validoineet vastausten laatua?
- Vatanen: Ei strukturoitua tapaa. Tutkijoiden kanssa voitaisiin tehdä yhteystyötä. Mallit päivittyvät, ja tunnistettu, että voi tulla outoja vastauksia. Tärkeä teema pohtia.
- Rahkila: Aalto AI Assistantin kanssa tehty periaatelinjaus, ettemme kerää tai talleta ihmisten prompteja - ongelmallista tietosuojasyistä ja juridisesti. Aina jos huomataan virhe, helppo raportoida.
- Vatanen: Jatkokehityksenä vaatii, että voidaan flägätä, jos haku menee pieleen. Vahvat disclamerit tulossa palveluun. Azure AI palvelu tutkijoille. Pythonilla käytetään, laaja kirjo eri malleja, Aalto AI:n API taustalla. Lokaalit mallit mielenkiintoinen ulottuvuus.
- Parviainen: Aalto AI Assistantin aalto.fi-verkkosisällön haku: Kysyin kerran listaa laitosjohtajista, ja AI antoi aika hyvän koosteen aalto.fi-sivuilta. Ongelma taas se, että laitosjohtajien nimet ovat osin puutteellisia tai väärin. Eli lähdedata heikkoa.
- Immonen: AI Assistant käyttää koko maailman laajuista kielimallia. Lokaalimmissa versioissa esim. opettaja voi opettaa omalla aineistollaan tietomallin. Voisi toimia Digivision tarjottimessa siten, että opetetaan rajatusta aineistosta.
- Mankinen: JODin puolella RAG-järjestelmä, jonne syötetty ESCO-osaamisia yms. datalähteitä. Näillä aineistoilla koulutettu, Azure OpenAI GPT rinnalla käytössä. Tuottanut joskus heikkolaatuisiakin vastauksia käyttäjien kysymyksiin. Onko ratkaisuja yleisiin ongelmiin, joita voisi jakaa?
- Vatanen: RAG-arkkitehtuuri, use case -pohjaisesti ratkaistavia haasteita. Yleisesti ottaen, RAG haussa embedding mallin laatu ja valinta sekä käytettävän kielimallin context length vaikuttavat olevan tärkeimpiä muuttujia. Jatkossa context lengthti kasvavat varmasti merkittävästi (esim. nyt jo 4k -> 128k nähtävillä), jolloin RAG-haun pohjalta kielimallille voi hyvin syöttää kymmeniä dokumentoitavia nykyisen 1-5 lisäksi arvioitavaksi. Todennäköisesti laatu tulee parantumaan nopeastikin tätä kautta. Validointiin pitäisi todennäköisesti rakentaa datasetti kysymys-vastaus pareista (esim. yleiset Aalto.fi kysymykset), jota voisi ajaa rajapintojen kautta vasten palvelua aina kehitys/fine tuning vaiheessa.
- Vatanen: Tästä esimerkki (nopean Googlauksen perusteella) myös palvelusta, joka tekee benchmarkkausta: https://benchllm.com/ - vastaavaan useita open source kirjastoja githubista. Datasetti tärkeä. Johon tarvitaan tietoa kysymyksistä, mitä etsitään.
- Hautakangas: Tämä on tosiaan esim. YLE:llä uutisten asiasanoituksessa tuotantokäytössä.
- Mankinen: Validoinnista, miten olette validoineet vastausten laatua?
Hautakangas ja Kivimäki: AI enhanced course content labelling
(Kyseessä EUNIS 2024 -esityksen luonnos.)
- Kansalliskirjaston Finto-ontologia käytössä taustalla. Miten datan laatu saataisiin kytkettyä opetuksen suunnitteluun. Toisaalta miten voidaan hanskata jättimäistä sanastoa esim. ESCO.
- Kivimäki: AI-ratkaisut kurssien labelöinnissä. Maltusch menossa esittelemään tätä EUNIS-konferenssiin. Testattu TAU:ssa opettajien kanssa.
- Annif AI rakentuu 3-4 machine learning -mallin yhteistyöhön. Antaa listan asiasanoista. Algoritmi tarkistaa, että koko (kurssi)sisältö käydään läpi. Esimerkki siitä, että tarkkoja tuloksia haettaessa tarvitaan pitkälle kehittynyt palvelu.
- Sisun data pyöräytetään Annifin kautta. Ontologiasta voisi pyytää yleisemmän tai tarkemman tason termi-listausta.
- Viety PowerBi -näkymään avainsanayhteyksien visualisoimiseksi. Vertailtu kurssikuvauksia ja oppimistavoitteita. AI:n opettaminen esim. kontekstualisoinnin suhteen tulevaisuudessa, esim. mitä korkeakoulussa opetetaan.
- Hautakangas: Termit usein liian yleisellä tasolla. Täsmällinen osumatarkkuus n. 53%. Opettajien näkökulmasta riittävän järkeviä tuloksia. Jos huomataan puutteita jollain tieteenalalla, voidaan lisätä. Digivision teemat voisi yhdistellä yleisen suomalaisen ontologian teemoihin. Luokittelu- ja klusterointipuolet yhdistämällä päästään parhaaseen tulokseen. Saataisiin master dataan validoitua. Eri käyttötarkoitus tehdä päätöksentekoa henkilön puolesta, jolloin datan oltava validia. Toinen käyttötapaus se, että ihminen arvioi haun tuloksia itse.
- Maltusch: Yhteenvetona voisi sanoa, että Ontologia + luokittelu + dynaaminen semanttinen klusterointi yhdessä AI kanssa nostaa merkittävästi kohdennusta.
- Kivimäki: Ihminen yhdessä tekoälyn kanssa saavuttaa parempia tuloksia kuin ihminen-ihminen tai tekoäly-tekoäly.
- Hautakangas: Luokiteltua tietoa datasetissä, jos luokittelutermiin liittyy sanallinen määritelmä, yhteyksiä rakentuu varsin täsmällisesti.
CSC / Jutta Virolainen: Kaksi EU-hankemahdollisuutta tunnistettu. Hakemukset tehty.
- EU Digital dataspace for skills, korkeakouluja voitaisiin ottaa mukaan
- Baltic regional haku, AI-avusteinen digitointi. Korkeakoulupuolta voitaisiin ottaa mukaan.
- Baltic regional hakuun: ytimessä on automaattisen asiasanoituksen (Annifin) kehitys ja metadatan automaattinen erotus erilaisista teksteistä (tekijä, vuosi, yms) -> tarvitaan use caseja, joihin voidaan rakentaa ratkaisuja, jotka oikeasti auttavat ihmisiä ja tulevat käyttöön palveluissa.
Jatketaan keskustelua tulevaisuudessa.
CSCCRM-5669 - Getting issue details... STATUS