Tiedejatutkimus.fi-palvelun hankkeiden aihemallinnuksessa ohjaamattomia koneoppimismenetelmiä (aihemallinnusta) käytettiin ryhmittelemään lähes 7 000 hanketta eri aiheisiin hankkeiden otsikon, lyhyen kuvauksen, mahdollisten avainsanojen ja tieteenalan perusteella. Useita eri aihemallinnusmenetelmien (contextualized topic model, top2vec, hierarchical stochastic block model, BERTopic) tuottamia aiheita vertailtiin keskenään, ja lopulta valittiin 92 aihetta. Jokainen hanke luokitellaan yhteen todennäköisimpään aiheeseen. Kukin aihe on nimetty algoritmisesti tunnistetuilla merkittävimmillä avainsanoilla. Koska avainsanat kuvaavat aiheen yleisiä piirteitä, ne eivät välttämättä kuvaa täysin jokaista aiheeseen luokiteltua hanketta. Aihemallinnustulokset eivät siis sovi yksittäisten aihealueiden tarkkaan kokojen määrittämiseen. Uusia aiheita luokitellaan hankkeisiin päivittäin. Kun paljon uutta aineistoa on saatavilla, aihemallinnus tehdään uudelleen ja arvioidaan, tulisiko uusia aiheita lisätä. Tällöin aiheiden lukumäärä ja avainsanat voivat muuttua, ja yksittäiset hankkeet voivat siirtyä aiheesta toiseen. |
Contextualized topic models
Hierarchical stochastic block models
top2vec
BERTopic
Uusi suodatin lisätty Hankkeet-hakunäkymään ("Tunnistettu aihe"), alla kuvassa
Uusia visualisointeja lisätty Hankkeet-hakunäkymän Näytä kuvana -osioon (uusi teema: "Tunnistettu aihe"), alla kuvissa
Kysymyksiä ja kommentteja voi lähettää sähköpostitse osoitteeseen tiedejatutkimus (at) csc.fi.