Tiedejatutkimus.fi-palvelun hankkeiden aihemallinnuksessa ohjaamattomia koneoppimismenetelmiä (aihemallinnusta) käytettiin ryhmittelemään lähes 7 000 hanketta eri aiheisiin hankkeiden otsikon, lyhyen kuvauksen, mahdollisten avainsanojen ja tieteenalan perusteella. Useita eri aihemallinnusmenetelmien (contextualized topic model, top2vec, hierarchical stochastic block model, BERTopic) tuottamia aiheita vertailtiin keskenään, ja lopulta valittiin 92 aihetta.

Jokainen hanke luokitellaan yhteen todennäköisimpään aiheeseen. Kukin aihe on nimetty algoritmisesti tunnistetuilla merkittävimmillä avainsanoilla. Koska avainsanat kuvaavat aiheen yleisiä piirteitä, ne eivät välttämättä kuvaa täysin jokaista aiheeseen luokiteltua hanketta. Aihemallinnustulokset eivät siis sovi yksittäisten aihealueiden tarkkaan kokojen määrittämiseen.

Uusia aiheita luokitellaan hankkeisiin päivittäin. Kun paljon uutta aineistoa on saatavilla, aihemallinnus tehdään uudelleen ja arvioidaan, tulisiko uusia aiheita lisätä. Tällöin aiheiden lukumäärä ja avainsanat voivat muuttua, ja yksittäiset hankkeet voivat siirtyä aiheesta toiseen.


Lisätietoa aihemallinnusmenetelmistä

Contextualized topic models

Hierarchical stochastic block models

top2vec

BERTopic

Hankkeiden aihemallinnuksen tulokset nähtävillä Tiedejatutkimus.fi-palvelussa

Uusi suodatin lisätty Hankkeet-hakunäkymään ("Tunnistettu aihe"), alla kuvassa


Uusia visualisointeja lisätty Hankkeet-hakunäkymän Näytä kuvana -osioon (uusi teema: "Tunnistettu aihe"), alla kuvissa 


Kysymyksiä ja kommentteja voi lähettää sähköpostitse osoitteeseen tiedejatutkimus (at) csc.fi.