Jokainen hanke luokitellaan yhteen todennäköisimpään aiheeseen. Kukin aihe on nimetty algoritmisesti tunnistetuilla merkittävimmillä avainsanoilla. Koska avainsanat kuvaavat aiheen yleisiä piirteitä, ne eivät välttämättä kuvaa täysin jokaista aiheeseen luokiteltua hanketta. Aihemallinnustulokset eivät siis sovi yksittäisten aihealueiden tarkkaan kokojen määrittämiseen. Uusia aiheita luokitellaan hankkeisiin päivittäin. Kun paljon uutta aineistoa on saatavilla, aihemallinnus tehdään uudelleen ja arvioidaan, tulisiko uusia aiheita lisätä. Tällöin aiheiden lukumäärä ja avainsanat voivat muuttua, ja yksittäiset hankkeet voivat siirtyä aiheesta toiseen.
Tiedejatutkimus.fi-palvelun hankkeiden aihemallinnuksessa ohjaamattomia koneoppimismenetelmiä (aihemallinnusta) käytettiin ryhmittelemään lähes 7 000 hanketta eri aiheisiin hankkeiden otsikon, lyhyen kuvauksen, mahdollisten avainsanojen ja tieteenalan perusteella. Useita eri aihemallinnusmenetelmien (contextualized topic model, top2vec, hierarchical stochastic block model, BERTopic) tuottamia aiheita vertailtiin keskenään, ja lopulta valittiin 92 aihetta.
Lisätietoa aihemallinnusmenetelmistä
Contextualized topic models
- Bianchi, F., Terragni, S., Hovy, D., Nozza, D., & Fersini, E. (2021). Cross-lingual Contextualized Topic Models with Zero-shot Learning. In Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics: Main Volume (pp. 1676–1683). Association for Computational Linguistics.
- https://github.com/MilaNLProc/contextualized-topic-models
Hierarchical stochastic block models
- Gerlach, M., Peixoto, T. P., & Altmann, E. G. (2018). A network approach to topic models. Science Advances, 4(7), eaaq1360. http://doi.org/10.1126/sciadv.aaq1360
- https://github.com/martingerlach/hSBM_Topicmodel
top2vec
- Angelov, D. (2020). Top2Vec: Distributed Representations of Topics. Arxiv. Retrieved from http://arxiv.org/abs/2008.09470v1
- https://github.com/ddangelov/Top2Vec/
BERTopic
- Grootendorst, M., & Reimers, N. (2021). MaartenGr/BERTopic: v0.9.1 (Version v0.9.1). Zenodo. http://doi.org/10.5281/ZENODO.4381785
- https://github.com/MaartenGr/BERTopic
Hankkeiden aihemallinnuksen tulokset nähtävillä Tiedejatutkimus.fi-palvelussa
Uusi suodatin lisätty Hankkeet-hakunäkymään ("Tunnistettu aihe"), alla kuvassa
Uusia visualisointeja lisätty Hankkeet-hakunäkymän Näytä kuvana -osioon (uusi teema: "Tunnistettu aihe"), alla kuvissa
Kysymyksiä ja kommentteja voi lähettää sähköpostitse osoitteeseen tiedejatutkimus (at) csc.fi.