Jokainen myönnetty rahoitus luokitellaan yhteen todennäköisimpään aiheeseen. Kukin aihe on nimetty algoritmisesti tunnistetuilla merkittävimmillä avainsanoilla. Koska avainsanat kuvaavat aiheen yleisiä piirteitä, ne eivät välttämättä kuvaa täysin jokaista aiheeseen luokiteltua rahoitusmyöntöä. Aihemallinnustulokset eivät siis sovi yksittäisten aihealueiden tarkkaan kokojen määrittämiseen. Uusia aiheita luokitellaan rahoitusmyöntöihin päivittäin. Kun paljon uutta aineistoa on saatavilla, aihemallinnus tehdään uudelleen ja arvioidaan, tulisiko uusia aiheita lisätä. Tällöin aiheiden lukumäärä ja avainsanat voivat muuttua, ja yksittäiset rahoitusmyönnöt voivat siirtyä aiheesta toiseen.
Tiedejatutkimus.fi-palvelun rahoitusmyöntöjen aihemallinnuksessa käytettiin ohjaamattomia koneoppimismenetelmiä (aihemallinnusta) ryhmittelemään lähes 7 000 myönnettyä rahoitusta eri aiheisiin rahoitusmyönnön otsikon, lyhyen kuvauksen, mahdollisten avainsanojen ja tieteenalan perusteella. Useita eri aihemallinnusmenetelmien (contextualized topic model, top2vec, hierarchical stochastic block model, BERTopic) tuottamia aiheita vertailtiin keskenään, ja lopulta valittiin 92 aihetta.
Lisätietoa aihemallinnusmenetelmistä
Contextualized topic models
- Bianchi, F., Terragni, S., Hovy, D., Nozza, D., & Fersini, E. (2021). Cross-lingual Contextualized Topic Models with Zero-shot Learning. In Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics: Main Volume (pp. 1676–1683). Association for Computational Linguistics.
- https://github.com/MilaNLProc/contextualized-topic-models
Hierarchical stochastic block models
- Gerlach, M., Peixoto, T. P., & Altmann, E. G. (2018). A network approach to topic models. Science Advances, 4(7), eaaq1360. http://doi.org/10.1126/sciadv.aaq1360
- https://github.com/martingerlach/hSBM_Topicmodel
top2vec
- Angelov, D. (2020). Top2Vec: Distributed Representations of Topics. Arxiv. Retrieved from http://arxiv.org/abs/2008.09470v1
- https://github.com/ddangelov/Top2Vec/
BERTopic
- Grootendorst, M., & Reimers, N. (2021). MaartenGr/BERTopic: v0.9.1 (Version v0.9.1). Zenodo. http://doi.org/10.5281/ZENODO.4381785
- https://github.com/MaartenGr/BERTopic
Myönnetyn rahoituksen aihemallinnuksen tulokset nähtävillä Tiedejatutkimus.fi-palvelussa
Uusi suodatin lisätty Myönnetty rahoitus-hakunäkymään ("Tunnistettu aihe"), alla kuvassa
Uusia visualisointeja lisätty Myönnetty rahoitus-hakunäkymän Näytä kuvana -osioon (uusi teema: "Tunnistettu aihe"), alla kuvissa
Kysymyksiä ja kommentteja voi lähettää sähköpostitse osoitteeseen tiedejatutkimus (at) csc.fi.



