Tiedejatutkimus.fi-palvelun rahoitusmyöntöjen aihemallinnuksessa käytettiin ohjaamattomia koneoppimismenetelmiä (aihemallinnusta) ryhmittelemään lähes 7 000 myönnettyä rahoitusta eri aiheisiin rahoitusmyönnön otsikon, lyhyen kuvauksen, mahdollisten avainsanojen ja tieteenalan perusteella. Useita eri aihemallinnusmenetelmien (contextualized topic model, top2vec, hierarchical stochastic block model, BERTopic) tuottamia aiheita vertailtiin keskenään, ja lopulta valittiin 92 aihetta.

Jokainen myönnetty rahoitus luokitellaan yhteen todennäköisimpään aiheeseen. Kukin aihe on nimetty algoritmisesti tunnistetuilla merkittävimmillä avainsanoilla. Koska avainsanat kuvaavat aiheen yleisiä piirteitä, ne eivät välttämättä kuvaa täysin jokaista aiheeseen luokiteltua rahoitusmyöntöä. Aihemallinnustulokset eivät siis sovi yksittäisten aihealueiden tarkkaan kokojen määrittämiseen.

Uusia aiheita luokitellaan rahoitusmyöntöihin päivittäin. Kun paljon uutta aineistoa on saatavilla, aihemallinnus tehdään uudelleen ja arvioidaan, tulisiko uusia aiheita lisätä. Tällöin aiheiden lukumäärä ja avainsanat voivat muuttua, ja yksittäiset rahoitusmyönnöt voivat siirtyä aiheesta toiseen.


Lisätietoa aihemallinnusmenetelmistä

Contextualized topic models

  • Bianchi, F., Terragni, S., Hovy, D., Nozza, D., & Fersini, E. (2021). Cross-lingual Contextualized Topic Models with Zero-shot Learning. In Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics: Main Volume (pp. 1676–1683). Association for Computational Linguistics.
  • https://github.com/MilaNLProc/contextualized-topic-models

Hierarchical stochastic block models

top2vec

BERTopic

Myönnetyn rahoituksen aihemallinnuksen tulokset nähtävillä Tiedejatutkimus.fi-palvelussa

Uusi suodatin lisätty Myönnetty rahoitus-hakunäkymään ("Tunnistettu aihe"), alla kuvassa


Uusia visualisointeja lisätty Myönnetty rahoitus-hakunäkymän Näytä kuvana -osioon (uusi teema: "Tunnistettu aihe"), alla kuvissa 


Kysymyksiä ja kommentteja voi lähettää sähköpostitse osoitteeseen tiedejatutkimus (at) csc.fi.

  • No labels