Kirjaudu Wikiin oikeasta yläkulmasta, jos haluat kommentoida opasta.

|

Log in from the top right corner if you want to comment on the guide.

Dimensions on Digital Science Ltd:n tuottama "maailman suurin linkitetyn tutkimustiedon tietokanta", jolla on selainkäyttöliittymä sekä API (koneluettava rajapinta). Digital Science tuottaa myös joukon muita palveluita, mm. Altmetric, Figshare, Readcube ja Overleaf. Digital Science oli aiemmin osa Nature-konsernia, mutta vuoden 2015 Springer Nature -fuusiossa se erotettiin kustannusyhtiöstä täysin erilliseksi yhtiöksi. Yhtiön omistaa Holzbrink Publishing Group, jolla on myös enemmistö Springer Nature -yhtiön omistuksesta.


Tietokannan sisältö ja laadun varmistus

Dimensions sisältää tieteellisten artikkeleiden viittausverkoston lisäksi linkitettyä tietoa dataseteistä, tutkimuksen rahoituksesta, patenteista, kliinisistä kokeista ja yhteiskunnallisista julkaisuista. Keväällä 2022 tietokanta kattoi ja linkitti toisiinsa metatietoja n. 126 miljoonasta tieteellisestä julkaisusta, 11 miljoonasta datasetistä, 6 miljoonasta rahoituksesta, 144 miljoonasta patentista, 0.7 miljoonasta kliinisestä kokeesta ja 0.7 miljoonasta yhteiskunnallisesta julkaisusta (Taulukko 1.). Tieteellisiä julkaisuja on tietokannassa kasvava määrä vuodesta 1665 alkaen (Kuva 1). Indeksoituihin tieteellisiin julkaisuihin sisältyvät artikkelien lisäksi preprint -julkaisut, toimitetut kirjat, kirjojen sisältämät kappaleet, monografiat sekä konferenssijulkaisut. 

Suurimmista kilpailijoistaan Scopuksesta ja Web of Sciencestä poiketen Dimensions-tietokannan perussisällöt ja -toiminnot ovat tarjolla avoimesti ilman rekisteröitymistä ja ilmaiseksi internetissä kaikille henkilökohtaiseen ei-kaupalliseen käyttöön. Ilmaiseksi saatavilla oleva osa Dimensions-tietokannasta sisältää tieteelliset julkaisut ja datasetit. Lisäksi kuka tahansa voi ilmaiseksi rekisteröidä käyttäjätilin, joka mahdollistaa hakujen tallentamisen ja hakutulosten viennin esim. VOSviewer- tai CiteSpace-ohjelmiin jatkoanalyysiä varten.

Maksaville tilaajille on lisäksi tarjolla linkitettyä metatietoja tieteen rahoituspäätöksistä (ml. Suomen Akatemia), patenteista, kliinisistä kokeista ja viranomaisten ja hallinnon raporteista, sekä ilmaisversiota monipuolisempia työkaluja hakutulosten analysoimiseen. Hakemuksesta Dimensions voi myöntää tutkimuskäyttöä varten henkilökohtaisia ilmaisia käyttöoikeuksia myös tietokannan normaalisti maksullisiin sisältöihin ja työkaluihin. Esimerkiksi CPR-viittausvaikuttavuusmittarin tutkimus- ja kehitystyö tapahtui tällaisen ilmaisen käyttöoikeuden avulla.


Dimensionsin erityisenä vahvuutena metriikan tutkimisen ja tuottamisen kannalta on sen API. Rajapinnan yli käytettävä "Dimensions Search Language" tarjoaa kilpailijoita monipuolisemman ja tehokkaamman väylän metriikassa tarvittavien metatietojen hakemiseen ja käsittelyyn. Lisäksi huomionarvoista on tietokannan omistavan Digital Sciencen rakentava suhtautuminen käyttäjien tarpeisiin kokeilla ja kehittää omia metriikan ratkaisuja. Esimerkiksi JYUcite, julkaisujen viittausvaikuttavuutta mittaava Jyväskylän yliopiston Avoimen tiedon keskuksen (Open Science Centre) tarjoama palvelu, tuottaa metriikkaa hyödyntäen Dimensionsin APIa ja DSL-hakuja (Seppänen 2020). DSL-hakuja voi tehdä myös helposti palvelun käyttöliittymässä internetselaimessa, jolloin DSL-kielen opettelu tai käyttäminen ei edellytä ohjelmointiosaamista. Lisäksi kaikki data on tarjolla myös Google BigQuery -ympäristössä, mahdollistaen suurimittaista datalouhintaa vaativat analyysit.


Dimensions -tietokannassa on julkaisuja vuodesta 1665 alkaen, jatkuvasti kasvavia määriä julkaisuvuoden tullessa lähemmäksi nykyaikaa. Yksin vuonna 2021 tietokantaan indeksoitiin yli 6 miljoonaa julkaisua.

Kuva 1. Dimensions-tietokantaan indeksoitujen tieteellisten julkaisujen määrä julkaisuvuosittain. Huomaa logaritminen asteikko.


Kattavuus eri tieteenaloilla

Dimensions on kattavuudeltaan yleisesti ottaen inklusiivisempi kuin Scopus tai Web of Science. Viittausten indeksoitumisen kattavuudessa Dimensions on Martín-Martínin (2021) arvion mukaan hieman kattavampi kuin Web of Science ja hieman heikompi kuin Scopus (päällekkäisyys molempien suhteen 75 % yhteensä löydetyistä viittauksista). Erot ovat korostuneempia ihmis- ja yhteiskuntatieteissä, kuin luonnon- ja lääketieteissä (kts. myös Visser et al. 2021). Jyväskylän yliopiston vuosien 2007-2019 julkaisutuotannon löydettävyyttä tarkasteltaessa Dimensions oli vuonna 2020 kilpailevia tietokantoja parempi, mutta kuten muutkin tietokannat, erityisesti sosiaali- ja ihmistieteissä kattavuudeltaan heikko. Dimensions hyödyntää laajasti koneoppimiseen ja automatisoiduilla algoritmeillä tapahtuvaa tiedonkäsittelyä, asiantuntijoiden manuaalisesti suorittaman kuratoinnin sijaan.

Muiden kuin englanninkielisten julkaisujen osalta Dimensions on kilpailijoitaan kattavampi, mutta niiden tavoin puutteellinen.

Toimitettujen kirjojen, niiden sisältämien kappaleiden sekä monografioiden osalta Dimensions on huomattavan paljon kattavampi kuin Scopus tai Web of Science.

Viittaustietokantojen kattavuuseroista on kerrottu tarkemmin tämän luvun johdanto-osiossa.

Kokoelmapolitiikka

Dimensions indeksoi pääsääntöisesti kaikki tieteelliset julkaisut ja datasetit, joilla on DOI, automaattisesti ilman julkaisijan pyyntöä ja ilman tieteellisen toimituskunnan suorittamaa valikointia. Valintakriteerit kuitenkin mainitsevat, että indeksoitavat lähteet eivät saa olla ns. "predatory publisher" -toimijoiksi tunnistettuja. Hakutuloksia voi halutessaan suodattaa tietyjen lehtilistojen mukaan, jolloin hakutuloksiin jäävät vain esim. DOAJ-rekisterissä, tai vain PubMed-tietokannassa indeksoidut lähteet.

Metadatan automaattisen indeksoitumisen lisäksi julkaisija voi halutessaan pyytää sisältönsä kokotekstin indeksoimista, edellyttäen, että julkaisija kykenee toimittamaan materiaalin Dimensionsin määrittämällä tavalla. Noin 70% Dimensionsin indeksoimista julkaisuista on kokoteksti-indeksoitu.

Rahoitustietoa Dimensions kerää suurien rahoittajien osalta suoraan rahoittajien julkaisemista tiedoista (mm. Suomen Akatemia), ja muiden osalta mm. julkaisujen Acknowledgements-osiota koneellisesti tulkitsemalla.

Patenttien metadata tulee tietokantaan ympäri maailmaa kansallisista sekä Euroopan patenttitoimiston tietokannoista.

Kliinisten kokeiden metadata tulee 12 virallisesta lääketieteellisestä rekisteristä.

Yhteiskunnallisten julkaisujen metadatan Dimensions kerää n 200 eri järjestön ja valtiollisten toimijoiden sivuilta. Data on kuitenkin hyvin rajoittunutta, sillä indeksoiduista lähteistä yli 80% on Iso-Britanniassa, Sveitsissä (mm YK:n järjestöt) tai USA:ssa. (Yhteiskunnallisten julkaisujen löytämiseen ja viittausanalyysiin paljon paremman työkalun tarjoaa Overton).

Julkaisutyypit

Taulukko 1. Eri julkaisutyyppien määrä Dimensions-tietokannassa tammikuussa 2023.

Tieteelliset julkaisut

133 153 987

Artikkeli

107 486 563

Kirjan kappale

13 121 472

Konferenssiartikkeli

7 349 736

Preprintti

3 615 349

Monografia

893 034

Toimitettu kirja

686 855

Datasetit

12 042 684

Rahoitustiedot

6 381 797

Patentit

151 113 174

Kliiniset kokeet

757 519

Yhteiskunnalliset julkaisut

924 181


Tietokantapäivitykset 

Dimensionsin sisältöä päivitetään julkaisujen, julkaisumetriikan, datasettien ja kliinisten kokeiden osalta päivittäin, ja patenttien ja yhteiskunnallisten julkaisujen osalta kerran viikossa. Apurahapäätöksiä päivitetään kerran kuukaudessa. Julkaisut indeksoituvat tavallisesti 2-3 päivän kuluessa siitä, kun julkaisija on tallentanut metatiedon johonkin yleisesti käytettyyn rekisteriin, keskeisimpänä CrossRef.

Tieteenalaluokitukset

Dimensions tarjoaa useita tapoja hakea ja suodattaa julkaisuja tieteenalan mukaan. Lähtökohtaisesti luokittelut tehdään artikkelitasolla, ei julkaisusarjan tasolla: Jokainen artikkeli saa omat luokituksensa koneoppimiseen perustuvalla algoritmilla, joka käyttää luokitteluun artikkelin kokotekstiä tai abstraktia. Jos artikkelista ei ole riittävää määrää kokotekstiä käytettävissä, luokittelu turvautuu julkaisusarjan tieteenalaluokitukseen.

Laajoja, kaikki tieteenalat käsittäviä luokitteluja Dimensionsissa ovat

  • Field of Research (FoR): käyttää "Australian and New Zealand Standard Research Classification" (ANZSRC) -tieteenalaluokituksen hierarkisen järjestelmän kahta keskimmäistä tasoa, jossa on 22 ylätasoa, joiden sisällä yhteensä 157 ryhmää.
  • Units of Assessment (UoA): Iso-Britannian valtiollisessa tutkimuksenarvioinnissa käytetty 34-luokkainen jako.
  • Sustainable Development Goals (SDGs): YK:n kestävän kehityksen 17 tavoitetta.

Lääke- ja terveystieteiden alojen julkaisut voivat lisäksi saada soveltuvin osin seuraavia luokituksia

  • Research, Condition, and Disease Categorization (RCDC): USA:n terveysviranomaisen tutkimusalaluokittelu biolääketieteellisille aloille.
  • Health Research Classification System (HRCS): Iso-Britannian lääketieteen rahoittajien tutkimusala- ja terveysluokittelu.
  • Broad Research Areas (BRA): Australian lääketieteen rahoittajan neljän laajan luokan jako.
  • Health Research Areas (HRA): Dimensionsin oma neljän laajan luokan jako erottelemaan jatkumoa perustutkimuksesta kliiniseen hoitoon ja kansanterveydellisiin kysymyksiin.
  • Common Scientific Outline (CSO): kansainvälinen syöpätutkimuksen luokittelu.

Tietokannan perusominaisuudet

Hakumahdollisuudet

Dimensionsin oletuksena, ja ilmaisversiossa ainoana, tarjoama perushaku on useimpien modernien verkkosovellusten tapaan korostetun yksinkertainen: kirjoita hakukenttään jotain ja paina Enter. Oletuksena haku kohdistuu kaikkeen tietoon mitä on käytettävissä: n 70% Dimensionsin tuntemista artikkeleista on kokoteksti-indeksoitu, jolloin haku kohdistuu myös suoraan artikkelin sisältöön, ja myös tekoälyn päättelemien konseptien kautta, ei vain avainsanojen suoran esiintymisen kautta.  

Haun voi halutessaan kohdistaa kaiken sisällön sijaan vain otsikkoon ja abstraktiin, tai vain DOI:hin.

Dimensionsin maksullisessa versiossa on lisäksi tarjolla:

  • Enemmän erilaisia suodattimia hakutulosten rajaamiseen.
  • Edistynyt hakutoiminto, joka tukee sekä loogisten operaattoreiden (AND, OR, NOT), sulkulausekkeiden, jokerimerkkien että läheisyyshakujen käyttöä.
  • Tekstin samankaltaisuuteen perustuva tekoälykäs haku: hakukenttään voi kopioida pitkänkin tekstin, vaikkapa jonkin artikkelin koko johdannon, ja tekoäly päättelee tekstistä sen konsepteja, joiden perusteella palauttaa samankaltaisia konsepteja sisältäviä tietueita.
  • Dimensions Search Language, jolla voi toteuttaa monimutkaisia ja tehokkaita rajapintakyselyjä tietokantaan myös ilman ohjelmointiosaamista, suoraan selainkäyttöliittymässä.

Hakutulosten suodattaminen mm. julkaisuvuoden, tutkijan nimen, julkaisusarjan, tieteenalan, rahoittajan, tutkimusorganisaation, valtion, julkaisutyypin jne. mukaan on yksinkertaista tulosten vieressä olevista valikoista. Suodattimia voi käyttää myös suoraan haun aloittamiseen ilman tekstihakua.

Hakutulokset voi järjestää hakutermien relevanssin, julkaisupäivämäärän, RCR-indeksin, FCR-indeksin, viittausmäärän tai Altmetric-indeksin mukaan. Erityisesti tieteenala- ja aikanormalisointiin pyrkivät RCR ja FCR -indeksit ovat usein nopea tapa löytää parhaiten asiasta tietoa antavat julkaisut suuresta määrästä hakutuloksia.

Julkaisujen kirjoittajat, organisaatiot, rahoittajat, julkaisusarja, lähdeluettelo ja viittaavat julkaisut löytyvät suoraan linkitettyinä julkaisun tiedoista.

Hakumahdollisuudet on kuvattu kattavasti Dimensionsin omilla verkkosivuilla.


Dimensionsin analyysityökalut

Katso tämän oppaan kappale Dimensions Analytics.

Dimensionsin tutkijaprofiili

Dimensions pyrkii erottelemaan tiedon tutkijoista yksilöiksi algoritmeilla, useisiin eri lähteisiin perustuen; tutkijan ei siis tarvitse eikä hän voi itse määrittää profiiliaan Dimensions -tietokannassa. Profiili kokoaa yhteen algoritmin muodostaman käsityksen henkilön affiliaatioista, julkaisuista, dataseteistä, rahoituksesta, patenteista, tutkimusaloista, tutkimuksen avainsanoista sekä yhteistyöverkostosta.

Koneellinen käsittely mahdollistaa valtavan suuren verkoston muodostumisen, toisaalta sen hintana on paikoittainen puutteellisuus sekä virheet. Erityisesti tutkijat, jotka eivät ole rekisteröineet itselleen ORCID -tunnusta ja joilla on riittävän yleinen sukunimi, jotta samana vuonna samassa yliopistossa saattaa työskennellä saman niminen tutkija, saattavat sekoittua Dimensions -profiileissa.

Dimensionsin organisaatioprofiilit

Digital Sciencen kehittämä ja ylläpitämä Global Research Identifier Database -järjestelmä (GRID) tutkimusorganisaatioiden pysyvään tunnistamiseen, erotteluun ja linkittämiseen toimii Dimensionsin tietokannan taustalla.

GRID:in luoman perustan päälle ja Digital Sciencen tukemana on kuitenkin kehittynyt uusi yhteisöllisesti ylläpidetty, kaupallisista toimijoista riippumaton Research Organization Registry (ROR), joka nyt korvaa sen julkisesti näkyvänä tunnisteena. GRID ja ROR erottelevat yli 100 000 organisaatiota.



Rajoitteet ja kritiikki

Dimensionsin merkittävä vahvuus on samalla myös sen heikkous: koneoppimiseen ja automaattisiin algoritmeihin perustuva tiedonkäsittely mahdollistaa ihmisten suorittamaa sisällöntuotantoa ja laadunvarmistusta suuremman skaalautuvuuden ja tietojen nopeamman päivittymisen. Lisäksi kokotekstien konsepteihin perustuva luokittelu ja haku järjestää ja ryhmittelee tutkimusjulkaisuja suoraan, tukeutumatta julkaisusarja-tason luokitteluun. Kääntöpuolena ovat odottamattomat virheet sisällössä sekä menetelmien läpinäkyvyyden ja toistettavuuden hukkuminen algoritmien mustaan laatikkoon.

Tietokannasta on löytynyt esimerkiksi tukijan "null" kirjoittamia ja erittäin paljon viitattuja artikkeleita joiden otsikko on "null", koska toisaalla löytymättä jääneet lähteet ovat ohjautuneet viitaukseksi tähän nimettömään pseudo-julkaisuun. Lisäksi on löytynyt tuhansia viittauksia erään sanakirjan lyhyeen määritelmään sanalle "Small", koska sanakirjan julkaisija on jostain syystä rekisteröinyt sanalle DOI:n ja toisaalla on olemassa julkaisusarja nimeltä Small, jolle kuuluvista viittauksista osa ohjautui sanakirjan yhdelle sanalle.

Suhteessa tietokannan valtavaan kokoon tällaisten virheiden määrä on kuitenkin pieni. Tavallisessa tietojen haussa tämänkaltaiset virheet ovat lisäksi käyttäjälle ilmiselviä ja ne on siksi helppo ohittaa. Käsiteltäessä suuria määriä hakutuloksia julkaisumetriikan tarpeisiin on kuitenkin syytä virhemahdollisuuden vuoksi ottaa mukaan ns "sanity check" -toimia lähtödatan integriteetin varmistamiseksi, ennen datan käyttöä. Onko hakutuloksissa julkaisuja, joiden viittausmäärät ovat aivan suhteettoman suuria, joko sinällään tai esimerkiksi suhteessa julkaisun ikään? Onko hakutuloksissa julkaisuja, joiden otsikko tai julkaisusarjan nimi tai kirjoittajan nimi on vain muutamia merkkejä pitkä?

Acknowledgements -osioista koneellisesti pääteltyjen rahoittajatietojen joukossa on melko usein virheitä.

Kuten muissakin viittaustietokannoissa, Dimensionsin kattavuus ihmis- ja yhteiskuntatieteissä, erityisesti ei-englanninkielisen tutkimuksen osalta, on puutteellista.


Muita mahdollisuuksia Dimensions-datan käyttöön

Dimensionsin erityinen vahvuus on sen tehokas API: Dimensions Search Language -rajapintakysely. Se on käytettävissä maksullisen Dimensions Analytics -työkalun tilaajille.

DSL-rajapintakyselyjen avulla on esimerkiksi mahdollista hakea listaus kaikista artikkeleista, jotka esiintyvät kohdeartikkeliin viittaavien artikkelien lähdeluetteloissa – vain yhdellä pyynnöllä ("etsi julkaisut joiden lähdeluettelossa esiintyy tämä kohde, ja palauta niiden lähdeluettelot"). Tai vain yhdellä pyynnöllä voi hakea kerralla 400 artikkelin tiedot ("etsi kaikki julkaisut joiden DOI on tässä listassa"). Lisäksi samalla yhdellä pyynnöllä voi hakea paitsi julkaisuja, myös niihin linkittyviä rahoituspäätöksiä, tutkimusorganisaatiotietoja, patentteja, kirjoittajien tietoja – tai toisinpäin.

Kyselyjä voi opetella käyttämään myös ilman aiempaa ohjelmointiosaamista selainkäyttöliittymässä tarjolla olevalla toiminnolla, ja DSL-dokumentaatio on kirjoitettu hyvin ymmärrettävään muotoon tarjoten opettavia esimerkkejä. JSON -muodossa tulevien hakutulosten hyödyntäminen suuremmassa mittakaavassa edellyttää jonkin verran datankäsittelyä – mutta jopa tuttu Excel tarjoaa tähän työkaluja (Excel Power Query).

Dimensionsissa voi suorittaa monimutkaisia rajapintakyselyjä ilman ohjelmointiosaamista, käyttäen kuvassa näytettyä työkalua selainsovelluksessa.

Kuva 2. Esimerkki DSL -rajapintakyselystä Dimensionsin selainsovelluksen näkymässä.



Lähteet

Digital Science (2022) Dimensions AI. Saatavilla: https://www.dimensions.ai/ [Viitattu 13.6.2022]

Digital Science (2022) Dimensions APIs. Saatavilla: https://www.dimensions.ai/dimensions-apis/ [Viitattu 13.6.2022]

Digital Science (2022) Dimensions käyttöliittymä. Saatavilla: https://app.dimensions.ai/discover/publication [Viitattu 13.6.2022]

Digital Science (2022) Dimensions scientometric research. Saatavilla: https://www.dimensions.ai/scientometric-research/ [Viitattu 13.6.2022]

Digital Science (2022) Dimensions Search Language. Version 2.1.0. Saatavilla: https://docs.dimensions.ai/dsl/ [Viitattu 13.6.2022]

Martín-Martín, A., Thelwall, M., Orduna-Malea, E. and López-Cózar, E.D. (2021) Google Scholar, Microsoft Academic, Scopus, Dimensions, Web of Science, and OpenCitations’ COCI: A multidisciplinary comparison of coverage via citations. Scientometrics, 126, pp. 871–906 (2021). Saatavilla: https://doi.org/10.1007/s11192-020-03690-4

Visser, M., van Eck, N.J. and Waltman, L. (2021) Large-scale comparison of bibliographic data sources: Scopus, Web of Science, Dimensions, Crossref, and Microsoft Academic. Quantitative Science Studies, 2(1): pp. 20–41. Saatavilla: https://doi.org/10.1162/qss_a_00112

Seppänen, J.T. (2020) Source code and example data for article: Co-Citation Percentile Rank and JYUcite: a new network-standardized output-level citation influence metric. JYX dataset. https://doi.org/10.17011/jyx/dataset/71858

  • No labels