Page tree
Skip to end of metadata
Go to start of metadata

Sisäisten duplikaattien tarkistus toimii siten, että kun organisaatio lähettää julkaisut Virta-julkaisutietopalveluun, niin tällöin verrataan kutakin näistä julkaisuista Virrassa jo oleviin julkaisuihin. Mikäli tietyt ehdot täyttyvät, identifioidaan julkaisu sisäiseksi duplikaatiksi. Määritellään tässä yhteydessä organisaation sillä hetkellä lähettämiä datoja SA-alueen (Staging Area) datoiksi ja Virrassa jo ennestään olevia datoja ODS-alueen (Operational Data Store) -datoiksi. Duplikaattien tunnistuksissa käytetään seuraavia ehtoja:

EhtoKentät, joiden pitää matchata SA- ja ODS -alueillaErityishuomioita

1

DOI

  • Jos SA- ja ODS alueiden julkaisuissa kummassakin julkaisutyyppi on A3, mutta julkaisujen nimet ovat eri, ei julkaisua identifioida duplikaatiksi, vaikka DOIn perusteella näin olisi.
2ISSN + volyymi + numero + sivut + julkaisun nimi
  • Jos SA- ja ODS -alueiden julkaisuille on ilmoitettu DOI-tunnukset ja ne ovat eri, niin kyseessä ei ole duplikaatti, vaikka ehto 2 olisikin totta.
3julkaisutyyppi + julkaisun nimi + kustantaja
  • Koskee julkaisutyyppeja C1, D5, E2, pl. Introduction, Esipuhe, Johdanto.
  • Jos SA- ja ODS -alueiden julkaisuille on ilmoitettu DOI-tunnukset ja ne ovat eri, niin kyseessä ei ole duplikaatti, vaikka ehto 3 olisikin totta.
4emojulkaisun nimi + julkaisun nimi
  • Koskee julkaisutyyppeja A3, A4, B2, B3, D1, D2, D3, E1, pl. Introduction, Esipuhe, Johdanto.
  • Jos SA- ja ODS -alueiden julkaisuille on ilmoitettu DOI-tunnukset ja ne ovat eri, niin kyseessä ei ole duplikaatti, vaikka ehto 4 olisikin totta.
5ISBN + julkaisun nimi
  • Jos SA- ja ODS -alueiden julkaisuille on ilmoitettu DOI-tunnukset ja ne ovat eri, niin kyseessä ei ole duplikaatti, vaikka ehto 5 olisikin totta.

Yllä olevaa taulukkoa luetaan siten, että jos ehto 1 täyttyy, eli SA- ja ODS -alueiden julkaisuilla on sama DOI, niin kyseessä on duplikaattiehdokas. Jos sen sijaan ehto 1 ei täyty, niin siirrytään ehtoon 2 jne. Jos ehdon 5 jälkeen ei olla löydetty duplikaattiparia, ei kyseessä ole duplikaattiehdokas.

Ennen kuin kenttien matchausta tehdään, dataa puhdistetaan sekä SA- että ODS -alueilla, jotta tunnistaminen onnistuisi paremmin. Esimerkiksi DOI-tunnuksista poistetaan alusta merkkejä siihen asti kunnes merkkijono alkaa kuten "10.". Näin ollen esimerkiksi DOI-tunnus http://dx.doi.org/10.1016/j.tsf.2014.04.093 muutetaan väliaikaisesti tarkistuksia varten muotoon 10.1016/j.tsf.2014.04.093. Lisäksi julkaisun, kustantajan ja emojulkaisun nimien vertailuissa on mukana noin 130 stop wordsia, joita ei oteta huomioon. Edelleen mukana on noin 70 merkkiä, joita ei huomioida. Esimerkkejä stop wordseista ovat "and", "has" ja "few" ja merkeistä "&", "[", ja "«".

Jos mikään ehdoista 1-5 ei täyty, ei kyseessä ole duplikaattiehdokas. Jos kuitenkin jokin ehdoista 1-5 täyttyy erityishuomiot mukaanlukien, niin tarkistetaan lisäksi seuraavat ehdot:

  • SA- ja ODS -alueiden julkaisuissa organisaatiotunnuksen pitää olla sama (jos on eri organisaatiot, niin ei voi olla sisäinen duplikaatti)
  • Virrassa generoitu julkaisuntunnus (JulkaisunTunnus) pitää olla eri sekä SA- ja ODS alueiden julkaisuilla (jos se on sama, niin kyseessä on sama julkaisu eikä mahdollinen duplikaatti)
  • Organisaation sisäisessä käytössä oleva julkaisuntunnus (JulkaisunOrgTunnus) pitää olla eri sekä SA- ja ODS alueen julkaisuilla (jos se on sama, niin kyseessä on sama julkaisu eikä mahdollinen duplikaatti)
  • SA-alueen julkaisun tilakoodin pitää olla suurempi tai yhtäsuuri kuin 0
  • ODS-alueen julkaisun tilakoodin pitää olla suurempi kuin 0
  • Lopuksi on vielä erityisehto julkaisutyyppipareille. Mikäli jokin seuraavista julkaisutyyppikombinaatioista pätee, niin kyseessä ei ole duplikaattiehdokas, vaikka ehdot 1-5 täyttyisivätkin:

    SA (ODS) -alueen julkaisutyyppiODS (SA) -alueen julkaisutyyppi
    B3C2
    B3D6
    B3E3
    C2A1
    C2A2
    C2A3
    C2A4
    C2B2
    C2D1
    C2D2
    C2D3
    E3A1
    E3A2
    E3A4
    E3D1
    E3D2
    E3D3
    D6A1
    D6A2
    D6A4
    D6D1
    D6D2
    D6D3
  • No labels