Tietovarantoon toimitettuja julkaisuja käsitellään duplikaattien osalta seuraavan prosessin mukaisesti:
1) Duplikaattien tunnistuksessa jätetään huomioitta julkaisut joiden tilakoodi on 0, -1 tai 3
2) Julkaisua verrataan muihin tietovarantoon toimitettuihin julkaisuihin ja mahdollisesti tunnistetaan organisaation sisäiseksi duplikaatiksi (ks. alla) tai yhteisjulkaisuksi (ks. Yhteisjulkaisujen tunnistussäännöt)
3) Duplikaateiksi tunnistetut julkaisut asetetaan tilakoodille 0
4) Duplikaateiksi tunnistetut julkaisut raportoidaan virheraportilla sekä Extra-Vipusen "latausraportit duplikaatit" -raportilla
Julkaisutietojen käsittely ennen tarkistuksia
Organisaation lähettämät uudet datat määritellään SA-alueen ("Staging Area") dataksi ja Virrassa jo ennestään olevat datat ODS-alueen (Operational Data Store) -dataksi.
Ennen kuin kenttien yhteneväisyydet tarkistetaan, dataa puhdistetaan sekä SA- että ODS -alueilla, jotta tunnistaminen onnistuisi paremmin.
- Esimerkiksi DOI-tunnuksista poistetaan alusta merkkejä siihen asti kunnes merkkijono alkaa kuten "10.". Näin ollen esimerkiksi DOI-tunnus http://dx.doi.org/10.1016/j.tsf.2014.04.093 muutetaan väliaikaisesti tarkistuksia varten muotoon 10.1016/j.tsf.2014.04.093.
- Lisäksi julkaisun, kustantajan ja emojulkaisun nimien vertailuissa on mukana noin 130 ns. "stop wordsia", joita ei oteta huomioon. Mukana on myös noin 70 merkkiä, joita ei huomioida. Esimerkkejä stop wordseista ovat "and", "has" ja "few" ja merkeistä "&", "[", ja "«", ks. Tarkistuksissa ohitettavat sanat ja merkit.
Duplikaattien tunnistussäännöt
Oheisia ehtoja tarkistetaan järjestyksessä ensimmäisestä viimeisimpään, ja ehtojen tarkistaminen päätetään, mikäli vastaavuus on löytynyt.
- Mikäli ehto 1 täyttyy, eli SA- ja ODS -alueiden julkaisuilla on sama DOI, niin kyseessä on duplikaattiehdokas.
- Jos ehto 1 ei täyty, siirrytään tarkistamaan täyttyykö ehdon 2. mukaiset vaatimukset, jne.
- Jos mikään ehdoista 1-5 ei täyty, ei kyseessä ole duplikaattiehdokas
Ehto | Kentät, joiden pitää olla identtiset SA- ja ODS -alueilla | Erityishuomioita |
---|
1 | DOI | - Jos SA- ja ODS alueiden julkaisuissa vähintään toisen julkaisun julkaisutyyppi on A3, A4, B2, B3, D2, D3 tai E1, mutta julkaisujen nimet ovat eri, ei julkaisua identifioida duplikaatiksi, vaikka DOIn perusteella näin olisi.
|
2 | ISSN + volyymi + numero + sivut + julkaisun nimi | - Jos SA- ja ODS -alueiden julkaisuille on ilmoitettu DOI-tunnukset ja ne ovat eri, niin kyseessä ei ole duplikaatti, vaikka ehto 2 olisikin totta.
|
3 | julkaisutyyppi + julkaisun nimi + kustantaja | - Koskee julkaisutyyppeja C1, D5, E1, E2, pl. Introduction, Esipuhe, Johdanto.
- Jos SA- ja ODS -alueiden julkaisuille on ilmoitettu DOI-tunnukset ja ne ovat eri, niin kyseessä ei ole duplikaatti, vaikka ehto 3 olisikin totta.
|
4 | emojulkaisun nimi + julkaisun nimi | - Koskee julkaisutyyppeja A3, A4, B2, B3, D1, D2, D3, E1, pl. Introduction, Esipuhe, Johdanto.
- Jos SA- ja ODS -alueiden julkaisuille on ilmoitettu DOI-tunnukset ja ne ovat eri, niin kyseessä ei ole duplikaatti, vaikka ehto 4 olisikin totta.
|
5 | ISBN + julkaisun nimi | - Jos SA- ja ODS -alueiden julkaisuille on ilmoitettu DOI-tunnukset ja ne ovat eri, niin kyseessä ei ole duplikaatti, vaikka ehto 5 olisikin totta.
|
6 | julkaisutyyppi + julkaisun nimi + lehden nimi + julkaisuvuosi | - Koskee julkaisutyyppiä D1
|
7 | julkaisutyyppi + julkaisun nimi + kustantajan nimi + julkaisuvuosi | - Koskee julkaisutyyppiä D4
|
8 | julkaisutyyppi + julkaisun nimi + julkaisuvuosi + AVsovellustyyppiKoodi | - Koskee julkaisutyyppejä I1, I2
|
Jos jokin ehdoista 1-5 täyttyy (erityishuomiot mukaan lukien), niin tarkistetaan lisäksi seuraavat ehdot:
- SA- ja ODS -alueiden julkaisuissa organisaatiotunnuksen täytyy olla sama (jos on eri organisaatiot, niin ei voi olla sisäinen duplikaatti)
- Virrassa generoitu julkaisuntunnus (JulkaisunTunnus) pitää olla eri sekä SA- ja ODS alueiden julkaisuilla (jos se on sama, niin kyseessä on sama julkaisu eikä mahdollinen duplikaatti)
- Organisaation sisäisessä käytössä oleva julkaisuntunnus (JulkaisunOrgTunnus) pitää olla eri sekä SA- ja ODS alueen julkaisuilla (jos se on sama, niin kyseessä on sama julkaisu eikä mahdollinen duplikaatti)
- Julkaisun tilakoodi SA-alueella pitää olla suurempi tai yhtäsuuri kuin 0
- Julkaisun tilakoodi ODS-alueella pitää olla suurempi kuin 0
Lopuksi on vielä erityisehto julkaisutyyppipareille. Mikäli jokin seuraavista julkaisutyyppikombinaatioista pätee, niin kyseessä ei ole duplikaattiehdokas, vaikka ehdot 1-5 täyttyisivätkin:
SA (ODS) -alueen julkaisutyyppi | ODS (SA) -alueen julkaisutyyppi |
---|
B3 | C2 |
B3 | D6 |
B3 | E3 |
C2 | A1 |
C2 | A2 |
C2 | A3 |
C2 | A4 |
C2 | B2 |
C2 | D1 |
C2 | D2 |
C2 | D3 |
E3 | A1 |
E3 | A2 |
E3 | A4 |
E3 | D1 |
E3 | D2 |
E3 | D3 |
D6 | A1 |
D6 | A2 |
D6 | A4 |
D6 | D1 |
D6 | D2 |
D6 | D3 |