Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.

...

Ennen kuin kenttien matchausta tehdään, dataa puhdistetaan sekä SA- että ODS -alueilla, jotta tunnistaminen onnistuisi paremmin. Esimerkiksi DOI-tunnuksista poistetaan alusta merkkejä siihen asti kunnes merkkijono alkaa kuten "10.". Näin ollen esimerkiksi DOI-tunnus http://dx.doi.org/10.1016/j.tsf.2014.04.093 muutetaan väliaikaisesti tarkistuksia varten muotoon 10.1016/j.tsf.2014.04.093. Lisäksi julkaisun, kustantajan ja emojulkaisun nimien vertailuissa on mukana noin 130 stop wordsia, joita ei oteta huomioon. Edelleen mukana on noin 70 merkkiä, joita ei huomioida. Esimerkkijä Esimerkkejä stop wordseista ovat "and", "has" ja "few" ja merkeistä "&", "[", ja "«".

...