Tämä sanasto ei ole terminologinen sanasto, vaan tarkoituksena on laajemmin määritellä käsitteitä ja niiden tarkempia merkityksiä.
Työ on aloitettu osana Avoimen tieteen koordinaation Datan viittaus ja tunnisteet -ryhmän työtä.
Tunnus
Ainutkertainen merkkijono joka joko yksinään tai yhdessä muiden metatietoelementtien kanssa pysyvästi identifioi resurssin, organisaation, henkilön, paikan tai muun entiteetin. Esimerkiksi kirjan ISBN-tunnus tai OID-pohjainen oppijanumero. Tunnusta voidaan käyttää toiminnallisen tunnisteen osana. Vrt rekisteritunnus, käyttäjätunnus.
Toiminnallinen tunniste (Persistent identifier, PID)
Koneellisesti tulkittava ainutkertainen ja pysyvä tunniste, joka on resolvoitavissa verkossa. Tunnisteeseen voi sisältyä koneellisesti käsiteltäviä, resoluution ”älykkyyttä” lisääviä elementtejä. Tällä hetkellä käytettävissä olevat resoluutiopalvelut ovat tunnistejärjestelmäkohtaista. Yleisesti käytettyjä toiminnallisia tunnisteita ovat ARK (Archival Resource Key), DOI (Digital Object Identifier), Handle, PURL (Persistent URL) ja URN (Uniform Resource Name). Niistä suosituimmat ovat DOI ja Handle, joiden ohjelmistoympäristö on sama (DOI on tietyn tyyppinen Handle) mutta hallinnollisesti palvelut ovat hyvin erilaiset. DOI-tunnusten käyttöä valvotaan paljon Handle-käyttöä tarkemmin.
Erillisen resoluutiopalvelun käyttö ei vapauta aineiston hallinnoijaa ylläpitovastuusta, sillä aineiston omistajan on aina huolehdittava siitä, että toiminnallinen tunnus linkittyy verkossa oikeisiin URL-osoitteisiin.
Pysyvyys tarkoittaa, että samalle asialle tai kohteelle ei anneta uutta tunnusta. Pysyviä tunnuksia hallinnoidaan koko identifioidun kohteen elinkaaren ajan ja vielä sen päätyttyäkin: identifioitu kohde voidaan poistaa käytöstä, mutta tunnusta ei tuhota eikä käytetä uudestaan.
Pysyvyys on ehdoton vaatimus ja se vaatii sekä tunnistejärjestelmän että tunnusten dokumentointia. Tunnuksen pysyvyys on käytännössä lupaus siitä, että identifioitu kohde on löydettävissä ja hyödynnettävissä koko sen elinkaaren ajan.
Julkisen hallinnon tiedonhallinnan näkökulmasta tunnusten pysyvyys on keskeinen hyvän hallinnon edellytys, koska viranomaisen tulee huolehtia sekä tarjoamansa tiedon oikeellisuudesta, saavutettavuudesta että jäljitettävyydestä.
Ainutkertaisuus tarkoittaa, että kerran annettua tunnusta ei koskaan anneta uudestaan jollekin toiselle objektille. Tämä voidaan aikaansaada hallinnoimalla tunnistejärjestelmää joko keskitetysti tai hajautetusti.
Tunnistejärjestelmän katteella tarkoitetaan sen avulla identifioitavien kohteiden joukkoa, joka on yleensä rajattu. ISBN-tunnuksilla voi identifioida vain kirjoja, ja ORCID-tunnuksilla (Open Researcher and Contributor Identifier) tutkijoita. Standardoiduissa tunnistejärjestelmissä kate määritellään yleensä jo itse standardissa. Katteen rajaaminen helpottaa tunnistejärjestelmän hallinnointia.
Resoluutio (eli toiminnallisuuden toteuttaminen verkossa)
Resoluutiolla tarkoitetaan identifioituun kohteeseen liittyvien palvelujen tarjoamista. Resolvoitavissa olevaa tunnistetta kutsutaan toiminnalliseksi. Palvelu voi olla esimerkiksi Internet-resurssin tai kuvaavien metatietojen URL-osoitteen hakeminen tai metatietojen lähettäminen (jos ne on tallennettu resoluutiopalveluun, kuten ARK-tunnistejärjestelmässä). Resoluutiopalvelun antama URL-osoite ei välttämättä ole lopullisen kohdesivun URL-osoite, vaan osoitteessa käytetty protokolla kuten HTTP voi uudelleenohjauksella siirtää käyttäjän resurssin oikeaan URL-osoitteeseen.
Resoluutiopalvelu(resolveri) on toiminnallisten tunnisteiden resolvoinnista vastaava sovellus, kuten Handle system, jota käytetään sekä Handle- että DOI-järjestelmissä (Digital Object Identifier). URN-tunnuksella (Uniform Resource Name) ei ole yhtä yhteistä sovelluspakettia, vaan periaatteessa jokaisella URN-tunnuksia jakavalla taholla on oma resolverisovellus. Resoluutiopalvelu voi sisältää monenlaista älykkyyttä ja lisäpalveluita, joten on syytä valita tarpeita parhaiten palveleva luotettava palvelu.
URI (Uniform Resource Identifier) ja Cool URI–termeillä viitataan URL-osoitteisiin, joiden pitäisi toimia verkossa paitsi osoitteina, myös tunnisteina. Suomessa URI-tunnisteita sovelletaan esimerkiksi paikkatiedossa sekä Finlex-järjestelmässä lakien tunnisteina. Suljetuissa käyttöympäristöissä kuten yksittäisillä palvelimilla, voidaan URL –osoitteita pitää varsin pitkään samoina, mutta ongelmia voi silti syntyä varsin pian esimerkiksi sen vuoksi, ettei Internet-domaineja voi ostaa, vaan vain vuokrata. Jos domainin vuokraaja vaihtuu, uusi toimija ei välttämättä halua järjestää uudelleenohjausta dokumenttien vanhoista osoitteista uusiin.
CURIE (Compact URI) Lyhennysmerkintä jossa URI:ssa oleva (pitkä) nimiavaruus korvataan lyhenteellä. Esim. dct:title on CURIE-lyhenne URI:sta http://purl.org/dc/title/. CURIE-lyhenteen voi tehdä kaikista URI-osoitteista riippumatta protokollasta ja myös PID-tunnisteet kuten URN tai DOI voidaan haluttaessa esittää CURIEna.
URN, Uniform resource name
- Internet Engineering Task Forcen standardoima PID-järjestelmä.
- Resurssin pysyvä tunnus, jonka tulee olla tekniikkariippumaton ja riippumaton resurssin sijainnista
Linkitetty data Datan linkittämisen teknologioissa käytetään paljon erilaisia tunnisteita edustamaan erilaisia entiteettejä. Tietoa linkittämään käytetään usein RDF-tietomallia. Tietomallit kuvataan ontologioina ja yhteisesti viitatut resurssit SKOS-tietomallin mukaisena datana. Linkitetty avoin data hyödyntää perinteisesti myös ns. Cool URI-tunnisteita. Niihin perustuvat, URL-osoitteisiin tai niiden uudelleenohjaukseen perustuvat linkit ovat usein osoittautuneet varsin lyhytikäisiksi, mistä on aiheutunut laatuongelmia.
Metatiedot
Tunnisteisiin voi liittyä metatietomalli. Tunnusta annettaessa identifioitu objekti pitää kuvailla joko standardissa tai muulla tavoin määritellyllä tavalla. Esimerkiksi ISSN-standardi edellyttää, että jokainen tunnuksen saava kausijulkaisu kuvaillaan, ja tiedot lähetetään kansainvälisen ISSN-keskuksen ylläpitämään ISSN-tietokantaan. ISSN –verkosto on laatinut metatietojen tallennuksesta tarkat ohjeet. Metatietomallin kattavuus vaihtelee tunnistejärjestelmästä riippuen. ORCID-tunnuksen saadakseen tutkijan on kerrottava vain etunimensä ja sähköpostiosoitteensa, mutta ISNI-toimijatunnisteen (International Standard Name Identifier) saaminen edellyttää sitä, että kansainvälisessä ISNI-tietokannassa on toimijaa koskevat metatiedot vähintään kolmen eri organisaation lähettämänä. Mitä kattavampi metatietomalli, sen tehokkaampaa on tiedonhallinta. ISNI-tietokannasta on helppoa löytää ”oikea” Albert Einstein tietokannan sisältämien julkaisutietojen avulla, mutta esimerkiksi ORCID-tietokannan Espanjassa opiskeleva Albert Einstein saattaa herättää epäilyksiä. Toisaalta vaatimus kattavien metatietojen tallentamisesta ja monimutkaiset tallennusohjeet tekevät tunnisteiden luomisesta työlästä. Lisäksi esim. toimijoiden tunnisteisiin voi liittyä henkilötietoja kuten syntymäaika, joita ei voida jakaa vapaasti, koska kyseessä on henkilörekisteri.
Aineistotyypit
Tietovarantoja on erilaisia. Osa on staattisia aineistojulkaisuja, joiden tarkoitus on olla muuttumattomassa tilassa. Tietoaineistoja tai ns datatuotteita on kuitenkin myös muita, joihin halutaan viitata.
Karttuva aineisto. Aineisto, joka kasvaa yhteismitallisella datalla, eikä vanha tieto päivity.
Dynaaminen aineisto. Aineisto, joka päivittyy ja muuttuu eri tavoin.
Mikäli sisältö tai linkitys muuttuu ilman hallintaa pysyvä tunniste on pilalla. Linkkimätä tarkoittaa tilannetta, jossa aineistoa ei enää löydy verkosta (HTTP 404 –virhe) eikä edes verkkoarkistosta. Jos linkin takaa löytyvän aineiston sisältö on muuttunut merkittävästi tai kokonaan, resurssi kärsii sisältönyrjähdyksestä. Pysyvien tunnisteiden on tarkoitus olla immuuneja näille ongelmille. Käytännössä myös pysyvä tunniste voi lakata toimimasta, jos sitä ei hallinnoida asianmukaisesti.
Roolit
Lähdesanastoja:
Tutkimushallinnon sanasto
https://sanastot.suomi.fi/concepts/3bdbcac2-e57f-49c1-b104-e37eff042834
Metatietosanasto
Tutkimushallinon sanasto
PID-selvitys 2018 (YTI-hanke)
EOSC PID Policy
European Commission, Directorate-General for Research and Innovation, Hellström, M., Heughebaert, A., Kotarski, R. et al., A Persistent Identifier (PID) policy for the European Open Science Cloud (EOSC), Publications Office, 2020, https://data.europa.eu/doi/10.2777/926037