Pysyvien tunnisteiden hallinnan ja käytäntöjen määrittäminen

 

Pysyvillä tunnisteilla on yhä merkittävämpi ja keskeisempi asema julkaisujen, data-aineistojen ja muun tiedon hallinnassa ja jakelussa samoin kuin palvelujen ja palvelualustojen ja niihin tukeutuvien sovellusten hyödyntämisessä. Ne ovat keskeisiä komponentteja prosessien ja yhteentoimivuuden kehittämisessä, ja sellaisenaan digitalisaation olennaisia ajureita sekä julkishallinnossa että liiketoiminnassa, esimerkkeinä linkitetty avoin tieto (LOD), Internet of Things (IoT) ja avoin tiede. Yksittäiset tietojärjestelmät kuten kansallinen ontologiapalvelu Finto ovat riippuvaisia pysyvistä tunnisteista; ilman niitä palvelun hyödyntämisedellytykset semanttisessa Webissä heikentyisivät oleellisesti. Tunnistejärjestelmien toimivuus vaikuttaa oleellisesti tiedon laatuun.

 

Pysyviä tunnisteita tuotetaan ja hyödynnetään yhä enemmän julkishallinnon organisaatioissa. Suomessa sovelletaan eniten Handle-, DOI- ja URN-järjestelmiä. Toisin kuin perinteisiä tunnisteita kuten kirjojen ISBN-tunnusta, näitä  pysyviä tunnisteita voidaan käyttää Internetissä hyperlinkkeinä. Toisin kuin URL-osoitteet, tällaiset PID-tunnisteiden linkit eivät vanhene eivätkä ohjaa käyttäjää väärään dokumenttiin. Tarjoamiensa hyötyjen vuoksi nämä järjestelmät ovat murtautumassa yhä enemmän organisaatioiden sisäisestä niiden ulkoiseen käyttöön. Niistä on tulossa elintärkeitä julkista tietoa hyödyntäville ja integroiville sovelluksille ja palveluille sekä julkishallinnossa että yritystoiminnassa. Tunnisteiden käytön jatkuvasti kasvaessa tarvitaan kansallinen pysyvien yksilöivien tunnisteiden hallintamalli ja sitä tukevat yhteiset tai suositetut käytännöt osaksi kansallista informaatioinfrastruktuuria, jonka ajanmukaistamiseen valtiovarainministeriön koordinoima Yhteinen tiedon hallinta (YTI) hallituksen kärkihanke tähtää. Hallintamallin tulee tarjota eri tarpeisiin soveltuvat menetelmät ja niitä tukevat käytännöt pysyvien tunnisteiden jalkauttamiseksi.

 

Pysyvien tunnisteiden käyttöönotossa ja toimintatapojen vakiinnuttamisessa edetään laajalla rintamalla kansainvälisesti, ja Suomen on tarpeen pysyä mukana tässä kehityksessä koko kansantalouden kannalta. pysyvien tunnisteiden käytön lisäämiseen ohjaavat myös erilaiset standardointiin tähtäävät toimet, hankkeet ja suositukset, esim. EU:ssa ISA-ohjelma (mm. digitaaliset yhteismarkkinat), tutkimusdatan käsittelyyn tarvittavia eurooppalaisia palveluita ja järjestelmiä kehittävä EUDAT2020-hanke. Kansallisesti merkittäviä ovat esimerkiksi muistiorganisaatioiden Kansallisen digitaalisen kirjaston hanke sekä JHS 159 ISO OID-yksilöintitunnuksen soveltaminen (2006, 2010) ja JHS193 Paikkatietojen yksilöivät tunnisteet (2015). Standardointielimissä pyritään vahvistamaan olemassa olevien pysyvien tunnisteiden toiminnallisuutta ja muutossietoisuutta sekä niiden globaalia saatavuutta. Erilaisten pysyvien tunnisteiden järjestelmien yhteentoimivuuteen tarvitaan yhteisiä käytäntöjä, mikä osaltaan tukee em. tavoitteita. Standardoinnin edetessä joillakin osa-alueilla on myös osa-alueita, joihin liittyy eri intressitahojen poliittisia etuja ja joilla eteneminen edellyttää myös kansallisia ratkaisuja kansainvälisen yksimielisyyden viipyessä.

 

Pysyvien tunnisteiden käyttöön saattamiseen liittyy keskeisesti myös identifoitujen aineistojen metatieto, koska itse tunnisteet eivät lähtökohtaisesti ilmaise semantiikkaa tai tiedon alkuperää. Koska nämä tunnisteet ovat myös tietoa tarjoavia tunnisteita, niihin liittyy tietoturva yleisesti ja yksityisyyden suojana. Tunnistejärjestelmien hallittu toimivuus kokonaisuutena on edellytys tiedon liikkumiselle ja integroinnille. Muita käytännöllisiä haasteita ovat esim. useat eri viittaukset samaan aineistoon silloin kun esim. e-kirjasta on kopio useissa eri organisaatioiden ylläpitämissä järjestelmissä, ja näiden pysyvien tunnisteiden hallinta,  pysvien tunnisteide annotoinnin hallinta erityyppisissä tilanteissa, resoluutio- eli uudelleenohjauspalvelut ja niiden yhteentoimivuus, muutoshallinta- ja sietoisuus, eri pysyvien tunnisteiden tyypit linkitetyn datan käytössä (RDF) ja koulutustarpeet.

 

Tällä hetkellä kansallista koordinaatiota on tehty myös epävirallisessa PID-verkostossa. Tarve yhtenäistää myös elinkaarisääntöjen periaatteet (versiointi), joita ilman riittävää pysyvyyttä, yhteentoimivuutta ja joustavuutta (resilienssi) käytännöissä ei voida saavuttaa, on ilmeinen. Siksi YTI-hankkeessa ehdotetaan määritettäväksi suuntaviivat tärkeimmille kansallisille periaateratkaisuille, joiden perusteella voidaan laatia tarpeelliset JHS-suositukset tai valtioneuvoston asetukset toimeenpanoa varten. Suosituksia uusittaessa on otettava huomioon se, että ISO:n teksti- ja lähdeviitteiden standardia (ISO 690:2010) ollaan uudistamassa niin, että tunnisteille tulee entistä merkittävämpi rooli.

 

YTI-hankkeessa ja sen ohjauksessa tehtävän työn ehdotetaan käynnistyvän 02/2017 siten, että suuntaviivat ja ehdotukset jatkotoimiksi valmistuvat 06/2017, jonka jälkeen olisivat mahdolliset lausuntovaiheet jatkotehtävien käynnistämiseksi syksyllä 2017.

Työn resursoinnin osalta tarvitaan päätoiminen editori (työmääräarvio 6 htkk) sekä edustava työryhmä, esim. PID-verkosto (linkki: verkoston eDuuni-sivut).

  • No labels

11 Comments

  1. Hyvää tekstiä, Esa, kiitos!

  2. Hei,

    yritin noihin kahteen viimeiseen tekstikappaleeseen puristaa YTI-selvityksen tehtäväannon siten, että asetettava työryhmä tai VM voi sitä edelleen tarkentaa; tätä tarkemmin ei ehkä ole tarpeen tai järkevääkään vielä tässä vaiheessa laittaa etukäteen askelmerkkejä, rajoituksia tai muita "länkiä" tulevaan työhön (question):

    (re: Juha Hakalan postaus ti 22.11.2016 16:44)

    "PID:ien käyttöön saattamiseen liittyy keskeisesti myös identifoitujen aineistojen metatieto, koska itse tunnisteet eivät lähtökohtaisesti ilmaise semantiikkaa tai tiedon alkuperää. Koska PID:it ovat myös tietoa tarjoavia tunnisteita, niihin liittyy tietoturva yleisesti ja yksityisyyden suojana. Muita käytännöllisiä haasteita ovat esim. useat eri PID-viittaukset samaan aineistoon silloin kun esim. e-kirjasta on kopio useissa eri organisaatioiden ylläpitämissä järjestelmissä, ja näiden PID-tunnisteiden hallinta, PID-annotoinnin hallinta erityyppisissä tilanteissa, resoluutio- eli uudelleenohjauspalvelut ja niiden yhteentoimivuus, muutoshallinta- ja sietoisuus, eri PID-tyypit linkitetyn datan käytössä (RDF) ja koulutustarpeet. Työryhmän tulisi yhtenäistää myös elinkaarisääntöjen periaatteet (versiointi), joita ilman riittävää pysyvyyttä, yhteentoimivuutta ja joustavuutta (resilienssi) PID-käytännöissä ei voida saavuttaa.

     

    YTI-ohjelmassa ehdotetaan määritettäväksi suuntaviivat tärkeimmille kansallisille PID-periaateratkaisuille, joiden perusteella laaditaan tarpeelliset JHS-suositukset tai valtioneuvoston asetukset toimeenpanoa varten. Suosituksia uusittaessa on otettava huomioon se, että ISO:n teksti- ja lähdeviitteiden standardia (ISO 690:2010) ollaan uudistamassa niin, että PID-tunnisteille tulee entistä merkittävämpi rooli."

  3. Minulla on pieni ongelma, että "tunnisteet eivät lähtökohtaisesti ilmaise semantiikkaa tai tiedon alkuperää", koska meidän on käytännössä kuitenkin todennäköisesti hallittava myös erilaisia URI-avaruuksia. Niissä on oltava joku roti (smile) Että mitä ne on, mistä tulleet ja mitä ne yksilöi. Ainakin joissakin tapauksissa.

  4. Tunnisteiden (=PID:ien) tulisi W3C:n ja EU/ISA:n suositusten mukaan olla opaakkeja, eli ne eivät sisällä suoraan informaatiota tietokohteesta (entiteetistä) ja siksi käyttäjälle pitäisi olla saatavilla informaatiota tiedon alkuperästä (provenance). JHS 193:ssa ratkaisuna on, että nimiavaruuden komponenttina on datasetin tunniste, joka on sama kuin metatiedon tarjoava Paikkiatietohakemiston tunniste datasetille. Olisiko tässä yksi Best Practise-case? Tässä tapauksessa datasetin tunniste 7-numeroinen kokonaisluku, joten se on sinänsä opaakki. Paikkatietohakemisto ylläpitää tai paremminkin sisältää rekisterin dataset-tunnisteista. Jokin tämäntyyppinen rakenne mahdollistaa tiedon alkuperän (metatiedon) saatavuuden. Voi olla muitakin tapoja, W3C:llä on tätä varten erikseen PROV-standardi.

  5. Puuttuuko jotakin olennaista?

    "... tätä tarkemmin ei ehkä ole tarpeen tai järkevääkään vielä tässä vaiheessa laittaa etukäteen askelmerkkejä, rajoituksia tai muita "länkiä" tulevaan työhön (question)"

    • kuitenkin kaikki mitä pitää välttämättä käsitellä olisi hyvä nimetä, yritin tuohon puristaa lyhyesti kaiken olennaisen, mitä 18.1. tapaamisessa tuli esille - jäikö jotakin puuttumaan. 
  6. "Pysyviä tunnisteita (PID, persistent identifiers) tuotetaan ja hyödynnetään yhä enemmän julkishallinnon organisaatioissa. Suomessa sovelletaan eniten Handle-, DOI- ja URN-järjestelmiä."

     

    Miten suhtaudumme muihin EU:n URI-suosituksiin, mielestäni ei ole syytä rajata niitä tässä PID-käsitteen ulkopuolelle?

    1. EU:n URI-suositukset aiheuttavat meille mielenkiintoisia haasteita. Jos emme rajaa esimerkiksi European Legislation Identifier -tunnusta PID-käsitteen ulkopuolelle, meidän on sallittava tunnukset jotka ovat a) semanttisia ja b) URL-osoitteita, eli kaikkia sitä mitä oikeat PID-tunnukset eivät ole. Emme me tietenkään voi kieltää ELI-tunnusten käyttöä, mutta jos otamme ne tähän hankkeeseen mukaan, meidän on vaikea selittää mitä me oikeastaan haluamme edistää ja mitä PIDit oikeastaan ovat. 

  7. Ilman muuta, suuria haasteita, mutta toisaalta nämäkin olisi saatava jotenkin kartalle mukaan, muuten tämä juttu ei tue hallintoa ja linkitettyä avointa dataa tarpeeksi. Juuri datan laatu on ihan kriittinen juttu avoimen datan puolella ja koko hallinnon yhteentoimivuuden edellytyksenä? Eli olisi mielestäni hyvä olla mahdollisimman inklusiivinen tässä vaiheessa. Ainakin minulle tärkein tavoite olisi hyvä ja kestävä hallinta yleisesti, vaikka tässä on kovin erilaisia toimijoita, tarpeita ja ratkaisuja mukana. Eli ottaisimmeko sitten tuon PID:in pois jotenkin tuosta otsikosta?

    1. Kai Koistinen (MML) selvitti määritelmiä: PIDit eivät kerro suoraan identifioidun resurssin sijaintia. Tämän määritelmän mukaan esim. http URIt eivät ole PIDejä, mikä olisi kova rajaus hankkeelle, koska PID-tunnukset eivät tuon määritelmän mukaan ole Linked Data -ideologian mukaisia. Siksi otsikoksi tulisi muuttaa "Pysyvien tunnisteiden hallinnan ja käytäntöjen määrittäminen, ja muutenkin korvata "PID" sijaan vain "pysyvät tunnukset" tekstissä. Voihan sinne lisätä lauseen esim. "Työssä selvitetään kaikkia yksilöiviksi pysyviksi tunnuksiksi tarkoitettuja tunnisteita ja siten PID-tunnuksia laajemmin." Näin ollen työssä pitää myös tyypitellä eri tyyppiset pysyvät tunnisteet jne. Sinänsä MML:a pysyvät tunnisteet kiinnostavat tämänkertaisen aloitteen puitteissa lähinnä Linked data-yhteydessä, vaikka muitakin näköaloja on. 

       

       

       

      1. HTTP URI:t eivät tosiaankaan kaikki ole PID-tunnuksia, mutta nykyisessä Internet-verkossa kaikki toiminnalliset PID-tunnukset voidaan ja pitää esittää HTTP URI -muodossa. Esimerkiksi http://urn.fi/URN:ISBN:978-952-336-001-3 on HTTP URI, joka on muodostettu URN-tunnuksesta urn:isbn:978-952-336-001-3. Keskipitkän aikavälin tavoitteena on että URN-tunnukset olisivat verkossa sellaisenaan resolvoitavissa, siis ilman tuota URN-resolverin osoitetta. Kaikki toiminnalliset PID-tunnukset ovat siis a priori linked data -ideologian mukaisia. Linkitetyn datan pahin uhka ovat toimimattomat (link rot) tai väärään dokumenttiin johtavat (content drift) -linkit. Näihin molempiin ongelmiin PIDit ovat hyvä lääke. En kiistä etteikö rajatuissa ympäristöissä URLeja saisi varsin pysyviksi, onhan kirjastoissakin kokoelmia joiden hyllypaikka ei muutu. Mutta ISBN on silti paikanmerkkiä parempi tunnus kirjalle, esim. siksi että samasta dokumentista voi olla useita kappaleita eri kokoelmissa samassa kirjastoissa, ja eri kirjastoissa ympäri maailmaa. Ja riittävän pitkällä eli kymmenien ja satojen vuosien aikajänteellä mikä tahansa tekniikkariippuvainen ratkaisu muodostuu painolastiksi. IETF oli aikanaan itse vahvasti sitä mieltä että nimien on oltava täysin tekniikkariippumattomia, mutta muun muassa tämän periaatteen he unohtivat URIen myötä. Asiasta perillä olevat tahot ovat tosin kertoneet että URI syntax -standardi hyväksyttiin vain sen takia että sitä ajoi Tim Berners-Lee.

  8. Tein vielä pieniä stilistisiä muokkauksia.