View Source

Tiedonsiirrossa merkistön koodaus voi on haasteellista jos tekstitiedoissa esintyy esim. Kyrillisiä tai Aasialaisisa merkkejä.
Myös ns. tavalliset ääkköset, skandit voivat mennä väärin Excelin kautta käsiteltynä kun tiedostoja tallennetaan csv-muotoon.

Jos kyseistä csv-lähdedataa käsitellään ensin Excelissä avaa asennuspaketin mukainen 3A lähdetiedosto pohjaksi suoraan ja tallenna aineisto aina csv-tiedostona, älä siis tallenna välillä Excel .xlsx tai .xls muotoon kuten Excel ehdottaa, muuten riskinä on että merkistön koodaus csv-aineistossa menee sekaisin.
Kohdan vanha calc-ohjelman UTF8-ohje auttaa jos tässä merkistön kanssa on ongelmia.

Jos csv-aineisto muodostetaan suoraan julkaisujärjestelmän tietokannasta tekstitiedostoon on varmistettava että tiedoston merkistö on UTF8-muodossa.

Merkistöä voi tarkistaa esim. Notepad++ ohjelmalla ja myös varovasti tehdä suoraan pieniä korjauksia.
Notepad++ on avoimeen lähdekoodiin pohjautuva tekstieditori ja ladattavissa: https://notepad-plus-plus.org/

Jos avatussa csv-tiedostossa Notepad++ kautta avattuna näkyy esim. tällaista tekstiä:

VIRTA-Julkaisutiedonkeruu > Virheet Csv - Excel UTF8 ohjeet > utf_koodi_virhe_kuva_001.jpg

ohjelmassa lopputuloksena esim. Julkaisun nimessä, tekijöiden nimi sarakkeessa tulee "???? ?????" tai jotain muuta ei ns. luettavaa tekstiä,
tiedoston merkistön koodaus on mennyt sekaisin eli on UTF8 koodattua tekstiä joka ei kuitenkaan toivotussa muodossa. Korjaa lähdedatassa teksti UTF8 muotoon.

Mallitiedoston csv:n avaaminen Excelissä voi näyttää tällaiselta:

VIRTA-Julkaisutiedonkeruu > Virheet Csv - Excel UTF8 ohjeet > Excel_aakkoset.jpg

Eli ä on "Ã¤" ja ö on "Ã¶" jne. mutta taas Notepad++ kautta avattuna ääkköset tulostuvat oikein, on kaikki silloin todennäköisesti ok. Eli aineiston voi ladata lähdetiedostona työkaluun käsiteltäväksi.

VIRTA-Julkaisutiedonkeruu > Virheet Csv - Excel UTF8 ohjeet > utf_koodi_virhe_ok_kuva_002.jpg

Jos ääkköset Notepad++ ovat esim: "Julkaisun tekijÃ¤t" "Julkaisun tekijÃ¶iden lukumÃ¤Ã¤rÃ¤" niin csv-xml-työkalu ei suostu lukemaan tiedostoa.
Csv-xml työkalu käyttää TextFileEncodingDetector luokan metodeja (KlerksSoft.dll) UTF8-muotoisten csv-lähdetiedostojen tarkistukseen,
metodi ei kuitenkaan pysty kaikkia mahdollisia tapauksia löytämään tai käsittelemään.

Mikäli merkistö menee vain jonkun yksittäisen julkaisun kohdalla (yhdellä rivillä) väärin voidaan kyseinen rivi voi myös poistaa ohjelmassa ja käsitellään loppuun vain kunnossa olevat
tiedostot (rivit) XML-tiedostoa muodostaessa. Julkaisuja voi siis tuoda yksittäisinä riveinä, eli kaikkia ei tarvitse yhtä aikaa tuoda.
Voi korjata virheet ja tuoda vain korjatut julkaisut erikseen myös myöhemmin. Lopputulos ei ole siis siitä kiinni että kaikki julkaisut ovat yhdessä ja samassa tiedostossa.