Tämä perustuu asiantuntijaryhmässä alkukasvatetusta: Poimintakuvauksen luonnos (TK:n uusi tiedonkeruu) On edelleen kehitysvaiheessa, mutta on nyt täällä lopullisessa paikassaan.
Tilastoon otetaan mukaan ne muun kuin tutkintokoulutuksen opiskeluoikeudet, jotka ovat olleet tilastokauden aikana aktiivisia. Opiskeluoikeuden tyypit löytyvät alla olevasta poimintakuvausluonnoksesta.
Rivityypin B tietuekuvaus:
Tieto | Tiedon selite, säännöt | Huomioita | Sarakeotsikko CSV-tiedostossa |
---|---|---|---|
Ajotunnus | Tietojen kannasta tekevän poiminta-ajon yksilöivä tunnuste. Voi olla mikä tahansa merkkijono; tällä hetkellä tunnukseksi annettu ajon alkamisajankohta muodossa yyyyMMdd-HHmmss | ajotunnus | |
Tilaston muodostamisaika | PvmKlo, jolloin tiedot Virrasta poimittiin. yyyy-MM-dd HH:mm | ajoPvmKlo | |
Rivityyppi | Varauduttu siihen, että aineiston eri riveillä on erilaista tietoa. Tyyppi "B" on varsinaista dataa (opiskelijan suorituksia). Tyypissä "A" voisi olla esimerkiksi kumulatiivista tietoa (opiskelijoiden lkm, suoritusten laajuuksien summa) tai tilaston muodostamisen (ohjelman) testaustietoa. Tietuekuvaus A-tyypistä on myöhemmin tässä dokumentissa. → Arviointi olisiko hyvä viedä toimitustiedostoon (toistaiseksi menee sinne). | rivityyppi | |
Tilastokausi | Koodi, jonka perusteella on pääteltävissä ajanjakso (alkamis- ja päättymispäivämäärä), jolta tiedot on poimittu. vvvv + "kv"(kalenterivuosi) (/ "lv" (lukuvuosi) / "1lk" (syyslukukausi) / "2lk" (kevätlukukausi)) Tilastoa on ajettu kehitysvaiheessa myös eri aikajaksoilla kuin kalenterivuosittain, missä yhteydessä havaittu suoritusten suorituspäivämäärät opiskeluoikeuden päättymisen jälkeen, koska lukukausikohtaisten ajojen summa poikkesi lukuvuosikohtaisesta ajosta. | tilastokausi | |
Oppilaitoksen kirjainkoodi | Oppilaitoksen Virrassa käytetty tunniste, esim. DIAK, CENTRIA Korkeakouluille menevissä tiedostoissa ovat vain ko. korkeakoulun opiskelijoiden tiedot. Tilastokeskukselle menevässä tiedostossa ovat kaikkien korkeakoulujen tiedot (voidaan tietenkin toimittaa tilastokeskukselle kukin korkeakoulu omana tiedostonaan, jos tilastokeskus niin haluaa.) | oppilaitosDb | |
Oppilaitoksen organisaatiokoodi | Oppilaitoksen organisaatiokoodi, esim. DIAG:lla 0623 | oppilaitostunnus | |
Henkilötiedot | |||
Henkilötunnus | Opiskelija.Henkilotunnus. Jätetään tyhjäksi, jos tieto Virrassa ei ole 11 merkkiä pitkä. | väestörekisterin tietojen kautta korjaus | henkilotunnus |
Syntymäaika | Jätetään tyhjäksi, jos henkilötunnus on tiedossa (eli on 11 merkkiä pitkä). | (taustamuuttujat tärkeät hetuttomille) VTJ-tietojen kautta saadaan hetuja myös niille, joille ei ole hetua VIRTAssa. Tästä syystä nimitiedot tärkeät | syntymaaika |
Etunimet | Opiskelija.Etunimet | etunimet | |
Sukunimi | Opiskelija.Sukunimi | sukunimi | |
Sukupuoli | Opiskelija.Sukupuoli. 1=mies, 2=nainen 9= tuntematon tai tieto puuttuu | sukupuoli | |
Äidinkieli | Opiskelija.Aidinkieli. 2-kirjaiminen kielikoodi, esim. fi, sv, es | aidinkieli | |
Vakinainen asuinkunta Suomessa | Opiskelija.Asuinkunta | Tietoa ei ole Virrassa läheskään kattavasti. 2022 kaikki kk: 999 = tuntematon 84140 kpl null = ei tallennettua tietoa : 36755 kpl | asuinkunta |
Kansalaisuus | Sen maan kolminumeroinen (etunollitettu) maakoodi, johon henkilön kansalaisuus-tieto viittaa. Esim. Suomi = 246. Jos henkilöllä on monta kansalaisuutta, niin ensisijaisesti niistä tähän tuodaan Suomi eli 246, muuten koodiarvoltaan pienin (havainto 20.06.2023, toteutettu 26.06.2023, ennen toteutusta monikansalaisuus aiheutti sen että opiskelijasta tuli ylimääräisiä rivejä). SFTP-palvelimella korkeakoulun hakemistossa aineistot\EiTutkJohtOpis on uudet tiedostot, joissa tämä tilanne on korjattu: okm_eitutk_joht_opiskelu_tk2021_ajo20230627-103935.csv okm_eitutk_joht_opiskelu_tk2022_ajo20230626-151213.csv Uusissa tiedostoissa voi olla eroa toukokuun tiedostoihin myös, jos Virta-tiedot ovat muuttuneet. | kansalaisuus | |
Opiskelijan tiedot | |||
Opiskelija-avain | Opiskelija.Avain. Oppilaitoksen opiskelijalle antama yksilöivä tunniste. | opisAvain | |
Kansallinen oppijanumero | Opiskelija.KansallinenOppijanumero. | opisKansOppNro | |
Opiskelijan opiskeluoikeuksien lkm | Opiskelijan opiskeluoikeuksien lkm tässä poiminnan tulosaineistossa. | Mielenkiintoisia lukuja - voi olla kymmeniäkin! | opisOikLkm |
Onko opiskelija myös tutkinto-opiskelija | Onko opiskelijalla (0=ei, 1=kyllä) tilastokaudella voimassa oleva opiskeluoikeus, jonka tyyppi on joukossa {1, 2, 3, 4, 6, 7} 11.08.2023: Tässä päättelyssä oli virhe: Ennen tilastokauden alkua päättynyt opiskeluoikeus huomioitiin ja myöhemmin päättynyttä ei otettu - kun pitäisi olla päinvastoin. Virhe on korjattu ja aineistot ajettu uudelleen, virtafstp-palvelimella tiedostot: okm_eitutk_joht_opiskelu_tk2021_ajo20230811-111145.csv okm_eitutk_joht_opiskelu_tk2022_ajo20230811-124748.csv | opisOnMyosTutkOpis | |
Opiskeluoikeuden tiedot | Tilastoon otetaan mukaan ne opiskeluoikeudet (→ sen perusteella opiskelijat), joilla on tilastokauden aikana ollut aktiivinen opiskeluoikeus (opiskeluoikeudella tilatieto koodilla 1 (Opiskeluoikeus.Tila.Koodi=1)) ja sekä opiskeluoikeuden että sen tilatiedon voimassaoloaika leikkaa tilastokautta (eli on voimassa vähintään yhden päivän tilastokauden aikana). Koska opiskelijalla voi olla tässä aineistossa monta riviä (jos on useampia opiskeluoikeuksia tai opiskeluoikeusjaksoja), niin opiskelijoiden lukumäärää laskettaessa pitää käyttää ehtoa "oikRivinumero=1 and jakRivinumero=1"; opiskeluoikeuteen tai opiskeluoikeusjaksoon liittyviä rajauksia ei voi käyttää. | ||
Opiskeluoikeusavain | Opiskeluoikeus.Avain. Oppilaitoksen opiskeluoikeudelle antama yksilöivä tunniste. | oikAvain | |
Opiskeluoikeuden numero | Opiskelijakohtaisesti generoitu opiskeluoikeuden juokseva numero (1,2,...) tässä aineistossa. Tämä tieto auttaa suodattamaan tämän tiedoston rivejä taulukkolaskimessa (syy kerrottu muualla tässä dokumentissa). | oikRivinumero | |
Onko tilastokauden uusi opiskeluoikeus | Onko opiskeluoikeus (0=ei, 1=kyllä) tämän tilastokauden uusi opiskeluoikeus (vrt. "fuksimuuttuja"). Siis valmis vastaus kysymykseen, onko tilastokauden alkupäivämäärä <= Opiskeluoikeus.AlkuPvm <= tilastokauden päättymispäivämäärä. | oikTilvUusi | |
Opiskeluoikeuden alkamispäivämäärä | Opiskeluoikeus.AlkuPvm. vvvv-kk-pp | oikAlkamisPvm | |
Opiskeluoikeuden päättymispäivämäärä | Opiskeluoikeus.LoppuPvm. vvvv-kk-pp | oikPaattymisPvm | |
Koulutusmuoto (Opiskeluoikeuden tyyppi) | Opiskeluoikeus.Tyyppi. Opiskeluoikeuden tyypin koodi. 10 Täydennyskoulutus | VIRTAsta saatavissa vain ECTS-mitoitettun täydennyskoulutuksen tietoja, tietoja ei saada kaikilta korkeakouluilta kattavasti | oikKoulutusmuoto |
Ohjauksen ala | Opiskeluoikeus.Koulutusala. Opiskeluoikeuden koulutusalakoodi koulutusalakoodin versiossa 'ohjausala'; jos koodi ei liity versioon 'ohjausala', niin tieto jätetään tilastossa tyhjäksi. | oikOhjauksenAla | |
Suoritusten kokonaismäärä tilastokauden loppuun mennessä saadaan selville laskemalla yhteen tilastokautta edeltävät (eli vanhemmat) ja tilastokauden aikaiset suoritukset. Jos opiskeluoikeudella on tässä tulosaineistossa useampia opiskeluoikeusjaksoja, niin tietoja hyväksikäytettäessä pitää muistaa, ettei näitä opiskeluoikeustasoisia tietoja saa huomioita moneen kertaan: Tämä onnistuu valitsemalla vain ne rivit, joissa jakRivinumero = 1 | |||
Vanhempien suorituksien laajuuksien summa | Opiskeluoikeuden tilastokautta vanhempien suorituksien laajuuksien summa. | oikVanhSuorLaajSum | |
Vanhempien suorituksien lkm | Opiskeluoikeuden tilastokautta vanhempien suorituksien lukumäärä. | oikVanhSuorLkm | |
Uudempien suorituksien laajuuksien summa | Sellaisten opiskeluoikeuksien tilastokautta uudempien suoritusten laajuuksien summa, jotka päättyvät tilastokauden aikana. Suorituspäivämäärät ovat siis virheelliset, eivätkä tällaiset suoritukset välttämättä tule mukaan kaikissa tiedonkeruuissa. | oikUudSuorLaajSum | |
Uudempien suorituksien lkm | Sellaisten opiskeluoikeuksien tilastokautta uudempien suoritusten lukumäärä, jotka päättyvät tilastokauden aikana. | oikUudSuorLkm | |
Suorituksen opiskeluoikeuden selville saaminen vaatii sisältyvyyksien tutkimisen | Lehtitason suorituksen opiskeluoikeuden selville saaminen on vaatinyt ainakin yhdeltä tähän opiskeluoikeuteen liittyvältä lehtisuoritukselta sisältyvyyksien ja koostavien suoritusten tutkimisen, jos tässä oleva arvo on suurempi kuin nolla. Pitäisikö tällaisten lehtisuoritusten laajuudet ja lukumäärät jättää pois yleisestä summasta, koska tällaista tapaa selvittää opiskeluoikeuteen liittyminen ei käytetä muissa poiminnoissa? Jos pitäisi, niin pitäisikö/kannattaisiko ne kuitenkin tuoda tähän aineistoon omiin sarakkeisiinsa? | oikSisHierNousu | |
Opiskeluoikeuden opiskeluoikeusjaksojen lkm | Opiskeluoikeuden opiskeluoikeusjaksojen lkm tässä poiminnan tulosaineistossa. | oikJaksLkm | |
Opiskeluoikeusjakson (Opiskeluoikeus.Jakso) tiedot | Jokaisesta tilastokauden aikana voimassaolevasta opiskeluoikeuden jaksosta tulee tilastoon oma rivi, vaikka (ainakin teoriassa) on mahdollista, että eri jaksoilla olisi sama koulutuskunta, koulutuskieli ja rahoituslähde. Suurin havaittu on seitsemän jaksoa - ne olivat kalenterikuukausikohtaisia (voimassaoloajat eivät limittyneet), joissa kaikissa olis sama kunta (999), kieli (fi) ja rahoituslähde (null). | ||
Opiskeluoikeusjaksoavain | Oppilaitoksen opiskeluoikeusjaksolle antama yksilöivä tunniste. Opiskeluoikeusjakso.Avain. | jakAvain | |
Opiskeluoikeusjakson numero | Opiskeluoikeuskohtaisesti generoitu opiskeluoikeusjakson juokseva numero (1,2,...) tässä aineistossa. Tämä tieto auttaa suodattamaan tämän tiedoston rivejä taulukkolaskimessa (syy kerrottu muualla tässä dokumentissa). | jakRivinumero | |
Opiskeluoikeusjakson alkamispäivämäärä | Opiskeluoikeus.Jakso.AlkuPvm | jakAlkamisPvm | |
Opiskeluoikeusjakson päättymispäivämäärä | Opiskeluoikeus.Jakso.LoppuPvm | jakPaattymisPvm | |
Koulutuksen sijaintikunta | Opiskeluoikeus.Jakso.Koulutuskunta | jakSijaintikunta | |
Koulutuksen opetuskieli | Opiskeluoikeus.Jakso.Koulutuskieli | jakOpetuskieli lkm NULL 435028 99 6800 ... en 34820 fi 396458 sv 10559 | jakOpetuskieli |
Koulutuksen rahoituslähde | Opiskeluoikeus.Jakso.Rahoituslahde Virrassa opiskeluoikeusjaksolle tallennettu arvo siltään (ml. puuttuva arvo). Koodit ovat: 1 Perusrahoitus 2 ESR-rahoitus, vain ammattikorkeakoulukoulutus 3 TE-rahoitus, vain ammattikorkeakoulukoulutus 4 Maksullinen tilauskoulutus 5 Lukukausimaksukokeilu 6 Jotpa Valtionavustus 7 Jotpa hankintakoulutus 8 Jotpan RRF - rahoituksen valtionavustuskoulutus 9 Jotpan RRF-rahoituksen hankintakoulutus | jakRahoituslahde | |
Tilastokauden suoritusten laajuuksien summa | Huomioidaan vain tyyppiä 2 olevat lehtitason suoritukset. Lehtitasoon katsotaan kuuluviksi myös ne (tyyppiä 2 olevat), joilla on osasuorituksia (op_suor_sisaltyvyys), mutta kaikki osasuoritukset ovat tyypiltään 3 tai 4. Mikäli lehtitason suoritus ei ole kiinnitetty opiskeluoikeuteen, niin etsitään ensimmäinen lehtitason suorituksen sisältävä koostava suoritus, joka on kiinnitetty opiskeluoikeuteen; koska otetaan näin vain ensimmäinen, niin sisältyvyyden laajuus ei korvaa suorituksen laajuutta. | jakSuorLaajSum | |
Tilastokauden suoritusten lkm | jakSuorLkm |
Rivityypin A tietuekuvaus:
Henkilotunnus-sarakkeessa on tilastokauden alkamispäivämäärä, ja syntymaaika-sarakkeessa tilastokauden päättymispäivämäärä.
OppilaitosDb.sarakkeessa on korkeakoulun käytetty tunniste, esim. DIAK, CENTRIA; tilastokeskukselle menevässä kaikki korkeakoulut sisältävässä tiedostossa on myös tunniste KAIKKI - näillä riveillä olevat lukumäärä- ja opintopistetiedot ovat summia, joissa ovat mukana kaikki korkeakoulut.
OpisAvain-sarakkeessa on numero, jonka mukaan rivityypin A rivit saadaan haluttuun järjestykseen (tiedostoon viedään hakien kannasta järjestyksessä "rivityyppi, opisAvain, oikRivinumero, jakRivinumero")
Etunimet-sarakkeessa on rivillä olevan tiedon lyhyt selite.
Sukunimi-sarakkeessa on rivillä olevan tiedon arvo. Alla olevassa taulukossa olevat arvot ovat "korkeakoululta" KAIKKI.
OpisAvain | Etunimet | Sukunimi, esim. arvosta | Tiedon selite |
---|---|---|---|
1001 | Koulutusmuodot | 10,13,14,15,17,18,19,20 | Mukaan otettujen koulutusmuotojen (opiskeluoikeustyyppien) koodit pilkku-erotteinen lista |
1011 | opisLkm | 273462 | |
1012 | oikLkm | 410900 | |
1013 | jaksLkm | 410898 | |
1014 | suorLkm | 357836 | |
1015 | suorLaajSum | 1449270 | |
1016 | vanhSuorLkm | 206980 | |
1017 | vanhSuorLaajSum | 810463 | |
1018 | uudSuorLkm | 464 | |
1019 | uudSuorLaajSum | 1853 | |
1021 | minSuorPvm | 2022-01-01 | |
1022 | maxSuorPvm | 2022-12-31 | |
Tietojen haun algoritmi
1) Tallennetaan temp-tauluihin tiedot
a) Muodostettavat tilastokaudet (useampi kerralla olisi mahdollista, esim. lukuvuoden lukukaudet): koodi (esim. 2023kv), alkamis- ja päättymispäivämäärä
b) Mukaan otettavat oppilaitokset
c) Mukaan otettavat opiskeluoikeuden tyypit
2) Luupataan tilastokaudet, kullekin tehdään erikseen seuraavat vaiheet.
3) Etsitään opiskeluoikeudet ja tallennetaan temp-tauluun
a) Opiskeluoikeuden alkamispäivämäärän pitää olla <= tilastokauden päättymispäivämäärä
b) Opiskeluoikeuden päättymispäivämäärän oltava null tai >= tilastokauden alkamispaivämäärä
c) Opiskeluoikeudella on oltava ainakin yksi tilastokauden aikana voimassa ollut aktiivinen opiskeluoikeusjakso
d) Mukaan otetaan vielä tässä vaiheessa minkä tahansa tyypin opiskeluoikeudet; poistetaan myöhemmin ne, jotka eivät liity mukaan otettaviin tyyppeihin (tätä kirjoitettaessa menettelyn tarkoitus ei muistissa; voi liittyä opintosuoritusten liittämiseen opiskeluoikeuteen); väärän tyyppiset opiskeluoikeudet merkitään kuitenkin jo "oikMukaanOtettava (0/1) = 0".
4) Etsitään opiskeluoikeuksien jaksot ja tallennetaan temp-tauluun
5) Etsityistä opiskeluoikeuksista suodatetaan distinct opiskelijat ja tallennetaan temp-tauluun
6) Etsitään em. opiskelijoiden kaikki suoritukset, jotka eivät ole tyypiltään 1, 3 tai 4 - tarkoittaa käytännössä sitä, että tyypin on oltava 2 → #poiminta1
7) Etsitään sellaiset suoritukset, jotka eivät voi olla lehtisuorituksia - eli joilla on osasuoritus tyypiltään != 3 ja != 4 → #poiminta3
8) Lehtisuoritukset = #poiminta1 except #poiminta3 → #poiminta
9) Lehtisuoritukset (id:t) yhdistetään suorituksen varsinaisiin tietoihin → #lehtisuoritukset
10) Lehtisuorituksista poistetaan ne suoritukset, jotka eivät liity mukaan otettavaan opiskeluoikeuteen
- Tätä tehdään useammassa vaiheessa; aina sitä mukaa kuin opintosuorituksen liittyminen opiskeluoikeuteen on saatu selville
- Tässä vaiheessa lehtisuorituksella itsellään on tieto opiskeluoikeudesta
11) Suoritetaan apuajo, jota voisi käyttää muissakin poiminnoissa
a) Jos lehtisuorituksella itsellään ei ole tietoa opiskeluoikeudesta, niin opiskeluoikeudeksi etsitään ensimmäinen hierarkiasta (op_suor_sisaltyvyys-taulu) koostavalta suoritukselta löytyvä opiskeluoikeus (jos lehtisuoritusta (tai jotakin sitä koostavalla suorituksella) olisi useampi koostava suoritus, niin opiskeluoikeus otetaan niistä ensimmäisenä vastaan tulevasta).
b) Väärien suorituspäivämäärien oikaisu. Tämä tehdään, mutta oikaistujen suoritustenpäivämäärien suorituksia ei oteta muuten huomioon kuin tallentamalla niiden laajuudet ja lukumäärät omiin kenttiinsä ja ottaen mukaan vain ne, jotka liittyvät tilastokauden aikana päättyviin opiskeluoikeuksiin.
- "käytettävä suorituspäivämäärä" : Oletusarvona opintosuoritukselle tallennettu suorituspäivämäärä. Muuttuu varhaisemmaksi päivämääräksi, jos :
- Jos suorituspäivämäärä on suurempi kuin suorituksen opiskeluoikeuden päättymispäivämäärä, niin käytettäväksi suorituspäivämääräksi asetetaan opiskeluoikeuden päättymispäivämäärä.
- Jos opiskeluoikeudella on yksikin aktiivisen tilan opiskeluoikeusjakso, joka on alkanut ennen (<=) (jo "kertynyttä") käytettävää suorituspäivämäärää, niin tutkitaan niistä viimeisintä (se jolla on suurin alkamispäivämäärä): Jos viimeisin on päättynyt ja sen päättymispäivämäärä pienempi kuin jo kertynyt, niin käytettäväksi päättymispäivämääräksi otetaan ko. aktiivisen jakson päättymispäivämäärä: Miksi näin? Koska suorituksen tiedot kytketään myös opiskeluoikeusjaksoon, josta saadaan adjektiiveja tilastotiedoille (rahoituslähde, kunta, kieli) - niin pitää löytää sellainen päivämäärä, jolla voimassa oleva opiskeluoikeusjakso vastaa todellisuutta.
c) Etsitään suorituksen käytettävällä suorituspäivämäärällä voimassa oleva opiskeluoikeusjakso. Se voi jäädä löytymättä tai löydetään todellisuudesta poikkeava jakso, jos suorituspäivämäärä on virheellinen.
12) Lehtisuorituksista poistetaan ne suoritukset, jotka eivät liity mukaan otettavaan opiskeluoikeuteen
- Apuajo löysi suorituksen liittymisen opiskeluoikeuteen ja opiskeluoikeus on sellainen, jota ei oteta mukaan tässä ajossa.
13) Lehtisuorituksista poistetaan ne suoritukset, joiden liittymistä opiskeluoikeuteen ei ole saatu selville
14) Merkitään tilastokautta edeltävät suoritukset: lehEiKuuluTilastojaksoon=1 (näiden suoritusten lkm ja laajuussumma saadaan täten tulostiedoissa omaan sarakkeeseensa)
15) Merkitään tilastokautta myöhemmät suoritukset: lehEiKuuluTilastojaksoon=2 (näiden suoritusten lkm ja laajuussumma saadaan täten tulostiedoissa omaan sarakkeeseensa)