Tämä perustuu asiantuntijaryhmässä alkukasvatetusta: Poimintakuvauksen luonnos (TK:n uusi tiedonkeruu) On edelleen kehitysvaiheessa, mutta on nyt täällä lopullisessa paikassaan.

Tilastoon otetaan mukaan ne muun kuin tutkintokoulutuksen opiskeluoikeudet, jotka ovat olleet  tilastokauden aikana aktiivisia. Opiskeluoikeuden tyypit löytyvät alla olevasta poimintakuvausluonnoksesta.


Rivityypin B tietuekuvaus:

TietoTiedon selite, säännötHuomioita
Sarakeotsikko CSV-tiedostossa
Ajotunnus

Tietojen kannasta tekevän poiminta-ajon yksilöivä tunnuste.

Voi olla mikä tahansa merkkijono; tällä hetkellä tunnukseksi annettu ajon alkamisajankohta muodossa yyyyMMdd-HHmmss


ajotunnus
Tilaston muodostamisaika

PvmKlo, jolloin tiedot Virrasta poimittiin. yyyy-MM-dd HH:mm


ajoPvmKlo
RivityyppiVarauduttu siihen, että aineiston eri riveillä on erilaista tietoa. Tyyppi "B" on varsinaista dataa (opiskelijan suorituksia). Tyypissä "A" voisi olla esimerkiksi kumulatiivista tietoa (opiskelijoiden lkm, suoritusten laajuuksien summa) tai tilaston muodostamisen (ohjelman) testaustietoa. Tietuekuvaus A-tyypistä on myöhemmin tässä dokumentissa. → Arviointi olisiko hyvä viedä toimitustiedostoon (toistaiseksi menee sinne).

rivityyppi
Tilastokausi

Koodi, jonka perusteella on pääteltävissä ajanjakso (alkamis- ja päättymispäivämäärä), jolta tiedot on poimittu.

vvvv + "kv"(kalenterivuosi) (/ "lv" (lukuvuosi) / "1lk" (syyslukukausi) / "2lk" (kevätlukukausi))

Tilastoa on ajettu kehitysvaiheessa myös eri aikajaksoilla kuin kalenterivuosittain, missä yhteydessä havaittu suoritusten suorituspäivämäärät opiskeluoikeuden päättymisen jälkeen, koska lukukausikohtaisten ajojen summa poikkesi lukuvuosikohtaisesta ajosta.


tilastokausi
Oppilaitoksen kirjainkoodi

Oppilaitoksen Virrassa käytetty tunniste, esim. DIAK, CENTRIA

Korkeakouluille menevissä tiedostoissa ovat vain ko. korkeakoulun opiskelijoiden tiedot. Tilastokeskukselle menevässä tiedostossa ovat kaikkien korkeakoulujen tiedot (voidaan tietenkin toimittaa tilastokeskukselle kukin korkeakoulu omana tiedostonaan, jos tilastokeskus niin haluaa.)


oppilaitosDb
Oppilaitoksen organisaatiokoodiOppilaitoksen organisaatiokoodi, esim. DIAG:lla 0623
oppilaitostunnus
Henkilötiedot


HenkilötunnusOpiskelija.Henkilotunnus. Jätetään tyhjäksi, jos tieto Virrassa ei ole 11 merkkiä pitkä.väestörekisterin tietojen kautta korjaushenkilotunnus
SyntymäaikaJätetään tyhjäksi, jos henkilötunnus on tiedossa (eli on 11 merkkiä pitkä).

(taustamuuttujat tärkeät hetuttomille)

VTJ-tietojen kautta saadaan hetuja myös niille, joille ei ole hetua VIRTAssa. Tästä syystä nimitiedot tärkeät

syntymaaika
EtunimetOpiskelija.Etunimet
etunimet
SukunimiOpiskelija.Sukunimi
sukunimi
Sukupuoli

Opiskelija.Sukupuoli. 1=mies, 2=nainen 9= tuntematon tai tieto puuttuu


sukupuoli

ÄidinkieliOpiskelija.Aidinkieli. 2-kirjaiminen kielikoodi, esim. fi, sv, es


aidinkieli

Vakinainen asuinkunta SuomessaOpiskelija.Asuinkunta

Tietoa ei ole Virrassa läheskään kattavasti.

2022 kaikki kk:

999 = tuntematon 84140 kpl

null = ei tallennettua tietoa : 36755 kpl

asuinkunta

Kansalaisuus

Sen maan kolminumeroinen (etunollitettu) maakoodi, johon henkilön kansalaisuus-tieto viittaa. Esim. Suomi = 246.

Jos henkilöllä on monta kansalaisuutta, niin ensisijaisesti niistä tähän tuodaan Suomi eli 246, muuten koodiarvoltaan pienin (havainto 20.06.2023, toteutettu 26.06.2023, ennen toteutusta monikansalaisuus aiheutti sen että opiskelijasta tuli ylimääräisiä rivejä).

SFTP-palvelimella korkeakoulun hakemistossa aineistot\EiTutkJohtOpis on uudet tiedostot, joissa tämä tilanne on korjattu:

okm_eitutk_joht_opiskelu_tk2021_ajo20230627-103935.csv

okm_eitutk_joht_opiskelu_tk2022_ajo20230626-151213.csv

Uusissa tiedostoissa voi olla eroa toukokuun tiedostoihin myös, jos Virta-tiedot ovat muuttuneet.


kansalaisuus

Opiskelijan tiedot



Opiskelija-avainOpiskelija.Avain. Oppilaitoksen opiskelijalle antama yksilöivä tunniste.  
opisAvain
Kansallinen oppijanumeroOpiskelija.KansallinenOppijanumero.
opisKansOppNro
Opiskelijan opiskeluoikeuksien lkmOpiskelijan opiskeluoikeuksien lkm tässä poiminnan tulosaineistossa.Mielenkiintoisia lukuja - voi olla kymmeniäkin!opisOikLkm
Onko opiskelija myös tutkinto-opiskelija

Onko opiskelijalla (0=ei, 1=kyllä) tilastokaudella voimassa oleva opiskeluoikeus, jonka tyyppi on joukossa {1, 2, 3, 4, 6, 7}

11.08.2023: Tässä päättelyssä oli virhe: Ennen tilastokauden alkua päättynyt opiskeluoikeus huomioitiin ja myöhemmin päättynyttä ei otettu - kun pitäisi olla päinvastoin. Virhe on korjattu ja aineistot ajettu uudelleen, virtafstp-palvelimella tiedostot:

okm_eitutk_joht_opiskelu_tk2021_ajo20230811-111145.csv

okm_eitutk_joht_opiskelu_tk2022_ajo20230811-124748.csv


opisOnMyosTutkOpis
Opiskeluoikeuden tiedot

Tilastoon otetaan mukaan ne opiskeluoikeudet (→ sen perusteella opiskelijat), joilla on tilastokauden aikana  ollut aktiivinen opiskeluoikeus (opiskeluoikeudella tilatieto koodilla 1 (Opiskeluoikeus.Tila.Koodi=1)) ja sekä opiskeluoikeuden että sen tilatiedon voimassaoloaika leikkaa tilastokautta (eli on voimassa vähintään yhden päivän tilastokauden aikana).

Koska opiskelijalla voi olla tässä aineistossa monta riviä (jos on useampia opiskeluoikeuksia tai opiskeluoikeusjaksoja), niin opiskelijoiden lukumäärää laskettaessa pitää käyttää ehtoa "oikRivinumero=1 and jakRivinumero=1"; opiskeluoikeuteen tai opiskeluoikeusjaksoon liittyviä rajauksia ei voi käyttää.



OpiskeluoikeusavainOpiskeluoikeus.Avain. Oppilaitoksen opiskeluoikeudelle antama yksilöivä tunniste.

oikAvain

Opiskeluoikeuden numero

Opiskelijakohtaisesti generoitu opiskeluoikeuden juokseva numero (1,2,...) tässä aineistossa.

Tämä tieto auttaa suodattamaan tämän tiedoston rivejä taulukkolaskimessa (syy kerrottu muualla tässä dokumentissa).


oikRivinumero

Onko tilastokauden uusi opiskeluoikeus

Onko opiskeluoikeus (0=ei, 1=kyllä) tämän tilastokauden uusi opiskeluoikeus (vrt. "fuksimuuttuja"). 

Siis valmis vastaus kysymykseen, onko tilastokauden alkupäivämäärä <= Opiskeluoikeus.AlkuPvm <= tilastokauden päättymispäivämäärä.


oikTilvUusi

Opiskeluoikeuden alkamispäivämääräOpiskeluoikeus.AlkuPvm. vvvv-kk-pp
oikAlkamisPvm
Opiskeluoikeuden päättymispäivämääräOpiskeluoikeus.LoppuPvm. vvvv-kk-pp
oikPaattymisPvm

Koulutusmuoto

(Opiskeluoikeuden tyyppi)

Opiskeluoikeus.Tyyppi. Opiskeluoikeuden tyypin koodi.

10    Täydennyskoulutus
13    Avoimen opinnot
14    Erilliset opettajankoulutuksen opinnot 
15    Ammatillinen opettajankoulutus
17    Valmentava koulutus
18    Erillisoikeus
19    Erikoistumiskoulutus
20    Opiskeluyhteistyö muun kuin korkeakoulun kanssa

VIRTAsta saatavissa vain ECTS-mitoitettun täydennyskoulutuksen tietoja, tietoja ei saada kaikilta korkeakouluilta kattavastioikKoulutusmuoto

Ohjauksen ala

Opiskeluoikeus.Koulutusala. Opiskeluoikeuden koulutusalakoodi koulutusalakoodin versiossa 'ohjausala'; jos koodi ei liity versioon 'ohjausala', niin tieto jätetään tilastossa tyhjäksi.


oikOhjauksenAla


Suoritusten kokonaismäärä tilastokauden loppuun mennessä saadaan selville laskemalla yhteen tilastokautta edeltävät (eli vanhemmat) ja tilastokauden aikaiset suoritukset.

Jos opiskeluoikeudella on tässä tulosaineistossa useampia opiskeluoikeusjaksoja, niin tietoja hyväksikäytettäessä pitää muistaa, ettei näitä opiskeluoikeustasoisia tietoja saa huomioita moneen kertaan: Tämä onnistuu valitsemalla vain ne rivit, joissa jakRivinumero = 1



Vanhempien suorituksien laajuuksien summa

Opiskeluoikeuden tilastokautta vanhempien suorituksien laajuuksien summa.
oikVanhSuorLaajSum

Vanhempien suorituksien lkm

Opiskeluoikeuden tilastokautta vanhempien suorituksien lukumäärä.


oikVanhSuorLkm

Uudempien suorituksien laajuuksien summa

Sellaisten opiskeluoikeuksien tilastokautta uudempien suoritusten laajuuksien summa, jotka päättyvät tilastokauden aikana. Suorituspäivämäärät ovat siis virheelliset, eivätkä tällaiset suoritukset välttämättä tule mukaan kaikissa tiedonkeruuissa.


oikUudSuorLaajSum

Uudempien suorituksien lkm

Sellaisten opiskeluoikeuksien tilastokautta uudempien suoritusten lukumäärä, jotka päättyvät tilastokauden aikana.


oikUudSuorLkm

Suorituksen opiskeluoikeuden selville saaminen vaatii sisältyvyyksien tutkimisen

Lehtitason suorituksen opiskeluoikeuden selville saaminen on vaatinyt ainakin yhdeltä tähän opiskeluoikeuteen liittyvältä lehtisuoritukselta sisältyvyyksien ja koostavien suoritusten tutkimisen, jos tässä oleva arvo on suurempi kuin nolla.
Tässä oleva numero tarkoittaa, montako "sisältyvyysaskelta"/"suoritushierarkian porrasta" on pitänyt ottaa enimmillään tähän opiskeluoikeuteen liittyvillä lehtisuorituksilla.

Pitäisikö tällaisten lehtisuoritusten laajuudet ja lukumäärät jättää pois yleisestä summasta, koska tällaista tapaa selvittää opiskeluoikeuteen liittyminen ei käytetä muissa poiminnoissa? Jos pitäisi, niin pitäisikö/kannattaisiko ne kuitenkin tuoda tähän aineistoon omiin sarakkeisiinsa?


oikSisHierNousu

Opiskeluoikeuden opiskeluoikeusjaksojen lkm

Opiskeluoikeuden opiskeluoikeusjaksojen lkm tässä poiminnan tulosaineistossa.


oikJaksLkm
Opiskeluoikeusjakson (Opiskeluoikeus.Jakso) tiedot

Jokaisesta tilastokauden aikana voimassaolevasta opiskeluoikeuden jaksosta tulee tilastoon oma rivi, vaikka (ainakin teoriassa) on mahdollista, että eri jaksoilla olisi sama koulutuskunta, koulutuskieli ja rahoituslähde.

Suurin havaittu on seitsemän jaksoa - ne olivat kalenterikuukausikohtaisia (voimassaoloajat eivät limittyneet), joissa kaikissa olis sama kunta (999), kieli (fi) ja rahoituslähde (null).



OpiskeluoikeusjaksoavainOppilaitoksen opiskeluoikeusjaksolle antama yksilöivä tunniste. Opiskeluoikeusjakso.Avain.
jakAvain
Opiskeluoikeusjakson numero

Opiskeluoikeuskohtaisesti generoitu opiskeluoikeusjakson juokseva numero (1,2,...) tässä aineistossa.

Tämä tieto auttaa suodattamaan tämän tiedoston rivejä taulukkolaskimessa (syy kerrottu muualla tässä dokumentissa).


jakRivinumero
Opiskeluoikeusjakson alkamispäivämääräOpiskeluoikeus.Jakso.AlkuPvm
jakAlkamisPvm
Opiskeluoikeusjakson päättymispäivämääräOpiskeluoikeus.Jakso.LoppuPvm
jakPaattymisPvm
Koulutuksen sijaintikuntaOpiskeluoikeus.Jakso.Koulutuskunta
jakSijaintikunta
Koulutuksen opetuskieliOpiskeluoikeus.Jakso.Koulutuskieli

jakOpetuskieli    lkm

NULL    435028

99    6800

...

en    34820

fi    396458

sv    10559

jakOpetuskieli
Koulutuksen rahoituslähde

Opiskeluoikeus.Jakso.Rahoituslahde

Virrassa opiskeluoikeusjaksolle tallennettu arvo siltään (ml. puuttuva arvo). Koodit ovat:

1    Perusrahoitus

2    ESR-rahoitus, vain ammattikorkeakoulukoulutus

3    TE-rahoitus, vain ammattikorkeakoulukoulutus

4    Maksullinen tilauskoulutus

5    Lukukausimaksukokeilu

6    Jotpa Valtionavustus

7    Jotpa hankintakoulutus

8    Jotpan RRF - rahoituksen valtionavustuskoulutus

9    Jotpan RRF-rahoituksen hankintakoulutus


jakRahoituslahde

Tilastokauden suoritusten laajuuksien summa

Huomioidaan vain tyyppiä 2 olevat lehtitason suoritukset. Lehtitasoon katsotaan kuuluviksi myös ne (tyyppiä 2 olevat), joilla on osasuorituksia (op_suor_sisaltyvyys), mutta kaikki osasuoritukset ovat tyypiltään 3 tai 4.

Mikäli lehtitason suoritus ei ole kiinnitetty opiskeluoikeuteen, niin etsitään ensimmäinen lehtitason suorituksen sisältävä koostava suoritus, joka on kiinnitetty opiskeluoikeuteen; koska otetaan näin vain ensimmäinen, niin sisältyvyyden laajuus ei korvaa suorituksen laajuutta.


jakSuorLaajSum
Tilastokauden suoritusten lkm

jakSuorLkm


Rivityypin A tietuekuvaus:

Henkilotunnus-sarakkeessa on tilastokauden alkamispäivämäärä, ja syntymaaika-sarakkeessa tilastokauden päättymispäivämäärä.

OppilaitosDb.sarakkeessa on korkeakoulun käytetty tunniste, esim. DIAK, CENTRIA; tilastokeskukselle menevässä kaikki korkeakoulut sisältävässä tiedostossa on myös tunniste KAIKKI - näillä riveillä olevat lukumäärä- ja opintopistetiedot ovat summia, joissa ovat mukana kaikki korkeakoulut.

OpisAvain-sarakkeessa on numero, jonka mukaan rivityypin A rivit saadaan haluttuun järjestykseen (tiedostoon viedään hakien kannasta järjestyksessä "rivityyppi, opisAvain, oikRivinumero, jakRivinumero")

Etunimet-sarakkeessa on rivillä olevan tiedon lyhyt selite.

Sukunimi-sarakkeessa on rivillä olevan tiedon arvo. Alla olevassa taulukossa olevat arvot ovat "korkeakoululta" KAIKKI.

OpisAvainEtunimetSukunimi, esim. arvostaTiedon selite
1001Koulutusmuodot10,13,14,15,17,18,19,20Mukaan otettujen koulutusmuotojen (opiskeluoikeustyyppien) koodit pilkku-erotteinen lista
1011opisLkm273462
1012oikLkm410900
1013jaksLkm410898
1014suorLkm357836
1015suorLaajSum1449270
1016vanhSuorLkm206980
1017vanhSuorLaajSum810463
1018uudSuorLkm464
1019uudSuorLaajSum1853
1021minSuorPvm2022-01-01
1022maxSuorPvm2022-12-31




Tietojen haun algoritmi

1) Tallennetaan temp-tauluihin tiedot

a) Muodostettavat tilastokaudet (useampi kerralla olisi mahdollista, esim. lukuvuoden lukukaudet): koodi (esim. 2023kv), alkamis- ja päättymispäivämäärä

b) Mukaan otettavat oppilaitokset

c) Mukaan otettavat opiskeluoikeuden tyypit

2) Luupataan tilastokaudet, kullekin tehdään erikseen seuraavat vaiheet.

3) Etsitään opiskeluoikeudet ja tallennetaan temp-tauluun

a) Opiskeluoikeuden alkamispäivämäärän pitää olla <= tilastokauden päättymispäivämäärä

b) Opiskeluoikeuden päättymispäivämäärän oltava null tai >= tilastokauden alkamispaivämäärä

c) Opiskeluoikeudella on oltava ainakin yksi tilastokauden aikana voimassa ollut aktiivinen opiskeluoikeusjakso

d) Mukaan otetaan vielä tässä vaiheessa minkä tahansa tyypin opiskeluoikeudet; poistetaan myöhemmin ne, jotka eivät liity mukaan otettaviin tyyppeihin (tätä kirjoitettaessa menettelyn tarkoitus ei muistissa; voi liittyä opintosuoritusten liittämiseen opiskeluoikeuteen); väärän tyyppiset opiskeluoikeudet merkitään kuitenkin jo "oikMukaanOtettava (0/1) = 0".

4) Etsitään opiskeluoikeuksien jaksot ja tallennetaan temp-tauluun

5) Etsityistä opiskeluoikeuksista suodatetaan distinct opiskelijat ja tallennetaan temp-tauluun

6) Etsitään em. opiskelijoiden kaikki suoritukset, jotka eivät ole tyypiltään 1, 3 tai 4 - tarkoittaa käytännössä sitä, että tyypin on oltava 2 → #poiminta1

7) Etsitään sellaiset suoritukset, jotka eivät voi olla lehtisuorituksia - eli joilla on osasuoritus tyypiltään != 3 ja != 4 → #poiminta3

8) Lehtisuoritukset = #poiminta1 except #poiminta3 → #poiminta

9) Lehtisuoritukset (id:t) yhdistetään suorituksen varsinaisiin tietoihin → #lehtisuoritukset

10) Lehtisuorituksista poistetaan ne suoritukset, jotka eivät liity mukaan otettavaan opiskeluoikeuteen

  • Tätä tehdään useammassa vaiheessa; aina sitä mukaa kuin opintosuorituksen liittyminen opiskeluoikeuteen on saatu selville
  • Tässä vaiheessa lehtisuorituksella itsellään on tieto opiskeluoikeudesta

11) Suoritetaan apuajo, jota voisi käyttää muissakin poiminnoissa

a) Jos lehtisuorituksella itsellään ei ole tietoa opiskeluoikeudesta, niin opiskeluoikeudeksi etsitään ensimmäinen hierarkiasta (op_suor_sisaltyvyys-taulu) koostavalta suoritukselta löytyvä opiskeluoikeus (jos lehtisuoritusta (tai jotakin sitä koostavalla suorituksella) olisi useampi koostava suoritus, niin opiskeluoikeus otetaan niistä ensimmäisenä vastaan tulevasta).

b) Väärien suorituspäivämäärien oikaisu. Tämä tehdään, mutta oikaistujen suoritustenpäivämäärien suorituksia ei oteta muuten huomioon kuin tallentamalla niiden laajuudet ja lukumäärät omiin kenttiinsä ja ottaen mukaan vain ne, jotka liittyvät tilastokauden aikana päättyviin opiskeluoikeuksiin.

  • "käytettävä suorituspäivämäärä" : Oletusarvona opintosuoritukselle tallennettu suorituspäivämäärä.  Muuttuu varhaisemmaksi päivämääräksi, jos : 
  • Jos suorituspäivämäärä on suurempi kuin suorituksen opiskeluoikeuden päättymispäivämäärä, niin käytettäväksi suorituspäivämääräksi asetetaan opiskeluoikeuden päättymispäivämäärä.
  • Jos opiskeluoikeudella on yksikin aktiivisen tilan opiskeluoikeusjakso, joka on alkanut ennen (<=) (jo "kertynyttä") käytettävää suorituspäivämäärää, niin tutkitaan niistä viimeisintä (se jolla on suurin alkamispäivämäärä): Jos viimeisin on päättynyt ja sen päättymispäivämäärä pienempi kuin jo kertynyt, niin käytettäväksi päättymispäivämääräksi otetaan ko. aktiivisen jakson päättymispäivämäärä: Miksi näin? Koska suorituksen tiedot kytketään myös opiskeluoikeusjaksoon, josta saadaan adjektiiveja tilastotiedoille (rahoituslähde, kunta, kieli) - niin pitää löytää sellainen päivämäärä, jolla voimassa oleva opiskeluoikeusjakso vastaa todellisuutta.

c) Etsitään suorituksen käytettävällä suorituspäivämäärällä voimassa oleva opiskeluoikeusjakso. Se voi jäädä löytymättä tai löydetään todellisuudesta poikkeava jakso, jos suorituspäivämäärä on virheellinen.

12) Lehtisuorituksista poistetaan ne suoritukset, jotka eivät liity mukaan otettavaan opiskeluoikeuteen

  • Apuajo löysi suorituksen liittymisen opiskeluoikeuteen ja opiskeluoikeus on sellainen, jota ei oteta mukaan tässä ajossa.

13) Lehtisuorituksista poistetaan ne suoritukset, joiden liittymistä opiskeluoikeuteen ei ole saatu selville

14) Merkitään tilastokautta edeltävät suoritukset: lehEiKuuluTilastojaksoon=1 (näiden suoritusten lkm ja laajuussumma saadaan täten tulostiedoissa omaan sarakkeeseensa)

15) Merkitään tilastokautta myöhemmät suoritukset: lehEiKuuluTilastojaksoon=2 (näiden suoritusten lkm ja laajuussumma saadaan täten tulostiedoissa omaan sarakkeeseensa)

  • No labels