Korkeakoulutuksen tutkintoennuste
Korkeakoulutuksen tutkintoennuste kertoo kuluvana vuonna korkeakoulutuksesta valmistuvien määrän. Ennuste perustuu kaksi kertaa vuodessa päivittyvään opintosuoritusdataan. Data on summatiivista ja myös karkeistettu siten, että jos suoritusten määrä alittaa viisi, tarkkaa määrää ei näytetä. Summatiivinen tarkoittaa tässä, että data sisältää tiedot tutkintosuorituksista, mutta ei henkilötietoja kuten opiskelijan ikää, kotipaikkaa tai äidinkieltä.
Ennusteen tavoitteena on ennakoida työmarkkinoille tulevaa osaamista koulutusaloittain, koulutusasteittain ja tutkintonimikkeittäin. Voit valita raportille esimerkiksi saman koulutusalan alemmat ja ylemmät korkeakoulututkinnot sekä ammattikorkeakouluista että yliopistoista.
Tutkintonimikkeiden luokittelu perustuu Tilastokeskuksen kansalliseen koulutusluokitukseen, jossa tutkinnot on sijoitettu koulutusasteisiin eli ylempiin ja alempiin korkeakoulututkintoihin sekä koulutusaloihin.
Miten tutkintoennuste laadittiin?
Tutkintoennuste perustuu korkeakoulujen valtakunnallisen tietovarannon VIRTA-opintotietopalvelun dataan. Rekisteri sisältää tietoja korkeakoulujen tutkintosuorituksista ja opinto-oikeuksista vuodesta 2010 saakka.
Korkeakoulutuksen tutkintoennuste on mallinnettu opiskeluoikeuksien ja suoritusten vuosien 2010-2023 historiadatan perusteella. Data päivittyy kaksi kertaa vuodessa korkeakoulujen rekisterinpidon aikataulujen mukaisesti:
- lokakuussa tiedot uusista opiskelijoista
- helmikuussa tiedot edellisen vuoden tutkintosuorituksista.
Tietosuojasyistä Virta-dataa ei ennusteen laskentaan saada yksilötasolla. Koneoppimismalli on yksinkertaisempi kuin ammatillisen koulutuksen datasta laadittu ennuste. Mallissa käytetään edellisten vuosien läsnä olevien, aloittaneiden, keskeyttäneiden ja valmistuneiden lukumääriä.
Lukumäärätietoja ei tietosuojasyistä saada alueittain opiskelijoiden kotipaikkakunnan tasolla, vaan ainoastaan summattuina koko maan tasolle. Tämän vuoksi ennustemallia ja ennusteita ei voi laatia alueittain. Korkeakoulutuksen tutkintoennuste on valtakunnallinen.
Historiadatan perusteella on vertailtu vuoden lopussa valmistuneiden määriä ennusteeseen. Koulutuksesta valmistuneiden ja aiempina vuosina läsnä olleiden, aloittaneiden, keskeyttäneiden ja valmistuneiden välillä on historiadatan perusteella voimakas korrelaatio.
Ennustemallissa hyödynnettiin XGBoost (eXtreme Gradient Boosting) -koneoppimismallia. Malli opetettiin ennustamaan valmistuneiden lukumääriä edellisten vuosien läsnä olleiden, aloittaneiden ja valmistuneiden avulla.
Malli tarkentuu, kun historiadataa kertyy enemmän. Nyt voidaan jo karkeasti sanoa, että malli ennustaa sitä tarkemmin, mitä suuremmasta tutkinnon valmistujamäärästä on kyse. Tutkintotasolla, jos valmistuneita on vähintään 20, on keskimääräinen virhe 16 prosentin luokkaa, ja jos valmistuneiden määrä on vähintään 100, on keskimääräinen virhe 10 prosentin luokkaa.