Hyppää sisältöön

Big data ja tekoälyn hyödyntäminen osaamisen ennakoinnissa

Kuvituskuva tiestä tulevaisuuteen

Jotpan ennakointitehtävä keskittyy jatkuvan oppimisen eli työelämän lähitulevaisuuden osaamistarpeiden ennakointiin. Jos osaamistarpeita kootaan perinteisin menetelmin asiantuntijafoorumeita hyödyntämällä, tarvitaan paljon inhimillisiä resursseja ja aikaa, koska tiedonkeruut pitäisi toteuttaa vähintään vuosittain.

Kielimallien kehitys ja tekoälyn hyödyntäminen on tuonut uusia mahdollisuuksia osaamisen ennakointiin. Vaihtoehtona survey-kyselyille on jo mahdollista tunnistaa osaamistarpeita big dataa louhimalla ja analysoimalla. Työmarkkinoiden muutos ja kehitys näkyvät myös kielen tasolla. Ilmiöitä koskevat käsitteet ja niiden väliset suhteet muuttuvat. Aiemmin käytetty osaamiskäsite voi muuttaa merkitystään. Toimittajan editointiosaaminen tarkoittaakin nykyään videoiden editointia.

Osaamisen muutoksen tunnistamiseen luonnollisesta kielestä tarvitaan laadukkaalla osaamisdatalla koulutettu tekoäly, joka osaa arvioida käsitteitä semanttisesti niiden kontekstin perusteella. Koneoppiminen ja analytiikka auttavat suurten aineistojen käsittelyssä, mutta inhimillisen tulkinnan tarve säilyy silti tärkeänä. Ilman oikeaa kontekstia ja ymmärrystä datasta analyysit voivat johtaa virheellisiin johtopäätöksiin.

Jotpan osaamisdatan keräämisessä on hyödynnetty tekoälyä ja luonnollisen kielen analyysia. Dataa on koottu ja jalostettu työpaikkailmoitusdatasta, investointidatasta, suurista kielimalleista sekä tutkimusjulkaisudatasta. Data luokiteltiin koneoppimisen avulla, ja dataa edelleen jalostamalla tunnistimme nousevia trendejä eri aloilla. Julkaisemme osaamisdatamme kaikkien käyttöön ja hyödynnettäväksi.

Big datan hyödyntämisen hyvät ja huonot puolet

Tekoälyn avulla pystyttiin käsittelemään teratavuittain dataa. Kielimallit eivät vielä ole täydellisiä ja luokittelussa hyödynnetty Tilastokeskuksen ammattiluokitus 2010 toi sekin omat ongelmansa, koska monet ammattinimikkeet siinä ovat vanhentuneita eivätkä enää työmarkkinoilla aktiivisessa käytössä.

Lisäsimme osaamisdatan raportille aineistosuodattimen, koska tunnistimme, että eri lähdeaineistot tuottavat hiukan erilaisia tuloksia. Kriittinen lukija voi valita aineiston, jonka kautta tarkastelee osaamisia, ja tehdä omat johtopäätöksensä aineistojen tuomista eroavuuksista.

Pyrimme tunnistamaan vinoumia aineistoissa ja ehkäisemään vinoutumien syntyä valitsemalla datalähteiksi laadukkaita aineistoja. Silti on mahdollista, että emme ole osanneet ottaa kaikkia virheiden ja vinoumien lähteitä huomioon.

Investointidatan vinoumat

Investointipäätökset ovat usein riippuvaisia talouden suhdanteista, mikä voi aiheuttaa vaihtelua osaamistarpeiden tunnistamisessa varsinkin suhdanneherkillä aloilla.

Investointidata saattaa heijastaa menneitä trendejä eikä välttämättä anna kattavaa kuvaa tulevista osaamistarpeista. Esimerkiksi investoinnit tietylle alalle voivat tapahtua vasta sen jälkeen, kun siellä on jo kova kysyntä osaaville työntekijöille.

Investointipäätökset saattavat suosia kasvualoja ja tunnettuja teknologioita, mikä voi johtaa siihen, että ennakointi keskittyy liikaa näihin alueisiin ja jättää huomiotta muita potentiaalisesti tärkeitä osaamistarpeita.

Investointidata saattaa heijastaa alueellisia tai kansallisia eroja, mikä voi johtaa siihen, että ennakointi keskittyy tiettyihin alueisiin tai markkinoihin, vaikka osaamistarpeet olisivatkin globaaleja.

Tiedejulkaisuaineiston puutteet ja vinoumat

Avoimet tiedejulkaisut saattavat keskittyä tiettyihin aloihin tai tutkimusteemoihin ja jättää huomiotta muita tärkeitä osaamistarpeita, jotka eivät ole yhtä laajasti tutkittuja tai julkaistuja. Esimerkiksi covid-19-pandemian aikoihin moni lääketieteen tutkimusorganisaatio sai rahoitusta rokotekehitykseen ja viruksen tutkimiseen.

Tutkimusten julkaisemisen paine voi johtaa julkaisuharhaan, jossa tiettyjä positiivisia tuloksia korostetaan ja negatiivisia tuloksia tai tutkimusten epäonnistumisia jätetään julkaisematta. Se voi vääristää osaamistarpeiden ennustamista, koska epäonnistumisia voi tapahtua myös vaikeimmin tutkittavilla aloilla, jotka vaativat huippuosaamista.

Tiedejulkaisut heijastavat usein aikaviiveitä, koska tutkimuksen julkaiseminen voi kestää kauan alkuperäisen tutkimuksen tekemisestä. Toisaalta tutkimustulokset siirtyvät viiveellä koulutukseen ja työelämään. Perustutkimusta tehdään ehkä vuosikymmeniä ennen kuin sen tulokset ovat laajasti käytössä. Osaamistarve kasvaa vasta kun soveltavaa tutkimusta on tehty kylliksi ja tuloksia skaalataan.

Tiedejulkaisujen sisältö voi olla vinoutunut tiettyihin maantieteellisiin tai kulttuurisiin näkökulmiin, mikä voi johtaa siihen, että osaamistarpeiden ennustaminen ei huomioi monimuotoisuutta eri alueilla tai kulttuureissa.

Vaikka avoimet tiedejulkaisut voivat tarjota arvokasta tietoa monista aloista, ne eivät välttämättä kata kaikkia alueita tai osaamistarpeita.

Työpaikkailmoitukset

Työllisten määrä ja toimialan koko vaikuttaa työpaikkailmoituksista löytyviin osaamistarpeisiin. Eniten löydöksiä saadaan aina lukumääräisesti suurimmilta toimialoilta.

Jotkut toimialat ovat aliedustettuina työpaikkailmoitusdatassa. Tällaisia ovat esimerkiksi alat, joilla toimii enemmän yrittäjiä kuin palkansaajia.

Työpaikkailmoitukset eivät välttämättä anna kattavaa kuvaa työmarkkinoiden tarpeista, koska tietyt rekrytointitrendit voivat olla tiedostamattomia tai vaikeasti havaittavissa ilman lisätutkimusta. Työpaikkailmoitukset saattavat myös heijastaa työnantajien tarpeita ja mieltymyksiä, mikä voi johtaa vinoutuneeseen käsitykseen tiettyjen taitojen tai koulutustaustojen tarpeellisuudesta. Työnantajien erot tasoittuvat, kun aineisto on kyllin suuri.

Työmarkkinan todellinen osaamiskysyntä ei aina selviä työpaikkailmoituksista. Kaikista avoimista tehtävistä ei ilmoiteta, vaan tehtävät täytetään sisäisen urakierron, suorien rekrytointien ja headhunter-toiminnan kautta.

Työpaikkailmoitukset ovat kuitenkin yksi harvoista datajoukoista, joka kuvaa täsmällisesti määrittelyjoukkoaan: työpaikkoja, joihin halutaan juuri nyt uusi työntekijä yrityksen sisäisen kierron ulkopuolelta. Nämä edellyttävät erityisesti niitä osaamisia, joita vastavalmistuneelta tai työttömältä työnhakijalta edellytetään työmarkkinaan pääsemiseksi, ja siksi työpaikkailmoitukset ovat osaamistarpeiden ennakoinnin tärkeä tietolähde.

OpenAI:n kielimallin käyttö

Suuren kielimallin avulla on validoitu osaamisklustereita ja lähdeaineiston mukaisia osaamiskäsitteiden konteksteja. Käsitteiden naapurustot ja esiintymät yhdessä muiden käsitteiden kanssa antavat hyvän kuvan siitä, mitkä teemat liittyvät toisiinsa todella suurissa aineistoissa, riippumatta siitä onko lähtödata ilmoituksia, uutisia, tiedettä tai päätöksiä.