Organisaatio
1. Tehtävän kuvaus
Osana finanssipolitiikan valvonnan Julkisen talouden kokonaisvaltainen analyysiväline -projektia, tehtävänä on tutkia voiko julkisen talouden (valtio, paikallishallinto, muut sotu-rahastot, työeläkelaitokset) yhteenlaskettua neljännesvuosittaista ali-/yli -jäämää ennustaa koneoppimisen menetelmin. Ulkoisena selittäjänä käytetään käypähintaisen neljännes-BKT:n yoy-muutosta.
2 Aikamuuttujan avulla lisää selittäviä tekijöitä (Feature Engineering)
Koneoppimismalleilla ennustettaessa aineiston aikamuuttujan avulla tuotetaan uusia (sisäisiä) selittäviä muuttujia. Näitä ovat esimerkiksi ajan muuttaminen järjestysluvuiksi tai sekunneiksi, vuosi-, puolivuosi-, neljännesvuosi-, kuukausi-, viikko- ja vuoden päivä -muuttujat. Kuukausimuuttuja voidaan esittää lisäksi kategorisena muuttujana, joka voidaan muuntaa kuukausittain dummy-muuttujaksi.
Aikamuuttujasta rakennettuja sisäisiä selitysmuuttujia, muuttujasta index.num (aikamuuttuja sekunneiksi muutettuna) oikealle
2.1a) Esimerkki 1: Epälineaarinen trendi
Numeerisesta aikamuuttujasta voidaan muodostaa epälineaarinen trendi (esim. spline-funktion avulla paikallinen polynomiregressio ajan suhteen). Kuva 2 esittää aikamuuttujan epälineaarisen trending rahoitusjäämän lineaarisen regression selittäjänä
2.1b) Esimerkki 1: trendi + BKT-yoy + kuukausimuuttuja
Kategorisella kuukausimuuttujalla voidaan selittää kuukausittaista/neljänneksittäistä kausivaihtelua.
Kuva 3 kuvaa puolestaan kuinka BKT-yoy-muutos sekä aikamuuttujan epälineaarinen trendi ja kk-kausivaihtelu toimivat rahoitusjäämän lineaarisen regression selittäjinä. Selittäjillä voidaan selittää kohdemuuttujan havaintojen vaihtelusta 77% (= Adj. R-squared).
2.2 Esimerkki 2: Fourier-sarjat kausivaihtelun lisäselittäjinä
Aikamuuttujan avulla voidaan muodostaa lisäksi Fourier-sarjoja, toisin sanoen sini- ja kosini-muotoisia lisäselittäjiä eri taajuksien kausivaihteluille.
Ensin tarkastellaan aikasarjan auto- ja osittaisautokorrelaatiorakennetta aikasarjan eri viipeillä. Fourier-sarjat muodostetaan niille viipeille, joilla auto- ja osittaisautokorrelaation kertoimet osoittauvat tilastollisesti merkitseviksi.
Lopulta näiden selityskyky testataan ja mallissa käytetään selityskyvyltään merkitseviksi osoittautuvia Fourier-sarjoja.
2.2.1 Mallin tulokset taulukossa
Tässä takastellaan rahoitusjäämän selittämistä käyttäen selittäjinä BKT-yoy-% ja aiemmin lisättyjä sisäisiä aikamuuttujia sekä tässä lisättyjä Fourier-sarjoja.
Seuraavaksi esitetyssä taulukossa mallin sovitteen tuloksista nähdään, että Fourier-sarjojen lisääminen parantaa rahoitusjäämän kausivaihtelun kuvaamista. Mallin muuttujien lisäyksellä mukautettu selitysaste (Adj. R-squared) on 0.88.
2.2.2 Mallin sovite kuviona
Seuraava kuvio, Kuva 4, näyttää sovitteen parantumisen kuviona.
Usean erijaksoisen kausivaihtelun mallintaminen
On hyvä huomata, että eri aikamuuttujia (päivä, viikko, kuukausi, vuosi) sekä eripituisen ajallisen vaihekierron omaavia Fourier-sarjoja käyttäen, koneoppimisen mallit voivat mallintaa usean eri ajanjakson (päivä, viikko, kuukausi, neljännes, vuosi) pituista kausivaihtelua samanaikaisesti. Aikaisemmin perinteisissä aikasarjamalleissa mallinnettiin lähtökohtaisesti yhtä kausivaihtelua (esim. neljännes-kausivaihtelu).
Aikamuuttujasta muodostetut lisäselittäjät ovat erityisen hyödyllisiä siksi, että niille voidaan muodostaa arvot myös havaintoaineistosta eteenpäin muodostettavalle ennustejaksolle. Näin ollen niitä voidaan käyttää ennustettaessa rahoitusjäämää eteenpäin samalla tavoin kuin ulkoisen selittäjän ennusteita (tässä BKT-yoy-%), mutta jopa robustimmin. Toinen näissä malleissa käytetty ennusteita tukeva tapa on tuottaa selittävistä muuttujista ennustehorisontin mittaisia viivästettyjä muuttujia. Kun ennustejaksolle näin saatuihin havaintoihin sovelletaan liukuvan keskiarvon suotimia, ennustejaksolle saadaan tuotettua kohdemuuttujan tason ennustamista helpottava tasainen trendi. Tämän tarkastelun ennustemalleissa ensimmäisen tavan mallien kuvauksessa esiintyy sana Spline ja jälkimmäisen tavan malleissa sana Lag.
Lineaarisesta mallista ML-malleihin
Lineaarisen regressiomallin rajoitteeksi muodostuu selittäjien suuri määrä. Tämä aiheuttaa selittäjien keskinäisen multikollinearisuuden kasvua, mikä voi tehdä ennustemallista epästabiilin ja käyttökelvottoman. Tämä johtuu mallin parametriestimaattien heittelehtimisestä multikollineaarisuuden myötä.
Yllä esitellyillä tuloksilla pyritään kuvaamaan, millä lisäselittäjillä, muun muassa, ulkoisen selittäjän (BKT-yoy) lisäksi koneoppimisen ennustemalleja täydennetään. Verrattuna lineaariseen regressioon, koneoppimisen mallit ovat robustimpia selittäjien määrän kasvulle. Mallien parametrit säädetään kohdalleen (engl. hyperparameter tuning) siten, että parametrit estimoidaan jakamalla havaintosarja lukuisiin pätkiin (otoksiin). Lisäksi malleissa (kuten elastic net) voidaan käyttää rankaisutermejä (lasso, ridge-regressio) siten, että vain osa lisäselittäjistä otetaan käyttöön mallin stabiilisuuden varmistamiseksi.
3. Ennusteprosessi
Kohdemuuttujan, julkisen talouden rahoitusjäämän 1999Q1-2023Q4 havainnot (100) jaetaan kahteen osaan: training ja testing. Testiosio sisältää 12 viimeistä havaintoa.
- Kukin ennustemalli sovitetaan ensin training-osion dataan (88 havaintoa).
- Tämän jälkeen testiosion havainnot ennustetaan (in-sample forecasts), verrataan toteutuneita havaintoja ennusteisiin ja lasketaan ennustevirheet sekä niitä kuvaavat tunnusluvut.
- Lopulta julkista rahoitusjäämää ennustetaan 12 neljännestä (eli 3 vuotta) havaintoaineiston lopusta eteenpäin (out-of-sample-forecasts).
3.1 Mallien ja niiden ennusteiden osuvuus testiosioon
Alla oleva taulukko ja Kuva 6 kuvaavat 24 ennustemallin osuvuutta testing-osion havaintoja ennustettaessa (in-sample-forecasts). Taulukossa ennustemallien osuvuutta (engl. accuracy) on hyvä vertailla RMSEn (root mean squared error) ja MAEn (mean abslolute error) avulla - mitä pienempi luku, sen parempi. RSQ viittaa puolestaan ennustemallin Adjusted R Squared -lukuun. Se kuvaa kuinka suuren osan havaitun sarjan vaihtelusta mallin tuottama sovite (engl. fit) selittää. Taulukon alla kuviossa on korostettu 10 pienimmän RMSE:n ennustemallit. Selkeyden vuoksi, vain niiden ennusteurat esitetään kuviossa.
3.2 Ensemble-mallit ja ennusteiden osuvuus testiosioon
Seuraavassa vaiheessa pyrimme pienentämään ennustevirheen RMSE:ta muodostamalla kuuden parhaan eri ennusteperheen ennustemallin yhdistelmiä. Näiden keskiarvoennuste, mediaaniennuste ja rmse:n mukaan painotettu yhdistelmäennuste parantavat yhä osumatarkkuutta. Kuva 7 havainnollistaa testiosion ennusteet suhteessa totetuneisiin havaintoihin.
4. Ennustaminen yhdistelmämalleilla 12 neljännestä eteenpäin
Seuraavaksi päivitämme kuuden parhaan eri ennustemalliperheen ennustemallin yhdistelmämallit koko havaintoaineiston datalla. Tämän jälkeen ennustamme yhdistelmämalleilla julkisen talouden rahoitusjäämää kaksitoita neljännestä vuoden 2023 lopusta eteenpäin. Tässä vaiheessa muunnamme sarjat takaisin alkuperäisiksi miljooniksi euroiksi (toteutamme käänteiset transformaatiot havaintoaineistoon ennusteineen). Kuva 9 esittää rahoitusjäämän 12 neljänneksen ennusteet vuoden 2023 lopusta miljoonina euroina.
4.1 Jäämä suhteessa BKT:hen, ennusteet seuraaville vuosille
Lopulta jaamme jäämän miljoonina euroina alkuperäisellä käypähintaisen BKT:n tasolla (ennusteet VM joulukuu 2023), muunnamme prosenteiksi ja laskemme vuosikeskiarvot. Kuva 9 osoittaa, että koneoppimismallien yhdistelmäennusteiden perusteella, joulukuun 2023 aineistojen (ml. VM BKT-ennusteet) perusteella, Suomen julkinen jäämä näyttäisi painuvan -3 prosentin rajan alle. Ennusteet vuosille 2024, 2025 ja 2026 ovat -3.1, -3.2 ja -2.8. On syytä huomauttaa, että nämä ennusteet on tehty huomioimatta syksyn 2023 ja keväällä 2024 sovittuja päätösperäisiä toimia, jotka voitaisiin lisätä jäämän ennusteeseen miljoonina eruoina, ja joiden odotetaan parantavan tilannetta. Toisaalta jäämäsuhteen nimittäjässä ja ennusteen ulkoisena selittäjänä käytetty VM:n ennuste on tässä joulukuulta 2023. Torstaina 25.4.24 julkaistava ennuste on todennäköisesti pessimistisempi, mikä alentaisi tässä esitettyjä koneoppimismallien jäämäsuhteen ennusteita. Kuva 9 :ssa ennustejakauman keskittymälle piirretty luottamusväli on viitteellinen ja liian pieni, sillä se ei sisällä jäämäsuhteen nimittäjään, VM:n käypähintaiseen BKT-ennusteeseen sisältyvää epävarmuutta.