Julkisen alijäämän ennustaminen 24 koneoppimisen menetelmällä

Arto Kokkinen

17-09-2024

Organisaatio

  • Finanssipolitiikan valvonta (IFI-toiminto)

    Arto Kokkinen, vanhempi ekonomisti

    arto.kokkinen@vtv.fi, 050 351 2926

1. Tehtävän kuvaus

Tehtävänä on tutkia voiko julkisen talouden (valtio, paikallishallinto, muut sotu-rahastot, työeläkelaitokset) yhteenlaskettua neljännesvuosittaista ali-/yli -jäämää ennustaa koneoppimisen menetelmin. Ulkoisena selittäjänä käytetään käypähintaisen neljännes-BKT:n yoy-muutosta ja VM:n ennusteita sille.

Kuva 1: Julkisen talouden jäämä ja BKT, yoy-%-muutos - Muuttujat transformoitu (Box-Cox, N-jakauma-standardointi (havainto-keskiarvo)/keskihajonta)

2. Feature Engineering

Koneoppimismalleilla ennustettaessa aineiston aikamuuttujan avulla tuotetaan (usein) uusia (sisäisiä) selittäviä muuttujia. Näitä ovat esimerkiksi ajan muuttaminen järjestysluvuiksi tai sekunneiksi, vuosi-, puolivuosi-, neljännesvuosi-, kuukausi-, viikko- ja vuoden päivä -muuttujat. Kuukausimuuttuja voidaan esittää lisäksi kategorisena muuttujana, joka voidaan muuntaa kuukausittain dummy-muuttujaksi.

Kuva 2

2.1 Esimerkki 1: trendi..

Aikamuuttujan epälineaarinen trendi rahoitusjäämän lineaarisen regression selittäjänä: Numeerisesta aikamuuttujasta voidaan muodostaa epälineaarinen trendi (esim. spline-funktion avulla paikallinen polynomiregressio). Toinen tapa on tuottaa kohdemuuttujasta pitkillä viipeillä ja MA-suotimella trendi. Tämän tarkastelun ennustemalleissa ensimmäisen tavan mallien kuvauksessa esiintyy sana Spline ja jälkimmäisen tavan malleissa sana Lag.

Kuva 3

… 2.1 Esimerkki 1: BKT (yoy) + trendi + kuukausi

BKT-muutoksella (yoy), epälin. trendillä ja kategorisella kuukausimuuttujalla voidaan selittää trendiä, business cyclea ja kuukausittaista/neljänneksittäistä kausivaihtelua. - Kuva 4: lineaarinen aikasarjaregressio: BKT-yoy ja trendi + kk -selittäjillä voidaan selittää kohdemuuttujan havaintojen vaihtelusta 77% (= Adj. R-squared).

Kuva 4

2.2 Esimerkki 2: Fourier-sarjat mukaan

Kausivaihtelun lisäselittäjiksi vielä Fourier-sarjat

Aikamuuttujan avulla voidaan muodostaa Fourier-sarjoja, toisin sanoen sini- ja kosini-muotoisia lisäselittäjiä eri taajuksien kausi- (ja muulle sykliselle) vaihteluille.

  • Ensin tarkastellaan aikasarjan auto- ja osittaisautokorrelaatiorakennetta aikasarjan eri viipeillä. Fourier-sarjat voidaan muodostaa niille viipeille, joilla auto- ja osittaisautokorrelaation kertoimet osoittauvuta tilastollisesti merkitseviksi.

  • Lopulta näiden selityskyky testataan ja mallissa käytetään selityskyvyltään merkitseviksi osoittautuvia Fourier-sarjoja.

2.2.1 Mallin tulokset taulukossa

BKT-muutos ja aiemmat sisäiset aikamuuttujat + Fourier-sarjoja rahoitusjäämän selittäjinä. Mallin muuttujien lisäyksellä mukautettu selitysaste (Adj. R-squared) on 0.88.

2.2.2 Mallin sovite kuviona

Seuraava kuvio, Kuva 5, näyttää sovitteen parantumisen kuviona.

Kuva 5

Aikamuuttujista ja Fourier-sarjoista

On hyvä huomata, että eri aikamuuttujia (päivä, viikko, kuukausi, vuosi) ja eripituisen ajallisen vaihekierron omaavia Fourier-sarjoja käyttäen, käsiteltävät mallit voivat selittää useaa eri ajanjakson pituista kausivaihtelua (päivä, viikko, kuukausi, neljännes) samanaikaisesti. Aikaisemmin perinteisissä aikasarjamalleissa selitettiin pääsääntöisesti yhtä kausivaihtelua (esim. neljännes-kausivaihtelu).

Aikamuuttujasta muodostetut lisäselittäjät ovat erityisen hyödyllisiä siksi, että niille voidaan muodostaa arvot myös havaintoaineistosta eteenpäin muodostettavalle ennustejaksolle. Näin ollen niitä voidaan käyttää ennustettaessa rahoitusjäämää eteenpäin ja samalla tavoin (jopa robustimmin?) kuin ulkoisen selittäjän eli BKT:n yoy-kasvun ennusteita. Ylipäätään hyvä Feature Engineering nostaa ennusteiden osuvuutta selvästi.

Lineaarisesta regr.mallista ML-malleihin

Lineaarisen regressiomallin rajoitteeksi muodostuu selittäjien suuri määrä. Tämä aiheuttaa selittäjien keskinäisen multikollinearisuuden kasvua, mikä voi tehdä ennustemallista epästabiilin ja käyttökelvottoman. Tämä johtuu mallin parametriestimaattien heittelehtimisestä multikollineaarisuuden myötä.

Yllä esitellyillä tuloksilla pyritään kuvaamaan, millä lisäselittäjillä, muun muassa, ulkoisen selittäjän (BKT-yoy) lisäksi koneoppimisen ennustemalleja täydennetään. Verrattuna lineaariseen regressioon, koneoppimisen mallit ovat robustimpia selittäjien määrän kasvulle. Mallien parametrit säädetään kohdalleen (engl. hyperparameter tuning) siten, että parametrit estimoidaan jakamalla havaintosarja lukuisiin pätkiin (otoksiin). Lisäksi malleissa voidaan käyttää rankaisutermejä (lasso, ridge) siten että (esim. glmnet - elastic net) vain osa lisäselittäjistä otetaan käyttöön mallin stabiilisuuden varmistamiseksi.

3. Ennusteprosessi

Kohdemuuttujan, julkisen talouden rahoitusjäämän 1999Q1-2023Q4 havainnot (100) jaetaan kahteen osaan: training ja testing. Testing-osio sisältää 12 viimeistä havaintoa.

  1. Kukin ennustemalli sovitetaan ensin training-osion dataan (88 havaintoa).
  2. Tämän jälkeen testing-osion havainnot ennustetaan (in-sample forecasts), verrataan toteutuneita havaintoja ennusteisiin ja lasketaan ennustevirheet sekä niitä kuvaavat tunnusluvut.
  3. Lopulta julkista rahoitusjäämää ennustetaan 12 neljännestä (eli 3 vuotta) havaintoaineiston lopusta eteenpäin (out of sample forecasts).

… 3. Training-testing

3.1 Mallien ja niiden ennusteiden osuvuus testiosioon

Seuraavat taulukko ja kuvio kuvaavat 24 ennustemallin osuvuutta testing-osion havaintoja ennustettaessa (in-sample-forecasts).

Taulukossa:

  • osuvuus: RMSEn (root mean squared error) ja MAE (mean abslolute error) - mitä pienempi, sen parempi.

  • selityskyky: RSQ viittaa Adjusted R Squared -lukuun: kuinka suuren osan havaitun sarjan vaihtelusta mallin tuottama sovite (engl. fit) selittää.

Kuviossa: - korostettu 10 pienimmän RMSE:n ennustemallit ja vain niiden ennusteurat ovat näkyvillä. Seuraavassa vaiheessa pyrimme pienentämään RMSE:ta muodostamalla 6 parhan ennustemallin yhdistelmiä.

3.2 Kaikkien 24 eri mallin osuvuus …

3.2 … Kaikkien 24 eri mallin osuvuus …

..3.2 Mallien ennusteet testi-osioon

Koneoppimisen sekä ets- ja reg-arima -mallien, yhteensä 24 mallin ennusteiden kuvio, testi-aineisto. Testi-aineiston ennusteet esitetty kuviossa 10 pienimmän RMSE:n mallille.

3.3 Ensemble-mallit ja ennusteiden osuvuus testiosioon

Seuraavassa vaiheessa pyrimme pienentämään ennustevirheen RMSE:ta muodostamalla 6 parhaan ennustemallin yhdistelmiä. Keskiarvoennuste, mediaaniennuste ja rmse:n mukaan painotettujen mallien yhdistelmäennusteet parantavat yhä osumatarkkuutta.

Alla osuuvuustaulukko testiaineistoon.

3.4 Ensemble-ennusteet kuviona

Ensemble ennusteet testiosioon (6 mallin keskiarvo- ja mediaaniennusteet sekä rmse:n mukaan painotettu ennuste).

4. Yhdistelmämallien ennusteet 12 neljännestä eteenpäin

Mallit päivitettiin koko havaintoaineiston datalla, mallien yhdistelmillä 12 nelj. ennusteet jäämälle (milj.€, muunnettu takaisin) vuoden 2023 lopusta.

4.1 Jäämä suhteessa BKT:hen, ennusteet seuraaville vuosille

Lopuksi: Jäämä milj. € –> Jäämä / BKT, %, –> laskemme vuosikeskiarvot joulukuun 2023 aineistoilla (ml. VM BKT-ennusteet) koneoppimisennustein: Suomen julkinen jäämä näyttää painuvan -3 prosentin rajan alle (-3.1, -3.2, -2.8).
Lisätarkasteluissa voitaisiin ottaa päätösperäiset toimet huomioon.

…. 4.1 Ennusteita seuraaville vuosille

Kiitos !