05-01-2025
Finanssipolitiikan valvonta (IFI-toiminto)
Arto Kokkinen, vanhempi ekonomisti
arto.kokkinen@vtv.fi, 050 351 2926
Tehtävänä on tutkia voiko julkisen talouden (valtio, paikallishallinto, muut sotu-rahastot, työeläkelaitokset) yhteenlaskettua neljännesvuosittaista ali-/yli -jäämää ennustaa koneoppimisen menetelmin. Ulkoisena selittäjänä käytetään käypähintaisen neljännes-BKT:n yoy-muutosta ja VM:n ennusteita sille.
Kuva 1: Julkisen talouden jäämä ja BKT, yoy-%-muutos - Muuttujat transformoitu (Box-Cox, N-jakauma-standardointi (havainto-keskiarvo)/keskihajonta)
Koneoppimismalleilla ennustettaessa aineiston aikamuuttujan avulla tuotetaan (usein) uusia (sisäisiä) selittäviä muuttujia. Näitä ovat esimerkiksi ajan muuttaminen järjestysluvuiksi tai sekunneiksi, vuosi-, puolivuosi-, neljännesvuosi-, kuukausi-, viikko- ja vuoden päivä -muuttujat. Kuukausimuuttuja voidaan esittää lisäksi kategorisena muuttujana, joka voidaan muuntaa kuukausittain dummy-muuttujaksi.
Aikamuuttujan epälineaarinen trendi rahoitusjäämän lineaarisen regression selittäjänä: Numeerisesta aikamuuttujasta voidaan muodostaa epälineaarinen trendi (esim. spline-funktion avulla paikallinen polynomiregressio). Toinen tapa on tuottaa kohdemuuttujasta pitkillä viipeillä ja MA-suotimella trendi. Tämän tarkastelun ennustemalleissa ensimmäisen tavan mallien kuvauksessa esiintyy sana Spline ja jälkimmäisen tavan malleissa sana Lag.
BKT-muutoksella (yoy), epälin. trendillä ja kategorisella kuukausimuuttujalla voidaan selittää trendiä, business cyclea ja kuukausittaista/neljänneksittäistä kausivaihtelua. - Kuva 4: lineaarinen aikasarjaregressio: BKT-yoy ja trendi + kk -selittäjillä voidaan selittää kohdemuuttujan havaintojen vaihtelusta 77% (= Adj. R-squared).
Kausivaihtelun lisäselittäjiksi vielä Fourier-sarjat
Aikamuuttujan avulla voidaan muodostaa Fourier-sarjoja, toisin sanoen sini- ja kosini-muotoisia lisäselittäjiä eri taajuksien kausi- (ja muulle sykliselle) vaihteluille.
Ensin tarkastellaan aikasarjan auto- ja osittaisautokorrelaatiorakennetta aikasarjan eri viipeillä. Fourier-sarjat voidaan muodostaa niille viipeille, joilla auto- ja osittaisautokorrelaation kertoimet osoittauvuta tilastollisesti merkitseviksi.
Lopulta näiden selityskyky testataan ja mallissa käytetään selityskyvyltään merkitseviksi osoittautuvia Fourier-sarjoja.
BKT-muutos ja aiemmat sisäiset aikamuuttujat + Fourier-sarjoja rahoitusjäämän selittäjinä. Mallin muuttujien lisäyksellä mukautettu selitysaste (Adj. R-squared) on 0.88.
Seuraava kuvio, Kuva 5, näyttää sovitteen parantumisen kuviona.
On hyvä huomata, että eri aikamuuttujia (päivä, viikko, kuukausi, vuosi) ja eripituisen ajallisen vaihekierron omaavia Fourier-sarjoja käyttäen, käsiteltävät mallit voivat selittää useaa eri ajanjakson pituista kausivaihtelua (päivä, viikko, kuukausi, neljännes) samanaikaisesti. Aikaisemmin perinteisissä aikasarjamalleissa selitettiin pääsääntöisesti yhtä kausivaihtelua (esim. neljännes-kausivaihtelu).
Aikamuuttujasta muodostetut lisäselittäjät ovat erityisen hyödyllisiä siksi, että niille voidaan muodostaa arvot myös havaintoaineistosta eteenpäin muodostettavalle ennustejaksolle. Näin ollen niitä voidaan käyttää ennustettaessa rahoitusjäämää eteenpäin ja samalla tavoin (jopa robustimmin?) kuin ulkoisen selittäjän eli BKT:n yoy-kasvun ennusteita. Ylipäätään hyvä Feature Engineering nostaa ennusteiden osuvuutta selvästi.
Lineaarisen regressiomallin rajoitteeksi muodostuu selittäjien suuri määrä. Tämä aiheuttaa selittäjien keskinäisen multikollinearisuuden kasvua, mikä voi tehdä ennustemallista epästabiilin ja käyttökelvottoman. Tämä johtuu mallin parametriestimaattien heittelehtimisestä multikollineaarisuuden myötä.
Yllä esitellyillä tuloksilla pyritään kuvaamaan, millä lisäselittäjillä, muun muassa, ulkoisen selittäjän (BKT-yoy) lisäksi koneoppimisen ennustemalleja täydennetään. Verrattuna lineaariseen regressioon, koneoppimisen mallit ovat robustimpia selittäjien määrän kasvulle. Mallien parametrit säädetään kohdalleen (engl. hyperparameter tuning) siten, että parametrit estimoidaan jakamalla havaintosarja lukuisiin pätkiin (otoksiin). Lisäksi malleissa voidaan käyttää rankaisutermejä (lasso, ridge) siten että (esim. glmnet - elastic net) vain osa lisäselittäjistä otetaan käyttöön mallin stabiilisuuden varmistamiseksi.
Kohdemuuttujan, julkisen talouden rahoitusjäämän 1999Q1-2023Q4 havainnot (100) jaetaan kahteen osaan: training ja testing. Testing-osio sisältää 12 viimeistä havaintoa.
Seuraavat taulukko ja kuvio kuvaavat 24 ennustemallin osuvuutta testing-osion havaintoja ennustettaessa (in-sample-forecasts).
Taulukossa:
osuvuus: RMSEn (root mean squared error) ja MAE (mean abslolute error) - mitä pienempi, sen parempi.
selityskyky: RSQ viittaa Adjusted R Squared -lukuun: kuinka suuren osan havaitun sarjan vaihtelusta mallin tuottama sovite (engl. fit) selittää.
Kuviossa: - korostettu 10 pienimmän RMSE:n ennustemallit ja vain niiden ennusteurat ovat näkyvillä. Seuraavassa vaiheessa pyrimme pienentämään RMSE:ta muodostamalla 6 parhan ennustemallin yhdistelmiä.
Koneoppimisen sekä ets- ja reg-arima -mallien, yhteensä 24 mallin ennusteiden kuvio, testi-aineisto. Testi-aineiston ennusteet esitetty kuviossa 10 pienimmän RMSE:n mallille.
Seuraavassa vaiheessa pyrimme pienentämään ennustevirheen RMSE:ta muodostamalla 6 parhaan ennustemallin yhdistelmiä. Keskiarvoennuste, mediaaniennuste ja rmse:n mukaan painotettujen mallien yhdistelmäennusteet parantavat yhä osumatarkkuutta.
Alla osuuvuustaulukko testiaineistoon.
Ensemble ennusteet testiosioon (6 mallin keskiarvo- ja mediaaniennusteet sekä rmse:n mukaan painotettu ennuste).
Mallit päivitettiin koko havaintoaineiston datalla, mallien yhdistelmillä 12 nelj. ennusteet jäämälle (milj.€, muunnettu takaisin) vuoden 2023 lopusta.
Lopuksi: Jäämä milj. € –> Jäämä / BKT, %, –> laskemme vuosikeskiarvot joulukuun 2023 aineistoilla (ml. VM BKT-ennusteet) koneoppimisennustein: Suomen julkinen jäämä näyttää painuvan -3 prosentin rajan alle (-3.1, -3.2, -2.8).
Lisätarkasteluissa voitaisiin ottaa päätösperäiset toimet huomioon.