Zharmonizowane wskaźniki cen konsumpcyjnych (HICP) mierzą zmiany w czasie cen towarów i usług konsumpcyjnych w danym kraju. Dają one porównywalną miarę inflacji, ponieważ są obliczane zgodnie ze zharmonizowanymi definicjami.
Szereg 1 - Zharmonizowany wskaźnik cen konsumpcyjnych: Pakiety wakacyjne dla Polski
Kategoria ta jest klasyfikacją usług, która obejmuje cenę wakacji (lub wycieczek wliczonych w cenę) na terenie Polski w latach 2010-2020.
Dzięki przeprowadzonej analizie można dowiedzieć się ciekawych rzeczy, typu w których miesiącach ceny najbardziej wzrastają, czy ciągle rosną w górę, oraz prognozować kolejne lata i sprawdzić, czy zaobserwowany trend się utrzyma.
Harmonized Index of Consumer Prices: Package Holidays for Poland
Szereg 2 - Indeks cen konsumpcyjnych dla wszystkich konsumentów miejskich: Owoce i Warzywa w USA Średnia Miejska
Kategoria ta jest klasyfikacją wskaźnika inflacji cen na rynku owoców i warzyw w Stanach Zjednoczonych w latach 2000-2020.
Dzięki przeprowadzonej analizie można dowiedzieć się ciekawych rzeczy, o których być może nigdy wcześniej nie myśleliśmy, czyli jak zmieniają się ceny owoców i warzyw w miastach u Jankesów. Po przeanalizowaniu szeregu można zobaczyć, czy jest tutaj widoczny trend i czy utrzyma się on w nadchodzących latach.
Consumer Price Index for All Urban Consumers: Fruits and Vegetables in U.S. City Average
Dane wyglądają następująco:
Szereg 1:
## Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
## 2010 83.0 83.3 82.9 83.5 83.9 87.5 90.7 91.1 88.0 85.8 84.6 84.5
## 2011 86.0 86.3 85.9 86.3 87.2 89.6 93.3 93.8 90.4 88.3 87.4 86.6
## 2012 87.3 87.4 87.8 88.3 90.6 93.3 98.7 98.9 95.4 93.3 92.3 92.7
## 2013 93.5 94.4 93.9 95.9 96.2 97.7 102.9 102.6 100.5 98.5 96.6 96.5
## 2014 95.7 96.0 96.3 97.7 95.2 97.5 103.0 103.8 100.0 98.5 98.7 98.0
## 2015 98.5 98.7 98.8 99.1 97.3 99.6 103.5 105.0 101.5 99.9 99.5 98.6
## 2016 99.3 101.3 101.0 101.9 99.9 102.2 107.6 108.8 105.3 103.8 104.3 104.6
## 2017 104.8 106.1 105.8 107.0 104.5 108.7 113.7 113.6 109.4 106.2 106.5 108.0
## 2018 108.3 109.0 107.3 108.6 105.8 108.9 114.7 115.1 110.7 108.5 106.9 108.2
## 2019 111.4 111.2 110.9 113.3 111.1 117.1 122.3 122.8 117.6 115.3 116.0 117.4
## 2020 121.2 121.4 116.2 118.8 115.7 123.9 123.8 122.6 120.2 116.1 116.6 118.1
Szereg 2:
## Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
## 2000 149.0 154.2 151.5 145.6 144.7 146.9 149.9 149.0 148.8 149.1 150.3 148.3
## 2001 151.7 151.9 153.2 158.4 160.4 167.5 158.7 152.6 153.5 150.7 154.7 154.5
## 2002 149.6 154.3 158.0 156.9 153.1 153.3 151.1 157.3 159.5 158.4 156.7 155.8
## 2003 156.2 157.8 155.0 156.2 163.1 156.2 153.6 157.6 159.8 162.2 162.5 165.8
## 2004 164.2 160.9 160.4 158.8 161.7 163.7 166.8 166.3 165.7 165.9 167.5 178.4
## 2005 174.4 176.8 172.1 180.7 179.9 180.3 179.0 176.8 179.7 178.9 176.8 176.6
## 2006 176.2 178.6 182.5 186.1 182.6 185.6 185.2 184.5 184.5 186.1 187.8 186.1
## 2007 182.0 188.4 188.6 185.2 184.7 185.5 185.6 189.5 189.4 189.3 190.7 190.8
## 2008 197.3 195.3 195.7 196.0 201.5 198.3 199.7 198.0 195.5 200.4 200.1 200.2
## 2009 202.9 201.6 199.6 202.5 204.9 203.5 203.9 204.5 205.0 203.3 202.5 203.3
## 2010 202.2 203.4 201.8 201.4 201.9 200.4 203.1 205.3 206.6 207.4 208.8 213.2
## 2011 206.2 211.6 211.9 213.8 210.8 212.4 212.8 211.8 214.0 214.5 214.0 211.8
## 2012 218.4 222.6 225.7 224.8 219.6 218.4 219.7 220.4 220.6 218.0 220.5 221.6
## 2013 221.5 220.8 222.7 221.7 224.7 229.5 230.0 230.0 227.8 226.8 227.9 227.5
## 2014 225.9 227.0 229.9 229.1 230.0 229.0 228.1 229.4 229.2 239.8 248.3 245.9
## 2015 236.5 232.6 234.2 241.8 243.5 241.3 244.3 242.1 243.8 244.4 245.3 247.1
## 2016 251.2 250.8 249.5 248.5 246.8 251.0 253.1 255.0 261.3 260.4 255.7 252.9
## 2017 257.0 265.5 264.6 263.2 263.1 260.9 258.4 258.1 261.5 263.0 267.7 269.1
## 2018 272.1 269.6 268.4 273.2 275.2 280.0 284.1 288.4 288.5 286.0 284.0 279.0
## 2019 276.5 275.9 274.2 274.5 273.0 274.0 274.2 271.1 269.7 270.1 270.7 271.6
## 2020 274.6 272.6 280.1 279.3 276.5 272.8 268.6 269.2 270.4 270.5 270.9 275.9
1) Wykresy podstawowe
2) Wykresy przedstawiające sezonowość
a) Szereg 1
Wniosek: Dla powyższych danych można zauważyć sezonowość. Widoczna jest ona w miesiącach lipiec - sierpień.
W wykresie boxplot widać, że mediany tych miesięcy są najwyższe. W drugim typie widać, że te dwa miesiące są najwyższej w porównaniu
z innymi miesiącami w danym roku. Rownież widać to po średnich - trzeci typ wykresu.
b) Szereg 2
Wniosek: Dla powyższych danych nie można odnaleźć sezonowości - brak sezonowości w danych.
3) Wykres rozrzutu - lagplot
a) Szereg 1
b) Szereg 2
1) Korelogramy ACF i PACF
a) Szereg 1
b) Szereg 2
Wnioski: Dla Szeregu 1 widzimy sezonowość i trend dzięki wykresowi ACF - widoczna cykliczność i powoli opadające słupki.
Dla Szeregu 2 widzimy trend - dodanie i powoli opadające.
2) Dekompozycja - Średnia ruchoma
UWAGA! Dekompozycja średniej ruchomej może być przeprowadzana w przypadku danych okresowych, lub takich gdzie podejrzewamy występowanie sezonowości.
Wniosek: 12msc średnia krocząca wskazuje na tendencję wzrostową (kolor niebieski)
6msc średnia krocząca wskazuje na istnienie składnika sezonowego (kolor czerwony)
3) Dekompozycja na podstawie modelu regresji liniowej
## [1] 0.9790341
Reszty:
## [1] 0.9781767
Reszty:
## [1] 0.9827672
Reszty:
## [1] 0.9834745
Reszty:
Wnioski: Patrzymy na współczynnik R^2 każdego modelu i wybieramy ten, który jest najwyższy.
Najlepsze dopasowanie to Model Wielowymiarowy. (Wartość R^2 na początku każdego z modeli).
Poddany obróbce został Szereg 1 - zawierający sezonowość.
Na powyższym wykresie możemy odczytać jak zmienił się szereg po odsezonowaniu i porównać go z oryginalnym.
Uczynienie badanych szeregów stacjonarnymi
1) Dane 1
Wykres Szeregu 1 wraz z korelogramami ACF i PACF
Wykres Szeregu 1 już po uczynieniu go szeregiem stacjonarnym.
Wniosek: Z wykresu ACF możemy odczytać, że jest to realizacja szumu białego.
(Ponad 95% rozmieszczenia słupków znajduje się w przedziale ufnośći)
2) Dane 2
Wykres Szeregu 2 wraz z korelogramami ACF i PACF
Wykres Szeregu 2 już po uczynieniu go szeregiem stacjonarnym.
Wnioski: Z wykresu ACF możemy odczytać, że nie jest realizacja szumu białego.
(Liczba wystających słupków poza przedział ufności).
Rząd modelu (na oko) to:
Sprawdzenie rzędu modeli
a) Dane 1
Rząd modelu wybierany “na oko”
Zastosowanie metody “Yule-Walker” z wybranym przez nas rzędem 12
## [1] -0.13521157 -0.09287070 0.04715042 0.01148341 0.18753017 -0.03756285
## [7] 0.14157039 -0.00273940 -0.04912846 -0.04596928 -0.08104419 -0.23712872
Zastosowanie metody “MLE” z wybranym przez nas rzędem 12
## ar1 ar2 ar3 ar4 ar5 ar6
## -0.13240336 -0.09123766 0.03864330 0.01610033 0.18089722 -0.04972612
## ar7 ar8 ar9 ar10 ar11 ar12
## 0.15148691 -0.02957196 -0.07561394 -0.03505813 -0.07979176 -0.29759866
Rząd modelu wybierany automatycznie
Zastosowanie metody “Yule-Walker” z automatycznie wybranym rzędem
## [1] -0.1327086
Zastosowanie metody “MLE” z automatycznie wybranym rzędem
## [1] -0.1316134
Wniosek: Dobrany przez nas rząd modelu dla tego szeregu okazał się błędny. Automatycznie został wybrany rząd 1.
b) Dane 2
Rząd modelu wybierany “na oko”
Zastosowanie metody “Yule-Walker” z wybranym przez nas rzędem 36
## [1] -0.01252272 -0.26335240 -0.22088877 -0.15193385 -0.08181911 -0.10445330
## [7] -0.11125070 -0.02913560 -0.06939998 -0.14716604 0.02188797 -0.70951698
## [13] -0.13217700 -0.08236430 -0.14571906 -0.03963583 0.02689272 -0.11722331
## [19] -0.02644120 -0.02755434 -0.04458724 -0.14362705 0.11065709 -0.49155422
## [25] -0.15557068 -0.08295483 -0.12112300 0.06227300 -0.06210364 -0.04751533
## [31] -0.01001233 -0.01699929 0.03770307 -0.19444698 0.12293618 -0.31535795
Zastosowanie metody “MLE” z wybranym przez nas rzędem 36
## ar1 ar2 ar3 ar4 ar5 ar6
## -0.011892518 -0.274220487 -0.166035156 -0.138662605 -0.059502008 -0.085854170
## ar7 ar8 ar9 ar10 ar11 ar12
## -0.071634252 0.042128841 -0.060194284 -0.119710070 -0.001752258 -0.805525573
## ar13 ar14 ar15 ar16 ar17 ar18
## -0.128889859 -0.117681869 -0.117520028 -0.011444577 0.064979479 -0.067031658
## ar19 ar20 ar21 ar22 ar23 ar24
## 0.031404856 0.029934148 -0.030221880 -0.148453927 0.079738768 -0.649940333
## ar25 ar26 ar27 ar28 ar29 ar30
## -0.179647265 -0.135368967 -0.107717634 0.109720891 -0.072881929 -0.024903573
## ar31 ar32 ar33 ar34 ar35 ar36
## 0.013730275 -0.017270922 0.028893288 -0.224246925 0.092035504 -0.462394242
Rząd modelu wybierany automatycznie
Zastosowanie metody “Yule-Walker” z automatycznie wybranym rzędem
## [1] -0.01252272 -0.26335240 -0.22088877 -0.15193385 -0.08181911 -0.10445330
## [7] -0.11125070 -0.02913560 -0.06939998 -0.14716604 0.02188797 -0.70951698
## [13] -0.13217700 -0.08236430 -0.14571906 -0.03963583 0.02689272 -0.11722331
## [19] -0.02644120 -0.02755434 -0.04458724 -0.14362705 0.11065709 -0.49155422
## [25] -0.15557068 -0.08295483 -0.12112300 0.06227300 -0.06210364 -0.04751533
## [31] -0.01001233 -0.01699929 0.03770307 -0.19444698 0.12293618 -0.31535795
Zastosowanie metody “MLE” z automatycznie wybranym rzędem
## [1] -0.02896660 -0.23043817 -0.19652427 -0.19807144 -0.06604926 -0.05998721
## [7] -0.09429261 -0.05224484 0.01550758 -0.12731788 0.03711974 -0.47440004
Wniosek: W tym przypadku dobrany przez nas rząd modelu okazał się prawidłowy - Rząd 36.
Patrzyłem na ostatnią wartość wystającą poza przedział ufności w wykresie PACF.
a) Dane 1
## Series: dane1
## ARIMA(1,0,0)(0,1,1)[12] with drift
##
## Coefficients:
## ar1 sma1 drift
## 0.8417 -0.2959 0.2745
## s.e. 0.0485 0.1133 0.0389
##
## sigma^2 estimated as 1.358: log likelihood=-188.19
## AIC=384.38 AICc=384.73 BIC=395.53
##
## Training set error measures:
## ME RMSE MAE MPE MAPE MASE
## Training set 0.01039044 1.096961 0.7217129 0.0008306644 0.6824507 0.2114393
## ACF1
## Training set -0.09323439
Auto.arima() z wykorzystaniem kryterium AIC (powyżej)
## Series: dane1
## ARIMA(1,0,0)(0,1,1)[12] with drift
##
## Coefficients:
## ar1 sma1 drift
## 0.8417 -0.2959 0.2745
## s.e. 0.0485 0.1133 0.0389
##
## sigma^2 estimated as 1.358: log likelihood=-188.19
## AIC=384.38 AICc=384.73 BIC=395.53
##
## Training set error measures:
## ME RMSE MAE MPE MAPE MASE
## Training set 0.01039044 1.096961 0.7217129 0.0008306644 0.6824507 0.2114393
## ACF1
## Training set -0.09323439
Auto.arima() z wykorzystaniem kryterium AICC (powyżej)
## Series: dane1
## ARIMA(1,0,0)(0,1,1)[12] with drift
##
## Coefficients:
## ar1 sma1 drift
## 0.8417 -0.2959 0.2745
## s.e. 0.0485 0.1133 0.0389
##
## sigma^2 estimated as 1.358: log likelihood=-188.19
## AIC=384.38 AICc=384.73 BIC=395.53
##
## Training set error measures:
## ME RMSE MAE MPE MAPE MASE
## Training set 0.01039044 1.096961 0.7217129 0.0008306644 0.6824507 0.2114393
## ACF1
## Training set -0.09323439
Auto.arima() z wykorzystaniem kryterium BIC (powyżej)
Wnioski: Patrzymy na na wartości RMSE, MAE, MAPE, MASE i wybieramy ten model, w którym są one najmniejsze.
W tym przypadku obojętne jest, który model wybierzemy - wszystkie wartości są takie same.
b) Dane 2
## Series: dane2
## ARIMA(2,1,1)(0,0,2)[12] with drift
##
## Coefficients:
## ar1 ar2 ma1 sma1 sma2 drift
## 0.6676 -0.1561 -0.7569 -0.2009 -0.2298 0.5377
## s.e. 0.1157 0.0708 0.1008 0.0644 0.0609 0.0553
##
## sigma^2 estimated as 8.398: log likelihood=-621.38
## AIC=1256.76 AICc=1257.22 BIC=1281.44
##
## Training set error measures:
## ME RMSE MAE MPE MAPE MASE
## Training set -0.04062913 2.857441 2.141415 -0.05617892 1.06285 0.2797254
## ACF1
## Training set -0.01468222
Auto.arima() z wykorzystaniem kryterium AIC (powyżej)
## Series: dane2
## ARIMA(2,1,1)(0,0,2)[12] with drift
##
## Coefficients:
## ar1 ar2 ma1 sma1 sma2 drift
## 0.6676 -0.1561 -0.7569 -0.2009 -0.2298 0.5377
## s.e. 0.1157 0.0708 0.1008 0.0644 0.0609 0.0553
##
## sigma^2 estimated as 8.398: log likelihood=-621.38
## AIC=1256.76 AICc=1257.22 BIC=1281.44
##
## Training set error measures:
## ME RMSE MAE MPE MAPE MASE
## Training set -0.04062913 2.857441 2.141415 -0.05617892 1.06285 0.2797254
## ACF1
## Training set -0.01468222
Auto.arima() z wykorzystaniem kryterium AICC (powyżej)
## Series: dane2
## ARIMA(0,1,0)(0,0,2)[12] with drift
##
## Coefficients:
## sma1 sma2 drift
## -0.2194 -0.2169 0.5361
## s.e. 0.0621 0.0602 0.1121
##
## sigma^2 estimated as 8.915: log likelihood=-630.27
## AIC=1268.55 AICc=1268.71 BIC=1282.65
##
## Training set error measures:
## ME RMSE MAE MPE MAPE MASE
## Training set -0.02068079 2.962015 2.221172 -0.0331324 1.11063 0.2901439
## ACF1
## Training set -0.0409074
Auto.arima() z wykorzystaniem kryterium BIC (powyżej)
Wnioski: Patrzymy na na wartości RMSE, MAE, MAPE, MASE i wybieramy ten model, w którym są one najmniejsze.
W tym przypadku wybieramy model AIC lub AICC - w modelu BIC wartości interesujących nas parametrów są największe.
1) Podstawowe
a) Szereg 1
Prognoza: Metoda na podstawie średniej:
## ME RMSE MAE MPE MAPE MASE ACF1
## Training set 2.261357e-15 10.71313 8.888613 -1.118181 8.850473 2.604086 0.95349
Prognoza: Metoda na podstawie średniej lambda = 0:
## ME RMSE MAE MPE MAPE MASE ACF1
## Training set 0.5631501 10.72792 8.86512 -0.5577685 8.778321 2.597203 0.95349
Prognoza: Metoda naiwna:
## ME RMSE MAE MPE MAPE MASE ACF1
## Training set 0.2679389 2.457222 1.828244 0.2422567 1.759815 0.5356184 0.1871959
Prognoza: Metoda naiwna sezonowa:
## ME RMSE MAE MPE MAPE MASE ACF1
## Training set 3.381667 4.104449 3.413333 3.249517 3.281495 1 0.8554081
Prognoza: Metoda uwzględniająca dryf:
## ME RMSE MAE MPE MAPE MASE
## Training set 3.362874e-15 2.44257 1.791516 -0.02395095 1.723818 0.5248581
## ACF1
## Training set 0.1871959
Wniosek: Najlepszą prognozą jest Prognoza nr 5 (Metoda błądzenia losowego z dryfem)
Parametry RMSE, MAE, MAPE, MASE, sa najmniejsze w porównaniu z innymi parametrami w innych modelach.
a) Szereg 2
Prognoza: Metoda na podstawie średniej:
## ME RMSE MAE MPE MAPE MASE ACF1
## Training set -3.803147e-15 41.59163 35.5582 -4.06505 17.70866 4.644842 0.987908
Prognoza: Metoda na podstawie średniej lambda = 0:
## ME RMSE MAE MPE MAPE MASE ACF1
## Training set 4.127115 41.7959 35.40125 -2.021138 17.28635 4.624339 0.987908
Prognoza: Metoda naiwna:
## ME RMSE MAE MPE MAPE MASE
## Training set 0.5055777 3.143215 2.341434 0.2326135 1.163233 0.3058533
## ACF1
## Training set 0.009741999
Prognoza: Metoda naiwna sezonowa:
## ME RMSE MAE MPE MAPE MASE ACF1
## Training set 6.225417 9.460459 7.655417 2.939617 3.584913 1 0.7861534
Prognoza: Metoda uwzględniająca dryf:
## ME RMSE MAE MPE MAPE MASE
## Training set -6.680833e-15 3.102288 2.340131 -0.01741448 1.164438 0.305683
## ACF1
## Training set 0.009741999
Wniosek: Najlepszą prognozą jest Prognoza nr 5 (Metoda błądzenia losowego z dryfem)
Parametry RMSE, MAE, MAPE, MASE, sa najmniejsze w porównaniu z innymi parametrami w innych modelach.
2) Zbiory: testowy i uczący
Wykorzystanie algorytmów na Szeregu 1 (Trend + Sezonowość).
Podzielenie danych na dwa zbiory - uczący i testujący. W zbiorze uczącym dane od stycznia 2000 do grudnia 2018.
W zbiorze testującym dane od stycznia 2019 roku.
Długość wektora z danymi uczącymi:
## [1] 108
Długość wektora z danymi testującymi:
## [1] 24
Prognoza: Metoda na podstawie średniej:
## ME RMSE MAE MPE MAPE MASE
## Training set -7.958526e-16 8.230711 6.79465 -0.7200868 7.042436 2.275947
## ACF1
## Training set 0.9419098
Prognoza: Metoda na podstawie średniej lambda = 0:
## ME RMSE MAE MPE MAPE MASE ACF1
## Training set 0.3490095 8.238107 6.825628 -0.3616543 7.048966 2.286324 0.9419098
Prognoza: Metoda naiwna:
## ME RMSE MAE MPE MAPE MASE ACF1
## Training set 0.235514 2.205092 1.654206 0.2238267 1.659544 0.5540954 0.2994418
Prognoza: Metoda naiwna sezonowa:
## ME RMSE MAE MPE MAPE MASE ACF1
## Training set 2.95 3.479164 2.985417 2.978458 3.015032 1 0.8649954
Prognoza: Metoda uwzględniająca dryf:
## ME RMSE MAE MPE MAPE MASE
## Training set -1.328583e-16 2.192479 1.615704 -0.0176546 1.620943 0.541199
## ACF1
## Training set 0.2994418
Wykresy prognoz: