Opis użytych szeregów czasowych

Zharmonizowane wskaźniki cen konsumpcyjnych (HICP) mierzą zmiany w czasie cen towarów i usług konsumpcyjnych w danym kraju. Dają one porównywalną miarę inflacji, ponieważ są obliczane zgodnie ze zharmonizowanymi definicjami.

Szereg 1 - Zharmonizowany wskaźnik cen konsumpcyjnych: Pakiety wakacyjne dla Polski
Kategoria ta jest klasyfikacją usług, która obejmuje cenę wakacji (lub wycieczek wliczonych w cenę) na terenie Polski w latach 2010-2020.
Dzięki przeprowadzonej analizie można dowiedzieć się ciekawych rzeczy, typu w których miesiącach ceny najbardziej wzrastają, czy ciągle rosną w górę, oraz prognozować kolejne lata i sprawdzić, czy zaobserwowany trend się utrzyma.
Harmonized Index of Consumer Prices: Package Holidays for Poland

Szereg 2 - Indeks cen konsumpcyjnych dla wszystkich konsumentów miejskich: Owoce i Warzywa w USA Średnia Miejska
Kategoria ta jest klasyfikacją wskaźnika inflacji cen na rynku owoców i warzyw w Stanach Zjednoczonych w latach 2000-2020.
Dzięki przeprowadzonej analizie można dowiedzieć się ciekawych rzeczy, o których być może nigdy wcześniej nie myśleliśmy, czyli jak zmieniają się ceny owoców i warzyw w miastach u Jankesów. Po przeanalizowaniu szeregu można zobaczyć, czy jest tutaj widoczny trend i czy utrzyma się on w nadchodzących latach.
Consumer Price Index for All Urban Consumers: Fruits and Vegetables in U.S. City Average


Dane wyglądają następująco:

Szereg 1:

##        Jan   Feb   Mar   Apr   May   Jun   Jul   Aug   Sep   Oct   Nov   Dec
## 2010  83.0  83.3  82.9  83.5  83.9  87.5  90.7  91.1  88.0  85.8  84.6  84.5
## 2011  86.0  86.3  85.9  86.3  87.2  89.6  93.3  93.8  90.4  88.3  87.4  86.6
## 2012  87.3  87.4  87.8  88.3  90.6  93.3  98.7  98.9  95.4  93.3  92.3  92.7
## 2013  93.5  94.4  93.9  95.9  96.2  97.7 102.9 102.6 100.5  98.5  96.6  96.5
## 2014  95.7  96.0  96.3  97.7  95.2  97.5 103.0 103.8 100.0  98.5  98.7  98.0
## 2015  98.5  98.7  98.8  99.1  97.3  99.6 103.5 105.0 101.5  99.9  99.5  98.6
## 2016  99.3 101.3 101.0 101.9  99.9 102.2 107.6 108.8 105.3 103.8 104.3 104.6
## 2017 104.8 106.1 105.8 107.0 104.5 108.7 113.7 113.6 109.4 106.2 106.5 108.0
## 2018 108.3 109.0 107.3 108.6 105.8 108.9 114.7 115.1 110.7 108.5 106.9 108.2
## 2019 111.4 111.2 110.9 113.3 111.1 117.1 122.3 122.8 117.6 115.3 116.0 117.4
## 2020 121.2 121.4 116.2 118.8 115.7 123.9 123.8 122.6 120.2 116.1 116.6 118.1

Szereg 2:

##        Jan   Feb   Mar   Apr   May   Jun   Jul   Aug   Sep   Oct   Nov   Dec
## 2000 149.0 154.2 151.5 145.6 144.7 146.9 149.9 149.0 148.8 149.1 150.3 148.3
## 2001 151.7 151.9 153.2 158.4 160.4 167.5 158.7 152.6 153.5 150.7 154.7 154.5
## 2002 149.6 154.3 158.0 156.9 153.1 153.3 151.1 157.3 159.5 158.4 156.7 155.8
## 2003 156.2 157.8 155.0 156.2 163.1 156.2 153.6 157.6 159.8 162.2 162.5 165.8
## 2004 164.2 160.9 160.4 158.8 161.7 163.7 166.8 166.3 165.7 165.9 167.5 178.4
## 2005 174.4 176.8 172.1 180.7 179.9 180.3 179.0 176.8 179.7 178.9 176.8 176.6
## 2006 176.2 178.6 182.5 186.1 182.6 185.6 185.2 184.5 184.5 186.1 187.8 186.1
## 2007 182.0 188.4 188.6 185.2 184.7 185.5 185.6 189.5 189.4 189.3 190.7 190.8
## 2008 197.3 195.3 195.7 196.0 201.5 198.3 199.7 198.0 195.5 200.4 200.1 200.2
## 2009 202.9 201.6 199.6 202.5 204.9 203.5 203.9 204.5 205.0 203.3 202.5 203.3
## 2010 202.2 203.4 201.8 201.4 201.9 200.4 203.1 205.3 206.6 207.4 208.8 213.2
## 2011 206.2 211.6 211.9 213.8 210.8 212.4 212.8 211.8 214.0 214.5 214.0 211.8
## 2012 218.4 222.6 225.7 224.8 219.6 218.4 219.7 220.4 220.6 218.0 220.5 221.6
## 2013 221.5 220.8 222.7 221.7 224.7 229.5 230.0 230.0 227.8 226.8 227.9 227.5
## 2014 225.9 227.0 229.9 229.1 230.0 229.0 228.1 229.4 229.2 239.8 248.3 245.9
## 2015 236.5 232.6 234.2 241.8 243.5 241.3 244.3 242.1 243.8 244.4 245.3 247.1
## 2016 251.2 250.8 249.5 248.5 246.8 251.0 253.1 255.0 261.3 260.4 255.7 252.9
## 2017 257.0 265.5 264.6 263.2 263.1 260.9 258.4 258.1 261.5 263.0 267.7 269.1
## 2018 272.1 269.6 268.4 273.2 275.2 280.0 284.1 288.4 288.5 286.0 284.0 279.0
## 2019 276.5 275.9 274.2 274.5 273.0 274.0 274.2 271.1 269.7 270.1 270.7 271.6
## 2020 274.6 272.6 280.1 279.3 276.5 272.8 268.6 269.2 270.4 270.5 270.9 275.9


Wykresy

1) Wykresy podstawowe

  1. Wykres podstawowy dla Szeregu 1 - trend + sezonowość

  1. Wykres podstawowy dla Szeregu 2 - tylko trend

2) Wykresy przedstawiające sezonowość

a) Szereg 1

Wniosek: Dla powyższych danych można zauważyć sezonowość. Widoczna jest ona w miesiącach lipiec - sierpień.
W wykresie boxplot widać, że mediany tych miesięcy są najwyższe. W drugim typie widać, że te dwa miesiące są najwyższej w porównaniu
z innymi miesiącami w danym roku. Rownież widać to po średnich - trzeci typ wykresu.

b) Szereg 2

Wniosek: Dla powyższych danych nie można odnaleźć sezonowości - brak sezonowości w danych.

3) Wykres rozrzutu - lagplot

a) Szereg 1

b) Szereg 2



Dekompozycja

1) Korelogramy ACF i PACF

a) Szereg 1

b) Szereg 2

Wnioski: Dla Szeregu 1 widzimy sezonowość i trend dzięki wykresowi ACF - widoczna cykliczność i powoli opadające słupki.
Dla Szeregu 2 widzimy trend - dodanie i powoli opadające.


2) Dekompozycja - Średnia ruchoma

UWAGA! Dekompozycja średniej ruchomej może być przeprowadzana w przypadku danych okresowych, lub takich gdzie podejrzewamy występowanie sezonowości.

Wniosek: 12msc średnia krocząca wskazuje na tendencję wzrostową (kolor niebieski)
6msc średnia krocząca wskazuje na istnienie składnika sezonowego (kolor czerwony)


3) Dekompozycja na podstawie modelu regresji liniowej

  1. Tylko trend liniowy
## [1] 0.9790341

Reszty:

  1. Trend + Sezonowość
## [1] 0.9781767

Reszty:

  1. Transformacja Boxa-Coxa
## [1] 0.9827672

Reszty:

  1. Model wielowymiarowy
## [1] 0.9834745

Reszty:

Wnioski: Patrzymy na współczynnik R^2 każdego modelu i wybieramy ten, który jest najwyższy.
Najlepsze dopasowanie to Model Wielowymiarowy. (Wartość R^2 na początku każdego z modeli).



Eliminacja sezonowości

Poddany obróbce został Szereg 1 - zawierający sezonowość.
Na powyższym wykresie możemy odczytać jak zmienił się szereg po odsezonowaniu i porównać go z oryginalnym.



Stacjonarność

Uczynienie badanych szeregów stacjonarnymi

1) Dane 1

Wykres Szeregu 1 wraz z korelogramami ACF i PACF

Wykres Szeregu 1 już po uczynieniu go szeregiem stacjonarnym.

Wniosek: Z wykresu ACF możemy odczytać, że jest to realizacja szumu białego.
(Ponad 95% rozmieszczenia słupków znajduje się w przedziale ufnośći)


2) Dane 2

Wykres Szeregu 2 wraz z korelogramami ACF i PACF

Wykres Szeregu 2 już po uczynieniu go szeregiem stacjonarnym.

Wnioski: Z wykresu ACF możemy odczytać, że nie jest realizacja szumu białego.
(Liczba wystających słupków poza przedział ufności).
Rząd modelu (na oko) to:


Sprawdzenie rzędu modeli

a) Dane 1

Rząd modelu wybierany “na oko”

Zastosowanie metody “Yule-Walker” z wybranym przez nas rzędem 12

##  [1] -0.13521157 -0.09287070  0.04715042  0.01148341  0.18753017 -0.03756285
##  [7]  0.14157039 -0.00273940 -0.04912846 -0.04596928 -0.08104419 -0.23712872

Zastosowanie metody “MLE” z wybranym przez nas rzędem 12

##         ar1         ar2         ar3         ar4         ar5         ar6 
## -0.13240336 -0.09123766  0.03864330  0.01610033  0.18089722 -0.04972612 
##         ar7         ar8         ar9        ar10        ar11        ar12 
##  0.15148691 -0.02957196 -0.07561394 -0.03505813 -0.07979176 -0.29759866

Rząd modelu wybierany automatycznie

Zastosowanie metody “Yule-Walker” z automatycznie wybranym rzędem

## [1] -0.1327086

Zastosowanie metody “MLE” z automatycznie wybranym rzędem

## [1] -0.1316134

Wniosek: Dobrany przez nas rząd modelu dla tego szeregu okazał się błędny. Automatycznie został wybrany rząd 1.


b) Dane 2

Rząd modelu wybierany “na oko”

Zastosowanie metody “Yule-Walker” z wybranym przez nas rzędem 36

##  [1] -0.01252272 -0.26335240 -0.22088877 -0.15193385 -0.08181911 -0.10445330
##  [7] -0.11125070 -0.02913560 -0.06939998 -0.14716604  0.02188797 -0.70951698
## [13] -0.13217700 -0.08236430 -0.14571906 -0.03963583  0.02689272 -0.11722331
## [19] -0.02644120 -0.02755434 -0.04458724 -0.14362705  0.11065709 -0.49155422
## [25] -0.15557068 -0.08295483 -0.12112300  0.06227300 -0.06210364 -0.04751533
## [31] -0.01001233 -0.01699929  0.03770307 -0.19444698  0.12293618 -0.31535795

Zastosowanie metody “MLE” z wybranym przez nas rzędem 36

##          ar1          ar2          ar3          ar4          ar5          ar6 
## -0.011892518 -0.274220487 -0.166035156 -0.138662605 -0.059502008 -0.085854170 
##          ar7          ar8          ar9         ar10         ar11         ar12 
## -0.071634252  0.042128841 -0.060194284 -0.119710070 -0.001752258 -0.805525573 
##         ar13         ar14         ar15         ar16         ar17         ar18 
## -0.128889859 -0.117681869 -0.117520028 -0.011444577  0.064979479 -0.067031658 
##         ar19         ar20         ar21         ar22         ar23         ar24 
##  0.031404856  0.029934148 -0.030221880 -0.148453927  0.079738768 -0.649940333 
##         ar25         ar26         ar27         ar28         ar29         ar30 
## -0.179647265 -0.135368967 -0.107717634  0.109720891 -0.072881929 -0.024903573 
##         ar31         ar32         ar33         ar34         ar35         ar36 
##  0.013730275 -0.017270922  0.028893288 -0.224246925  0.092035504 -0.462394242

Rząd modelu wybierany automatycznie

Zastosowanie metody “Yule-Walker” z automatycznie wybranym rzędem

##  [1] -0.01252272 -0.26335240 -0.22088877 -0.15193385 -0.08181911 -0.10445330
##  [7] -0.11125070 -0.02913560 -0.06939998 -0.14716604  0.02188797 -0.70951698
## [13] -0.13217700 -0.08236430 -0.14571906 -0.03963583  0.02689272 -0.11722331
## [19] -0.02644120 -0.02755434 -0.04458724 -0.14362705  0.11065709 -0.49155422
## [25] -0.15557068 -0.08295483 -0.12112300  0.06227300 -0.06210364 -0.04751533
## [31] -0.01001233 -0.01699929  0.03770307 -0.19444698  0.12293618 -0.31535795

Zastosowanie metody “MLE” z automatycznie wybranym rzędem

##  [1] -0.02896660 -0.23043817 -0.19652427 -0.19807144 -0.06604926 -0.05998721
##  [7] -0.09429261 -0.05224484  0.01550758 -0.12731788  0.03711974 -0.47440004

Wniosek: W tym przypadku dobrany przez nas rząd modelu okazał się prawidłowy - Rząd 36.
Patrzyłem na ostatnią wartość wystającą poza przedział ufności w wykresie PACF.



Wyznaczanie optymalnych modeli za pomocą funkcji auto.arima()

a) Dane 1

## Series: dane1 
## ARIMA(1,0,0)(0,1,1)[12] with drift 
## 
## Coefficients:
##          ar1     sma1   drift
##       0.8417  -0.2959  0.2745
## s.e.  0.0485   0.1133  0.0389
## 
## sigma^2 estimated as 1.358:  log likelihood=-188.19
## AIC=384.38   AICc=384.73   BIC=395.53
## 
## Training set error measures:
##                      ME     RMSE       MAE          MPE      MAPE      MASE
## Training set 0.01039044 1.096961 0.7217129 0.0008306644 0.6824507 0.2114393
##                     ACF1
## Training set -0.09323439

Auto.arima() z wykorzystaniem kryterium AIC (powyżej)

## Series: dane1 
## ARIMA(1,0,0)(0,1,1)[12] with drift 
## 
## Coefficients:
##          ar1     sma1   drift
##       0.8417  -0.2959  0.2745
## s.e.  0.0485   0.1133  0.0389
## 
## sigma^2 estimated as 1.358:  log likelihood=-188.19
## AIC=384.38   AICc=384.73   BIC=395.53
## 
## Training set error measures:
##                      ME     RMSE       MAE          MPE      MAPE      MASE
## Training set 0.01039044 1.096961 0.7217129 0.0008306644 0.6824507 0.2114393
##                     ACF1
## Training set -0.09323439

Auto.arima() z wykorzystaniem kryterium AICC (powyżej)

## Series: dane1 
## ARIMA(1,0,0)(0,1,1)[12] with drift 
## 
## Coefficients:
##          ar1     sma1   drift
##       0.8417  -0.2959  0.2745
## s.e.  0.0485   0.1133  0.0389
## 
## sigma^2 estimated as 1.358:  log likelihood=-188.19
## AIC=384.38   AICc=384.73   BIC=395.53
## 
## Training set error measures:
##                      ME     RMSE       MAE          MPE      MAPE      MASE
## Training set 0.01039044 1.096961 0.7217129 0.0008306644 0.6824507 0.2114393
##                     ACF1
## Training set -0.09323439

Auto.arima() z wykorzystaniem kryterium BIC (powyżej)

Wnioski: Patrzymy na na wartości RMSE, MAE, MAPE, MASE i wybieramy ten model, w którym są one najmniejsze.
W tym przypadku obojętne jest, który model wybierzemy - wszystkie wartości są takie same.


b) Dane 2

## Series: dane2 
## ARIMA(2,1,1)(0,0,2)[12] with drift 
## 
## Coefficients:
##          ar1      ar2      ma1     sma1     sma2   drift
##       0.6676  -0.1561  -0.7569  -0.2009  -0.2298  0.5377
## s.e.  0.1157   0.0708   0.1008   0.0644   0.0609  0.0553
## 
## sigma^2 estimated as 8.398:  log likelihood=-621.38
## AIC=1256.76   AICc=1257.22   BIC=1281.44
## 
## Training set error measures:
##                       ME     RMSE      MAE         MPE    MAPE      MASE
## Training set -0.04062913 2.857441 2.141415 -0.05617892 1.06285 0.2797254
##                     ACF1
## Training set -0.01468222

Auto.arima() z wykorzystaniem kryterium AIC (powyżej)

## Series: dane2 
## ARIMA(2,1,1)(0,0,2)[12] with drift 
## 
## Coefficients:
##          ar1      ar2      ma1     sma1     sma2   drift
##       0.6676  -0.1561  -0.7569  -0.2009  -0.2298  0.5377
## s.e.  0.1157   0.0708   0.1008   0.0644   0.0609  0.0553
## 
## sigma^2 estimated as 8.398:  log likelihood=-621.38
## AIC=1256.76   AICc=1257.22   BIC=1281.44
## 
## Training set error measures:
##                       ME     RMSE      MAE         MPE    MAPE      MASE
## Training set -0.04062913 2.857441 2.141415 -0.05617892 1.06285 0.2797254
##                     ACF1
## Training set -0.01468222

Auto.arima() z wykorzystaniem kryterium AICC (powyżej)

## Series: dane2 
## ARIMA(0,1,0)(0,0,2)[12] with drift 
## 
## Coefficients:
##          sma1     sma2   drift
##       -0.2194  -0.2169  0.5361
## s.e.   0.0621   0.0602  0.1121
## 
## sigma^2 estimated as 8.915:  log likelihood=-630.27
## AIC=1268.55   AICc=1268.71   BIC=1282.65
## 
## Training set error measures:
##                       ME     RMSE      MAE        MPE    MAPE      MASE
## Training set -0.02068079 2.962015 2.221172 -0.0331324 1.11063 0.2901439
##                    ACF1
## Training set -0.0409074

Auto.arima() z wykorzystaniem kryterium BIC (powyżej)

Wnioski: Patrzymy na na wartości RMSE, MAE, MAPE, MASE i wybieramy ten model, w którym są one najmniejsze.
W tym przypadku wybieramy model AIC lub AICC - w modelu BIC wartości interesujących nas parametrów są największe.



Prognozowanie

1) Podstawowe

a) Szereg 1

Prognoza: Metoda na podstawie średniej:

##                        ME     RMSE      MAE       MPE     MAPE     MASE    ACF1
## Training set 2.261357e-15 10.71313 8.888613 -1.118181 8.850473 2.604086 0.95349

Prognoza: Metoda na podstawie średniej lambda = 0:

##                     ME     RMSE     MAE        MPE     MAPE     MASE    ACF1
## Training set 0.5631501 10.72792 8.86512 -0.5577685 8.778321 2.597203 0.95349

Prognoza: Metoda naiwna:

##                     ME     RMSE      MAE       MPE     MAPE      MASE      ACF1
## Training set 0.2679389 2.457222 1.828244 0.2422567 1.759815 0.5356184 0.1871959

Prognoza: Metoda naiwna sezonowa:

##                    ME     RMSE      MAE      MPE     MAPE MASE      ACF1
## Training set 3.381667 4.104449 3.413333 3.249517 3.281495    1 0.8554081

Prognoza: Metoda uwzględniająca dryf:

##                        ME    RMSE      MAE         MPE     MAPE      MASE
## Training set 3.362874e-15 2.44257 1.791516 -0.02395095 1.723818 0.5248581
##                   ACF1
## Training set 0.1871959

Wniosek: Najlepszą prognozą jest Prognoza nr 5 (Metoda błądzenia losowego z dryfem)
Parametry RMSE, MAE, MAPE, MASE, sa najmniejsze w porównaniu z innymi parametrami w innych modelach.



a) Szereg 2

Prognoza: Metoda na podstawie średniej:

##                         ME     RMSE     MAE      MPE     MAPE     MASE     ACF1
## Training set -3.803147e-15 41.59163 35.5582 -4.06505 17.70866 4.644842 0.987908

Prognoza: Metoda na podstawie średniej lambda = 0:

##                    ME    RMSE      MAE       MPE     MAPE     MASE     ACF1
## Training set 4.127115 41.7959 35.40125 -2.021138 17.28635 4.624339 0.987908

Prognoza: Metoda naiwna:

##                     ME     RMSE      MAE       MPE     MAPE      MASE
## Training set 0.5055777 3.143215 2.341434 0.2326135 1.163233 0.3058533
##                     ACF1
## Training set 0.009741999

Prognoza: Metoda naiwna sezonowa:

##                    ME     RMSE      MAE      MPE     MAPE MASE      ACF1
## Training set 6.225417 9.460459 7.655417 2.939617 3.584913    1 0.7861534

Prognoza: Metoda uwzględniająca dryf:

##                         ME     RMSE      MAE         MPE     MAPE     MASE
## Training set -6.680833e-15 3.102288 2.340131 -0.01741448 1.164438 0.305683
##                     ACF1
## Training set 0.009741999

Wniosek: Najlepszą prognozą jest Prognoza nr 5 (Metoda błądzenia losowego z dryfem)
Parametry RMSE, MAE, MAPE, MASE, sa najmniejsze w porównaniu z innymi parametrami w innych modelach.



2) Zbiory: testowy i uczący

Wykorzystanie algorytmów na Szeregu 1 (Trend + Sezonowość).
Podzielenie danych na dwa zbiory - uczący i testujący. W zbiorze uczącym dane od stycznia 2000 do grudnia 2018.
W zbiorze testującym dane od stycznia 2019 roku.

Długość wektora z danymi uczącymi:

## [1] 108

Długość wektora z danymi testującymi:

## [1] 24

Prognoza: Metoda na podstawie średniej:

##                         ME     RMSE     MAE        MPE     MAPE     MASE
## Training set -7.958526e-16 8.230711 6.79465 -0.7200868 7.042436 2.275947
##                   ACF1
## Training set 0.9419098

Prognoza: Metoda na podstawie średniej lambda = 0:

##                     ME     RMSE      MAE        MPE     MAPE     MASE      ACF1
## Training set 0.3490095 8.238107 6.825628 -0.3616543 7.048966 2.286324 0.9419098

Prognoza: Metoda naiwna:

##                    ME     RMSE      MAE       MPE     MAPE      MASE      ACF1
## Training set 0.235514 2.205092 1.654206 0.2238267 1.659544 0.5540954 0.2994418

Prognoza: Metoda naiwna sezonowa:

##                ME     RMSE      MAE      MPE     MAPE MASE      ACF1
## Training set 2.95 3.479164 2.985417 2.978458 3.015032    1 0.8649954

Prognoza: Metoda uwzględniająca dryf:

##                         ME     RMSE      MAE        MPE     MAPE     MASE
## Training set -1.328583e-16 2.192479 1.615704 -0.0176546 1.620943 0.541199
##                   ACF1
## Training set 0.2994418

Wykresy prognoz: