KELOMPOK ARW 1
Berikut ini merupakan data penjualan industri bulanan dalam ribuan franch untuk kertas cetak dan kertas tulis antara tahun 1963 sampai 1972 (Makridakis 1999).
## # A tibble: 6 × 2
## Tahun `Data Penjualan`
## <dbl> <dbl>
## 1 1963 563.
## 2 1963 599
## 3 1963 669.
## 4 1963 598.
## 5 1963 580.
## 6 1963 668.
Dari data tersebut, akan dilakukan analisis dengan menggunakan model ARIMA (𝑃, 𝐷,𝑄)𝑠 musiman non-multiplikatif non-stasioner. Langkah-langkahnya adalah sebagai berikut.
1. Melakukan Eksplorasi dan Visualisasi Data
##
## Fligner-Killeen test of homogeneity of variances
##
## data: data.ts[, 1] by Tahun
## Fligner-Killeen:med chi-squared = 3.549, df = 9, p-value = 0.9385
Dari plot time series di atas dapat dilihat bahwa data yang digunakan memiliki pola data musiman. Hal ini ditunjukkan dengan adanya pola ulangan pada setiap periode waktu tertentu. Berdasarkan uji kehomogenan ragam dengan menggunakan uji Fligner-Killeen diperoleh nilai p-value = 0.9385 > α=0.05 artinya Ho ditolak atau data telah homogen dalam variansi.
2. Evaluasi Pola Musiman
Evaluasi pola musiman pada data runtun waktu adalah proses untuk mengidentifikasi dan mengukur kekuatan pengaruh musiman pada data runtun waktu. Pola musiman adalah pola perubahan yang berulang dan teratur dalam data runtun waktu yang berkaitan dengan periode waktu tertentu, seperti bulanan, kuartalan, atau tahunan.
Ada beberapa cara untuk melakukan evaluasi pola musiman pada data runtun waktu, seperti dengan menggunakan grafik, dekomposisi, atau menggunakan uji statistik seperti uji ANOVA atau uji Kruskal-Wallis.
Berikut ini box-plot dan hasil uji ANOVA dari data yang digunakan.
## Analysis of Variance Table
##
## Response: data$`Data Penjualan`
## Df Sum Sq Mean Sq F value Pr(>F)
## data$Tahun 1 1101486 1101486 51.918 5.91e-11 ***
## Residuals 118 2503474 21216
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Dari box-plot di atas menunjukkan adanya ukuran keragaman (panjang box) dan pemusatan (median) yang berbeda-beda setiap tahun artinya data memiliki pola musiman. Hal ini juga didukung dari hasil uji ANOVA tersebut, terlihat bahwa p-value = 5.91e-11 < 0.05. Hal ini berarti kita menolak hipotesis nol bahwa rata-rata data runtun waktu sama untuk setiap periode musiman. Hal ini menunjukkan bahwa data memiliki pola musiman.
3. Pembagian Data Training dan Data Testing Untuk Validasi Model
Pembagian data training dan data testing untuk validasi model data runtun waktu adalah proses untuk membagi data runtun waktu menjadi dua bagian, yaitu:
Data training, yaitu bagian data yang digunakan untuk membangun dan melatih model data runtun waktu. Data training biasanya mencakup sebagian besar data runtun waktu yang tersedia, misalnya 70% atau 80% dari total data.
Data testing, yaitu bagian data yang digunakan untuk menguji dan mengevaluasi kinerja model data runtun waktu. Data testing biasanya mencakup sebagian kecil data runtun waktu yang tersedia, misalnya 20% atau 30% dari total data.
Pada plot di atas dapat dilihat bahwa data telah terbagi menjadi dua yakni data training dan data testing. Dimana, untuk data training diambil 80% dari data sedangkan sisanya digunakan sebagai data testing.
4. Melihat Kestasioneran Data Pada Series Non-Musiman
##
## Augmented Dickey-Fuller Test
##
## data: data.ts
## Dickey-Fuller = -6.8276, Lag order = 10, p-value = 0.01
## alternative hypothesis: stationary
Berdasarkan plot time series dari data training dapat dilihat bahwa data telah stasioner dalam series non-musiman. Pada uji Dickey-Fuller yang dilakukan, diperoleh nilai p-value = 0.01 < α=0.05 sehingga tolak Ho dan disimpulkan bahwa data runtun waktu telah stasioner. Namun, jika dilihat pada plot ACF terdapat cut off pada lag 1, 2, 12, 13, 14, dst. Sedangkan untuk melihat apakah data telah stasioner dalam series musiman maka dilakukan boxplot untuk lag yang terjadi cut off.
5. Melihat Kestasioneran Data Pada Series Musiman
Berdasarkan plot ACF di atas, dapat dilihat bahwa terjadi penurunan secara perlahan pada lag-lag musiman, sehingga perlu dilakukan differencing untuk menstasionerkan data pada series musiman.
##
## Augmented Dickey-Fuller Test
##
## data: datadiff
## Dickey-Fuller = -3.2689, Lag order = 4, p-value = 0.08014
## alternative hypothesis: stationary
Berdasarkan data training pada series musiman di atas, sekilas dapat dilihat bahwa telah stasioner karena dari plot dan barplot ACF tidak terjadi penurunan secara perlahan pada lag-lag awal. Namun, dari pengujian Dickey-Fuller yang dilakukan, diperoleh nilai p-value = 0.3329 > α=0.05 sehingga gagal tolak Ho dan disimpulkan bahwa data runtun waktu tidak stasioner. Karena data tidak stasioner, maka perlu dilakukan differencing pada data series musiman.
##
## Augmented Dickey-Fuller Test
##
## data: datadiff.1
## Dickey-Fuller = -6.6155, Lag order = 4, p-value = 0.01
## alternative hypothesis: stationary
Dari differencing yang telah dilakukan dapat dilihat pada plot time series, plot ACF, dan pengujian Dickey-Fuller yang dilakukan, dimana diperoleh nilai p-value = 0.01 < α=0.05 . Sehingga data telah stasioner dalam musiman dan non-musiman.
6. Spesifikasi Model
## AR/MA
## 0 1 2 3 4 5 6 7 8 9 10 11 12 13
## 0 x o o o o o o o o o x x x o
## 1 x o o o o o o o o o o x x o
## 2 x o o o o o o o o o o x o o
## 3 x x x x o o o o o o o x o o
## 4 x o x o x o o o o o o x o o
## 5 x x x o x o o o o o o x x o
## 6 x o o o o o o o o o o x o o
## 7 x x o o o o o o o o o x o o
Interpretasi Model:
9. Pendugaan Parameter dan Uji Signifikansi Parameter
## Model 1
##
## z test of coefficients:
##
## Estimate Std. Error z value Pr(>|z|)
## ma1 -0.827965 0.063813 -12.9749 < 2.2e-16 ***
## sma1 -0.679323 0.105719 -6.4258 1.312e-10 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## Model 2
##
## z test of coefficients:
##
## Estimate Std. Error z value Pr(>|z|)
## ar1 -0.558069 0.081426 -6.8537 7.198e-12 ***
## sma1 -0.681428 0.101682 -6.7016 2.062e-11 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## Model 3
##
## z test of coefficients:
##
## Estimate Std. Error z value Pr(>|z|)
## ar1 -0.771883 0.091108 -8.4722 < 2.2e-16 ***
## ar2 -0.380009 0.091498 -4.1532 3.278e-05 ***
## sma1 -0.707491 0.109237 -6.4767 9.376e-11 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## Model 4
##
## z test of coefficients:
##
## Estimate Std. Error z value Pr(>|z|)
## ar1 -0.843356 0.097073 -8.6878 < 2.2e-16 ***
## ar2 -0.522767 0.116211 -4.4984 6.846e-06 ***
## ar3 -0.186809 0.097303 -1.9199 0.05487 .
## sma1 -0.690159 0.108760 -6.3457 2.214e-10 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## Model 5
##
## z test of coefficients:
##
## Estimate Std. Error z value Pr(>|z|)
## ar1 0.70652 0.19439 3.6345 0.0002785 ***
## ar2 0.16085 0.11436 1.4066 0.1595589
## ma1 -1.66633 0.17724 -9.4013 < 2.2e-16 ***
## ma2 0.66633 0.17348 3.8409 0.0001226 ***
## sma1 -0.66319 0.10673 -6.2140 5.164e-10 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Berdasarkan nilai signifikansi maka dipilih 3 model yakni model 1, model 2, dan model 3.
10. Uji Diagnostik
## Model AIC
## 1 model1 1067.603
## 2 model2 1090.390
## 3 model3 1076.509
Berdasarkan nilai AIC maka didapatkan model terbaik yakni model 1.
##
## Box-Ljung test
##
## data: sisa
## X-squared = 4.7292, df = 12, p-value = 0.9664
##
## Jarque Bera Test
##
## data: sisa
## X-squared = 2.6263, df = 2, p-value = 0.269
11. Peramalan Model Terbaik