Analisis ragam atau ANOVA merupakan metode yang digunakan untuk menganalisis berbagai efek perlakuan. Dalam ANOVA kita dapat menguraikan komponen dari berbagai sumber keragaman seperti perlakuan dan galat percobaan. ANOVA dapat digunakan untuk membandingkan rata-rata dari berbagai perlakuan yang diberikan. Selain itu juga dapat digunakan untuk melihat adakah pengaruh secara keseluruhan dari perlakuan.
Analisis ragam sering digunakan dalam bidang pertanian. Sebagai contoh suatu percobaan menggunakan 3 jenis pupuk, 4 dosis, serta 2 luas petak yang berbeda. Namun hal tersebut tidak menutup kemungkinan untuk melakukan analisis ragam diluar bidang pertanian. Sebagai contoh akan digunakan data video games sales untuk melihat perbedaan penjualan games secara global berdasarkan publisher game yang berbeda.
Analisis ragam atau ANOVA adalah metode untuk menguraikan keragaman total dari data menjadi keragaman perlakuan atau varietas serta keragaman galat. Analisis ragam memanfaatkan sebaran F, sehingga diperoleh statistik uji F dari hasil penguraian keragaman.
Analisis ragam satu arah atau klasifikasi satu arah digunakan saat menguji satu perlakuan dengan minimal 2 kategori sebagai faktor. Model umum sebagai berikut: \[ Y_{ij}=\mu_i + \epsilon_{ij} \] Keterangan: Data berasal dari populasi ke-i dengan amatan ke-j
Hipotesis: \[ H_0: \mu_1 = \mu_2 = \mu_3= . . .=\mu\\ H_1: setidaknya\ ada\ satu\ pasang\ \mu_i \neq \mu_i' \] Dengan kriteria tolak hipotesis nol jika statistik uji F lebih besar dari titik kritis atau p-value lebih kecil dari alpha.
Uji lanjut digunakan apabila hasil analisis ragam adalah tolak hipotesis nol. Uji ini bertujuan untuk mengetahui dimana letak perbedaan dari rata-rata tiap perlakuan.
Hipotesis: \[ H_0: \mu_{i} = \mu_{i'}\\ H_1: \mu_{i} \neq \mu_{i'}\\ \]
Uji beda nyata terkecil (LSD) adalah metode paling sederhana dan umum digunakan untuk membandingkan pasangan perlakuan. Metode ini memberikan nilai LSD tunggal pada tingkat signifikansi tertentu, dan digunakan sebagai batas antara perbedaan signifikan serta tidak signifikan antara pasangan perlakuan.
Uji lanjut beda nyata jujur (Tukey) merupakan metode lain yang mirip dengan beda nyata terkecil. Namun, pada Tukey akan membandingkan seluruh pasangan rata-rata perlakuan
Normalitas pada galat berarti nilai residual dari setiap perlakuan mengikuti sebaran normal.Pelanggaran asumsi ini dapat menyebabkan ketidakvalidan dalam keputusan. Hipotesis: \[ H_0= Galat\ menyebar\ secara\ normal\\ H_1= Galat\ tidak\ menyebar\ secara\ normal\ \]
Homoskedastisitas atau ragam galat yang konstan berarti ragam dari residual harus memiliki ragam yang sama. Hal ini berarti nilai amatan akan berada disekitar nilai rata-ratanya. Pelanggaran asumsi ini juga menyebabkan hasil analisis yang tidak valid atau tidak bisa digunakan. Hipotesis: \[ H_0= Terjadi\ homoskedastisitas\\ H_1= Tidak\ terjadi\ homoskedastisitas \]
Implementasi analisis ragam menggunakan software RStudio akan menggunakan data yang diperoleh dari Websiste Kaggle yang berjudul Video Game Sales. Kumpulan data ini berisi daftar video game dengan penjualan lebih dari 100.000 eksemplar. Namun hanya akan digunakan contoh 10 penjualan global tertinggi dari 4 publisher game yaitu Nintendo, Microsoft Game Studios, Take-Two Interactive, dan Ubisoft.
Analisis ragam dilakukan untuk mengetahui apakah ada perbedaan penjualan game secara global dari empat publisher game yang berbeda.
> library(knitr)
> library(rmarkdown)
> library(prettydoc)
> library(equatiomatic)
>
> Nintendo<-c(82.74, 40.24, 35.82, 33.00, 31.37,
+ 30.26, 30.01, 29.02, 28.62, 28.31)
> Nintendo
[1] 82.74 40.24 35.82 33.00 31.37 30.26 30.01 29.02 28.62 28.31
> MGS<-c(21.82, 12.14, 9.88, 9.76, 9.20,
+ 8.49, 6.76, 6.43, 6.36, 6.24)
> MGS
[1] 21.82 12.14 9.88 9.76 9.20 8.49 6.76 6.43 6.36 6.24
> TTI<-c(21.40, 20.81, 16.38, 16.15, 13.10,
+ 11.98, 11.02, 10.57, 7.72, 6.60)
> TTI
[1] 21.40 20.81 16.38 16.15 13.10 11.98 11.02 10.57 7.72 6.60
> ubisoft<-c(10.26, 9.52, 7.27, 6.91, 6.50,
+ 5.57, 5.55, 5.30, 5.27, 4.83)
> ubisoft
[1] 10.26 9.52 7.27 6.91 6.50 5.57 5.55 5.30 5.27 4.83
> pub<-c(rep("Nintendo",10),rep("MGS",10),rep("TTI",10),
+ rep("ubisoft",10))
> sales<-c(Nintendo,MGS,TTI,ubisoft)
> data<-data.frame(pub,sales)
> data
pub sales
1 Nintendo 82.74
2 Nintendo 40.24
3 Nintendo 35.82
4 Nintendo 33.00
5 Nintendo 31.37
6 Nintendo 30.26
7 Nintendo 30.01
8 Nintendo 29.02
9 Nintendo 28.62
10 Nintendo 28.31
11 MGS 21.82
12 MGS 12.14
13 MGS 9.88
14 MGS 9.76
15 MGS 9.20
16 MGS 8.49
17 MGS 6.76
18 MGS 6.43
19 MGS 6.36
20 MGS 6.24
21 TTI 21.40
22 TTI 20.81
23 TTI 16.38
24 TTI 16.15
25 TTI 13.10
26 TTI 11.98
27 TTI 11.02
28 TTI 10.57
29 TTI 7.72
30 TTI 6.60
31 ubisoft 10.26
32 ubisoft 9.52
33 ubisoft 7.27
34 ubisoft 6.91
35 ubisoft 6.50
36 ubisoft 5.57
37 ubisoft 5.55
38 ubisoft 5.30
39 ubisoft 5.27
40 ubisoft 4.83
Berdasarkan Data yang digunakan, diperoleh nilai rataan sebesar
\[ \bar{x_1}= 36.939\\ \bar{x_2}= 9.708\\ \bar{x_3}= 13.573\\ \bar{x_4}= 6.698 \] Dengan keterangan:
1 = rata-rata penjualan games secara global dari publisher Nintendo
2 = rata-rata penjualan games secara global dari publisher Microsoft Games Studios
3 = rata-rata penjualan games secara global dari publisher Take-Two Interactive
4 = rata-rata penjualan games secara global dari publisher Ubisoft
\[ H_0: \mu_1 = \mu_2 = \mu_3=\mu_4=\mu\\ H_1: setidaknya\ ada\ satu\ pasang\ \mu_i \neq \mu_i' \]
> anovPub<-aov(sales~pub,data=data)
Menggunakan fungsi bawaan dari R untuk membuat tabel ANOVA yaitu
aov. sales~pub berarti ingin membuat tabel anova
dari banyak penjualan games berdasarkan perbedaan penerbit
games. Argumen data = data berarti menggunakan data
frame “data” yang telah dibuat sebelumnya.
> summary(anovPub)
Df Sum Sq Mean Sq F value Pr(>F)
pub 3 5683 1894.4 23.41 1.4e-08 ***
Residuals 36 2913 80.9
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Dari tabel ANOVA dapat dilihat bahwa pub (Publisher) sebagai perlakuan dengan derajat bebas 3. Diperoleh statistik uji F:
\[ F_{hit}\ = 23.41\\ p-value = 1.4 \times 10^{-8} \] Dengan p-value sangat kecil maka dapat diputuskan untuk menolak hipotesis nol. Dapat disimpulkan bahwa setidaknya terdapat satu rata-rata penjualan game secara global yang berbeda.
Uji F pada ANOVA menghasilkan tolak hipotesis nol maka dilakukan uji lanjut untuk mengetahui perbedaan rata-rata penjualan game secara global dari masing-masing penerbit game.
Hipotesis: \[ H_0: \mu_{i} = \mu_{i'}\\ H_1: \mu_{i} \neq \mu_{i'}\\ \]
> library(agricolae)
> bnt<-LSD.test(anovPub, "pub" )
> bnt$groups
sales groups
Nintendo 36.939 a
TTI 13.573 b
MGS 9.708 b
ubisoft 6.698 b
Dari hasil diatas dapat dilihat bahwa penjualan game secara global milik Nintendo berbeda dengan ketiga publisher lainnya.
Hipotesis: \[ H_0: \mu_{i} = \mu_{i'}\\ H_1: \mu_{i} \neq \mu_{i'}\\ \]
> TukeyHSD(anovPub)
Tukey multiple comparisons of means
95% family-wise confidence level
Fit: aov(formula = sales ~ pub, data = data)
$pub
diff lwr upr p adj
Nintendo-MGS 27.231 16.396664 38.065336 0.0000004
TTI-MGS 3.865 -6.969336 14.699336 0.7722920
ubisoft-MGS -3.010 -13.844336 7.824336 0.8768098
TTI-Nintendo -23.366 -34.200336 -12.531664 0.0000073
ubisoft-Nintendo -30.241 -41.075336 -19.406664 0.0000000
ubisoft-TTI -6.875 -17.709336 3.959336 0.3339878
Dari hasil uji BNJ dapat disimpulkan:
- Nintendo-Microsoft Game Studios memiliki rata-rata sales yang berbeda
- Take-Two Interactive-Microsoft Game Studios memiliki rata-rata sales yang sama
- Ubisoft-Microsoft Game Studios memiliki rata-rata sales yang sama
- Take-Two Interactive-Nintendo memiliki rata-rata sales yang berbeda
- Ubisoft-Nintendo memiliki rata-rata sales yang berbeda
- Ubisoft-Take-Two Interactive memiliki rata-rata sales yang sama
Setelah mendapatkan model ANOVA dari data aka akan dilakukan uji asumsi untuk mengetahui apakah model sudah baik untuk digunakan atau tidak.
Hipotesis: \[ H_0= Galat\ menyebar\ secara\ normal\\ H_1= Galat\ tidak\ menyebar\ secara\ normal\ \]
> shapiro.test(anovPub$residuals)
Shapiro-Wilk normality test
data: anovPub$residuals
W = 0.61428, p-value = 4.927e-09
Dengan uji shapiro wilk didapatkan p-value yang sangat kecil, sehingga diperoleh keputusan tolak hipotesis nol. Dapat disimpulkan bahwa galat atau sisaan dari model ANOVA tidak menyebar secara normal.
Hipotesis: \[ H_0= Terjadi\ homoskedastisitas\\ H_1= Tidak\ terjadi\ homoskedastisitas \]
studentized Breusch-Pagan test
data: anovPub
BP = 3.773, df = 3, p-value = 0.287
Dengan uji breusch pagan didapatkan p-value yang cukup besar, sehingga diperoleh keputusan terima hipotesis nol. Dapat disimpulkan bahwa terjadi homoskedastisitas pada model ANOVA.
Dari hasil analisis dapat disimpulkan bahwa model tidak dapat digunakan atau hasil analisis tidak valid. Hal ini karena model tidak memenuhi asumsi normalitas galat.
Video Game Sales. Diakses pada 31 Mei 2024 dari https://www.kaggle.com/datasets/gregorut/videogamesales
Gomez Kwanchai A., Gomez Arturo A. (1976). Statistical Procedures for Agricultural Research
Setiawan, Ade. (2024). Uji Lanjut Tukey HSD (BNJ). Diakses pada 31 Mei 2024 dari https://www.smartstat.info/materi/rancangan-percobaan/perbandingan-rata-rata/uji-lanjut-tukey-hsd-bnj.html#google_vignette
Setiawan. Ade (2024). Asumsi-Asumsi ANOVA Satu Faktor. Diakses pada 31 Mei 2024 dari https://www.smartstat.info/materi/rancangan-percobaan/asumsi-analisis-varians/asumsi-asumsi-anova-satu-faktor.html