Pengujian Anova mirip dengan pengujian t, sama-sama digunakan untuk menguji perbedaan mean. Perbedaanya dari keduanya terdapat pada jumlah kelompok ujinya. Jika uji t hanya bisa untuk dua kelompok sedangkan uji Anova bisa lebih dari dua. Pada uji anova, hipotesis diterima jika nilainya lebih besar dari nilai signifikan
IPM menjelaskan bagaimana penduduk dapat mengakses hasil pembangunan dalam memperoleh pendapatan, kesehatan, pendidikan, dan sebagainya.
Kami telah mengambil 6 sample rata-rata nilai IPM di setiap daerah Provinsi Jateng, Jatim dan Jabar. Sample ini diambil ketika Jateng berada pada masa kepemimpinan Ganjar Pranowo periode 2013-2018, Jabar pada masa kepemimpinan Ahmad Heryawan periode 2013-2018 dan Jatim pada masa kepemimpinan Soekarwo periode 2014-2019.Data-data diatas diambil di website resmi BPS disini.
Penelitian bertujuan untuk mengetahui persebaran hasi pembangunan di pulau jawa apakah sudah merata, dan juga untuk mengetahui kapabilitas gubernur pada masing-masing provinsi dalam menjamin IPM untuk daerah yang dipimpin.
Dari data diatas mari lakukan pengujian Anova untuk mengetahui apakah rata-rata nilai IPM dari 3 Provinsi tersebut sama.
Berikut adalah data yang kami dapat :
| Jabar | Jateng | Jatim |
|---|---|---|
| 69.80 | 67.45 | 78.40 |
| 64.80 | 71.82 | 68.00 |
| 62.90 | 69.67 | 69.12 |
| 70.20 | 80.68 | 64.28 |
| 63.45 | 73.09 | 70.10 |
| 63.51 | 69.80 | 69.10 |
data = readxl::read_xlsx("dataset.xlsx")
data
# A tibble: 6 x 3
`JawaTengah(Ganjar Pranowo)` `JawaTimur(Soekarwo)` `JawaBarat(Ahmad Heryawan)`
<chr> <dbl> <dbl>
1 67.45 78.4 68.7
2 71.82 68 64.8
3 69.67 69.1 62.9
4 80.68 64.3 70.2
5 73.09 70.1 63.4
6 69.8 69.1 63.5
Dengan menggunakan level signifikasi 0,05(5%), lakukan pengujian apakah rata-rata nilai IPM dari 3 Provinsi tersebut sama.
Untuk mengetahui estimasi perbedaan mean dan proporsi antar populasi dilakukan Uji Inference
Ubah nama kolom agar lebih mudah dipanggil
colnames(data)[1] <- "Jateng"
colnames(data)[2] <- "Jatim"
colnames(data)[3] <- "Jabar"
Uji Inference hanya bisa dilakukan untuk variabel bertipe numeric, maka ubah tipe data variabel ke numeric
Gunakan fungsi t.test untuk meliha output, misalkan kita akan membandingkan rata-rata nilai IPM pada provinsi Jateng dan Jatim
t.test(as.numeric(data$Jateng), data$Jatim, paired = T)
Paired t-test
data: as.numeric(data$Jateng) and data$Jatim
t = 0.63037, df = 5, p-value = 0.5561
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-6.930355 11.433689
sample estimates:
mean of the differences
2.251667
Dapat diketahui perbedaan rata-rata nilai IPM antara -6.930355 sampai 11.433689 dengan nilai kepercayaan sebesar 95%
Jateng vs Jabar
t.test(as.numeric(data$Jateng), data$Jabar, paired = T)
Paired t-test
data: as.numeric(data$Jateng) and data$Jabar
t = 3.8486, df = 5, p-value = 0.01202
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
2.157893 10.838774
sample estimates:
mean of the differences
6.498333
Dapat diketahui perbedaan rata-rata nilai IPM antara 2.157893 sampai 10.838774 dengan nilai kepercayaan sebesar 95%
Jatim vs Jabar
t.test(data$Jatim, data$Jabar, paired = T)
Paired t-test
data: data$Jatim and data$Jabar
t = 1.9243, df = 5, p-value = 0.1123
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-1.426267 9.919600
sample estimates:
mean of the differences
4.246667
Dapat diketahui perbedaan rata-rata nilai IPM antara -1.426267 sampai 9.919600 dengan nilai kepercayaan sebesar 95%
Setelah berhasil import data selanjutnya gabungkan baris data diatas menjadi vektor transpose matrix
r = c(t(as.matrix(data)))
r
[1] "67.45" "78.40" "68.66" "71.82" "68.00" "64.80" "69.67" "69.12" "62.90" "80.68"
[11] "64.28" "70.20" "73.09" "70.10" "63.45" "69.8" "69.10" "63.51"
Langkah selanjutnya membuat variabel kategori, level treatment, dan data treatment. kategori akan berisi beberapa keadaan dalam hal ini yaitu Provinsi, level treatment merupakan jumlah keadaan yang ada dalam hal ini yaitu 3, data treatment berisi jumlah data sample setiap keadaan dalam hal ini kami mengambil 6 sample (6 daerah pada masing-masing provinsi).
Maka bisa ditulis seperti berikut ini :
f = c("Jabar", "Jateng", "Jatim")
k = 3 # treatment level
n = 6 # data treatment
Pada tahap ke 4 kita telah menggabungkan baris data, selanjutnya data tersebut kita jadikan faktor level menggunakan fungsi gl dengan memasukkan variabel kategori, level treatment dan data treatment sebagai parameter.
tm = gl(k, 1, n*k, factor(f))
tm
[1] Jabar Jateng Jatim Jabar Jateng Jatim Jabar Jateng Jatim Jabar Jateng Jatim
[13] Jabar Jateng Jatim Jabar Jateng Jatim
Levels: Jabar Jateng Jatim
Lakukan uji anova dengan menggunakan perintah aov untuk data yang sudah kita olah sebelumnya
av = aov(r~tm)
summary(av)
Df Sum Sq Mean Sq F value Pr(>F)
tm 2 130.7 65.33 3.717 0.0488 *
Residuals 15 263.6 17.58
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Berdasarkan output diatas diketahui p-value yaitu 0,0488 lebih kecil dari level signifikan 0,05. Sehingga kita menolak bahwa rata-rata nilai IPM dari 3 Provinsi tersebut sama.