Uji Kruskall-Wallis dengan R

Fitri Nur Azizah

22/5/2022

1 PENDAHULUAN

1.1 Latar Belakang

Data menjadi kebutuhan yang sangat penting di zaman ini. Adanya data digunakan manusia untuk menghasilkan suatu informasi sebagai pengetahuan maupun sebagai dasar dalam mengambil keputusan. Data dapat digunakan sebagai informasi maupun dasar dalam mengambil keputusan karena data merupakan fakta yang mana pengumpulannya diperoleh dari survey maupun pengamatan secara langsung. Saat ini, data tidak hanya dibutuhkan di bidang tertentu saja, namun data dibutuhkan di berbagai bidang, seperti pertanian, bisnis, kedokteran, ekonomi, pendidikan dan bidang-bidang yang lain. Data yang dibutuhkan dari berbagai bidang tersebut dapat dihasilkan dari penelitian maupun kegiatan manusia yang tanpa disadari akan menghasilkan data yang sangat besar. Jika data yang dihasilkan oleh setiap orang digabung dan dikumpulkan maka akan menghasilkan data yang sangat besar. Data yang dihasilkan tersebut kemudian diolah untuk selanjutnya dilakukan analisis sesuai data yang ada serta tujuan yang ingin dicapai dari analisis tersebut.

Pengolahan dan analisis data dapat dilakukan dengan menggunakan berbagai aplikasi, salah satunya adalah R. Saat ini, R banyak digunakan oleh banyak orang karena banyaknya kelebihan dan kemudahan yang diberikan oleh R, salah satunya termasuk software yang open source. Selain itu, banyak jenis analisis yang bisa dilakukan dengan menggunakan R dilihat dari banyaknya function yang ada pada library R serta bahasa pemrograman yang tidak terlalu rumit sehingga memudahkan pengguna dalam menganalisis data. Salah satu analisis yang dapat dilakukan dengan R adalah analisis Kruskall-Wallis yang akan dibahas pada sesi berikut.

1.2 Statistika Deskriptif

Statistika deskriptif adalah metode untuk mengumpulkan, menggambarkan, menganalisis dan menginterpretasikan angka-angka untuk selanjutnya menggambarkan angka-angka tersebut dalam bentuk grafik yang akan digunakan untuk analisis dan mengambil kesimpulan (Silvia, Vivi., 2020). Dengan kata lain, statistika deskriptif hanya menggambarkan mengenai karakteristik dari sekumpulan data. Statistika deskriptif terdiri dari ukuran pemusatan data dan ukuran penyebaran data. Ukuran pemusatan data biasa digunakan untuk mewakili suatu kelompok data seperti rata-rata, modus, dan median. Sedangkan ukuran penyebaran data merupakan nilai yang menggambarkan seberapa besar perbedaan masing-masing data terhadap pusat data. Ukuran penyebaran data terdiri dari range, ragam, dan simpangan baku. Ukuran penyebaran dan pemusatan data ini digunakan untuk memperoleh gambaran yang menarik dan mudah dipahami.

Statistika deskriptif memiliki banyak kegunaan, diantaranya (Atmaja, dkk, 2020):
1. Panyajian data menjadi lebih ringkas dan informasi mudah tersampaikan.
2. Peneliti memungkinkan untuk menyajikan data dalam bentuk grafik maupun numerik.
3. Mampu mengukur dua karakteristik setiap responden serta meneliti hubungan antara kedua karakteristik tersebut.
4. Memegang peranan penting sebelum memulai analisis data.

1.3 One Way ANOVA

Analysis of Variance (ANOVA) atau analisis ragam merupakan salah satu teknik analisis multivariat yang digunakan untuk mengetahui perbedaan rata-rata dua kelompok atau lebih dengan cara mengkomparasikan variansinya yang mana analisis ini termasuk dalam kategori analisis parametrik sehingga perlu dilakukan uji asumsi berupa normalitas, heteroskedastisitas, dan random sampling (Ghazali dalam Andadari, 2021). ANOVA terdiri dari 3 pengujian salah satunya yaitu One way ANOVA yang digunakan jika data yang akan dianalisis terdiri dari satu variabel bebas dan satu variabel respon (Basuki, A.T. dalam Andadari, 2021). Menurut Setyowati (dalam Andadari, 2021) One way ANOVA digunakan untuk menguji perbedaan rata-rata dari beberapa sampel serta untuk mencari ranking dari beberapa grouping variable. Analisis dengan menggunakan one way ANOVA harus memenuhi asumsi berikut (Fitria, dkk., 2021).
1. Jenis data
a. Variabel respon berskala numerik
b. Variabel bebas berskala kategorik dengan >2 kelompok
2. Varian data homogen
3. Data berdistibusi normal
4. Sampel/ kelompok independen

1.4 Statistika Non Parametrik

Statistika nonparametrik merupakan bagian dari statistika inferensial yang parameter dari populasinya tidak mengikuti suatu distribusi atau memiliki distribusi yabg bebas dari persyaratan dan variannya tidak perlu homogen (Sunjoyo, dkk., 2013).

Menurut Nugroho (2008), suatu metode statistika dikatakan nonparametrik jika memenuhi kriteria yaitu metode ini dapat digunakan pada data dengan skala pengukuran nominal, ordinal, interval atau rasio, dimana fungsi sebaran peubah acak yang menghasilkan data tidak diketahui atau diketahui kecuali untuk sebanyak tak hingga parameter yang tidak diketahui.

1.4.1 Kruskall Wallis

Uji Kruskal-Wallis digunakan untuk membandingkan ukuran pemusatan lebih dari dua populasi. Uji Kruskall Wallis merupakan uji alternatif bagi ANOVA satu arah (one way ANOVA). Uji Kruskal-Wallis beraitan dengan tiga atau lebih sampel acak yang independen dengan tujuan untuk mengetahui apakah sampel-sampel berasal dari populasi yang memiliki median yang sama (Harinaldi, 2005). Mehta dan Patel (dalam Yamin, Sofyan., 2021) menyatakan bahwa uji Kruskall Wallis lebih powerful dibandingkan dengan uji median untuk k sampel bebas ketika peneliti tidak memiliki dugaan mengenai arah skor perlakuan. Ketika hasil pengujian hipotesis menunjukkan penolakan pada hipotesis nol maka selanjutnya dilakukan uji lanjutan dengan Bonferroni correction for multiple tests.

Asumsi yang harus dipenuhi yaitu: 1. Data untuk analisis terdiri dari k sampel acak dengan ukuran n1, n2, …, nk. 2. Pengamatan bersifat independen baik di dalam dan di antara sampel. 3. Variabel yang menjadi perhatian adalah kontinu. 4. Skala pengukuran minimal ordinal. 5. Populasi harus identik kecuali untuk sebuah perbedaan yang mungkin dalam lokasi untuk setidaknya satu populasi.

Sebelum menghitung statistik uji Kruskal wallis, data dapat diberikan rank dengan mengurutkan data dari terkecil hingga terbesar. Jika hipotesis nol benar, kita mengharapkan jumlah k dari rank (yaitu, jumlah dari rank di setiap sampel) menjadi hampir sama ketika disesuaikan dengan ukuran sampel yang tidak sama.

Statistik uji:
\[ H = \frac{12}{N(N+1)}\Sigma_{i=1}^{k}\frac{R_{i}^2}{n_{i}}-3(N+1) \]

dengan:
Ri = jumlah rank sampel ke-i
N = n1 + n2 + … + nk

Jika terdapat rank yang sama, maka harus menghitung faktor koreksi sebagai berikut.
\[ FK = 1 - \frac{\Sigma T}{N^3+1} \] dimana T = t3 - t dan t adalah banyak rank dalam data.

Langkah-langkah pengujian Kruskall-Wallis adalah sebagai berikut.
1. Merumuskan hipotesis
2. Menentukan tingkat signifikansi
3. Pembuatan peringkat data tanpa membedakan kategori sampel. Penetapan peringkat dimulai dari data terkecil sebagai peringkat pertama
4. Penentuan distribusi yang digunakan. Pada uji ini digunakan distribusi chi-square. Nilai chi-square diberikan dalam tabel dengan mengetahui tingkat signifikansi (alpha) dan derajat bebas yaitu db = k-1
5. Menghitung statistik uji
6. Keputusan
- Tolak H0 jika Hhitung > chi-square tabel atau p-value < alpha (0,05)
- Terima H0 jika Hhitung < chi-square tabel atau p-value > alpha (0,05)

1.5 Uji Bonferroni-Dunn

Uji ini dikenalkan oleh salah satu ahli di bidang statistik bernama Dunn (1961), yang mana uji ini didasari dari model ketidaksamaan Bonferroni. Jika dibandingkan dengan uji Fisher yang mana menguji rata-rata perbedaan masing-masing perlakuan atau kesimpulan yang diambil adalah membandingkan nilai t dengan t tabel, pada Bonferroni kesimpulan diambil diambil dengan membandingkan nilai Bonferroni-Dunn (notasi: CDB/D) dengan nilai perbedaan kritis (notasi: Pk) (Ismail, Fajri., 2018)

1.6 Data

Data yang digunakan untuk analisis ini adalah data mengenai banyak serangga pada unit percobaan pertanian. Data ini merupakan data sekunder yang diambil dari data yang terdapat di R bernama InsectSprays. Data ini selanjutnya akan digunakan untuk mengetahui pengaruh pemberian 6 insektisida berbeda terhadap banyaknya serangga yang diamati pada 12 tanaman.

2 SOURCE CODE

2.1 Library yang Dibutuhkan

> #Library
> #library(rmarkdown)
> #library(rstatix)
> #library(car)
> #library(tseries)
> #library(FSA)

2.2 Data

> library(rmarkdown)
> data("InsectSprays")
> paged_table(as.data.frame(InsectSprays))
  • count merupakan data mengenai banyaknya serangga pada suatu unit percobaan pertanian dengan skala numerik.
  • spray merupakan data mengenai jenis insektisida yang diberikan pada percobaan pertanian yang terdiri dari 6 jenis yaitu A, B, C, D, E, dan F.

2.3 Analisis Deskriptif

> library(rstatix)
> InsectSprays %>% 
+   group_by(spray) %>% 
+   get_summary_stats(count,type="common")
# A tibble: 6 x 11
  spray variable     n   min   max median   iqr  mean    sd    se    ci
  <fct> <chr>    <dbl> <dbl> <dbl>  <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
1 A     count       12     7    23   14    6.25 14.5   4.72 1.36   3.00
2 B     count       12     7    21   16.5  5    15.3   4.27 1.23   2.71
3 C     count       12     0     7    1.5  2     2.08  1.98 0.57   1.25
4 D     count       12     2    12    5    1.25  4.92  2.50 0.723  1.59
5 E     count       12     1     6    3    2.25  3.5   1.73 0.5    1.1 
6 F     count       12     9    26   15   10    16.7   6.21 1.79   3.95

Output di atas merupakan output analisis deskriptif yang dikelompokkan menurut jenis insektisida.

2.4 Visualisasi Data dengan Boxplot

> boxplot(count~spray, data=InsectSprays,
+         main = "Boxplot Jenis Insektisida & Banyak Serangga", col= "burlywood3")

Visualisasi data dengan menggunakan boxplot dapat dilakukan dengan menggunakan function boxplot.

  • count~spray merupakan formula yang menyatakan bahwa boxplot dibuat untuk setiap level yang ada di variabel “spray”.
  • data = InsectSprays menyatakan nama data yang telah didefinisikan sebelumnya yang memuat variabel yang disebutkan dalam formula.
  • main merupakan judul yang ada pada boxplot.
  • col = "burlywood3 menyatakan kode warna boxplot.

2.5 Anova

> anova <- aov(count~spray, data = InsectSprays)
> summary(anova)
            Df Sum Sq Mean Sq F value Pr(>F)    
spray        5   2669   533.8    34.7 <2e-16 ***
Residuals   66   1015    15.4                   
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
  • anova sebagai nama obyek yang digunakan untuk analisis one way ANOVA.
  • aov menyatakan function yang digunakan untuk uji ANOVA.
  • summary(anova) menyatakan output yang berupa tabel analisis ragam.

2.6 Uji Asumsi

2.6.1 Uji Normalitas

> #Uji Jarque Bera
> library(tseries)
> sisa <- residuals(anova)
> jarque.bera.test(sisa)

    Jarque Bera Test

data:  sisa
X-squared = 2.4208, df = 2, p-value = 0.2981
  • library(tseries) merupakan library yang digunakan sebelum melakukan uji normalitas Jarque Bera.
  • residuals(anova) merupakan function untuk menghitung sisaan yang disimpan pada objek sisa.
  • jarque.bera.test(sisa) merupakan function untuk menguji normalitas residual/sisaan data dengan menggunakan uji Jarque Bera.

2.6.2 Uji Nonheteroskedastisitas

> #Uji Levene
> library(car)
> leveneTest(count~spray, data=InsectSprays)
Levene's Test for Homogeneity of Variance (center = median)
      Df F value   Pr(>F)   
group  5  3.8214 0.004223 **
      66                    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
  • library(car) merupakan library yang digunakan sebelum melakukan uji Levene.
  • leveneTest merupakan function untuk menguji kehomogenan ragam dengan menggunakan uji Levene.

2.7 Uji Kruskall Wallis

> #Kruskall Wallis
> kruskal.test(count~spray, InsectSprays)

    Kruskal-Wallis rank sum test

data:  count by spray
Kruskal-Wallis chi-squared = 54.691, df = 5, p-value = 1.511e-10
  • kruskall.test merupakan function yang digunakan untuk analisis Kruskall-Wallis.
  • InsectSprays merupakan data yang digunakan untuk analisis Kruskall-Wallis.

2.8 Uji Lanjut

> library(FSA)
> Uji_Dunn = dunnTest(count~spray, InsectSprays, method = "bonferroni")
> Uji_Dunn
   Comparison           Z      P.unadj        P.adj
1       A - B -0.31273385 7.544829e-01 1.000000e+00
2       A - C  4.77407761 1.805328e-06 2.707991e-05
3       B - C  5.08681145 3.641335e-07 5.462003e-06
4       A - D  3.11756552 1.823514e-03 2.735271e-02
5       B - D  3.43029937 6.029157e-04 9.043735e-03
6       C - D -1.65651209 9.761816e-02 1.000000e+00
7       A - E  3.85053547 1.178599e-04 1.767898e-03
8       B - E  4.16326932 3.137230e-05 4.705845e-04
9       C - E -0.92354214 3.557248e-01 1.000000e+00
10      D - E  0.73296995 4.635768e-01 1.000000e+00
11      A - F -0.40557671 6.850536e-01 1.000000e+00
12      B - F -0.09284286 9.260284e-01 1.000000e+00
13      C - F -5.17965431 2.222975e-07 3.334462e-06
14      D - F -3.52314223 4.264624e-04 6.396937e-03
15      E - F -4.25611218 2.080124e-05 3.120186e-04
  • library(FSA) merupakan library yang digunakan sebelum melakukan uji Dunn-Bonferroni.
  • dunnTest merupakan function yang digunakan untuk uji Dunn-Bonferroni.
  • method = "bonferroni" menyatakan metode yang digunakan pada uji Dunn-Bonferroni yaitu bonferroni.

3 HASIL DAN PEMBAHASAN

3.1 Statistika Deskriptif

Spray n min maks rata-rata simpangan baku
A 12 7 23 14,500 4,719
B 12 7 22 15,333 4,271
C 12 0 7 2,083 1,975
D 12 2 12 4,197 2,503
E 12 1 6 3,500 1,732
F 12 9 26 16,667 6,213

Berdasarkan data yang digunakan, diperoleh banyak tanaman yang digunakan pada masing-masing jenis insektisida sebanyak 12 tanaman. Banyak serangga yang terdapat pada tanaman paling banyak terjadi pada pemberian insektisida F yaitu sebanyak 26 serangga. Sedangkan pada pemberian insektisida C teramati paling sedikit tidak terdapat serangga pada tanaman. Selanjutnya, pada rerata banyak serangga dari setiap pemberian insektisida diperoleh rata-rata banyak serangga paling sedikit dipengaruhi oleh pemberian insektisida jenis C yaitu sebanyak 2,083 atau jika dibulatkan sebanyak 2 serangga, sedangkan jumlah serangga paling banyak terdapat pada tanaman yang diberikan insektisida jenis F, yaitu sebanyak 16,667 atau 17 serangga.

3.2 Visualisasi Data

> Boxplot <- boxplot(count~spray, data=InsectSprays,
+         main = "Boxplot Jenis Insektisida & Banyak Serangga", col= "burlywood3")

Berdasarkan hasil visualisasi data dengan menggunakan boxplot dapat dilihat bahwa terdapat perbedaan rata-rata banyak serangga pada masing-masing pemberian insektisida yang berbeda. Namun, untuk memberikan hasil yang lebih akurat akan dilakukan analisis.

3.3 Asumsi

3.3.1 Uji Normalitas

Uji normalitas digunakan untuk menguji apakah residual data berdistribusi normal. Pada uji normalitas dilakukan dengan uji Jarque-Bera. Hipotesis yang digunakan adalah sebagai berikut.
H0: Residual berdistribusi normal
H1: Residual tidak berdistribusi normal
alpha = 5%

Hasil uji normalitas disajikan pada tabel berikut.

Uji P-value
Jarque Bera 0,2981

Berdasarkan tabel uji normalitas di atas diperoleh p-value sebesar 0,2981 yang mana lebih besar dari alpha 5%, maka H0 diterima. Sehingga dapat disimpulkan bahwa tidak terjadi pelanggaran asumsi normalitas.

3.3.2 Uji Nonheteroskedastisitas

Hipotesis yang digunakan adalah sebagai berikut.
H0: Varian data homogen
H1: Varian data heterogen
alpha = 5%

Hasil pengujian disajikan pada tabel berikut.

Uji P-value
Levene 0,004223

Berdasarkan tabel di atas diperoleh p-value sebesar 0,004223 yang mana lebih kecil dari alpha 5%, maka H0 ditolak. Sehingga dapat disimpulkan bahwa terjadi pelanggaran asumsi keragaman antar perlakuan.

Berdasarkan kedua pengujian asumsi yang telah diuji sebelumnya, diperoleh bahwa data memenuhi asumsi normalitas, namun tidak memenuhi asumsi homogenitas ragam sehingga analisis yang dapat dilakukan adalah dengan menggunakan uji Kruskall-Wallis sebagai uji alternatif bagi analisis One Way ANOVA.

3.4 Uji Kruskall-Wallis

Uji Kruskal-Wallis digunakan untuk membandingkan ukuran pemusatan lebih dari dua populasi. Penggunaan uji Kruskall-Wallis pada analisis ini dikarenakan tidak terpenuhinya asumsi kehomogenan ragam yang telah dilakukan sebelumnya. Pada analisis ini, uji Kruskall-Wallis digunakan untuk mengetahui pengaruh pemberian 6 jenis insektisida terhadap banyak serangga pada unit percobaan pertanian. Hipotesis yang akan diuji adalah sebagai berikut.

H0: tidak terdapat perbedaan pengaruh yang signifikan antara berbagai jenis pemberian insektisida terhadap banyaknya serangga pada unit percobaan pertanian
H1: terdapat minimal satu perbedaan pengaruh yang signifikan antara berbagai jenis pemberian insektisida terhadap banyaknya serangga pada unit percobaan pertanian

Tingkat signifikansi yang digunakan adalah 5%. Hasil pengujian disajikan pada tabel berikut.

Uji P-value
Kruskall Wallis 1,511 x e-10

Berdasarkan tabel di atas, diperoleh p-value sebesar 1,511 x e-10 lebih kecil dari alpha 5% maka H0 ditolak. Dengan demikian, dapat disimpulkan bahwa pada taraf signifikan 5% terdapat minimal satu perbedaan pengaruh yang signifikan antara berbagai jenis pemberian insektisida terhadap banyaknya serangga pada unit percobaan pertanian. Oleh karena itu, uji lanjut diperlukan untuk mengetahui letak perbedaan tersebut dengan menggunakan uji Bonferroni-Dunn.

3.5 Uji Lanjut

Pada hasil analisis menggunakan Uji Kruskall Wallis terjadi penolakan terhadap hipotesis nol. Oleh karena itu akan dilanjutkan dengan melakukan uji lanjut untuk mengetahui perbedaan pengaruh masing-masing jenis insektisida berbeda. Uji lanjut yang digunakan adalah uji lanjut Dunn-Bonferroni dengan hasil yang disajikan pada tabel berikut.

Insektisida A B C D E
B 1,00 - - - -
C 2,71x10-5 5,46x10-6 - - -
D 2,74x10-2 9,04x10-3 1,00 - -
E 1,77x10-3 4,71x10-4 1,00 1,00 -
F 1,00 1,00 3,33x10-6 6,40x10-3 3,12x10-4

Berdasarkan tabel di atas dapat diambil kesimpulan bahwa:

  • Rata-rata banyak serangga dengan pemberian Insektisida jenis A tidak berbeda signifikan dengan rata-rata banyak serangga dengan pemberian insektisida jenis B dan F dengan p-value sebesar 1 yang mana lebih besar dari tingkat signifikansi 5%. Namun, berbeda secara signifikan dengan insektisida jenis C, D, dan E.
  • Rata-rata banyak serangga dengan pemberian insektisida jenis B berbeda signifikan dengan rata-rata banyak serangga dengan pemberian semua jenis insektisida kecuali pada insektisida jenis A.
  • Rata-rata banyak serangga dengan pemberian insektisida jenis C tidak berbeda signifikan dengan rata-rata banyak serangga dengan pemberian insektisida jenis D dan E.

4 DAFTAR PUSTAKA

  • Andadari, T. susetyo. (2021). Kualitas Simulasi Interior Lighting Berbasis Persepsi Pengguna. ALUR : Jurnal Arsitektur, 4(1), 24–28. https://doi.org/10.54367/alur.v4i1.1046
  • Atmaja, dkk. 2020. Statistik Deskriptif. Tangerang Selatan: Unpam Press.
  • Fitria, Nursyifa Rahma, dan Imas Arumsari. 2021. Manajemen Data untuk Survei Gizi. Bandung: MEDIA SAINS INDONESIA.
  • Ismail, Fajri. 2018. Statistika untuk Penelelitian Pendidikan dan Ilmu-ilmu Sosial. Jakarta: Prenadamedia Group.
  • Nugroho, S. 2008. Statistika Nonparametrik. Bengkulu: UNIB Press.
  • Silvia, Vivi. 2020. Statistika Deskriptif. Yogyakarta: Penerbit ANDI.
  • Sunjoyo, dkk. 2013. Aplikasi SPSS untuk Smart Riser. Bandung: ALFABETA.
  • Yamin, Sofyan. 2021. Ebook Statistik Tutorial Statistik SPSS, LISREL, WARPPLS, & JASP (Mudah & Aplikatif). Depok: PT Dewangga Energi Internasional.

.