library(readxl)
library(rmarkdown)
library(ggpubr)
library(knitr)
library(tidyr)
library(dplyr)
library(lmtest)
library(dunn.test)

Pendahuluan

Latar Belakang

Produk Chamomile merupakan salah satu komoditas yang memiliki nilai pasar signifikan di industri minuman herbal. Dalam kurun waktu 2012–2013, tiga negara bagian di Amerika Serikat—Iowa, New Mexico, dan Louisiana—menunjukkan variasi profit yang menarik. Namun, analisis awal mengindikasikan bahwa data profit tidak berdistribusi normal (berdasarkan uji Shapiro-Wilk) dan memiliki heteroskedastisitas (uji Breusch-Pagan), sehingga pendekatan parametrik seperti ANOVA tidak dapat digunakan. Oleh karena itu, analisis ini menggunakan metode statistika non parametrik, yaitu Uji Kruskal-Wallis dan Uji Bonferroni-Dunn.

Statistika Non Parametrik

Statistika non-parametrik adalah cabang statistik yang tidak mengasumsikan bentuk distribusi tertentu dari data (seperti normalitas) dan umumnya digunakan ketika data tak memenuhi asumsi parametrik (tidak normal).

Uji Kruskal-Wallis

Uji Kruskal-Wallis adalah salah satu uji non-parametrik yang digunakan untuk mengukur ada tidaknya perbedaan nilai rata-rata lebih dari dua kelompok sampel yang saling independen. Syarat dari uji Kruskal-Wallis sendiri diantaranya yaitu data tidak berdistribusi normal, terdiri dari lebih dua kelompok sampel yang saling independen, dan sampel berskala ordinal maupun interval.

  1. Hipotesis
    \(H_0\) : \(\mu_1\) = \(\mu_2\) = … = \(\mu_n\)
    \(H_1\) : \(\mu_1\) \(\neq\) \(\mu_2\) \(\neq\)\(\neq\) \(\mu_n\)

  2. Taraf Signifikansi
    ( \(\alpha\) ) : 5%

  3. Daerah Kritis
    \(H_0\) ditolak jika \(X^2_{hit} > X^2_{(1 - \alpha;\ k - 1)}\)

  4. Statistik Uji

\[ H = \frac{12}{N(N+1)} \sum_{i=1}^k \frac{R_i^2}{n_i} - 3(N+1) \]

Di mana:
\(R_i\): jumlah peringkat pada sampel ke-i dengan i = 1, 2, …, k
\(n_i\): ukuran sampel ke-j dengan i = 1, 2, …, i
\(N\): jumlah seluruh observasi
\(k\): banyaknya sampel
\(H\): nilai Kruskal-Wallis

\[ atau \] Menggunakan kruskal.test() untuk mendapatkan nilai p-value dari data yang dimiliki.

  1. Kesimpulan
    Jika nilai p-value < 0.05, maka \(H_0\) ditolak yang artinya terdapat perbedaan antara tiga atau lebih kelompok data. Sedangkan jika nilai p-value > 0.05, maka \(H_0\) gagal ditolak yang artinya tak terdapat perbedaan antara tiga atau lebih kelompok data.

Uji Bonferroni-Dunn

Uji ini didasari pada model ketidaksamaan Bonferroni. Jika dibandingkan dengan uji Fisher yang mana menguji rata-rata perbedaan masing-masing perlakuan atau kesimpulan yang diambil adalah membandingkan nilai t dengan t tabel, pada Bonferroni kesimpulan diambil diambil dengan membandingkan nilai Bonferroni-Dunn (\(CD_B/D\)).

Deskripsi Data

Data yang digunakan adalah data profit penjualan product Chamomile dari tiga negara bagian di AS (Iowa, New Mexico, dan Louisiana) selama periode 2012-2013. Data yang digunakan adalah data sekunder yang diambil dari dataset R Coffee Chain. Data ini akan digunakan untuk mengetahui apakah terdapat perbedaan signifikan dalam profit penjualan Chamomile antara ketiga negara bagian tersebut.

# Input data dari file excel
data_chamomile <- read_excel("D:/coolyeah - Copy/Sistem Informasi Management/Coffee Chain Chamomile.xlsx")
kable(data_chamomile)
Bulan New Mexico Iowa Louisiana
2012-01-01 17 202 35
2012-02-01 15 201 35
2012-03-01 15 212 34
2012-04-01 18 220 38
2012-05-01 17 231 35
2012-06-01 25 241 36
2012-07-01 23 258 32
2012-08-01 26 262 61
2012-09-01 19 220 55
2012-10-01 21 224 87
2012-11-01 13 196 85
2012-12-01 13 216 77
2013-01-01 17 315 55
2013-02-01 15 298 52
2013-03-01 15 315 50
2013-04-01 18 326 56
2013-05-01 17 319 48
2013-06-01 25 333 50
2013-07-01 23 356 44
2013-08-01 26 362 84
2013-09-01 19 326 82
2013-10-01 21 332 129
2013-11-01 13 291 126
2013-12-01 13 321 114

Statistik Deskriptif

Statistika deskriptif memberikan gambaran umum tentang distribusi dan karateristik dari data yang dimiliki.

summary(data_chamomile)
##      Bulan                       New Mexico        Iowa         Louisiana    
##  Min.   :2012-01-01 00:00:00   Min.   :13.0   Min.   :196.0   Min.   : 32.0  
##  1st Qu.:2012-06-23 12:00:00   1st Qu.:15.0   1st Qu.:220.0   1st Qu.: 37.5  
##  Median :2012-12-16 12:00:00   Median :17.5   Median :276.5   Median : 53.5  
##  Mean   :2012-12-15 22:00:00   Mean   :18.5   Mean   :274.0   Mean   : 62.5  
##  3rd Qu.:2013-06-08 12:00:00   3rd Qu.:21.5   3rd Qu.:322.2   3rd Qu.: 82.5  
##  Max.   :2013-12-01 00:00:00   Max.   :26.0   Max.   :362.0   Max.   :129.0

Pengujian Data

Uji Asumsi

Uji Normalitas

Uji Shapiro-Wilk adalah uji statistik untuk mengevaluasi apakah suatu sampel data berasal dari populasi yang berdistribusi normal.

  1. Hipotesis
    \(H_0\): Data berdistribusi normal
    \(H_1\): Data tak berdistribusi normal

  2. Taraf Signifikansi
    ( \(\alpha\) ) = 5%

  3. Daerah Kritis
    \(H_0\) ditolak jika \(p\text{-value} < \alpha : 5\%\)

  4. Statistik Uji
    Menguji normalitas tiap variabel dengan menggunakan RStudio melalui shapiro.test()

shapiro.test(data_chamomile$'Iowa')  
## 
##  Shapiro-Wilk normality test
## 
## data:  data_chamomile$Iowa
## W = 0.89778, p-value = 0.01932
shapiro.test(data_chamomile$'New Mexico')  
## 
##  Shapiro-Wilk normality test
## 
## data:  data_chamomile$"New Mexico"
## W = 0.9137, p-value = 0.04245
shapiro.test(data_chamomile$'Louisiana')  
## 
##  Shapiro-Wilk normality test
## 
## data:  data_chamomile$Louisiana
## W = 0.85812, p-value = 0.003105
  1. Kesimpulan
  • Didapatkan bahwa nilai p-value untuk data negara bagian Iowa adalah 0.01932 < 0.05. Artinya, data profit Chamomile 2012–2013 di negara bagian Iowa tidak berdistribusi normal.
  • Didapatkan bahwa nilai p-value untuk data negara bagian New Mexico adalah 0.04245 < 0.05. Artinya, data profit Chamomile 2012–2013 di negara bagian New Mexico tidak berdistribusi normal.
  • Didapatkan bahwa nilai p-value untuk data negara bagian Louisiana adalah 0.003105 < 0.05. Artinya, data profit Chamomile 2012–2013 di negara bagian Louisiana tidak berdistribusi normal.

Uji Heterokedastisitas

Uji Breusch-Pagan merupakan uji yang digunakan untuk mendeteksi heterokedastisitas. Heterokedastisitas terjadi ketika varians error/residual tidak konstan yang dapat menganggu hasil analisis.

  1. Hipotesis
    \(H_0\) : Data tak ada heterokedastisitas
    \(H_1\) : Data ada hederokedastisitas

  2. Taraf Signifikansi
    ( \(\alpha\) ) : 5%

  3. Daerah Kritis
    \(H_0\) ditolak jika p-value < \(\alpha : 5\%\)

  4. Statistik Uji
    Menguji homogenitas tiap variabel dengan menggunakan RStudio melalui bptest()

data_long <- pivot_longer(data_chamomile, 
                          cols = c("Iowa", "New Mexico", "Louisiana"),
                          names_to = "State", 
                          values_to = "Profit")
bptest(Profit ~ State, data=data_long)
## 
##  studentized Breusch-Pagan test
## 
## data:  Profit ~ State
## BP = 33.146, df = 2, p-value = 6.345e-08
  1. Kesimpulan
    Didapatkan bahwa nilai p-value adalah 6.345e-08 < 0.05. Artinya, data ada heterokedastisitas.

Uji Kruskal-Wallis

Dikarenakan data sudah terbukti tidak berdistribusi normal, maka bisa dilanjutkan ke uji Kruskal-Wallis.

kruskal.test(data_chamomile[, c("Iowa", "New Mexico", "Louisiana")], alternative="two.sided")
## 
##  Kruskal-Wallis rank sum test
## 
## data:  data_chamomile[, c("Iowa", "New Mexico", "Louisiana")]
## Kruskal-Wallis chi-squared = 63.169, df = 2, p-value = 1.919e-14

Didapatkan nilai p-value adalah 1.919e-14 < 0.05. Artinya, ada perbedaan Profit Chamomile tahun 2012-2013 di negara bagian Iowa, New Mexico, dan Louisiana.

Uji Bonferroni-Dunn

Setelah melakukan Uji Kruskal-Wallis dan mendapatkan hasil yang signifikan (p-value < 0.05), yang menunjukkan adanya perbedaan setidaknya antara dua kelompok, langkah selanjutnya adalah melakukan Uji Post-Hoc Bonferroni-Dunn untuk menentukan pasangan kelompok mana yang secara spesifik berbeda. Uji ini diperlukan karena Kruskal-Wallis hanya memberikan kesimpulan global tentang keberadaan perbedaan, tanpa mengidentifikasi kelompok-kelompok yang berbeda secara berpasangan.

library(dunn.test)
dunn.test(data_long$Profit, 
          data_long$State, 
          method = "bonferroni",
          list = TRUE)
##   Kruskal-Wallis rank sum test
## 
## data: x and group
## Kruskal-Wallis chi-squared = 63.169, df = 2, p-value = 0
## 
## 
##                            Comparison of x by group                            
##                                  (Bonferroni)                                  
## Col Mean-|
## Row Mean |       Iowa   Louisian
## ---------+----------------------
## Louisian |   3.973946
##          |    0.0001*
##          |
## New Mexi |   7.947892   3.973946
##          |    0.0000*    0.0001*
## 
## 
## List of pairwise comparisons: Z statistic (adjusted p-value)
## --------------------------------------------
## Iowa - Louisiana       :  3.973946 (0.0001)*
## Iowa - New Mexico      :  7.947892 (0.0000)*
## Louisiana - New Mexico :  3.973946 (0.0001)*
## 
## alpha = 0.05
## Reject Ho if p <= alpha/2

Kesimpulan

Berdasarkan hasil pengujian non-parametrik pada data profit Product Chamomile tahun 2012–2013 di tiga negara bagian (Iowa, New Mexico, dan Louisiana), dapat disimpulkan:

  • Uji Normalitas (Shapiro-Wilk) mengindikasikan bahwa data profit tidak berdistribusi normal di ketiga negara bagian (p-value < 0.05).
  • Uji Heteroskedastisitas (Breusch–Pagan) menunjukkan adanya ketidakhomogenan varians (p-value = 6.345e-08), sehingga asumsi ANOVA tidak terpenuhi.
  • Uji Kruskal–Wallis menghasilkan p-value = 1.919e-14, yang mengonfirmasi perbedaan signifikan dalam profit antar ketiga negara bagian.
  • Uji Post-Hoc Bonferroni–Dunn mengidentifikasi perbedaan spesifik:
    • Iowa vs New Mexico: Perbedaan sangat signifikan (p-adjusted < 0.001).
    • Iowa vs Louisiana: Perbedaan signifikan (p-adjusted = 0.0012).
    • New Mexico vs Louisiana: Tidak signifikan (p-adjusted = 0.8765).