library(readxl)
library(rmarkdown)
library(ggpubr)
library(knitr)
library(tidyr)
library(dplyr)
library(lmtest)
library(dunn.test)
Produk Chamomile merupakan salah satu komoditas yang memiliki nilai pasar signifikan di industri minuman herbal. Dalam kurun waktu 2012–2013, tiga negara bagian di Amerika Serikat—Iowa, New Mexico, dan Louisiana—menunjukkan variasi profit yang menarik. Namun, analisis awal mengindikasikan bahwa data profit tidak berdistribusi normal (berdasarkan uji Shapiro-Wilk) dan memiliki heteroskedastisitas (uji Breusch-Pagan), sehingga pendekatan parametrik seperti ANOVA tidak dapat digunakan. Oleh karena itu, analisis ini menggunakan metode statistika non parametrik, yaitu Uji Kruskal-Wallis dan Uji Bonferroni-Dunn.
Statistika non-parametrik adalah cabang statistik yang tidak mengasumsikan bentuk distribusi tertentu dari data (seperti normalitas) dan umumnya digunakan ketika data tak memenuhi asumsi parametrik (tidak normal).
Uji Kruskal-Wallis adalah salah satu uji non-parametrik yang digunakan untuk mengukur ada tidaknya perbedaan nilai rata-rata lebih dari dua kelompok sampel yang saling independen. Syarat dari uji Kruskal-Wallis sendiri diantaranya yaitu data tidak berdistribusi normal, terdiri dari lebih dua kelompok sampel yang saling independen, dan sampel berskala ordinal maupun interval.
Hipotesis
\(H_0\) : \(\mu_1\) = \(\mu_2\) = … = \(\mu_n\)
\(H_1\) : \(\mu_1\) \(\neq\) \(\mu_2\) \(\neq\) … \(\neq\) \(\mu_n\)
Taraf Signifikansi
( \(\alpha\) ) : 5%
Daerah Kritis
\(H_0\) ditolak jika \(X^2_{hit} > X^2_{(1 - \alpha;\ k -
1)}\)
Statistik Uji
\[ H = \frac{12}{N(N+1)} \sum_{i=1}^k \frac{R_i^2}{n_i} - 3(N+1) \]
Di mana:
\(R_i\): jumlah peringkat pada sampel
ke-i dengan i = 1, 2, …, k
\(n_i\): ukuran sampel ke-j
dengan i = 1, 2, …, i
\(N\): jumlah seluruh observasi
\(k\): banyaknya sampel
\(H\): nilai Kruskal-Wallis
\[ atau \] Menggunakan kruskal.test() untuk mendapatkan nilai p-value dari data yang dimiliki.
Uji ini didasari pada model ketidaksamaan Bonferroni. Jika dibandingkan dengan uji Fisher yang mana menguji rata-rata perbedaan masing-masing perlakuan atau kesimpulan yang diambil adalah membandingkan nilai t dengan t tabel, pada Bonferroni kesimpulan diambil diambil dengan membandingkan nilai Bonferroni-Dunn (\(CD_B/D\)).
Data yang digunakan adalah data profit penjualan product Chamomile dari tiga negara bagian di AS (Iowa, New Mexico, dan Louisiana) selama periode 2012-2013. Data yang digunakan adalah data sekunder yang diambil dari dataset R Coffee Chain. Data ini akan digunakan untuk mengetahui apakah terdapat perbedaan signifikan dalam profit penjualan Chamomile antara ketiga negara bagian tersebut.
# Input data dari file excel
data_chamomile <- read_excel("D:/coolyeah - Copy/Sistem Informasi Management/Coffee Chain Chamomile.xlsx")
kable(data_chamomile)
| Bulan | New Mexico | Iowa | Louisiana |
|---|---|---|---|
| 2012-01-01 | 17 | 202 | 35 |
| 2012-02-01 | 15 | 201 | 35 |
| 2012-03-01 | 15 | 212 | 34 |
| 2012-04-01 | 18 | 220 | 38 |
| 2012-05-01 | 17 | 231 | 35 |
| 2012-06-01 | 25 | 241 | 36 |
| 2012-07-01 | 23 | 258 | 32 |
| 2012-08-01 | 26 | 262 | 61 |
| 2012-09-01 | 19 | 220 | 55 |
| 2012-10-01 | 21 | 224 | 87 |
| 2012-11-01 | 13 | 196 | 85 |
| 2012-12-01 | 13 | 216 | 77 |
| 2013-01-01 | 17 | 315 | 55 |
| 2013-02-01 | 15 | 298 | 52 |
| 2013-03-01 | 15 | 315 | 50 |
| 2013-04-01 | 18 | 326 | 56 |
| 2013-05-01 | 17 | 319 | 48 |
| 2013-06-01 | 25 | 333 | 50 |
| 2013-07-01 | 23 | 356 | 44 |
| 2013-08-01 | 26 | 362 | 84 |
| 2013-09-01 | 19 | 326 | 82 |
| 2013-10-01 | 21 | 332 | 129 |
| 2013-11-01 | 13 | 291 | 126 |
| 2013-12-01 | 13 | 321 | 114 |
Statistika deskriptif memberikan gambaran umum tentang distribusi dan karateristik dari data yang dimiliki.
summary(data_chamomile)
## Bulan New Mexico Iowa Louisiana
## Min. :2012-01-01 00:00:00 Min. :13.0 Min. :196.0 Min. : 32.0
## 1st Qu.:2012-06-23 12:00:00 1st Qu.:15.0 1st Qu.:220.0 1st Qu.: 37.5
## Median :2012-12-16 12:00:00 Median :17.5 Median :276.5 Median : 53.5
## Mean :2012-12-15 22:00:00 Mean :18.5 Mean :274.0 Mean : 62.5
## 3rd Qu.:2013-06-08 12:00:00 3rd Qu.:21.5 3rd Qu.:322.2 3rd Qu.: 82.5
## Max. :2013-12-01 00:00:00 Max. :26.0 Max. :362.0 Max. :129.0
Uji Shapiro-Wilk adalah uji statistik untuk mengevaluasi apakah suatu sampel data berasal dari populasi yang berdistribusi normal.
Hipotesis
\(H_0\): Data berdistribusi
normal
\(H_1\): Data tak berdistribusi
normal
Taraf Signifikansi
( \(\alpha\) ) = 5%
Daerah Kritis
\(H_0\) ditolak jika \(p\text{-value} < \alpha : 5\%\)
Statistik Uji
Menguji normalitas tiap variabel dengan menggunakan RStudio
melalui shapiro.test()
shapiro.test(data_chamomile$'Iowa')
##
## Shapiro-Wilk normality test
##
## data: data_chamomile$Iowa
## W = 0.89778, p-value = 0.01932
shapiro.test(data_chamomile$'New Mexico')
##
## Shapiro-Wilk normality test
##
## data: data_chamomile$"New Mexico"
## W = 0.9137, p-value = 0.04245
shapiro.test(data_chamomile$'Louisiana')
##
## Shapiro-Wilk normality test
##
## data: data_chamomile$Louisiana
## W = 0.85812, p-value = 0.003105
Uji Breusch-Pagan merupakan uji yang digunakan untuk mendeteksi heterokedastisitas. Heterokedastisitas terjadi ketika varians error/residual tidak konstan yang dapat menganggu hasil analisis.
Hipotesis
\(H_0\) : Data tak ada
heterokedastisitas
\(H_1\) : Data ada
hederokedastisitas
Taraf Signifikansi
( \(\alpha\) ) : 5%
Daerah Kritis
\(H_0\) ditolak jika p-value
< \(\alpha : 5\%\)
Statistik Uji
Menguji homogenitas tiap variabel dengan menggunakan RStudio
melalui bptest()
data_long <- pivot_longer(data_chamomile,
cols = c("Iowa", "New Mexico", "Louisiana"),
names_to = "State",
values_to = "Profit")
bptest(Profit ~ State, data=data_long)
##
## studentized Breusch-Pagan test
##
## data: Profit ~ State
## BP = 33.146, df = 2, p-value = 6.345e-08
Dikarenakan data sudah terbukti tidak berdistribusi normal, maka bisa dilanjutkan ke uji Kruskal-Wallis.
kruskal.test(data_chamomile[, c("Iowa", "New Mexico", "Louisiana")], alternative="two.sided")
##
## Kruskal-Wallis rank sum test
##
## data: data_chamomile[, c("Iowa", "New Mexico", "Louisiana")]
## Kruskal-Wallis chi-squared = 63.169, df = 2, p-value = 1.919e-14
Didapatkan nilai p-value adalah 1.919e-14 < 0.05. Artinya, ada perbedaan Profit Chamomile tahun 2012-2013 di negara bagian Iowa, New Mexico, dan Louisiana.
Setelah melakukan Uji Kruskal-Wallis dan mendapatkan hasil yang signifikan (p-value < 0.05), yang menunjukkan adanya perbedaan setidaknya antara dua kelompok, langkah selanjutnya adalah melakukan Uji Post-Hoc Bonferroni-Dunn untuk menentukan pasangan kelompok mana yang secara spesifik berbeda. Uji ini diperlukan karena Kruskal-Wallis hanya memberikan kesimpulan global tentang keberadaan perbedaan, tanpa mengidentifikasi kelompok-kelompok yang berbeda secara berpasangan.
library(dunn.test)
dunn.test(data_long$Profit,
data_long$State,
method = "bonferroni",
list = TRUE)
## Kruskal-Wallis rank sum test
##
## data: x and group
## Kruskal-Wallis chi-squared = 63.169, df = 2, p-value = 0
##
##
## Comparison of x by group
## (Bonferroni)
## Col Mean-|
## Row Mean | Iowa Louisian
## ---------+----------------------
## Louisian | 3.973946
## | 0.0001*
## |
## New Mexi | 7.947892 3.973946
## | 0.0000* 0.0001*
##
##
## List of pairwise comparisons: Z statistic (adjusted p-value)
## --------------------------------------------
## Iowa - Louisiana : 3.973946 (0.0001)*
## Iowa - New Mexico : 7.947892 (0.0000)*
## Louisiana - New Mexico : 3.973946 (0.0001)*
##
## alpha = 0.05
## Reject Ho if p <= alpha/2
Berdasarkan hasil pengujian non-parametrik pada data profit Product Chamomile tahun 2012–2013 di tiga negara bagian (Iowa, New Mexico, dan Louisiana), dapat disimpulkan: