Kelompok Chi-Square

1. Studi Kasus

Seorang dosen ingin mengevaluasi hasil kuis yang diberikan kepada tiga kelas Program Studi Statistika yaitu kelas A, kelas B, dan kelas C. Data skor kuis untuk setiap kelas terdiri dari 30 skor kuis mahasiswa, yang dibangkitkan menggunakan distribusi Chi-Square dengan derajat kebebasan yang berbeda-beda untuk mencerminkan karakteristik kelas yang bervariasi. Muncul pertanyaan spesifik: Apakah proporsi mahasiswa dengan variasi tinggi di kelas A lebih dari 30%?

2. Dataset

Membangkitkan Data

Untuk membangkitkan data, kita menggunakan set.seed() untuk mendapatkan hasil acak yang sama.

# Membangkitkan Skor Kuis dari Kelas A
set.seed(123)
kelas_A <- rchisq (30, 3)
kelas_A
##  [1]  1.03611518  5.08870916  0.04818784  2.26693313  6.90085393  3.02805429
##  [7]  8.96365401 10.25291596  3.24894708  2.50479854  0.45230213  3.11962851
## [13]  1.94459775  1.38625776  0.80785875  4.71432454  1.71978254  2.31850789
## [19]  0.37140397  1.41110522  1.45339062  1.74955219  3.98065990  3.61439321
## [25]  3.26124769  1.87809311  2.61415218  0.30380078  1.60578024  1.68557474
# Membangkitkan Skor Kuis dari Kelas B
set.seed(123)
kelas_B <- rchisq (30, 5)
kelas_B
##  [1]  2.5718020  8.0747086  0.6485141  4.3740386 10.3216603  5.4098898
##  [7]  1.2220565  0.6062728  8.2114143  5.0824402  5.2138617  4.3191833
## [13]  2.5823235  8.5003495  6.6757373  3.8440466  2.7745098  3.4127394
## [19]  1.6243638  3.7620351  0.6517781  1.3825887  1.4285405  3.1459618
## [25]  3.2089454  3.6423449  6.6612800  6.1848815  5.7201281  3.8268038
# Membangkatkan Skor Kuis dari Kelas C
set.seed(123)
kelas_C <- rchisq (30, 4)
kelas_C
##  [1] 1.7841871 6.6236948 0.2887499 3.3250466 8.6717580 4.2352314 0.7014354
##  [8] 0.2608002 6.7475639 3.9460933 4.0619944 3.2772415 1.7929525 7.0097153
## [15] 5.3629094 2.8651482 1.9536682 2.4945389 1.0131552 2.7944052 0.2909292
## [22] 0.8242572 0.8598231 2.2672431 2.3207590 2.6913834 5.3499522 4.9239299
## [29] 4.5102280 2.8502644

Menggabungkan Data

skor_kuis <- c(kelas_A, kelas_B, kelas_C)
kelas <- factor (rep(c("Kelas A", "Kelas B", "Kelas C"), each=30))
data <- data.frame (
  kelas_A = kelas_A,
  kelas_B = kelas_B,
  kelas_C = kelas_C
)
data
##        kelas_A    kelas_B   kelas_C
## 1   1.03611518  2.5718020 1.7841871
## 2   5.08870916  8.0747086 6.6236948
## 3   0.04818784  0.6485141 0.2887499
## 4   2.26693313  4.3740386 3.3250466
## 5   6.90085393 10.3216603 8.6717580
## 6   3.02805429  5.4098898 4.2352314
## 7   8.96365401  1.2220565 0.7014354
## 8  10.25291596  0.6062728 0.2608002
## 9   3.24894708  8.2114143 6.7475639
## 10  2.50479854  5.0824402 3.9460933
## 11  0.45230213  5.2138617 4.0619944
## 12  3.11962851  4.3191833 3.2772415
## 13  1.94459775  2.5823235 1.7929525
## 14  1.38625776  8.5003495 7.0097153
## 15  0.80785875  6.6757373 5.3629094
## 16  4.71432454  3.8440466 2.8651482
## 17  1.71978254  2.7745098 1.9536682
## 18  2.31850789  3.4127394 2.4945389
## 19  0.37140397  1.6243638 1.0131552
## 20  1.41110522  3.7620351 2.7944052
## 21  1.45339062  0.6517781 0.2909292
## 22  1.74955219  1.3825887 0.8242572
## 23  3.98065990  1.4285405 0.8598231
## 24  3.61439321  3.1459618 2.2672431
## 25  3.26124769  3.2089454 2.3207590
## 26  1.87809311  3.6423449 2.6913834
## 27  2.61415218  6.6612800 5.3499522
## 28  0.30380078  6.1848815 4.9239299
## 29  1.60578024  5.7201281 4.5102280
## 30  1.68557474  3.8268038 2.8502644

3. Statistika Deskriptif

Statistika deskriptif merupakan cara untuk merangkum dan menampilkan data agar lebih mudah dipahami, biasanya menggunakan visualisasi seperti tabel, grafik, ataupun perhitungan sederhana (rata-rata, median, variansi, standard deviasi, dll).

Summary

summary (data)
##     kelas_A            kelas_B           kelas_C      
##  Min.   : 0.04819   Min.   : 0.6063   Min.   :0.2608  
##  1st Qu.: 1.42168   1st Qu.: 2.5744   1st Qu.:1.7864  
##  Median : 2.10576   Median : 3.7944   Median :2.8223  
##  Mean   : 2.79105   Mean   : 4.1695   Mean   :3.2033  
##  3rd Qu.: 3.25817   3rd Qu.: 5.6426   3rd Qu.:4.4415  
##  Max.   :10.25292   Max.   :10.3217   Max.   :8.6718
sd_A <- sd(kelas_A)
sd_B <- sd(kelas_B)
sd_C <- sd(kelas_C)
var_A <- var(kelas_A)
var_B <- var(kelas_B)
var_C <- var(kelas_C)
cat (" sd_A:", sd_A, "var_A:", var_A, "\n",
     "sd_B:", sd_B, "var_B:", var_B, "\n",
     "sd_C:", sd_C, "var_C:", var_C, "\n"
)
##  sd_A: 2.400227 var_A: 5.76109 
##  sd_B: 2.551657 var_B: 6.510952 
##  sd_C: 2.206585 var_C: 4.869016

Mahasiswa kelas A mempunyai rata-rata skor kuis paling rendah yaitu 2.79105 dan mahasiswa kelas B mempunyai rata-rata skor kuis paling tinggi yaitu 4.1695. Untuk skor kuis mahasiswa kelas B mempunyai data yang lebih menyebar dibandingkan skor kuis mahasiswa kelas lainnya.

Visualisasi

boxplot(skor_kuis ~ kelas, data = kelas,
        main = "Perbedaan Variasi Skor Kuis Mahasiswa Antar Kelas",
        xlab = "Kelas",
        ylab = "Variasi Skor Kuis",
        col = c("maroon", "lightblue", "pink"))

Dari boxplot di atas, dapat dilihat bahwa data skor kuis setiap kelas mempunyai outlier/pencilan.

Kelas A

hist(kelas_A, col = "maroon",
      main = "Histogram Skor Kuis Kelas A",
      xlab = "Skor Kuis Kelas A")

Kelas B

hist(kelas_B, col = "lightblue",
      main = "Histogram Skor Kuis Kelas B",
      xlab = "Skor Kuis Kelas B")

Kelas C

hist(kelas_C, col = "pink",
      main = "Histogram Skor Kuis Kelas C",
      xlab = "Skor Kuis Kelas C")

4. Uji Hipotesis Tambahan (Proporsi)

Dalam uji hipotesis tambahan, kami menggunakan prop.test() karena data yang digunakan saat ini yaitu data Chi-Square.

# Mengasumsikan bahwa nilai variasi tinggi > 8
variasi_tinggiA <- sum(kelas_A > 8)
variasi_tinggiA
## [1] 2
# Menentukan total mahasiswa di kelas A
total_A <- length(kelas_A)
total_A
## [1] 30
# Uji proporsi pada kelas A
# H0: Tidak benar bahwa proporsi mahasiswa dengan variasi tinggi di kelas A > 30%
# H1: Benar bahwa proporsi mahasiswa dengan variasi tinggi di kelas A > 30%
prop.test (x = variasi_tinggiA, n = total_A, p=0.3, alternative = "greater")
## 
##  1-sample proportions test with continuity correction
## 
## data:  variasi_tinggiA out of total_A, null probability 0.3
## X-squared = 6.7063, df = 1, p-value = 0.9952
## alternative hypothesis: true p is greater than 0.3
## 95 percent confidence interval:
##  0.01432069 1.00000000
## sample estimates:
##          p 
## 0.06666667

Didapatkan bahwa p-value > 0.05 yaitu 0.9952, artinya kita gagal menolak H0. Dengan demikian, tidak ada cukup bukti untuk menyatakan bahwa proporsi mahasiswa dengan variasi tinggi di kelas A lebih dari 30%.

5. Analysis of Variance (ANOVA)

# Membuat faktor untuk menandakan setiap kelas dengan data yang dimiliki sebanyak 30 data
# H0: Tidak terdapatt perbedaan rata-rata variasi yang signifikan antar kelas
# H1: Terdapat perbedaan rata-rata variasi yang signifikan antar kelas
model_anova <- aov (skor_kuis ~ kelas)
summary (model_anova)
##             Df Sum Sq Mean Sq F value Pr(>F)  
## kelas        2   30.0  15.018   2.628 0.0779 .
## Residuals   87  497.1   5.714                 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

aov(skor_kuis ~ kelas) merupakan fungsi untuk menguji rata-rata skor kuis berbeda signifikan atau tidak antar kelas. summary(model_anova) merupakan fungsi untuk menampilkan hasil uji ANOVA dalam bentuk tabel. Df = derajat kebebasan (antar kelas = 2, residual = 87). Sum Sq = jumlah kuadrat (variabilitas). Mean Sq = rata-rata jumlah kuadrat. F value = statistik uji ANOVA. Pr(>F) = p-value (tingkat signifikansi). Karena disini p-value > alpha (0,05) maka, H0 diterima artinya tidak ada perbedaan rata-rata variasi yang signifikan antar kelas.

6. TukeyHSD

Fungsi ini digunakan setelah uji lanjut ANOVA ternyata terdapat perbedaan signifikan. Ini berguna untuk melihat variabel mana yang memiliki perbedaan yang signifikan.

TukeyHSD (model_anova)
##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = skor_kuis ~ kelas)
## 
## $kelas
##                       diff         lwr       upr     p adj
## Kelas B-Kelas A  1.3784539 -0.09320166 2.8501094 0.0712059
## Kelas C-Kelas A  0.4122492 -1.05940634 1.8839048 0.7826599
## Kelas C-Kelas B -0.9662047 -2.43786024 0.5054509 0.2660351

Parameter (model_anova) merupakan model ANOVA yang telah dibuat sebelumnya. diff (different) merupakan selisih rata-rata antar kelas. lwr & upr (lower & upper) merupakan batas bawah dan batas atas dari interval kepercayaan 95%. p adj (Adjusted p-value) mrupakan p-value hasil uji Tukey dengan penyesuaian antar kelas.

Tidak terdapat perbedaan rata-rata variasi kuis yang signifikan antar kelas baik itu kelas B dan kelas A (0.0808066 > 0.05), kelas C dan kelas A (0.3577985 > 0.05), kelas C dan kelas B (0.7033128 > 0.05). Jadi dapat dikatakan bahwa data di atas tidak perlu menggunakan Uji Lanjut Tukey, karena data yang dimiliki tidak terdapat perbedaan yang signifikan antara rata-rata variasi skor tiap kelas.

Kesimpulan

Meskipun secara deskriptif rata-rata skor kuis menunjukkan sedikit perbedaan antar kelas, hasil uji ANOVA menunjukkan bahwa perbedaan ini tidak signifikan secara statistik. Hal ini diperkuat oleh Uji Lanjut Tukey HSD, yang membandingkan setiap pasangan kelas (A vs B, B vs C, A vs C) dan menemukan bahwa tidak ada satupun pasangan yang memiliki perbedaan rata-rata skor yang signifikan secara statistik. Artinya, kita tidak memiliki cukup bukti untuk menyatakan bahwa ada kelas yang secara akademis lebih unggul dari yang lain berdasarkan hasil kuis ini.

Uji hipotesis tambahan dilakukan untuk menjawab pertanyaan spesifik: “Apakah proporsi mahasiswa dengan skor tinggi di kelas A lebih dari 30%?”. Ditemukan bahwa proporsi sampel di Kelas A adalah 6.7%. Namun, hasil uji proporsi (prop.test) menghasilkan p-value sebesar 0.9952. Karena nilai p-value ini jauh lebih besar dari tingkat signifikansi 0.05, kita gagal menolak hipotesis nol. Kesimpulannya, tidak ada cukup bukti statistik untuk mendukung klaim bahwa proporsi mahasiswa berprestasi di Kelas A lebih dari 30%.