Pengertian

Distribusi Chi-Kuadrat (χ²) adalah distribusi probabilitas yang diperoleh dari penjumlahan kuadrat beberapa variabel acak normal standar yang saling bebas. Jika \(Z_1, Z_2, \dots, Z_k\) ~ N(0,1) saling bebas, maka

\[ \chi^2 = Z_1^2 + Z_2^2 + \dots + Z_k^2 \]

mengikuti distribusi Chi-Kuadrat dengan derajat kebebasan \(k\).

Sifat-sifat penting

Manfaat uji-Chi kuadrat

Distribusi Chi-Kuadrat

Beberapa ukuran statistik deskriptif untuk distribusi Chi-Kuadrat adalah sebagai berikut:

Mean (Nilai Harapan)

\[ \mu_x = E(X) = \nu \]

Varians

\[ \sigma_x^2 = 2\nu \]

Kemencengan (Skewness)

\[ \beta_1 = \alpha_3^2 = \frac{8}{\nu} \]

Keruncingan (Kurtosis)

\[ \beta_2 = \alpha_4 = 3\left(\frac{4}{\nu} + 1\right) \]

Keterangan

  • \(\nu\) : derajat kebebasan (degree of freedom)
  • \(\mu_x\) : mean (nilai harapan)
  • \(\sigma_x^2\) : varians
  • \(\beta_1\) : ukuran kemencengan
  • \(\beta_2\) : ukuran keruncingan

Rumus statistik untuk tabel 2×2 (kasus sederhana)

Untuk tabel 2×2 dengan sel:

Kolom 1 Kolom 2 Jumlah
Baris1 a b a+b
Baris2 c d c+d
Jumlah a+c b+d n = a+b+c+d

Statistik χ² dapat dihitung manual (untuk 2×2) sebagai:

\[ \chi^2 = \frac{n(ad - bc)^2}{(a+b)(c+d)(a+c)(b+d)} \]

Namun di R biasanya digunakan fungsi chisq.test() untuk menghitung χ² (dengan atau tanpa koreksi Yates).

Contoh soal

Pada penelitian tentang hubungan merokok dengan CHD (Coronary Heart Disease) pada 110 laki-laki diperoleh data:

Uji apakah terdapat perbedaan bermakna antara kelompok merokok dan tidak merokok terhadap kejadian CHD pada α = 0.05.

Analisis di R

Berikut diagram yang menunjukkan perbandingan jumlah penderita CHD dan Non-CHD antara kelompok merokok dan tidak merokok:

# Data berdasarkan soal
tbl <- matrix(c(35,20,25,30), nrow = 2, byrow = TRUE)
rownames(tbl) <- c("CHD", "Non-CHD")
colnames(tbl) <- c("Merokok", "Tidak Merokok")

# Ubah ke data frame panjang agar bisa diplot dengan ggplot2
library(ggplot2)
df <- as.data.frame(tbl)
df$Status <- rownames(tbl)
df_long <- reshape2::melt(df, id.vars = "Status",
                          variable.name = "Kebiasaan",
                          value.name = "Frekuensi")

# Diagram batang (bar chart)
ggplot(df_long, aes(x = Kebiasaan, y = Frekuensi, fill = Status)) +
  geom_bar(stat = "identity", position = "dodge", width = 0.6) +
  labs(title = "Hubungan CHD dengan Kebiasaan Merokok",
       x = "Kebiasaan",
       y = "Frekuensi (Jumlah Orang)") +
  theme_minimal(base_size = 13) +
  scale_fill_manual(values = c("#FF6666", "#66B2FF"))