Distribusi Chi-Kuadrat (χ²) adalah distribusi probabilitas yang diperoleh dari penjumlahan kuadrat beberapa variabel acak normal standar yang saling bebas. Jika \(Z_1, Z_2, \dots, Z_k\) ~ N(0,1) saling bebas, maka
\[ \chi^2 = Z_1^2 + Z_2^2 + \dots + Z_k^2 \]
mengikuti distribusi Chi-Kuadrat dengan derajat kebebasan \(k\).
Beberapa ukuran statistik deskriptif untuk distribusi Chi-Kuadrat adalah sebagai berikut:
\[ \mu_x = E(X) = \nu \]
\[ \sigma_x^2 = 2\nu \]
\[ \beta_1 = \alpha_3^2 = \frac{8}{\nu} \]
\[ \beta_2 = \alpha_4 = 3\left(\frac{4}{\nu} + 1\right) \]
Untuk tabel 2×2 dengan sel:
Kolom 1 | Kolom 2 | Jumlah | |
---|---|---|---|
Baris1 | a | b | a+b |
Baris2 | c | d | c+d |
Jumlah | a+c | b+d | n = a+b+c+d |
Statistik χ² dapat dihitung manual (untuk 2×2) sebagai:
\[ \chi^2 = \frac{n(ad - bc)^2}{(a+b)(c+d)(a+c)(b+d)} \]
Namun di R biasanya digunakan fungsi chisq.test()
untuk
menghitung χ² (dengan atau tanpa koreksi Yates).
Pada penelitian tentang hubungan merokok dengan CHD (Coronary Heart Disease) pada 110 laki-laki diperoleh data:
Uji apakah terdapat perbedaan bermakna antara kelompok merokok dan tidak merokok terhadap kejadian CHD pada α = 0.05.
Berikut diagram yang menunjukkan perbandingan jumlah penderita CHD dan Non-CHD antara kelompok merokok dan tidak merokok:
# Data berdasarkan soal
tbl <- matrix(c(35,20,25,30), nrow = 2, byrow = TRUE)
rownames(tbl) <- c("CHD", "Non-CHD")
colnames(tbl) <- c("Merokok", "Tidak Merokok")
# Ubah ke data frame panjang agar bisa diplot dengan ggplot2
library(ggplot2)
df <- as.data.frame(tbl)
df$Status <- rownames(tbl)
df_long <- reshape2::melt(df, id.vars = "Status",
variable.name = "Kebiasaan",
value.name = "Frekuensi")
# Diagram batang (bar chart)
ggplot(df_long, aes(x = Kebiasaan, y = Frekuensi, fill = Status)) +
geom_bar(stat = "identity", position = "dodge", width = 0.6) +
labs(title = "Hubungan CHD dengan Kebiasaan Merokok",
x = "Kebiasaan",
y = "Frekuensi (Jumlah Orang)") +
theme_minimal(base_size = 13) +
scale_fill_manual(values = c("#FF6666", "#66B2FF"))