Laporan ini membahas inferensi statistik pada tabel kontingensi dua arah, mencakup estimasi titik, interval kepercayaan, dan berbagai uji hipotesis (uji dua proporsi, chi-square, likelihood ratio, dan Fisher exact test). Dua kasus dianalisis: (1) hubungan status merokok dengan kejadian kanker paru (tabel 2×2), dan (2) hubungan gender dengan identifikasi partai politik (tabel 2×3).
kasus1 <- matrix(c(688, 650, 21, 59), nrow = 2, byrow = TRUE)
rownames(kasus1) <- c("Smoker", "Non-Smoker")
colnames(kasus1) <- c("Cancer (+)", "Control (-)")
addmargins(kasus1)
## Cancer (+) Control (-) Sum
## Smoker 688 650 1338
## Non-Smoker 21 59 80
## Sum 709 709 1418
\[ \hat{p}_1 = \frac{688}{1338}, \quad \hat{p}_2 = \frac{21}{80} \]
p1 <- 688/1338
p2 <- 21/80
c(p_smoker = p1, p_nonsmoker = p2)
## p_smoker p_nonsmoker
## 0.5142003 0.2625000
Proporsi kejadian kanker paru pada kelompok Smoker jauh lebih tinggi dibanding Non-Smoker.
Proporsi masing-masing kelompok (Wald CI):
\[ \hat{p} \pm z_{0.025}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \]
n1 <- 1338; n2 <- 80
se1 <- sqrt(p1*(1-p1)/n1)
se2 <- sqrt(p2*(1-p2)/n2)
CI_p1 <- p1 + c(-1,1)*1.96*se1
CI_p2 <- p2 + c(-1,1)*1.96*se2
list(CI_p1 = CI_p1, CI_p2 = CI_p2)
## $CI_p1
## [1] 0.4874195 0.5409811
##
## $CI_p2
## [1] 0.1660823 0.3589177
Risk Difference (RD):
\[ RD = \hat{p}_1 - \hat{p}_2, \quad SE(RD)=\sqrt{\frac{\hat p_1(1-\hat p_1)}{n_1}+\frac{\hat p_2(1-\hat p_2)}{n_2}} \]
RD <- p1 - p2
SE_RD <- sqrt(p1*(1-p1)/n1 + p2*(1-p2)/n2)
CI_RD <- RD + c(-1,1)*1.96*SE_RD
list(RD = RD, CI_RD = CI_RD)
## $RD
## [1] 0.2517003
##
## $CI_RD
## [1] 0.1516324 0.3517682
Relative Risk (RR):
\[ RR = \frac{\hat p_1}{\hat p_2}, \quad CI = \exp\left[\ln(RR) \pm 1.96\, SE(\ln RR)\right] \]
RR <- p1/p2
a<-688; b<-650; c<-21; d<-59
SE_lnRR <- sqrt((1-p1)/(a) + (1-p2)/(c))
CI_RR <- exp(log(RR) + c(-1,1)*1.96*SE_lnRR)
list(RR = RR, CI_RR = CI_RR)
## $RR
## [1] 1.958858
##
## $CI_RR
## [1] 1.351726 2.838687
Odds Ratio (OR):
\[ OR = \frac{ad}{bc}, \quad CI = \exp\left[\ln(OR) \pm 1.96\sqrt{\tfrac1a+\tfrac1b+\tfrac1c+\tfrac1d}\right] \]
OR <- (a*d)/(b*c)
SE_lnOR <- sqrt(1/a + 1/b + 1/c + 1/d)
CI_OR <- exp(log(OR) + c(-1,1)*1.96*SE_lnOR)
list(OR = OR, CI_OR = CI_OR)
## $OR
## [1] 2.973773
##
## $CI_OR
## [1] 1.786720 4.949474
\[ H_0: p_1 = p_2 \quad \text{vs} \quad H_1: p_1 \neq p_2 \]
prop.test(c(a, c), c(n1, n2))
##
## 2-sample test for equality of proportions with continuity correction
##
## data: c(a, c) out of c(n1, n2)
## X-squared = 18.136, df = 1, p-value = 2.057e-05
## alternative hypothesis: two.sided
## 95 percent confidence interval:
## 0.1450106 0.3583900
## sample estimates:
## prop 1 prop 2
## 0.5142003 0.2625000
\[ H_0: \text{status merokok dan kanker paru independen} \]
chisq.test(kasus1, correct = FALSE)
##
## Pearson's Chi-squared test
##
## data: kasus1
## X-squared = 19.129, df = 1, p-value = 1.222e-05
GTest(kasus1)
##
## Log likelihood ratio (G-test) test of independence without correction
##
## data: kasus1
## G = 19.878, X-squared df = 1, p-value = 8.254e-06
fisher.test(kasus1)
##
## Fisher's Exact Test for Count Data
##
## data: kasus1
## p-value = 1.476e-05
## alternative hypothesis: true odds ratio is not equal to 1
## 95 percent confidence interval:
## 1.755611 5.210711
## sample estimates:
## odds ratio
## 2.971634
| Uji | Hipotesis | Statistik Uji | p-value | Keputusan |
|---|---|---|---|---|
| Dua proporsi | \(p_1=p_2\) | \(\chi^2\) (approx z) | < 0.001 | Tolak \(H_0\) |
| Chi-square | Independensi | \(\chi^2\) Pearson | < 0.001 | Tolak \(H_0\) |
| Likelihood ratio | Independensi | \(G^2\) | < 0.001 | Tolak \(H_0\) |
| Fisher exact | Independensi | Exact prob | < 0.001 | Tolak \(H_0\) |
Keempat uji menghasilkan kesimpulan yang konsisten karena ukuran sampel besar dan tidak ada sel dengan frekuensi harapan kecil, sehingga aproksimasi chi-square dan G² valid, dan Fisher exact test (yang tidak bergantung aproksimasi) memberi hasil yang sejalan.
Terdapat hubungan yang signifikan secara statistik antara status merokok dan kejadian kanker paru (p-value < 0.001 pada semua uji). Nilai OR dan RR jauh dari 1, serta interval kepercayaannya tidak mencakup 1, mengonfirmasi bahwa kelompok Smoker memiliki risiko dan odds kanker paru yang jauh lebih tinggi dibanding Non-Smoker.
kasus2 <- matrix(c(495, 272, 590, 330, 265, 498), nrow = 2, byrow = TRUE)
rownames(kasus2) <- c("Female", "Male")
colnames(kasus2) <- c("Democrat", "Republican", "Independent")
addmargins(kasus2)
## Democrat Republican Independent Sum
## Female 495 272 590 1357
## Male 330 265 498 1093
## Sum 825 537 1088 2450
chisq_full <- chisq.test(kasus2, correct = FALSE)
chisq_full$expected
## Democrat Republican Independent
## Female 456.949 297.4322 602.6188
## Male 368.051 239.5678 485.3812
chisq_full
##
## Pearson's Chi-squared test
##
## data: kasus2
## X-squared = 12.569, df = 2, p-value = 0.001865
chisq_full$residuals
## Democrat Republican Independent
## Female 1.780051 -1.474656 -0.5140388
## Male -1.983409 1.643125 0.5727640
Nilai residual dengan magnitudo > 2 mengindikasikan sel yang paling menyimpang dari asumsi independensi (kontribusi terbesar terhadap nilai chi-square).
Partisi 1: Democrat vs Republican
part1 <- kasus2[, c("Democrat", "Republican")]
chisq.test(part1, correct = FALSE)
##
## Pearson's Chi-squared test
##
## data: part1
## X-squared = 11.555, df = 1, p-value = 0.0006758
Partisi 2: (Democrat + Republican) vs Independent
gab <- cbind(rowSums(kasus2[, c("Democrat","Republican")]),
kasus2[, "Independent"])
colnames(gab) <- c("Democrat_Republican", "Independent")
chisq.test(gab, correct = FALSE)
##
## Pearson's Chi-squared test
##
## data: gab
## X-squared = 1.0654, df = 1, p-value = 0.302
data.frame(
Uji = c("Keseluruhan (2x3)", "Partisi 1 (Dem vs Rep)", "Partisi 2 (Dem+Rep vs Independent)"),
Chi_Square = c(chisq_full$statistic,
chisq.test(part1, correct=FALSE)$statistic,
chisq.test(gab, correct=FALSE)$statistic),
df = c(chisq_full$parameter,
chisq.test(part1, correct=FALSE)$parameter,
chisq.test(gab, correct=FALSE)$parameter)
)
## Uji Chi_Square df
## 1 Keseluruhan (2x3) 12.569256 2
## 2 Partisi 1 (Dem vs Rep) 11.554519 1
## 3 Partisi 2 (Dem+Rep vs Independent) 1.065434 1
Jumlah statistik chi-square dari kedua partisi mendekati nilai chi-square tabel keseluruhan, karena partisi membagi total variasi asosiasi menjadi komponen-komponen independen dengan total derajat bebas yang sama (df=2).
Berdasarkan nilai residual terstandarisasi, kategori Independent menunjukkan penyimpangan terbesar antar gender, mengindikasikan bahwa perbedaan preferensi terhadap status Independent antara Female dan Male adalah sumber utama asosiasi yang terdeteksi pada uji chi-square keseluruhan.
mosaicplot(kasus2, main = "Mosaic Plot: Gender vs Identifikasi Partai Politik",
color = c("skyblue","salmon","lightgreen"), las = 1)
prop_tab <- prop.table(kasus2, margin = 1)
barplot(t(prop_tab), beside = TRUE, legend.text = colnames(kasus2),
col = c("skyblue","salmon","lightgreen"),
main = "Proporsi Identifikasi Partai per Gender",
ylab = "Proporsi")
Uji chi-square keseluruhan menunjukkan hubungan yang signifikan antara gender dan identifikasi partai politik (p-value < 0.05). Hasil partisi menegaskan bahwa perbedaan preferensi terhadap status Independent adalah kontributor utama terhadap signifikansi hubungan tersebut, sementara perbedaan antara Democrat dan Republican berkontribusi lebih kecil.
Kedua kasus menunjukkan bahwa metode inferensi tabel kontingensi (uji dua proporsi, chi-square, likelihood ratio, dan Fisher exact test) memberikan kesimpulan yang konsisten ketika ukuran sampel memadai. Ukuran asosiasi seperti RD, RR, OR, serta analisis residual dan partisi chi-square memberikan informasi tambahan mengenai arah, kekuatan, dan sumber utama dari asosiasi yang terdeteksi.