Data yang digunakan menggambarkan hubungan antara kebiasaan merokok dan kanker paru.
| Status Merokok | Cancer (+) | Control (−) | Total |
|---|---|---|---|
| Smoker | 688 | 650 | 1338 |
| Non-Smoker | 21 | 59 | 80 |
| Total | 709 | 709 | 1418 |
Berdasarkan data di atas, nilai masing-masing sel adalah:
data <- matrix(
c(688, 650,
21, 59),
nrow = 2, byrow = TRUE
)
rownames(data) <- c("Smoker", "Non-Smoker")
colnames(data) <- c("Cancer", "Control")
data
## Cancer Control
## Smoker 688 650
## Non-Smoker 21 59
Visualisasi Proporsi Kejadian Kanker Paru
p1 <- 688 / 1338 # Proporsi smoker dengan kanker paru
p0 <- 21 / 80 # Proporsi non-smoker dengan kanker paru
barplot(
c(p1, p0),
names.arg = c("Smoker", "Non-Smoker"),
ylab = "Proporsi Kanker Paru",
main = "Perbandingan Proporsi Kanker Paru",
ylim = c(0, 1),
col = c("steelblue", "tomato")
)
Total observasi pada masing-masing kelompok:
\[n_1 = a + b = 688 + 650 = 1338 \quad \text{(Smoker)}\]
\[n_0 = c + d = 21 + 59 = 80 \quad \text{(Non-Smoker)}\]
Proporsi kejadian kanker paru dihitung sebagai:
\[p_1 = \frac{a}{n_1} = \frac{688}{1338}, \qquad p_0 = \frac{c}{n_0} = \frac{21}{80}\]
p1 <- 688 / 1338
p0 <- 21 / 80
cat("Proporsi Smoker :", round(p1, 4), "\n")
## Proporsi Smoker : 0.5142
cat("Proporsi Non-Smoker:", round(p0, 4), "\n")
## Proporsi Non-Smoker: 0.2625
Interpretasi: Sekitar 51,4% individu pada kelompok perokok mengalami kanker paru, sementara pada kelompok bukan perokok angkanya hanya sekitar 26,25%. Dengan demikian, proporsi kanker paru pada perokok lebih tinggi dibandingkan bukan perokok.
Mosaic Plot
mosaicplot(
data,
color = TRUE,
main = "Hubungan Status Merokok dan Kanker Paru",
xlab = "Status Merokok",
ylab = "Kondisi"
)
Tiga ukuran asosiasi yang umum digunakan pada tabel 2×2:
| Ukuran | Rumus |
|---|---|
| Risk Difference (RD) | \(p_1 - p_0\) |
| Risk Ratio (RR) | \(p_1 / p_0\) |
| Odds Ratio (OR) | \((ad) / (bc)\) |
a <- 688; b <- 650; c <- 21; d <- 59
RD <- p1 - p0
RR <- p1 / p0
OR <- (a * d) / (b * c)
cat("Risk Difference (RD):", round(RD, 4), "\n")
## Risk Difference (RD): 0.2517
cat("Risk Ratio (RR):", round(RR, 4), "\n")
## Risk Ratio (RR): 1.9589
cat("Odds Ratio (OR):", round(OR, 4), "\n")
## Odds Ratio (OR): 2.9738
Interpretasi:
barplot(
c(RD, RR, OR),
names.arg = c("RD", "RR", "OR"),
main = "Perbandingan Ukuran Asosiasi",
ylab = "Nilai",
col = c("steelblue", "seagreen", "coral")
)
\[H_0 : p_1 = p_0 \qquad H_1 : p_1 \neq p_0\]
prop.test(c(a, c), c(a + b, c + d))
##
## 2-sample test for equality of proportions with continuity correction
##
## data: c(a, c) out of c(a + b, c + d)
## X-squared = 18.136, df = 1, p-value = 2.057e-05
## alternative hypothesis: two.sided
## 95 percent confidence interval:
## 0.1450106 0.3583900
## sample estimates:
## prop 1 prop 2
## 0.5142003 0.2625000
Interpretasi: Nilai statistik uji \(\chi^2 = 18{,}136\) dengan \(p\text{-value} = 2{,}057 \times 10^{-5}\). Karena \(p\text{-value} < 0{,}05\), hipotesis nol ditolak, sehingga terdapat perbedaan proporsi yang signifikan antara kedua kelompok.
\[H_0 : \text{Tidak ada hubungan antara merokok dan kanker paru}\] \[H_1 : \text{Terdapat hubungan antara merokok dan kanker paru}\]
chisq.test(data)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: data
## X-squared = 18.136, df = 1, p-value = 2.057e-05
Interpretasi: Diperoleh \(\chi^2 = 18{,}136\) dengan \(p\text{-value} = 2{,}057 \times 10^{-5}\). Hipotesis nol ditolak, artinya kebiasaan merokok dan kejadian kanker paru tidak bersifat independen — terdapat hubungan yang signifikan di antara keduanya.
\[G^2 = 2 \sum O_{ij} \ln\!\left(\frac{O_{ij}}{E_{ij}}\right)\]
library(DescTools)
GTest(data)
##
## Log likelihood ratio (G-test) test of independence without correction
##
## data: data
## G = 19.878, X-squared df = 1, p-value = 8.254e-06
Interpretasi: Diperoleh \(G^2 = 19{,}878\) dengan \(p\text{-value} = 8{,}254 \times 10^{-6}\). Karena \(p\text{-value} < 0{,}05\), hipotesis nol ditolak — terdapat hubungan yang signifikan antara kebiasaan merokok dan kanker paru.
fisher.test(data)
##
## Fisher's Exact Test for Count Data
##
## data: data
## p-value = 1.476e-05
## alternative hypothesis: true odds ratio is not equal to 1
## 95 percent confidence interval:
## 1.755611 5.210711
## sample estimates:
## odds ratio
## 2.971634
Interpretasi: Diperoleh \(p\text{-value} = 1{,}476 \times 10^{-5}\) dengan estimasi \(OR = 2{,}9716\). Hipotesis nol ditolak, yang mengonfirmasi hubungan signifikan antara merokok dan kanker paru.
| Metode | Statistik Uji | \(p\)-value | Keputusan |
|---|---|---|---|
| Uji Dua Proporsi | \(\chi^2 = 18{,}136\) | \(2{,}057 \times 10^{-5}\) | Tolak \(H_0\) |
| Chi-Square | \(\chi^2 = 18{,}136\) | \(2{,}057 \times 10^{-5}\) | Tolak \(H_0\) |
| Likelihood Ratio | \(G^2 = 19{,}878\) | \(8{,}254 \times 10^{-6}\) | Tolak \(H_0\) |
| Fisher Exact Test | Exact | \(1{,}476 \times 10^{-5}\) | Tolak \(H_0\) |
Keempat metode memberikan hasil yang konsisten: seluruhnya menghasilkan \(p\text{-value} < 0{,}05\), sehingga hipotesis nol ditolak pada semua pendekatan.
Seluruh tahapan analisis — mulai dari estimasi proporsi, perhitungan ukuran asosiasi, hingga berbagai pengujian hipotesis — secara konsisten menunjukkan bahwa terdapat hubungan signifikan antara kebiasaan merokok dan kejadian kanker paru. Perokok memiliki proporsi kanker paru yang lebih tinggi (\(p_1 = 0{,}514\)) dibandingkan bukan perokok (\(p_0 = 0{,}2625\)), dengan nilai RR dan OR yang jauh di atas 1, mengindikasikan peningkatan risiko yang bermakna.
Data berikut menggambarkan distribusi identifikasi partai politik berdasarkan jenis kelamin.
| Gender | Democrat | Republican | Independent | Total |
|---|---|---|---|---|
| Female | 495 | 272 | 590 | 1357 |
| Male | 330 | 265 | 498 | 1093 |
| Total | 825 | 537 | 1088 | 2450 |
data2 <- matrix(
c(495, 272, 590,
330, 265, 498),
nrow = 2, byrow = TRUE
)
rownames(data2) <- c("Female", "Male")
colnames(data2) <- c("Democrat", "Republican", "Independent")
data2
## Democrat Republican Independent
## Female 495 272 590
## Male 330 265 498
Frekuensi harapan pada setiap sel dihitung menggunakan rumus:
\[E_{ij} = \frac{(\text{Total Baris}_i)(\text{Total Kolom}_j)}{\text{Total Keseluruhan}}\]
round(chisq.test(data2)$expected, 4)
## Democrat Republican Independent
## Female 456.949 297.4322 602.6188
## Male 368.051 239.5678 485.3812
Interpretasi: Nilai frekuensi harapan merepresentasikan jumlah observasi yang diperkirakan apabila Gender dan Identifikasi Partai Politik bersifat independen. Nilai ini menjadi acuan dalam perhitungan statistik chi-square.
\[H_0 : \text{Gender dan Identifikasi Partai Politik bersifat independen}\] \[H_1 : \text{Terdapat hubungan antara Gender dan Identifikasi Partai Politik}\]
chisq.test(data2)
##
## Pearson's Chi-squared test
##
## data: data2
## X-squared = 12.569, df = 2, p-value = 0.001865
Interpretasi: Diperoleh \(\chi^2 = 12{,}569\) dengan \(df = 2\) dan \(p\text{-value} = 0{,}001865\). Karena \(p\text{-value} < 0{,}05\), hipotesis nol ditolak — terdapat hubungan yang signifikan antara jenis kelamin dan identifikasi partai politik.
Kontribusi masing-masing sel terhadap nilai chi-square dapat dievaluasi menggunakan residual Pearson:
\[r_{ij} = \frac{O_{ij} - E_{ij}}{\sqrt{E_{ij}}}\]
round(chisq.test(data2)$residuals, 4)
## Democrat Republican Independent
## Female 1.7801 -1.4747 -0.5140
## Male -1.9834 1.6431 0.5728
Interpretasi: Sel dengan nilai absolut residual terbesar memberikan kontribusi paling besar terhadap chi-square. Berdasarkan hasil analisis, kategori Female–Democrat dan Male–Democrat menunjukkan penyimpangan terbesar dari nilai harapan, mengindikasikan bahwa distribusi pilihan partai Democrat berbeda secara substansial antara perempuan dan laki-laki.
Untuk memahami sumber variasi lebih lanjut, dilakukan dua partisi:
# Partisi 1: Democrat vs. Republican
data_DR <- matrix(
c(495, 272,
330, 265),
nrow = 2, byrow = TRUE
)
cat("=== Democrat vs. Republican ===\n")
## === Democrat vs. Republican ===
chisq.test(data_DR)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: data_DR
## X-squared = 11.178, df = 1, p-value = 0.0008279
# Partisi 2: (Democrat + Republican) vs. Independent
data_DI <- matrix(
c(495 + 272, 590,
330 + 265, 498),
nrow = 2, byrow = TRUE
)
cat("\n=== (Democrat + Republican) vs. Independent ===\n")
##
## === (Democrat + Republican) vs. Independent ===
chisq.test(data_DI)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: data_DI
## X-squared = 0.98267, df = 1, p-value = 0.3215
Interpretasi:
Dengan demikian, kontribusi utama terhadap nilai chi-square keseluruhan berasal dari perbedaan preferensi antara Democrat dan Republican berdasarkan jenis kelamin, bukan dari kategori Independent.
# Chi-Square keseluruhan
cat("=== Uji Chi-Square Keseluruhan ===\n")
## === Uji Chi-Square Keseluruhan ===
chisq.test(data2)
##
## Pearson's Chi-squared test
##
## data: data2
## X-squared = 12.569, df = 2, p-value = 0.001865
# Partisi 1
cat("\n=== Partisi 1: Democrat vs. Republican ===\n")
##
## === Partisi 1: Democrat vs. Republican ===
chisq.test(data_DR)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: data_DR
## X-squared = 11.178, df = 1, p-value = 0.0008279
# Partisi 2
cat("\n=== Partisi 2: (Democrat + Republican) vs. Independent ===\n")
##
## === Partisi 2: (Democrat + Republican) vs. Independent ===
chisq.test(data_DI)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: data_DI
## X-squared = 0.98267, df = 1, p-value = 0.3215
Uji chi-square keseluruhan (\(\chi^2 = 12{,}569\), \(p = 0{,}0019\)) mendeteksi adanya hubungan antar variabel secara global. Hasil partisi mempertegas bahwa perbedaan tersebut terutama bersumber dari kategori Democrat vs. Republican, sedangkan kelompok Independent relatif terdistribusi serupa di antara perempuan dan laki-laki.
mosaicplot(
data2,
color = TRUE,
main = "Hubungan Gender dan Identifikasi Partai Politik",
xlab = "Gender",
ylab = "Partai Politik"
)
Hasil uji chi-square independensi (\(\chi^2 = 12{,}569\), \(p\text{-value} = 0{,}0019\)) menunjukkan bahwa jenis kelamin memiliki hubungan yang signifikan dengan identifikasi partai politik, sehingga distribusi pilihan partai antara perempuan dan laki-laki tidaklah sama.
Analisis residual Pearson mengidentifikasi kategori Democrat sebagai sel yang paling menyimpang dari nilai harapan, dan partisi chi-square mengonfirmasi bahwa perbedaan paling menonjol terjadi antara afiliasi Democrat dan Republican berdasarkan gender, bukan pada kelompok Independent.