1 Tugas 1: Inferensi Tabel Kontingensi Dua Arah


1.1 Soal 1: Tabel Kontingensi 2×2

Data yang digunakan menggambarkan hubungan antara kebiasaan merokok dan kanker paru.

Status Merokok Cancer (+) Control (−) Total
Smoker 688 650 1338
Non-Smoker 21 59 80
Total 709 709 1418

1.1.1 Penyusunan Tabel Kontingensi 2×2

Berdasarkan data di atas, nilai masing-masing sel adalah:

  • \(a = 688\) (Smoker, Cancer)
  • \(b = 650\) (Smoker, Control)
  • \(c = 21\) (Non-Smoker, Cancer)
  • \(d = 59\) (Non-Smoker, Control)
data <- matrix(
  c(688, 650,
     21,  59),
  nrow = 2, byrow = TRUE
)

rownames(data) <- c("Smoker", "Non-Smoker")
colnames(data) <- c("Cancer", "Control")

data
##            Cancer Control
## Smoker        688     650
## Non-Smoker     21      59

Visualisasi Proporsi Kejadian Kanker Paru

p1 <- 688 / 1338   # Proporsi smoker dengan kanker paru
p0 <- 21  / 80     # Proporsi non-smoker dengan kanker paru

barplot(
  c(p1, p0),
  names.arg = c("Smoker", "Non-Smoker"),
  ylab = "Proporsi Kanker Paru",
  main = "Perbandingan Proporsi Kanker Paru",
  ylim = c(0, 1),
  col  = c("steelblue", "tomato")
)


1.1.2 Estimasi Proporsi Kejadian Kanker Paru

Total observasi pada masing-masing kelompok:

\[n_1 = a + b = 688 + 650 = 1338 \quad \text{(Smoker)}\]

\[n_0 = c + d = 21 + 59 = 80 \quad \text{(Non-Smoker)}\]

Proporsi kejadian kanker paru dihitung sebagai:

\[p_1 = \frac{a}{n_1} = \frac{688}{1338}, \qquad p_0 = \frac{c}{n_0} = \frac{21}{80}\]

p1 <- 688 / 1338
p0 <- 21  / 80

cat("Proporsi Smoker    :", round(p1, 4), "\n")
## Proporsi Smoker    : 0.5142
cat("Proporsi Non-Smoker:", round(p0, 4), "\n")
## Proporsi Non-Smoker: 0.2625

Interpretasi: Sekitar 51,4% individu pada kelompok perokok mengalami kanker paru, sementara pada kelompok bukan perokok angkanya hanya sekitar 26,25%. Dengan demikian, proporsi kanker paru pada perokok lebih tinggi dibandingkan bukan perokok.

Mosaic Plot

mosaicplot(
  data,
  color = TRUE,
  main  = "Hubungan Status Merokok dan Kanker Paru",
  xlab  = "Status Merokok",
  ylab  = "Kondisi"
)


1.1.3 Ukuran Asosiasi: RD, RR, dan OR

Tiga ukuran asosiasi yang umum digunakan pada tabel 2×2:

Ukuran Rumus
Risk Difference (RD) \(p_1 - p_0\)
Risk Ratio (RR) \(p_1 / p_0\)
Odds Ratio (OR) \((ad) / (bc)\)
a <- 688; b <- 650; c <- 21; d <- 59

RD <- p1 - p0
RR <- p1 / p0
OR <- (a * d) / (b * c)

cat("Risk Difference (RD):", round(RD, 4), "\n")
## Risk Difference (RD): 0.2517
cat("Risk Ratio      (RR):", round(RR, 4), "\n")
## Risk Ratio      (RR): 1.9589
cat("Odds Ratio      (OR):", round(OR, 4), "\n")
## Odds Ratio      (OR): 2.9738

Interpretasi:

  • RD = 0,2517 → Risiko kanker paru pada perokok lebih tinggi sekitar 25,17 persentase poin dibandingkan bukan perokok.
  • RR = 1,9589 → Perokok memiliki risiko terkena kanker paru hampir 2 kali lebih besar dibandingkan bukan perokok.
  • OR = 2,9738 → Peluang (odds) kanker paru pada perokok sekitar 3 kali lebih besar dibandingkan bukan perokok.
barplot(
  c(RD, RR, OR),
  names.arg = c("RD", "RR", "OR"),
  main = "Perbandingan Ukuran Asosiasi",
  ylab = "Nilai",
  col  = c("steelblue", "seagreen", "coral")
)


1.1.4 Uji Dua Proporsi

\[H_0 : p_1 = p_0 \qquad H_1 : p_1 \neq p_0\]

prop.test(c(a, c), c(a + b, c + d))
## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c(a, c) out of c(a + b, c + d)
## X-squared = 18.136, df = 1, p-value = 2.057e-05
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  0.1450106 0.3583900
## sample estimates:
##    prop 1    prop 2 
## 0.5142003 0.2625000

Interpretasi: Nilai statistik uji \(\chi^2 = 18{,}136\) dengan \(p\text{-value} = 2{,}057 \times 10^{-5}\). Karena \(p\text{-value} < 0{,}05\), hipotesis nol ditolak, sehingga terdapat perbedaan proporsi yang signifikan antara kedua kelompok.


1.1.5 Uji Chi-Square Independensi

\[H_0 : \text{Tidak ada hubungan antara merokok dan kanker paru}\] \[H_1 : \text{Terdapat hubungan antara merokok dan kanker paru}\]

chisq.test(data)
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  data
## X-squared = 18.136, df = 1, p-value = 2.057e-05

Interpretasi: Diperoleh \(\chi^2 = 18{,}136\) dengan \(p\text{-value} = 2{,}057 \times 10^{-5}\). Hipotesis nol ditolak, artinya kebiasaan merokok dan kejadian kanker paru tidak bersifat independen — terdapat hubungan yang signifikan di antara keduanya.


1.1.6 Uji Likelihood Ratio (\(G^2\))

\[G^2 = 2 \sum O_{ij} \ln\!\left(\frac{O_{ij}}{E_{ij}}\right)\]

library(DescTools)
GTest(data)
## 
##  Log likelihood ratio (G-test) test of independence without correction
## 
## data:  data
## G = 19.878, X-squared df = 1, p-value = 8.254e-06

Interpretasi: Diperoleh \(G^2 = 19{,}878\) dengan \(p\text{-value} = 8{,}254 \times 10^{-6}\). Karena \(p\text{-value} < 0{,}05\), hipotesis nol ditolak — terdapat hubungan yang signifikan antara kebiasaan merokok dan kanker paru.


1.1.7 Fisher Exact Test

fisher.test(data)
## 
##  Fisher's Exact Test for Count Data
## 
## data:  data
## p-value = 1.476e-05
## alternative hypothesis: true odds ratio is not equal to 1
## 95 percent confidence interval:
##  1.755611 5.210711
## sample estimates:
## odds ratio 
##   2.971634

Interpretasi: Diperoleh \(p\text{-value} = 1{,}476 \times 10^{-5}\) dengan estimasi \(OR = 2{,}9716\). Hipotesis nol ditolak, yang mengonfirmasi hubungan signifikan antara merokok dan kanker paru.


1.1.8 Perbandingan Keempat Metode Pengujian

Metode Statistik Uji \(p\)-value Keputusan
Uji Dua Proporsi \(\chi^2 = 18{,}136\) \(2{,}057 \times 10^{-5}\) Tolak \(H_0\)
Chi-Square \(\chi^2 = 18{,}136\) \(2{,}057 \times 10^{-5}\) Tolak \(H_0\)
Likelihood Ratio \(G^2 = 19{,}878\) \(8{,}254 \times 10^{-6}\) Tolak \(H_0\)
Fisher Exact Test Exact \(1{,}476 \times 10^{-5}\) Tolak \(H_0\)

Keempat metode memberikan hasil yang konsisten: seluruhnya menghasilkan \(p\text{-value} < 0{,}05\), sehingga hipotesis nol ditolak pada semua pendekatan.


1.1.9 Kesimpulan Soal 1

Seluruh tahapan analisis — mulai dari estimasi proporsi, perhitungan ukuran asosiasi, hingga berbagai pengujian hipotesis — secara konsisten menunjukkan bahwa terdapat hubungan signifikan antara kebiasaan merokok dan kejadian kanker paru. Perokok memiliki proporsi kanker paru yang lebih tinggi (\(p_1 = 0{,}514\)) dibandingkan bukan perokok (\(p_0 = 0{,}2625\)), dengan nilai RR dan OR yang jauh di atas 1, mengindikasikan peningkatan risiko yang bermakna.


1.2 Soal 2: Tabel Kontingensi 2×3

Data berikut menggambarkan distribusi identifikasi partai politik berdasarkan jenis kelamin.

Gender Democrat Republican Independent Total
Female 495 272 590 1357
Male 330 265 498 1093
Total 825 537 1088 2450

1.2.1 Penyusunan Tabel Kontingensi

data2 <- matrix(
  c(495, 272, 590,
    330, 265, 498),
  nrow = 2, byrow = TRUE
)

rownames(data2) <- c("Female", "Male")
colnames(data2) <- c("Democrat", "Republican", "Independent")

data2
##        Democrat Republican Independent
## Female      495        272         590
## Male        330        265         498

1.2.2 Frekuensi Harapan

Frekuensi harapan pada setiap sel dihitung menggunakan rumus:

\[E_{ij} = \frac{(\text{Total Baris}_i)(\text{Total Kolom}_j)}{\text{Total Keseluruhan}}\]

round(chisq.test(data2)$expected, 4)
##        Democrat Republican Independent
## Female  456.949   297.4322    602.6188
## Male    368.051   239.5678    485.3812

Interpretasi: Nilai frekuensi harapan merepresentasikan jumlah observasi yang diperkirakan apabila Gender dan Identifikasi Partai Politik bersifat independen. Nilai ini menjadi acuan dalam perhitungan statistik chi-square.


1.2.3 Uji Chi-Square Independensi

\[H_0 : \text{Gender dan Identifikasi Partai Politik bersifat independen}\] \[H_1 : \text{Terdapat hubungan antara Gender dan Identifikasi Partai Politik}\]

chisq.test(data2)
## 
##  Pearson's Chi-squared test
## 
## data:  data2
## X-squared = 12.569, df = 2, p-value = 0.001865

Interpretasi: Diperoleh \(\chi^2 = 12{,}569\) dengan \(df = 2\) dan \(p\text{-value} = 0{,}001865\). Karena \(p\text{-value} < 0{,}05\), hipotesis nol ditolak — terdapat hubungan yang signifikan antara jenis kelamin dan identifikasi partai politik.


1.2.4 Residual Pearson

Kontribusi masing-masing sel terhadap nilai chi-square dapat dievaluasi menggunakan residual Pearson:

\[r_{ij} = \frac{O_{ij} - E_{ij}}{\sqrt{E_{ij}}}\]

round(chisq.test(data2)$residuals, 4)
##        Democrat Republican Independent
## Female   1.7801    -1.4747     -0.5140
## Male    -1.9834     1.6431      0.5728

Interpretasi: Sel dengan nilai absolut residual terbesar memberikan kontribusi paling besar terhadap chi-square. Berdasarkan hasil analisis, kategori Female–Democrat dan Male–Democrat menunjukkan penyimpangan terbesar dari nilai harapan, mengindikasikan bahwa distribusi pilihan partai Democrat berbeda secara substansial antara perempuan dan laki-laki.


1.2.5 Partisi Chi-Square

Untuk memahami sumber variasi lebih lanjut, dilakukan dua partisi:

  1. Democrat vs. Republican
  2. (Democrat + Republican) vs. Independent
# Partisi 1: Democrat vs. Republican
data_DR <- matrix(
  c(495, 272,
    330, 265),
  nrow = 2, byrow = TRUE
)
cat("=== Democrat vs. Republican ===\n")
## === Democrat vs. Republican ===
chisq.test(data_DR)
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  data_DR
## X-squared = 11.178, df = 1, p-value = 0.0008279
# Partisi 2: (Democrat + Republican) vs. Independent
data_DI <- matrix(
  c(495 + 272, 590,
    330 + 265, 498),
  nrow = 2, byrow = TRUE
)
cat("\n=== (Democrat + Republican) vs. Independent ===\n")
## 
## === (Democrat + Republican) vs. Independent ===
chisq.test(data_DI)
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  data_DI
## X-squared = 0.98267, df = 1, p-value = 0.3215

Interpretasi:

  • Perbandingan Democrat vs. Republican menghasilkan \(p\text{-value} = 0{,}0008\), menunjukkan perbedaan distribusi yang signifikan.
  • Perbandingan (Democrat + Republican) vs. Independent menghasilkan \(p\text{-value} = 0{,}3215\), yang tidak signifikan.

Dengan demikian, kontribusi utama terhadap nilai chi-square keseluruhan berasal dari perbedaan preferensi antara Democrat dan Republican berdasarkan jenis kelamin, bukan dari kategori Independent.


1.2.6 Perbandingan: Partisi vs. Uji Keseluruhan

# Chi-Square keseluruhan
cat("=== Uji Chi-Square Keseluruhan ===\n")
## === Uji Chi-Square Keseluruhan ===
chisq.test(data2)
## 
##  Pearson's Chi-squared test
## 
## data:  data2
## X-squared = 12.569, df = 2, p-value = 0.001865
# Partisi 1
cat("\n=== Partisi 1: Democrat vs. Republican ===\n")
## 
## === Partisi 1: Democrat vs. Republican ===
chisq.test(data_DR)
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  data_DR
## X-squared = 11.178, df = 1, p-value = 0.0008279
# Partisi 2
cat("\n=== Partisi 2: (Democrat + Republican) vs. Independent ===\n")
## 
## === Partisi 2: (Democrat + Republican) vs. Independent ===
chisq.test(data_DI)
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  data_DI
## X-squared = 0.98267, df = 1, p-value = 0.3215

Uji chi-square keseluruhan (\(\chi^2 = 12{,}569\), \(p = 0{,}0019\)) mendeteksi adanya hubungan antar variabel secara global. Hasil partisi mempertegas bahwa perbedaan tersebut terutama bersumber dari kategori Democrat vs. Republican, sedangkan kelompok Independent relatif terdistribusi serupa di antara perempuan dan laki-laki.


1.2.7 Visualisasi

mosaicplot(
  data2,
  color = TRUE,
  main  = "Hubungan Gender dan Identifikasi Partai Politik",
  xlab  = "Gender",
  ylab  = "Partai Politik"
)


1.2.8 Kesimpulan Soal 2

Hasil uji chi-square independensi (\(\chi^2 = 12{,}569\), \(p\text{-value} = 0{,}0019\)) menunjukkan bahwa jenis kelamin memiliki hubungan yang signifikan dengan identifikasi partai politik, sehingga distribusi pilihan partai antara perempuan dan laki-laki tidaklah sama.

Analisis residual Pearson mengidentifikasi kategori Democrat sebagai sel yang paling menyimpang dari nilai harapan, dan partisi chi-square mengonfirmasi bahwa perbedaan paling menonjol terjadi antara afiliasi Democrat dan Republican berdasarkan gender, bukan pada kelompok Independent.