SOAL 1: Tabel Kontingensi 2x2

Pendahuluan

Dalam analisis data kategorik, salah satu tujuan utama adalah mengetahui apakah terdapat hubungan antara dua variabel yang bersifat kategorik. Pendekatan yang umum digunakan adalah tabel kontingensi, yang memungkinkan peneliti untuk melihat distribusi data berdasarkan kategori tertentu.

Pada kasus ini, variabel yang diamati adalah kebiasaan merokok dan kejadian kanker paru. Selain untuk melihat ada atau tidaknya hubungan, analisis juga dilakukan untuk mengukur besarnya pengaruh melalui ukuran asosiasi seperti Risk Difference (RD), Risk Ratio (RR), dan Odds Ratio (OR). Dengan demikian, analisis tidak hanya bersifat deskriptif, tetapi juga inferensial.

Data

Cancer (+) Control (-) Total
Smoker 688 650 1338
Non-Smoker 21 59 80
Total 709 709 1418
a <- 688; b <- 650; c <- 21; d <- 59
n1 <- a + b; n2 <- c + d
mat <- matrix(c(a,b,c,d), nrow=2, byrow=TRUE)
mat
##      [,1] [,2]
## [1,]  688  650
## [2,]   21   59
a <- 688; b <- 650; c <- 21; d <- 59
n1 <- a + b; n2 <- c + d
mat <- matrix(c(a,b,c,d), nrow=2, byrow=TRUE)
mat
##      [,1] [,2]
## [1,]  688  650
## [2,]   21   59

Estimasi Proporsi

Dalam analisis awal, kita menghitung proporsi untuk mengetahui peluang kejadian pada masing-masing kelompok. Proporsi merupakan perbandingan antara jumlah kejadian dengan total individu dalam kelompok. Proporsi digunakan untuk melihat peluang kejadian dalam masing-masing kelompok sebelum membandingkan antar kelompok.

Rumus: [ p = ]

Substitusi: [ p_1 = , p_2 = ]

p1 <- a/n1; p2 <- c/n2
p1; p2
## [1] 0.5142003
## [1] 0.2625

Risk Difference (RD)

Risk Difference digunakan untuk melihat selisih risiko antara dua kelompok secara langsung dalam bentuk absolut. RD digunakan untuk melihat selisih absolut risiko antara dua kelompok. Cocok jika ingin tahu “beda berapa persen”.

Rumus: [ RD = p_1 - p_2]

Substitusi: [ RD = 0.5142 - 0.2625]

RD <- p1 - p2
RD
## [1] 0.2517003

CI RD

Interval kepercayaan digunakan untuk mengetahui rentang kemungkinan nilai parameter di populasi. Untuk mengetahui rentang kemungkinan nilai sebenarnya di populasi.

[ SE(RD) = ]

[ CI = RD SE(RD)]

SE_RD <- sqrt((p1*(1-p1)/n1) + (p2*(1-p2)/n2))
CI_RD <- c(RD - 1.96*SE_RD, RD + 1.96*SE_RD)
SE_RD; CI_RD
## [1] 0.05105504
## [1] 0.1516324 0.3517682

Risk Ratio (RR)

Risk Ratio digunakan untuk membandingkan risiko antar kelompok dalam bentuk perbandingan relatif. RR digunakan untuk membandingkan risiko secara relatif (berapa kali lebih besar).

Rumus: [ RR = ]

Substitusi: [ RR = ]

RR <- p1/p2
RR
## [1] 1.958858

CI RR

Perhitungan interval kepercayaan untuk RR menggunakan transformasi log karena distribusinya tidak simetris. Karena distribusi RR tidak simetris, sehingga digunakan transformasi log.

[ SE(RR) = ]

[ CI = ( (RR) SE(RR) )]

SE_logRR <- sqrt((1/a) - (1/n1) + (1/c) - (1/n2))
CI_RR <- exp(log(RR) + c(-1.96,1.96)*SE_logRR)
SE_logRR; CI_RR
## [1] 0.1892753
## [1] 1.351726 2.838687

Odds Ratio (OR)

Odds Ratio digunakan untuk membandingkan peluang relatif antar kelompok dan sering digunakan dalam studi epidemiologi. OR digunakan ketika membandingkan odds, terutama umum pada studi kasus-kontrol.

Rumus: [ OR = ]

Substitusi: [ OR = ]

OR <- (a*d)/(b*c)
OR
## [1] 2.973773

CI OR

[ SE(OR) = ]

[ CI = ( (OR) SE(OR) )]

SE_logOR <- sqrt(1/a + 1/b + 1/c + 1/d)
CI_OR <- exp(log(OR) + c(-1.96,1.96)*SE_logOR)
SE_logOR; CI_OR
## [1] 0.2599234
## [1] 1.786720 4.949474

Uji Hipotesis

Pengujian hipotesis dilakukan untuk menentukan apakah hubungan yang terlihat pada data bersifat signifikan secara statistik.

Uji Dua Proporsi

Uji ini digunakan untuk membandingkan dua proporsi dari kelompok yang berbeda. Untuk menguji apakah dua proporsi berbeda secara signifikan.

prop.test(c(a,c), c(n1,n2))
## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c(a, c) out of c(n1, n2)
## X-squared = 18.136, df = 1, p-value = 2.057e-05
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  0.1450106 0.3583900
## sample estimates:
##    prop 1    prop 2 
## 0.5142003 0.2625000

Uji Chi-Square

Uji chi-square digunakan untuk melihat apakah terdapat hubungan antara gender dan preferensi partai politik. Uji chi-square digunakan untuk menguji apakah dua variabel kategorik saling berhubungan atau independen. Untuk menguji apakah dua variabel kategorik saling independen atau tidak.

[ ^2 = ]

chisq <- chisq.test(mat, correct=FALSE)
chisq
## 
##  Pearson's Chi-squared test
## 
## data:  mat
## X-squared = 19.129, df = 1, p-value = 1.222e-05
chisq$p.value
## [1] 1.221601e-05

Likelihood Ratio

Likelihood ratio merupakan alternatif uji chi-square yang berbasis pendekatan likelihood. Sebagai alternatif chi-square yang berbasis likelihood.

library(DescTools)
GTest(mat)
## 
##  Log likelihood ratio (G-test) test of independence without correction
## 
## data:  mat
## G = 19.878, X-squared df = 1, p-value = 8.254e-06

Fisher Exact Test

Uji Fisher digunakan ketika ukuran sampel kecil atau asumsi chi-square tidak terpenuhi. Digunakan jika ukuran sampel kecil atau asumsi chi-square tidak terpenuhi.

fisher.test(mat)
## 
##  Fisher's Exact Test for Count Data
## 
## data:  mat
## p-value = 1.476e-05
## alternative hypothesis: true odds ratio is not equal to 1
## 95 percent confidence interval:
##  1.755611 5.210711
## sample estimates:
## odds ratio 
##   2.971634

Interpretasi Soal 1

Berdasarkan hasil perhitungan, proporsi kejadian kanker pada kelompok perokok lebih tinggi dibandingkan non-perokok. Nilai Risk Difference menunjukkan adanya selisih risiko yang cukup besar secara absolut.

Risk Ratio yang lebih dari 1 menunjukkan bahwa perokok memiliki risiko lebih tinggi terkena kanker paru dibandingkan non-perokok. Hal ini juga didukung oleh nilai Odds Ratio yang menunjukkan peluang kejadian pada perokok beberapa kali lebih besar.

Selain itu, hasil uji hipotesis menunjukkan nilai p-value yang sangat kecil, sehingga dapat disimpulkan bahwa hubungan antara kebiasaan merokok dan kejadian kanker paru bersifat signifikan secara statistik.


SOAL 2: Tabel Kontingensi 2x3

Pendahuluan

Pada kasus kedua, analisis dilakukan untuk melihat hubungan antara gender dan preferensi partai politik. Kedua variabel ini bersifat kategorik dan memiliki lebih dari dua kategori, sehingga digunakan tabel kontingensi dua arah berukuran 2x3.

Melalui analisis ini, dapat diketahui apakah distribusi preferensi partai berbeda antara laki-laki dan perempuan, serta seberapa kuat hubungan tersebut secara statistik.

Data

Gender Democrat Republican Independent Total
Female 495 272 590 1357
Male 330 265 498 1093
Total 825 537 1088 2450
mat2 <- matrix(c(495,272,590,
                 330,265,498), nrow=2, byrow=TRUE)
colnames(mat2) <- c("Democrat","Republican","Independent")
rownames(mat2) <- c("Female","Male")
mat2
##        Democrat Republican Independent
## Female      495        272         590
## Male        330        265         498
mat2 <- matrix(c(495,272,590,
                 330,265,498), nrow=2, byrow=TRUE)
colnames(mat2) <- c("Democrat","Republican","Independent")
rownames(mat2) <- c("Female","Male")
mat2
##        Democrat Republican Independent
## Female      495        272         590
## Male        330        265         498

Uji Chi-Square

Untuk melihat apakah ada hubungan antara gender dan preferensi partai.

[ ^2 = ]

chi2 <- chisq.test(mat2)
chi2
## 
##  Pearson's Chi-squared test
## 
## data:  mat2
## X-squared = 12.569, df = 2, p-value = 0.001865
chi2$p.value
## [1] 0.00186475

Frekuensi Harapan

Frekuensi harapan menggambarkan nilai yang diharapkan jika tidak terdapat hubungan antar variabel.

[ E_{ij} = ]

chi2$expected
##        Democrat Republican Independent
## Female  456.949   297.4322    602.6188
## Male    368.051   239.5678    485.3812

Residual

Residual digunakan untuk melihat sel mana yang paling berkontribusi terhadap hubungan yang terbentuk. Untuk mengetahui sel mana yang paling berkontribusi terhadap hubungan.

[ Residual = ]

chi2$stdres
##         Democrat Republican Independent
## Female  3.272365  -2.498557   -1.032199
## Male   -3.272365   2.498557    1.032199

Partisi

Analisis partisi dilakukan untuk mengetahui bagian mana dari tabel yang paling mempengaruhi hasil uji.

chisq.test(mat2[,1:2])
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  mat2[, 1:2]
## X-squared = 11.178, df = 1, p-value = 0.0008279
mat_part <- cbind(rowSums(mat2[,1:2]), mat2[,3])
chisq.test(mat_part)
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  mat_part
## X-squared = 0.98267, df = 1, p-value = 0.3215

Interpretasi Soal 2

Hasil uji chi-square menunjukkan bahwa terdapat hubungan yang signifikan antara gender dan preferensi partai politik.

Jika dilihat dari frekuensi harapan dan residual, terlihat bahwa beberapa kategori memiliki perbedaan yang cukup besar antara nilai observasi dan ekspektasi. Hal ini menunjukkan bahwa tidak semua kategori berperilaku sama.

Secara umum, terdapat kecenderungan pola tertentu dalam preferensi partai berdasarkan gender, sehingga dapat disimpulkan bahwa gender berperan dalam menentukan pilihan politik.


Penutup

Secara keseluruhan, analisis tabel kontingensi pada kedua kasus menunjukkan bahwa metode statistik yang digunakan mampu mengidentifikasi adanya hubungan antar variabel kategorik, sekaligus memberikan gambaran pola yang terjadi dalam data.