Dalam analisis data kategorik, salah satu tujuan utama adalah mengetahui apakah terdapat hubungan antara dua variabel yang bersifat kategorik. Pendekatan yang umum digunakan adalah tabel kontingensi, yang memungkinkan peneliti untuk melihat distribusi data berdasarkan kategori tertentu.
Pada kasus ini, variabel yang diamati adalah kebiasaan merokok dan kejadian kanker paru. Selain untuk melihat ada atau tidaknya hubungan, analisis juga dilakukan untuk mengukur besarnya pengaruh melalui ukuran asosiasi seperti Risk Difference (RD), Risk Ratio (RR), dan Odds Ratio (OR). Dengan demikian, analisis tidak hanya bersifat deskriptif, tetapi juga inferensial.
| Cancer (+) | Control (-) | Total | |
|---|---|---|---|
| Smoker | 688 | 650 | 1338 |
| Non-Smoker | 21 | 59 | 80 |
| Total | 709 | 709 | 1418 |
a <- 688; b <- 650; c <- 21; d <- 59
n1 <- a + b; n2 <- c + d
mat <- matrix(c(a,b,c,d), nrow=2, byrow=TRUE)
mat
## [,1] [,2]
## [1,] 688 650
## [2,] 21 59
a <- 688; b <- 650; c <- 21; d <- 59
n1 <- a + b; n2 <- c + d
mat <- matrix(c(a,b,c,d), nrow=2, byrow=TRUE)
mat
## [,1] [,2]
## [1,] 688 650
## [2,] 21 59
Dalam analisis awal, kita menghitung proporsi untuk mengetahui peluang kejadian pada masing-masing kelompok. Proporsi merupakan perbandingan antara jumlah kejadian dengan total individu dalam kelompok. Proporsi digunakan untuk melihat peluang kejadian dalam masing-masing kelompok sebelum membandingkan antar kelompok.
Rumus: [ p = ]
Substitusi: [ p_1 = , p_2 = ]
p1 <- a/n1; p2 <- c/n2
p1; p2
## [1] 0.5142003
## [1] 0.2625
Risk Difference digunakan untuk melihat selisih risiko antara dua kelompok secara langsung dalam bentuk absolut. RD digunakan untuk melihat selisih absolut risiko antara dua kelompok. Cocok jika ingin tahu “beda berapa persen”.
Rumus: [ RD = p_1 - p_2]
Substitusi: [ RD = 0.5142 - 0.2625]
RD <- p1 - p2
RD
## [1] 0.2517003
Interval kepercayaan digunakan untuk mengetahui rentang kemungkinan nilai parameter di populasi. Untuk mengetahui rentang kemungkinan nilai sebenarnya di populasi.
[ SE(RD) = ]
[ CI = RD SE(RD)]
SE_RD <- sqrt((p1*(1-p1)/n1) + (p2*(1-p2)/n2))
CI_RD <- c(RD - 1.96*SE_RD, RD + 1.96*SE_RD)
SE_RD; CI_RD
## [1] 0.05105504
## [1] 0.1516324 0.3517682
Risk Ratio digunakan untuk membandingkan risiko antar kelompok dalam bentuk perbandingan relatif. RR digunakan untuk membandingkan risiko secara relatif (berapa kali lebih besar).
Rumus: [ RR = ]
Substitusi: [ RR = ]
RR <- p1/p2
RR
## [1] 1.958858
Perhitungan interval kepercayaan untuk RR menggunakan transformasi log karena distribusinya tidak simetris. Karena distribusi RR tidak simetris, sehingga digunakan transformasi log.
[ SE(RR) = ]
[ CI = ( (RR) SE(RR) )]
SE_logRR <- sqrt((1/a) - (1/n1) + (1/c) - (1/n2))
CI_RR <- exp(log(RR) + c(-1.96,1.96)*SE_logRR)
SE_logRR; CI_RR
## [1] 0.1892753
## [1] 1.351726 2.838687
Odds Ratio digunakan untuk membandingkan peluang relatif antar kelompok dan sering digunakan dalam studi epidemiologi. OR digunakan ketika membandingkan odds, terutama umum pada studi kasus-kontrol.
Rumus: [ OR = ]
Substitusi: [ OR = ]
OR <- (a*d)/(b*c)
OR
## [1] 2.973773
[ SE(OR) = ]
[ CI = ( (OR) SE(OR) )]
SE_logOR <- sqrt(1/a + 1/b + 1/c + 1/d)
CI_OR <- exp(log(OR) + c(-1.96,1.96)*SE_logOR)
SE_logOR; CI_OR
## [1] 0.2599234
## [1] 1.786720 4.949474
Pengujian hipotesis dilakukan untuk menentukan apakah hubungan yang terlihat pada data bersifat signifikan secara statistik.
Uji ini digunakan untuk membandingkan dua proporsi dari kelompok yang berbeda. Untuk menguji apakah dua proporsi berbeda secara signifikan.
prop.test(c(a,c), c(n1,n2))
##
## 2-sample test for equality of proportions with continuity correction
##
## data: c(a, c) out of c(n1, n2)
## X-squared = 18.136, df = 1, p-value = 2.057e-05
## alternative hypothesis: two.sided
## 95 percent confidence interval:
## 0.1450106 0.3583900
## sample estimates:
## prop 1 prop 2
## 0.5142003 0.2625000
Uji chi-square digunakan untuk melihat apakah terdapat hubungan antara gender dan preferensi partai politik. Uji chi-square digunakan untuk menguji apakah dua variabel kategorik saling berhubungan atau independen. Untuk menguji apakah dua variabel kategorik saling independen atau tidak.
[ ^2 = ]
chisq <- chisq.test(mat, correct=FALSE)
chisq
##
## Pearson's Chi-squared test
##
## data: mat
## X-squared = 19.129, df = 1, p-value = 1.222e-05
chisq$p.value
## [1] 1.221601e-05
Likelihood ratio merupakan alternatif uji chi-square yang berbasis pendekatan likelihood. Sebagai alternatif chi-square yang berbasis likelihood.
library(DescTools)
GTest(mat)
##
## Log likelihood ratio (G-test) test of independence without correction
##
## data: mat
## G = 19.878, X-squared df = 1, p-value = 8.254e-06
Uji Fisher digunakan ketika ukuran sampel kecil atau asumsi chi-square tidak terpenuhi. Digunakan jika ukuran sampel kecil atau asumsi chi-square tidak terpenuhi.
fisher.test(mat)
##
## Fisher's Exact Test for Count Data
##
## data: mat
## p-value = 1.476e-05
## alternative hypothesis: true odds ratio is not equal to 1
## 95 percent confidence interval:
## 1.755611 5.210711
## sample estimates:
## odds ratio
## 2.971634
Berdasarkan hasil perhitungan, proporsi kejadian kanker pada kelompok perokok lebih tinggi dibandingkan non-perokok. Nilai Risk Difference menunjukkan adanya selisih risiko yang cukup besar secara absolut.
Risk Ratio yang lebih dari 1 menunjukkan bahwa perokok memiliki risiko lebih tinggi terkena kanker paru dibandingkan non-perokok. Hal ini juga didukung oleh nilai Odds Ratio yang menunjukkan peluang kejadian pada perokok beberapa kali lebih besar.
Selain itu, hasil uji hipotesis menunjukkan nilai p-value yang sangat kecil, sehingga dapat disimpulkan bahwa hubungan antara kebiasaan merokok dan kejadian kanker paru bersifat signifikan secara statistik.
Pada kasus kedua, analisis dilakukan untuk melihat hubungan antara gender dan preferensi partai politik. Kedua variabel ini bersifat kategorik dan memiliki lebih dari dua kategori, sehingga digunakan tabel kontingensi dua arah berukuran 2x3.
Melalui analisis ini, dapat diketahui apakah distribusi preferensi partai berbeda antara laki-laki dan perempuan, serta seberapa kuat hubungan tersebut secara statistik.
| Gender | Democrat | Republican | Independent | Total |
|---|---|---|---|---|
| Female | 495 | 272 | 590 | 1357 |
| Male | 330 | 265 | 498 | 1093 |
| Total | 825 | 537 | 1088 | 2450 |
mat2 <- matrix(c(495,272,590,
330,265,498), nrow=2, byrow=TRUE)
colnames(mat2) <- c("Democrat","Republican","Independent")
rownames(mat2) <- c("Female","Male")
mat2
## Democrat Republican Independent
## Female 495 272 590
## Male 330 265 498
mat2 <- matrix(c(495,272,590,
330,265,498), nrow=2, byrow=TRUE)
colnames(mat2) <- c("Democrat","Republican","Independent")
rownames(mat2) <- c("Female","Male")
mat2
## Democrat Republican Independent
## Female 495 272 590
## Male 330 265 498
Untuk melihat apakah ada hubungan antara gender dan preferensi partai.
[ ^2 = ]
chi2 <- chisq.test(mat2)
chi2
##
## Pearson's Chi-squared test
##
## data: mat2
## X-squared = 12.569, df = 2, p-value = 0.001865
chi2$p.value
## [1] 0.00186475
Frekuensi harapan menggambarkan nilai yang diharapkan jika tidak terdapat hubungan antar variabel.
[ E_{ij} = ]
chi2$expected
## Democrat Republican Independent
## Female 456.949 297.4322 602.6188
## Male 368.051 239.5678 485.3812
Residual digunakan untuk melihat sel mana yang paling berkontribusi terhadap hubungan yang terbentuk. Untuk mengetahui sel mana yang paling berkontribusi terhadap hubungan.
[ Residual = ]
chi2$stdres
## Democrat Republican Independent
## Female 3.272365 -2.498557 -1.032199
## Male -3.272365 2.498557 1.032199
Analisis partisi dilakukan untuk mengetahui bagian mana dari tabel yang paling mempengaruhi hasil uji.
chisq.test(mat2[,1:2])
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: mat2[, 1:2]
## X-squared = 11.178, df = 1, p-value = 0.0008279
mat_part <- cbind(rowSums(mat2[,1:2]), mat2[,3])
chisq.test(mat_part)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: mat_part
## X-squared = 0.98267, df = 1, p-value = 0.3215
Hasil uji chi-square menunjukkan bahwa terdapat hubungan yang signifikan antara gender dan preferensi partai politik.
Jika dilihat dari frekuensi harapan dan residual, terlihat bahwa beberapa kategori memiliki perbedaan yang cukup besar antara nilai observasi dan ekspektasi. Hal ini menunjukkan bahwa tidak semua kategori berperilaku sama.
Secara umum, terdapat kecenderungan pola tertentu dalam preferensi partai berdasarkan gender, sehingga dapat disimpulkan bahwa gender berperan dalam menentukan pilihan politik.
Secara keseluruhan, analisis tabel kontingensi pada kedua kasus menunjukkan bahwa metode statistik yang digunakan mampu mengidentifikasi adanya hubungan antar variabel kategorik, sekaligus memberikan gambaran pola yang terjadi dalam data.