Nama : Gania Zarakova Vijkonavo
NPM : 140610240083
Analisis data kategorik merupakan salah satu bagian penting dalam statistika yang digunakan untuk memahami hubungan antara variabel yang berbentuk kategori. Berbeda dengan data numerik, data kategorik tidak dapat diolah menggunakan operasi matematis biasa, sehingga diperlukan metode khusus untuk menganalisisnya.
Dalam kehidupan sehari-hari, banyak fenomena yang dapat dikategorikan, seperti status merokok (smoker dan non-smoker), jenis kelamin (pria dan wanita), serta preferensi politik (Demokrat, Republik, Independen). Oleh karena itu, analisis terhadap data kategorik memiliki peranan penting dalam berbagai bidang, termasuk kesehatan, sosial, dan politik.
Salah satu metode yang sering digunakan adalah tabel kontingensi dua arah. Tabel ini memungkinkan peneliti untuk melihat hubungan antara dua variabel kategorik melalui distribusi frekuensi. Namun, analisis tidak hanya berhenti pada penyajian data, melainkan juga mencakup inferensi statistik seperti estimasi proporsi, interval kepercayaan, ukuran asosiasi, serta pengujian hipotesis.
data1 <- matrix(c(688, 650,
21, 59),
nrow = 2, byrow = TRUE)
rownames(data1) <- c("Smoker", "Non-Smoker")
colnames(data1) <- c("Cancer", "Control")
data1
## Cancer Control
## Smoker 688 650
## Non-Smoker 21 59
Tabel di atas menunjukkan distribusi individu berdasarkan status merokok dan kejadian kanker paru. Terlihat bahwa jumlah penderita kanker paru pada kelompok smoker jauh lebih besar dibandingkan non-smoker.
p1 <- 688/1338
p2 <- 21/80
p1; p2
## [1] 0.5142003
## [1] 0.2625
Proporsi kanker paru pada kelompok smoker adalah 0.5142 sedangkan pada kelompok non-smoker adalah 0.2625.
Perbedaan ini menunjukkan adanya indikasi bahwa merokok dapat meningkatkan risiko kanker paru. Secara deskriptif, kelompok smoker memiliki kemungkinan lebih besar mengalami kanker paru dibandingkan non-smoker.
ci1 <- prop.test(688,1338)
ci2 <- prop.test(21,80)
ci1
##
## 1-sample proportions test with continuity correction
##
## data: 688 out of 1338, null probability 0.5
## X-squared = 1.0232, df = 1, p-value = 0.3118
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.4870445 0.5412736
## sample estimates:
## p
## 0.5142003
ci2
##
## 1-sample proportions test with continuity correction
##
## data: 21 out of 80, null probability 0.5
## X-squared = 17.113, df = 1, p-value = 3.523e-05
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.1733064 0.3748263
## sample estimates:
## p
## 0.2625
Interval kepercayaan digunakan untuk memberikan rentang nilai estimasi proporsi dalam populasi. Jika interval antara dua kelompok tidak banyak tumpang tindih, maka perbedaan tersebut dapat dianggap signifikan.
Pada kasus ini, interval kepercayaan kelompok smoker berada pada nilai yang lebih tinggi dibandingkan non-smoker, yang memperkuat dugaan adanya perbedaan nyata.
RD <- p1 - p2
RR <- p1 / p2
OR <- (688*59)/(650*21)
RD; RR; OR
## [1] 0.2517003
## [1] 1.958858
## [1] 2.973773
Interpretasi:
Nilai OR yang jauh lebih besar dari 1 menunjukkan bahwa peluang kanker paru pada smoker jauh lebih tinggi dibandingkan non-smoker.
prop.test(c(688,21), c(1338,80))
##
## 2-sample test for equality of proportions with continuity correction
##
## data: c(688, 21) out of c(1338, 80)
## X-squared = 18.136, df = 1, p-value = 2.057e-05
## alternative hypothesis: two.sided
## 95 percent confidence interval:
## 0.1450106 0.3583900
## sample estimates:
## prop 1 prop 2
## 0.5142003 0.2625000
chisq.test(data1, correct = FALSE)
##
## Pearson's Chi-squared test
##
## data: data1
## X-squared = 19.129, df = 1, p-value = 1.222e-05
fisher.test(data1)
##
## Fisher's Exact Test for Count Data
##
## data: data1
## p-value = 1.476e-05
## alternative hypothesis: true odds ratio is not equal to 1
## 95 percent confidence interval:
## 1.755611 5.210711
## sample estimates:
## odds ratio
## 2.971634
Semua uji menunjukkan p-value yang sangat kecil, sehingga hipotesis nol ditolak. Artinya, terdapat hubungan yang signifikan antara merokok dan kanker paru.
mosaicplot(data1, color = TRUE,
main="Mosaic Plot Merokok vs Kanker Paru")
barplot(prop.table(data1,1),
beside = TRUE,
legend = TRUE,
main="Proporsi Kanker Paru")
prop <- prop.table(data1,1)
plot(prop[1,], type="b", pch=16, ylim=c(0,1),
xlab="Kategori", ylab="Proporsi",
main="Perbandingan Proporsi")
lines(prop[2,], type="b", pch=17)
legend("topright", legend=c("Smoker","Non-Smoker"), pch=c(16,17))
Visualisasi memperjelas bahwa kelompok smoker memiliki proporsi kanker paru yang lebih tinggi dibandingkan non-smoker.
Berdasarkan seluruh analisis, dapat disimpulkan bahwa merokok memiliki hubungan yang signifikan dengan kanker paru dan merupakan faktor risiko yang kuat.
data2 <- matrix(c(495,272,590,
330,265,498),
nrow = 2, byrow = TRUE)
rownames(data2) <- c("Female","Male")
colnames(data2) <- c("Democrat","Republican","Independent")
data2
## Democrat Republican Independent
## Female 495 272 590
## Male 330 265 498
chisq.test(data2)$expected
## Democrat Republican Independent
## Female 456.949 297.4322 602.6188
## Male 368.051 239.5678 485.3812
Frekuensi harapan menunjukkan distribusi yang diharapkan jika tidak ada hubungan antara variabel.
chisq.test(data2)
##
## Pearson's Chi-squared test
##
## data: data2
## X-squared = 12.569, df = 2, p-value = 0.001865
Hasil menunjukkan bahwa terdapat hubungan antara gender dan preferensi politik.
chisq.test(data2)$residuals
## Democrat Republican Independent
## Female 1.780051 -1.474656 -0.5140388
## Male -1.983409 1.643125 0.5727640
Residual digunakan untuk melihat kontribusi masing-masing sel terhadap nilai chi-square.
mosaicplot(data2, color = TRUE,
main="Mosaic Plot Gender vs Politik")
barplot(prop.table(data2,1),
beside = TRUE,
legend = TRUE,
main="Proporsi Preferensi Politik")
res <- chisq.test(data2)$residuals
image(t(res[nrow(res):1,]), axes=FALSE, main="Heatmap Residual")
axis(1, at=seq(0,1,length.out=3), labels=colnames(res))
axis(2, at=seq(0,1,length.out=2), labels=rev(rownames(res)))
Visualisasi menunjukkan adanya pola tertentu dalam preferensi politik berdasarkan gender.
Terdapat hubungan antara gender dan preferensi partai politik.
Secara keseluruhan, analisis tabel kontingensi dua arah menunjukkan bahwa metode ini sangat efektif dalam mengidentifikasi hubungan antara variabel kategorik.
Pada kasus pertama, merokok terbukti meningkatkan risiko kanker paru secara signifikan. Pada kasus kedua, gender memiliki pengaruh terhadap preferensi politik.
Dengan menggunakan pendekatan inferensi statistik, hasil yang diperoleh tidak hanya bersifat deskriptif tetapi juga memiliki dasar pengambilan keputusan yang kuat secara ilmiah.