Identitas Mahasiswa

Nama : Gania Zarakova Vijkonavo
NPM : 140610240083


Pendahuluan

Analisis data kategorik merupakan salah satu bagian penting dalam statistika yang digunakan untuk memahami hubungan antara variabel yang berbentuk kategori. Berbeda dengan data numerik, data kategorik tidak dapat diolah menggunakan operasi matematis biasa, sehingga diperlukan metode khusus untuk menganalisisnya.

Dalam kehidupan sehari-hari, banyak fenomena yang dapat dikategorikan, seperti status merokok (smoker dan non-smoker), jenis kelamin (pria dan wanita), serta preferensi politik (Demokrat, Republik, Independen). Oleh karena itu, analisis terhadap data kategorik memiliki peranan penting dalam berbagai bidang, termasuk kesehatan, sosial, dan politik.

Salah satu metode yang sering digunakan adalah tabel kontingensi dua arah. Tabel ini memungkinkan peneliti untuk melihat hubungan antara dua variabel kategorik melalui distribusi frekuensi. Namun, analisis tidak hanya berhenti pada penyajian data, melainkan juga mencakup inferensi statistik seperti estimasi proporsi, interval kepercayaan, ukuran asosiasi, serta pengujian hipotesis.


KASUS 1: Merokok vs Kanker Paru

Penyusunan Data

data1 <- matrix(c(688, 650,
                  21, 59),
                nrow = 2, byrow = TRUE)

rownames(data1) <- c("Smoker", "Non-Smoker")
colnames(data1) <- c("Cancer", "Control")

data1
##            Cancer Control
## Smoker        688     650
## Non-Smoker     21      59

Tabel di atas menunjukkan distribusi individu berdasarkan status merokok dan kejadian kanker paru. Terlihat bahwa jumlah penderita kanker paru pada kelompok smoker jauh lebih besar dibandingkan non-smoker.


Estimasi Proporsi

p1 <- 688/1338
p2 <- 21/80

p1; p2
## [1] 0.5142003
## [1] 0.2625

Proporsi kanker paru pada kelompok smoker adalah 0.5142 sedangkan pada kelompok non-smoker adalah 0.2625.

Perbedaan ini menunjukkan adanya indikasi bahwa merokok dapat meningkatkan risiko kanker paru. Secara deskriptif, kelompok smoker memiliki kemungkinan lebih besar mengalami kanker paru dibandingkan non-smoker.


Interval Kepercayaan

ci1 <- prop.test(688,1338)
ci2 <- prop.test(21,80)

ci1
## 
##  1-sample proportions test with continuity correction
## 
## data:  688 out of 1338, null probability 0.5
## X-squared = 1.0232, df = 1, p-value = 0.3118
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
##  0.4870445 0.5412736
## sample estimates:
##         p 
## 0.5142003
ci2
## 
##  1-sample proportions test with continuity correction
## 
## data:  21 out of 80, null probability 0.5
## X-squared = 17.113, df = 1, p-value = 3.523e-05
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
##  0.1733064 0.3748263
## sample estimates:
##      p 
## 0.2625

Interval kepercayaan digunakan untuk memberikan rentang nilai estimasi proporsi dalam populasi. Jika interval antara dua kelompok tidak banyak tumpang tindih, maka perbedaan tersebut dapat dianggap signifikan.

Pada kasus ini, interval kepercayaan kelompok smoker berada pada nilai yang lebih tinggi dibandingkan non-smoker, yang memperkuat dugaan adanya perbedaan nyata.


Ukuran Asosiasi

RD <- p1 - p2
RR <- p1 / p2
OR <- (688*59)/(650*21)

RD; RR; OR
## [1] 0.2517003
## [1] 1.958858
## [1] 2.973773

Interpretasi:

  • Risk Difference (RD) menunjukkan selisih risiko antar kelompok
  • Risk Ratio (RR) menunjukkan perbandingan risiko relatif
  • Odds Ratio (OR) menunjukkan perbandingan peluang

Nilai OR yang jauh lebih besar dari 1 menunjukkan bahwa peluang kanker paru pada smoker jauh lebih tinggi dibandingkan non-smoker.


Uji Hipotesis

prop.test(c(688,21), c(1338,80))
## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c(688, 21) out of c(1338, 80)
## X-squared = 18.136, df = 1, p-value = 2.057e-05
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  0.1450106 0.3583900
## sample estimates:
##    prop 1    prop 2 
## 0.5142003 0.2625000
chisq.test(data1, correct = FALSE)
## 
##  Pearson's Chi-squared test
## 
## data:  data1
## X-squared = 19.129, df = 1, p-value = 1.222e-05
fisher.test(data1)
## 
##  Fisher's Exact Test for Count Data
## 
## data:  data1
## p-value = 1.476e-05
## alternative hypothesis: true odds ratio is not equal to 1
## 95 percent confidence interval:
##  1.755611 5.210711
## sample estimates:
## odds ratio 
##   2.971634

Semua uji menunjukkan p-value yang sangat kecil, sehingga hipotesis nol ditolak. Artinya, terdapat hubungan yang signifikan antara merokok dan kanker paru.


Visualisasi

mosaicplot(data1, color = TRUE,
           main="Mosaic Plot Merokok vs Kanker Paru")

barplot(prop.table(data1,1),
        beside = TRUE,
        legend = TRUE,
        main="Proporsi Kanker Paru")

prop <- prop.table(data1,1)
plot(prop[1,], type="b", pch=16, ylim=c(0,1),
     xlab="Kategori", ylab="Proporsi",
     main="Perbandingan Proporsi")
lines(prop[2,], type="b", pch=17)
legend("topright", legend=c("Smoker","Non-Smoker"), pch=c(16,17))

Visualisasi memperjelas bahwa kelompok smoker memiliki proporsi kanker paru yang lebih tinggi dibandingkan non-smoker.


Kesimpulan Kasus 1

Berdasarkan seluruh analisis, dapat disimpulkan bahwa merokok memiliki hubungan yang signifikan dengan kanker paru dan merupakan faktor risiko yang kuat.


KASUS 2: Gender vs Partai Politik

Penyusunan Data

data2 <- matrix(c(495,272,590,
                  330,265,498),
                nrow = 2, byrow = TRUE)

rownames(data2) <- c("Female","Male")
colnames(data2) <- c("Democrat","Republican","Independent")

data2
##        Democrat Republican Independent
## Female      495        272         590
## Male        330        265         498

Frekuensi Harapan

chisq.test(data2)$expected
##        Democrat Republican Independent
## Female  456.949   297.4322    602.6188
## Male    368.051   239.5678    485.3812

Frekuensi harapan menunjukkan distribusi yang diharapkan jika tidak ada hubungan antara variabel.


Uji Chi-Square

chisq.test(data2)
## 
##  Pearson's Chi-squared test
## 
## data:  data2
## X-squared = 12.569, df = 2, p-value = 0.001865

Hasil menunjukkan bahwa terdapat hubungan antara gender dan preferensi politik.


Residual Pearson

chisq.test(data2)$residuals
##         Democrat Republican Independent
## Female  1.780051  -1.474656  -0.5140388
## Male   -1.983409   1.643125   0.5727640

Residual digunakan untuk melihat kontribusi masing-masing sel terhadap nilai chi-square.


Visualisasi

mosaicplot(data2, color = TRUE,
           main="Mosaic Plot Gender vs Politik")

barplot(prop.table(data2,1),
        beside = TRUE,
        legend = TRUE,
        main="Proporsi Preferensi Politik")

res <- chisq.test(data2)$residuals
image(t(res[nrow(res):1,]), axes=FALSE, main="Heatmap Residual")
axis(1, at=seq(0,1,length.out=3), labels=colnames(res))
axis(2, at=seq(0,1,length.out=2), labels=rev(rownames(res)))

Visualisasi menunjukkan adanya pola tertentu dalam preferensi politik berdasarkan gender.


Kesimpulan Kasus 2

Terdapat hubungan antara gender dan preferensi partai politik.


Kesimpulan Akhir

Secara keseluruhan, analisis tabel kontingensi dua arah menunjukkan bahwa metode ini sangat efektif dalam mengidentifikasi hubungan antara variabel kategorik.

Pada kasus pertama, merokok terbukti meningkatkan risiko kanker paru secara signifikan. Pada kasus kedua, gender memiliki pengaruh terhadap preferensi politik.

Dengan menggunakan pendekatan inferensi statistik, hasil yang diperoleh tidak hanya bersifat deskriptif tetapi juga memiliki dasar pengambilan keputusan yang kuat secara ilmiah.