Identitas Mahasiswa

Nama : Stefanie Aurelia C. H.
NPM : 140610240096


Pendahuluan

Analisis data kategorik merupakan cabang dari statistika yang digunakan untuk menganalisis data yang berbentuk kategori atau klasifikasi. Berbeda dengan data numerik, data kategorik tidak memiliki nilai kontinu, melainkan berupa label seperti jenis kelamin, status merokok, atau preferensi politik.

Salah satu metode utama dalam analisis data kategorik adalah tabel kontingensi dua arah. Tabel ini digunakan untuk melihat hubungan antara dua variabel kategorik dengan menyajikan frekuensi gabungan dari masing-masing kategori.

Dalam konteks inferensi statistik, tujuan utama dari analisis ini bukan hanya mendeskripsikan data sampel, tetapi juga menarik kesimpulan mengenai populasi. Oleh karena itu, digunakan berbagai metode seperti estimasi proporsi, interval kepercayaan, serta uji hipotesis seperti uji chi-square, uji dua proporsi, likelihood ratio test, dan Fisher exact test.

Pada laporan ini akan dianalisis dua kasus utama, yaitu hubungan antara kebiasaan merokok dengan kanker paru serta hubungan antara gender dengan preferensi partai politik.


KASUS 1: Merokok vs Kanker Paru

Penyusunan Data

data1 <- matrix(c(688, 650,
                  21, 59),
                nrow = 2, byrow = TRUE)
rownames(data1) <- c("Smoker", "Non-Smoker")
colnames(data1) <- c("Cancer", "Control")
data1
##            Cancer Control
## Smoker        688     650
## Non-Smoker     21      59

Data di atas menunjukkan jumlah individu yang dikelompokkan berdasarkan status merokok dan kejadian kanker paru. Kelompok smoker memiliki jumlah kasus kanker yang jauh lebih besar dibandingkan kelompok non-smoker.

Estimasi Proporsi

p1 <- 688/1338
p2 <- 21/80
p1; p2
## [1] 0.5142003
## [1] 0.2625

Proporsi kanker paru pada kelompok smoker sebesar 0.5142 sedangkan pada kelompok non-smoker sebesar 0.2625.

Perbedaan ini sangat signifikan secara deskriptif, di mana kelompok perokok memiliki peluang yang jauh lebih tinggi untuk mengalami kanker paru. Hal ini memberikan indikasi awal bahwa terdapat hubungan antara kebiasaan merokok dan risiko kanker paru.

Interval Kepercayaan

prop.test(688,1338)
## 
##  1-sample proportions test with continuity correction
## 
## data:  688 out of 1338, null probability 0.5
## X-squared = 1.0232, df = 1, p-value = 0.3118
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
##  0.4870445 0.5412736
## sample estimates:
##         p 
## 0.5142003
prop.test(21,80)
## 
##  1-sample proportions test with continuity correction
## 
## data:  21 out of 80, null probability 0.5
## X-squared = 17.113, df = 1, p-value = 3.523e-05
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
##  0.1733064 0.3748263
## sample estimates:
##      p 
## 0.2625

Interval kepercayaan memberikan rentang nilai yang mungkin untuk parameter populasi. Jika interval dari kedua kelompok tidak tumpang tindih secara signifikan, maka dapat disimpulkan bahwa terdapat perbedaan nyata antara kedua kelompok.

Dalam kasus ini, interval kepercayaan untuk smoker cenderung berada pada nilai yang lebih tinggi dibandingkan non-smoker, yang semakin memperkuat dugaan adanya hubungan.

Ukuran Asosiasi

library(epitools)
riskratio(data1)
## $data
##            Cancer Control Total
## Smoker        688     650  1338
## Non-Smoker     21      59    80
## Total         709     709  1418
## 
## $measure
##                         NA
## risk ratio with 95% C.I. estimate    lower    upper
##               Smoker     1.000000       NA       NA
##               Non-Smoker 1.518115 1.317306 1.749536
## 
## $p.value
##             NA
## two-sided      midp.exact fisher.exact   chi.square
##   Smoker               NA           NA           NA
##   Non-Smoker 9.747013e-06 1.476303e-05 1.221601e-05
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
oddsratio(data1)
## $data
##            Cancer Control Total
## Smoker        688     650  1338
## Non-Smoker     21      59    80
## Total         709     709  1418
## 
## $measure
##                         NA
## odds ratio with 95% C.I. estimate    lower    upper
##               Smoker     1.000000       NA       NA
##               Non-Smoker 2.957353 1.803249 5.040264
## 
## $p.value
##             NA
## two-sided      midp.exact fisher.exact   chi.square
##   Smoker               NA           NA           NA
##   Non-Smoker 9.747013e-06 1.476303e-05 1.221601e-05
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"

Ukuran asosiasi digunakan untuk mengukur kekuatan hubungan antara dua variabel.

Risk Difference menunjukkan selisih risiko antara dua kelompok. Nilai ini memberikan gambaran absolut mengenai peningkatan risiko akibat merokok.

Risk Ratio menunjukkan berapa kali lipat risiko pada kelompok smoker dibandingkan non-smoker. Jika nilai lebih besar dari 1, maka terdapat peningkatan risiko.

Odds Ratio mengukur perbandingan peluang kejadian antara dua kelompok. Nilai OR yang jauh di atas 1 menunjukkan hubungan yang kuat antara merokok dan kanker paru.

Ketiga ukuran ini secara konsisten menunjukkan bahwa merokok merupakan faktor risiko utama dalam kejadian kanker paru.

Uji Hipotesis

prop.test(c(688,21), c(1338,80))
## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c(688, 21) out of c(1338, 80)
## X-squared = 18.136, df = 1, p-value = 2.057e-05
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  0.1450106 0.3583900
## sample estimates:
##    prop 1    prop 2 
## 0.5142003 0.2625000
chisq.test(data1, correct = FALSE)
## 
##  Pearson's Chi-squared test
## 
## data:  data1
## X-squared = 19.129, df = 1, p-value = 1.222e-05
library(DescTools)
## Warning: package 'DescTools' was built under R version 4.4.3
GTest(data1)
## 
##  Log likelihood ratio (G-test) test of independence without correction
## 
## data:  data1
## G = 19.878, X-squared df = 1, p-value = 8.254e-06
fisher.test(data1)
## 
##  Fisher's Exact Test for Count Data
## 
## data:  data1
## p-value = 1.476e-05
## alternative hypothesis: true odds ratio is not equal to 1
## 95 percent confidence interval:
##  1.755611 5.210711
## sample estimates:
## odds ratio 
##   2.971634

Uji hipotesis dilakukan untuk menguji apakah hubungan yang terlihat secara deskriptif benar-benar signifikan secara statistik.

Uji dua proporsi digunakan untuk membandingkan proporsi antara dua kelompok. Uji chi-square digunakan untuk menguji independensi antara dua variabel. Likelihood ratio test merupakan alternatif dari chi-square yang berbasis likelihood. Fisher exact test digunakan ketika ukuran sampel kecil.

Semua uji menunjukkan p-value yang sangat kecil, sehingga hipotesis nol ditolak. Artinya terdapat hubungan yang signifikan antara merokok dan kanker paru.

Visualisasi

mosaicplot(data1, color = TRUE)

barplot(prop.table(data1,1), beside = TRUE, legend = TRUE)

Visualisasi memperkuat hasil analisis dengan menunjukkan secara grafis perbedaan proporsi antara kelompok.

Kesimpulan Kasus 1

Berdasarkan seluruh analisis, dapat disimpulkan bahwa terdapat hubungan yang sangat kuat antara kebiasaan merokok dan kejadian kanker paru. Individu yang merokok memiliki risiko yang jauh lebih tinggi untuk terkena kanker paru dibandingkan dengan individu yang tidak merokok.


KASUS 2: Gender vs Partai Politik

Penyusunan Data

data2 <- matrix(c(495,272,590,
                  330,265,498),
                nrow = 2, byrow = TRUE)
rownames(data2) <- c("Female","Male")
colnames(data2) <- c("Democrat","Republican","Independent")
data2
##        Democrat Republican Independent
## Female      495        272         590
## Male        330        265         498

Frekuensi Harapan

chisq.test(data2)$expected
##        Democrat Republican Independent
## Female  456.949   297.4322    602.6188
## Male    368.051   239.5678    485.3812

Frekuensi harapan menunjukkan nilai yang diharapkan jika tidak ada hubungan antara variabel.

Uji Chi-Square

chisq.test(data2)
## 
##  Pearson's Chi-squared test
## 
## data:  data2
## X-squared = 12.569, df = 2, p-value = 0.001865

Hasil uji ini menunjukkan apakah terdapat hubungan antara gender dan preferensi politik.

Residual Pearson

chisq.test(data2)$residuals
##         Democrat Republican Independent
## Female  1.780051  -1.474656  -0.5140388
## Male   -1.983409   1.643125   0.5727640

Residual digunakan untuk melihat kontribusi masing-masing sel terhadap nilai chi-square.

Partisi Chi-Square

sub1 <- data2[,1:2]
chisq.test(sub1)
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  sub1
## X-squared = 11.178, df = 1, p-value = 0.0008279
sub2 <- cbind(data2[,1]+data2[,2], data2[,3])
chisq.test(sub2)
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  sub2
## X-squared = 0.98267, df = 1, p-value = 0.3215

Partisi membantu mengidentifikasi bagian mana yang paling berkontribusi terhadap hubungan.

Visualisasi

mosaicplot(data2, color = TRUE)

barplot(prop.table(data2,1), beside = TRUE, legend = TRUE)

Kesimpulan Kasus 2

Analisis menunjukkan bahwa terdapat hubungan antara gender dan preferensi partai politik. Beberapa kategori memiliki kontribusi lebih besar terhadap hubungan tersebut.


Kesimpulan Akhir

Secara keseluruhan, analisis ini menunjukkan bahwa metode inferensi pada tabel kontingensi sangat efektif dalam mengidentifikasi hubungan antar variabel kategorik. Pada kasus pertama, merokok terbukti menjadi faktor risiko utama kanker paru. Pada kasus kedua, gender memiliki pengaruh terhadap preferensi politik.

Hasil ini menegaskan pentingnya penggunaan metode statistik dalam pengambilan keputusan berbasis data.