Nama : Stefanie Aurelia C. H.
NPM : 140610240096
Analisis data kategorik merupakan cabang dari statistika yang digunakan untuk menganalisis data yang berbentuk kategori atau klasifikasi. Berbeda dengan data numerik, data kategorik tidak memiliki nilai kontinu, melainkan berupa label seperti jenis kelamin, status merokok, atau preferensi politik.
Salah satu metode utama dalam analisis data kategorik adalah tabel kontingensi dua arah. Tabel ini digunakan untuk melihat hubungan antara dua variabel kategorik dengan menyajikan frekuensi gabungan dari masing-masing kategori.
Dalam konteks inferensi statistik, tujuan utama dari analisis ini bukan hanya mendeskripsikan data sampel, tetapi juga menarik kesimpulan mengenai populasi. Oleh karena itu, digunakan berbagai metode seperti estimasi proporsi, interval kepercayaan, serta uji hipotesis seperti uji chi-square, uji dua proporsi, likelihood ratio test, dan Fisher exact test.
Pada laporan ini akan dianalisis dua kasus utama, yaitu hubungan antara kebiasaan merokok dengan kanker paru serta hubungan antara gender dengan preferensi partai politik.
data1 <- matrix(c(688, 650,
21, 59),
nrow = 2, byrow = TRUE)
rownames(data1) <- c("Smoker", "Non-Smoker")
colnames(data1) <- c("Cancer", "Control")
data1## Cancer Control
## Smoker 688 650
## Non-Smoker 21 59
Data di atas menunjukkan jumlah individu yang dikelompokkan berdasarkan status merokok dan kejadian kanker paru. Kelompok smoker memiliki jumlah kasus kanker yang jauh lebih besar dibandingkan kelompok non-smoker.
## [1] 0.5142003
## [1] 0.2625
Proporsi kanker paru pada kelompok smoker sebesar 0.5142 sedangkan pada kelompok non-smoker sebesar 0.2625.
Perbedaan ini sangat signifikan secara deskriptif, di mana kelompok perokok memiliki peluang yang jauh lebih tinggi untuk mengalami kanker paru. Hal ini memberikan indikasi awal bahwa terdapat hubungan antara kebiasaan merokok dan risiko kanker paru.
##
## 1-sample proportions test with continuity correction
##
## data: 688 out of 1338, null probability 0.5
## X-squared = 1.0232, df = 1, p-value = 0.3118
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.4870445 0.5412736
## sample estimates:
## p
## 0.5142003
##
## 1-sample proportions test with continuity correction
##
## data: 21 out of 80, null probability 0.5
## X-squared = 17.113, df = 1, p-value = 3.523e-05
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.1733064 0.3748263
## sample estimates:
## p
## 0.2625
Interval kepercayaan memberikan rentang nilai yang mungkin untuk parameter populasi. Jika interval dari kedua kelompok tidak tumpang tindih secara signifikan, maka dapat disimpulkan bahwa terdapat perbedaan nyata antara kedua kelompok.
Dalam kasus ini, interval kepercayaan untuk smoker cenderung berada pada nilai yang lebih tinggi dibandingkan non-smoker, yang semakin memperkuat dugaan adanya hubungan.
## $data
## Cancer Control Total
## Smoker 688 650 1338
## Non-Smoker 21 59 80
## Total 709 709 1418
##
## $measure
## NA
## risk ratio with 95% C.I. estimate lower upper
## Smoker 1.000000 NA NA
## Non-Smoker 1.518115 1.317306 1.749536
##
## $p.value
## NA
## two-sided midp.exact fisher.exact chi.square
## Smoker NA NA NA
## Non-Smoker 9.747013e-06 1.476303e-05 1.221601e-05
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
## $data
## Cancer Control Total
## Smoker 688 650 1338
## Non-Smoker 21 59 80
## Total 709 709 1418
##
## $measure
## NA
## odds ratio with 95% C.I. estimate lower upper
## Smoker 1.000000 NA NA
## Non-Smoker 2.957353 1.803249 5.040264
##
## $p.value
## NA
## two-sided midp.exact fisher.exact chi.square
## Smoker NA NA NA
## Non-Smoker 9.747013e-06 1.476303e-05 1.221601e-05
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
Ukuran asosiasi digunakan untuk mengukur kekuatan hubungan antara dua variabel.
Risk Difference menunjukkan selisih risiko antara dua kelompok. Nilai ini memberikan gambaran absolut mengenai peningkatan risiko akibat merokok.
Risk Ratio menunjukkan berapa kali lipat risiko pada kelompok smoker dibandingkan non-smoker. Jika nilai lebih besar dari 1, maka terdapat peningkatan risiko.
Odds Ratio mengukur perbandingan peluang kejadian antara dua kelompok. Nilai OR yang jauh di atas 1 menunjukkan hubungan yang kuat antara merokok dan kanker paru.
Ketiga ukuran ini secara konsisten menunjukkan bahwa merokok merupakan faktor risiko utama dalam kejadian kanker paru.
##
## 2-sample test for equality of proportions with continuity correction
##
## data: c(688, 21) out of c(1338, 80)
## X-squared = 18.136, df = 1, p-value = 2.057e-05
## alternative hypothesis: two.sided
## 95 percent confidence interval:
## 0.1450106 0.3583900
## sample estimates:
## prop 1 prop 2
## 0.5142003 0.2625000
##
## Pearson's Chi-squared test
##
## data: data1
## X-squared = 19.129, df = 1, p-value = 1.222e-05
## Warning: package 'DescTools' was built under R version 4.4.3
##
## Log likelihood ratio (G-test) test of independence without correction
##
## data: data1
## G = 19.878, X-squared df = 1, p-value = 8.254e-06
##
## Fisher's Exact Test for Count Data
##
## data: data1
## p-value = 1.476e-05
## alternative hypothesis: true odds ratio is not equal to 1
## 95 percent confidence interval:
## 1.755611 5.210711
## sample estimates:
## odds ratio
## 2.971634
Uji hipotesis dilakukan untuk menguji apakah hubungan yang terlihat secara deskriptif benar-benar signifikan secara statistik.
Uji dua proporsi digunakan untuk membandingkan proporsi antara dua kelompok. Uji chi-square digunakan untuk menguji independensi antara dua variabel. Likelihood ratio test merupakan alternatif dari chi-square yang berbasis likelihood. Fisher exact test digunakan ketika ukuran sampel kecil.
Semua uji menunjukkan p-value yang sangat kecil, sehingga hipotesis nol ditolak. Artinya terdapat hubungan yang signifikan antara merokok dan kanker paru.
Visualisasi memperkuat hasil analisis dengan menunjukkan secara grafis perbedaan proporsi antara kelompok.
Berdasarkan seluruh analisis, dapat disimpulkan bahwa terdapat hubungan yang sangat kuat antara kebiasaan merokok dan kejadian kanker paru. Individu yang merokok memiliki risiko yang jauh lebih tinggi untuk terkena kanker paru dibandingkan dengan individu yang tidak merokok.
data2 <- matrix(c(495,272,590,
330,265,498),
nrow = 2, byrow = TRUE)
rownames(data2) <- c("Female","Male")
colnames(data2) <- c("Democrat","Republican","Independent")
data2## Democrat Republican Independent
## Female 495 272 590
## Male 330 265 498
## Democrat Republican Independent
## Female 456.949 297.4322 602.6188
## Male 368.051 239.5678 485.3812
Frekuensi harapan menunjukkan nilai yang diharapkan jika tidak ada hubungan antara variabel.
##
## Pearson's Chi-squared test
##
## data: data2
## X-squared = 12.569, df = 2, p-value = 0.001865
Hasil uji ini menunjukkan apakah terdapat hubungan antara gender dan preferensi politik.
## Democrat Republican Independent
## Female 1.780051 -1.474656 -0.5140388
## Male -1.983409 1.643125 0.5727640
Residual digunakan untuk melihat kontribusi masing-masing sel terhadap nilai chi-square.
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: sub1
## X-squared = 11.178, df = 1, p-value = 0.0008279
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: sub2
## X-squared = 0.98267, df = 1, p-value = 0.3215
Partisi membantu mengidentifikasi bagian mana yang paling berkontribusi terhadap hubungan.
Analisis menunjukkan bahwa terdapat hubungan antara gender dan preferensi partai politik. Beberapa kategori memiliki kontribusi lebih besar terhadap hubungan tersebut.
Secara keseluruhan, analisis ini menunjukkan bahwa metode inferensi pada tabel kontingensi sangat efektif dalam mengidentifikasi hubungan antar variabel kategorik. Pada kasus pertama, merokok terbukti menjadi faktor risiko utama kanker paru. Pada kasus kedua, gender memiliki pengaruh terhadap preferensi politik.
Hasil ini menegaskan pentingnya penggunaan metode statistik dalam pengambilan keputusan berbasis data.