Analisis data kategori merupakan salah satu metode penting dalam statistika yang digunakan untuk menganalisis data yang berbentuk kategori atau klasifikasi. Dalam berbagai penelitian, variabel yang diamati tidak selalu berupa angka, tetapi sering kali berbentuk kategori seperti jenis kelamin, status merokok, atau status kesehatan.
Salah satu metode yang paling umum digunakan dalam analisis data kategori adalah tabel kontingensi. Tabel ini memungkinkan peneliti untuk melihat hubungan antara dua variabel kategorik melalui distribusi frekuensi pada setiap kombinasi kategori.
Melalui tabel kontingensi, peneliti juga dapat menghitung berbagai ukuran asosiasi seperti Odds Ratio, Relative Risk, serta melakukan pengujian statistik seperti Chi-Square Test untuk mengetahui apakah hubungan antar variabel tersebut signifikan secara statistik.
Ebook ini membahas konsep dasar analisis data kategori, struktur tabel kontingensi 2x2, distribusi peluang, ukuran asosiasi, serta contoh analisis menggunakan perangkat lunak R.
Definisi
Analisis data kategori merupakan metode statistik yang digunakan untuk menganalisis data yang berbentuk kategori atau klasifikasi. Variabel kategori adalah variabel yang nilainya berupa label atau kelompok tertentu sehingga tidak memiliki makna numerik secara langsung.
Tujuan Analisis Data Kategori
Tabel kontingensi adalah tabel yang menyajikan distribusi frekuensi dari dua atau lebih variabel kategorik secara bersamaan. Tabel ini membantu peneliti dalam mengamati pola hubungan antara variabel.
| Sakit Paru | Tidak Sakit | Total | |
|---|---|---|---|
| Merokok | a | b | a+b |
| Tidak Merokok | c | d | c+d |
| Total | a+c | b+d | N |
Penelitian dilakukan untuk mengetahui hubungan antara kebiasaan merokok dan kejadian penyakit paru pada 200 pasien.
data_paru <- matrix(c(40,60,10,90), nrow=2, byrow=TRUE)
rownames(data_paru) <- c("Merokok","Tidak Merokok")
colnames(data_paru) <- c("Sakit Paru","Tidak Sakit")
data_paru## Sakit Paru Tidak Sakit
## Merokok 40 60
## Tidak Merokok 10 90
Distribusi peluang dalam tabel kontingensi digunakan untuk menghitung probabilitas suatu kejadian berdasarkan frekuensi yang diperoleh dari sampel penelitian.
\[ \pi_{ij} = \frac{n_{ij}}{N} \]
## [1] 0.2
\[ \pi_{i+} = \frac{n_{i+}}{N} \]
## [1] 0.5
barplot(data_paru,
beside=TRUE,
col=c("#3498DB","#E74C3C"),
legend=TRUE,
main="Distribusi Penyakit Paru Berdasarkan Status Merokok")barplot(prop.table(data_paru,1),
beside=TRUE,
col=c("#2E86C1","#E74C3C"),
legend=TRUE,
main="Proporsi Penyakit Paru Berdasarkan Status Merokok")##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: data_paru
## X-squared = 22.427, df = 1, p-value = 2.183e-06
Jika p-value < 0.05, maka terdapat hubungan yang signifikan antara variabel merokok dan penyakit paru.
Nilai Odds Ratio sebesar 6 menunjukkan bahwa individu yang merokok memiliki peluang lebih besar mengalami penyakit paru dibandingkan individu yang tidak merokok.
Nilai Relative Risk sebesar 4 juga menunjukkan bahwa risiko penyakit paru pada kelompok perokok lebih tinggi dibandingkan kelompok yang tidak merokok.
Berdasarkan analisis yang telah dilakukan, tabel kontingensi dapat digunakan untuk melihat hubungan antara dua variabel kategorik.
Hasil analisis menunjukkan bahwa kebiasaan merokok memiliki hubungan dengan kejadian penyakit paru. Hal ini terlihat dari nilai Odds Ratio dan Relative Risk yang lebih besar dari 1.
Selain itu, uji Chi-Square digunakan untuk menentukan apakah hubungan tersebut signifikan secara statistik.
Dengan demikian, kebiasaan merokok dapat dianggap sebagai salah satu faktor risiko terhadap penyakit paru dalam studi kasus ini.