Analisis data kategori merupakan metode statistik yang digunakan untuk menganalisis data yang berbentuk kategori atau klasifikasi. Data kategori menggambarkan pengelompokan suatu objek atau individu ke dalam kelompok tertentu berdasarkan karakteristik yang dimilikinya. Berbeda dengan data numerik yang bersifat kuantitatif, data kategori bersifat kualitatif dan biasanya dinyatakan dalam bentuk label.
Variabel kategori memiliki beberapa karakteristik utama. Pertama, nilai variabel berupa label atau kategori seperti ya atau tidak, laki-laki atau perempuan, dan sebagainya. Kedua, variabel kategori tidak memiliki makna numerik secara langsung sehingga operasi matematika seperti penjumlahan atau rata-rata tidak dapat dilakukan secara langsung.
Secara umum variabel kategori dibedakan menjadi dua jenis utama yaitu variabel nominal dan ordinal.
Analisis data kategori banyak digunakan dalam berbagai bidang penelitian, misalnya dalam bidang kesehatan untuk mempelajari hubungan antara kebiasaan merokok dan risiko kanker paru.
Tabel kontingensi menyajikan distribusi frekuensi dari dua variabel kategori.
\[ \begin{array}{c|cc} & \text{Kanker} & \text{Tidak Kanker} \\ \hline \text{Merokok} & a & b \\ \text{Tidak Merokok} & c & d \end{array} \]
Total observasi:
\[ n = a + b + c + d \]
\[ P(\text{Merokok} \cap \text{Kanker}) = \frac{a}{n} \]
\[ P(\text{Merokok}) = \frac{a+b}{n} \]
\[ P(\text{Kanker}) = \frac{a+c}{n} \]
\[ P(\text{Kanker}|\text{Merokok}) = \frac{a}{a+b} \]
Odds merupakan perbandingan antara peluang suatu kejadian dengan peluang tidak terjadinya kejadian tersebut.
\[ Odds = \frac{P}{1-P} \]
Dalam tabel kontingensi:
\[ Odds = \frac{a}{b} \]
Odds Ratio (OR):
\[ OR = \frac{a \times d}{b \times c} \]
Interpretasi:
\[ RR = \frac{\frac{a}{a+b}}{\frac{c}{c+d}} \]
\[ \begin{array}{c|cc} & \text{Kanker} & \text{Tidak Kanker} \\ \hline \text{Merokok} & 60 & 40 \\ \text{Tidak Merokok} & 20 & 80 \end{array} \]
Total observasi:
\[ n = 60 + 40 + 20 + 80 = 200 \]
Peluang bersyarat:
\[ P(\text{Kanker}|\text{Merokok}) = \frac{60}{100} = 0.6 \]
\[ P(\text{Kanker}|\text{Tidak Merokok}) = \frac{20}{100} = 0.2 \]
Odds ratio:
\[ OR = \frac{60 \times 80}{40 \times 20} \]
\[ OR = 6 \]
data <- matrix(c(60,40,20,80),
nrow = 2,
byrow = TRUE)
rownames(data) <- c("Merokok","Tidak Merokok")
colnames(data) <- c("Kanker","Tidak Kanker")
data## Kanker Tidak Kanker
## Merokok 60 40
## Tidak Merokok 20 80
kable(data) %>%
kable_styling(full_width = FALSE,
bootstrap_options = c("striped","hover","condensed"))| Kanker | Tidak Kanker | |
|---|---|---|
| Merokok | 60 | 40 |
| Tidak Merokok | 20 | 80 |
## Kanker Tidak Kanker
## Merokok 0.3 0.2
## Tidak Merokok 0.1 0.4
## Kanker Tidak Kanker
## Merokok 0.6 0.4
## Tidak Merokok 0.2 0.8
## Kanker Tidak Kanker
## Merokok 0.75 0.3333333
## Tidak Merokok 0.25 0.6666667
## Kanker Tidak Kanker
## Merokok 0.6 0.4
## Tidak Merokok 0.2 0.8
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: data
## X-squared = 31.688, df = 1, p-value = 1.811e-08
Nilai Odds Ratio sebesar 6 menunjukkan bahwa individu yang merokok memiliki peluang sekitar enam kali lebih besar untuk mengalami kanker paru dibandingkan dengan individu yang tidak merokok.
Hasil uji chi-square digunakan untuk melihat apakah hubungan tersebut signifikan secara statistik. Jika nilai p-value lebih kecil dari 0.05 maka dapat disimpulkan bahwa terdapat hubungan yang signifikan antara kebiasaan merokok dan kejadian kanker paru.
Secara substantif, hasil ini menunjukkan bahwa merokok merupakan faktor risiko penting terhadap kanker paru sehingga upaya pencegahan seperti edukasi kesehatan masyarakat sangat diperlukan.
Agresti, A. (2013). Categorical Data Analysis. Wiley.
Dobson, A. J., & Barnett, A. (2018). An Introduction to Generalized Linear Models. CRC Press.