Analisis data kategori merupakan salah satu cabang penting dalam statistika yang digunakan untuk menganalisis data yang berbentuk kategori atau klasifikasi. Data kategori sering muncul dalam berbagai bidang penelitian seperti kesehatan, pendidikan, ilmu sosial, dan ekonomi. Berbeda dengan data numerik yang dianalisis menggunakan metode statistik parametrik seperti regresi linear, data kategori memerlukan pendekatan analisis yang berbeda karena nilai variabelnya bersifat diskrit dan biasanya merepresentasikan kelompok atau kelas tertentu.
Referensi klasik dalam analisis data kategori antara lain Agresti (2013), yang menjelaskan berbagai metode analisis untuk data kategorik termasuk tabel kontingensi, regresi logistik, dan model log-linear.
Analisis data kategori adalah metode statistik yang digunakan untuk menganalisis hubungan antara variabel yang berskala nominal atau ordinal. Variabel kategori tidak memiliki makna numerik intrinsik, tetapi merepresentasikan kelompok atau klasifikasi tertentu.
Menurut Agresti (2013), analisis data kategorik bertujuan untuk:
Variabel kategori memiliki beberapa karakteristik utama:
Contoh variabel kategori:
| Variabel | Kategori |
|---|---|
| Jenis kelamin | Laki-laki, Perempuan |
| Status merokok | Perokok, Tidak Perokok |
| Status vaksin | Vaksin, Tidak vaksin |
Analisis data kategori sering digunakan dalam berbagai penelitian:
Tabel kontingensi adalah tabel yang digunakan untuk menampilkan distribusi frekuensi dari dua atau lebih variabel kategori secara bersamaan.
Tabel ini membantu peneliti melihat pola hubungan antar variabel.
Contoh tabel kontingensi 2×2:
| Penyakit | Tidak Penyakit | Total | |
|---|---|---|---|
| Terpapar | a | b | a+b |
| Tidak Terpapar | c | d | c+d |
| Total | a+c | b+d | n |
Joint distribution adalah distribusi peluang dari kombinasi dua variabel.
Secara matematis:
\[ P(X=i, Y=j) = \frac{n_{ij}}{n} \]
di mana:
Distribusi marginal diperoleh dengan menjumlahkan nilai pada baris atau kolom.
Contoh:
\[ P(X=i) = \sum_j P(X=i, Y=j) \]
atau
\[ P(Y=j) = \sum_i P(X=i, Y=j) \]
Peluang bersyarat menunjukkan peluang suatu kejadian jika kejadian lain diketahui.
Contoh:
\[ P(Y=j|X=i) = \frac{P(X=i,Y=j)}{P(X=i)} \]
Odds merupakan perbandingan antara peluang terjadinya suatu kejadian dengan peluang tidak terjadinya kejadian tersebut.
\[ Odds = \frac{p}{1-p} \]
Dalam tabel kontingensi:
\[ Odds = \frac{a}{b} \]
Odds Ratio (OR) digunakan untuk membandingkan odds dari dua kelompok.
\[ OR = \frac{a/b}{c/d} \]
atau
\[ OR = \frac{ad}{bc} \]
Interpretasi:
Relative Risk (RR) membandingkan peluang kejadian pada kelompok terpapar dengan kelompok tidak terpapar.
\[ RR = \frac{a/(a+b)}{c/(c+d)} \]
Interpretasi:
Misalkan diperoleh data berikut:
| Kanker | Tidak Kanker | Total | |
|---|---|---|---|
| Perokok | 40 | 60 | 100 |
| Tidak Perokok | 10 | 90 | 100 |
Peluang kanker pada perokok:
\[ P(Kanker|Perokok) = \frac{40}{100} = 0.4 \]
Peluang kanker pada non-perokok:
\[ P(Kanker|Tidak\ Perokok) = \frac{10}{100} = 0.1 \]
Odds kanker pada perokok:
\[ Odds = \frac{40}{60} = 0.67 \]
Odds kanker pada non-perokok:
\[ Odds = \frac{10}{90} = 0.11 \]
\[ OR = \frac{40 \times 90}{60 \times 10} \]
\[ OR = \frac{3600}{600} \]
\[ OR = 6 \]
Interpretasi: perokok memiliki odds terkena kanker paru sekitar 6 kali lebih besar dibandingkan non-perokok.
# Membuat tabel kontingensi
data <- matrix(c(40,60,10,90),
nrow = 2,
byrow = TRUE)
colnames(data) <- c("Kanker","Tidak_Kanker")
rownames(data) <- c("Perokok","Tidak_Perokok")
data
# Menghitung Odds Ratio
library(epitools)
oddsratio(data)
# Uji Chi Square
chisq.test(data)
Jika nilai odds ratio lebih besar dari 1 dan uji chi-square menunjukkan p-value < 0.05, maka terdapat hubungan yang signifikan antara kebiasaan merokok dan kejadian kanker paru.
Hasil analisis menunjukkan bahwa individu yang merokok memiliki kemungkinan yang jauh lebih tinggi untuk mengalami kanker paru dibandingkan individu yang tidak merokok. Hal ini mendukung banyak penelitian epidemiologi yang menunjukkan bahwa merokok merupakan faktor risiko utama kanker paru.
Agresti, A. (2013). Categorical Data Analysis. Wiley.