Analisis data kategori adalah metode statistik yang digunakan untuk menganalisis data yang berbentuk kategori atau klasifikasi. Berbeda dengan data numerik yang dianalisis menggunakan metode seperti regresi, data kategori biasanya dianalisis menggunakan pendekatan berbasis frekuensi. Analisis data kategori sering menggunakan alat seperti tabel kontingensi, uji chi-square, odds ratio, dan relative risk untuk memahami hubungan antar variabel.
Variabel kategori memiliki beberapa karakteristik utama:
Contoh variabel kategori antara lain:
Misalnya dalam penelitian kesehatan, peneliti sering ingin mengetahui apakah terdapat hubungan antara kebiasaan merokok dan kejadian kanker paru. Dalam penelitian pendidikan, peneliti mungkin ingin mengetahui hubungan antara metode pembelajaran dengan tingkat kelulusan mahasiswa.
Tabel kontingensi adalah tabel yang digunakan untuk menyajikan distribusi frekuensi dari dua atau lebih variabel kategori secara bersamaan. Tabel ini memungkinkan peneliti melihat hubungan antara kategori dari dua variabel.
Contoh tabel kontingensi 2 × 2 ditunjukkan sebagai berikut.
| Penyakit | Tidak Penyakit | |
|---|---|---|
| Merokok | a | b |
| Tidak Merokok | c | d |
Nilai a, b, c, dan d menunjukkan jumlah observasi pada masing-masing kombinasi kategori.
Joint distribution adalah distribusi peluang bersama dari dua variabel kategori. Dalam konteks tabel kontingensi, joint distribution diperoleh dengan membagi setiap sel dengan total observasi.
\[ P(X=i, Y=j) = \frac{n_{ij}}{n} \]
di mana \(n_{ij}\) adalah frekuensi pada sel ke-i dan ke-j, serta \(n\) adalah total observasi.
Contohnya: \[ n=a+b+c+d \] \[ P(Merokok, Penyakit) = \frac{a}{n} \\ P(Merokok, Tidak\:Penyakit) = \frac{b}{n} \\ P(Tidak\:Merokok, Penyakit) = \frac{c}{n} \\ P(Tidak\:Merokok, Tidak\:Penyakit) = \frac{d}{n} \]
Marginal distribution merupakan distribusi peluang dari satu variabel tanpa memperhatikan variabel lainnya. Nilai ini diperoleh dengan menjumlahkan frekuensi pada baris atau kolom tertentu.
\[ P(X=i) = \sum_j P(X=i,Y=j) \]
Sebagai contoh untuk variabel status merokok, peluangnya adalah: \[ P(Merokok) = \frac{a+b}{n} \\ P(Tidak\:Merokok) = \frac{c+d}{n} \]
Sebagai contoh untuk variabel status penyakit, peluangnya adalah: \[ P(Penyakit) = \frac{a+c}{n} \\ P(Tidak\:Penyakit) = \frac{b+d}{n} \]
Conditional probability adalah peluang suatu kejadian dengan syarat kejadian lain telah terjadi.
\[ P(Y=j|X=i) = \frac{P(X=i,Y=j)}{P(X=i)} \]
Konsep ini sangat penting untuk memahami hubungan antara dua variabel kategori.
Contohnya, peluang seseorang mengalami penyakit dengan syarat ia merokok adalah: \[ P(Penyakit|Merokok) = \frac{a}{a+b} \]
Sedangkan, peluang seseorang mengalami penyakit dengan syarat ia tidak merokok adalah: \[ P(Penyakit|Tidak\:Merokok) = \frac{c}{c+d} \]
Dalam tabel kontingensi, hubungan antara dua variabel kategori dapat diukur menggunakan beberapa ukuran asosiasi.
Odds adalah perbandingan antara peluang terjadinya suatu kejadian dengan peluang tidak terjadinya kejadian tersebut.
\[ Odds = \frac{P}{1-P} \]
Dalam tabel kontingensi 2×2, odds kejadian penyakit pada kelompok merokok adalah:
\[ Odds_{merokok} = \frac{a}{b} \]
Odds Ratio (OR) adalah rasio antara dua odds.
\[ OR = \frac{ad}{bc} \]
Interpretasi Odds Ratio:
*dalam contoh, kelompok terpapar merupakan orang yang merokok
Relative Risk (RR) membandingkan peluang kejadian pada dua kelompok.
\[ RR = \frac{a/(a+b)}{c/(c+d)} \]
Interpretasi Relative Risk (RR):
Misalkan dilakukan penelitian sederhana mengenai hubungan antara kebiasaan olahraga dan penyakit jantung.
Data simulasi diperoleh sebagai berikut.
| Penyakit Jantung | Tidak | |
|---|---|---|
| Jarang Olahraga | 40 | 60 |
| Rutin Olahraga | 20 | 80 |
Total observasi adalah:
\[ n = 40 + 60 + 20 + 80 = 200 \]
Peluang penyakit jantung pada kelompok jarang olahraga:
\[ P(Penyakit|Jarang) = \frac{40}{100} = 0.4 \]
Peluang penyakit pada kelompok rutin olahraga:
\[ P(Penyakit|Rutin) = \frac{20}{100} = 0.2 \]
Odds penyakit pada kelompok jarang olahraga:
\[ Odds_{jarang} = \frac{40}{60} = 0.667 \]
Odds pada kelompok rutin olahraga:
\[ Odds_{rutin} = \frac{20}{80} = 0.25 \]
\[ OR = \frac{40 \times 80}{60 \times 20} \]
\[ OR = \frac{3200}{1200} = 2.67 \]
Artinya peluang terkena penyakit jantung pada kelompok yang jarang olahraga sekitar 2.67 kali lebih besar dibandingkan kelompok yang rutin berolahraga.
Berikut contoh analisis menggunakan perangkat lunak R.
# Membuat data simulasi
data <- matrix(c(40,60,20,80),
nrow=2,
byrow=TRUE)
rownames(data) <- c("Jarang_Olahraga","Rutin_Olahraga")
colnames(data) <- c("Penyakit","Tidak")
data
## Penyakit Tidak
## Jarang_Olahraga 40 60
## Rutin_Olahraga 20 80
Menghitung odds ratio secara manual.
a <- data[1,1]
b <- data[1,2]
c <- data[2,1]
d <- data[2,2]
OR <- (a*d)/(b*c)
OR
## [1] 2.666667
Melakukan uji chi-square untuk mengetahui apakah terdapat hubungan antara olahraga dan penyakit jantung.
chisq.test(data)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: data
## X-squared = 8.5952, df = 1, p-value = 0.00337
Uji chi-square digunakan untuk menguji hipotesis nol bahwa kedua variabel bersifat independen.
Berdasarkan perhitungan manual diperoleh nilai Odds Ratio sebesar 2.67. Hal ini menunjukkan bahwa individu yang jarang berolahraga memiliki peluang sekitar 2.67 kali lebih besar untuk mengalami penyakit jantung dibandingkan individu yang rutin berolahraga.
hasil uji chi-square menunjukkan nilai p-value sebesar 0.00337 yang lebih kecil dari tingkat signifikansi 0.05, maka dapat disimpulkan bahwa terdapat hubungan yang signifikan antara kebiasaan olahraga dan penyakit jantung.
Hasil ini menunjukkan bahwa aktivitas fisik memiliki peran penting dalam menjaga kesehatan jantung. Individu yang rutin berolahraga cenderung memiliki risiko penyakit jantung yang lebih rendah dibandingkan mereka yang jarang berolahraga.
Agresti,A. (2007). An Introduction to Categorical Data Analysis (2nd ed.). New York: Wiley.