Analisis data kategori merupakan salah satu metode penting dalam statistika yang digunakan untuk menganalisis data yang berbentuk kategori atau klasifikasi. Data kategori sering muncul dalam berbagai bidang penelitian seperti kesehatan, sosial, dan ekonomi. Menurut Agresti (2013), analisis data kategori berfokus pada hubungan antara variabel yang bersifat diskrit dan biasanya dianalisis menggunakan tabel kontingensi, ukuran asosiasi, serta uji statistik seperti chi-square.
Analisis data kategori adalah metode statistik yang digunakan untuk mempelajari hubungan antara variabel yang bersifat kategorikal. Variabel kategorikal adalah variabel yang nilainya berupa kelompok atau kategori, bukan nilai numerik kontinu (Agresti, 2019).
Metode ini biasanya digunakan untuk menganalisis data dalam bentuk frekuensi atau proporsi dan sering disajikan dalam bentuk tabel kontingensi.
Karakteristik utama variabel kategori antara lain:
Menurut Howell (2012), variabel nominal tidak memiliki urutan, sedangkan variabel ordinal memiliki tingkatan tertentu.
Contoh penerapan analisis data kategori dalam penelitian:
Metode analisis yang sering digunakan meliputi tabel kontingensi, uji chi-square, odds ratio, dan relative risk.
Tabel kontingensi adalah tabel yang digunakan untuk menampilkan distribusi frekuensi dari dua atau lebih variabel kategorikal secara bersamaan (Agresti, 2013).
Tabel ini membantu peneliti melihat apakah terdapat hubungan antara dua variabel kategori.
Contoh tabel kontingensi 2 × 2:
| Penyakit Jantung | Tidak | |
|---|---|---|
| Olahraga | a | b |
| Tidak Olahraga | c | d |
Joint distribution menunjukkan peluang gabungan dua kejadian.
\[ P(X,Y) = \frac{frekuensi\ pada\ sel}{n} \]
Marginal distribution adalah distribusi peluang dari satu variabel tanpa memperhatikan variabel lainnya.
\[ P(X = Olahraga) = \frac{a + b}{n} \]
Probabilitas bersyarat menggambarkan peluang suatu kejadian jika kejadian lain telah diketahui.
\[ P(Penyakit|Olahraga) = \frac{a}{a+b} \]
Ukuran asosiasi digunakan untuk mengetahui seberapa kuat hubungan antara faktor risiko dan kejadian (outcome) pada data kategorik.
Odds adalah perbandingan antara peluang suatu kejadian dengan peluang kejadian tersebut tidak terjadi.
Jika peluang kejadian dinyatakan sebagai:
\[ P = \frac{a}{a+b} \]
maka peluang tidak terjadinya kejadian adalah:
\[ 1-P = \frac{b}{a+b} \]
Sehingga odds dapat diturunkan sebagai:
\[ Odds = \frac{P}{1-P} \]
Substitusi nilai peluang menghasilkan:
\[ Odds = \frac{a}{b} \]
Nilai odds menunjukkan seberapa besar kemungkinan suatu kejadian dibandingkan dengan tidak terjadinya kejadian tersebut.
Odds Ratio (OR) merupakan ukuran asosiasi yang digunakan untuk membandingkan peluang kejadian pada dua kelompok yang berbeda.
Misalkan terdapat tabel kontingensi 2×2 sebagai berikut:
| Penyakit | Tidak | |
|---|---|---|
| Olahraga | a | b |
| Tidak Olahraga | c | d |
\[ Odds_1 = \frac{a}{b} \]
\[ Odds_0 = \frac{c}{d} \]
\[ OR = \frac{Odds_1}{Odds_0} \]
\[ OR = \frac{a/b}{c/d} \]
\[ OR = \frac{a \times d}{b \times c} \]
Relative Risk (RR) atau risiko relatif merupakan ukuran asosiasi yang digunakan untuk membandingkan peluang terjadinya suatu kejadian antara dua kelompok yang berbeda.
Misalkan terdapat tabel kontingensi 2×2 sebagai berikut:
| Penyakit | Tidak | |
|---|---|---|
| Olahraga | a | b |
| Tidak Olahraga | c | d |
\[ P_1 = \frac{a}{a+b} \]
\[ P_0 = \frac{c}{c+d} \]
\[ RR = \frac{P_1}{P_0} \]
\[ RR = \frac{a/(a+b)}{c/(c+d)} \]
Contoh kasus: hubungan antara olahraga rutin dan penyakit jantung
| Penyakit Jantung | Tidak | |
|---|---|---|
| Olahraga | 20 | 80 |
| Tidak Olahraga | 40 | 60 |
Misalkan:
a = 20
b = 80
c = 40
d = 60
Total sampel:
\[ n = a+b+c+d = 200 \]
\[ P(Penyakit|Olahraga) = \frac{20}{100} = 0.2 \]
\[ P(Penyakit|Tidak\ Olahraga) = \frac{40}{100} = 0.4 \]
\[ Odds = \frac{20}{80} = 0.25 \]
\[ Odds = \frac{40}{60} = 0.67 \]
\[ OR = \frac{20 \times 60}{80 \times 40} \]
\[ OR = 0.375 \]
data <- matrix(c(20,80,40,60),
nrow = 2,
byrow = TRUE)
rownames(data) <- c("Olahraga","Tidak Olahraga")
colnames(data) <- c("Penyakit Jantung","Tidak")
data
## Penyakit Jantung Tidak
## Olahraga 20 80
## Tidak Olahraga 40 60
chisq.test(data)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: data
## X-squared = 8.5952, df = 1, p-value = 0.00337
Berdasarkan hasil uji chi-square diperoleh nilai p-value yang lebih kecil dari 0,05. Hal ini menunjukkan bahwa hipotesis nol (H0) yang menyatakan tidak terdapat hubungan antara kebiasaan olahraga dan penyakit jantung ditolak. Dengan demikian dapat disimpulkan bahwa terdapat hubungan yang signifikan secara statistik antara variabel olahraga dan kejadian penyakit jantung pada data yang dianalisis. Artinya, distribusi kejadian penyakit jantung berbeda antara kelompok yang berolahraga dan kelompok yang tidak berolahraga.
Berdasarkan hasil perhitungan diperoleh nilai Odds Ratio (OR) sebesar 0,375. Nilai OR yang lebih kecil dari 1 menunjukkan bahwa kelompok yang rutin berolahraga memiliki peluang lebih kecil untuk mengalami penyakit jantung dibandingkan dengan kelompok yang tidak berolahraga. Secara substantif, hasil ini mengindikasikan bahwa kebiasaan berolahraga berhubungan dengan penurunan kemungkinan terjadinya penyakit jantung. Dengan kata lain, olahraga dapat berperan sebagai faktor yang berkaitan dengan kesehatan jantung yang lebih baik.
Agresti, A. (2013). Categorical Data Analysis (3rd ed.). Wiley.
Agresti, A. (2019). An Introduction to Categorical Data Analysis (3rd ed.). Wiley.
Hosmer, D. W., Lemeshow, S., & Sturdivant, R. X. (2013). Applied Logistic Regression (3rd ed.). Wiley.
Howell, D. C. (2012). Statistical Methods for Psychology (8th ed.). Cengage Learning.