Analisis data kategori merupakan salah satu metode penting dalam statistika yang digunakan untuk menganalisis data yang berbentuk kategori atau klasifikasi. Data kategori sering muncul dalam berbagai bidang penelitian seperti kesehatan, sosial, dan ekonomi. Menurut Agresti (2013), analisis data kategori berfokus pada hubungan antara variabel yang bersifat diskrit dan biasanya dianalisis menggunakan tabel kontingensi, ukuran asosiasi, serta uji statistik seperti chi-square.
Analisis data kategori adalah metode statistik yang digunakan untuk mempelajari hubungan antara variabel yang bersifat kategorikal. Variabel kategorikal adalah variabel yang nilainya berupa kelompok atau kategori, bukan nilai numerik kontinu (Agresti, 2019).
Metode ini biasanya digunakan untuk menganalisis data dalam bentuk frekuensi atau proporsi dan sering disajikan dalam bentuk tabel kontingensi.
Karakteristik utama variabel kategori antara lain:
Menurut Howell (2012), variabel nominal tidak memiliki urutan, sedangkan variabel ordinal memiliki tingkatan tertentu.
Contoh penerapan analisis data kategori dalam penelitian:
Metode analisis yang sering digunakan meliputi tabel kontingensi, uji chi-square, odds ratio, dan relative risk.
Tabel kontingensi adalah tabel yang digunakan untuk menampilkan distribusi frekuensi dari dua atau lebih variabel kategorikal secara bersamaan (Agresti, 2013).
Tabel ini membantu peneliti melihat apakah terdapat hubungan antara dua variabel kategori.
Contoh tabel kontingensi 2 × 2:
| Penyakit Jantung | Tidak | |
|---|---|---|
| Olahraga | a | b |
| Tidak Olahraga | c | d |
Joint distribution menunjukkan probabilitas dua variabel terjadi secara bersamaan.
\[ P(Olahraga \\cap Penyakit) = \\frac{a}{n} \]
Marginal distribution adalah probabilitas dari satu variabel tanpa memperhatikan variabel lainnya.
\[ P(Olahraga) = \\frac{a+b}{n} \]
Probabilitas bersyarat menunjukkan peluang suatu kejadian dengan syarat kejadian lain sudah terjadi.
\[ P(Penyakit | Tidak\\ Olahraga) = \\frac{c}{c+d} \]
Ukuran asosiasi digunakan untuk mengetahui kekuatan hubungan antara dua variabel kategorikal (Hosmer et al., 2013).
Odds merupakan perbandingan antara peluang suatu kejadian terjadi dengan peluang tidak terjadinya kejadian tersebut.
\[ Odds = \\frac{P}{1-P} \]
Odds Ratio membandingkan odds dari dua kelompok berbeda.
\[ OR = \\frac{ad}{bc} \]
Interpretasi:
Relative Risk adalah perbandingan risiko kejadian pada kelompok terpapar dengan kelompok tidak terpapar.
\[ RR = \\frac{a/(a+b)}{c/(c+d)} \]
Contoh kasus: hubungan antara olahraga rutin dan penyakit jantung
| Penyakit Jantung | Tidak | |
|---|---|---|
| Olahraga | 20 | 80 |
| Tidak Olahraga | 40 | 60 |
Misalkan:
a = 20
b = 80
c = 40
d = 60
Total sampel:
\[ n = a+b+c+d = 200 \]
\[ P(Penyakit|Olahraga) = \\frac{20}{100} = 0.2 \]
\[ P(Penyakit|Tidak\\ Olahraga) = \\frac{40}{100} = 0.4 \]
Odds kelompok olahraga
\[ Odds = \\frac{20}{80} = 0.25 \]
Odds kelompok tidak olahraga
\[ Odds = \\frac{40}{60} = 0.67 \]
\[ OR = \\frac{20 \\times 60}{80 \\times 40} \]
\[ OR = 0.375 \]
data <- matrix(c(20,80,40,60),
nrow=2,
byrow=TRUE)
rownames(data) <- c("Olahraga","Tidak Olahraga")
colnames(data) <- c("Penyakit Jantung","Tidak")
data
## Penyakit Jantung Tidak
## Olahraga 20 80
## Tidak Olahraga 40 60
# Analisis Menggunakan R
data <- matrix(c(20,80,40,60),
nrow = 2,
byrow = TRUE)
rownames(data) <- c("Olahraga","Tidak Olahraga")
colnames(data) <- c("Penyakit Jantung","Tidak")
data
## Penyakit Jantung Tidak
## Olahraga 20 80
## Tidak Olahraga 40 60
chisq.test(data)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: data
## X-squared = 8.5952, df = 1, p-value = 0.00337
Interpretasi Statistik
Jika nilai p-value dari uji chi-square lebih kecil dari 0.05 maka dapat disimpulkan bahwa terdapat hubungan yang signifikan antara olahraga dan penyakit jantung.
Interpretasi Substantif
Berdasarkan nilai Odds Ratio yang lebih kecil dari 1, dapat disimpulkan bahwa individu yang rutin berolahraga memiliki kemungkinan lebih kecil untuk mengalami penyakit jantung dibandingkan individu yang tidak berolahraga.
Berdasarkan hasil uji chi-square diperoleh p-value < 0.05 sehingga terdapat hubungan antara olahraga rutin dan penyakit jantung.
Agresti, A. (2013). Categorical Data Analysis (3rd ed.). Wiley.
Agresti, A. (2019). An Introduction to Categorical Data Analysis. Wiley.
Hosmer, D. W., Lemeshow, S., & Sturdivant, R. (2013). Applied Logistic Regression. Wiley.
Howell, D. C. (2012). Statistical Methods for Psychology. Cengage Learning.