Analisis data kategori merupakan salah satu cabang penting dalam statistika yang digunakan untuk menganalisis data yang berbentuk kategori atau klasifikasi. Data kategori sering muncul dalam berbagai bidang penelitian seperti kesehatan, pendidikan, ilmu sosial, dan ekonomi. Berbeda dengan data numerik yang dianalisis menggunakan metode statistik parametrik seperti regresi linear, data kategori memerlukan pendekatan analisis yang berbeda karena nilai variabelnya bersifat diskrit dan biasanya merepresentasikan kelompok atau kelas tertentu.
Referensi klasik dalam analisis data kategori antara lain Agresti (2013), yang menjelaskan berbagai metode analisis untuk data kategorik termasuk tabel kontingensi, regresi logistik, dan model log-linear.
Analisis data kategori merupakan cabang statistika yang secara khusus dirancang untuk mengolah, mendeskripsikan, dan menginterpretasikan data yang berbentuk klasifikasi atau kelompok, bukan angka kontinu. Berbeda dengan statistika klasik yang umumnya mengasumsikan distribusi normal pada data numerik, analisis ini berfokus pada data diskrit yang biasanya mengikuti distribusi Multinomial atau Poisson (Agresti, 2013). Pendekatan ini menjadi krusial dalam berbagai disiplin ilmu seperti kesehatan, sosial, dan ekonomi, karena data yang dihasilkan sering kali merepresentasikan kategori tertentu yang memerlukan metode analisis khusus, seperti tabel kontingensi atau Generalized Linear Models (GLM). Secara fundamental, analisis data kategori digunakan untuk mengkaji hubungan antara variabel yang berskala nominal maupun ordinal, di mana nilai-nilai tersebut tidak memiliki makna numerik intrinsik melainkan berfungsi sebagai identitas kelompok.
Menurut Agresti (2013), analisis data kategorik bertujuan untuk:
Variabel kategori memiliki beberapa karakteristik utama:
Contoh variabel kategori:
| Variabel | Kategori |
|---|---|
| Jenis kelamin | Laki-laki, Perempuan |
| Status merokok | Perokok, Tidak Perokok |
| Status vaksin | Vaksin, Tidak vaksin |
Analisis data kategori sering digunakan dalam berbagai penelitian, seperti:
Tabel kontingensi merupakan instrumen statistik yang digunakan untuk menyajikan distribusi frekuensi bersama dari dua atau lebih variabel kategorik. Secara struktural, tabel ini menyusun kategori dari satu variabel dalam baris dan kategori variabel lainnya dalam kolom, sehingga membentuk matriks yang memperlihatkan bagaimana subjek terdistribusi di antara kombinasi kategori tersebut (Agresti, 2013). Penggunaan tabel ini sangat krusial dalam analisis data kategori untuk mengidentifikasi apakah terdapat pola ketergantungan atau asosiasi antara variabel-variabel yang diamati.
Contoh tabel kontingensi 2×2:
| Penyakit | Tidak Penyakit | Total | |
|---|---|---|---|
| Terpapar | a | b | a+b |
| Tidak Terpapar | c | d | c+d |
| Total | a+c | b+d | n |
Joint distribution merupakan peluang terjadinya kombinasi dua kategori secara bersamaan. Nilainya dihitung dengan membagi frekuensi sel dengan total keseluruhan (\(n_{..}\)).
Contoh: Peluang seseorang merokok dan terkena kanker adalah \(\frac{20}{100} = 0,20\) atau 20%.
Secara matematis:
\[ P(X=i, Y=j) = \frac{n_{ij}}{n} \]
di mana:
Marginal Distribution merupakan distribusi peluang untuk satu variabel saja tanpa memperhatikan variabel lainnya. Nilainya diambil dari total baris atau total kolom dibagi total keseluruhan.
Contoh: Peluang marginal seseorang adalah perokok adalah \(\frac{30}{100} = 0,30\) atau 30%.
Secara matematis:
\[ P(X=i) = \sum_j P(X=i, Y=j) \]
atau
\[ P(Y=j) = \sum_i P(X=i, Y=j) \]
Conditional Probability merupakan peluang terjadinya suatu kategori pada satu variabel dengan syarat kategori tertentu pada variabel lain sudah diketahui. Ini penting untuk melihat pengaruh satu variabel terhadap variabel lain.
Contoh: Peluang seseorang terkena kanker jika diketahui ia merokok adalah \(\frac{20}{30} \approx 0,67\) atau 67%. Perhatikan bahwa pembaginya adalah total baris “Merokok”, bukan total populasi.
Secara matematis:
\[ P(Y=j|X=i) = \frac{P(X=i,Y=j)}{P(X=i)} \]
Ukuran asosiasi merupakan statistik yang digunakan untuk mengukur kekuatan dan arah hubungan antara dua variabel kategori dalam tabel kontingensi. Dalam penelitian kesehatan atau sosial, ukuran ini sangat penting untuk menentukan sejauh mana keberadaan suatu faktor risiko berkaitan dengan munculnya hasil (outcome) tertentu. Berbeda dengan uji signifikansi seperti Chi-Square yang hanya memberi tahu ada tidaknya hubungan, ukuran asosiasi memberikan informasi kuantitatif mengenai seberapa besar hubungan tersebut (Agresti, 2013).
Odds merupakan perbandingan antara peluang terjadinya suatu kejadian dengan peluang tidak terjadinya kejadian tersebut.
\[ Odds = \frac{p}{1-p} \]
Dalam tabel kontingensi:
\[ Odds = \frac{a}{b} \]
Odds Ratio (OR) digunakan untuk membandingkan odds dari dua kelompok.
\[ OR = \frac{a/b}{c/d} \]
atau
\[ OR = \frac{ad}{bc} \]
Interpretasi:
Relative Risk (RR) membandingkan peluang kejadian pada kelompok terpapar dengan kelompok tidak terpapar.
\[ RR = \frac{a/(a+b)}{c/(c+d)} \]
Interpretasi:
Misalkan diperoleh data berikut:
| Kanker | Tidak Kanker | Total | |
|---|---|---|---|
| Perokok | 40 | 60 | 100 |
| Tidak Perokok | 10 | 90 | 100 |
Peluang kanker pada perokok:
\[ P(Kanker|Perokok) = \frac{40}{100} = 0.4 \]
Peluang kanker pada non-perokok:
\[ P(Kanker|Tidak\ Perokok) = \frac{10}{100} = 0.1 \]
Odds kanker pada perokok:
\[ Odds = \frac{40}{60} = 0.67 \]
Odds kanker pada non-perokok:
\[ Odds = \frac{10}{90} = 0.11 \]
\[ OR = \frac{40 \times 90}{60 \times 10} \]
\[ OR = \frac{3600}{600} \]
\[ OR = 6 \]
Interpretasi: perokok memiliki odds terkena kanker paru sekitar 6 kali lebih besar dibandingkan non-perokok.
# Membuat tabel kontingensi
data <- matrix(c(40,60,10,90),
nrow = 2,
byrow = TRUE)
colnames(data) <- c("Kanker","Tidak_Kanker")
rownames(data) <- c("Perokok","Tidak_Perokok")
data
# Menghitung Odds Ratio
library(epitools)
oddsratio(data)
# Uji Chi Square
chisq.test(data)
Jika nilai odds ratio lebih besar dari 1 dan uji chi-square menunjukkan p-value < 0.05, maka terdapat hubungan yang signifikan antara kebiasaan merokok dan kejadian kanker paru.
Hasil analisis menunjukkan bahwa individu yang merokok memiliki kemungkinan yang jauh lebih tinggi untuk mengalami kanker paru dibandingkan individu yang tidak merokok. Hal ini mendukung banyak penelitian epidemiologi yang menunjukkan bahwa merokok merupakan faktor risiko utama kanker paru.
Agresti, A. (2013). Categorical Data Analysis. Wiley.