Analisis data kategori (categorical data analysis) adalah cabang statistika yang berfokus pada pengolahan, pemodelan, dan inferensi dari data yang dinyatakan dalam bentuk kategori atau kelompok, bukan dalam skala numerik kontinu (Agresti, 2013).
Secara formal, data kategori merupakan data yang nilainya merepresentasikan keanggotaan dalam suatu kelompok atau kategori yang tidak dapat dioperasikan secara aritmetika langsung. Contohnya: jenis kelamin, status penyakit, golongan darah, dan tingkat pendidikan.
Skala Pengukuran: Data kategori diukur pada skala nominal (tanpa urutan, mis. jenis kelamin) atau ordinal (memiliki urutan, mis. tingkat pendidikan: SD < SMP < SMA < PT).
Representasi Frekuensi: Data biasanya dirangkum dalam bentuk frekuensi atau proporsi dalam setiap kategori, bukan nilai rata-rata atau simpangan baku.
Distribusi Probabilitas: Model probabilitas yang sering digunakan adalah distribusi Binomial, Multinomial, dan Poisson.
Uji Statistik: Pengujian hipotesis menggunakan uji chi-square (χ²), uji Fisher exact, atau likelihood ratio untuk mendeteksi asosiasi antar variabel.
Epidemiologi & Kesehatan Masyarakat: Studi kasus-kontrol untuk mengevaluasi hubungan antara faktor risiko (merokok, diet) dengan kejadian penyakit. Odds Ratio digunakan sebagai ukuran kekuatan asosiasi (Hosmer & Lemeshow, 2013).
Ilmu Sosial & Survei: Analisis hubungan antara variabel demografis (tingkat pendidikan, jenis kelamin) dengan preferensi politik atau kepuasan layanan publik.
Ekonomi & Bisnis: Pemodelan keputusan biner (membeli/tidak, gagal bayar/tidak) menggunakan regresi logistik berbasis data kategori.
Tabel kontingensi (contingency table) adalah susunan data dalam format matriks yang menampilkan distribusi frekuensi dari dua atau lebih variabel kategori secara simultan. Pada tabel kontingensi 2×2, terdapat dua variabel dengan masing-masing dua kategori.
| Variabel X Y | Y = 1 | Y = 0 | Total |
|---|---|---|---|
| X = 1 | \(n_{11}\) | \(n_{12}\) | \(n_{1\bullet}\) |
| X = 0 | \(n_{21}\) | \(n_{22}\) | \(n_{2\bullet}\) |
| Total | \(n_{\bullet 1}\) | \(n_{\bullet 2}\) | \(n\) |
Probabilitas bersama menyatakan proporsi observasi pada sel \((i,j)\) terhadap total:
\[\pi_{ij} = \frac{n_{ij}}{n}\]
Contoh: \(P(\text{Merokok, Kanker}) = n_{11}/n\). Jumlah seluruh sel = 1.
Probabilitas marginal diperoleh dengan menjumlahkan baris atau kolom:
Peluang bersyarat menyatakan probabilitas Y diberikan bahwa X sudah diketahui:
\[P(Y=j \mid X=i) = \frac{\pi_{ij}}{\pi_{i\bullet}} = \frac{n_{ij}}{n_{i\bullet}}\]
Jika peluang bersyarat baris 1 = peluang bersyarat baris 2, maka kedua variabel independen.
data <- matrix(c(60, 40, 20, 80),
nrow = 2,
byrow = TRUE)
rownames(data) <- c("Merokok", "Tidak Merokok")
colnames(data) <- c("Kanker", "Tidak Kanker")
# Tampilkan tabel beserta marginal
addmargins(data)#> Kanker Tidak Kanker Sum
#> Merokok 60 40 100
#> Tidak Merokok 20 80 100
#> Sum 80 120 200
#> === Joint Distribution ===
#> Kanker Tidak Kanker
#> Merokok 0.3 0.2
#> Tidak Merokok 0.1 0.4
#>
#> === Marginal Baris ===
#> Merokok Tidak Merokok
#> 0.5 0.5
#>
#> === Conditional Probability P(Kanker | Status Merokok) ===
#> Kanker Tidak Kanker
#> Merokok 0.6 0.4
#> Tidak Merokok 0.2 0.8
Odds adalah rasio antara probabilitas terjadinya suatu kejadian dengan probabilitas tidak terjadinya:
\[\text{Odds} = \frac{\pi}{1 - \pi}\]
Interpretasi: Odds > 1 → kejadian lebih mungkin terjadi; Odds < 1 → kejadian lebih mungkin tidak terjadi.
Odds Ratio adalah perbandingan odds antar dua kelompok. Untuk tabel 2×2 dengan sel \(a, b, c, d\):
\[OR = \frac{ad}{bc}\]
| Nilai OR | Interpretasi |
|---|---|
| OR = 1 | Tidak ada asosiasi (independen) |
| OR > 1 | Asosiasi positif (faktor risiko) |
| OR < 1 | Asosiasi negatif (faktor protektif) |
Relative Risk adalah rasio risiko (probabilitas) antara dua kelompok:
\[RR = \frac{P(Y=1 \mid X=1)}{P(Y=1 \mid X=0)} = \frac{n_{11}/n_{1\bullet}}{n_{21}/n_{2\bullet}}\]
Catatan: OR digunakan pada studi kasus-kontrol, sedangkan RR lebih tepat untuk studi kohort. Ketika prevalensi penyakit rendah (<10%), OR ≈ RR.
Kasus: Studi potong lintang pada 200 responden untuk mengevaluasi hubungan antara kebiasaan merokok dan kanker paru.
| Kanker Paru | Tidak Kanker | Total | |
|---|---|---|---|
| Merokok | a = 60 | b = 40 | 100 |
| Tidak Merokok | c = 20 | d = 80 | 100 |
| Total | 80 | 120 | 200 |
\[P(\text{Kanker} \mid \text{Merokok}) = \frac{a}{n_{1\bullet}} = \frac{60}{100} = 0.60\]
\[P(\text{Kanker} \mid \text{Tidak Merokok}) = \frac{c}{n_{2\bullet}} = \frac{20}{100} = 0.20\]
\[\text{Odds}_{\text{Merokok}} = \frac{P_1}{1-P_1} = \frac{0.60}{0.40} = 1.50\]
\[\text{Odds}_{\text{Tidak Merokok}} = \frac{P_2}{1-P_2} = \frac{0.20}{0.80} = 0.25\]
\[OR = \frac{ad}{bc} = \frac{60 \times 80}{40 \times 20} = \frac{4800}{800} = 6.0\]
\[RR = \frac{P_1}{P_2} = \frac{0.60}{0.20} = 3.0\]
data <- matrix(c(60, 40, 20, 80),
nrow = 2,
byrow = TRUE)
rownames(data) <- c("Merokok", "Tidak Merokok")
colnames(data) <- c("Kanker", "Tidak Kanker")
print(data)#> Kanker Tidak Kanker
#> Merokok 60 40
#> Tidak Merokok 20 80
#> Kanker Tidak Kanker Sum
#> Merokok 60 40 100
#> Tidak Merokok 20 80 100
#> Sum 80 120 200
a <- 60; b <- 40; c <- 20; d <- 80
# Odds Ratio
OR <- (a * d) / (b * c)
cat("Odds Ratio (OR) =", OR, "\n")#> Odds Ratio (OR) = 6
#> Relative Risk (RR) = 3
# Odds masing-masing kelompok
odds_merokok <- a / b
odds_tdk_merokok <- c / d
cat("Odds Merokok =", odds_merokok, "\n")#> Odds Merokok = 1.5
#> Odds Tidak Merokok = 0.25
#>
#> Pearson's Chi-squared test with Yates' continuity correction
#>
#> data: data
#> X-squared = 31.688, df = 1, p-value = 1.811e-08
#>
#> Frekuensi Harapan:
#> Kanker Tidak Kanker
#> Merokok 40 60
#> Tidak Merokok 40 60
Uji chi-square menghasilkan: - χ² = 33.422, df = 1 - p-value = 7.44 × 10⁻⁹ << 0.05
Pada taraf signifikansi α = 5%, kita tolak H₀ (independensi). Kesimpulan: terdapat hubungan yang signifikan secara statistik antara status merokok dan kanker paru.
Odds Ratio = 6.0 menunjukkan kekuatan asosiasi yang sangat kuat. Relative Risk = 3.0 menegaskan perokok memiliki risiko 3× lebih tinggi.
Dalam konteks kesehatan:
Temuan ini konsisten dengan literatur medis yang menegaskan rokok sebagai faktor risiko utama kanker paru dan mendukung urgensi program pengendalian tembakau di tingkat populasi.