Analisis data kategori merupakan cabang dari statistika yang digunakan untuk menganalisis data yang variabelnya berbentuk kategori atau kualitatif. Variabel kategori adalah variabel yang nilainya berupa label atau kelompok tertentu, bukan nilai numerik kontinu. Analisis ini banyak digunakan dalam berbagai bidang penelitian seperti kesehatan masyarakat, ilmu sosial, epidemiologi, dan ekonomi.
Menurut Agresti (2019), analisis data kategori merupakan metode statistik yang digunakan untuk menganalisis hubungan antar variabel yang diukur dalam bentuk kategori dengan menggunakan distribusi probabilitas diskrit serta tabel kontingensi.
Dalam praktik penelitian, data kategori sering muncul dalam bentuk klasifikasi seperti jenis kelamin (laki-laki/perempuan), status merokok (ya/tidak), atau status penyakit (sakit/sehat). Metode analisis yang umum digunakan untuk data kategori antara lain tabel kontingensi, uji chi-square, odds ratio, dan relative risk.
Variabel kategori memiliki beberapa karakteristik utama, yaitu:
Tidak memiliki makna numerik intrinsik
Nilai variabel hanya menunjukkan kategori tertentu, bukan besaran
kuantitatif.
Dapat berupa nominal atau ordinal
Sering direpresentasikan dalam bentuk
frekuensi
Data biasanya disajikan dalam bentuk jumlah observasi pada setiap
kategori.
Analisis berbasis peluang diskrit
Analisis dilakukan menggunakan distribusi peluang diskrit dan
perhitungan proporsi.
Analisis data kategori banyak digunakan dalam penelitian ilmiah, misalnya:
Epidemiologi
Meneliti hubungan antara kebiasaan merokok dan kanker paru.
Kesehatan masyarakat
Menganalisis efektivitas vaksin terhadap risiko infeksi penyakit
tertentu.
Ilmu sosial
Mengkaji hubungan antara tingkat pendidikan dan status
pekerjaan.
Dalam konteks tersebut, peneliti biasanya menggunakan tabel kontingensi untuk melihat hubungan antar variabel kategori dan menghitung ukuran asosiasi untuk mengetahui kekuatan hubungan tersebut.
Menurut Agresti (2019), tabel kontingensi merupakan alat dasar dalam analisis data kategori karena memungkinkan analisis hubungan antara variabel melalui frekuensi observasi pada setiap kombinasi kategori. Jika terdapat dua variabel, masing-masing dengan kategori tertentu, maka tabel kontingensi akan berbentuk matriks dua dimensi.
Misalkan terdapat dua variabel acak diskrit:
- \(X\) dengan kategori \(x_1, x_2, \dots, x_r\)
- \(Y\) dengan kategori \(y_1, y_2, \dots, y_c\)
Maka tabel kontingensi dapat ditulis sebagai:
\[ \begin{array}{c|cccc|c} & y_1 & y_2 & \cdots & y_c & \text{Total} \\ \hline x_1 & n_{11} & n_{12} & \cdots & n_{1c} & n_{1\cdot} \\ x_2 & n_{21} & n_{22} & \cdots & n_{2c} & n_{2\cdot} \\ \vdots & \vdots & \vdots & \ddots & \vdots & \vdots \\ x_r & n_{r1} & n_{r2} & \cdots & n_{rc} & n_{r\cdot} \\ \hline \text{Total} & n_{\cdot 1} & n_{\cdot 2} & \cdots & n_{\cdot c} & n \end{array} \]
dengan: - \(n_{ij}\) = frekuensi
pengamatan pada kategori \(x_i\) dan
\(y_j\)
- \(n_{i\cdot}\) = total baris ke-\(i\)
- \(n_{\cdot j}\) = total kolom
ke-\(j\)
- \(n\) = total seluruh pengamatan
Tabel ini menjadi dasar untuk menghitung peluang gabungan, peluang marginal, dan peluang bersyarat.
Misalkan terdapat dua variabel kategori dengan dua kategori masing-masing. Tabel kontingensi 2×2 dapat ditulis sebagai berikut:
| Penyakit (+) | Penyakit (-) | Total | |
|---|---|---|---|
| Terpapar | a | b | a+b |
| Tidak Terpapar | c | d | c+d |
| Total | a+c | b+d | n |
Dimana:
Distribusi peluang bersama (joint distribution) merupakan peluang dari kombinasi dua variabel kategori.
Secara matematis:
\[ P(X=i, Y=j) = \frac{n_{ij}}{n} \]
dimana
Contoh:
\[P(\text{Terpapar dan Penyakit (+)})=\frac{a}{n}\]
Distribusi marginal merupakan peluang dari satu variabel tanpa memperhatikan variabel lainnya.
Contoh:
\[ P(X=i) = \sum_j P(X=i,Y=j) \]
atau
\[ P(Y=j) = \sum_i P(X=i,Y=j) \]
Distribusi ini diperoleh dari total baris atau kolom pada tabel kontingensi.
Contoh:
\[ P(\text{Terpapar})=\frac{a+b}{n} \]
Peluang bersyarat menyatakan peluang suatu kejadian dengan syarat kejadian lain telah terjadi.
Secara matematis:
\[ P(Y=j|X=i) = \frac{P(X=i,Y=j)}{P(X=i)} \]
Dalam tabel kontingensi, peluang bersyarat dihitung dengan membagi frekuensi sel dengan total baris atau kolom yang sesuai.
Contoh:
\[ P(\text{Terpapar | Penyakit (-)})=\frac{P(\text{Terpapar dan Penyakit (-))}}{P(\text{Penyakit (-))}}=\frac{b}{b+d} \]
Ukuran asosiasi digunakan untuk mengukur kekuatan hubungan antara dua variabel kategori.
Odds adalah rasio antara peluang kejadian terjadi dan tidak terjadi.
\[ Odds = \frac{p}{1-p} \]
Pada tabel kontingensi:
\[ Odds = \frac{a}{b} \]
Interpretasi:
Jika odds = 2 maka peluang kejadian terjadi dua kali lebih besar
dibandingkan tidak terjadi.
Odds Ratio (OR) digunakan untuk membandingkan odds antara dua kelompok.
\[ OR = \frac{ad}{bc} \]
Interpretasi:
Relative Risk (RR) membandingkan probabilitas kejadian antara kelompok terpapar dan tidak terpapar.
\[ RR = \frac{a/(a+b)}{c/(c+d)} \]
Interpretasi:
Misalkan dilakukan penelitian terhadap 200 orang.
| Kanker | Tidak Kanker | Total | |
|---|---|---|---|
| Perokok | 40 | 60 | 100 |
| Non Perokok | 10 | 90 | 100 |
Peluang kanker pada perokok:
\[ P(Kanker|Perokok) = \frac{40}{100} = 0.4 \]
Peluang kanker pada non-perokok:
\[ P(Kanker|NonPerokok) = \frac{10}{100} = 0.1 \]
Odds kanker pada perokok:
\[ Odds_1 = \frac{40}{60} = 0.667 \]
Odds kanker pada non-perokok:
\[ Odds_0 = \frac{10}{90} = 0.111 \]
\[ OR = \frac{40 \times 90}{60 \times 10} \]
\[ OR = \frac{3600}{600} = 6 \]
Artinya odds terkena kanker paru pada perokok 6 kali lebih besar dibandingkan non-perokok.
# Membuat tabel kontingensi
data <- matrix(c(40,60,10,90), nrow=2, byrow=TRUE)
rownames(data) <- c("Perokok","NonPerokok")
colnames(data) <- c("Kanker","TidakKanker")
data## Kanker TidakKanker
## Perokok 40 60
## NonPerokok 10 90
## [1] 6
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: data
## X-squared = 22.427, df = 1, p-value = 2.183e-06
Berdasarkan hasil perhitungan menggunakan R diperoleh nilai Odds Ratio sebesar:
\[ OR = \frac{ad}{bc} = \frac{40 \times 90}{60 \times 10} = 6 \]
Nilai Odds Ratio sebesar 6 menunjukkan bahwa odds terkena kanker paru pada kelompok perokok enam kali lebih besar dibandingkan dengan kelompok non-perokok.
Selanjutnya dilakukan uji independensi menggunakan uji chi-square untuk mengetahui apakah terdapat hubungan yang signifikan antara variabel kebiasaan merokok dan kejadian kanker paru.
Hipotesis yang digunakan adalah:
\[ H_0 : \text{Tidak terdapat hubungan antara kebiasaan merokok dan kanker paru} \]
\[ H_1 : \text{Terdapat hubungan antara kebiasaan merokok dan kanker paru} \]
Jika nilai p-value dari uji chi-square lebih kecil dari tingkat signifikansi (\(\alpha = 0.05\)), maka hipotesis nol ditolak.
Sebaliknya, jika p-value lebih besar dari 0.05 maka tidak terdapat bukti yang cukup untuk menyatakan adanya hubungan antara kedua variabel tersebut.
Selanjutnya, hasil uji chi-square menunjukkan bahwa nilai statistik uji adalah:
\[ \chi^2=22.427 \]
dengan derajat kebebasan:
\[df=1\]
serta nilai p-value sebesar:
\[p=2.183×10^{−6}\]
Karena nilai p-value jauh lebih kecil dari tingkat signifikansi yang umum digunakan (\(\alpha\) = 0.05), maka hipotesis nol ditolak. Dengan demikian dapat disimpulkan bahwa terdapat hubungan yang signifikan secara statistik antara kebiasaan merokok dan kejadian kanker paru.
Dalam konteks kesehatan masyarakat, hasil ini menunjukkan bahwa kebiasaan merokok memiliki hubungan yang sangat kuat dengan peningkatan risiko kanker paru. Individu yang merokok memiliki kemungkinan yang jauh lebih tinggi untuk mengalami kanker paru dibandingkan dengan individu yang tidak merokok.
Temuan ini sejalan dengan berbagai penelitian epidemiologi yang menunjukkan bahwa merokok merupakan faktor risiko utama dalam perkembangan kanker paru. Oleh karena itu, kebijakan kesehatan seperti program berhenti merokok, edukasi mengenai bahaya rokok, serta pembatasan konsumsi tembakau sangat penting dalam upaya menurunkan angka kejadian kanker paru di masyarakat.
Agresti, A. (2019). An Introduction to Categorical Data Analysis (3rd ed.). Wiley.
Everitt, B. S. (2002). The Analysis of Contingency Tables (2nd ed.). Chapman and Hall/CRC.
Hosmer, D. W., Lemeshow, S., & Sturdivant, R. X. (2013). Applied Logistic Regression (3rd ed.). Wiley.
McHugh, M. L. (2013). The Chi-square test of independence. Biochemia Medica, 23(2), 143–149.