Dalam berbagai bidang ilmu seperti kesehatan, ekonomi, dan ilmu sosial, banyak data yang bersifat kategori (categorical data). Data kategori biasanya menyatakan kelompok atau klasifikasi seperti jenis kelamin, status penyakit, status merokok, atau tingkat pendidikan.
Salah satu pendekatan utama dalam analisis data kategori adalah menggunakan tabel kontingensi untuk mempelajari hubungan antara dua variabel kategori. Dari tabel tersebut dapat dihitung berbagai ukuran asosiasi yang menggambarkan kekuatan hubungan antar variabel.
Analisis data kategori banyak digunakan dalam penelitian epidemiologi, survei sosial, maupun penelitian kebijakan publik untuk memahami keterkaitan antara faktor risiko dan suatu kejadian.
Analisis data kategori adalah cabang dari statistika yang digunakan untuk menganalisis data yang variabelnya berbentuk kategori atau klasifikasi. Variabel kategori tidak dinyatakan dalam nilai numerik kontinu, melainkan dalam bentuk kelompok seperti jenis kelamin, status pekerjaan, atau kondisi kesehatan.
Menurut Agresti (2013), analisis data kategori berfokus pada metode statistik yang digunakan untuk mempelajari hubungan antar variabel yang berskala nominal maupun ordinal.
Variabel kategori memiliki beberapa karakteristik utama, yaitu:
Variabel kategori umumnya dibagi menjadi dua jenis utama:
Analisis data kategori sering digunakan dalam berbagai bidang penelitian, misalnya:
Dalam penelitian epidemiologi, metode ini sangat penting untuk mengidentifikasi faktor risiko suatu penyakit.
Tabel kontingensi adalah tabel yang digunakan untuk menyajikan distribusi frekuensi bersama dari dua atau lebih variabel kategori. Tabel ini memungkinkan peneliti untuk melihat hubungan antara variabel-variabel tersebut.
Contoh tabel kontingensi \(2 \times 2\):
| Kanker | Tidak Kanker | Total | |
|---|---|---|---|
| Merokok | a | b | a+b |
| Tidak Merokok | c | d | c+d |
| Total | a+c | b+d | n |
Distribusi bersama (joint distribution) menunjukkan probabilitas terjadinya dua kejadian secara bersamaan.
\[ P(X=x, Y=y) = \frac{n_{xy}}{n} \]
di mana \(n_{xy}\) adalah frekuensi pada sel tabel dan \(n\) adalah total observasi.
Distribusi marginal adalah distribusi dari satu variabel tanpa memperhatikan variabel lainnya.
Contoh:
\[ P(X=x) = \frac{n_{x+}}{n} \]
dan
\[ P(Y=y) = \frac{n_{+y}}{n} \]
Probabilitas bersyarat digunakan untuk mengetahui peluang suatu kejadian dengan syarat kejadian lain telah terjadi.
\[ P(Y|X) = \frac{P(X,Y)}{P(X)} \]
atau
\[ P(Y=y|X=x) = \frac{n_{xy}}{n_{x+}} \]
Untuk mengukur kekuatan hubungan antara dua variabel kategori, digunakan beberapa ukuran asosiasi.
Odds merupakan perbandingan antara peluang terjadinya suatu kejadian dengan peluang tidak terjadinya kejadian tersebut.
\[ Odds = \frac{P}{1-P} \]
Jika menggunakan tabel kontingensi:
\[ Odds = \frac{a}{b} \]
Odds Ratio (OR) digunakan untuk membandingkan odds dari dua kelompok.
\[ OR = \frac{ad}{bc} \]
Interpretasi:
Relative Risk (RR) membandingkan probabilitas kejadian antara dua kelompok.
\[ RR = \frac{a/(a+b)}{c/(c+d)} \]
Interpretasi:
Misalkan dilakukan penelitian mengenai hubungan antara kebiasaan merokok dan kanker paru dengan data berikut.
| Kanker | Tidak Kanker | |
|---|---|---|
| Merokok | 60 | 40 |
| Tidak Merokok | 20 | 80 |
Misalkan:
\[ a = 60,\quad b = 40,\quad c = 20,\quad d = 80 \]
Peluang terkena kanker pada perokok:
\[ P(Kanker|Merokok) = \frac{60}{60+40} = 0.6 \]
Peluang terkena kanker pada tidak merokok:
\[ P(Kanker|TidakMerokok) = \frac{20}{20+80} = 0.2 \]
Odds kanker pada perokok:
\[ Odds = \frac{60}{40} = 1.5 \]
Odds kanker pada tidak merokok:
\[ Odds = \frac{20}{80} = 0.25 \]
\[ OR = \frac{60 \times 80}{40 \times 20} \]
\[ OR = \frac{4800}{800} \]
\[ OR = 6 \]
Artinya, peluang perokok terkena kanker paru sekitar 6 kali lebih besar dibandingkan dengan yang tidak merokok.
data <- matrix(c(60,40,20,80),
nrow=2,
byrow=TRUE)
rownames(data) <- c("Merokok","Tidak Merokok")
colnames(data) <- c("Kanker","Tidak Kanker")
data
## Kanker Tidak Kanker
## Merokok 60 40
## Tidak Merokok 20 80
a <- data[1,1]
b <- data[1,2]
c <- data[2,1]
d <- data[2,2]
OR <- (a*d)/(b*c)
OR
## [1] 6
chisq.test(data)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: data
## X-squared = 31.688, df = 1, p-value = 1.811e-08
Hasil perhitungan menunjukkan bahwa nilai Odds Ratio sebesar 6, yang berarti bahwa peluang perokok untuk mengalami kanker paru enam kali lebih besar dibandingkan dengan individu yang tidak merokok.
Hasil uji Chi-Square digunakan untuk menguji apakah hubungan antara variabel merokok dan kanker paru bersifat signifikan secara statistik.
Jika nilai p-value lebih kecil dari tingkat signifikansi (misalnya \(\alpha = 0.05\)), maka dapat disimpulkan bahwa terdapat hubungan yang signifikan antara kedua variabel tersebut.
Dalam konteks kesehatan masyarakat, hasil ini menunjukkan bahwa kebiasaan merokok memiliki hubungan yang kuat dengan kejadian kanker paru. Oleh karena itu, pengendalian konsumsi rokok merupakan salah satu langkah penting dalam upaya pencegahan kanker paru.
Agresti, A. (2013). Categorical Data Analysis. Wiley.
Hosmer, D. W., Lemeshow, S., & Sturdivant, R. (2013). Applied Logistic Regression. Wiley.