Dalam banyak penelitian di bidang kesehatan, ekonomi, dan ilmu sosial, data yang diperoleh sering kali berupa data kategori. Data kategori merepresentasikan kelompok atau klasifikasi tertentu seperti jenis kelamin, status penyakit, kebiasaan merokok, atau tingkat pendidikan. Oleh karena itu diperlukan metode statistik khusus untuk menganalisis hubungan antar kategori tersebut.
Salah satu pendekatan utama dalam analisis ini adalah penggunaan tabel kontingensi yang memungkinkan peneliti memahami pola hubungan antara dua variabel kategori.
Analisis data kategori adalah metode statistik yang digunakan untuk menganalisis variabel yang berbentuk kategori atau klasifikasi. Variabel kategori tidak memiliki makna numerik langsung tetapi menunjukkan kelompok tertentu dalam suatu populasi.
Menurut Agresti (2019), analisis data kategori berfokus pada distribusi frekuensi dari variabel kategorikal serta hubungan antar kategori menggunakan tabel kontingensi dan berbagai ukuran asosiasi.
Karakteristik variabel kategori antara lain:
Metode yang umum digunakan dalam analisis data kategori meliputi:
Metode ini banyak digunakan dalam penelitian epidemiologi dan ilmu sosial untuk mempelajari hubungan antara faktor risiko dan suatu kejadian Agresti (2013).
Tabel kontingensi adalah tabel yang menyajikan distribusi frekuensi dari dua atau lebih variabel kategori secara bersamaan sehingga hubungan antara variabel tersebut dapat dianalisis Agresti (2019).
| Kanker | Tidak Kanker | Total | |
|---|---|---|---|
| Merokok | a | b | a+b |
| Tidak Merokok | c | d | c+d |
| Total | a+c | b+d | n |
Dimana:
Distribusi gabungan menunjukkan peluang dua kejadian terjadi secara bersamaan.
\[ P(X=i,Y=j)=\frac{n_{ij}}{n} \]
Distribusi marginal menunjukkan peluang satu variabel tanpa memperhatikan variabel lainnya.
\[ P(X=i)=\frac{n_{i+}}{n} \]
\[ P(Y=j)=\frac{n_{+j}}{n} \]
Peluang bersyarat menunjukkan peluang suatu kejadian jika diketahui kejadian lain telah terjadi.
\[ P(Y=j|X=i)=\frac{n_{ij}}{n_{i+}} \]
Ukuran asosiasi digunakan untuk mengetahui kekuatan hubungan antara dua variabel kategori.
Odds adalah perbandingan antara peluang suatu kejadian terjadi dengan peluang kejadian tidak terjadi.
\[ Odds = \frac{P}{1-P} \]
Odds Ratio membandingkan odds antara dua kelompok.
\[ OR = \frac{a \times d}{b \times c} \]
Interpretasi:
Relative Risk membandingkan risiko kejadian antara dua kelompok.
\[ RR = \frac{a/(a+b)}{c/(c+d)} \]
Misalkan dilakukan penelitian mengenai hubungan merokok dengan kanker paru-paru.
| Kanker | Tidak Kanker | |
|---|---|---|
| Merokok | 60 | 40 |
| Tidak Merokok | 20 | 80 |
Misalkan:
\[ a=60, \quad b=40, \quad c=20, \quad d=80 \]
\[ P(Kanker|Merokok)=\frac{60}{60+40}=0.6 \]
\[ P(Kanker|TidakMerokok)=\frac{20}{20+80}=0.2 \]
\[ Odds_{Merokok}=\frac{60}{40}=1.5 \]
\[ Odds_{TidakMerokok}=\frac{20}{80}=0.25 \]
\[ OR=\frac{60\times80}{40\times20}=6 \]
Artinya individu yang merokok memiliki peluang sekitar 6 kali lebih besar mengalami kanker paru-paru dibandingkan individu yang tidak merokok.
data <- matrix(c(60,40,20,80),
nrow=2,
byrow=TRUE)
rownames(data) <- c("Merokok","Tidak Merokok")
colnames(data) <- c("Kanker","Tidak Kanker")
data
## Kanker Tidak Kanker
## Merokok 60 40
## Tidak Merokok 20 80
library(epitools)
oddsratio(data)
## $data
## Kanker Tidak Kanker Total
## Merokok 60 40 100
## Tidak Merokok 20 80 100
## Total 80 120 200
##
## $measure
## NA
## odds ratio with 95% C.I. estimate lower upper
## Merokok 1.000000 NA NA
## Tidak Merokok 5.915517 3.181806 11.37695
##
## $p.value
## NA
## two-sided midp.exact fisher.exact chi.square
## Merokok NA NA NA
## Tidak Merokok 6.163344e-09 1.063603e-08 7.764037e-09
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
chisq.test(data)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: data
## X-squared = 31.688, df = 1, p-value = 1.811e-08
Nilai Odds Ratio sebesar 6 menunjukkan bahwa individu yang merokok memiliki kemungkinan sekitar enam kali lebih besar mengalami kanker paru-paru dibandingkan individu yang tidak merokok.
Jika hasil uji Chi-Square menghasilkan p-value < 0.05, maka dapat disimpulkan bahwa terdapat hubungan yang signifikan antara kebiasaan merokok dan kejadian kanker paru-paru.
Secara substantif, hasil ini menunjukkan bahwa merokok merupakan faktor risiko penting terhadap kanker paru-paru, sehingga upaya pencegahan melalui edukasi kesehatan sangat diperlukan.