Analisis data kategori merupakan metode statistik yang digunakan untuk menganalisis variabel yang berbentuk kategori atau klasifikasi tertentu. Variabel kategori tidak dinyatakan dalam bentuk nilai numerik kontinu, tetapi berupa kelompok atau label seperti jenis kelamin, status penyakit, atau kebiasaan merokok.
Analisis ini banyak digunakan dalam penelitian kesehatan, sosial, epidemiologi, dan bidang lain yang melibatkan data klasifikasi.
Analisis data kategori adalah metode statistik yang digunakan untuk mempelajari hubungan antara variabel-variabel yang bersifat kategorik.
Menurut Agresti (2013), analisis data kategori digunakan untuk mempelajari hubungan antar variabel kategorik menggunakan tabel kontingensi dan model probabilistik.
Dalam praktiknya, analisis ini sering menggunakan:
Variabel kategori memiliki beberapa karakteristik utama:
Contoh penerapan analisis data kategori dalam penelitian:
Tabel kontingensi adalah tabel klasifikasi silang dari dua atau lebih variabel yang bersifat kategori. Tabel ini digunakan untuk menggambarkan hubungan antar variabel kategorik :contentReferenceoaicite:1.
Jika terdapat dua variabel kategori maka disebut tabel kontingensi dua arah.
Misalkan terdapat dua variabel kategori:
Tabel kontingensi dinyatakan sebagai tabel \(I \times J\).
Contoh tabel kontingensi 2 × 2:
| X/Y | y1 | y2 | Total |
|---|---|---|---|
| x1 | n11 | n12 | n1. |
| x2 | n21 | n22 | n2. |
| Total | n.1 | n.2 | n.. |
Keterangan:
\(n_{ij}\) = frekuensi sel baris ke-i kolom ke-j
\(n_{i.}\) = total baris
\(n_{.j}\) = total kolom
\(n_{..}\) = total seluruh observasi.
Distribusi peluang pada tabel kontingensi terdiri dari:
Misalkan diperoleh tabel berikut:
| Kanker | Tidak Kanker | Total | |
|---|---|---|---|
| Merokok | 60 | 40 | 100 |
| Tidak Merokok | 20 | 80 | 100 |
| Total | 80 | 120 | 200 |
Sehingga:
\(n_{11}=60\)
\(n_{12}=40\)
\(n_{21}=20\)
\(n_{22}=80\)
\(n_{..}=200\)
Joint probability adalah peluang dua kejadian terjadi secara bersamaan.
\[ P(X=i,Y=j)=\pi_{ij} \]
\[ \pi_{ij} = \frac{n_{ij}}{n_{..}} \]
Contoh:
\[ \pi_{11} = \frac{60}{200} = 0.3 \]
Artinya peluang seseorang merokok dan terkena kanker adalah 0.3.
Contoh lain:
\[ \pi_{22} = \frac{80}{200} = 0.4 \]
Distribusi marginal diperoleh dari penjumlahan peluang bersama.
Untuk variabel X:
\[ \pi_{1.} = \pi_{11} + \pi_{12} \]
\[ \pi_{1.} = \frac{60}{200} + \frac{40}{200} \]
\[ \pi_{1.} = 0.5 \]
Artinya probabilitas seseorang merokok adalah 0.5.
Untuk variabel Y:
\[ \pi_{.1} = \pi_{11} + \pi_{21} \]
\[ \pi_{.1} = \frac{60}{200} + \frac{20}{200} \]
\[ \pi_{.1} = 0.4 \]
Artinya probabilitas seseorang terkena kanker adalah 0.4.
Distribusi peluang bersyarat menunjukkan probabilitas suatu kejadian jika kejadian lain diketahui.
\[ P(Y=j|X=i)=\pi_{j|i} \]
\[ \pi_{j|i} = \frac{\pi_{ij}}{\pi_{i.}} \]
Contoh:
Probabilitas kanker pada perokok
\[ P(Kanker|Merokok)=\frac{60}{100} \]
\[ =0.6 \]
Probabilitas kanker pada tidak merokok
\[ P(Kanker|TidakMerokok)=\frac{20}{100} \]
\[ =0.2 \]
Hubungan antara dua variabel kategori dalam tabel kontingensi disebut asosiasi.
Ukuran asosiasi yang umum digunakan adalah:
Odds adalah perbandingan antara peluang kejadian dengan peluang kejadian tidak terjadi.
\[ Odds = \frac{p}{1-p} \]
Pada tabel kontingensi:
\[ Odds = \frac{a}{b} \]
Odds Ratio adalah rasio dua odds.
| Y=1 | Y=0 | |
|---|---|---|
| X=1 | a | b |
| X=0 | c | d |
\[ OR = \frac{a \times d}{b \times c} \]
Interpretasi:
Relative Risk adalah rasio dua peluang bersyarat.
\[ RR = \frac{P(Y=1|X=1)}{P(Y=1|X=0)} \]
\[ RR = \frac{a/(a+b)}{c/(c+d)} \]
Interpretasi:
Kasus hubungan merokok dan kanker paru.
| Kanker | Tidak Kanker | |
|---|---|---|
| Merokok | 60 | 40 |
| Tidak Merokok | 20 | 80 |
Sehingga:
\[ a=60,\quad b=40,\quad c=20,\quad d=80 \]
\[ P(Kanker|Merokok)=\frac{60}{100}=0.6 \]
\[ P(Kanker|TidakMerokok)=\frac{20}{100}=0.2 \]
Odds kanker pada perokok:
\[ Odds = \frac{60}{40}=1.5 \]
Odds kanker pada tidak merokok:
\[ Odds = \frac{20}{80}=0.25 \]
\[ OR = \frac{60 \times 80}{40 \times 20} \]
\[ OR = \frac{4800}{800} \]
\[ OR = 6 \]
Artinya odds terkena kanker paru pada perokok 6 kali lebih besar dibandingkan yang tidak merokok.
data <- matrix(c(60,40,20,80),
nrow=2,
byrow=TRUE)
rownames(data) <- c("Merokok","Tidak_Merokok")
colnames(data) <- c("Kanker","Tidak_Kanker")
data
## Kanker Tidak_Kanker
## Merokok 60 40
## Tidak_Merokok 20 80
odds_ratio <- (data[1,1]*data[2,2])/(data[1,2]*data[2,1])
odds_ratio
## [1] 6
chisq.test(data)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: data
## X-squared = 31.688, df = 1, p-value = 1.811e-08
Nilai Odds Ratio sebesar 6 menunjukkan bahwa odds terkena kanker paru pada kelompok perokok enam kali lebih besar dibandingkan kelompok yang tidak merokok.
Jika hasil uji chi-square menunjukkan nilai p-value < 0.05, maka terdapat hubungan yang signifikan antara kebiasaan merokok dan kejadian kanker paru.
Dalam konteks kesehatan masyarakat, hasil ini menunjukkan bahwa kebiasaan merokok merupakan faktor risiko penting terhadap kanker paru. Oleh karena itu, upaya pencegahan seperti edukasi berhenti merokok sangat diperlukan.