1 Pendahuluan

Dalam banyak penelitian di bidang kesehatan, ekonomi, dan ilmu sosial, data yang diperoleh sering kali berupa data kategori. Data kategori merepresentasikan kelompok atau klasifikasi tertentu seperti jenis kelamin, status penyakit, kebiasaan merokok, atau tingkat pendidikan. Oleh karena itu diperlukan metode statistik khusus untuk menganalisis hubungan antar kategori tersebut.

Salah satu pendekatan utama dalam analisis ini adalah penggunaan tabel kontingensi yang memungkinkan peneliti memahami pola hubungan antara dua variabel kategori.

2 Definisi Analisis Data Kategori

Analisis data kategori adalah metode statistik yang digunakan untuk menganalisis variabel yang berbentuk kategori atau klasifikasi. Variabel kategori tidak memiliki makna numerik langsung tetapi menunjukkan kelompok tertentu dalam suatu populasi.

Menurut Agresti (2019), analisis data kategori berfokus pada distribusi frekuensi dari variabel kategorikal serta hubungan antar kategori menggunakan tabel kontingensi dan berbagai ukuran asosiasi.

Karakteristik variabel kategori antara lain:

  1. Nilainya berupa label atau kategori
  2. Tidak dapat dilakukan operasi matematika seperti penjumlahan secara langsung
  3. Analisis biasanya menggunakan frekuensi atau proporsi

Metode yang umum digunakan dalam analisis data kategori meliputi:

  • Tabel kontingensi
  • Uji Chi-Square
  • Odds Ratio
  • Relative Risk

Metode ini banyak digunakan dalam penelitian epidemiologi dan ilmu sosial untuk mempelajari hubungan antara faktor risiko dan suatu kejadian Agresti (2013).

3 Tabel Kontingensi

3.1 Definisi

Tabel kontingensi adalah tabel yang menyajikan distribusi frekuensi dari dua atau lebih variabel kategori secara bersamaan sehingga hubungan antara variabel tersebut dapat dianalisis Agresti (2019).

3.2 Struktur Tabel Kontingensi 2×2

Kanker Tidak Kanker Total
Merokok a b a+b
Tidak Merokok c d c+d
Total a+c b+d n

Dimana:

  • a,b,c,d adalah frekuensi observasi
  • n adalah jumlah sampel

3.3 Joint Distribution

Distribusi gabungan menunjukkan peluang dua kejadian terjadi secara bersamaan.

\[ P(X=i,Y=j)=\frac{n_{ij}}{n} \]

3.4 Marginal Distribution

Distribusi marginal menunjukkan peluang satu variabel tanpa memperhatikan variabel lainnya.

\[ P(X=i)=\frac{n_{i+}}{n} \]

\[ P(Y=j)=\frac{n_{+j}}{n} \]

3.5 Conditional Probability

Peluang bersyarat menunjukkan peluang suatu kejadian jika diketahui kejadian lain telah terjadi.

\[ P(Y=j|X=i)=\frac{n_{ij}}{n_{i+}} \]

4 Ukuran Asosiasi

Ukuran asosiasi digunakan untuk mengetahui kekuatan hubungan antara dua variabel kategori.

4.1 Odds

Odds adalah perbandingan antara peluang suatu kejadian terjadi dengan peluang kejadian tidak terjadi.

\[ Odds = \frac{P}{1-P} \]

4.2 Odds Ratio

Odds Ratio membandingkan odds antara dua kelompok.

\[ OR = \frac{a \times d}{b \times c} \]

Interpretasi:

  • OR = 1 → tidak ada hubungan
  • OR > 1 → hubungan positif
  • OR < 1 → hubungan negatif

4.3 Relative Risk

Relative Risk membandingkan risiko kejadian antara dua kelompok.

\[ RR = \frac{a/(a+b)}{c/(c+d)} \]

5 Contoh Perhitungan Manual

Misalkan dilakukan penelitian mengenai hubungan merokok dengan kanker paru-paru.

Kanker Tidak Kanker
Merokok 60 40
Tidak Merokok 20 80

Misalkan:

\[ a=60, \quad b=40, \quad c=20, \quad d=80 \]

5.1 Peluang Bersyarat

\[ P(Kanker|Merokok)=\frac{60}{60+40}=0.6 \]

\[ P(Kanker|TidakMerokok)=\frac{20}{20+80}=0.2 \]

5.2 Odds

\[ Odds_{Merokok}=\frac{60}{40}=1.5 \]

\[ Odds_{TidakMerokok}=\frac{20}{80}=0.25 \]

5.3 Odds Ratio

\[ OR=\frac{60\times80}{40\times20}=6 \]

Artinya individu yang merokok memiliki peluang sekitar 6 kali lebih besar mengalami kanker paru-paru dibandingkan individu yang tidak merokok.

6 Analisis Menggunakan R

data <- matrix(c(60,40,20,80),
               nrow=2,
               byrow=TRUE)

rownames(data) <- c("Merokok","Tidak Merokok")
colnames(data) <- c("Kanker","Tidak Kanker")

data
##               Kanker Tidak Kanker
## Merokok           60           40
## Tidak Merokok     20           80
library(epitools)
oddsratio(data)
## $data
##               Kanker Tidak Kanker Total
## Merokok           60           40   100
## Tidak Merokok     20           80   100
## Total             80          120   200
## 
## $measure
##                         NA
## odds ratio with 95% C.I. estimate    lower    upper
##            Merokok       1.000000       NA       NA
##            Tidak Merokok 5.915517 3.181806 11.37695
## 
## $p.value
##                NA
## two-sided         midp.exact fisher.exact   chi.square
##   Merokok                 NA           NA           NA
##   Tidak Merokok 6.163344e-09 1.063603e-08 7.764037e-09
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
chisq.test(data)
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  data
## X-squared = 31.688, df = 1, p-value = 1.811e-08

7 Interpretasi Hasil

Nilai Odds Ratio sebesar 6 menunjukkan bahwa individu yang merokok memiliki kemungkinan sekitar enam kali lebih besar mengalami kanker paru-paru dibandingkan individu yang tidak merokok.

Jika hasil uji Chi-Square menghasilkan p-value < 0.05, maka dapat disimpulkan bahwa terdapat hubungan yang signifikan antara kebiasaan merokok dan kejadian kanker paru-paru.

Secara substantif, hasil ini menunjukkan bahwa merokok merupakan faktor risiko penting terhadap kanker paru-paru, sehingga upaya pencegahan melalui edukasi kesehatan sangat diperlukan.

Referensi

Agresti, Alan. 2013. Categorical Data Analysis. Wiley.
———. 2019. An Introduction to Categorical Data Analysis. Wiley.