Pendahuluan

Analisis data kategori merupakan metode statistik yang digunakan untuk menganalisis variabel yang berbentuk kategori atau klasifikasi tertentu. Variabel kategori tidak dinyatakan dalam bentuk nilai numerik kontinu, tetapi berupa kelompok atau label seperti jenis kelamin, status penyakit, atau kebiasaan merokok.

Analisis ini banyak digunakan dalam penelitian kesehatan, sosial, epidemiologi, dan bidang lain yang melibatkan data klasifikasi.


Definisi Analisis Data Kategori

Pengertian Analisis Data Kategori

Analisis data kategori adalah metode statistik yang digunakan untuk mempelajari hubungan antara variabel-variabel yang bersifat kategorik.

Menurut Agresti (2013), analisis data kategori digunakan untuk mempelajari hubungan antar variabel kategorik menggunakan tabel kontingensi dan model probabilistik.

Dalam praktiknya, analisis ini sering menggunakan:

  • tabel kontingensi
  • ukuran asosiasi
  • uji independensi seperti chi-square.

Karakteristik Variabel Kategori

Variabel kategori memiliki beberapa karakteristik utama:

  1. Nilainya berupa kategori atau label.
  2. Tidak memiliki makna numerik secara langsung.
  3. Biasanya dinyatakan dalam bentuk frekuensi atau proporsi.
  4. Dapat berupa:
    • Nominal (misalnya jenis kelamin: laki-laki, perempuan)
    • Ordinal (misalnya tingkat pendidikan: SD, SMP, SMA).

Contoh Penerapan

Contoh penerapan analisis data kategori dalam penelitian:

  • hubungan antara merokok dan kanker paru
  • hubungan antara vaksinasi dan infeksi
  • hubungan antara jenis kelamin dan pilihan jurusan

Tabel Kontingensi

Definisi Tabel Kontingensi

Tabel kontingensi adalah tabel klasifikasi silang dari dua atau lebih variabel yang bersifat kategori. Tabel ini digunakan untuk menggambarkan hubungan antar variabel kategorik :contentReferenceoaicite:1.

Jika terdapat dua variabel kategori maka disebut tabel kontingensi dua arah.


Struktur Tabel Kontingensi

Misalkan terdapat dua variabel kategori:

  • X memiliki I kategori
  • Y memiliki J kategori

Tabel kontingensi dinyatakan sebagai tabel \(I \times J\).

Contoh tabel kontingensi 2 × 2:

X/Y y1 y2 Total
x1 n11 n12 n1.
x2 n21 n22 n2.
Total n.1 n.2 n..

Keterangan:

\(n_{ij}\) = frekuensi sel baris ke-i kolom ke-j

\(n_{i.}\) = total baris

\(n_{.j}\) = total kolom

\(n_{..}\) = total seluruh observasi.


Distribusi Peluang pada Tabel Kontingensi

Distribusi peluang pada tabel kontingensi terdiri dari:


Contoh Data

Misalkan diperoleh tabel berikut:

Kanker Tidak Kanker Total
Merokok 60 40 100
Tidak Merokok 20 80 100
Total 80 120 200

Sehingga:

\(n_{11}=60\)

\(n_{12}=40\)

\(n_{21}=20\)

\(n_{22}=80\)

\(n_{..}=200\)


Joint Distribution

Joint probability adalah peluang dua kejadian terjadi secara bersamaan.

\[ P(X=i,Y=j)=\pi_{ij} \]

\[ \pi_{ij} = \frac{n_{ij}}{n_{..}} \]

Contoh:

\[ \pi_{11} = \frac{60}{200} = 0.3 \]

Artinya peluang seseorang merokok dan terkena kanker adalah 0.3.

Contoh lain:

\[ \pi_{22} = \frac{80}{200} = 0.4 \]


Marginal Distribution

Distribusi marginal diperoleh dari penjumlahan peluang bersama.

Untuk variabel X:

\[ \pi_{1.} = \pi_{11} + \pi_{12} \]

\[ \pi_{1.} = \frac{60}{200} + \frac{40}{200} \]

\[ \pi_{1.} = 0.5 \]

Artinya probabilitas seseorang merokok adalah 0.5.

Untuk variabel Y:

\[ \pi_{.1} = \pi_{11} + \pi_{21} \]

\[ \pi_{.1} = \frac{60}{200} + \frac{20}{200} \]

\[ \pi_{.1} = 0.4 \]

Artinya probabilitas seseorang terkena kanker adalah 0.4.


Conditional Probability

Distribusi peluang bersyarat menunjukkan probabilitas suatu kejadian jika kejadian lain diketahui.

\[ P(Y=j|X=i)=\pi_{j|i} \]

\[ \pi_{j|i} = \frac{\pi_{ij}}{\pi_{i.}} \]

Contoh:

Probabilitas kanker pada perokok

\[ P(Kanker|Merokok)=\frac{60}{100} \]

\[ =0.6 \]

Probabilitas kanker pada tidak merokok

\[ P(Kanker|TidakMerokok)=\frac{20}{100} \]

\[ =0.2 \]


Ukuran Asosiasi

Hubungan antara dua variabel kategori dalam tabel kontingensi disebut asosiasi.

Ukuran asosiasi yang umum digunakan adalah:


Odds

Odds adalah perbandingan antara peluang kejadian dengan peluang kejadian tidak terjadi.

\[ Odds = \frac{p}{1-p} \]

Pada tabel kontingensi:

\[ Odds = \frac{a}{b} \]


Odds Ratio

Odds Ratio adalah rasio dua odds.

Y=1 Y=0
X=1 a b
X=0 c d

\[ OR = \frac{a \times d}{b \times c} \]

Interpretasi:

  • OR = 1 → tidak ada hubungan
  • OR > 1 → meningkatkan risiko
  • OR < 1 → bersifat protektif

Relative Risk

Relative Risk adalah rasio dua peluang bersyarat.

\[ RR = \frac{P(Y=1|X=1)}{P(Y=1|X=0)} \]

\[ RR = \frac{a/(a+b)}{c/(c+d)} \]

Interpretasi:

  • RR = 1 → tidak ada asosiasi
  • RR > 1 → risiko meningkat
  • RR < 1 → faktor protektif

Contoh Perhitungan Manual

Kasus hubungan merokok dan kanker paru.

Tabel Kontingensi

Kanker Tidak Kanker
Merokok 60 40
Tidak Merokok 20 80

Sehingga:

\[ a=60,\quad b=40,\quad c=20,\quad d=80 \]


Peluang Bersyarat

\[ P(Kanker|Merokok)=\frac{60}{100}=0.6 \]

\[ P(Kanker|TidakMerokok)=\frac{20}{100}=0.2 \]


Odds

Odds kanker pada perokok:

\[ Odds = \frac{60}{40}=1.5 \]

Odds kanker pada tidak merokok:

\[ Odds = \frac{20}{80}=0.25 \]


Odds Ratio

\[ OR = \frac{60 \times 80}{40 \times 20} \]

\[ OR = \frac{4800}{800} \]

\[ OR = 6 \]

Artinya odds terkena kanker paru pada perokok 6 kali lebih besar dibandingkan yang tidak merokok.


Analisis Menggunakan R

Membuat Tabel Kontingensi

data <- matrix(c(60,40,20,80),
               nrow=2,
               byrow=TRUE)

rownames(data) <- c("Merokok","Tidak_Merokok")
colnames(data) <- c("Kanker","Tidak_Kanker")

data
##               Kanker Tidak_Kanker
## Merokok           60           40
## Tidak_Merokok     20           80

Menghitung odd ratio

odds_ratio <- (data[1,1]*data[2,2])/(data[1,2]*data[2,1])
odds_ratio
## [1] 6

Melakukan uji chi-square

chisq.test(data)
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  data
## X-squared = 31.688, df = 1, p-value = 1.811e-08

Interpretasi Hasil

Interpretasi Statistik

Nilai Odds Ratio sebesar 6 menunjukkan bahwa odds terkena kanker paru pada kelompok perokok enam kali lebih besar dibandingkan kelompok yang tidak merokok.

Jika hasil uji chi-square menunjukkan nilai p-value < 0.05, maka terdapat hubungan yang signifikan antara kebiasaan merokok dan kejadian kanker paru.

Interpretasi Substantif

Dalam konteks kesehatan masyarakat, hasil ini menunjukkan bahwa kebiasaan merokok merupakan faktor risiko penting terhadap kanker paru. Oleh karena itu, upaya pencegahan seperti edukasi berhenti merokok sangat diperlukan.