Pendahuluan

Analisis data kategori merupakan metode statistik yang digunakan untuk menganalisis variabel yang berbentuk kategori atau klasifikasi tertentu. Variabel kategori tidak dinyatakan dalam bentuk nilai numerik kontinu, tetapi berupa kelompok atau label seperti jenis kelamin, status penyakit, atau kebiasaan merokok.

Analisis ini banyak digunakan dalam penelitian kesehatan, sosial, epidemiologi, dan bidang lain yang melibatkan data klasifikasi.

Definisi Analisis Data Kategori

Pengertian Analisis Data Kategori

Analisis data kategori adalah metode statistik yang digunakan untuk mempelajari hubungan antara variabel-variabel yang bersifat kategorik.

Menurut Agresti (2013), analisis data kategori digunakan untuk mempelajari hubungan antar variabel kategorik menggunakan tabel kontingensi dan model probabilistik.

Dalam praktiknya, analisis ini sering menggunakan:

tabel kontingensi
ukuran asosiasi
uji independensi seperti chi-square.

Karakteristik Variabel Kategori

Variabel kategori memiliki beberapa karakteristik utama:

Nilainya berupa kategori atau label.
Tidak memiliki makna numerik secara langsung.
Biasanya dinyatakan dalam bentuk frekuensi atau proporsi.
Dapat berupa:
- Nominal (misalnya jenis kelamin: laki-laki, perempuan)
- Ordinal (misalnya tingkat pendidikan: SD, SMP, SMA).

Contoh Penerapan

Contoh penerapan analisis data kategori dalam penelitian:

hubungan antara merokok dan kanker paru
hubungan antara vaksinasi dan infeksi
hubungan antara jenis kelamin dan pilihan jurusan

Tabel Kontingensi

Definisi Tabel Kontingensi

Tabel kontingensi adalah tabel klasifikasi silang dari dua atau lebih variabel yang bersifat kategori. Tabel ini digunakan untuk menggambarkan hubungan antar variabel kategorik :contentReferenceoaicite:1.

Jika terdapat dua variabel kategori maka disebut tabel kontingensi dua arah.

Struktur Tabel Kontingensi

Misalkan terdapat dua variabel kategori:

X memiliki I kategori
Y memiliki J kategori

Tabel kontingensi dinyatakan sebagai tabel \(I \times J\).

Contoh tabel kontingensi 2 × 2:

X/Y	y1	y2	Total
x1	n11	n12	n1.
x2	n21	n22	n2.
Total	n.1	n.2	n..

Keterangan:

\(n_{ij}\) = frekuensi sel baris ke-i kolom ke-j

\(n_{i.}\) = total baris

\(n_{.j}\) = total kolom

\(n_{..}\) = total seluruh observasi.

Distribusi Peluang pada Tabel Kontingensi

Distribusi peluang pada tabel kontingensi terdiri dari:

Joint probability
Marginal probability
Conditional probability

Contoh Data

Misalkan diperoleh tabel berikut:

	Kanker	Tidak Kanker	Total
Merokok	60	40	100
Tidak Merokok	20	80	100
Total	80	120	200

Sehingga:

\(n_{11}=60\)

\(n_{12}=40\)

\(n_{21}=20\)

\(n_{22}=80\)

\(n_{..}=200\)

Joint Distribution

Joint probability adalah peluang dua kejadian terjadi secara bersamaan.

\[ P(X=i,Y=j)=\pi_{ij} \]

\[ \pi_{ij} = \frac{n_{ij}}{n_{..}} \]

Contoh:

\[ \pi_{11} = \frac{60}{200} = 0.3 \]

Artinya peluang seseorang merokok dan terkena kanker adalah 0.3.

Contoh lain:

\[ \pi_{22} = \frac{80}{200} = 0.4 \]

Marginal Distribution

Distribusi marginal diperoleh dari penjumlahan peluang bersama.

Untuk variabel X:

\[ \pi_{1.} = \pi_{11} + \pi_{12} \]

\[ \pi_{1.} = \frac{60}{200} + \frac{40}{200} \]

\[ \pi_{1.} = 0.5 \]

Artinya probabilitas seseorang merokok adalah 0.5.

Untuk variabel Y:

\[ \pi_{.1} = \pi_{11} + \pi_{21} \]

\[ \pi_{.1} = \frac{60}{200} + \frac{20}{200} \]

\[ \pi_{.1} = 0.4 \]

Artinya probabilitas seseorang terkena kanker adalah 0.4.

Conditional Probability

Distribusi peluang bersyarat menunjukkan probabilitas suatu kejadian jika kejadian lain diketahui.

\[ P(Y=j|X=i)=\pi_{j|i} \]

\[ \pi_{j|i} = \frac{\pi_{ij}}{\pi_{i.}} \]

Contoh:

Probabilitas kanker pada perokok

\[ P(Kanker|Merokok)=\frac{60}{100} \]

\[ =0.6 \]

Probabilitas kanker pada tidak merokok

\[ P(Kanker|TidakMerokok)=\frac{20}{100} \]

\[ =0.2 \]

Ukuran Asosiasi

Hubungan antara dua variabel kategori dalam tabel kontingensi disebut asosiasi.

Ukuran asosiasi yang umum digunakan adalah:

Odds
Odds Ratio
Relative Risk

Odds

Odds adalah perbandingan antara peluang kejadian dengan peluang kejadian tidak terjadi.

\[ Odds = \frac{p}{1-p} \]

Pada tabel kontingensi:

\[ Odds = \frac{a}{b} \]

Odds Ratio

Odds Ratio adalah rasio dua odds.

	Y=1	Y=0
X=1	a	b
X=0	c	d

\[ OR = \frac{a \times d}{b \times c} \]

Interpretasi:

OR = 1 → tidak ada hubungan
OR > 1 → meningkatkan risiko
OR < 1 → bersifat protektif

Relative Risk

Relative Risk adalah rasio dua peluang bersyarat.

\[ RR = \frac{P(Y=1|X=1)}{P(Y=1|X=0)} \]

\[ RR = \frac{a/(a+b)}{c/(c+d)} \]

Interpretasi:

RR = 1 → tidak ada asosiasi
RR > 1 → risiko meningkat
RR < 1 → faktor protektif

Contoh Perhitungan Manual

Kasus hubungan merokok dan kanker paru.

Tabel Kontingensi

	Kanker	Tidak Kanker
Merokok	60	40
Tidak Merokok	20	80

Sehingga:

\[ a=60,\quad b=40,\quad c=20,\quad d=80 \]

Peluang Bersyarat

\[ P(Kanker|Merokok)=\frac{60}{100}=0.6 \]

\[ P(Kanker|TidakMerokok)=\frac{20}{100}=0.2 \]

Odds

Odds kanker pada perokok:

\[ Odds = \frac{60}{40}=1.5 \]

Odds kanker pada tidak merokok:

\[ Odds = \frac{20}{80}=0.25 \]

Odds Ratio

\[ OR = \frac{60 \times 80}{40 \times 20} \]

\[ OR = \frac{4800}{800} \]

\[ OR = 6 \]

Artinya odds terkena kanker paru pada perokok 6 kali lebih besar dibandingkan yang tidak merokok.

Analisis Menggunakan R

Membuat Tabel Kontingensi

data <- matrix(c(60,40,20,80),
               nrow=2,
               byrow=TRUE)

rownames(data) <- c("Merokok","Tidak_Merokok")
colnames(data) <- c("Kanker","Tidak_Kanker")

data

##               Kanker Tidak_Kanker
## Merokok           60           40
## Tidak_Merokok     20           80

Menghitung odd ratio

odds_ratio <- (data[1,1]*data[2,2])/(data[1,2]*data[2,1])
odds_ratio

## [1] 6

Melakukan uji chi-square

chisq.test(data)

## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  data
## X-squared = 31.688, df = 1, p-value = 1.811e-08

Interpretasi Hasil

Interpretasi Statistik

Nilai Odds Ratio sebesar 6 menunjukkan bahwa odds terkena kanker paru pada kelompok perokok enam kali lebih besar dibandingkan kelompok yang tidak merokok.

Jika hasil uji chi-square menunjukkan nilai p-value < 0.05, maka terdapat hubungan yang signifikan antara kebiasaan merokok dan kejadian kanker paru.

Interpretasi Substantif

Dalam konteks kesehatan masyarakat, hasil ini menunjukkan bahwa kebiasaan merokok merupakan faktor risiko penting terhadap kanker paru. Oleh karena itu, upaya pencegahan seperti edukasi berhenti merokok sangat diperlukan.

Pengenalan Analisis Data Kategori

David Christian

2026-03-06

Pendahuluan

Definisi Analisis Data Kategori

Pengertian Analisis Data Kategori

Karakteristik Variabel Kategori

Contoh Penerapan

Tabel Kontingensi

Definisi Tabel Kontingensi

Struktur Tabel Kontingensi

Distribusi Peluang pada Tabel Kontingensi

Contoh Data

Joint Distribution

Marginal Distribution

Conditional Probability

Ukuran Asosiasi

Odds

Odds Ratio

Relative Risk

Contoh Perhitungan Manual

Tabel Kontingensi

Peluang Bersyarat

Odds

Odds Ratio

Analisis Menggunakan R

Membuat Tabel Kontingensi

Menghitung odd ratio

Melakukan uji chi-square

Interpretasi Hasil

Interpretasi Statistik

Interpretasi Substantif