Pendahuluan

Analisis data kategori merupakan salah satu cabang penting dalam statistika yang digunakan untuk menganalisis data yang berbentuk kategori atau klasifikasi. Data kategori sering dijumpai dalam berbagai bidang seperti kesehatan, ekonomi, dan ilmu sosial.

Contoh data kategori antara lain jenis kelamin, status penyakit, status merokok, tingkat pendidikan, dan lain sebagainya. Dalam analisis data kategori, hubungan antara dua atau lebih variabel kategori biasanya dianalisis menggunakan tabel kontingensi serta ukuran asosiasi seperti odds, odds ratio, dan relative risk.

Bagian 1: Definisi Analisis Data Kategori

Pengertian Analisis Data Kategori

Analisis data kategori adalah metode statistik yang digunakan untuk menganalisis data yang berbentuk kategori atau klasifikasi. Data kategori tidak dinyatakan dalam bentuk nilai numerik kontinu, tetapi dalam bentuk kelompok tertentu.

Tujuan analisis data kategori antara lain:

Menggambarkan distribusi data dalam berbagai kategori
Mengidentifikasi hubungan antara dua variabel kategori
Mengukur kekuatan asosiasi antara variabel kategori
Menguji hipotesis mengenai hubungan antar variabel kategori

Metode yang umum digunakan dalam analisis data kategori antara lain:

Tabel kontingensi
Uji Chi-Square
Odds Ratio
Relative Risk
Regresi logistik

Karakteristik Variabel Kategori

Variabel kategori memiliki beberapa karakteristik penting:

Berupa label atau klasifikasi
Contoh: jenis kelamin (laki-laki/perempuan).
Tidak memiliki makna operasi aritmatika
Nilai kategori tidak dapat dijumlahkan atau dikurangi.
Biasanya dinyatakan dalam frekuensi
Analisis dilakukan berdasarkan jumlah observasi dalam setiap kategori.
Memiliki skala nominal atau ordinal

Nominal: - Jenis kelamin - Golongan darah

Ordinal: - Tingkat pendidikan - Tingkat kepuasan

Contoh Penerapan

Dalam bidang kesehatan, analisis data kategori dapat digunakan untuk meneliti hubungan antara kebiasaan merokok dan kanker paru.

Variabel yang digunakan:

Status merokok (Perokok / Tidak Perokok)
Status kanker paru (Ya / Tidak)

Bagian 2: Tabel Kontingensi

Definisi

Tabel kontingensi adalah tabel yang menyajikan distribusi frekuensi gabungan dari dua atau lebih variabel kategori.

Struktur Tabel Kontingensi 2×2

	Penyakit	Tidak Penyakit	Total
Terpapar	a	b	a+b
Tidak Terpapar	c	d	c+d
Total	a+c	b+d	n

Keterangan:

a = jumlah individu terpapar dan sakit
b = jumlah individu terpapar tetapi tidak sakit
c = jumlah individu tidak terpapar tetapi sakit
d = jumlah individu tidak terpapar dan tidak sakit

Total observasi:

\[ n = a + b + c + d \]

Joint Distribution

Distribusi gabungan:

\[ P(X=i,Y=j) = \frac{n_{ij}}{n} \]

Contoh:

\[ P(Terpapar, Penyakit) = \frac{a}{n} \]

Marginal Distribution

Distribusi marginal diperoleh dari total baris atau kolom.

\[ P(Terpapar) = \frac{a+b}{n} \]

\[ P(Penyakit) = \frac{a+c}{n} \]

Conditional Probability

Peluang bersyarat:

\[ P(A|B) = \frac{P(A \cap B)}{P(B)} \]

Contoh:

\[ P(Penyakit|Terpapar) = \frac{a}{a+b} \]

Bagian 3: Ukuran Asosiasi

Odds

Odds merupakan perbandingan antara peluang suatu kejadian dengan peluang kejadian tersebut tidak terjadi.

\[ Odds = \frac{P}{1-P} \]

Dalam tabel kontingensi:

\[ Odds_1 = \frac{a}{b} \]

\[ Odds_0 = \frac{c}{d} \]

Odds Ratio

Odds Ratio merupakan perbandingan antara dua odds.

\[ OR = \frac{Odds_1}{Odds_0} \]

Dalam tabel 2×2:

\[ OR = \frac{a/b}{c/d} \]

atau

\[ OR = \frac{ad}{bc} \]

Interpretasi:

OR = 1 → tidak ada hubungan
OR > 1 → meningkatkan risiko
OR < 1 → bersifat protektif

Relative Risk

Relative Risk adalah rasio antara probabilitas kejadian pada kelompok terpapar dan tidak terpapar.

\[ RR = \frac{P(Penyakit|Terpapar)}{P(Penyakit|Tidak Terpapar)} \]

atau

\[ RR = \frac{a/(a+b)}{c/(c+d)} \]

Bagian 4: Contoh Perhitungan Manual

Misalkan dilakukan penelitian mengenai hubungan antara kebiasaan merokok dan kanker paru.

	Kanker	Tidak Kanker	Total
Perokok	60	40	100
Tidak Perokok	20	80	100
Total	80	120	200

Peluang Bersyarat

\[ P(Kanker|Perokok) = \frac{60}{100} = 0.6 \]

\[ P(Kanker|TidakPerokok) = \frac{20}{100} = 0.2 \]

Odds

\[ Odds_1 = \frac{60}{40} = 1.5 \]

\[ Odds_0 = \frac{20}{80} = 0.25 \]

Odds Ratio

\[ OR = \frac{ad}{bc} \]

\[ OR = \frac{60 \times 80}{40 \times 20} \]

\[ OR = \frac{4800}{800} = 6 \]

Interpretasi: Odds terkena kanker paru pada perokok 6 kali lebih besar dibandingkan tidak perokok.

Bagian 5: Analisis Menggunakan R

data <- matrix(c(60,40,20,80),
               nrow=2,
               byrow=TRUE)

rownames(data) <- c("Perokok","Tidak_Perokok")
colnames(data) <- c("Kanker","Tidak_Kanker")

data

##               Kanker Tidak_Kanker
## Perokok           60           40
## Tidak_Perokok     20           80

Odds Ratio di R

library(epitools)

## Warning: package 'epitools' was built under R version 4.5.2

oddsratio(data)

## $data
##               Kanker Tidak_Kanker Total
## Perokok           60           40   100
## Tidak_Perokok     20           80   100
## Total             80          120   200
## 
## $measure
##                         NA
## odds ratio with 95% C.I. estimate    lower    upper
##            Perokok       1.000000       NA       NA
##            Tidak_Perokok 5.915517 3.181806 11.37695
## 
## $p.value
##                NA
## two-sided         midp.exact fisher.exact   chi.square
##   Perokok                 NA           NA           NA
##   Tidak_Perokok 6.163344e-09 1.063603e-08 7.764037e-09
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"

Uji Chi-Square

chisq.test(data)

## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  data
## X-squared = 31.688, df = 1, p-value = 1.811e-08

Hipotesis:

H0: Tidak ada hubungan antara merokok dan kanker paru
H1: Ada hubungan antara merokok dan kanker paru

Bagian 6: Interpretasi Hasil

Interpretasi Statistik

Jika nilai p-value dari uji Chi-Square lebih kecil dari 0.05 maka hipotesis nol ditolak. Artinya terdapat hubungan yang signifikan antara kebiasaan merokok dan kanker paru.

Interpretasi Substantif

Berdasarkan nilai Odds Ratio sebesar 6, individu yang merokok memiliki kemungkinan terkena kanker paru sekitar 6 kali lebih besar dibandingkan individu yang tidak merokok.

Hal ini menunjukkan bahwa merokok merupakan faktor risiko penting terhadap kanker paru.

Tugas Individu: Analisis Data Kategori

Abdul Aziz Nur Sani

2026-03-05

Pendahuluan

Bagian 1: Definisi Analisis Data Kategori

Pengertian Analisis Data Kategori

Karakteristik Variabel Kategori

Contoh Penerapan

Bagian 2: Tabel Kontingensi

Definisi

Struktur Tabel Kontingensi 2×2

Joint Distribution

Marginal Distribution

Conditional Probability

Bagian 3: Ukuran Asosiasi

Odds

Odds Ratio

Relative Risk

Bagian 4: Contoh Perhitungan Manual

Peluang Bersyarat

Odds

Odds Ratio

Bagian 5: Analisis Menggunakan R

Odds Ratio di R

Uji Chi-Square

Bagian 6: Interpretasi Hasil

Interpretasi Statistik

Interpretasi Substantif