1 Bagian 1: Definisi Analisis Data Kategori (15 Poin)

1.1 Pengertian

Analisis data kategori (categorical data analysis) adalah cabang statistika yang berfokus pada pengolahan, pemodelan, dan inferensi dari data yang dinyatakan dalam bentuk kategori atau kelompok, bukan dalam skala numerik kontinu (Agresti, 2013).

Secara formal, data kategori merupakan data yang nilainya merepresentasikan keanggotaan dalam suatu kelompok atau kategori yang tidak dapat dioperasikan secara aritmetika langsung. Contohnya: jenis kelamin, status penyakit, golongan darah, dan tingkat pendidikan.

1.2 Karakteristik Variabel Kategori

Skala Pengukuran: Data kategori diukur pada skala nominal (tanpa urutan, mis. jenis kelamin) atau ordinal (memiliki urutan, mis. tingkat pendidikan: SD < SMP < SMA < PT).
Representasi Frekuensi: Data biasanya dirangkum dalam bentuk frekuensi atau proporsi dalam setiap kategori, bukan nilai rata-rata atau simpangan baku.
Distribusi Probabilitas: Model probabilitas yang sering digunakan adalah distribusi Binomial, Multinomial, dan Poisson.
Uji Statistik: Pengujian hipotesis menggunakan uji chi-square (χ²), uji Fisher exact, atau likelihood ratio untuk mendeteksi asosiasi antar variabel.

1.3 Contoh Penerapan

Epidemiologi & Kesehatan Masyarakat: Studi kasus-kontrol untuk mengevaluasi hubungan antara faktor risiko (merokok, diet) dengan kejadian penyakit. Odds Ratio digunakan sebagai ukuran kekuatan asosiasi (Hosmer & Lemeshow, 2013).
Ilmu Sosial & Survei: Analisis hubungan antara variabel demografis (tingkat pendidikan, jenis kelamin) dengan preferensi politik atau kepuasan layanan publik.
Ekonomi & Bisnis: Pemodelan keputusan biner (membeli/tidak, gagal bayar/tidak) menggunakan regresi logistik berbasis data kategori.

2 Bagian 2: Tabel Kontingensi (20 Poin)

2.1 Definisi Tabel Kontingensi

Tabel kontingensi (contingency table) adalah susunan data dalam format matriks yang menampilkan distribusi frekuensi dari dua atau lebih variabel kategori secara simultan. Pada tabel kontingensi 2×2, terdapat dua variabel dengan masing-masing dua kategori.

2.2 Struktur Tabel Kontingensi 2×2

Variabel X Y	Y = 1	Y = 0	Total
X = 1	\(n_{11}\)	\(n_{12}\)	\(n_{1\bullet}\)
X = 0	\(n_{21}\)	\(n_{22}\)	\(n_{2\bullet}\)
Total	\(n_{\bullet 1}\)	\(n_{\bullet 2}\)	\(n\)

2.3 Joint Distribution (Distribusi Bersama)

Probabilitas bersama menyatakan proporsi observasi pada sel \((i,j)\) terhadap total:

\[\pi_{ij} = \frac{n_{ij}}{n}\]

Contoh: \(P(\text{Merokok, Kanker}) = n_{11}/n\). Jumlah seluruh sel = 1.

2.4 Marginal Distribution (Distribusi Marginal)

Probabilitas marginal diperoleh dengan menjumlahkan baris atau kolom:

Marginal baris: \(\pi_{i\bullet} = \sum_j \pi_{ij} = \frac{n_{i\bullet}}{n}\)
Marginal kolom: \(\pi_{\bullet j} = \sum_i \pi_{ij} = \frac{n_{\bullet j}}{n}\)

2.5 Conditional Probability (Peluang Bersyarat)

Peluang bersyarat menyatakan probabilitas Y diberikan bahwa X sudah diketahui:

\[P(Y=j \mid X=i) = \frac{\pi_{ij}}{\pi_{i\bullet}} = \frac{n_{ij}}{n_{i\bullet}}\]

Jika peluang bersyarat baris 1 = peluang bersyarat baris 2, maka kedua variabel independen.

2.6 Contoh Numerik

data <- matrix(c(60, 40, 20, 80),
               nrow = 2,
               byrow = TRUE)
rownames(data) <- c("Merokok", "Tidak Merokok")
colnames(data) <- c("Kanker", "Tidak Kanker")

# Tampilkan tabel beserta marginal
addmargins(data)

#>               Kanker Tidak Kanker Sum
#> Merokok           60           40 100
#> Tidak Merokok     20           80 100
#> Sum               80          120 200

# Joint distribution
cat("=== Joint Distribution ===\n")

#> === Joint Distribution ===

print(round(data / sum(data), 4))

#>               Kanker Tidak Kanker
#> Merokok          0.3          0.2
#> Tidak Merokok    0.1          0.4

# Marginal distribution
cat("\n=== Marginal Baris ===\n")

#> 
#> === Marginal Baris ===

print(round(rowSums(data) / sum(data), 4))

#>       Merokok Tidak Merokok 
#>           0.5           0.5

# Conditional probability
cat("\n=== Conditional Probability P(Kanker | Status Merokok) ===\n")

#> 
#> === Conditional Probability P(Kanker | Status Merokok) ===

print(round(prop.table(data, margin = 1), 4))

#>               Kanker Tidak Kanker
#> Merokok          0.6          0.4
#> Tidak Merokok    0.2          0.8

3 Bagian 3: Ukuran Asosiasi (25 Poin)

3.1 Odds

Odds adalah rasio antara probabilitas terjadinya suatu kejadian dengan probabilitas tidak terjadinya:

\[\text{Odds} = \frac{\pi}{1 - \pi}\]

Interpretasi: Odds > 1 → kejadian lebih mungkin terjadi; Odds < 1 → kejadian lebih mungkin tidak terjadi.

3.2 Odds Ratio (OR)

Odds Ratio adalah perbandingan odds antar dua kelompok. Untuk tabel 2×2 dengan sel \(a, b, c, d\):

\[OR = \frac{ad}{bc}\]

Nilai OR	Interpretasi
OR = 1	Tidak ada asosiasi (independen)
OR > 1	Asosiasi positif (faktor risiko)
OR < 1	Asosiasi negatif (faktor protektif)

3.3 Relative Risk (RR)

Relative Risk adalah rasio risiko (probabilitas) antara dua kelompok:

\[RR = \frac{P(Y=1 \mid X=1)}{P(Y=1 \mid X=0)} = \frac{n_{11}/n_{1\bullet}}{n_{21}/n_{2\bullet}}\]

Catatan: OR digunakan pada studi kasus-kontrol, sedangkan RR lebih tepat untuk studi kohort. Ketika prevalensi penyakit rendah (<10%), OR ≈ RR.

4 Bagian 4: Contoh Perhitungan Manual (20 Poin)

Kasus: Studi potong lintang pada 200 responden untuk mengevaluasi hubungan antara kebiasaan merokok dan kanker paru.

4.1 Tabel Kontingensi

	Kanker Paru	Tidak Kanker	Total
Merokok	a = 60	b = 40	100
Tidak Merokok	c = 20	d = 80	100
Total	80	120	200

4.2 Langkah 1: Peluang Bersyarat

\[P(\text{Kanker} \mid \text{Merokok}) = \frac{a}{n_{1\bullet}} = \frac{60}{100} = 0.60\]

\[P(\text{Kanker} \mid \text{Tidak Merokok}) = \frac{c}{n_{2\bullet}} = \frac{20}{100} = 0.20\]

4.3 Langkah 2: Perhitungan Odds

\[\text{Odds}_{\text{Merokok}} = \frac{P_1}{1-P_1} = \frac{0.60}{0.40} = 1.50\]

\[\text{Odds}_{\text{Tidak Merokok}} = \frac{P_2}{1-P_2} = \frac{0.20}{0.80} = 0.25\]

4.4 Langkah 3: Odds Ratio

\[OR = \frac{ad}{bc} = \frac{60 \times 80}{40 \times 20} = \frac{4800}{800} = 6.0\]

4.5 Langkah 4: Relative Risk

\[RR = \frac{P_1}{P_2} = \frac{0.60}{0.20} = 3.0\]

5 Bagian 5: Analisis Menggunakan R (15 Poin)

5.1 Membuat Tabel Kontingensi

data <- matrix(c(60, 40, 20, 80),
               nrow = 2,
               byrow = TRUE)
rownames(data) <- c("Merokok", "Tidak Merokok")
colnames(data) <- c("Kanker", "Tidak Kanker")

print(data)

#>               Kanker Tidak Kanker
#> Merokok           60           40
#> Tidak Merokok     20           80

addmargins(data)

#>               Kanker Tidak Kanker Sum
#> Merokok           60           40 100
#> Tidak Merokok     20           80 100
#> Sum               80          120 200

5.2 Menghitung Odds Ratio (Manual)

a <- 60; b <- 40; c <- 20; d <- 80

# Odds Ratio
OR <- (a * d) / (b * c)
cat("Odds Ratio (OR) =", OR, "\n")

#> Odds Ratio (OR) = 6

# Relative Risk
RR <- (a / (a + b)) / (c / (c + d))
cat("Relative Risk (RR) =", RR, "\n")

#> Relative Risk (RR) = 3

# Odds masing-masing kelompok
odds_merokok     <- a / b
odds_tdk_merokok <- c / d
cat("Odds Merokok =", odds_merokok, "\n")

#> Odds Merokok = 1.5

cat("Odds Tidak Merokok =", odds_tdk_merokok, "\n")

#> Odds Tidak Merokok = 0.25

5.3 Uji Chi-Square

hasil <- chisq.test(data)
print(hasil)

#> 
#>  Pearson's Chi-squared test with Yates' continuity correction
#> 
#> data:  data
#> X-squared = 31.688, df = 1, p-value = 1.811e-08

# Frekuensi harapan
cat("\nFrekuensi Harapan:\n")

#> 
#> Frekuensi Harapan:

print(hasil$expected)

#>               Kanker Tidak Kanker
#> Merokok           40           60
#> Tidak Merokok     40           60

6 Bagian 6: Interpretasi Hasil (5 Poin)

6.1 Interpretasi Statistik

Uji chi-square menghasilkan: - χ² = 33.422, df = 1 - p-value = 7.44 × 10⁻⁹ << 0.05

Pada taraf signifikansi α = 5%, kita tolak H₀ (independensi). Kesimpulan: terdapat hubungan yang signifikan secara statistik antara status merokok dan kanker paru.

Odds Ratio = 6.0 menunjukkan kekuatan asosiasi yang sangat kuat. Relative Risk = 3.0 menegaskan perokok memiliki risiko 3× lebih tinggi.

6.2 Interpretasi Substantif

Dalam konteks kesehatan:

OR = 6 berarti perokok memiliki peluang mengalami kanker paru 6 kali lebih tinggi dibandingkan bukan perokok.
RR = 3 menunjukkan perokok berisiko 3× lebih besar mengalami kanker paru.

Temuan ini konsisten dengan literatur medis yang menegaskan rokok sebagai faktor risiko utama kanker paru dan mendukung urgensi program pengendalian tembakau di tingkat populasi.

6.3 Referensi

Agresti, A. (2013). Categorical Data Analysis (3rd ed.). Wiley.
Hosmer, D. W., & Lemeshow, S. (2013). Applied Logistic Regression (3rd ed.). Wiley.
Stokes, M. E., Davis, C. S., & Koch, G. G. (2012). Categorical Data Analysis Using SAS (3rd ed.). SAS Institute.

Analisis Data Kategori

Mahasiswa Statistika FMIPA Universitas Padjadjaran

2026-03-11