1 1. Definisi Analisis Data Kategori

1.1 Apa yang Dimaksud dengan Analisis Data Kategori

Dalam banyak penelitian, tidak semua data yang dikumpulkan berbentuk angka kontinu. Sebagian data justru berbentuk kategori, misalnya status pekerjaan (bekerja/tidak), jenis kelamin (laki‑laki/perempuan), atau status kesehatan (sehat/sakit). Data seperti ini disebut data kategorik.

Analisis data kategori merupakan metode statistik yang digunakan untuk mempelajari hubungan antara variabel‑variabel yang bersifat kategorik tersebut. Tujuan utama dari analisis ini adalah untuk melihat apakah terdapat hubungan, ketergantungan, atau asosiasi antara dua atau lebih variabel kategori.

Salah satu alat yang paling sering digunakan dalam analisis data kategori adalah tabel kontingensi. Tabel ini menyajikan frekuensi pengamatan dari kombinasi kategori beberapa variabel sehingga pola hubungan antar variabel dapat diamati secara lebih jelas.

Menurut Agresti (2019), analisis data kategori berfokus pada pemodelan probabilitas kejadian yang dinyatakan dalam bentuk kategori diskrit. Oleh karena itu, analisis yang dilakukan biasanya melibatkan proporsi, peluang, serta ukuran asosiasi seperti odds ratio atau relative risk.

1.2 Karakteristik Variabel Kategori

Variabel kategori memiliki beberapa karakteristik penting.

Nilainya berupa label atau kelompok
Angka yang digunakan pada variabel kategori tidak memiliki makna kuantitatif langsung, melainkan hanya berfungsi sebagai penanda kategori.
Jumlah kategori terbatas
Variabel kategori biasanya memiliki jumlah kategori yang tetap dan tidak kontinu.
Analisis dilakukan menggunakan frekuensi atau proporsi
Data sering disajikan dalam bentuk tabel frekuensi atau tabel kontingensi.

Secara umum variabel kategori dibagi menjadi dua jenis utama.

Variabel nominal, yaitu kategori yang tidak memiliki urutan tertentu
(misalnya jenis kelamin atau golongan darah).
Variabel ordinal, yaitu kategori yang memiliki urutan atau tingkatan
(misalnya tingkat pendidikan atau tingkat kepuasan).

1.3 Contoh Penerapan dalam Penelitian

Analisis data kategori banyak digunakan dalam berbagai bidang penelitian. Beberapa contoh penerapannya antara lain:

Penelitian kesehatan masyarakat
Menganalisis hubungan antara status vaksinasi dengan kemungkinan terinfeksi penyakit.
Penelitian pendidikan
Menilai hubungan antara metode pembelajaran dengan tingkat kelulusan mahasiswa.
Penelitian sosial
Mengkaji hubungan antara tingkat pendidikan dan status pekerjaan.

Dalam banyak kasus, hubungan antara dua variabel kategori pertama kali diamati menggunakan tabel kontingensi, kemudian dianalisis lebih lanjut menggunakan ukuran asosiasi atau uji statistik seperti uji chi‑square.

2 2. Tabel Kontingensi

2.1 Definisi Tabel Kontingensi

Tabel kontingensi adalah tabel yang digunakan untuk menyajikan distribusi frekuensi dari dua atau lebih variabel kategorik secara bersamaan. Melalui tabel ini, peneliti dapat melihat bagaimana kategori pada satu variabel berkaitan dengan kategori pada variabel lainnya.

Tabel kontingensi sering disebut juga sebagai cross tabulation karena menampilkan data dalam bentuk persilangan antara baris dan kolom.

2.2 Struktur Tabel Kontingensi

Sebagai contoh, misalkan dilakukan penelitian mengenai hubungan antara status vaksin influenza dan kejadian infeksi influenza pada suatu populasi.

Tabel kontingensi 2 × 2 dapat dituliskan sebagai berikut:

	Infeksi	Tidak Infeksi	Total
Vaksin	a	b	a+b
Tidak Vaksin	c	d	c+d
Total	a+c	b+d	n

Keterangan:

Baris menunjukkan status vaksinasi
Kolom menunjukkan kejadian infeksi
Sel tabel menunjukkan jumlah individu pada kombinasi kategori tertentu

2.3 Joint Distribution

Joint distribution atau distribusi bersama menggambarkan probabilitas dua kejadian terjadi secara bersamaan.

Jika total pengamatan adalah (n), maka probabilitas bersama dapat dituliskan sebagai

\[ P(A,B) = \frac{n_{ij}}{n} \]

Sebagai contoh:

\[ P(Vaksin \cap Infeksi) = \frac{a}{n} \]

Artinya, probabilitas seorang individu telah divaksin dan mengalami infeksi sama dengan jumlah individu pada sel tersebut dibagi dengan total sampel.

2.4 Marginal Distribution

Distribusi marginal menggambarkan distribusi probabilitas untuk satu variabel tanpa mempertimbangkan variabel lainnya.

Contohnya:

\[ P(Vaksin) = \frac{a+b}{n} \]

\[ P(Infeksi) = \frac{a+c}{n} \]

Distribusi ini diperoleh dari jumlah baris atau kolom pada tabel kontingensi.

2.5 Conditional Probability

Probabilitas bersyarat menyatakan peluang suatu kejadian terjadi dengan syarat kejadian lain telah terjadi.

Sebagai contoh:

\[ P(Infeksi|Vaksin) = \frac{a}{a+b} \]

\[ P(Infeksi|Tidak\ Vaksin) = \frac{c}{c+d} \]

Probabilitas ini sering digunakan dalam penelitian epidemiologi untuk membandingkan tingkat risiko antara dua kelompok.

3 3. Ukuran Asosiasi

Ukuran asosiasi digunakan untuk mengukur kekuatan hubungan antara dua variabel kategori pada tabel kontingensi.

3.1 Odds

Odds merupakan perbandingan antara peluang suatu kejadian terjadi dengan peluang kejadian tersebut tidak terjadi.

\[ Odds = \frac{p}{1-p} \]

Pada tabel kontingensi, odds infeksi pada kelompok yang divaksin adalah

\[ Odds_{Vaksin} = \frac{a}{b} \]

Interpretasi: semakin besar nilai odds, semakin besar kemungkinan kejadian tersebut terjadi dibandingkan tidak terjadi.

3.2 Odds Ratio

Odds Ratio (OR) membandingkan odds dari dua kelompok.

\[ OR = \frac{ad}{bc} \]

Interpretasi nilai OR:

(OR = 1) menunjukkan tidak ada asosiasi.
(OR > 1) menunjukkan faktor tersebut meningkatkan peluang kejadian.
(OR < 1) menunjukkan faktor tersebut bersifat protektif.

3.3 Relative Risk

Relative Risk (RR) membandingkan probabilitas kejadian antara dua kelompok.

\[ RR = \frac{a/(a+b)}{c/(c+d)} \]

Interpretasi:

(RR = 1) berarti risiko kedua kelompok sama.
(RR > 1) berarti kelompok pertama memiliki risiko lebih tinggi.
(RR < 1) berarti kelompok pertama memiliki risiko lebih rendah.

4 4. Contoh Perhitungan Manual

Misalkan dilakukan penelitian sederhana mengenai hubungan vaksin influenza dengan kejadian infeksi influenza.

4.1 Tabel Kontingensi

	Infeksi	Tidak Infeksi	Total
Vaksin	15	85	100
Tidak Vaksin	40	60	100

4.2 Menghitung Peluang Bersyarat

Peluang infeksi pada individu yang divaksin:

\[ P(Infeksi|Vaksin) = \frac{15}{100} = 0.15 \]

Peluang infeksi pada individu yang tidak divaksin:

\[ P(Infeksi|Tidak\ Vaksin) = \frac{40}{100} = 0.40 \]

Hasil ini menunjukkan bahwa proporsi infeksi pada kelompok yang tidak divaksin lebih tinggi dibandingkan kelompok yang divaksin.

4.3 Menghitung Odds

Odds infeksi pada kelompok yang divaksin:

\[ Odds_{Vaksin} = \frac{15}{85} = 0.176 \]

Odds infeksi pada kelompok yang tidak divaksin:

\[ Odds_{TidakVaksin} = \frac{40}{60} = 0.667 \]

4.4 Menghitung Odds Ratio

\[ OR = \frac{15 \times 60}{85 \times 40} \]

\[ OR = \frac{900}{3400} = 0.265 \]

Interpretasi:

Nilai OR yang lebih kecil dari 1 menunjukkan bahwa vaksinasi memiliki efek protektif terhadap infeksi influenza. Dengan kata lain, peluang infeksi pada individu yang telah divaksin lebih rendah dibandingkan individu yang tidak divaksin.

5 5. Analisis Menggunakan R

Analisis yang sama juga dapat dilakukan menggunakan perangkat lunak R.

5.1 Membuat Tabel Kontingensi

data <- matrix(c(15,85,40,60), nrow=2, byrow=TRUE)

colnames(data) <- c("Infeksi","Tidak_Infeksi") 

rownames(data) <-
c("Vaksin","Tidak_Vaksin")

data

##              Infeksi Tidak_Infeksi
## Vaksin            15            85
## Tidak_Vaksin      40            60

# Menghitung odds ratio
library(epitools)

## Warning: package 'epitools' was built under R version 4.5.2

oddsratio(data)

## $data
##              Infeksi Tidak_Infeksi Total
## Vaksin            15            85   100
## Tidak_Vaksin      40            60   100
## Total             55           145   200
## 
## $measure
##                         NA
## odds ratio with 95% C.I.  estimate     lower     upper
##             Vaksin       1.0000000        NA        NA
##             Tidak_Vaksin 0.2679298 0.1318942 0.5207895
## 
## $p.value
##               NA
## two-sided        midp.exact fisher.exact   chi.square
##   Vaksin                 NA           NA           NA
##   Tidak_Vaksin 7.460922e-05 0.0001197284 7.525229e-05
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"

5.2 Melakukan Uji Chi-Square

chisq.test(data)

## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  data
## X-squared = 14.445, df = 1, p-value = 0.0001443

Uji chi‑square digunakan untuk menguji hipotesis:

(H_0): tidak terdapat hubungan antara vaksinasi dan infeksi influenza
(H_1): terdapat hubungan antara vaksinasi dan infeksi influenza

Uji chi-square digunakan untuk menguji apakah terdapat hubungan yang signifikan antara dua variabel kategori. Jika nilai p-value lebih kecil dari tingkat signifikansi (misalnya 0.05), maka dapat disimpulkan bahwa terdapat hubungan yang signifikan antara variabel tersebut.

Jika nilai p‑value < 0.05, maka hipotesis nol ditolak dan dapat disimpulkan bahwa terdapat hubungan yang signifikan antara kedua variabel tersebut.

6 Referensi

Agresti, A. (2019). An Introduction to Categorical Data Analysis. Wiley.

Agresti, A. (2013). Categorical Data Analysis. Wiley.

Hosmer, D. W., Lemeshow, S., & Sturdivant, R. (2013). Applied Logistic Regression. Wiley.

Kleinbaum, D. G., & Klein, M. (2010). Logistic Regression: A Self‑Learning Text. Springer.

TUGAS ANALISIS DATA KATEGORIK

Zahra Zalvisha Nandana Razwar

2026-02-26