Dalam banyak penelitian, tidak semua data yang dikumpulkan berbentuk angka kontinu. Sebagian data justru berbentuk kategori, misalnya status pekerjaan (bekerja/tidak), jenis kelamin (laki‑laki/perempuan), atau status kesehatan (sehat/sakit). Data seperti ini disebut data kategorik.
Analisis data kategori merupakan metode statistik yang digunakan untuk mempelajari hubungan antara variabel‑variabel yang bersifat kategorik tersebut. Tujuan utama dari analisis ini adalah untuk melihat apakah terdapat hubungan, ketergantungan, atau asosiasi antara dua atau lebih variabel kategori.
Salah satu alat yang paling sering digunakan dalam analisis data kategori adalah tabel kontingensi. Tabel ini menyajikan frekuensi pengamatan dari kombinasi kategori beberapa variabel sehingga pola hubungan antar variabel dapat diamati secara lebih jelas.
Menurut Agresti (2019), analisis data kategori berfokus pada pemodelan probabilitas kejadian yang dinyatakan dalam bentuk kategori diskrit. Oleh karena itu, analisis yang dilakukan biasanya melibatkan proporsi, peluang, serta ukuran asosiasi seperti odds ratio atau relative risk.
Variabel kategori memiliki beberapa karakteristik penting.
Nilainya berupa label atau kelompok
Angka yang digunakan pada variabel kategori tidak memiliki makna
kuantitatif langsung, melainkan hanya berfungsi sebagai penanda
kategori.
Jumlah kategori terbatas
Variabel kategori biasanya memiliki jumlah kategori yang tetap dan tidak
kontinu.
Analisis dilakukan menggunakan frekuensi atau
proporsi
Data sering disajikan dalam bentuk tabel frekuensi atau tabel
kontingensi.
Secara umum variabel kategori dibagi menjadi dua jenis utama.
Variabel nominal, yaitu kategori yang tidak
memiliki urutan tertentu
(misalnya jenis kelamin atau golongan darah).
Variabel ordinal, yaitu kategori yang memiliki
urutan atau tingkatan
(misalnya tingkat pendidikan atau tingkat kepuasan).
Analisis data kategori banyak digunakan dalam berbagai bidang penelitian. Beberapa contoh penerapannya antara lain:
Penelitian kesehatan masyarakat
Menganalisis hubungan antara status vaksinasi dengan kemungkinan
terinfeksi penyakit.
Penelitian pendidikan
Menilai hubungan antara metode pembelajaran dengan tingkat kelulusan
mahasiswa.
Penelitian sosial
Mengkaji hubungan antara tingkat pendidikan dan status
pekerjaan.
Dalam banyak kasus, hubungan antara dua variabel kategori pertama kali diamati menggunakan tabel kontingensi, kemudian dianalisis lebih lanjut menggunakan ukuran asosiasi atau uji statistik seperti uji chi‑square.
Tabel kontingensi adalah tabel yang digunakan untuk menyajikan distribusi frekuensi dari dua atau lebih variabel kategorik secara bersamaan. Melalui tabel ini, peneliti dapat melihat bagaimana kategori pada satu variabel berkaitan dengan kategori pada variabel lainnya.
Tabel kontingensi sering disebut juga sebagai cross tabulation karena menampilkan data dalam bentuk persilangan antara baris dan kolom.
Sebagai contoh, misalkan dilakukan penelitian mengenai hubungan antara status vaksin influenza dan kejadian infeksi influenza pada suatu populasi.
Tabel kontingensi 2 × 2 dapat dituliskan sebagai berikut:
| Infeksi | Tidak Infeksi | Total | |
|---|---|---|---|
| Vaksin | a | b | a+b |
| Tidak Vaksin | c | d | c+d |
| Total | a+c | b+d | n |
Keterangan:
Joint distribution atau distribusi bersama menggambarkan probabilitas dua kejadian terjadi secara bersamaan.
Jika total pengamatan adalah (n), maka probabilitas bersama dapat dituliskan sebagai
\[ P(A,B) = \frac{n_{ij}}{n} \]
Sebagai contoh:
\[ P(Vaksin \cap Infeksi) = \frac{a}{n} \]
Artinya, probabilitas seorang individu telah divaksin dan mengalami infeksi sama dengan jumlah individu pada sel tersebut dibagi dengan total sampel.
Distribusi marginal menggambarkan distribusi probabilitas untuk satu variabel tanpa mempertimbangkan variabel lainnya.
Contohnya:
\[ P(Vaksin) = \frac{a+b}{n} \]
\[ P(Infeksi) = \frac{a+c}{n} \]
Distribusi ini diperoleh dari jumlah baris atau kolom pada tabel kontingensi.
Probabilitas bersyarat menyatakan peluang suatu kejadian terjadi dengan syarat kejadian lain telah terjadi.
Sebagai contoh:
\[ P(Infeksi|Vaksin) = \frac{a}{a+b} \]
\[ P(Infeksi|Tidak\ Vaksin) = \frac{c}{c+d} \]
Probabilitas ini sering digunakan dalam penelitian epidemiologi untuk membandingkan tingkat risiko antara dua kelompok.
Ukuran asosiasi digunakan untuk mengukur kekuatan hubungan antara dua variabel kategori pada tabel kontingensi.
Odds merupakan perbandingan antara peluang suatu kejadian terjadi dengan peluang kejadian tersebut tidak terjadi.
\[ Odds = \frac{p}{1-p} \]
Pada tabel kontingensi, odds infeksi pada kelompok yang divaksin adalah
\[ Odds_{Vaksin} = \frac{a}{b} \]
Interpretasi: semakin besar nilai odds, semakin besar kemungkinan kejadian tersebut terjadi dibandingkan tidak terjadi.
Odds Ratio (OR) membandingkan odds dari dua kelompok.
\[ OR = \frac{ad}{bc} \]
Interpretasi nilai OR:
Relative Risk (RR) membandingkan probabilitas kejadian antara dua kelompok.
\[ RR = \frac{a/(a+b)}{c/(c+d)} \]
Interpretasi:
Misalkan dilakukan penelitian sederhana mengenai hubungan vaksin influenza dengan kejadian infeksi influenza.
| Infeksi | Tidak Infeksi | Total | |
|---|---|---|---|
| Vaksin | 15 | 85 | 100 |
| Tidak Vaksin | 40 | 60 | 100 |
Peluang infeksi pada individu yang divaksin:
\[ P(Infeksi|Vaksin) = \frac{15}{100} = 0.15 \]
Peluang infeksi pada individu yang tidak divaksin:
\[ P(Infeksi|Tidak\ Vaksin) = \frac{40}{100} = 0.40 \]
Hasil ini menunjukkan bahwa proporsi infeksi pada kelompok yang tidak divaksin lebih tinggi dibandingkan kelompok yang divaksin.
Odds infeksi pada kelompok yang divaksin:
\[ Odds_{Vaksin} = \frac{15}{85} = 0.176 \]
Odds infeksi pada kelompok yang tidak divaksin:
\[ Odds_{TidakVaksin} = \frac{40}{60} = 0.667 \]
\[ OR = \frac{15 \times 60}{85 \times 40} \]
\[ OR = \frac{900}{3400} = 0.265 \]
Interpretasi:
Nilai OR yang lebih kecil dari 1 menunjukkan bahwa vaksinasi memiliki efek protektif terhadap infeksi influenza. Dengan kata lain, peluang infeksi pada individu yang telah divaksin lebih rendah dibandingkan individu yang tidak divaksin.
Analisis yang sama juga dapat dilakukan menggunakan perangkat lunak R.
data <- matrix(c(15,85,40,60), nrow=2, byrow=TRUE)
colnames(data) <- c("Infeksi","Tidak_Infeksi")
rownames(data) <-
c("Vaksin","Tidak_Vaksin")
data
## Infeksi Tidak_Infeksi
## Vaksin 15 85
## Tidak_Vaksin 40 60
# Menghitung odds ratio
library(epitools)
## Warning: package 'epitools' was built under R version 4.5.2
oddsratio(data)
## $data
## Infeksi Tidak_Infeksi Total
## Vaksin 15 85 100
## Tidak_Vaksin 40 60 100
## Total 55 145 200
##
## $measure
## NA
## odds ratio with 95% C.I. estimate lower upper
## Vaksin 1.0000000 NA NA
## Tidak_Vaksin 0.2679298 0.1318942 0.5207895
##
## $p.value
## NA
## two-sided midp.exact fisher.exact chi.square
## Vaksin NA NA NA
## Tidak_Vaksin 7.460922e-05 0.0001197284 7.525229e-05
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
chisq.test(data)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: data
## X-squared = 14.445, df = 1, p-value = 0.0001443
Uji chi‑square digunakan untuk menguji hipotesis:
Uji chi-square digunakan untuk menguji apakah terdapat hubungan yang signifikan antara dua variabel kategori. Jika nilai p-value lebih kecil dari tingkat signifikansi (misalnya 0.05), maka dapat disimpulkan bahwa terdapat hubungan yang signifikan antara variabel tersebut.
Jika nilai p‑value < 0.05, maka hipotesis nol ditolak dan dapat disimpulkan bahwa terdapat hubungan yang signifikan antara kedua variabel tersebut.
Agresti, A. (2019). An Introduction to Categorical Data Analysis. Wiley.
Agresti, A. (2013). Categorical Data Analysis. Wiley.
Hosmer, D. W., Lemeshow, S., & Sturdivant, R. (2013). Applied Logistic Regression. Wiley.
Kleinbaum, D. G., & Klein, M. (2010). Logistic Regression: A Self‑Learning Text. Springer.