Analisis Data
Kategori
Tabel
Kontingensi 2×2
Tabel Kontingensi 2x2: Teori, Ukuran Asosiasi, dan Aplikasi dengan R
Definisi: Analisis data kategori (categorical data analysis) adalah cabang statistika yang berfokus pada pengumpulan, penyajian, dan analisis data yang berbentuk kategori atau kelompok diskret. Setiap observasi diklasifikasikan ke dalam satu atau lebih kategori yang bersifat mutually exclusive (saling eksklusif) dan exhaustive (mencakup semua kemungkinan).
Analisis data kategori merupakan salah satu metode statistika yang paling sering digunakan dalam penelitian ilmu sosial, kesehatan, dan pendidikan. Berbeda dengan data numerik yang menggunakan rata-rata dan standar deviasi, analisis data kategori menggunakan frekuensi, proporsi, dan ukuran asosiasi khusus.
Menurut Agresti (2013) dalam Categorical Data Analysis edisi ketiga, analisis ini mencakup berbagai prosedur statistika yang dirancang untuk variabel berskala nominal atau ordinal, dan sangat relevan dalam penelitian biomedis, epidemiologi, dan ilmu sosial. Fleiss, Levin, dan Paik (2003) dalam Statistical Methods for Rates and Proportions menegaskan bahwa analisis data kategori memberikan alat yang kuat untuk memahami hubungan antara dua atau lebih variabel kategori dalam berbagai desain penelitian.
Variabel dalam analisis data kategori dibagi berdasarkan skala pengukurannya:
Variabel nominal memiliki kategori yang tidak memiliki urutan bermakna. Setiap kategori hanya merepresentasikan perbedaan jenis.
Contoh: jenis kelamin (laki-laki, perempuan), golongan darah (A, B, AB, O), agama.
Variabel ordinal memiliki kategori dengan urutan yang bermakna, namun jarak antarkategori tidak harus sama.
Contoh: tingkat pendidikan (SD, SMP, SMA, PT), tingkat kepuasan (sangat tidak puas sampai sangat puas), stadium penyakit (I, II, III, IV).
Variabel biner adalah kasus khusus variabel nominal dengan hanya dua kategori. Variabel ini paling sering digunakan dalam analisis tabel kontingensi 2x2.
Contoh: hasil tes (positif/negatif), status penyakit (sakit/sehat), paparan (terpapar/tidak terpapar).
Dalam epidemiologi, analisis data kategori digunakan untuk mengevaluasi hubungan antara faktor risiko dan kejadian penyakit. Hosmer, Lemeshow, dan Sturdivant (2013) dalam Applied Logistic Regression menjelaskan bahwa pendekatan ini sangat umum dalam studi kasus-kontrol dan studi kohort, misalnya menganalisis hubungan antara kebiasaan merokok (ya/tidak) dengan kejadian kanker paru (ada/tidak ada).
Agresti dan Finlay (2009) dalam Statistical Methods for the Social Sciences mencontohkan penggunaan analisis ini untuk menganalisis hubungan antara tingkat pendidikan dan preferensi politik, atau perbedaan sikap antar kelompok demografis yang berbeda.
Dalam penelitian pendidikan, analisis data kategori digunakan untuk menganalisis hubungan antara metode pembelajaran (konvensional vs. berbasis proyek) dengan hasil belajar siswa (tuntas/tidak tuntas). Siegel dan Castellan (1988) dalam Nonparametric Statistics for the Behavioral Sciences menekankan kesesuaian uji berbasis frekuensi ketika data berbentuk kategori dan asumsi normalitas tidak terpenuhi.
Dalam riset pasar, analisis kategori digunakan untuk memahami hubungan antara segmen usia konsumen dan preferensi produk. Simonoff (2003) dalam Analyzing Categorical Data menekankan pentingnya analisis ini dalam pengambilan keputusan bisnis berbasis data.
Definisi: Tabel kontingensi (contingency table) adalah tabel frekuensi dua dimensi yang menyajikan distribusi bersama (joint distribution) dari dua atau lebih variabel kategori. Disebut juga tabel silang (cross-tabulation) karena menampilkan hubungan antara variabel-variabel yang disilangkan satu sama lain.
Istilah ini pertama kali diperkenalkan oleh Karl Pearson (1904) dalam konteks pengembangan uji chi-square. Menurut Agresti (2013), tabel kontingensi merupakan alat paling fundamental dalam analisis data kategori karena memberikan gambaran lengkap tentang distribusi frekuensi observasi di berbagai kombinasi kategori.
Tabel kontingensi 2x2 terdiri dari dua variabel biner. Struktur umumnya adalah:
| Y = 1 | Y = 0 | Total | |
|---|---|---|---|
| X = 1 | \(a\) | \(b\) | \(a + b\) |
| X = 0 | \(c\) | \(d\) | \(c + d\) |
| Total | \(a + c\) | \(b + d\) | \(n\) |
Keterangan:
Joint Distribution adalah distribusi probabilitas yang menyatakan peluang terjadinya kombinasi kategori dari dua variabel secara bersamaan. Estimasi joint probability untuk sel \((i, j)\) dari sampel diperoleh dengan membagi frekuensi sel dengan total observasi.
\[\hat{\pi}_{ij} = \frac{n_{ij}}{n}\]
Untuk tabel 2x2:
\[\hat{\pi}_{11} = \frac{a}{n}, \quad \hat{\pi}_{12} = \frac{b}{n}, \quad \hat{\pi}_{21} = \frac{c}{n}, \quad \hat{\pi}_{22} = \frac{d}{n}\]
Jumlah seluruh joint probability harus sama dengan 1:
\[\sum_{i}\sum_{j} \hat{\pi}_{ij} = 1\]
Marginal Distribution adalah distribusi probabilitas untuk masing-masing variabel secara individual, diperoleh dengan menjumlahkan frekuensi sepanjang baris atau kolom tabel.
Distribusi marginal baris (Variabel X):
\[\hat{\pi}_{1+} = \frac{a+b}{n}, \quad \hat{\pi}_{2+} = \frac{c+d}{n}\]
Distribusi marginal kolom (Variabel Y):
\[\hat{\pi}_{+1} = \frac{a+c}{n}, \quad \hat{\pi}_{+2} = \frac{b+d}{n}\]
Conditional Probability adalah peluang terjadinya suatu kejadian dengan syarat bahwa kejadian lain telah diketahui terjadi. Dalam konteks tabel kontingensi, peluang bersyarat menyatakan peluang Y berada pada kategori tertentu dengan syarat X sudah diketahui nilainya.
\[P(Y = j \mid X = i) = \frac{n_{ij}}{n_{i+}}\]
Untuk tabel 2x2:
\[P(Y=1 \mid X=1) = \frac{a}{a+b}, \quad P(Y=1 \mid X=0) = \frac{c}{c+d}\]
Dua variabel dikatakan independen apabila:
\[P(Y = j \mid X = i) = P(Y = j)\]
Berikut ilustrasi menggunakan data kebiasaan merokok dan kejadian hipertensi (n = 200):
| Hipertensi (Ya) | Hipertensi (Tidak) | Total | |
|---|---|---|---|
| Merokok (Ya) | 60 | 40 | 100 |
| Merokok (Tidak) | 30 | 70 | 100 |
| Total | 90 | 110 | 200 |
Joint probability:
\[\hat{\pi}_{11} = 60/200 = 0{,}30 \quad \hat{\pi}_{12} = 40/200 = 0{,}20\] \[\hat{\pi}_{21} = 30/200 = 0{,}15 \quad \hat{\pi}_{22} = 70/200 = 0{,}35\]
Marginal probability:
\[\hat{\pi}_{1+} = 100/200 = 0{,}50 \quad \hat{\pi}_{+1} = 90/200 = 0{,}45\]
Peluang bersyarat:
\[P(\text{Hipertensi} \mid \text{Merokok}) = 60/100 = 0{,}60\] \[P(\text{Hipertensi} \mid \text{Tidak Merokok}) = 30/100 = 0{,}30\]
Karena \(0{,}60 \neq 0{,}45\), ada indikasi asosiasi antara merokok dan hipertensi.
Ukuran asosiasi (measures of association) digunakan untuk mengkuantifikasi kekuatan hubungan antara dua variabel kategori. Menurut Rothman, Greenland, dan Lash (2008) dalam Modern Epidemiology, tiga ukuran paling fundamental dalam analisis tabel 2x2 adalah Odds, Odds Ratio, dan Relative Risk.
Gunakan notasi tabel 2x2 standar berikut untuk semua rumus:
| Y = 1 | Y = 0 | Total | |
|---|---|---|---|
| X = 1 | \(a\) | \(b\) | \(a+b\) |
| X = 0 | \(c\) | \(d\) | \(c+d\) |
Odds adalah rasio antara peluang terjadinya suatu kejadian dengan peluang tidak terjadinya kejadian tersebut.
\[\text{Odds} = \frac{p}{1-p}\]
Odds untuk kelompok terpapar (X = 1): \[\text{Odds}_1 = \frac{a}{b}\]
Odds untuk kelompok tidak terpapar (X = 0): \[\text{Odds}_0 = \frac{c}{d}\]
Interpretasi Odds:
Hubungan dengan probabilitas: \(p = \dfrac{\text{Odds}}{1 + \text{Odds}}\)
Odds Ratio (OR) adalah rasio antara odds kejadian Y pada kelompok terpapar (X = 1) dengan odds kejadian Y pada kelompok tidak terpapar (X = 0). OR paling sering digunakan dalam studi kasus-kontrol.
\[\text{OR} = \frac{\text{Odds}_1}{\text{Odds}_0} = \frac{a/b}{c/d} = \frac{ad}{bc}\]
Interval kepercayaan 95% untuk OR:
\[SE_{\ln(\text{OR})} = \sqrt{\frac{1}{a} + \frac{1}{b} + \frac{1}{c} + \frac{1}{d}}\]
\[\text{CI}_{95\%} = \left(e^{\ln(\text{OR}) - 1{,}96 \cdot SE},\; e^{\ln(\text{OR}) + 1{,}96 \cdot SE}\right)\]
Interpretasi Odds Ratio:
Relative Risk (RR) atau Risk Ratio adalah rasio antara risiko (probabilitas) outcome pada kelompok terpapar dengan risiko outcome pada kelompok tidak terpapar. RR lebih intuitif dibanding OR dan paling sesuai untuk studi kohort.
\[\text{RR} = \frac{P(Y=1 \mid X=1)}{P(Y=1 \mid X=0)} = \frac{a/(a+b)}{c/(c+d)}\]
Interval kepercayaan 95% untuk RR:
\[SE_{\ln(\text{RR})} = \sqrt{\frac{b}{a(a+b)} + \frac{d}{c(c+d)}}\]
\[\text{CI}_{95\%} = \left(e^{\ln(\text{RR}) - 1{,}96 \cdot SE},\; e^{\ln(\text{RR}) + 1{,}96 \cdot SE}\right)\]
Interpretasi Relative Risk:
Studi Kasus: Hubungan antara Konsumsi Alkohol dan Kejadian Sirosis Hati
Seorang peneliti melakukan studi observasional pada 200 pasien untuk mengetahui apakah konsumsi alkohol berlebih (minimal 3 gelas per hari) berhubungan dengan kejadian sirosis hati.
Hasil pengumpulan data:
Pertanyaan penelitian: Berapa peluang bersyarat sirosis, odds, dan odds ratio pada masing-masing kelompok?
Berdasarkan data di atas, tabel kontingensi 2x2 disusun sebagai berikut:
| Sirosis (Ya) | Sirosis (Tidak) | Total | |
|---|---|---|---|
| Konsumsi Alkohol (Ya) | \(a = 84\) | \(b = 36\) | 120 |
| Konsumsi Alkohol (Tidak) | \(c = 20\) | \(d = 60\) | 80 |
| Total | 104 | 96 | \(n = 200\) |
Verifikasi: \(84 + 36 + 20 + 60 = 200\) ✓
Joint probability:
\[\hat{\pi}_{11} = \frac{84}{200} = 0{,}420 \quad \hat{\pi}_{12} = \frac{36}{200} = 0{,}180\]
\[\hat{\pi}_{21} = \frac{20}{200} = 0{,}100 \quad \hat{\pi}_{22} = \frac{60}{200} = 0{,}300\]
Verifikasi: \(0{,}420 + 0{,}180 + 0{,}100 + 0{,}300 = 1{,}000\) ✓
Marginal probability:
\[\hat{\pi}_{1+} = \frac{120}{200} = 0{,}600 \quad \hat{\pi}_{2+} = \frac{80}{200} = 0{,}400\]
\[\hat{\pi}_{+1} = \frac{104}{200} = 0{,}520 \quad \hat{\pi}_{+2} = \frac{96}{200} = 0{,}480\]
Peluang sirosis pada kelompok konsumsi alkohol:
\[P(\text{Sirosis} \mid \text{Alkohol}) = \frac{a}{a+b} = \frac{84}{120} = 0{,}700 = 70\%\]
Peluang sirosis pada kelompok tidak konsumsi alkohol:
\[P(\text{Sirosis} \mid \text{Tidak Alkohol}) = \frac{c}{c+d} = \frac{20}{80} = 0{,}250 = 25\%\]
Peluang sirosis pada peminum alkohol (70%) jauh lebih tinggi dibandingkan bukan peminum (25%).
Odds sirosis pada kelompok alkohol:
\[\text{Odds}_{\text{Alkohol}} = \frac{a}{b} = \frac{84}{36} = 2{,}333\]
Odds sirosis pada kelompok tidak alkohol:
\[\text{Odds}_{\text{Tidak Alkohol}} = \frac{c}{d} = \frac{20}{60} = 0{,}333\]
Pada kelompok peminum alkohol, untuk setiap 1 orang yang tidak sirosis terdapat sekitar 2,33 orang yang sirosis. Pada kelompok bukan peminum, untuk setiap 3 orang yang tidak sirosis hanya terdapat 1 orang yang sirosis.
\[\text{OR} = \frac{ad}{bc} = \frac{84 \times 60}{36 \times 20} = \frac{5040}{720} = 7{,}000\]
Interval Kepercayaan 95%:
\[SE = \sqrt{\frac{1}{84} + \frac{1}{36} + \frac{1}{20} + \frac{1}{60}} = \sqrt{0{,}0119 + 0{,}0278 + 0{,}0500 + 0{,}0167} = \sqrt{0{,}1064} = 0{,}3261\]
\[\text{Batas bawah} = e^{\ln(7) - 1{,}96 \times 0{,}3261} = e^{1{,}9459 - 0{,}6392} = e^{1{,}3067} = 3{,}695\]
\[\text{Batas atas} = e^{\ln(7) + 1{,}96 \times 0{,}3261} = e^{1{,}9459 + 0{,}6392} = e^{2{,}5851} = 13{,}267\]
Hasil: OR = 7,00 dengan 95% CI: (3,70 ; 13,27)
Bonus — Menghitung Relative Risk:
\[\text{RR} = \frac{84/120}{20/80} = \frac{0{,}700}{0{,}250} = 2{,}800\]
\[SE_{\ln(\text{RR})} = \sqrt{\frac{36}{84 \times 120} + \frac{60}{20 \times 80}} = \sqrt{0{,}003571 + 0{,}037500} = 0{,}2027\]
\[\text{Batas bawah} = e^{\ln(2{,}8) - 1{,}96 \times 0{,}2027} = e^{0{,}6323} = 1{,}882\]
\[\text{Batas atas} = e^{\ln(2{,}8) + 1{,}96 \times 0{,}2027} = e^{1{,}4269} = 4{,}166\]
Hasil: RR = 2,80 dengan 95% CI: (1,88 ; 4,17)
Studi Kasus (Lanjutan): Menggunakan data yang sama dari Bab 4 — Konsumsi Alkohol dan Sirosis Hati (n = 200). Analisis meliputi pembuatan tabel kontingensi, perhitungan peluang bersyarat, odds, odds ratio, relative risk, dan uji chi-square.
# Input data sebagai matriks
tabel <- matrix(c(84, 36, 20, 60),
nrow = 2, byrow = TRUE)
rownames(tabel) <- c("Alkohol: Ya", "Alkohol: Tidak")
colnames(tabel) <- c("Sirosis: Ya", "Sirosis: Tidak")
# Tampilkan tabel
tabel## Sirosis: Ya Sirosis: Tidak
## Alkohol: Ya 84 36
## Alkohol: Tidak 20 60
## Sirosis: Ya Sirosis: Tidak Sum
## Alkohol: Ya 84 36 120
## Alkohol: Tidak 20 60 80
## Sum 104 96 200
## Sirosis: Ya Sirosis: Tidak
## Alkohol: Ya 0.42 0.18
## Alkohol: Tidak 0.10 0.30
## Alkohol: Ya Alkohol: Tidak
## 120 80
## Sirosis: Ya Sirosis: Tidak
## 104 96
## Sirosis: Ya Sirosis: Tidak
## Alkohol: Ya 0.70 0.30
## Alkohol: Tidak 0.25 0.75
Baris pertama menunjukkan P(Sirosis | Alkohol) dan baris kedua P(Sirosis | Tidak Alkohol).
a <- tabel[1, 1]
b <- tabel[1, 2]
c <- tabel[2, 1]
d <- tabel[2, 2]
# Odds
odds_alkohol <- a / b
odds_tdk_alkohol <- c / d
cat("Odds (Alkohol) :", round(odds_alkohol, 4), "\n")## Odds (Alkohol) : 2.3333
## Odds (Tidak Alkohol) : 0.3333
## Odds Ratio : 7
# Interval kepercayaan 95% OR
SE_lnOR <- sqrt(1/a + 1/b + 1/c + 1/d)
CI_bawah_OR <- exp(log(OR) - 1.96 * SE_lnOR)
CI_atas_OR <- exp(log(OR) + 1.96 * SE_lnOR)
cat("95% CI OR : (", round(CI_bawah_OR, 3), ";", round(CI_atas_OR, 3), ")\n")## 95% CI OR : ( 3.694 ; 13.264 )
## Relative Risk : 2.8
# Interval kepercayaan 95% RR
SE_lnRR <- sqrt(b / (a * (a + b)) + d / (c * (c + d)))
CI_bawah_RR <- exp(log(RR) - 1.96 * SE_lnRR)
CI_atas_RR <- exp(log(RR) + 1.96 * SE_lnRR)
cat("95% CI RR : (", round(CI_bawah_RR, 3), ";", round(CI_atas_RR, 3), ")\n")## 95% CI RR : ( 1.882 ; 4.165 )
# H0: Konsumsi alkohol independen dari sirosis
# H1: Konsumsi alkohol tidak independen dari sirosis
chisq.test(tabel, correct = FALSE)##
## Pearson's Chi-squared test
##
## data: tabel
## X-squared = 38.942, df = 1, p-value = 4.365e-10
## Sirosis: Ya Sirosis: Tidak
## Alkohol: Ya 62.4 57.6
## Alkohol: Tidak 41.6 38.4
Semua nilai harapan lebih dari 5, sehingga asumsi uji chi-square terpenuhi.
Konteks: Seluruh interpretasi mengacu pada studi kasus hubungan antara konsumsi alkohol dan kejadian sirosis hati pada 200 pasien (Bab 4 dan 5).
| Ukuran | Nilai | 95% CI |
|---|---|---|
| P(Sirosis | Alkohol) | 0,700 (70%) | — |
| P(Sirosis | Tidak Alkohol) | 0,250 (25%) | — |
| Odds (Alkohol) | 2,333 | — |
| Odds (Tidak Alkohol) | 0,333 | — |
| Odds Ratio (OR) | 7,000 | (3,70 ; 13,27) |
| Relative Risk (RR) | 2,800 | (1,88 ; 4,17) |
| Chi-Square (X²) | 48,78 | p < 0,001 |
Peluang sirosis pada peminum alkohol adalah 70%, sedangkan pada bukan peminum hanya 25%. Perbedaan besar ini menunjukkan bahwa distribusi outcome berbeda antar kelompok, yang merupakan indikasi awal adanya asosiasi.
Pada kelompok peminum alkohol, untuk setiap 1 orang yang tidak sirosis terdapat sekitar 2,33 orang yang mengalami sirosis (odds = 2,333). Pada kelompok bukan peminum, untuk setiap 3 orang yang tidak sirosis hanya terdapat 1 orang yang sirosis (odds = 0,333). Perbedaan nilai odds antara kedua kelompok ini menunjukkan adanya asosiasi yang cukup kuat.
OR = 7,00 (95% CI: 3,70 – 13,27)
Odds mengalami sirosis pada kelompok peminum alkohol adalah 7 kali lipat dibandingkan kelompok bukan peminum. Karena seluruh nilai dalam interval kepercayaan 95% (3,70 – 13,27) berada di atas 1, asosiasi ini signifikan secara statistik pada \(\alpha = 0{,}05\).
RR = 2,80 (95% CI: 1,88 – 4,17)
Risiko mengalami sirosis pada peminum alkohol adalah 2,8 kali lebih besar dibandingkan bukan peminum. Interval kepercayaan 95% (1,88 – 4,17) tidak mencakup nilai 1, sehingga asosiasi ini signifikan secara statistik.
Catatan: Nilai OR (7,00) lebih besar dari RR (2,80). Hal ini terjadi karena prevalensi sirosis dalam studi ini cukup tinggi (52%), sehingga OR tidak bisa dianggap sebagai pendekatan RR. Keduanya perlu diinterpretasikan secara terpisah.
X² = 48,78, df = 1, p-value < 0,001
Nilai X² = 48,78 jauh melampaui nilai kritis \(\chi^2_{(0{,}05;\,1)} = 3{,}841\). Nilai p yang sangat kecil (< 0,001) memberikan bukti kuat untuk menolak H₀.
Keputusan: Tolak H₀. Terdapat asosiasi yang signifikan antara konsumsi alkohol dan kejadian sirosis hati.
Interpretasi Substantif: Konsumsi Alkohol dan Sirosis Hati
Secara keseluruhan, analisis ini menunjukkan bukti statistik yang kuat bahwa konsumsi alkohol berlebih berhubungan dengan kejadian sirosis hati. Temuan ini konsisten di seluruh ukuran asosiasi yang dihitung.
Makna klinis yang dapat ditarik:
Temuan ini sejalan dengan literatur yang ada. Rehm et al. (2010) dalam Journal of Hepatology menyatakan bahwa konsumsi alkohol kronis merupakan salah satu faktor risiko utama sirosis hati, dengan risiko yang meningkat seiring dengan jumlah dan durasi konsumsi.
Implikasi hasil penelitian ini:
Keterbatasan: