Pendahuluan

Analisis data kategori merupakan salah satu metode penting dalam statistika yang digunakan untuk menganalisis data yang berbentuk kategori atau klasifikasi. Data kategori sering muncul dalam berbagai bidang penelitian seperti kesehatan, sosial, dan ekonomi. Menurut Agresti (2013), analisis data kategori berfokus pada hubungan antara variabel yang bersifat diskrit dan biasanya dianalisis menggunakan tabel kontingensi, ukuran asosiasi, serta uji statistik seperti chi-square.


Bagian 1: Definisi Analisis Data Kategori

Pengertian Analisis Data Kategori

Analisis data kategori adalah metode statistik yang digunakan untuk mempelajari hubungan antara variabel yang bersifat kategorikal. Variabel kategorikal adalah variabel yang nilainya berupa kelompok atau kategori, bukan nilai numerik kontinu (Agresti, 2019).

Metode ini biasanya digunakan untuk menganalisis data dalam bentuk frekuensi atau proporsi dan sering disajikan dalam bentuk tabel kontingensi.

Karakteristik Variabel Kategori

Karakteristik utama variabel kategori antara lain:

  1. Nilai variabel berupa label atau kelompok
  2. Tidak memiliki makna numerik langsung
  3. Analisis biasanya menggunakan frekuensi atau proporsi
  4. Terdiri dari dua jenis utama:
    • Variabel nominal
    • Variabel ordinal

Menurut Howell (2012), variabel nominal tidak memiliki urutan, sedangkan variabel ordinal memiliki tingkatan tertentu.

Contoh Penerapan

Contoh penerapan analisis data kategori dalam penelitian:

  • hubungan antara olahraga rutin dan penyakit jantung
  • hubungan antara status vaksinasi dan infeksi
  • hubungan antara jenis pekerjaan dan tingkat stres

Metode analisis yang sering digunakan meliputi tabel kontingensi, uji chi-square, odds ratio, dan relative risk.


Bagian 2: Tabel Kontingensi

Definisi Tabel Kontingensi

Tabel kontingensi adalah tabel yang digunakan untuk menampilkan distribusi frekuensi dari dua atau lebih variabel kategorikal secara bersamaan (Agresti, 2013).

Tabel ini membantu peneliti melihat apakah terdapat hubungan antara dua variabel kategori.

Struktur Tabel Kontingensi

Contoh tabel kontingensi 2 × 2:

Penyakit Jantung Tidak
Olahraga a b
Tidak Olahraga c d

Joint Distribution

Joint distribution menunjukkan peluang gabungan dua kejadian.

\[ P(X,Y) = \frac{frekuensi\ pada\ sel}{n} \]

Marginal Distribution

Marginal distribution adalah distribusi peluang dari satu variabel tanpa memperhatikan variabel lainnya.

\[ P(X = Olahraga) = \frac{a + b}{n} \]

Conditional Probability

Probabilitas bersyarat menggambarkan peluang suatu kejadian jika kejadian lain telah diketahui.

\[ P(Penyakit|Olahraga) = \frac{a}{a+b} \]


Bagian 3 : Ukuran Asosiasi

Ukuran asosiasi digunakan untuk mengetahui seberapa kuat hubungan antara faktor risiko dan kejadian (outcome) pada data kategorik.

3.1 Odds

Odds adalah perbandingan antara peluang suatu kejadian dengan peluang kejadian tersebut tidak terjadi.

Jika peluang kejadian dinyatakan sebagai:

\[ P = \frac{a}{a+b} \]

maka peluang tidak terjadinya kejadian adalah:

\[ 1-P = \frac{b}{a+b} \]

Sehingga odds dapat diturunkan sebagai:

\[ Odds = \frac{P}{1-P} \]

Substitusi nilai peluang menghasilkan:

\[ Odds = \frac{a}{b} \]

Interpretasi Odds

Nilai odds menunjukkan seberapa besar kemungkinan suatu kejadian dibandingkan dengan tidak terjadinya kejadian tersebut.

  • Odds > 1 → kejadian lebih mungkin terjadi dibanding tidak terjadi
  • Odds = 1 → peluang kejadian dan tidak kejadian sama besar
  • Odds < 1 → kejadian lebih kecil kemungkinannya dibanding tidak terjadi

3.2 Odds Ratio

Odds Ratio (OR) merupakan ukuran asosiasi yang digunakan untuk membandingkan peluang kejadian pada dua kelompok yang berbeda.

Misalkan terdapat tabel kontingensi 2×2 sebagai berikut:

Penyakit Tidak
Olahraga a b
Tidak Olahraga c d

Odds pada kelompok olahraga

\[ Odds_1 = \frac{a}{b} \]

Odds pada kelompok tidak olahraga

\[ Odds_0 = \frac{c}{d} \]

Rumus Odds Ratio

\[ OR = \frac{Odds_1}{Odds_0} \]

\[ OR = \frac{a/b}{c/d} \]

\[ OR = \frac{a \times d}{b \times c} \]

3.3 Relative Risk

Relative Risk (RR) atau risiko relatif merupakan ukuran asosiasi yang digunakan untuk membandingkan peluang terjadinya suatu kejadian antara dua kelompok yang berbeda.


Bagian 4: Contoh Perhitungan Manual

Misalkan terdapat tabel kontingensi 2×2 sebagai berikut:

Penyakit Tidak
Olahraga a b
Tidak Olahraga c d

Risiko pada kelompok olahraga

\[ P_1 = \frac{a}{a+b} \]

Risiko pada kelompok tidak olahraga

\[ P_0 = \frac{c}{c+d} \]

Rumus Relative Risk

\[ RR = \frac{P_1}{P_0} \]

\[ RR = \frac{a/(a+b)}{c/(c+d)} \]


Bagian 4: Contoh Perhitungan Manual

Contoh kasus: hubungan antara olahraga rutin dan penyakit jantung

Penyakit Jantung Tidak
Olahraga 20 80
Tidak Olahraga 40 60

Misalkan:

a = 20
b = 80
c = 40
d = 60

Total sampel:

\[ n = a+b+c+d = 200 \]

Peluang Bersyarat

\[ P(Penyakit|Olahraga) = \frac{20}{100} = 0.2 \]

\[ P(Penyakit|Tidak\ Olahraga) = \frac{40}{100} = 0.4 \]

Odds

\[ Odds = \frac{20}{80} = 0.25 \]

\[ Odds = \frac{40}{60} = 0.67 \]

Odds Ratio

\[ OR = \frac{20 \times 60}{80 \times 40} \]

\[ OR = 0.375 \]


Bagian 5: Analisis Menggunakan R

data <- matrix(c(20,80,40,60),
               nrow = 2,
               byrow = TRUE)

rownames(data) <- c("Olahraga","Tidak Olahraga")
colnames(data) <- c("Penyakit Jantung","Tidak")

data
##                Penyakit Jantung Tidak
## Olahraga                     20    80
## Tidak Olahraga               40    60
chisq.test(data)
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  data
## X-squared = 8.5952, df = 1, p-value = 0.00337

Bagian 6 : Interpretasi

Interpretasi Statistik

Berdasarkan hasil uji chi-square diperoleh nilai p-value yang lebih kecil dari 0,05. Hal ini menunjukkan bahwa hipotesis nol (H0) yang menyatakan tidak terdapat hubungan antara kebiasaan olahraga dan penyakit jantung ditolak. Dengan demikian dapat disimpulkan bahwa terdapat hubungan yang signifikan secara statistik antara variabel olahraga dan kejadian penyakit jantung pada data yang dianalisis. Artinya, distribusi kejadian penyakit jantung berbeda antara kelompok yang berolahraga dan kelompok yang tidak berolahraga.

Interpretasi Substantif

Berdasarkan hasil perhitungan diperoleh nilai Odds Ratio (OR) sebesar 0,375. Nilai OR yang lebih kecil dari 1 menunjukkan bahwa kelompok yang rutin berolahraga memiliki peluang lebih kecil untuk mengalami penyakit jantung dibandingkan dengan kelompok yang tidak berolahraga. Secara substantif, hasil ini mengindikasikan bahwa kebiasaan berolahraga berhubungan dengan penurunan kemungkinan terjadinya penyakit jantung. Dengan kata lain, olahraga dapat berperan sebagai faktor yang berkaitan dengan kesehatan jantung yang lebih baik.

Referensi

Agresti, A. (2013). Categorical Data Analysis (3rd ed.). Wiley.

Agresti, A. (2019). An Introduction to Categorical Data Analysis (3rd ed.). Wiley.

Hosmer, D. W., Lemeshow, S., & Sturdivant, R. X. (2013). Applied Logistic Regression (3rd ed.). Wiley.

Howell, D. C. (2012). Statistical Methods for Psychology (8th ed.). Cengage Learning.