1. Definisi Analisis Data Kategori

Analisis data kategori adalah metode statistik yang digunakan untuk menganalisis data yang berbentuk kategori atau klasifikasi. Berbeda dengan data numerik yang dianalisis menggunakan metode seperti regresi, data kategori biasanya dianalisis menggunakan pendekatan berbasis frekuensi. Analisis data kategori sering menggunakan alat seperti tabel kontingensi, uji chi-square, odds ratio, dan relative risk untuk memahami hubungan antar variabel.

Variabel kategori memiliki beberapa karakteristik utama:

  1. Nilainya berupa label atau kategori.
  2. Tidak memiliki makna numerik secara langsung.
  3. Operasi matematika seperti penjumlahan atau rata-rata biasanya tidak bermakna.
  4. Analisis sering didasarkan pada frekuensi kemunculan kategori.

Contoh variabel kategori antara lain:

Misalnya dalam penelitian kesehatan, peneliti sering ingin mengetahui apakah terdapat hubungan antara kebiasaan merokok dan kejadian kanker paru. Dalam penelitian pendidikan, peneliti mungkin ingin mengetahui hubungan antara metode pembelajaran dengan tingkat kelulusan mahasiswa.

2. Tabel Kontingensi

Tabel kontingensi adalah tabel yang digunakan untuk menyajikan distribusi frekuensi dari dua atau lebih variabel kategori secara bersamaan. Tabel ini memungkinkan peneliti melihat hubungan antara kategori dari dua variabel.

Contoh tabel kontingensi 2 × 2 ditunjukkan sebagai berikut.

Penyakit Tidak Penyakit
Merokok a b
Tidak Merokok c d

Nilai a, b, c, dan d menunjukkan jumlah observasi pada masing-masing kombinasi kategori.

Joint Distribution

Joint distribution adalah distribusi peluang bersama dari dua variabel kategori. Dalam konteks tabel kontingensi, joint distribution diperoleh dengan membagi setiap sel dengan total observasi.

\[ P(X=i, Y=j) = \frac{n_{ij}}{n} \]

di mana \(n_{ij}\) adalah frekuensi pada sel ke-i dan ke-j, serta \(n\) adalah total observasi.

Contohnya: \[ n=a+b+c+d \] \[ P(Merokok, Penyakit) = \frac{a}{n} \\ P(Merokok, Tidak\:Penyakit) = \frac{b}{n} \\ P(Tidak\:Merokok, Penyakit) = \frac{c}{n} \\ P(Tidak\:Merokok, Tidak\:Penyakit) = \frac{d}{n} \]

Marginal Distribution

Marginal distribution merupakan distribusi peluang dari satu variabel tanpa memperhatikan variabel lainnya. Nilai ini diperoleh dengan menjumlahkan frekuensi pada baris atau kolom tertentu.

\[ P(X=i) = \sum_j P(X=i,Y=j) \]

Sebagai contoh untuk variabel status merokok, peluangnya adalah: \[ P(Merokok) = \frac{a+b}{n} \\ P(Tidak\:Merokok) = \frac{c+d}{n} \]

Sebagai contoh untuk variabel status penyakit, peluangnya adalah: \[ P(Penyakit) = \frac{a+c}{n} \\ P(Tidak\:Penyakit) = \frac{b+d}{n} \]

Conditional Probability

Conditional probability adalah peluang suatu kejadian dengan syarat kejadian lain telah terjadi.

\[ P(Y=j|X=i) = \frac{P(X=i,Y=j)}{P(X=i)} \]

Konsep ini sangat penting untuk memahami hubungan antara dua variabel kategori.

Contohnya, peluang seseorang mengalami penyakit dengan syarat ia merokok adalah: \[ P(Penyakit|Merokok) = \frac{a}{a+b} \]

Sedangkan, peluang seseorang mengalami penyakit dengan syarat ia tidak merokok adalah: \[ P(Penyakit|Tidak\:Merokok) = \frac{c}{c+d} \]

3. Ukuran Asosiasi

Dalam tabel kontingensi, hubungan antara dua variabel kategori dapat diukur menggunakan beberapa ukuran asosiasi.

Odds

Odds adalah perbandingan antara peluang terjadinya suatu kejadian dengan peluang tidak terjadinya kejadian tersebut.

\[ Odds = \frac{P}{1-P} \]

Dalam tabel kontingensi 2×2, odds kejadian penyakit pada kelompok merokok adalah:

\[ Odds_{merokok} = \frac{a}{b} \]

Odds Ratio

Odds Ratio (OR) adalah rasio antara dua odds.

\[ OR = \frac{ad}{bc} \]

Interpretasi Odds Ratio:

  • OR = 1 → tidak ada hubungan
  • OR > 1 → kelompok terpapar memiliki odds kejadian lebih besar
  • OR < 1 → kelompok terpapar memiliki odds kejadian lebih kecil

*dalam contoh, kelompok terpapar merupakan orang yang merokok

Relative Risk

Relative Risk (RR) membandingkan peluang kejadian pada dua kelompok.

\[ RR = \frac{a/(a+b)}{c/(c+d)} \]

Interpretasi Relative Risk (RR):

  • RR = 1 → tidak ada perbedaan risiko
  • RR > 1 → risiko pada kelompok terpapar lebih besar
  • RR < 1 → risiko pada kelompok terpapar lebih kecil

4. Contoh Perhitungan Manual

Misalkan dilakukan penelitian sederhana mengenai hubungan antara kebiasaan olahraga dan penyakit jantung.

Data simulasi diperoleh sebagai berikut.

Penyakit Jantung Tidak
Jarang Olahraga 40 60
Rutin Olahraga 20 80

Total observasi adalah:

\[ n = 40 + 60 + 20 + 80 = 200 \]

Peluang Bersyarat

Peluang penyakit jantung pada kelompok jarang olahraga:

\[ P(Penyakit|Jarang) = \frac{40}{100} = 0.4 \]

Peluang penyakit pada kelompok rutin olahraga:

\[ P(Penyakit|Rutin) = \frac{20}{100} = 0.2 \]

Odds

Odds penyakit pada kelompok jarang olahraga:

\[ Odds_{jarang} = \frac{40}{60} = 0.667 \]

Odds pada kelompok rutin olahraga:

\[ Odds_{rutin} = \frac{20}{80} = 0.25 \]

Odds Ratio

\[ OR = \frac{40 \times 80}{60 \times 20} \]

\[ OR = \frac{3200}{1200} = 2.67 \]

Artinya peluang terkena penyakit jantung pada kelompok yang jarang olahraga sekitar 2.67 kali lebih besar dibandingkan kelompok yang rutin berolahraga.

5. Analisis Menggunakan R

Berikut contoh analisis menggunakan perangkat lunak R.

# Membuat data simulasi
data <- matrix(c(40,60,20,80),
               nrow=2,
               byrow=TRUE)

rownames(data) <- c("Jarang_Olahraga","Rutin_Olahraga")
colnames(data) <- c("Penyakit","Tidak")

data
##                 Penyakit Tidak
## Jarang_Olahraga       40    60
## Rutin_Olahraga        20    80

Menghitung odds ratio secara manual.

a <- data[1,1]
b <- data[1,2]
c <- data[2,1]
d <- data[2,2]

OR <- (a*d)/(b*c)
OR
## [1] 2.666667

Melakukan uji chi-square untuk mengetahui apakah terdapat hubungan antara olahraga dan penyakit jantung.

chisq.test(data)
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  data
## X-squared = 8.5952, df = 1, p-value = 0.00337

Uji chi-square digunakan untuk menguji hipotesis nol bahwa kedua variabel bersifat independen.

6. Interpretasi Hasil

Berdasarkan perhitungan manual diperoleh nilai Odds Ratio sebesar 2.67. Hal ini menunjukkan bahwa individu yang jarang berolahraga memiliki peluang sekitar 2.67 kali lebih besar untuk mengalami penyakit jantung dibandingkan individu yang rutin berolahraga.

hasil uji chi-square menunjukkan nilai p-value sebesar 0.00337 yang lebih kecil dari tingkat signifikansi 0.05, maka dapat disimpulkan bahwa terdapat hubungan yang signifikan antara kebiasaan olahraga dan penyakit jantung.

Hasil ini menunjukkan bahwa aktivitas fisik memiliki peran penting dalam menjaga kesehatan jantung. Individu yang rutin berolahraga cenderung memiliki risiko penyakit jantung yang lebih rendah dibandingkan mereka yang jarang berolahraga.

Referensi

Agresti,A. (2007). An Introduction to Categorical Data Analysis (2nd ed.). New York: Wiley.