Pendahuluan

Analisis data kategori merupakan salah satu metode penting dalam statistika yang digunakan untuk menganalisis data yang berbentuk kategori atau klasifikasi. Data kategori sering muncul dalam berbagai bidang penelitian seperti kesehatan, sosial, dan ekonomi. Menurut Agresti (2013), analisis data kategori berfokus pada hubungan antara variabel yang bersifat diskrit dan biasanya dianalisis menggunakan tabel kontingensi, ukuran asosiasi, serta uji statistik seperti chi-square.


Bagian 1: Definisi Analisis Data Kategori

Pengertian Analisis Data Kategori

Analisis data kategori adalah metode statistik yang digunakan untuk mempelajari hubungan antara variabel yang bersifat kategorikal. Variabel kategorikal adalah variabel yang nilainya berupa kelompok atau kategori, bukan nilai numerik kontinu (Agresti, 2019).

Metode ini biasanya digunakan untuk menganalisis data dalam bentuk frekuensi atau proporsi dan sering disajikan dalam bentuk tabel kontingensi.

Karakteristik Variabel Kategori

Karakteristik utama variabel kategori antara lain:

  1. Nilai variabel berupa label atau kelompok
  2. Tidak memiliki makna numerik langsung
  3. Analisis biasanya menggunakan frekuensi atau proporsi
  4. Terdiri dari dua jenis utama:
    • Variabel nominal
    • Variabel ordinal

Menurut Howell (2012), variabel nominal tidak memiliki urutan, sedangkan variabel ordinal memiliki tingkatan tertentu.

Contoh Penerapan

Contoh penerapan analisis data kategori dalam penelitian:

  • hubungan antara olahraga rutin dan penyakit jantung
  • hubungan antara status vaksinasi dan infeksi
  • hubungan antara jenis pekerjaan dan tingkat stres

Metode analisis yang sering digunakan meliputi tabel kontingensi, uji chi-square, odds ratio, dan relative risk.


Bagian 2: Tabel Kontingensi

Definisi Tabel Kontingensi

Tabel kontingensi adalah tabel yang digunakan untuk menampilkan distribusi frekuensi dari dua atau lebih variabel kategorikal secara bersamaan (Agresti, 2013).

Tabel ini membantu peneliti melihat apakah terdapat hubungan antara dua variabel kategori.

Struktur Tabel Kontingensi

Contoh tabel kontingensi 2 × 2:

Penyakit Jantung Tidak
Olahraga a b
Tidak Olahraga c d

Joint Distribution

Joint distribution menunjukkan probabilitas dua variabel terjadi secara bersamaan.

\[ P(Olahraga \\cap Penyakit) = \\frac{a}{n} \]

Marginal Distribution

Marginal distribution adalah probabilitas dari satu variabel tanpa memperhatikan variabel lainnya.

\[ P(Olahraga) = \\frac{a+b}{n} \]

Conditional Probability

Probabilitas bersyarat menunjukkan peluang suatu kejadian dengan syarat kejadian lain sudah terjadi.

\[ P(Penyakit | Tidak\\ Olahraga) = \\frac{c}{c+d} \]


Bagian 3: Ukuran Asosiasi

Ukuran asosiasi digunakan untuk mengetahui kekuatan hubungan antara dua variabel kategorikal (Hosmer et al., 2013).

Odds

Odds merupakan perbandingan antara peluang suatu kejadian terjadi dengan peluang tidak terjadinya kejadian tersebut.

\[ Odds = \\frac{P}{1-P} \]

Odds Ratio

Odds Ratio membandingkan odds dari dua kelompok berbeda.

\[ OR = \\frac{ad}{bc} \]

Interpretasi:

  • OR = 1 → tidak ada hubungan
  • OR > 1 → hubungan positif
  • OR < 1 → hubungan negatif

Relative Risk

Relative Risk adalah perbandingan risiko kejadian pada kelompok terpapar dengan kelompok tidak terpapar.

\[ RR = \\frac{a/(a+b)}{c/(c+d)} \]


Bagian 4: Contoh Perhitungan Manual

Contoh kasus: hubungan antara olahraga rutin dan penyakit jantung

Penyakit Jantung Tidak
Olahraga 20 80
Tidak Olahraga 40 60

Misalkan:

a = 20
b = 80
c = 40
d = 60

Total sampel:

\[ n = a+b+c+d = 200 \]

Peluang Bersyarat

\[ P(Penyakit|Olahraga) = \\frac{20}{100} = 0.2 \]

\[ P(Penyakit|Tidak\\ Olahraga) = \\frac{40}{100} = 0.4 \]

Odds

Odds kelompok olahraga

\[ Odds = \\frac{20}{80} = 0.25 \]

Odds kelompok tidak olahraga

\[ Odds = \\frac{40}{60} = 0.67 \]

Odds Ratio

\[ OR = \\frac{20 \\times 60}{80 \\times 40} \]

\[ OR = 0.375 \]


Bagian 5: Analisis Menggunakan R

data <- matrix(c(20,80,40,60),
               nrow=2,
               byrow=TRUE)

rownames(data) <- c("Olahraga","Tidak Olahraga")
colnames(data) <- c("Penyakit Jantung","Tidak")

data
##                Penyakit Jantung Tidak
## Olahraga                     20    80
## Tidak Olahraga               40    60
# Analisis Menggunakan R
data <- matrix(c(20,80,40,60),
               nrow = 2,
               byrow = TRUE)

rownames(data) <- c("Olahraga","Tidak Olahraga")
colnames(data) <- c("Penyakit Jantung","Tidak")

data
##                Penyakit Jantung Tidak
## Olahraga                     20    80
## Tidak Olahraga               40    60
chisq.test(data)
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  data
## X-squared = 8.5952, df = 1, p-value = 0.00337

Interpretasi

Interpretasi Statistik

Jika nilai p-value dari uji chi-square lebih kecil dari 0.05 maka dapat disimpulkan bahwa terdapat hubungan yang signifikan antara olahraga dan penyakit jantung.

Interpretasi Substantif

Berdasarkan nilai Odds Ratio yang lebih kecil dari 1, dapat disimpulkan bahwa individu yang rutin berolahraga memiliki kemungkinan lebih kecil untuk mengalami penyakit jantung dibandingkan individu yang tidak berolahraga.

Berdasarkan hasil uji chi-square diperoleh p-value < 0.05 sehingga terdapat hubungan antara olahraga rutin dan penyakit jantung.

Referensi

Agresti, A. (2013). Categorical Data Analysis (3rd ed.). Wiley.

Agresti, A. (2019). An Introduction to Categorical Data Analysis. Wiley.

Hosmer, D. W., Lemeshow, S., & Sturdivant, R. (2013). Applied Logistic Regression. Wiley.

Howell, D. C. (2012). Statistical Methods for Psychology. Cengage Learning.