Analisis Data Kategori

Pendahuluan

Analisis data kategori merupakan salah satu cabang penting dalam statistika yang digunakan untuk menganalisis data yang berbentuk kategori atau klasifikasi. Data kategori sering muncul dalam berbagai bidang penelitian seperti kesehatan, pendidikan, ilmu sosial, dan ekonomi. Berbeda dengan data numerik yang dianalisis menggunakan metode statistik parametrik seperti regresi linear, data kategori memerlukan pendekatan analisis yang berbeda karena nilai variabelnya bersifat diskrit dan biasanya merepresentasikan kelompok atau kelas tertentu.

Referensi klasik dalam analisis data kategori antara lain Agresti (2013), yang menjelaskan berbagai metode analisis untuk data kategorik termasuk tabel kontingensi, regresi logistik, dan model log-linear.


Bagian 1: Definisi Analisis Data Kategori

Pengertian Analisis Data Kategori

Analisis data kategori adalah metode statistik yang digunakan untuk menganalisis hubungan antara variabel yang berskala nominal atau ordinal. Variabel kategori tidak memiliki makna numerik intrinsik, tetapi merepresentasikan kelompok atau klasifikasi tertentu.

Menurut Agresti (2013), analisis data kategorik bertujuan untuk:

  1. Mendeskripsikan distribusi frekuensi dari kategori.
  2. Menguji hubungan antar variabel kategori.
  3. Mengukur kekuatan asosiasi antar variabel kategori.

Karakteristik Variabel Kategori

Variabel kategori memiliki beberapa karakteristik utama:

  1. Nilainya berupa label atau kategori.
  2. Tidak memiliki makna numerik langsung.
  3. Analisis biasanya menggunakan frekuensi atau proporsi.
  4. Hubungan antar variabel sering dianalisis menggunakan tabel kontingensi.

Contoh variabel kategori:

Variabel Kategori
Jenis kelamin Laki-laki, Perempuan
Status merokok Perokok, Tidak Perokok
Status vaksin Vaksin, Tidak vaksin

Contoh Penerapan

Analisis data kategori sering digunakan dalam berbagai penelitian:

  1. Penelitian kesehatan: hubungan merokok dengan kanker paru.
  2. Penelitian pendidikan: hubungan metode belajar dengan kelulusan.
  3. Penelitian sosial: hubungan tingkat pendidikan dengan status pekerjaan.

Bagian 2: Tabel Kontingensi

Definisi Tabel Kontingensi

Tabel kontingensi adalah tabel yang digunakan untuk menampilkan distribusi frekuensi dari dua atau lebih variabel kategori secara bersamaan.

Tabel ini membantu peneliti melihat pola hubungan antar variabel.

Struktur Tabel Kontingensi

Contoh tabel kontingensi 2×2:

Penyakit Tidak Penyakit Total
Terpapar a b a+b
Tidak Terpapar c d c+d
Total a+c b+d n

Joint Distribution

Joint distribution adalah distribusi peluang dari kombinasi dua variabel.

Secara matematis:

\[ P(X=i, Y=j) = \frac{n_{ij}}{n} \]

di mana:

  • \(n_{ij}\) adalah frekuensi pada sel ke-i dan j
  • \(n\) adalah jumlah total observasi

Marginal Distribution

Distribusi marginal diperoleh dengan menjumlahkan nilai pada baris atau kolom.

Contoh:

\[ P(X=i) = \sum_j P(X=i, Y=j) \]

atau

\[ P(Y=j) = \sum_i P(X=i, Y=j) \]

Conditional Probability

Peluang bersyarat menunjukkan peluang suatu kejadian jika kejadian lain diketahui.

Contoh:

\[ P(Y=j|X=i) = \frac{P(X=i,Y=j)}{P(X=i)} \]


Bagian 3: Ukuran Asosiasi

Odds

Odds merupakan perbandingan antara peluang terjadinya suatu kejadian dengan peluang tidak terjadinya kejadian tersebut.

\[ Odds = \frac{p}{1-p} \]

Dalam tabel kontingensi:

\[ Odds = \frac{a}{b} \]

Odds Ratio

Odds Ratio (OR) digunakan untuk membandingkan odds dari dua kelompok.

\[ OR = \frac{a/b}{c/d} \]

atau

\[ OR = \frac{ad}{bc} \]

Interpretasi:

  • OR = 1 → tidak ada hubungan
  • OR > 1 → paparan meningkatkan risiko
  • OR < 1 → paparan bersifat protektif

Relative Risk

Relative Risk (RR) membandingkan peluang kejadian pada kelompok terpapar dengan kelompok tidak terpapar.

\[ RR = \frac{a/(a+b)}{c/(c+d)} \]

Interpretasi:

  • RR = 1 → tidak ada perbedaan risiko
  • RR > 1 → risiko lebih tinggi pada kelompok terpapar
  • RR < 1 → risiko lebih rendah pada kelompok terpapar

Bagian 4: Contoh Perhitungan Manual

Kasus: Merokok dan Kanker Paru

Misalkan diperoleh data berikut:

Kanker Tidak Kanker Total
Perokok 40 60 100
Tidak Perokok 10 90 100

Peluang Bersyarat

Peluang kanker pada perokok:

\[ P(Kanker|Perokok) = \frac{40}{100} = 0.4 \]

Peluang kanker pada non-perokok:

\[ P(Kanker|Tidak\ Perokok) = \frac{10}{100} = 0.1 \]

Odds

Odds kanker pada perokok:

\[ Odds = \frac{40}{60} = 0.67 \]

Odds kanker pada non-perokok:

\[ Odds = \frac{10}{90} = 0.11 \]

Odds Ratio

\[ OR = \frac{40 \times 90}{60 \times 10} \]

\[ OR = \frac{3600}{600} \]

\[ OR = 6 \]

Interpretasi: perokok memiliki odds terkena kanker paru sekitar 6 kali lebih besar dibandingkan non-perokok.


Bagian 5: Analisis Menggunakan R

# Membuat tabel kontingensi

data <- matrix(c(40,60,10,90),
               nrow = 2,
               byrow = TRUE)

colnames(data) <- c("Kanker","Tidak_Kanker")
rownames(data) <- c("Perokok","Tidak_Perokok")

data
# Menghitung Odds Ratio

library(epitools)

oddsratio(data)
# Uji Chi Square

chisq.test(data)

Bagian 6: Interpretasi Hasil

Interpretasi Statistik

Jika nilai odds ratio lebih besar dari 1 dan uji chi-square menunjukkan p-value < 0.05, maka terdapat hubungan yang signifikan antara kebiasaan merokok dan kejadian kanker paru.

Interpretasi Substantif

Hasil analisis menunjukkan bahwa individu yang merokok memiliki kemungkinan yang jauh lebih tinggi untuk mengalami kanker paru dibandingkan individu yang tidak merokok. Hal ini mendukung banyak penelitian epidemiologi yang menunjukkan bahwa merokok merupakan faktor risiko utama kanker paru.


Referensi

Agresti, A. (2013). Categorical Data Analysis. Wiley.