Dalam berbagai bidang penelitian seperti kesehatan, ekonomi, dan ilmu sosial, sering ditemukan data yang berbentuk kategori (categorical data). Data kategori merupakan data yang menggambarkan kelompok atau klasifikasi tertentu, misalnya jenis kelamin, status penyakit, kebiasaan merokok, atau tingkat pendidikan.
Salah satu metode utama dalam menganalisis data kategori adalah analisis tabel kontingensi. Tabel kontingensi digunakan untuk mempelajari hubungan antara dua atau lebih variabel kategori dengan melihat distribusi frekuensi dari setiap kombinasi kategori.
Melalui tabel kontingensi kita dapat menghitung berbagai ukuran asosiasi yang menggambarkan kekuatan hubungan antar variabel kategori.
Analisis data kategori adalah metode statistika yang digunakan untuk menganalisis data yang berbentuk kategori atau klasifikasi. Data ini biasanya tidak berupa angka kontinu, tetapi berupa label atau kelompok.
Contoh variabel kategori:
Menurut Agresti (2013), analisis data kategori digunakan untuk memahami hubungan antar variabel kategori melalui distribusi frekuensi dan probabilitas.
Beberapa karakteristik variabel kategori adalah:
Analisis data kategori banyak digunakan dalam berbagai penelitian, misalnya:
Tabel kontingensi adalah tabel yang digunakan untuk menampilkan frekuensi gabungan dari dua atau lebih variabel kategori.
Bentuk paling sederhana adalah tabel kontingensi 2×2, yaitu tabel dengan dua baris dan dua kolom.
| Penyakit | Tidak Penyakit | Total | |
|---|---|---|---|
| Merokok | a | b | a+b |
| Tidak Merokok | c | d | c+d |
| Total | a+c | b+d | n |
Total keseluruhan data:
\[ n = a+b+c+d \]
Joint distribution adalah probabilitas dua kejadian terjadi secara bersamaan.
\[ P(A_i,B_j)=\frac{n_{ij}}{n} \]
Contoh:
\[ P(Merokok, Penyakit)=\frac{a}{n} \]
Marginal distribution adalah probabilitas suatu kejadian tanpa memperhatikan variabel lain.
Probabilitas marginal baris:
\[ P(A_i)=\frac{n_{i.}}{n} \]
Probabilitas marginal kolom:
\[ P(B_j)=\frac{n_{.j}}{n} \]
Conditional probability adalah probabilitas suatu kejadian jika diketahui kejadian lain telah terjadi.
\[ P(B_j|A_i)=\frac{n_{ij}}{n_{i.}} \]
Contoh:
\[ P(Penyakit | Merokok)=\frac{a}{a+b} \]
Ukuran asosiasi digunakan untuk mengetahui seberapa kuat hubungan antara dua variabel kategori.
Odds adalah perbandingan antara peluang kejadian dan peluang tidak terjadi.
\[ Odds = \frac{P}{1-P} \]
Dalam tabel kontingensi:
\[ Odds = \frac{a}{b} \]
Odds Ratio membandingkan odds antara dua kelompok.
\[ OR = \frac{ad}{bc} \]
Interpretasi:
Relative Risk mengukur perbandingan risiko antara dua kelompok.
\[ RR=\frac{a/(a+b)}{c/(c+d)} \]
Interpretasi:
Misalkan dilakukan penelitian tentang hubungan merokok dengan kanker paru.
Data yang diperoleh:
| Kanker | Tidak Kanker | |
|---|---|---|
| Merokok | 60 | 40 |
| Tidak Merokok | 20 | 80 |
Peluang kanker pada perokok:
\[ P(Kanker|Merokok)=\frac{60}{60+40}=0.6 \]
Peluang kanker pada tidak merokok:
\[ P(Kanker|Tidak Merokok)=\frac{20}{20+80}=0.2 \]
Odds kanker pada perokok:
\[ Odds=\frac{60}{40}=1.5 \]
Odds kanker pada tidak merokok:
\[ Odds=\frac{20}{80}=0.25 \]
\[ OR=\frac{60\times80}{40\times20} \]
\[ OR=6 \]
Artinya peluang kanker paru pada perokok sekitar 6 kali lebih besar dibandingkan bukan perokok.