Analisis data kategori merupakan salah satu cabang penting dalam statistika yang digunakan untuk menganalisis variabel yang berbentuk kategori atau klasifikasi. Dalam berbagai penelitian ilmiah, data tidak selalu berbentuk angka kontinu seperti tinggi badan atau berat badan, tetapi sering kali berbentuk kategori seperti jenis kelamin, status penyakit, atau tingkat pendidikan.
Dalam statistika, data seperti ini disebut categorical data. Analisis terhadap data kategori memiliki metode tersendiri yang berbeda dengan analisis data numerik. Salah satu alat utama yang digunakan dalam analisis data kategori adalah tabel kontingensi.
Tabel kontingensi digunakan untuk mempelajari hubungan antara dua atau lebih variabel kategori. Melalui tabel ini peneliti dapat melihat distribusi frekuensi dari kombinasi kategori yang berbeda.
Tabel kontingensi yang paling sederhana adalah tabel 2×2, yaitu tabel yang memiliki dua baris dan dua kolom. Walaupun bentuknya sederhana, tabel ini sangat penting karena menjadi dasar bagi banyak analisis statistik terutama dalam epidemiologi, ilmu kesehatan masyarakat, dan ilmu sosial.
Dalam dokumen ini akan dibahas secara sistematis mengenai konsep dasar analisis data kategori dengan fokus pada tabel kontingensi 2×2. Pembahasan meliputi definisi analisis data kategori, konsep tabel kontingensi, ukuran asosiasi, contoh perhitungan manual, serta implementasi analisis menggunakan perangkat lunak R.
Selain itu dokumen ini ditulis menggunakan R Markdown, menggunakan persamaan matematika LaTeX, serta menyertakan kode R yang dapat dijalankan secara langsung.
Analisis data kategori adalah metode statistik yang digunakan untuk menganalisis variabel yang nilainya berupa kategori atau kelompok tertentu.
Variabel kategori tidak memiliki makna numerik secara langsung, tetapi merepresentasikan klasifikasi tertentu. Contoh variabel kategori adalah jenis kelamin, status merokok, status penyakit, dan tingkat pendidikan.
Beberapa karakteristik utama variabel kategori antara lain:
Variabel nominal adalah variabel kategori yang tidak memiliki urutan.
Contoh: - jenis kelamin - agama - status perkawinan
Variabel ordinal memiliki urutan tertentu.
Contoh: - tingkat pendidikan - tingkat kepuasan - tingkat risiko
Analisis data kategori banyak digunakan dalam berbagai bidang penelitian, antara lain:
Sebagai contoh dalam penelitian kesehatan masyarakat, peneliti sering mempelajari hubungan antara kebiasaan merokok dan kejadian penyakit tertentu.
Tabel kontingensi adalah tabel yang digunakan untuk menyajikan distribusi frekuensi dari dua atau lebih variabel kategori secara bersamaan.
| Kanker | Tidak Kanker | |
|---|---|---|
| Merokok | a | b |
| Tidak Merokok | c | d |
Total observasi dapat dituliskan sebagai:
\[ N = a + b + c + d \]
Joint distribution menyatakan peluang dua kejadian terjadi secara bersamaan.
\[ P(Merokok \cap Kanker) = \frac{a}{a+b+c+d} \]
Distribusi marginal diperoleh dengan menjumlahkan nilai pada baris atau kolom.
\[ P(Merokok) = \frac{a+b}{a+b+c+d} \]
\[ P(Kanker) = \frac{a+c}{a+b+c+d} \]
Peluang bersyarat menyatakan peluang suatu kejadian dengan syarat kejadian lain telah terjadi.
\[ P(Kanker|Merokok) = \frac{a}{a+b} \]
\[ P(Kanker|TidakMerokok) = \frac{c}{c+d} \]
Ukuran asosiasi digunakan untuk mengukur kekuatan hubungan antara dua variabel kategori.
Odds merupakan perbandingan antara peluang suatu kejadian terjadi dan tidak terjadi.
\[ Odds = \frac{p}{1-p} \]
Dalam tabel kontingensi:
\[ Odds_{Merokok} = \frac{a}{b} \]
Odds Ratio digunakan untuk membandingkan odds dari dua kelompok.
\[ OR = \frac{ad}{bc} \]
Interpretasi:
Relative Risk membandingkan risiko kejadian pada dua kelompok.
\[ RR = \frac{a/(a+b)}{c/(c+d)} \]
Misalkan diperoleh data penelitian sebagai berikut:
| Kanker | Tidak Kanker | |
|---|---|---|
| Merokok | 60 | 40 |
| Tidak Merokok | 20 | 80 |
Total:
\[ N = 60 + 40 + 20 + 80 = 200 \]
\[ P(Kanker|Merokok) = \frac{60}{100} = 0.6 \]
\[ P(Kanker|TidakMerokok) = \frac{20}{100} = 0.2 \]
\[ Odds_{Merokok} = \frac{60}{40} = 1.5 \]
\[ Odds_{TidakMerokok} = \frac{20}{80} = 0.25 \]
\[ OR = \frac{60 \times 80}{40 \times 20} \]
\[ OR = 6 \]
Artinya peluang terkena kanker paru pada perokok sekitar 6 kali lebih besar dibandingkan yang tidak merokok.
Berikut implementasi analisis menggunakan perangkat lunak R.
data <- matrix(c(60,40,20,80),
nrow=2,
byrow=TRUE)
rownames(data) <- c("Merokok","Tidak Merokok")
colnames(data) <- c("Kanker","Tidak Kanker")
data## Kanker Tidak Kanker
## Merokok 60 40
## Tidak Merokok 20 80
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: data
## X-squared = 31.688, df = 1, p-value = 1.811e-08
Interpretasi hasil merupakan tahap penting dalam analisis statistik. Hasil perhitungan odds ratio menunjukkan bahwa nilai OR sebesar 6.
Hal ini menunjukkan bahwa individu yang merokok memiliki kemungkinan enam kali lebih besar untuk mengalami kanker paru dibandingkan individu yang tidak merokok.
Selain itu, uji chi-square digunakan untuk menguji apakah hubungan tersebut signifikan secara statistik.
Jika nilai p-value lebih kecil dari tingkat signifikansi (misalnya 0.05), maka dapat disimpulkan bahwa terdapat hubungan yang signifikan antara kebiasaan merokok dan kejadian kanker paru.