Analisis data kategori merupakan salah satu cabang penting dalam statistika yang digunakan untuk menganalisis data yang berbentuk kategori atau klasifikasi. Dalam banyak penelitian ilmiah, data yang dikumpulkan tidak selalu berupa angka kontinu, tetapi sering kali berupa kategori seperti jenis kelamin, status merokok, jenis penyakit, tingkat pendidikan, atau preferensi pilihan.
Data kategori biasanya disebut juga sebagai categorical data atau qualitative data. Variabel kategori memiliki karakteristik bahwa nilai-nilainya merepresentasikan kelompok atau kelas tertentu dan bukan ukuran numerik yang dapat dioperasikan secara aritmetika.
Secara umum, analisis data kategori bertujuan untuk:
Pendekatan analisis ini banyak digunakan dalam berbagai bidang penelitian seperti:
Dalam penelitian kesehatan, misalnya, analisis data kategori sering digunakan untuk mengkaji hubungan antara faktor risiko dengan kejadian penyakit.
Sebagai contoh:
Pertanyaan-pertanyaan tersebut melibatkan variabel yang bersifat kategori.
Variabel kategori memiliki beberapa karakteristik utama yaitu:
Sebagai contoh:
Jenis kelamin: - Laki-laki - Perempuan
Walaupun dapat dikodekan menjadi angka (misalnya 1 dan 2), angka tersebut tidak memiliki arti matematis.
Penjumlahan atau rata-rata tidak memiliki makna.
Sebagai contoh:
Jika kita memiliki data jenis kelamin:
1 = laki-laki
2 = perempuan
Rata-rata dari angka tersebut tidak memiliki interpretasi statistik.
Analisis data kategori berfokus pada:
Variabel nominal tidak memiliki urutan.
Contoh:
Variabel ordinal memiliki urutan tetapi jaraknya tidak pasti.
Contoh:
Analisis data kategori sangat umum digunakan dalam penelitian ilmiah.
Contoh penelitian epidemiologi:
Peneliti ingin mengetahui apakah merokok berhubungan dengan kanker paru.
Variabel:
Data dikumpulkan dari sejumlah responden kemudian dianalisis menggunakan:
Analisis ini memungkinkan peneliti mengidentifikasi apakah terdapat hubungan signifikan antara variabel.
Selain dalam kesehatan, analisis data kategori juga digunakan dalam penelitian sosial seperti:
Dengan demikian, analisis data kategori merupakan alat statistik yang sangat penting dalam penelitian empiris.
Tabel kontingensi merupakan metode dasar dalam analisis data kategori yang digunakan untuk menyajikan distribusi frekuensi dari dua atau lebih variabel kategori secara simultan.
Tabel ini menampilkan jumlah observasi untuk setiap kombinasi kategori.
Misalnya kita memiliki dua variabel:
Tabel kontingensi dapat dituliskan sebagai berikut:
| Kanker | Tidak Kanker | |
|---|---|---|
| Merokok | a | b |
| Tidak Merokok | c | d |
Jumlah total observasi adalah:
\[ n = a + b + c + d \]
Struktur tabel kontingensi terdiri dari:
Contoh:
| Penyakit | Tidak Penyakit | Total | |
|---|---|---|---|
| Terpapar | a | b | a+b |
| Tidak Terpapar | c | d | c+d |
| Total | a+c | b+d | n |
Distribusi peluang bersama didefinisikan sebagai:
\[ P(X=i,Y=j) \]
Dalam tabel kontingensi:
\[ P_{ij} = \frac{n_{ij}}{n} \]
dimana:
Distribusi marginal diperoleh dengan menjumlahkan distribusi joint.
Sebagai contoh:
\[ P(X=i) = \sum_j P_{ij} \]
dan
\[ P(Y=j) = \sum_i P_{ij} \]
Peluang bersyarat didefinisikan sebagai:
\[ P(A|B) = \frac{P(A \cap B)}{P(B)} \]
Dalam tabel kontingensi:
\[ P(\text{Kanker}|\text{Merokok}) = \frac{a}{a+b} \]
dan
\[ P(\text{Kanker}|\text{Tidak Merokok}) = \frac{c}{c+d} \]
Konsep ini sangat penting dalam analisis epidemiologi karena memungkinkan kita menghitung risiko suatu kejadian pada kelompok tertentu.
Odds merupakan rasio antara peluang kejadian dengan peluang tidak terjadinya kejadian.
Secara matematis:
\[ Odds = \frac{p}{1-p} \]
Dalam tabel kontingensi:
\[ Odds_{exposed} = \frac{a}{b} \]
\[ Odds_{unexposed} = \frac{c}{d} \]
Odds Ratio merupakan ukuran asosiasi yang membandingkan odds antara dua kelompok.
Rumus:
\[ OR = \frac{a/b}{c/d} \]
yang dapat disederhanakan menjadi:
\[ OR = \frac{ad}{bc} \]
Interpretasi:
Relative Risk digunakan dalam studi kohort.
Rumus:
\[ RR = \frac{a/(a+b)} {c/(c+d)} \]
Interpretasi:
Ukuran ini sering digunakan dalam epidemiologi untuk mengukur besarnya efek paparan terhadap kejadian penyakit.
Misalkan diperoleh data simulasi:
| Kanker | Tidak Kanker | |
|---|---|---|
| Merokok | 60 | 40 |
| Tidak Merokok | 20 | 80 |
Sehingga:
\[ a=60 \]
\[ b=40 \]
\[ c=20 \]
\[ d=80 \]
Total:
\[ n = 200 \]
Peluang kanker pada perokok:
\[ P(Kanker|Merokok) = \frac{60}{60+40} =0.6 \]
Peluang kanker pada non perokok:
\[ P(Kanker|Tidak Merokok) = \frac{20}{20+80} =0.2 \]
Odds kanker pada perokok:
\[ Odds_1 = \frac{60}{40} =1.5 \]
Odds kanker pada non perokok:
\[ Odds_0 = \frac{20}{80} =0.25 \]
\[ OR = \frac{60\times80}{40\times20} \]
\[ OR = \frac{4800}{800} \]
\[ OR = 6 \]
Interpretasi:
Perokok memiliki 6 kali odds terkena kanker dibandingkan non perokok.
data <- matrix(c(60,40,20,80), nrow=2, byrow=TRUE)
rownames(data) <- c("Merokok","Tidak Merokok")
colnames(data) <- c("Kanker","Tidak Kanker")
data
## Kanker Tidak Kanker
## Merokok 60 40
## Tidak Merokok 20 80
chisq.test(data)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: data
## X-squared = 31.688, df = 1, p-value = 1.811e-08
Uji chi-square digunakan untuk menguji hipotesis:
\[ H_0 : \text{Tidak ada hubungan} \]
\[ H_1 : \text{Ada hubungan} \]
Statistik uji:
\[ \chi^2 = \sum \frac{(O-E)^2}{E} \]
dimana:
(a <- data[1,1])
## [1] 60
(b <- data[1,2])
## [1] 40
(c <- data[2,1])
## [1] 20
(d <- data[2,2])
## [1] 80
OR <- (a*d)/(b*c)
OR
## [1] 6
Misalkan hasil uji chi-square menunjukkan:
p-value < 0.05
Maka keputusan statistik adalah:
Tolak \(H_0\)
Artinya terdapat hubungan signifikan antara status merokok dan kejadian kanker.
Jika:
\[ OR = 6 \]
Interpretasi statistik:
Odds terkena kanker pada perokok adalah 6 kali lebih besar dibandingkan non perokok.
Dalam konteks epidemiologi:
Hasil ini menunjukkan bahwa merokok merupakan faktor risiko yang kuat terhadap kanker paru.
Implikasi kebijakan:
Analisis data kategori merupakan metode statistik yang sangat penting untuk menganalisis hubungan antar variabel kategori. Dengan menggunakan tabel kontingensi, ukuran asosiasi seperti odds ratio dan relative risk, serta uji chi-square, peneliti dapat memahami hubungan antar variabel secara lebih mendalam.
Metode ini sangat berguna dalam berbagai bidang penelitian terutama epidemiologi dan ilmu sosial.