1 Pendahuluan

Analisis data kategori merupakan salah satu metode penting dalam statistika yang digunakan untuk menganalisis data yang berbentuk kategori atau klasifikasi. Dalam berbagai penelitian, variabel yang diamati tidak selalu berupa angka, tetapi sering kali berbentuk kategori seperti jenis kelamin, status merokok, atau status kesehatan.

Salah satu metode yang paling umum digunakan dalam analisis data kategori adalah tabel kontingensi. Tabel ini memungkinkan peneliti untuk melihat hubungan antara dua variabel kategorik melalui distribusi frekuensi pada setiap kombinasi kategori.

Melalui tabel kontingensi, peneliti juga dapat menghitung berbagai ukuran asosiasi seperti Odds Ratio, Relative Risk, serta melakukan pengujian statistik seperti Chi-Square Test untuk mengetahui apakah hubungan antar variabel tersebut signifikan secara statistik.

Ebook ini membahas konsep dasar analisis data kategori, struktur tabel kontingensi 2x2, distribusi peluang, ukuran asosiasi, serta contoh analisis menggunakan perangkat lunak R.


2 Analisis Data Kategori

Definisi

Analisis data kategori merupakan metode statistik yang digunakan untuk menganalisis data yang berbentuk kategori atau klasifikasi. Variabel kategori adalah variabel yang nilainya berupa label atau kelompok tertentu sehingga tidak memiliki makna numerik secara langsung.

Tujuan Analisis Data Kategori

  1. Menggambarkan distribusi frekuensi data kategorik
  2. Mengidentifikasi hubungan antar variabel kategorik
  3. Mengukur kekuatan hubungan antar variabel
  4. Menarik kesimpulan statistik dari data kategorik

3 Tabel Kontingensi

Tabel kontingensi adalah tabel yang menyajikan distribusi frekuensi dari dua atau lebih variabel kategorik secara bersamaan. Tabel ini membantu peneliti dalam mengamati pola hubungan antara variabel.

3.1 Struktur Tabel Kontingensi 2x2

Sakit Paru Tidak Sakit Total
Merokok a b a+b
Tidak Merokok c d c+d
Total a+c b+d N

4 Studi Kasus

Penelitian dilakukan untuk mengetahui hubungan antara kebiasaan merokok dan kejadian penyakit paru pada 200 pasien.

data_paru <- matrix(c(40,60,10,90), nrow=2, byrow=TRUE)

rownames(data_paru) <- c("Merokok","Tidak Merokok")
colnames(data_paru) <- c("Sakit Paru","Tidak Sakit")

data_paru
##               Sakit Paru Tidak Sakit
## Merokok               40          60
## Tidak Merokok         10          90

4.1 Tabel Kontingensi Data

kable(data_paru, caption="Tabel Kontingensi Merokok dan Penyakit Paru")
Tabel Kontingensi Merokok dan Penyakit Paru
Sakit Paru Tidak Sakit
Merokok 40 60
Tidak Merokok 10 90

5 Distribusi Peluang

Distribusi peluang dalam tabel kontingensi digunakan untuk menghitung probabilitas suatu kejadian berdasarkan frekuensi yang diperoleh dari sampel penelitian.

5.1 Peluang Bersama

\[ \pi_{ij} = \frac{n_{ij}}{N} \]

N <- sum(data_paru)

pi_11 <- data_paru[1,1]/N
pi_11
## [1] 0.2

5.2 Peluang Marginal

\[ \pi_{i+} = \frac{n_{i+}}{N} \]

pi_merokok <- sum(data_paru[1,])/N
pi_merokok
## [1] 0.5

5.3 Peluang Bersyarat

\[ P(Y=j|X=i)=\frac{n_{ij}}{n_{i+}} \]

p_sakit_merokok <- data_paru[1,1]/sum(data_paru[1,])
p_sakit_merokok
## [1] 0.4

6 Visualisasi Data

6.1 Barplot Distribusi

barplot(data_paru,
        beside=TRUE,
        col=c("#3498DB","#E74C3C"),
        legend=TRUE,
        main="Distribusi Penyakit Paru Berdasarkan Status Merokok")

6.2 Proporsi Data

barplot(prop.table(data_paru,1),
        beside=TRUE,
        col=c("#2E86C1","#E74C3C"),
        legend=TRUE,
        main="Proporsi Penyakit Paru Berdasarkan Status Merokok")

6.3 Mosaic Plot

mosaicplot(data_paru,
           color=TRUE,
           main="Mosaic Plot Hubungan Merokok dan Penyakit Paru")

6.4 Heatmap

df <- melt(data_paru)

ggplot(df, aes(Var2,Var1,fill=value))+
geom_tile(color="white")+
geom_text(aes(label=value),size=6)+
scale_fill_gradient(low="lightblue",high="red")+
labs(title="Heatmap Tabel Kontingensi")+
theme_minimal()


7 Ukuran Asosiasi

7.1 Odds Ratio

\[ OR = \frac{ad}{bc} \]

a <- data_paru[1,1]
b <- data_paru[1,2]
c <- data_paru[2,1]
d <- data_paru[2,2]

OR <- (a*d)/(b*c)
OR
## [1] 6

7.2 Relative Risk

\[ RR = \frac{a/(a+b)}{c/(c+d)} \]

RR <- (a/(a+b))/(c/(c+d))
RR
## [1] 4

8 Uji Statistik

chisq.test(data_paru)
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  data_paru
## X-squared = 22.427, df = 1, p-value = 2.183e-06

Jika p-value < 0.05, maka terdapat hubungan yang signifikan antara variabel merokok dan penyakit paru.


9 Interpretasi Hasil

Nilai Odds Ratio sebesar 6 menunjukkan bahwa individu yang merokok memiliki peluang lebih besar mengalami penyakit paru dibandingkan individu yang tidak merokok.

Nilai Relative Risk sebesar 4 juga menunjukkan bahwa risiko penyakit paru pada kelompok perokok lebih tinggi dibandingkan kelompok yang tidak merokok.


10 Kesimpulan

Berdasarkan analisis yang telah dilakukan, tabel kontingensi dapat digunakan untuk melihat hubungan antara dua variabel kategorik.

Hasil analisis menunjukkan bahwa kebiasaan merokok memiliki hubungan dengan kejadian penyakit paru. Hal ini terlihat dari nilai Odds Ratio dan Relative Risk yang lebih besar dari 1.

Selain itu, uji Chi-Square digunakan untuk menentukan apakah hubungan tersebut signifikan secara statistik.

Dengan demikian, kebiasaan merokok dapat dianggap sebagai salah satu faktor risiko terhadap penyakit paru dalam studi kasus ini.