1 Pendahuluan

1.1 Definisi Analisis Data Kategori

Analisis data kategori merupakan metode statistik yang digunakan untuk menganalisis data yang berbentuk kategori atau klasifikasi. Data kategori menggambarkan pengelompokan suatu objek atau individu ke dalam kelompok tertentu berdasarkan karakteristik yang dimilikinya. Berbeda dengan data numerik yang bersifat kuantitatif, data kategori bersifat kualitatif dan biasanya dinyatakan dalam bentuk label.

Variabel kategori memiliki beberapa karakteristik utama. Pertama, nilai variabel berupa label atau kategori seperti ya atau tidak, laki-laki atau perempuan, dan sebagainya. Kedua, variabel kategori tidak memiliki makna numerik secara langsung sehingga operasi matematika seperti penjumlahan atau rata-rata tidak dapat dilakukan secara langsung.

Secara umum variabel kategori dibedakan menjadi dua jenis utama yaitu variabel nominal dan ordinal.

Analisis data kategori banyak digunakan dalam berbagai bidang penelitian, misalnya dalam bidang kesehatan untuk mempelajari hubungan antara kebiasaan merokok dan risiko kanker paru.

2 Tabel Kontingensi

Tabel kontingensi menyajikan distribusi frekuensi dari dua variabel kategori.

\[ \begin{array}{c|cc} & \text{Kanker} & \text{Tidak Kanker} \\ \hline \text{Merokok} & a & b \\ \text{Tidak Merokok} & c & d \end{array} \]

Total observasi:

\[ n = a + b + c + d \]

2.1 Joint Distribution

\[ P(\text{Merokok} \cap \text{Kanker}) = \frac{a}{n} \]

2.2 Marginal Distribution

\[ P(\text{Merokok}) = \frac{a+b}{n} \]

\[ P(\text{Kanker}) = \frac{a+c}{n} \]

2.3 Conditional Probability

\[ P(\text{Kanker}|\text{Merokok}) = \frac{a}{a+b} \]

3 Ukuran Asosiasi

3.1 Odds

Odds merupakan perbandingan antara peluang suatu kejadian dengan peluang tidak terjadinya kejadian tersebut.

\[ Odds = \frac{P}{1-P} \]

Dalam tabel kontingensi:

\[ Odds = \frac{a}{b} \]

3.2 Odds Ratio

Odds Ratio (OR):

\[ OR = \frac{a \times d}{b \times c} \]

Interpretasi:

\(OR = 1\) → tidak ada hubungan
\(OR > 1\) → meningkatkan risiko
\(OR < 1\) → bersifat protektif

3.3 Relative Risk

\[ RR = \frac{\frac{a}{a+b}}{\frac{c}{c+d}} \]

4 Contoh Perhitungan Manual

\[ \begin{array}{c|cc} & \text{Kanker} & \text{Tidak Kanker} \\ \hline \text{Merokok} & 60 & 40 \\ \text{Tidak Merokok} & 20 & 80 \end{array} \]

Total observasi:

\[ n = 60 + 40 + 20 + 80 = 200 \]

Peluang bersyarat:

\[ P(\text{Kanker}|\text{Merokok}) = \frac{60}{100} = 0.6 \]

\[ P(\text{Kanker}|\text{Tidak Merokok}) = \frac{20}{100} = 0.2 \]

Odds ratio:

\[ OR = \frac{60 \times 80}{40 \times 20} \]

\[ OR = 6 \]

5 Analisis Menggunakan R

5.1 Membuat tabel kontingensi

data <- matrix(c(60,40,20,80),
               nrow = 2,
               byrow = TRUE)

rownames(data) <- c("Merokok","Tidak Merokok")
colnames(data) <- c("Kanker","Tidak Kanker")

data

##               Kanker Tidak Kanker
## Merokok           60           40
## Tidak Merokok     20           80

5.2 Menampilkan tabel lebih rapi

kable(data) %>%
  kable_styling(full_width = FALSE,
                bootstrap_options = c("striped","hover","condensed"))

	Kanker	Tidak Kanker
Merokok	60	40
Tidak Merokok	20	80

5.3 Joint Probability

prop.table(data)

##               Kanker Tidak Kanker
## Merokok          0.3          0.2
## Tidak Merokok    0.1          0.4

5.4 Marginal Probability

prop.table(data,1)

##               Kanker Tidak Kanker
## Merokok          0.6          0.4
## Tidak Merokok    0.2          0.8

prop.table(data,2)

##               Kanker Tidak Kanker
## Merokok         0.75    0.3333333
## Tidak Merokok   0.25    0.6666667

5.5 Conditional Probability

prop.table(data,1)

##               Kanker Tidak Kanker
## Merokok          0.6          0.4
## Tidak Merokok    0.2          0.8

5.6 Odds Ratio

OR <- (data[1,1]*data[2,2])/(data[1,2]*data[2,1])
OR

## [1] 6

5.7 Uji Chi-Square

chisq.test(data)

## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  data
## X-squared = 31.688, df = 1, p-value = 1.811e-08

5.8 Visualisasi Mosaic Plot

mosaicplot(data,
           main="Hubungan Merokok dan Kanker Paru",
           color=TRUE)

6 Interpretasi Hasil

Nilai Odds Ratio sebesar 6 menunjukkan bahwa individu yang merokok memiliki peluang sekitar enam kali lebih besar untuk mengalami kanker paru dibandingkan dengan individu yang tidak merokok.

Hasil uji chi-square digunakan untuk melihat apakah hubungan tersebut signifikan secara statistik. Jika nilai p-value lebih kecil dari 0.05 maka dapat disimpulkan bahwa terdapat hubungan yang signifikan antara kebiasaan merokok dan kejadian kanker paru.

Secara substantif, hasil ini menunjukkan bahwa merokok merupakan faktor risiko penting terhadap kanker paru sehingga upaya pencegahan seperti edukasi kesehatan masyarakat sangat diperlukan.

7 Referensi

Agresti, A. (2013). Categorical Data Analysis. Wiley.

Dobson, A. J., & Barnett, A. (2018). An Introduction to Generalized Linear Models. CRC Press.

Analisis Data Kategori

Ester Nibenia Zendrato

2026-03-11