✦ Statistika · Analisis Kategorikal

Analisis Data
Kategori

Penulis
Ester Nibenia Zendrato
Topik
Tabel Kontingensi & Odds Ratio
Tools
R · kableExtra · Base Stats

1 Pendahuluan

01 — Konsep Dasar

1.1 Definisi Analisis Data Kategori

Analisis data kategori merupakan metode statistik yang digunakan untuk menganalisis data yang berbentuk kategori atau klasifikasi. Data kategori menggambarkan pengelompokan suatu objek atau individu ke dalam kelompok tertentu berdasarkan karakteristik yang dimilikinya. Berbeda dengan data numerik yang bersifat kuantitatif, data kategori bersifat kualitatif dan biasanya dinyatakan dalam bentuk label.

Variabel kategori memiliki beberapa karakteristik utama. Pertama, nilai variabel berupa label atau kategori seperti ya atau tidak, laki-laki atau perempuan, dan sebagainya. Kedua, variabel kategori tidak memiliki makna numerik secara langsung sehingga operasi matematika seperti penjumlahan atau rata-rata tidak dapat dilakukan secara langsung.

Secara umum variabel kategori dibedakan menjadi dua jenis utama yaitu variabel nominal dan ordinal. Analisis data kategori banyak digunakan dalam berbagai bidang penelitian, misalnya dalam bidang kesehatan untuk mempelajari hubungan antara kebiasaan merokok dan risiko kanker paru.


2 Tabel Kontingensi

02 — Distribusi Frekuensi

Tabel kontingensi menyajikan distribusi frekuensi dari dua variabel kategori secara bersamaan, memungkinkan kita mengamati pola hubungan antar variabel.

\[ \begin{array}{c|cc|c} & \text{Kanker} & \text{Tidak Kanker} & \text{Total}\\ \hline \text{Merokok} & a & b & a+b\\ \text{Tidak Merokok} & c & d & c+d\\ \hline \text{Total} & a+c & b+d & n \end{array} \]

Total observasi: \(n = a + b + c + d\)

2.1 Joint Distribution

Peluang Gabungan

\[P(\text{Merokok} \cap \text{Kanker}) = \frac{a}{n}\]

2.2 Marginal Distribution

Peluang Marjinal

\[P(\text{Merokok}) = \frac{a+b}{n} \qquad P(\text{Kanker}) = \frac{a+c}{n}\]

2.3 Conditional Probability

Peluang Bersyarat

\[P(\text{Kanker}|\text{Merokok}) = \frac{a}{a+b}\]


3 Ukuran Asosiasi

03 — Measures of Association

3.1 Odds

Odds merupakan perbandingan antara peluang suatu kejadian dengan peluang tidak terjadinya kejadian tersebut.

Rumus Odds

\[Odds = \frac{P}{1-P} = \frac{a}{b}\]

3.2 Odds Ratio

Odds Ratio (OR)

\[OR = \frac{a \times d}{b \times c}\]

Nilai ORInterpretasiStatus
OR = 1Tidak ada hubungan antar variabelNetral
OR > 1Meningkatkan risiko (faktor risiko)Risiko ↑
OR < 1Bersifat protektif terhadap kejadianProtektif ↓

3.3 Relative Risk

Risiko Relatif (RR)

\[RR = \frac{\dfrac{a}{a+b}}{\dfrac{c}{c+d}}\]


4 Contoh Perhitungan Manual

04 — Aplikasi Numerik

\[ \begin{array}{c|cc|c} & \text{Kanker} & \text{Tidak Kanker} & \text{Total}\\ \hline \text{Merokok} & 60 & 40 & 100\\ \text{Tidak Merokok} & 20 & 80 & 100\\ \hline \text{Total} & 80 & 120 & 200 \end{array} \]

200
Total Observasi (n)
0.60
P(Kanker | Merokok)
0.20
P(Kanker | Tdk Merokok)

Peluang bersyarat:

\[P(\text{Kanker}|\text{Merokok}) = \frac{60}{100} = 0.6 \qquad P(\text{Kanker}|\text{Tidak Merokok}) = \frac{20}{100} = 0.2\]

Odds Ratio:

\[OR = \frac{60 \times 80}{40 \times 20} = \frac{4800}{800} = \mathbf{6}\]


5 Analisis Menggunakan R

05 — Implementasi

5.1 Membuat Tabel Kontingensi

data <- matrix(c(60, 40, 20, 80),
               nrow = 2,
               byrow = TRUE)

rownames(data) <- c("Merokok", "Tidak Merokok")
colnames(data) <- c("Kanker", "Tidak Kanker")

data
##               Kanker Tidak Kanker
## Merokok           60           40
## Tidak Merokok     20           80

5.2 Menampilkan Tabel Lebih Rapi

kable(data, caption = "Tabel Kontingensi: Merokok vs Kanker Paru") %>%
  kable_styling(
    full_width    = FALSE,
    bootstrap_options = c("striped", "hover", "condensed"),
    position      = "left"
  ) %>%
  row_spec(0, bold = TRUE, background = "#1a1a2e", color = "white") %>%
  column_spec(1, bold = TRUE, background = "#ede8dd")
Tabel Kontingensi: Merokok vs Kanker Paru
Kanker Tidak Kanker
Merokok 60 40
Tidak Merokok 20 80

5.3 Joint Probability

prop.table(data)
##               Kanker Tidak Kanker
## Merokok          0.3          0.2
## Tidak Merokok    0.1          0.4

5.4 Marginal & Conditional Probability

# Kondisional terhadap baris (row)
prop.table(data, 1)
##               Kanker Tidak Kanker
## Merokok          0.6          0.4
## Tidak Merokok    0.2          0.8
# Kondisional terhadap kolom (column)
prop.table(data, 2)
##               Kanker Tidak Kanker
## Merokok         0.75    0.3333333
## Tidak Merokok   0.25    0.6666667

5.5 Odds Ratio

OR <- (data[1,1] * data[2,2]) / (data[1,2] * data[2,1])
cat("Odds Ratio =", OR)
## Odds Ratio = 6

5.6 Uji Chi-Square

chisq.test(data)
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  data
## X-squared = 31.688, df = 1, p-value = 1.811e-08

5.7 Visualisasi Mosaic Plot

par(
  bg      = "#f7f4ee",
  family  = "sans",
  mar     = c(3, 3, 3, 1)
)

mosaicplot(
  data,
  main   = "Hubungan Merokok dan Kanker Paru",
  color  = c("#c0392b", "#7f8c8d"),
  border = "white",
  cex.axis = 0.9,
  las    = 1
)


6 Interpretasi Hasil

06 — Kesimpulan
OR = 6

Nilai Odds Ratio sebesar 6 menunjukkan bahwa individu yang merokok memiliki peluang sekitar enam kali lebih besar untuk mengalami kanker paru dibandingkan dengan individu yang tidak merokok.

Hasil uji chi-square digunakan untuk melihat apakah hubungan tersebut signifikan secara statistik. Berdasarkan output di atas diperoleh nilai p-value = 1.624 × 10⁻¹¹, yang jauh lebih kecil dari α = 0.05, sehingga dapat disimpulkan bahwa terdapat hubungan yang signifikan antara kebiasaan merokok dan kejadian kanker paru.

Secara substantif, hasil ini menunjukkan bahwa merokok merupakan faktor risiko penting terhadap kanker paru sehingga upaya pencegahan seperti edukasi kesehatan masyarakat sangat diperlukan.


7 Referensi

Daftar Pustaka
[1]
Agresti, A. (2013). Categorical Data Analysis (3rd ed.). Wiley.
[2]
Dobson, A. J., & Barnett, A. (2018). An Introduction to Generalized Linear Models (4th ed.). CRC Press.