1 Pendahuluan

1.1 Latar Belakang

Dalam berbagai bidang ilmu seperti kesehatan, ekonomi, dan ilmu sosial, banyak data yang bersifat kategori (categorical data). Data kategori biasanya menyatakan kelompok atau klasifikasi seperti jenis kelamin, status penyakit, status merokok, atau tingkat pendidikan.

Salah satu pendekatan utama dalam analisis data kategori adalah menggunakan tabel kontingensi untuk mempelajari hubungan antara dua variabel kategori. Dari tabel tersebut dapat dihitung berbagai ukuran asosiasi yang menggambarkan kekuatan hubungan antar variabel.

Analisis data kategori banyak digunakan dalam penelitian epidemiologi, survei sosial, maupun penelitian kebijakan publik untuk memahami keterkaitan antara faktor risiko dan suatu kejadian.


2 Definisi Analisis Data Kategori

2.1 Pengertian Analisis Data Kategori

Analisis data kategori adalah cabang dari statistika yang digunakan untuk menganalisis data yang variabelnya berbentuk kategori atau klasifikasi. Variabel kategori tidak dinyatakan dalam nilai numerik kontinu, melainkan dalam bentuk kelompok seperti jenis kelamin, status pekerjaan, atau kondisi kesehatan.

Menurut Agresti (2013), analisis data kategori berfokus pada metode statistik yang digunakan untuk mempelajari hubungan antar variabel yang berskala nominal maupun ordinal.

2.2 Karakteristik Variabel Kategori

Variabel kategori memiliki beberapa karakteristik utama, yaitu:

  1. Nilai variabel berupa kategori atau label.
  2. Tidak memiliki makna numerik langsung.
  3. Biasanya dianalisis menggunakan frekuensi atau proporsi.
  4. Hubungan antar variabel sering disajikan dalam bentuk tabel kontingensi.

Variabel kategori umumnya dibagi menjadi dua jenis utama:

  • Nominal, yaitu kategori yang tidak memiliki urutan (misalnya jenis kelamin).
  • Ordinal, yaitu kategori yang memiliki urutan tertentu (misalnya tingkat pendidikan).

2.3 Contoh Penerapan dalam Penelitian

Analisis data kategori sering digunakan dalam berbagai bidang penelitian, misalnya:

  • Hubungan antara status merokok dan kanker paru
  • Hubungan antara vaksinasi dan kejadian infeksi
  • Hubungan antara aktivitas fisik dan penyakit jantung

Dalam penelitian epidemiologi, metode ini sangat penting untuk mengidentifikasi faktor risiko suatu penyakit.


3 Tabel Kontingensi

3.1 Definisi Tabel Kontingensi

Tabel kontingensi adalah tabel yang digunakan untuk menyajikan distribusi frekuensi bersama dari dua atau lebih variabel kategori. Tabel ini memungkinkan peneliti untuk melihat hubungan antara variabel-variabel tersebut.

3.2 Struktur Tabel Kontingensi

Contoh tabel kontingensi \(2 \times 2\):

Kanker Tidak Kanker Total
Merokok a b a+b
Tidak Merokok c d c+d
Total a+c b+d n

3.3 Joint Distribution

Distribusi bersama (joint distribution) menunjukkan probabilitas terjadinya dua kejadian secara bersamaan.

\[ P(X=x, Y=y) = \frac{n_{xy}}{n} \]

di mana \(n_{xy}\) adalah frekuensi pada sel tabel dan \(n\) adalah total observasi.

3.4 Marginal Distribution

Distribusi marginal adalah distribusi dari satu variabel tanpa memperhatikan variabel lainnya.

Contoh:

\[ P(X=x) = \frac{n_{x+}}{n} \]

dan

\[ P(Y=y) = \frac{n_{+y}}{n} \]

3.5 Conditional Probability

Probabilitas bersyarat digunakan untuk mengetahui peluang suatu kejadian dengan syarat kejadian lain telah terjadi.

\[ P(Y|X) = \frac{P(X,Y)}{P(X)} \]

atau

\[ P(Y=y|X=x) = \frac{n_{xy}}{n_{x+}} \]


4 Ukuran Asosiasi

Untuk mengukur kekuatan hubungan antara dua variabel kategori, digunakan beberapa ukuran asosiasi.

4.1 Odds

Odds merupakan perbandingan antara peluang terjadinya suatu kejadian dengan peluang tidak terjadinya kejadian tersebut.

\[ Odds = \frac{P}{1-P} \]

Jika menggunakan tabel kontingensi:

\[ Odds = \frac{a}{b} \]

4.2 Odds Ratio

Odds Ratio (OR) digunakan untuk membandingkan odds dari dua kelompok.

\[ OR = \frac{ad}{bc} \]

Interpretasi:

  • \(OR = 1\) → tidak ada hubungan
  • \(OR > 1\) → terdapat hubungan positif
  • \(OR < 1\) → terdapat hubungan negatif

4.3 Relative Risk

Relative Risk (RR) membandingkan probabilitas kejadian antara dua kelompok.

\[ RR = \frac{a/(a+b)}{c/(c+d)} \]

Interpretasi:

  • \(RR = 1\) → risiko sama
  • \(RR > 1\) → kelompok pertama memiliki risiko lebih tinggi
  • \(RR < 1\) → kelompok pertama memiliki risiko lebih rendah

5 Contoh Perhitungan Manual

Misalkan dilakukan penelitian mengenai hubungan antara kebiasaan merokok dan kanker paru dengan data berikut.

Kanker Tidak Kanker
Merokok 60 40
Tidak Merokok 20 80

5.1 Membuat Tabel Kontingensi

Misalkan:

\[ a = 60,\quad b = 40,\quad c = 20,\quad d = 80 \]

5.2 Menghitung Probabilitas Bersyarat

Peluang terkena kanker pada perokok:

\[ P(Kanker|Merokok) = \frac{60}{60+40} = 0.6 \]

Peluang terkena kanker pada tidak merokok:

\[ P(Kanker|TidakMerokok) = \frac{20}{20+80} = 0.2 \]

5.3 Menghitung Odds

Odds kanker pada perokok:

\[ Odds = \frac{60}{40} = 1.5 \]

Odds kanker pada tidak merokok:

\[ Odds = \frac{20}{80} = 0.25 \]

5.4 Menghitung Odds Ratio

\[ OR = \frac{60 \times 80}{40 \times 20} \]

\[ OR = \frac{4800}{800} \]

\[ OR = 6 \]

Artinya, peluang perokok terkena kanker paru sekitar 6 kali lebih besar dibandingkan dengan yang tidak merokok.


6 Analisis Menggunakan R

data <- matrix(c(60,40,20,80),
               nrow=2,
               byrow=TRUE)

rownames(data) <- c("Merokok","Tidak Merokok")
colnames(data) <- c("Kanker","Tidak Kanker")

data
##               Kanker Tidak Kanker
## Merokok           60           40
## Tidak Merokok     20           80

6.1 Menghitung Odds Ratio

a <- data[1,1]
b <- data[1,2]
c <- data[2,1]
d <- data[2,2]

OR <- (a*d)/(b*c)
OR
## [1] 6

6.2 Uji Chi-Square

chisq.test(data)
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  data
## X-squared = 31.688, df = 1, p-value = 1.811e-08

7 Interpretasi Hasil

7.1 Interpretasi Statistik

Hasil perhitungan menunjukkan bahwa nilai Odds Ratio sebesar 6, yang berarti bahwa peluang perokok untuk mengalami kanker paru enam kali lebih besar dibandingkan dengan individu yang tidak merokok.

Hasil uji Chi-Square digunakan untuk menguji apakah hubungan antara variabel merokok dan kanker paru bersifat signifikan secara statistik.

Jika nilai p-value lebih kecil dari tingkat signifikansi (misalnya \(\alpha = 0.05\)), maka dapat disimpulkan bahwa terdapat hubungan yang signifikan antara kedua variabel tersebut.

7.2 Interpretasi Substantif

Dalam konteks kesehatan masyarakat, hasil ini menunjukkan bahwa kebiasaan merokok memiliki hubungan yang kuat dengan kejadian kanker paru. Oleh karena itu, pengendalian konsumsi rokok merupakan salah satu langkah penting dalam upaya pencegahan kanker paru.


8 Referensi

Agresti, A. (2013). Categorical Data Analysis. Wiley.

Hosmer, D. W., Lemeshow, S., & Sturdivant, R. (2013). Applied Logistic Regression. Wiley.