Pendahuluan

Analisis data kategori merupakan salah satu cabang penting dalam statistika yang digunakan untuk menganalisis data yang berbentuk kategori atau klasifikasi. Data kategori sering dijumpai dalam berbagai bidang seperti kesehatan, ekonomi, dan ilmu sosial.

Contoh data kategori antara lain jenis kelamin, status penyakit, status merokok, tingkat pendidikan, dan lain sebagainya. Dalam analisis data kategori, hubungan antara dua atau lebih variabel kategori biasanya dianalisis menggunakan tabel kontingensi serta ukuran asosiasi seperti odds, odds ratio, dan relative risk.


Bagian 1: Definisi Analisis Data Kategori

Pengertian Analisis Data Kategori

Analisis data kategori adalah metode statistik yang digunakan untuk menganalisis data yang berbentuk kategori atau klasifikasi. Data kategori tidak dinyatakan dalam bentuk nilai numerik kontinu, tetapi dalam bentuk kelompok tertentu.

Tujuan analisis data kategori antara lain:

  • Menggambarkan distribusi data dalam berbagai kategori
  • Mengidentifikasi hubungan antara dua variabel kategori
  • Mengukur kekuatan asosiasi antara variabel kategori
  • Menguji hipotesis mengenai hubungan antar variabel kategori

Metode yang umum digunakan dalam analisis data kategori antara lain:

  • Tabel kontingensi
  • Uji Chi-Square
  • Odds Ratio
  • Relative Risk
  • Regresi logistik

Karakteristik Variabel Kategori

Variabel kategori memiliki beberapa karakteristik penting:

  1. Berupa label atau klasifikasi
    Contoh: jenis kelamin (laki-laki/perempuan).

  2. Tidak memiliki makna operasi aritmatika
    Nilai kategori tidak dapat dijumlahkan atau dikurangi.

  3. Biasanya dinyatakan dalam frekuensi
    Analisis dilakukan berdasarkan jumlah observasi dalam setiap kategori.

  4. Memiliki skala nominal atau ordinal

Nominal: - Jenis kelamin - Golongan darah

Ordinal: - Tingkat pendidikan - Tingkat kepuasan

Contoh Penerapan

Dalam bidang kesehatan, analisis data kategori dapat digunakan untuk meneliti hubungan antara kebiasaan merokok dan kanker paru.

Variabel yang digunakan:

  • Status merokok (Perokok / Tidak Perokok)
  • Status kanker paru (Ya / Tidak)

Bagian 2: Tabel Kontingensi

Definisi

Tabel kontingensi adalah tabel yang menyajikan distribusi frekuensi gabungan dari dua atau lebih variabel kategori.

Struktur Tabel Kontingensi 2×2

Penyakit Tidak Penyakit Total
Terpapar a b a+b
Tidak Terpapar c d c+d
Total a+c b+d n

Keterangan:

  • a = jumlah individu terpapar dan sakit
  • b = jumlah individu terpapar tetapi tidak sakit
  • c = jumlah individu tidak terpapar tetapi sakit
  • d = jumlah individu tidak terpapar dan tidak sakit

Total observasi:

\[ n = a + b + c + d \]

Joint Distribution

Distribusi gabungan:

\[ P(X=i,Y=j) = \frac{n_{ij}}{n} \]

Contoh:

\[ P(Terpapar, Penyakit) = \frac{a}{n} \]

Marginal Distribution

Distribusi marginal diperoleh dari total baris atau kolom.

\[ P(Terpapar) = \frac{a+b}{n} \]

\[ P(Penyakit) = \frac{a+c}{n} \]

Conditional Probability

Peluang bersyarat:

\[ P(A|B) = \frac{P(A \cap B)}{P(B)} \]

Contoh:

\[ P(Penyakit|Terpapar) = \frac{a}{a+b} \]


Bagian 3: Ukuran Asosiasi

Odds

Odds merupakan perbandingan antara peluang suatu kejadian dengan peluang kejadian tersebut tidak terjadi.

\[ Odds = \frac{P}{1-P} \]

Dalam tabel kontingensi:

\[ Odds_1 = \frac{a}{b} \]

\[ Odds_0 = \frac{c}{d} \]

Odds Ratio

Odds Ratio merupakan perbandingan antara dua odds.

\[ OR = \frac{Odds_1}{Odds_0} \]

Dalam tabel 2×2:

\[ OR = \frac{a/b}{c/d} \]

atau

\[ OR = \frac{ad}{bc} \]

Interpretasi:

  • OR = 1 → tidak ada hubungan
  • OR > 1 → meningkatkan risiko
  • OR < 1 → bersifat protektif

Relative Risk

Relative Risk adalah rasio antara probabilitas kejadian pada kelompok terpapar dan tidak terpapar.

\[ RR = \frac{P(Penyakit|Terpapar)}{P(Penyakit|Tidak Terpapar)} \]

atau

\[ RR = \frac{a/(a+b)}{c/(c+d)} \]


Bagian 4: Contoh Perhitungan Manual

Misalkan dilakukan penelitian mengenai hubungan antara kebiasaan merokok dan kanker paru.

Kanker Tidak Kanker Total
Perokok 60 40 100
Tidak Perokok 20 80 100
Total 80 120 200

Peluang Bersyarat

\[ P(Kanker|Perokok) = \frac{60}{100} = 0.6 \]

\[ P(Kanker|TidakPerokok) = \frac{20}{100} = 0.2 \]

Odds

\[ Odds_1 = \frac{60}{40} = 1.5 \]

\[ Odds_0 = \frac{20}{80} = 0.25 \]

Odds Ratio

\[ OR = \frac{ad}{bc} \]

\[ OR = \frac{60 \times 80}{40 \times 20} \]

\[ OR = \frac{4800}{800} = 6 \]

Interpretasi: Odds terkena kanker paru pada perokok 6 kali lebih besar dibandingkan tidak perokok.


Bagian 5: Analisis Menggunakan R

data <- matrix(c(60,40,20,80),
               nrow=2,
               byrow=TRUE)

rownames(data) <- c("Perokok","Tidak_Perokok")
colnames(data) <- c("Kanker","Tidak_Kanker")

data
##               Kanker Tidak_Kanker
## Perokok           60           40
## Tidak_Perokok     20           80

Odds Ratio di R

library(epitools)
## Warning: package 'epitools' was built under R version 4.5.2
oddsratio(data)
## $data
##               Kanker Tidak_Kanker Total
## Perokok           60           40   100
## Tidak_Perokok     20           80   100
## Total             80          120   200
## 
## $measure
##                         NA
## odds ratio with 95% C.I. estimate    lower    upper
##            Perokok       1.000000       NA       NA
##            Tidak_Perokok 5.915517 3.181806 11.37695
## 
## $p.value
##                NA
## two-sided         midp.exact fisher.exact   chi.square
##   Perokok                 NA           NA           NA
##   Tidak_Perokok 6.163344e-09 1.063603e-08 7.764037e-09
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"

Uji Chi-Square

chisq.test(data)
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  data
## X-squared = 31.688, df = 1, p-value = 1.811e-08

Hipotesis:

  • H0: Tidak ada hubungan antara merokok dan kanker paru
  • H1: Ada hubungan antara merokok dan kanker paru

Bagian 6: Interpretasi Hasil

Interpretasi Statistik

Jika nilai p-value dari uji Chi-Square lebih kecil dari 0.05 maka hipotesis nol ditolak. Artinya terdapat hubungan yang signifikan antara kebiasaan merokok dan kanker paru.

Interpretasi Substantif

Berdasarkan nilai Odds Ratio sebesar 6, individu yang merokok memiliki kemungkinan terkena kanker paru sekitar 6 kali lebih besar dibandingkan individu yang tidak merokok.

Hal ini menunjukkan bahwa merokok merupakan faktor risiko penting terhadap kanker paru.