Tugas 1

1. Analisis Data Kategori

1.1 Pengertian Analisis Data Kategori

Analisis data kategori merupakan cabang dari statistika yang digunakan untuk menganalisis data yang variabelnya berbentuk kategori atau kualitatif. Variabel kategori adalah variabel yang nilainya berupa label atau kelompok tertentu, bukan nilai numerik kontinu. Analisis ini banyak digunakan dalam berbagai bidang penelitian seperti kesehatan masyarakat, ilmu sosial, epidemiologi, dan ekonomi.

Menurut Agresti (2019), analisis data kategori merupakan metode statistik yang digunakan untuk menganalisis hubungan antar variabel yang diukur dalam bentuk kategori dengan menggunakan distribusi probabilitas diskrit serta tabel kontingensi.

Dalam praktik penelitian, data kategori sering muncul dalam bentuk klasifikasi seperti jenis kelamin (laki-laki/perempuan), status merokok (ya/tidak), atau status penyakit (sakit/sehat). Metode analisis yang umum digunakan untuk data kategori antara lain tabel kontingensi, uji chi-square, odds ratio, dan relative risk.

1.2 Karakteristik Variabel Kategori

Variabel kategori memiliki beberapa karakteristik utama, yaitu:

  1. Tidak memiliki makna numerik intrinsik
    Nilai variabel hanya menunjukkan kategori tertentu, bukan besaran kuantitatif.

  2. Dapat berupa nominal atau ordinal

    • Nominal: kategori tidak memiliki urutan (misalnya jenis kelamin)
    • Ordinal: kategori memiliki urutan (misalnya tingkat pendidikan).
  3. Sering direpresentasikan dalam bentuk frekuensi
    Data biasanya disajikan dalam bentuk jumlah observasi pada setiap kategori.

  4. Analisis berbasis peluang diskrit
    Analisis dilakukan menggunakan distribusi peluang diskrit dan perhitungan proporsi.

1.3 Contoh Penerapan Analisis Data Kategori

Analisis data kategori banyak digunakan dalam penelitian ilmiah, misalnya:

  • Epidemiologi
    Meneliti hubungan antara kebiasaan merokok dan kanker paru.

  • Kesehatan masyarakat
    Menganalisis efektivitas vaksin terhadap risiko infeksi penyakit tertentu.

  • Ilmu sosial
    Mengkaji hubungan antara tingkat pendidikan dan status pekerjaan.

Dalam konteks tersebut, peneliti biasanya menggunakan tabel kontingensi untuk melihat hubungan antar variabel kategori dan menghitung ukuran asosiasi untuk mengetahui kekuatan hubungan tersebut.


2. Tabel Kontingensi

2.1 Definisi Tabel Kontingensi

Menurut Agresti (2019), tabel kontingensi merupakan alat dasar dalam analisis data kategori karena memungkinkan analisis hubungan antara variabel melalui frekuensi observasi pada setiap kombinasi kategori. Jika terdapat dua variabel, masing-masing dengan kategori tertentu, maka tabel kontingensi akan berbentuk matriks dua dimensi.

Misalkan terdapat dua variabel acak diskrit:

- \(X\) dengan kategori \(x_1, x_2, \dots, x_r\)
- \(Y\) dengan kategori \(y_1, y_2, \dots, y_c\)

Maka tabel kontingensi dapat ditulis sebagai:

\[ \begin{array}{c|cccc|c} & y_1 & y_2 & \cdots & y_c & \text{Total} \\ \hline x_1 & n_{11} & n_{12} & \cdots & n_{1c} & n_{1\cdot} \\ x_2 & n_{21} & n_{22} & \cdots & n_{2c} & n_{2\cdot} \\ \vdots & \vdots & \vdots & \ddots & \vdots & \vdots \\ x_r & n_{r1} & n_{r2} & \cdots & n_{rc} & n_{r\cdot} \\ \hline \text{Total} & n_{\cdot 1} & n_{\cdot 2} & \cdots & n_{\cdot c} & n \end{array} \]

dengan: - \(n_{ij}\) = frekuensi pengamatan pada kategori \(x_i\) dan \(y_j\)
- \(n_{i\cdot}\) = total baris ke-\(i\)
- \(n_{\cdot j}\) = total kolom ke-\(j\)
- \(n\) = total seluruh pengamatan

Tabel ini menjadi dasar untuk menghitung peluang gabungan, peluang marginal, dan peluang bersyarat.

2.2 Struktur Tabel Kontingensi

Misalkan terdapat dua variabel kategori dengan dua kategori masing-masing. Tabel kontingensi 2×2 dapat ditulis sebagai berikut:

Penyakit (+) Penyakit (-) Total
Terpapar a b a+b
Tidak Terpapar c d c+d
Total a+c b+d n

Dimana:

  • \(a,b,c,d\) adalah frekuensi observasi
  • \(n = a+b+c+d\)

2.3 Joint Distribution

Distribusi peluang bersama (joint distribution) merupakan peluang dari kombinasi dua variabel kategori.

Secara matematis:

\[ P(X=i, Y=j) = \frac{n_{ij}}{n} \]

dimana

  • \(n_{ij}\) adalah frekuensi pada sel ke-\((i,j)\)
  • \(n\) adalah total observasi.

Contoh:

\[P(\text{Terpapar dan Penyakit (+)})=\frac{a}{n}\]

2.4 Marginal Distribution

Distribusi marginal merupakan peluang dari satu variabel tanpa memperhatikan variabel lainnya.

Contoh:

\[ P(X=i) = \sum_j P(X=i,Y=j) \]

atau

\[ P(Y=j) = \sum_i P(X=i,Y=j) \]

Distribusi ini diperoleh dari total baris atau kolom pada tabel kontingensi.

Contoh:

\[ P(\text{Terpapar})=\frac{a+b}{n} \]

2.5 Conditional Probability

Peluang bersyarat menyatakan peluang suatu kejadian dengan syarat kejadian lain telah terjadi.

Secara matematis:

\[ P(Y=j|X=i) = \frac{P(X=i,Y=j)}{P(X=i)} \]

Dalam tabel kontingensi, peluang bersyarat dihitung dengan membagi frekuensi sel dengan total baris atau kolom yang sesuai.

Contoh:

\[ P(\text{Terpapar | Penyakit (-)})=\frac{P(\text{Terpapar dan Penyakit (-))}}{P(\text{Penyakit (-))}}=\frac{b}{b+d} \]


3. Ukuran Asosiasi

Ukuran asosiasi digunakan untuk mengukur kekuatan hubungan antara dua variabel kategori.

3.1 Odds

Odds adalah rasio antara peluang kejadian terjadi dan tidak terjadi.

\[ Odds = \frac{p}{1-p} \]

Pada tabel kontingensi:

\[ Odds = \frac{a}{b} \]

Interpretasi:
Jika odds = 2 maka peluang kejadian terjadi dua kali lebih besar dibandingkan tidak terjadi.

3.2 Odds Ratio

Odds Ratio (OR) digunakan untuk membandingkan odds antara dua kelompok.

\[ OR = \frac{ad}{bc} \]

Interpretasi:

  • \(OR = 1\) → tidak ada hubungan
  • \(OR > 1\) → paparan meningkatkan risiko
  • \(OR < 1\) → paparan bersifat protektif

3.3 Relative Risk

Relative Risk (RR) membandingkan probabilitas kejadian antara kelompok terpapar dan tidak terpapar.

\[ RR = \frac{a/(a+b)}{c/(c+d)} \]

Interpretasi:

  • \(RR = 1\) → tidak ada efek
  • \(RR > 1\) → paparan meningkatkan risiko
  • \(RR < 1\) → paparan menurunkan risiko

4. Contoh Perhitungan Manual

Kasus: Merokok dan Kanker Paru

Misalkan dilakukan penelitian terhadap 200 orang.

Kanker Tidak Kanker Total
Perokok 40 60 100
Non Perokok 10 90 100

4.1 Peluang Bersyarat

Peluang kanker pada perokok:

\[ P(Kanker|Perokok) = \frac{40}{100} = 0.4 \]

Peluang kanker pada non-perokok:

\[ P(Kanker|NonPerokok) = \frac{10}{100} = 0.1 \]

4.2 Odds

Odds kanker pada perokok:

\[ Odds_1 = \frac{40}{60} = 0.667 \]

Odds kanker pada non-perokok:

\[ Odds_0 = \frac{10}{90} = 0.111 \]

4.3 Odds Ratio

\[ OR = \frac{40 \times 90}{60 \times 10} \]

\[ OR = \frac{3600}{600} = 6 \]

Artinya odds terkena kanker paru pada perokok 6 kali lebih besar dibandingkan non-perokok.


5. Analisis Menggunakan R

# Membuat tabel kontingensi

data <- matrix(c(40,60,10,90), nrow=2, byrow=TRUE)

rownames(data) <- c("Perokok","NonPerokok")
colnames(data) <- c("Kanker","TidakKanker")

data
##            Kanker TidakKanker
## Perokok        40          60
## NonPerokok     10          90
#Menghitung Odds Ratio
a <- 40
b <- 60
c <- 10
d <- 90

OR <- (a*d)/(b*c)
OR
## [1] 6
chisq.test(data)
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  data
## X-squared = 22.427, df = 1, p-value = 2.183e-06

6. Interpretasi Hasil

6.1 Interpretasi Statistik

Berdasarkan hasil perhitungan menggunakan R diperoleh nilai Odds Ratio sebesar:

\[ OR = \frac{ad}{bc} = \frac{40 \times 90}{60 \times 10} = 6 \]

Nilai Odds Ratio sebesar 6 menunjukkan bahwa odds terkena kanker paru pada kelompok perokok enam kali lebih besar dibandingkan dengan kelompok non-perokok.

Selanjutnya dilakukan uji independensi menggunakan uji chi-square untuk mengetahui apakah terdapat hubungan yang signifikan antara variabel kebiasaan merokok dan kejadian kanker paru.

Hipotesis yang digunakan adalah:

\[ H_0 : \text{Tidak terdapat hubungan antara kebiasaan merokok dan kanker paru} \]

\[ H_1 : \text{Terdapat hubungan antara kebiasaan merokok dan kanker paru} \]

Jika nilai p-value dari uji chi-square lebih kecil dari tingkat signifikansi (\(\alpha = 0.05\)), maka hipotesis nol ditolak.

Sebaliknya, jika p-value lebih besar dari 0.05 maka tidak terdapat bukti yang cukup untuk menyatakan adanya hubungan antara kedua variabel tersebut.

Selanjutnya, hasil uji chi-square menunjukkan bahwa nilai statistik uji adalah:

\[ \chi^2=22.427 \]

dengan derajat kebebasan:

\[df=1\]

serta nilai p-value sebesar:

\[p=2.183×10^{−6}\]

Karena nilai p-value jauh lebih kecil dari tingkat signifikansi yang umum digunakan (\(\alpha\) = 0.05), maka hipotesis nol ditolak. Dengan demikian dapat disimpulkan bahwa terdapat hubungan yang signifikan secara statistik antara kebiasaan merokok dan kejadian kanker paru.

6.2 Interpretasi Substantif

Dalam konteks kesehatan masyarakat, hasil ini menunjukkan bahwa kebiasaan merokok memiliki hubungan yang sangat kuat dengan peningkatan risiko kanker paru. Individu yang merokok memiliki kemungkinan yang jauh lebih tinggi untuk mengalami kanker paru dibandingkan dengan individu yang tidak merokok.

Temuan ini sejalan dengan berbagai penelitian epidemiologi yang menunjukkan bahwa merokok merupakan faktor risiko utama dalam perkembangan kanker paru. Oleh karena itu, kebijakan kesehatan seperti program berhenti merokok, edukasi mengenai bahaya rokok, serta pembatasan konsumsi tembakau sangat penting dalam upaya menurunkan angka kejadian kanker paru di masyarakat.

Daftar Pustaka

Agresti, A. (2019). An Introduction to Categorical Data Analysis (3rd ed.). Wiley.

Everitt, B. S. (2002). The Analysis of Contingency Tables (2nd ed.). Chapman and Hall/CRC.

Hosmer, D. W., Lemeshow, S., & Sturdivant, R. X. (2013). Applied Logistic Regression (3rd ed.). Wiley.

McHugh, M. L. (2013). The Chi-square test of independence. Biochemia Medica, 23(2), 143–149.