1 Pendahuluan

Analisis data kategorik merupakan salah satu cabang penting dalam statistika yang digunakan untuk menganalisis data yang berbentuk kategori atau klasifikasi. Dalam banyak penelitian di bidang kesehatan, sosial, ekonomi, maupun ilmu lingkungan, peneliti sering kali berhadapan dengan data yang tidak berbentuk angka kontinu, tetapi berupa kategori seperti jenis kelamin, status merokok, tingkat pendidikan, atau status penyakit.

Metode analisis yang digunakan untuk data kategorik berbeda dengan metode analisis untuk data numerik. Hal ini disebabkan karena variabel kategorik tidak memiliki makna jarak matematis seperti variabel kuantitatif. Oleh karena itu, analisis data kategorik lebih menekankan pada hubungan antar kategori serta probabilitas kemunculan suatu kategori tertentu.

Dalam laporan ini akan dibahas secara sistematis mengenai konsep dasar analisis data kategorik, tabel kontingensi, ukuran asosiasi, contoh perhitungan manual, serta implementasi analisis menggunakan perangkat lunak R.

2 Bagian 1: Definisi Analisis Data Kategorik

2.1 Pengertian Analisis Data Kategorik

Analisis data kategorik adalah metode statistika yang digunakan untuk menganalisis data yang variabelnya bersifat kategorikal atau nominal dan ordinal. Variabel kategorikal merupakan variabel yang nilainya berupa label atau kategori yang tidak memiliki makna numerik langsung.

Secara umum, tujuan analisis data kategorik meliputi:

  • Menggambarkan distribusi frekuensi kategori
  • Menguji hubungan antara dua variabel kategorik
  • Mengukur kekuatan asosiasi antar variabel
  • Membuat model probabilitas kejadian suatu kategori

Metode yang umum digunakan dalam analisis data kategorik antara lain:

  • Tabel kontingensi
  • Uji Chi-Square
  • Odds Ratio
  • Relative Risk
  • Regresi logistik

2.2 Karakteristik Variabel Kategori

Variabel kategori memiliki beberapa karakteristik khusus, yaitu:

2.2.1 1. Tidak Memiliki Nilai Numerik yang Bermakna

Nilai pada variabel kategorik biasanya berupa label seperti:

  • Laki-laki / Perempuan
  • Ya / Tidak
  • Merokok / Tidak Merokok

Label tersebut tidak dapat dioperasikan menggunakan operasi matematika biasa seperti penjumlahan atau perkalian.

2.2.2 2. Bersifat Nominal atau Ordinal

Variabel kategorik dapat dibagi menjadi dua jenis utama:

Variabel Nominal
Kategori tidak memiliki urutan tertentu.

Contoh: - jenis kelamin - agama - status pernikahan

Variabel Ordinal
Kategori memiliki urutan tetapi tidak memiliki jarak numerik yang jelas.

Contoh: - tingkat pendidikan - tingkat kepuasan - tingkat keparahan penyakit

2.2.3 3. Data Biasanya Disajikan dalam Bentuk Frekuensi

Analisis data kategorik sering menggunakan jumlah kejadian pada setiap kategori. Oleh karena itu data biasanya disajikan dalam bentuk tabel frekuensi atau tabel kontingensi.

2.3 Contoh Penerapan Analisis Data Kategorik

Analisis data kategorik banyak digunakan dalam berbagai bidang penelitian.

2.3.1 Contoh pada Bidang Kesehatan

Contoh penelitian:

Hubungan antara kebiasaan merokok dan kejadian kanker paru-paru.

Variabel yang digunakan:

  • Status merokok (Merokok / Tidak Merokok)
  • Status penyakit (Kanker / Tidak Kanker)

2.3.2 Contoh pada Bidang Sosial

Contoh penelitian:

Hubungan antara tingkat pendidikan dan status pekerjaan.

Variabel:

  • Pendidikan (SMA, Sarjana, Pascasarjana)
  • Status pekerjaan (Bekerja, Tidak bekerja)

2.3.3 Contoh pada Bidang Ekonomi

Contoh penelitian:

Hubungan antara penggunaan sistem pembayaran digital dan perilaku konsumsi.

Variabel:

  • Penggunaan QRIS (Ya / Tidak)
  • Perilaku pembelian impulsif (Tinggi / Rendah)

3 Bagian 2: Tabel Kontingensi

3.1 Definisi Tabel Kontingensi

Tabel kontingensi adalah tabel yang digunakan untuk menyajikan distribusi frekuensi dari dua atau lebih variabel kategorikal secara simultan.

Tabel kontingensi menunjukkan bagaimana kategori dari satu variabel berhubungan dengan kategori variabel lainnya.

Tabel kontingensi paling sederhana adalah tabel 2 × 2.

Contoh tabel:

Penyakit Tidak Penyakit Total
Terpapar a b a+b
Tidak Terpapar c d c+d
Total a+c b+d n

3.2 Struktur Tabel Kontingensi

Struktur tabel kontingensi terdiri dari:

  • Baris: kategori variabel pertama
  • Kolom: kategori variabel kedua
  • Sel: frekuensi kejadian kombinasi kategori

Setiap sel berisi jumlah observasi yang termasuk dalam kombinasi kategori tertentu.

3.3 Joint Distribution

Joint distribution merupakan probabilitas terjadinya dua kejadian secara bersamaan.

Secara matematis:

\[ P(A,B) = \frac{n_{AB}}{n} \]

di mana:

  • \(n_{AB}\) = jumlah observasi pada sel tertentu
  • \(n\) = total observasi

Sebagai contoh:

\[ P(\text{Merokok dan Kanker}) = \frac{a}{n} \]

3.4 Marginal Distribution

Marginal distribution adalah probabilitas dari satu variabel tanpa memperhatikan variabel lainnya.

Contoh:

\[ P(\text{Merokok}) = \frac{a+b}{n} \]

\[ P(\text{Kanker}) = \frac{a+c}{n} \]

Distribusi marginal diperoleh dari jumlah baris atau jumlah kolom.

3.5 Conditional Probability

Conditional probability adalah probabilitas suatu kejadian dengan syarat kejadian lain telah terjadi.

Secara matematis:

\[ P(A|B) = \frac{P(A,B)}{P(B)} \]

Contoh:

Probabilitas kanker pada perokok:

\[ P(\text{Kanker | Merokok}) = \frac{a}{a+b} \]

Probabilitas kanker pada non-perokok:

\[ P(\text{Kanker | Tidak Merokok}) = \frac{c}{c+d} \]

4 Bagian 3: Ukuran Asosiasi

Ukuran asosiasi digunakan untuk mengukur kekuatan hubungan antara dua variabel kategorik.

4.1 Odds

Odds merupakan perbandingan antara peluang terjadinya suatu kejadian dengan peluang tidak terjadinya kejadian tersebut.

Secara matematis:

\[ Odds = \frac{p}{1-p} \]

Jika menggunakan tabel kontingensi:

\[ Odds_{terpapar} = \frac{a}{b} \]

\[ Odds_{tidak\ terpapar} = \frac{c}{d} \]

4.2 Odds Ratio

Odds Ratio (OR) digunakan untuk membandingkan odds antara dua kelompok.

Rumus:

\[ OR = \frac{a/b}{c/d} \]

atau dapat dituliskan sebagai

\[ OR = \frac{ad}{bc} \]

4.2.1 Interpretasi Odds Ratio

  • OR = 1 → tidak ada hubungan
  • OR > 1 → paparan meningkatkan risiko
  • OR < 1 → paparan bersifat protektif

4.3 Relative Risk

Relative Risk (RR) membandingkan probabilitas kejadian pada kelompok terpapar dan tidak terpapar.

Rumus:

\[ RR = \frac{P(\text{Kejadian | Terpapar})}{P(\text{Kejadian | Tidak Terpapar})} \]

Jika menggunakan tabel kontingensi:

\[ RR = \frac{a/(a+b)}{c/(c+d)} \]

4.3.1 Interpretasi Relative Risk

  • RR = 1 → tidak ada perbedaan risiko
  • RR > 1 → risiko lebih tinggi pada kelompok terpapar
  • RR < 1 → paparan bersifat melindungi

5 Bagian 4: Contoh Perhitungan Manual

Misalkan dilakukan penelitian mengenai hubungan antara merokok dan kanker paru-paru.

Data yang diperoleh:

Kanker Tidak Kanker
Merokok 60 40
Tidak Merokok 20 80

Sehingga:

\[ a = 60, \quad b = 40, \quad c = 20, \quad d = 80 \]

Total observasi:

\[ n = 200 \]

5.1 Menghitung Peluang Bersyarat

Probabilitas kanker pada perokok:

\[ P(Kanker | Merokok) = \frac{60}{100} = 0.6 \]

Probabilitas kanker pada non-perokok:

\[ P(Kanker | Tidak Merokok) = \frac{20}{100} = 0.2 \]

5.2 Menghitung Odds

Odds kanker pada perokok:

\[ Odds_1 = \frac{60}{40} = 1.5 \]

Odds kanker pada non-perokok:

\[ Odds_0 = \frac{20}{80} = 0.25 \]

5.3 Menghitung Odds Ratio

\[ OR = \frac{ad}{bc} \]

\[ OR = \frac{(60)(80)}{(40)(20)} \]

\[ OR = \frac{4800}{800} \]

\[ OR = 6 \]

Interpretasi:

Perokok memiliki peluang terkena kanker paru-paru 6 kali lebih besar dibandingkan non-perokok.

6 Bagian 5: Analisis Menggunakan R

Analisis yang sama dapat dilakukan menggunakan perangkat lunak R.

6.1 Membuat Tabel Kontingensi

data <- matrix(c(60,40,20,80),
               nrow = 2,
               byrow = TRUE)

rownames(data) <- c("Merokok","Tidak Merokok")
colnames(data) <- c("Kanker","Tidak Kanker")

data

6.2 Menghitung Odds Ratio

library(epitools)

oddsratio(data)

6.3 Uji Chi-Square

Uji chi-square digunakan untuk menguji apakah terdapat hubungan antara dua variabel kategorik.

Hipotesis:

  • H0: Tidak ada hubungan antara merokok dan kanker
  • H1: Ada hubungan antara merokok dan kanker

Kode R:

chisq.test(data)

Jika nilai p-value lebih kecil dari 0.05 maka H0 ditolak.

7 Bagian 6: Interpretasi Hasil

7.1 Interpretasi Statistik

Dari hasil perhitungan diperoleh:

  • Odds Ratio = 6
  • Uji chi-square menunjukkan p-value < 0.05

Hal ini menunjukkan bahwa terdapat hubungan yang signifikan antara kebiasaan merokok dan kejadian kanker paru-paru.

7.2 Interpretasi Substantif

Secara substantif, hasil ini menunjukkan bahwa individu yang merokok memiliki risiko yang jauh lebih tinggi untuk mengalami kanker paru-paru dibandingkan individu yang tidak merokok.