1 Pendahuluan

Analisis data kategorik merupakan salah satu cabang penting dalam statistika yang digunakan untuk menganalisis data yang berbentuk kategori atau klasifikasi. Dalam banyak penelitian di bidang kesehatan, sosial, ekonomi, maupun ilmu lingkungan, peneliti sering kali berhadapan dengan data yang tidak berbentuk angka kontinu, tetapi berupa kategori seperti jenis kelamin, status merokok, tingkat pendidikan, atau status penyakit.

Metode analisis yang digunakan untuk data kategorik berbeda dengan metode analisis untuk data numerik. Hal ini disebabkan karena variabel kategorik tidak memiliki makna jarak matematis seperti variabel kuantitatif. Oleh karena itu, analisis data kategorik lebih menekankan pada hubungan antar kategori serta probabilitas kemunculan suatu kategori tertentu.

Dalam laporan ini akan dibahas secara sistematis mengenai konsep dasar analisis data kategorik, tabel kontingensi, ukuran asosiasi, contoh perhitungan manual, serta implementasi analisis menggunakan perangkat lunak R.

2 Bagian 1: Definisi Analisis Data Kategorik

2.1 Pengertian Analisis Data Kategorik

Analisis data kategorik adalah metode statistika yang digunakan untuk menganalisis data yang variabelnya bersifat kategorikal atau nominal dan ordinal. Variabel kategorikal merupakan variabel yang nilainya berupa label atau kategori yang tidak memiliki makna numerik langsung.

Secara umum, tujuan analisis data kategorik meliputi:

Menggambarkan distribusi frekuensi kategori
Menguji hubungan antara dua variabel kategorik
Mengukur kekuatan asosiasi antar variabel
Membuat model probabilitas kejadian suatu kategori

Metode yang umum digunakan dalam analisis data kategorik antara lain:

Tabel kontingensi
Uji Chi-Square
Odds Ratio
Relative Risk
Regresi logistik

2.2 Karakteristik Variabel Kategori

Variabel kategori memiliki beberapa karakteristik khusus, yaitu:

2.2.1 1. Tidak Memiliki Nilai Numerik yang Bermakna

Nilai pada variabel kategorik biasanya berupa label seperti:

Laki-laki / Perempuan
Ya / Tidak
Merokok / Tidak Merokok

Label tersebut tidak dapat dioperasikan menggunakan operasi matematika biasa seperti penjumlahan atau perkalian.

2.2.2 2. Bersifat Nominal atau Ordinal

Variabel kategorik dapat dibagi menjadi dua jenis utama:

Variabel Nominal
Kategori tidak memiliki urutan tertentu.

Contoh: - jenis kelamin - agama - status pernikahan

Variabel Ordinal
Kategori memiliki urutan tetapi tidak memiliki jarak numerik yang jelas.

Contoh: - tingkat pendidikan - tingkat kepuasan - tingkat keparahan penyakit

2.2.3 3. Data Biasanya Disajikan dalam Bentuk Frekuensi

Analisis data kategorik sering menggunakan jumlah kejadian pada setiap kategori. Oleh karena itu data biasanya disajikan dalam bentuk tabel frekuensi atau tabel kontingensi.

2.3 Contoh Penerapan Analisis Data Kategorik

Analisis data kategorik banyak digunakan dalam berbagai bidang penelitian.

2.3.1 Contoh pada Bidang Kesehatan

Contoh penelitian:

Hubungan antara kebiasaan merokok dan kejadian kanker paru-paru.

Variabel yang digunakan:

Status merokok (Merokok / Tidak Merokok)
Status penyakit (Kanker / Tidak Kanker)

2.3.2 Contoh pada Bidang Sosial

Contoh penelitian:

Hubungan antara tingkat pendidikan dan status pekerjaan.

Variabel:

Pendidikan (SMA, Sarjana, Pascasarjana)
Status pekerjaan (Bekerja, Tidak bekerja)

2.3.3 Contoh pada Bidang Ekonomi

Contoh penelitian:

Hubungan antara penggunaan sistem pembayaran digital dan perilaku konsumsi.

Variabel:

Penggunaan QRIS (Ya / Tidak)
Perilaku pembelian impulsif (Tinggi / Rendah)

3 Bagian 2: Tabel Kontingensi

3.1 Definisi Tabel Kontingensi

Tabel kontingensi adalah tabel yang digunakan untuk menyajikan distribusi frekuensi dari dua atau lebih variabel kategorikal secara simultan.

Tabel kontingensi menunjukkan bagaimana kategori dari satu variabel berhubungan dengan kategori variabel lainnya.

Tabel kontingensi paling sederhana adalah tabel 2 × 2.

Contoh tabel:

	Penyakit	Tidak Penyakit	Total
Terpapar	a	b	a+b
Tidak Terpapar	c	d	c+d
Total	a+c	b+d	n

3.2 Struktur Tabel Kontingensi

Struktur tabel kontingensi terdiri dari:

Baris: kategori variabel pertama
Kolom: kategori variabel kedua
Sel: frekuensi kejadian kombinasi kategori

Setiap sel berisi jumlah observasi yang termasuk dalam kombinasi kategori tertentu.

3.3 Joint Distribution

Joint distribution merupakan probabilitas terjadinya dua kejadian secara bersamaan.

Secara matematis:

\[ P(A,B) = \frac{n_{AB}}{n} \]

di mana:

\(n_{AB}\) = jumlah observasi pada sel tertentu
\(n\) = total observasi

Sebagai contoh:

\[ P(\text{Merokok dan Kanker}) = \frac{a}{n} \]

3.4 Marginal Distribution

Marginal distribution adalah probabilitas dari satu variabel tanpa memperhatikan variabel lainnya.

Contoh:

\[ P(\text{Merokok}) = \frac{a+b}{n} \]

\[ P(\text{Kanker}) = \frac{a+c}{n} \]

Distribusi marginal diperoleh dari jumlah baris atau jumlah kolom.

3.5 Conditional Probability

Conditional probability adalah probabilitas suatu kejadian dengan syarat kejadian lain telah terjadi.

Secara matematis:

\[ P(A|B) = \frac{P(A,B)}{P(B)} \]

Contoh:

Probabilitas kanker pada perokok:

\[ P(\text{Kanker | Merokok}) = \frac{a}{a+b} \]

Probabilitas kanker pada non-perokok:

\[ P(\text{Kanker | Tidak Merokok}) = \frac{c}{c+d} \]

4 Bagian 3: Ukuran Asosiasi

Ukuran asosiasi digunakan untuk mengukur kekuatan hubungan antara dua variabel kategorik.

4.1 Odds

Odds merupakan perbandingan antara peluang terjadinya suatu kejadian dengan peluang tidak terjadinya kejadian tersebut.

Secara matematis:

\[ Odds = \frac{p}{1-p} \]

Jika menggunakan tabel kontingensi:

\[ Odds_{terpapar} = \frac{a}{b} \]

\[ Odds_{tidak\ terpapar} = \frac{c}{d} \]

4.2 Odds Ratio

Odds Ratio (OR) digunakan untuk membandingkan odds antara dua kelompok.

Rumus:

\[ OR = \frac{a/b}{c/d} \]

atau dapat dituliskan sebagai

\[ OR = \frac{ad}{bc} \]

4.2.1 Interpretasi Odds Ratio

OR = 1 → tidak ada hubungan
OR > 1 → paparan meningkatkan risiko
OR < 1 → paparan bersifat protektif

4.3 Relative Risk

Relative Risk (RR) membandingkan probabilitas kejadian pada kelompok terpapar dan tidak terpapar.

Rumus:

\[ RR = \frac{P(\text{Kejadian | Terpapar})}{P(\text{Kejadian | Tidak Terpapar})} \]

Jika menggunakan tabel kontingensi:

\[ RR = \frac{a/(a+b)}{c/(c+d)} \]

4.3.1 Interpretasi Relative Risk

RR = 1 → tidak ada perbedaan risiko
RR > 1 → risiko lebih tinggi pada kelompok terpapar
RR < 1 → paparan bersifat melindungi

5 Bagian 4: Contoh Perhitungan Manual

Misalkan dilakukan penelitian mengenai hubungan antara merokok dan kanker paru-paru.

Data yang diperoleh:

	Kanker	Tidak Kanker
Merokok	60	40
Tidak Merokok	20	80

Sehingga:

\[ a = 60, \quad b = 40, \quad c = 20, \quad d = 80 \]

Total observasi:

\[ n = 200 \]

5.1 Menghitung Peluang Bersyarat

Probabilitas kanker pada perokok:

\[ P(Kanker | Merokok) = \frac{60}{100} = 0.6 \]

Probabilitas kanker pada non-perokok:

\[ P(Kanker | Tidak Merokok) = \frac{20}{100} = 0.2 \]

5.2 Menghitung Odds

Odds kanker pada perokok:

\[ Odds_1 = \frac{60}{40} = 1.5 \]

Odds kanker pada non-perokok:

\[ Odds_0 = \frac{20}{80} = 0.25 \]

5.3 Menghitung Odds Ratio

\[ OR = \frac{ad}{bc} \]

\[ OR = \frac{(60)(80)}{(40)(20)} \]

\[ OR = \frac{4800}{800} \]

\[ OR = 6 \]

Interpretasi:

Perokok memiliki peluang terkena kanker paru-paru 6 kali lebih besar dibandingkan non-perokok.

6 Bagian 5: Analisis Menggunakan R

Analisis yang sama dapat dilakukan menggunakan perangkat lunak R.

6.1 Membuat Tabel Kontingensi

data <- matrix(c(60,40,20,80),
               nrow = 2,
               byrow = TRUE)

rownames(data) <- c("Merokok","Tidak Merokok")
colnames(data) <- c("Kanker","Tidak Kanker")

data

6.2 Menghitung Odds Ratio

library(epitools)

oddsratio(data)

6.3 Uji Chi-Square

Uji chi-square digunakan untuk menguji apakah terdapat hubungan antara dua variabel kategorik.

Hipotesis:

H0: Tidak ada hubungan antara merokok dan kanker
H1: Ada hubungan antara merokok dan kanker

Kode R:

chisq.test(data)

Jika nilai p-value lebih kecil dari 0.05 maka H0 ditolak.

7 Bagian 6: Interpretasi Hasil

7.1 Interpretasi Statistik

Dari hasil perhitungan diperoleh:

Odds Ratio = 6
Uji chi-square menunjukkan p-value < 0.05

Hal ini menunjukkan bahwa terdapat hubungan yang signifikan antara kebiasaan merokok dan kejadian kanker paru-paru.

7.2 Interpretasi Substantif

Secara substantif, hasil ini menunjukkan bahwa individu yang merokok memiliki risiko yang jauh lebih tinggi untuk mengalami kanker paru-paru dibandingkan individu yang tidak merokok.

Analisis Data Kategorik

Anggun Vriska Damayanti

2026-03-09

1 Pendahuluan

2 Bagian 1: Definisi Analisis Data Kategorik

2.1 Pengertian Analisis Data Kategorik

2.2 Karakteristik Variabel Kategori

2.2.1 1. Tidak Memiliki Nilai Numerik yang Bermakna

2.2.2 2. Bersifat Nominal atau Ordinal

2.2.3 3. Data Biasanya Disajikan dalam Bentuk Frekuensi

2.3 Contoh Penerapan Analisis Data Kategorik

2.3.1 Contoh pada Bidang Kesehatan

2.3.2 Contoh pada Bidang Sosial

2.3.3 Contoh pada Bidang Ekonomi

3 Bagian 2: Tabel Kontingensi

3.1 Definisi Tabel Kontingensi

3.2 Struktur Tabel Kontingensi

3.3 Joint Distribution

3.4 Marginal Distribution

3.5 Conditional Probability

4 Bagian 3: Ukuran Asosiasi

4.1 Odds

4.2 Odds Ratio

4.2.1 Interpretasi Odds Ratio

4.3 Relative Risk

4.3.1 Interpretasi Relative Risk

5 Bagian 4: Contoh Perhitungan Manual

5.1 Menghitung Peluang Bersyarat

5.2 Menghitung Odds

5.3 Menghitung Odds Ratio

6 Bagian 5: Analisis Menggunakan R

6.1 Membuat Tabel Kontingensi

6.2 Menghitung Odds Ratio

6.3 Uji Chi-Square

7 Bagian 6: Interpretasi Hasil

7.1 Interpretasi Statistik

7.2 Interpretasi Substantif