Pendahuluan

Analisis data kategori merupakan salah satu cabang penting dalam statistika yang digunakan untuk menganalisis data yang berbentuk kategori atau klasifikasi. Data kategori sering muncul dalam berbagai bidang penelitian seperti kesehatan, pendidikan, ilmu sosial, dan ekonomi. Berbeda dengan data numerik yang dianalisis menggunakan metode statistik parametrik seperti regresi linear, data kategori memerlukan pendekatan analisis yang berbeda karena nilai variabelnya bersifat diskrit dan biasanya merepresentasikan kelompok atau kelas tertentu.

Referensi klasik dalam analisis data kategori antara lain Agresti (2013), yang menjelaskan berbagai metode analisis untuk data kategorik termasuk tabel kontingensi, regresi logistik, dan model log-linear.

1 Definisi Analisis Data Kategori

Analisis data kategori merupakan cabang statistika yang secara khusus dirancang untuk mengolah, mendeskripsikan, dan menginterpretasikan data yang berbentuk klasifikasi atau kelompok, bukan angka kontinu. Berbeda dengan statistika klasik yang umumnya mengasumsikan distribusi normal pada data numerik, analisis ini berfokus pada data diskrit yang biasanya mengikuti distribusi Multinomial atau Poisson (Agresti, 2013). Pendekatan ini menjadi krusial dalam berbagai disiplin ilmu seperti kesehatan, sosial, dan ekonomi, karena data yang dihasilkan sering kali merepresentasikan kategori tertentu yang memerlukan metode analisis khusus, seperti tabel kontingensi atau Generalized Linear Models (GLM). Secara fundamental, analisis data kategori digunakan untuk mengkaji hubungan antara variabel yang berskala nominal maupun ordinal, di mana nilai-nilai tersebut tidak memiliki makna numerik intrinsik melainkan berfungsi sebagai identitas kelompok.

Menurut Agresti (2013), analisis data kategorik bertujuan untuk:

Mendeskripsikan distribusi frekuensi dari kategori.
Menguji hubungan antar variabel kategori.
Mengukur kekuatan asosiasi antar variabel kategori.

1.1 Karakteristik Variabel Kategori

Variabel kategori memiliki beberapa karakteristik utama:

Nilainya berupa kategori (berskala nominal atau ordinal)
Tidak memiliki makna numerik langsung.
Analisis biasanya menggunakan frekuensi atau proporsi.
Hubungan antar variabel sering dianalisis menggunakan tabel kontingensi.

Contoh variabel kategori:

Variabel	Kategori
Jenis kelamin	Laki-laki, Perempuan
Status merokok	Perokok, Tidak Perokok
Status vaksin	Vaksin, Tidak vaksin

1.2 Contoh Penerapan

Analisis data kategori sering digunakan dalam berbagai penelitian, seperti:

Bidang kesehatan: Peneliti sering menggunakan Regresi Logistik untuk menganalisis faktor risiko yang memengaruhi status kesembuhan pasien (sembuh/tidak sembuh) berdasarkan dosis obat atau karakteristik demografi (Hosmer et al., 2013).
Bidang Sosiologi dan Psikologi: Penggunaan Uji Chi-Square atau Model Log-Linear untuk melihat hubungan antara latar belakang pendidikan orang tua dengan tingkat kecemasan mahasiswa.
Bidang Ekonomi dan Pemasaran: Menganalisis preferensi konsumen dalam memilih merek produk tertentu berdasarkan kelompok usia atau wilayah tempat tinggal.

2 Tabel Kontingensi

Tabel kontingensi merupakan instrumen statistik yang digunakan untuk menyajikan distribusi frekuensi bersama dari dua atau lebih variabel kategorik. Secara struktural, tabel ini menyusun kategori dari satu variabel dalam baris dan kategori variabel lainnya dalam kolom, sehingga membentuk matriks yang memperlihatkan bagaimana subjek terdistribusi di antara kombinasi kategori tersebut (Agresti, 2013). Penggunaan tabel ini sangat krusial dalam analisis data kategori untuk mengidentifikasi apakah terdapat pola ketergantungan atau asosiasi antara variabel-variabel yang diamati.

2.1 Struktur Tabel Kontingensi

Contoh tabel kontingensi 2×2:

	Penyakit	Tidak Penyakit	Total
Terpapar	a	b	a+b
Tidak Terpapar	c	d	c+d
Total	a+c	b+d	n

2.2 Joint Distribution

Joint distribution merupakan peluang terjadinya kombinasi dua kategori secara bersamaan. Nilainya dihitung dengan membagi frekuensi sel dengan total keseluruhan (\(n_{..}\)).

Contoh: Peluang seseorang merokok dan terkena kanker adalah \(\frac{20}{100} = 0,20\) atau 20%.

Secara matematis:

\[ P(X=i, Y=j) = \frac{n_{ij}}{n} \]

di mana:

\(n_{ij}\) adalah frekuensi pada sel ke-i dan j
\(n\) adalah jumlah total observasi

2.3 Marginal Distribution

Marginal Distribution merupakan distribusi peluang untuk satu variabel saja tanpa memperhatikan variabel lainnya. Nilainya diambil dari total baris atau total kolom dibagi total keseluruhan.

Contoh: Peluang marginal seseorang adalah perokok adalah \(\frac{30}{100} = 0,30\) atau 30%.

Secara matematis:

\[ P(X=i) = \sum_j P(X=i, Y=j) \]

atau

\[ P(Y=j) = \sum_i P(X=i, Y=j) \]

2.4 Conditional Probability

Conditional Probability merupakan peluang terjadinya suatu kategori pada satu variabel dengan syarat kategori tertentu pada variabel lain sudah diketahui. Ini penting untuk melihat pengaruh satu variabel terhadap variabel lain.

Contoh: Peluang seseorang terkena kanker jika diketahui ia merokok adalah \(\frac{20}{30} \approx 0,67\) atau 67%. Perhatikan bahwa pembaginya adalah total baris “Merokok”, bukan total populasi.

Secara matematis:

\[ P(Y=j|X=i) = \frac{P(X=i,Y=j)}{P(X=i)} \]

3 Ukuran Asosiasi

Ukuran asosiasi merupakan statistik yang digunakan untuk mengukur kekuatan dan arah hubungan antara dua variabel kategori dalam tabel kontingensi. Dalam penelitian kesehatan atau sosial, ukuran ini sangat penting untuk menentukan sejauh mana keberadaan suatu faktor risiko berkaitan dengan munculnya hasil (outcome) tertentu. Berbeda dengan uji signifikansi seperti Chi-Square yang hanya memberi tahu ada tidaknya hubungan, ukuran asosiasi memberikan informasi kuantitatif mengenai seberapa besar hubungan tersebut (Agresti, 2013).

3.1 Odds

Odds merupakan perbandingan antara peluang terjadinya suatu kejadian dengan peluang tidak terjadinya kejadian tersebut.

\[ Odds = \frac{p}{1-p} \]

Dalam tabel kontingensi:

\[ Odds = \frac{a}{b} \]

3.2 Odds Ratio

Odds Ratio (OR) digunakan untuk membandingkan odds dari dua kelompok.

\[ OR = \frac{a/b}{c/d} \]

atau

\[ OR = \frac{ad}{bc} \]

Interpretasi:

OR = 1 → tidak ada hubungan
OR > 1 → paparan meningkatkan risiko
OR < 1 → paparan bersifat protektif

3.3. Relative Risk

Relative Risk (RR) membandingkan peluang kejadian pada kelompok terpapar dengan kelompok tidak terpapar.

\[ RR = \frac{a/(a+b)}{c/(c+d)} \]

Interpretasi:

RR = 1 → tidak ada perbedaan risiko
RR > 1 → risiko lebih tinggi pada kelompok terpapar
RR < 1 → risiko lebih rendah pada kelompok terpapar

4 Contoh Perhitungan Manual

4.1. Kasus: Merokok dan Kanker Paru

Misalkan diperoleh data berikut:

	Kanker	Tidak Kanker	Total
Perokok	40	60	100
Tidak Perokok	10	90	100

4.2. Peluang Bersyarat

Peluang kanker pada perokok:

\[ P(Kanker|Perokok) = \frac{40}{100} = 0.4 \]

Peluang kanker pada non-perokok:

\[ P(Kanker|Tidak\ Perokok) = \frac{10}{100} = 0.1 \]

4.3. Odds

Odds kanker pada perokok:

\[ Odds = \frac{40}{60} = 0.67 \]

Odds kanker pada non-perokok:

\[ Odds = \frac{10}{90} = 0.11 \]

4.4. Odds Ratio

\[ OR = \frac{40 \times 90}{60 \times 10} \]

\[ OR = \frac{3600}{600} \]

\[ OR = 6 \]

Interpretasi: perokok memiliki odds terkena kanker paru sekitar 6 kali lebih besar dibandingkan non-perokok.

5 Analisis Menggunakan R

# Membuat tabel kontingensi

data <- matrix(c(40,60,10,90),
               nrow = 2,
               byrow = TRUE)

colnames(data) <- c("Kanker","Tidak_Kanker")
rownames(data) <- c("Perokok","Tidak_Perokok")

data

# Menghitung Odds Ratio

library(epitools)

oddsratio(data)

# Uji Chi Square

chisq.test(data)

6 Interpretasi Hasil

6.1. Interpretasi Statistik

Jika nilai odds ratio lebih besar dari 1 dan uji chi-square menunjukkan p-value < 0.05, maka terdapat hubungan yang signifikan antara kebiasaan merokok dan kejadian kanker paru.

6.2. Interpretasi Substantif

Hasil analisis menunjukkan bahwa individu yang merokok memiliki kemungkinan yang jauh lebih tinggi untuk mengalami kanker paru dibandingkan individu yang tidak merokok. Hal ini mendukung banyak penelitian epidemiologi yang menunjukkan bahwa merokok merupakan faktor risiko utama kanker paru.

Referensi

Agresti, A. (2013). Categorical Data Analysis. Wiley.

Analisis Data Kategori

Bilbina Sya’bania Ghazy - Statistika 2024

Pendahuluan

1 Definisi Analisis Data Kategori

1.1 Karakteristik Variabel Kategori

1.2 Contoh Penerapan

2 Tabel Kontingensi

2.1 Struktur Tabel Kontingensi

2.2 Joint Distribution

2.3 Marginal Distribution

2.4 Conditional Probability

3 Ukuran Asosiasi

3.1 Odds

3.2 Odds Ratio

3.3. Relative Risk

4 Contoh Perhitungan Manual

4.1. Kasus: Merokok dan Kanker Paru

4.2. Peluang Bersyarat

4.3. Odds

4.4. Odds Ratio

5 Analisis Menggunakan R

6 Interpretasi Hasil

6.1. Interpretasi Statistik

6.2. Interpretasi Substantif

Referensi