1 Bab 1 Definisi Analisis Data Kategori

1.1 1.1 Pengertian Analisis Data Kategori

Analisis data kategori merupakan salah satu cabang penting dalam statistika yang digunakan untuk menganalisis data yang berbentuk kategori atau klasifikasi. Dalam banyak penelitian ilmiah, data yang dikumpulkan tidak selalu berupa angka kontinu, tetapi sering kali berupa kategori seperti jenis kelamin, status merokok, jenis penyakit, tingkat pendidikan, atau preferensi pilihan.

Data kategori biasanya disebut juga sebagai categorical data atau qualitative data. Variabel kategori memiliki karakteristik bahwa nilai-nilainya merepresentasikan kelompok atau kelas tertentu dan bukan ukuran numerik yang dapat dioperasikan secara aritmetika.

Secara umum, analisis data kategori bertujuan untuk:

Mendeskripsikan distribusi data dalam bentuk kategori.
Menguji hubungan atau asosiasi antara dua atau lebih variabel kategori.
Mengukur kekuatan hubungan antar kategori.
Membuat inferensi statistik terhadap populasi.

Pendekatan analisis ini banyak digunakan dalam berbagai bidang penelitian seperti:

Epidemiologi
Ilmu kesehatan masyarakat
Ilmu sosial
Ekonomi
Psikologi
Pendidikan
Ilmu politik

Dalam penelitian kesehatan, misalnya, analisis data kategori sering digunakan untuk mengkaji hubungan antara faktor risiko dengan kejadian penyakit.

Sebagai contoh:

Apakah merokok meningkatkan risiko kanker paru?
Apakah vaksin dapat menurunkan risiko infeksi?
Apakah jenis kelamin berhubungan dengan preferensi politik?

Pertanyaan-pertanyaan tersebut melibatkan variabel yang bersifat kategori.

1.2 1.2 Karakteristik Variabel Kategori

Variabel kategori memiliki beberapa karakteristik utama yaitu:

1.2.1 1. Tidak memiliki makna numerik intrinsik

Sebagai contoh:

Jenis kelamin: - Laki-laki - Perempuan

Walaupun dapat dikodekan menjadi angka (misalnya 1 dan 2), angka tersebut tidak memiliki arti matematis.

1.2.2 2. Operasi matematika tidak relevan

Penjumlahan atau rata-rata tidak memiliki makna.

Sebagai contoh:

Jika kita memiliki data jenis kelamin:

1 = laki-laki
2 = perempuan

Rata-rata dari angka tersebut tidak memiliki interpretasi statistik.

1.2.3 3. Fokus pada frekuensi

Analisis data kategori berfokus pada:

jumlah observasi
proporsi
peluang

1.3 1.3 Jenis Variabel Kategori

1.3.1 Variabel Nominal

Variabel nominal tidak memiliki urutan.

Contoh:

agama
jenis kelamin
warna

1.3.2 Variabel Ordinal

Variabel ordinal memiliki urutan tetapi jaraknya tidak pasti.

Contoh:

tingkat pendidikan
tingkat kepuasan
tingkat risiko

1.4 1.4 Penerapan Analisis Data Kategori dalam Penelitian

Analisis data kategori sangat umum digunakan dalam penelitian ilmiah.

Contoh penelitian epidemiologi:

Peneliti ingin mengetahui apakah merokok berhubungan dengan kanker paru.

Variabel:

Status merokok
Status kanker

Data dikumpulkan dari sejumlah responden kemudian dianalisis menggunakan:

tabel kontingensi
odds ratio
uji chi-square

Analisis ini memungkinkan peneliti mengidentifikasi apakah terdapat hubungan signifikan antara variabel.

Selain dalam kesehatan, analisis data kategori juga digunakan dalam penelitian sosial seperti:

hubungan pendidikan dan pekerjaan
hubungan gender dan pilihan karier
hubungan usia dan preferensi produk

Dengan demikian, analisis data kategori merupakan alat statistik yang sangat penting dalam penelitian empiris.

2 Bab 2 Tabel Kontingensi

2.1 2.1 Definisi Tabel Kontingensi

Tabel kontingensi merupakan metode dasar dalam analisis data kategori yang digunakan untuk menyajikan distribusi frekuensi dari dua atau lebih variabel kategori secara simultan.

Tabel ini menampilkan jumlah observasi untuk setiap kombinasi kategori.

Misalnya kita memiliki dua variabel:

Status Merokok
Status Kanker

Tabel kontingensi dapat dituliskan sebagai berikut:

	Kanker	Tidak Kanker
Merokok	a	b
Tidak Merokok	c	d

Jumlah total observasi adalah:

\[ n = a + b + c + d \]

2.2 2.2 Struktur Tabel Kontingensi

Struktur tabel kontingensi terdiri dari:

sel (cell)
baris
kolom
total marginal

Contoh:

	Penyakit	Tidak Penyakit	Total
Terpapar	a	b	a+b
Tidak Terpapar	c	d	c+d
Total	a+c	b+d	n

2.3 2.3 Joint Distribution

Distribusi peluang bersama didefinisikan sebagai:

\[ P(X=i,Y=j) \]

Dalam tabel kontingensi:

\[ P_{ij} = \frac{n_{ij}}{n} \]

dimana:

\(n_{ij}\) adalah frekuensi pada sel
\(n\) adalah total observasi

2.4 2.4 Marginal Distribution

Distribusi marginal diperoleh dengan menjumlahkan distribusi joint.

Sebagai contoh:

\[ P(X=i) = \sum_j P_{ij} \]

dan

\[ P(Y=j) = \sum_i P_{ij} \]

2.5 2.5 Conditional Probability

Peluang bersyarat didefinisikan sebagai:

\[ P(A|B) = \frac{P(A \cap B)}{P(B)} \]

Dalam tabel kontingensi:

\[ P(\text{Kanker}|\text{Merokok}) = \frac{a}{a+b} \]

dan

\[ P(\text{Kanker}|\text{Tidak Merokok}) = \frac{c}{c+d} \]

Konsep ini sangat penting dalam analisis epidemiologi karena memungkinkan kita menghitung risiko suatu kejadian pada kelompok tertentu.

3 Bab 3 Ukuran Asosiasi

3.1 3.1 Konsep Odds

Odds merupakan rasio antara peluang kejadian dengan peluang tidak terjadinya kejadian.

Secara matematis:

\[ Odds = \frac{p}{1-p} \]

Dalam tabel kontingensi:

\[ Odds_{exposed} = \frac{a}{b} \]

\[ Odds_{unexposed} = \frac{c}{d} \]

3.2 3.2 Odds Ratio

Odds Ratio merupakan ukuran asosiasi yang membandingkan odds antara dua kelompok.

Rumus:

\[ OR = \frac{a/b}{c/d} \]

yang dapat disederhanakan menjadi:

\[ OR = \frac{ad}{bc} \]

Interpretasi:

OR = 1 tidak ada asosiasi
OR > 1 faktor meningkatkan risiko
OR < 1 faktor bersifat protektif

3.3 3.3 Relative Risk

Relative Risk digunakan dalam studi kohort.

Rumus:

\[ RR = \frac{a/(a+b)} {c/(c+d)} \]

Interpretasi:

RR = 1 tidak ada hubungan
RR > 1 meningkatkan risiko
RR < 1 menurunkan risiko

Ukuran ini sering digunakan dalam epidemiologi untuk mengukur besarnya efek paparan terhadap kejadian penyakit.

4 Bab 4 Contoh Perhitungan Manual

4.1 4.1 Kasus Merokok dan Kanker

Misalkan diperoleh data simulasi:

	Kanker	Tidak Kanker
Merokok	60	40
Tidak Merokok	20	80

Sehingga:

\[ a=60 \]

\[ b=40 \]

\[ c=20 \]

\[ d=80 \]

Total:

\[ n = 200 \]

4.2 4.2 Menghitung Peluang Bersyarat

Peluang kanker pada perokok:

\[ P(Kanker|Merokok) = \frac{60}{60+40} =0.6 \]

Peluang kanker pada non perokok:

\[ P(Kanker|Tidak Merokok) = \frac{20}{20+80} =0.2 \]

4.3 4.3 Menghitung Odds

Odds kanker pada perokok:

\[ Odds_1 = \frac{60}{40} =1.5 \]

Odds kanker pada non perokok:

\[ Odds_0 = \frac{20}{80} =0.25 \]

4.4 4.4 Menghitung Odds Ratio

\[ OR = \frac{60\times80}{40\times20} \]

\[ OR = \frac{4800}{800} \]

\[ OR = 6 \]

Interpretasi:

Perokok memiliki 6 kali odds terkena kanker dibandingkan non perokok.

5 Bab 5 Analisis Menggunakan R

5.1 5.1 Membuat Tabel Kontingensi

data <- matrix(c(60,40,20,80), nrow=2, byrow=TRUE)

rownames(data) <- c("Merokok","Tidak Merokok")

colnames(data) <- c("Kanker","Tidak Kanker")

data

##               Kanker Tidak Kanker
## Merokok           60           40
## Tidak Merokok     20           80

5.2 5.2 Uji Chi Square

chisq.test(data)

## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  data
## X-squared = 31.688, df = 1, p-value = 1.811e-08

Uji chi-square digunakan untuk menguji hipotesis:

\[ H_0 : \text{Tidak ada hubungan} \]

\[ H_1 : \text{Ada hubungan} \]

Statistik uji:

\[ \chi^2 = \sum \frac{(O-E)^2}{E} \]

dimana:

\(O\) adalah frekuensi observasi
\(E\) adalah frekuensi harapan

5.3 5.3 Menghitung Odds Ratio di R

(a <- data[1,1])

## [1] 60

(b <- data[1,2])

## [1] 40

(c <- data[2,1])

## [1] 20

(d <- data[2,2])

## [1] 80

OR <- (a*d)/(b*c)

OR

## [1] 6

6 Bab 6 Interpretasi Hasil

6.1 6.1 Interpretasi Statistik

Misalkan hasil uji chi-square menunjukkan:

p-value < 0.05

Maka keputusan statistik adalah:

Tolak \(H_0\)

Artinya terdapat hubungan signifikan antara status merokok dan kejadian kanker.

6.2 6.2 Interpretasi Odds Ratio

Jika:

\[ OR = 6 \]

Interpretasi statistik:

Odds terkena kanker pada perokok adalah 6 kali lebih besar dibandingkan non perokok.

6.3 6.3 Interpretasi Substantif

Dalam konteks epidemiologi:

Hasil ini menunjukkan bahwa merokok merupakan faktor risiko yang kuat terhadap kanker paru.

Implikasi kebijakan:

kampanye berhenti merokok
regulasi rokok
edukasi kesehatan masyarakat

6.4 6.4 Kesimpulan

Analisis data kategori merupakan metode statistik yang sangat penting untuk menganalisis hubungan antar variabel kategori. Dengan menggunakan tabel kontingensi, ukuran asosiasi seperti odds ratio dan relative risk, serta uji chi-square, peneliti dapat memahami hubungan antar variabel secara lebih mendalam.

Metode ini sangat berguna dalam berbagai bidang penelitian terutama epidemiologi dan ilmu sosial.

Analisis Data Kategori

Rifki Nur Fadilah

2026-03-11

1 Bab 1 Definisi Analisis Data Kategori

1.1 1.1 Pengertian Analisis Data Kategori

1.2 1.2 Karakteristik Variabel Kategori

1.2.1 1. Tidak memiliki makna numerik intrinsik

1.2.2 2. Operasi matematika tidak relevan

1.2.3 3. Fokus pada frekuensi

1.3 1.3 Jenis Variabel Kategori

1.3.1 Variabel Nominal

1.3.2 Variabel Ordinal

1.4 1.4 Penerapan Analisis Data Kategori dalam Penelitian

2 Bab 2 Tabel Kontingensi

2.1 2.1 Definisi Tabel Kontingensi

2.2 2.2 Struktur Tabel Kontingensi

2.3 2.3 Joint Distribution

2.4 2.4 Marginal Distribution

2.5 2.5 Conditional Probability

3 Bab 3 Ukuran Asosiasi

3.1 3.1 Konsep Odds

3.2 3.2 Odds Ratio

3.3 3.3 Relative Risk

4 Bab 4 Contoh Perhitungan Manual

4.1 4.1 Kasus Merokok dan Kanker

4.2 4.2 Menghitung Peluang Bersyarat

4.3 4.3 Menghitung Odds

4.4 4.4 Menghitung Odds Ratio

5 Bab 5 Analisis Menggunakan R

5.1 5.1 Membuat Tabel Kontingensi

5.2 5.2 Uji Chi Square

5.3 5.3 Menghitung Odds Ratio di R

6 Bab 6 Interpretasi Hasil

6.1 6.1 Interpretasi Statistik

6.2 6.2 Interpretasi Odds Ratio

6.3 6.3 Interpretasi Substantif

6.4 6.4 Kesimpulan