Pendahuluan

Latar Belakang

Dalam berbagai bidang penelitian seperti kesehatan, ekonomi, pendidikan, dan ilmu sosial, data yang diperoleh tidak selalu berbentuk numerik kontinu. Banyak data yang berbentuk kategori atau klasifikasi tertentu seperti jenis kelamin, status merokok, status penyakit, tingkat pendidikan, dan preferensi konsumen. Data semacam ini dikenal sebagai data kategori (categorical data).

Analisis terhadap data kategori sangat penting karena memungkinkan peneliti untuk memahami hubungan antara dua atau lebih variabel kategori. Salah satu metode utama yang digunakan dalam analisis data kategori adalah tabel kontingensi (contingency table).

Tabel kontingensi digunakan untuk menyajikan distribusi frekuensi dari kombinasi kategori yang berbeda. Dari tabel tersebut dapat dihitung berbagai ukuran asosiasi seperti Odds, Odds Ratio, dan Relative Risk yang menggambarkan kekuatan hubungan antara dua variabel kategori.

Selain itu, hubungan antara variabel kategori juga dapat diuji menggunakan uji Chi-Square untuk mengetahui apakah hubungan tersebut signifikan secara statistik.

Dengan bantuan perangkat lunak statistik seperti R, proses analisis data kategori dapat dilakukan dengan lebih efisien, sistematis, dan akurat.

Tujuan Analisis

Tujuan dari tugas ini adalah:

Memahami konsep dasar analisis data kategori
Memahami struktur tabel kontingensi
Menghitung ukuran asosiasi antar variabel kategori
Melakukan perhitungan manual pada tabel kontingensi
Melakukan analisis data kategori menggunakan R
Menginterpretasikan hasil analisis secara statistik

Bagian 1: Definisi Analisis Data Kategori

Pengertian Analisis Data Kategori

Analisis data kategori adalah metode statistik yang digunakan untuk menganalisis data yang berbentuk kategori atau klasifikasi. Variabel kategori biasanya tidak memiliki nilai numerik yang bermakna secara matematis, tetapi menunjukkan kelompok atau kategori tertentu dari suatu objek penelitian.

Variabel kategori dapat dibedakan menjadi dua jenis utama yaitu variabel nominal dan variabel ordinal.

Variabel nominal merupakan variabel kategori yang tidak memiliki urutan tertentu, seperti jenis kelamin atau golongan darah.
Variabel ordinal merupakan variabel kategori yang memiliki urutan tertentu, seperti tingkat pendidikan atau tingkat kepuasan.

Karakteristik Variabel Kategori

Beberapa karakteristik variabel kategori adalah sebagai berikut:

Data berupa label atau kategori.
Tidak memiliki jarak numerik yang bermakna.
Biasanya dianalisis menggunakan distribusi frekuensi.
Hubungan antar variabel dianalisis menggunakan tabel kontingensi.

Contoh Penerapan Analisis Data Kategori

Analisis data kategori banyak digunakan dalam berbagai bidang penelitian, antara lain:

Bidang Kesehatan

Meneliti hubungan antara kebiasaan merokok dan risiko kanker paru.

Bidang Ekonomi

Menganalisis hubungan antara tingkat pendidikan dan status pekerjaan.

Bidang Sosial

Meneliti hubungan antara jenis kelamin dan preferensi politik.

Bagian 2: Tabel Kontingensi

Definisi Tabel Kontingensi

Tabel kontingensi merupakan tabel yang digunakan untuk menyajikan distribusi frekuensi dari dua atau lebih variabel kategori secara bersamaan. Tabel ini menunjukkan jumlah observasi yang terdapat pada setiap kombinasi kategori dari variabel yang diamati.

Struktur Tabel Kontingensi

Contoh tabel kontingensi 2×2:

	Kanker	Tidak Kanker
Merokok	a	b
Tidak Merokok	c	d

Total observasi:

\[ n = a + b + c + d \]

Joint Distribution

Joint distribution merupakan peluang gabungan dari dua variabel kategori.

\[ P(Merokok, Kanker) = \frac{a}{n} \]

Marginal Distribution

Marginal distribution merupakan distribusi peluang dari satu variabel tanpa memperhatikan variabel lainnya.

\[ P(Merokok) = \frac{a+b}{n} \]

\[ P(Kanker) = \frac{a+c}{n} \]

Conditional Probability

Conditional probability merupakan peluang suatu kejadian dengan syarat kejadian lain telah terjadi.

\[ P(Kanker | Merokok) = \frac{a}{a+b} \]

Bagian 3: Ukuran Asosiasi

Odds

Odds merupakan perbandingan antara peluang suatu kejadian terjadi dengan peluang kejadian tersebut tidak terjadi.

\[ Odds = \frac{p}{1-p} \]

Dalam tabel kontingensi:

\[ Odds_{Merokok} = \frac{a}{b} \]

Odds Ratio

Odds Ratio digunakan untuk membandingkan odds antara dua kelompok.

\[ OR = \frac{ad}{bc} \]

Interpretasi:

OR = 1 → tidak ada hubungan
OR > 1 → hubungan positif
OR < 1 → hubungan negatif

Relative Risk

Relative Risk merupakan perbandingan risiko kejadian pada kelompok terpapar dibandingkan kelompok tidak terpapar.

\[ RR = \frac{a/(a+b)}{c/(c+d)} \]

Interpretasi:

RR > 1 menunjukkan risiko lebih tinggi
RR = 1 menunjukkan tidak ada perbedaan risiko
RR < 1 menunjukkan risiko lebih rendah

Bagian 4: Contoh Perhitungan Manual

Misalkan diperoleh data sebagai berikut:

	Kanker	Tidak Kanker
Merokok	60	40
Tidak Merokok	20	80

Sehingga diperoleh:

\[ a=60, b=40, c=20, d=80 \]

Total observasi:

\[ n=200 \]

Peluang Bersyarat

\[ P(Kanker|Merokok)=\frac{60}{100}=0.6 \]

\[ P(Kanker|TidakMerokok)=\frac{20}{100}=0.2 \]

Odds

Odds kanker pada perokok:

\[ Odds=\frac{60}{40}=1.5 \]

Odds kanker pada non-perokok:

\[ Odds=\frac{20}{80}=0.25 \]

Odds Ratio

\[ OR=\frac{60\times80}{40\times20} \]

\[ OR=6 \]

Interpretasi:

Individu yang merokok memiliki kemungkinan sekitar 6 kali lebih besar mengalami kanker paru dibandingkan individu yang tidak merokok.

Bagian 5: Analisis Menggunakan R

Membuat Tabel Kontingensi

data <- matrix(c(60,40,20,80),
               nrow = 2,
               byrow = TRUE)

rownames(data) <- c("Merokok","Tidak Merokok")
colnames(data) <- c("Kanker","Tidak Kanker")

data

##               Kanker Tidak Kanker
## Merokok           60           40
## Tidak Merokok     20           80

Uji Chi-Square

chisq.test(data)

## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  data
## X-squared = 31.688, df = 1, p-value = 1.811e-08

Uji Chi-Square digunakan untuk mengetahui apakah terdapat hubungan yang signifikan antara dua variabel kategori.

Menghitung Odds Ratio

library(epitools)

## Warning: package 'epitools' was built under R version 4.5.2

oddsratio(data)

## $data
##               Kanker Tidak Kanker Total
## Merokok           60           40   100
## Tidak Merokok     20           80   100
## Total             80          120   200
## 
## $measure
##                         NA
## odds ratio with 95% C.I. estimate    lower    upper
##            Merokok       1.000000       NA       NA
##            Tidak Merokok 5.915517 3.181806 11.37695
## 
## $p.value
##                NA
## two-sided         midp.exact fisher.exact   chi.square
##   Merokok                 NA           NA           NA
##   Tidak Merokok 6.163344e-09 1.063603e-08 7.764037e-09
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"

Visualisasi Mosaic Plot

mosaicplot(data,
           main="Hubungan Merokok dan Kanker Paru",
           color=TRUE)

Mosaic plot digunakan untuk memvisualisasikan hubungan antara dua variabel kategori berdasarkan proporsi masing-masing kategori.

Bagian 6: Interpretasi Hasil

Berdasarkan hasil analisis diperoleh nilai Odds Ratio sebesar 6. Hal ini menunjukkan bahwa individu yang merokok memiliki peluang sekitar enam kali lebih besar untuk mengalami kanker paru dibandingkan individu yang tidak merokok.

Hasil uji Chi-Square digunakan untuk menguji signifikansi hubungan antara variabel merokok dan kejadian kanker paru. Jika nilai p-value < 0.05, maka dapat disimpulkan bahwa terdapat hubungan yang signifikan antara kedua variabel tersebut.

Secara substantif, hasil ini menunjukkan bahwa kebiasaan merokok merupakan faktor risiko penting dalam terjadinya kanker paru. Oleh karena itu, upaya pencegahan seperti pengurangan kebiasaan merokok dan edukasi kesehatan sangat penting untuk meningkatkan kesehatan masyarakat.

Referensi

Agresti, A. (2013). Categorical Data Analysis. Wiley.

Hosmer, D., Lemeshow, S., & Sturdivant, R. (2013). Applied Logistic Regression. Wiley.

Everitt, B. (2002). The Cambridge Dictionary of Statistics. Cambridge University Press.

Analisis Data Kategori Menggunakan Tabel Kontingensi

Gania Zarakova Vijkonavo

2026

Pendahuluan

Latar Belakang

Tujuan Analisis

Bagian 1: Definisi Analisis Data Kategori

Pengertian Analisis Data Kategori

Karakteristik Variabel Kategori

Contoh Penerapan Analisis Data Kategori

Bagian 2: Tabel Kontingensi

Definisi Tabel Kontingensi

Struktur Tabel Kontingensi

Joint Distribution

Marginal Distribution

Conditional Probability

Bagian 3: Ukuran Asosiasi

Odds

Odds Ratio

Relative Risk

Bagian 4: Contoh Perhitungan Manual

Peluang Bersyarat

Odds

Odds Ratio

Bagian 5: Analisis Menggunakan R

Membuat Tabel Kontingensi

Uji Chi-Square

Menghitung Odds Ratio

Visualisasi Mosaic Plot

Bagian 6: Interpretasi Hasil

Referensi