Analisis data kategori merupakan salah satu cabang penting dalam statistika yang digunakan untuk menganalisis data yang berbentuk kategori atau klasifikasi. Data kategori sering dijumpai dalam berbagai bidang seperti kesehatan, ekonomi, dan ilmu sosial.
Contoh data kategori antara lain jenis kelamin, status penyakit, status merokok, tingkat pendidikan, dan lain sebagainya. Dalam analisis data kategori, hubungan antara dua atau lebih variabel kategori biasanya dianalisis menggunakan tabel kontingensi serta ukuran asosiasi seperti odds, odds ratio, dan relative risk.
Analisis data kategori adalah metode statistik yang digunakan untuk menganalisis data yang berbentuk kategori atau klasifikasi. Data kategori tidak dinyatakan dalam bentuk nilai numerik kontinu, tetapi dalam bentuk kelompok tertentu.
Tujuan analisis data kategori antara lain:
Metode yang umum digunakan dalam analisis data kategori antara lain:
Variabel kategori memiliki beberapa karakteristik penting:
Berupa label atau klasifikasi
Contoh: jenis kelamin (laki-laki/perempuan).
Tidak memiliki makna operasi aritmatika
Nilai kategori tidak dapat dijumlahkan atau dikurangi.
Biasanya dinyatakan dalam frekuensi
Analisis dilakukan berdasarkan jumlah observasi dalam setiap
kategori.
Memiliki skala nominal atau ordinal
Nominal: - Jenis kelamin - Golongan darah
Ordinal: - Tingkat pendidikan - Tingkat kepuasan
Dalam bidang kesehatan, analisis data kategori dapat digunakan untuk meneliti hubungan antara kebiasaan merokok dan kanker paru.
Variabel yang digunakan:
Tabel kontingensi adalah tabel yang menyajikan distribusi frekuensi gabungan dari dua atau lebih variabel kategori.
| Penyakit | Tidak Penyakit | Total | |
|---|---|---|---|
| Terpapar | a | b | a+b |
| Tidak Terpapar | c | d | c+d |
| Total | a+c | b+d | n |
Keterangan:
Total observasi:
\[ n = a + b + c + d \]
Distribusi gabungan:
\[ P(X=i,Y=j) = \frac{n_{ij}}{n} \]
Contoh:
\[ P(Terpapar, Penyakit) = \frac{a}{n} \]
Distribusi marginal diperoleh dari total baris atau kolom.
\[ P(Terpapar) = \frac{a+b}{n} \]
\[ P(Penyakit) = \frac{a+c}{n} \]
Peluang bersyarat:
\[ P(A|B) = \frac{P(A \cap B)}{P(B)} \]
Contoh:
\[ P(Penyakit|Terpapar) = \frac{a}{a+b} \]
Odds merupakan perbandingan antara peluang suatu kejadian dengan peluang kejadian tersebut tidak terjadi.
\[ Odds = \frac{P}{1-P} \]
Dalam tabel kontingensi:
\[ Odds_1 = \frac{a}{b} \]
\[ Odds_0 = \frac{c}{d} \]
Odds Ratio merupakan perbandingan antara dua odds.
\[ OR = \frac{Odds_1}{Odds_0} \]
Dalam tabel 2×2:
\[ OR = \frac{a/b}{c/d} \]
atau
\[ OR = \frac{ad}{bc} \]
Interpretasi:
Relative Risk adalah rasio antara probabilitas kejadian pada kelompok terpapar dan tidak terpapar.
\[ RR = \frac{P(Penyakit|Terpapar)}{P(Penyakit|Tidak Terpapar)} \]
atau
\[ RR = \frac{a/(a+b)}{c/(c+d)} \]
Misalkan dilakukan penelitian mengenai hubungan antara kebiasaan merokok dan kanker paru.
| Kanker | Tidak Kanker | Total | |
|---|---|---|---|
| Perokok | 60 | 40 | 100 |
| Tidak Perokok | 20 | 80 | 100 |
| Total | 80 | 120 | 200 |
\[ P(Kanker|Perokok) = \frac{60}{100} = 0.6 \]
\[ P(Kanker|TidakPerokok) = \frac{20}{100} = 0.2 \]
\[ Odds_1 = \frac{60}{40} = 1.5 \]
\[ Odds_0 = \frac{20}{80} = 0.25 \]
\[ OR = \frac{ad}{bc} \]
\[ OR = \frac{60 \times 80}{40 \times 20} \]
\[ OR = \frac{4800}{800} = 6 \]
Interpretasi: Odds terkena kanker paru pada perokok 6 kali lebih besar dibandingkan tidak perokok.
data <- matrix(c(60,40,20,80),
nrow=2,
byrow=TRUE)
rownames(data) <- c("Perokok","Tidak_Perokok")
colnames(data) <- c("Kanker","Tidak_Kanker")
data
## Kanker Tidak_Kanker
## Perokok 60 40
## Tidak_Perokok 20 80
library(epitools)
## Warning: package 'epitools' was built under R version 4.5.2
oddsratio(data)
## $data
## Kanker Tidak_Kanker Total
## Perokok 60 40 100
## Tidak_Perokok 20 80 100
## Total 80 120 200
##
## $measure
## NA
## odds ratio with 95% C.I. estimate lower upper
## Perokok 1.000000 NA NA
## Tidak_Perokok 5.915517 3.181806 11.37695
##
## $p.value
## NA
## two-sided midp.exact fisher.exact chi.square
## Perokok NA NA NA
## Tidak_Perokok 6.163344e-09 1.063603e-08 7.764037e-09
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
chisq.test(data)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: data
## X-squared = 31.688, df = 1, p-value = 1.811e-08
Hipotesis:
Jika nilai p-value dari uji Chi-Square lebih kecil dari 0.05 maka hipotesis nol ditolak. Artinya terdapat hubungan yang signifikan antara kebiasaan merokok dan kanker paru.
Berdasarkan nilai Odds Ratio sebesar 6, individu yang merokok memiliki kemungkinan terkena kanker paru sekitar 6 kali lebih besar dibandingkan individu yang tidak merokok.
Hal ini menunjukkan bahwa merokok merupakan faktor risiko penting terhadap kanker paru.