Dalam banyak penelitian di bidang kesehatan, ekonomi, dan ilmu sosial, data yang diperoleh seringkali berbentuk kategori (categorical data). Data kategori merupakan data yang menunjukkan klasifikasi atau kelompok tertentu seperti jenis kelamin, status kesehatan, tingkat pendidikan, dan status merokok.Salah satu metode yang umum digunakan untuk menganalisis hubungan antara dua variabel kategori adalah menggunakan tabel kontingensi. Tabel ini menyajikan distribusi frekuensi gabungan antara dua variabel sehingga memudahkan peneliti dalam melihat pola hubungan yang mungkin terjadi.
Analisis data kategori merupakan metode statistik yang digunakan untuk menganalisis variabel yang nilainya berupa kategori atau klasifikasi. Variabel kategori tidak memiliki makna numerik secara langsung, namun menunjukkan keanggotaan suatu objek dalam kelompok tertentu. Menurut Agresti (2019), analisis data kategori bertujuan untuk memahami pola hubungan antara variabel kategori serta mengukur kekuatan asosiasi antar variabel tersebut.
Variabel kategori memiliki beberapa karakteristik utama:
Secara umum variabel kategori dibagi menjadi dua jenis:
Variabel nominal merupakan variabel kategori yang tidak memiliki urutan.
Contoh: - jenis kelamin - agama - jenis pekerjaan
Variabel ordinal merupakan variabel kategori yang memiliki urutan, tetapi jarak antar kategori tidak dapat diukur secara pasti.
Contoh: - tingkat pendidikan - tingkat kepuasan - tingkat ekonomi
Tabel kontingensi merupakan tabel ringkasan data dua variabel kategori. Tabel kontingensi sangat berguna ketika jumlah pengamatan besar perlu diringkas ke dalam bentuk tabel sederhana. Ringkasan data dilakukan dengan menghitung jumlah observasi yang diamati untuk setiap level dari variabel kategori.
| Variabel 1.1 | Variabel 1.2 | Total | |
|---|---|---|---|
| Variabel 2.1 | a | b | a+b |
| Variabel 2.2 | c | d | c+d |
| Total | a+c | b+d | n |
Joint distribution adalah peluang gabungan dari dua kejadian.
\[ P( Variabel 1.1 \cap Variabel 2.1) = \frac{a}{n} \]
Marginal distribution adalah peluang dari satu variabel tanpa memperhatikan variabel lainnya.
\[ P(Variabel 2.1) = \frac{a+b}{n} \]
Conditional probability adalah peluang suatu kejadian dengan syarat kejadian lain telah terjadi.
\[ P(Varibael 1.1 | Variabel 2.1) = \frac{a}{a+b} \]
Ukuran asosiasi digunakan untuk mengukur kekuatan hubungan antara dua variabel kategori.
Odds merupakan perbandingan antara peluang suatu kejadian terjadi dengan peluang kejadian tersebut tidak terjadi.
\[ Odds = \frac{p}{1-p} \]
Dalam tabel kontingensi:
\[ Odds = \frac{a}{b} \]
Odds Ratio digunakan untuk membandingkan odds antara dua kelompok.
\[ OR = \frac{ad}{bc} \]
Interpretasi:
Relative Risk membandingkan probabilitas kejadian antara dua kelompok.
\[ RR = \frac{\frac{a}{a+b}}{\frac{c}{c+d}} \]
Interpretasi:
Misalkan diperoleh data berikut:
| Kanker | Tidak Kanker | Total | |
|---|---|---|---|
| Merokok | 60 | 40 | 100 |
| Tidak Merokok | 20 | 80 | 100 |
Total sampel:
\[ n = 200 \]
Peluang kanker pada perokok:
\[ P(Kanker|Merokok) = \frac{60}{100} = 0.6 \]
Peluang kanker pada non-perokok:
\[ P(Kanker|Tidak Merokok) = \frac{20}{100} = 0.2 \]
Odds kanker pada perokok:
\[ Odds_{perokok} = \frac{60}{40} = 1.5 \]
Odds kanker pada non-perokok:
\[ Odds_{non} = \frac{20}{80} = 0.25 \]
\[ OR = \frac{60 \times 80}{40 \times 20} \]
\[ OR = \frac{4800}{800} \]
\[ OR = 6 \]
Interpretasi: odds terkena kanker pada perokok 6 kali lebih besar dibandingkan non-perokok.
data <- matrix(c(60,40,20,80),
nrow=2,
byrow=TRUE)
rownames(data) <- c("Merokok","Tidak Merokok")
colnames(data) <- c("Kanker","Tidak Kanker")
data
## Kanker Tidak Kanker
## Merokok 60 40
## Tidak Merokok 20 80
prop.table(data)
## Kanker Tidak Kanker
## Merokok 0.3 0.2
## Tidak Merokok 0.1 0.4
Proporsi ini menunjukkan distribusi peluang dari setiap kategori.
chisq.test(data)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: data
## X-squared = 31.688, df = 1, p-value = 1.811e-08
Uji chi-square digunakan untuk menguji apakah terdapat hubungan antara variabel merokok dan kejadian kanker.
Hipotesis:
H0 : Tidak terdapat hubungan antara merokok dan kanker
H1 : Terdapat hubungan antara merokok dan kanker
library(epitools)
oddsratio(data)
## $data
## Kanker Tidak Kanker Total
## Merokok 60 40 100
## Tidak Merokok 20 80 100
## Total 80 120 200
##
## $measure
## NA
## odds ratio with 95% C.I. estimate lower upper
## Merokok 1.000000 NA NA
## Tidak Merokok 5.915517 3.181806 11.37695
##
## $p.value
## NA
## two-sided midp.exact fisher.exact chi.square
## Merokok NA NA NA
## Tidak Merokok 6.163344e-09 1.063603e-08 7.764037e-09
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
Nilai odds ratio sebesar 6. Hal ini menunjukkan bahwa odds terkena kanker paru pada kelompok perokok enam kali lebih besar dibandingkan kelompok yang tidak merokok.
Hasil uji chi-square menunjukan nilai p-value kurang dari 0.05 maka dapat disimpulkan bahwa terdapat hubungan yang signifikan antara kebiasaan merokok dan kejadian kanker paru.