Dalam berbagai bidang penelitian seperti kesehatan, ekonomi, pendidikan, dan ilmu sosial, data yang diperoleh tidak selalu berbentuk numerik kontinu. Banyak data yang berbentuk kategori atau klasifikasi tertentu seperti jenis kelamin, status merokok, status penyakit, tingkat pendidikan, dan preferensi konsumen. Data semacam ini dikenal sebagai data kategori (categorical data).
Analisis terhadap data kategori sangat penting karena memungkinkan peneliti untuk memahami hubungan antara dua atau lebih variabel kategori. Salah satu metode utama yang digunakan dalam analisis data kategori adalah tabel kontingensi (contingency table).
Tabel kontingensi digunakan untuk menyajikan distribusi frekuensi dari kombinasi kategori yang berbeda. Dari tabel tersebut dapat dihitung berbagai ukuran asosiasi seperti Odds, Odds Ratio, dan Relative Risk yang menggambarkan kekuatan hubungan antara dua variabel kategori.
Selain itu, hubungan antara variabel kategori juga dapat diuji menggunakan uji Chi-Square untuk mengetahui apakah hubungan tersebut signifikan secara statistik.
Dengan bantuan perangkat lunak statistik seperti R, proses analisis data kategori dapat dilakukan dengan lebih efisien, sistematis, dan akurat.
Tujuan dari tugas ini adalah:
Analisis data kategori adalah metode statistik yang digunakan untuk menganalisis data yang berbentuk kategori atau klasifikasi. Variabel kategori biasanya tidak memiliki nilai numerik yang bermakna secara matematis, tetapi menunjukkan kelompok atau kategori tertentu dari suatu objek penelitian.
Variabel kategori dapat dibedakan menjadi dua jenis utama yaitu variabel nominal dan variabel ordinal.
Beberapa karakteristik variabel kategori adalah sebagai berikut:
Analisis data kategori banyak digunakan dalam berbagai bidang penelitian, antara lain:
Bidang Kesehatan
Meneliti hubungan antara kebiasaan merokok dan risiko kanker paru.
Bidang Ekonomi
Menganalisis hubungan antara tingkat pendidikan dan status pekerjaan.
Bidang Sosial
Meneliti hubungan antara jenis kelamin dan preferensi politik.
Tabel kontingensi merupakan tabel yang digunakan untuk menyajikan distribusi frekuensi dari dua atau lebih variabel kategori secara bersamaan. Tabel ini menunjukkan jumlah observasi yang terdapat pada setiap kombinasi kategori dari variabel yang diamati.
Contoh tabel kontingensi 2×2:
| Kanker | Tidak Kanker | |
|---|---|---|
| Merokok | a | b |
| Tidak Merokok | c | d |
Total observasi:
\[ n = a + b + c + d \]
Joint distribution merupakan peluang gabungan dari dua variabel kategori.
\[ P(Merokok, Kanker) = \frac{a}{n} \]
Marginal distribution merupakan distribusi peluang dari satu variabel tanpa memperhatikan variabel lainnya.
\[ P(Merokok) = \frac{a+b}{n} \]
\[ P(Kanker) = \frac{a+c}{n} \]
Conditional probability merupakan peluang suatu kejadian dengan syarat kejadian lain telah terjadi.
\[ P(Kanker | Merokok) = \frac{a}{a+b} \]
Odds merupakan perbandingan antara peluang suatu kejadian terjadi dengan peluang kejadian tersebut tidak terjadi.
\[ Odds = \frac{p}{1-p} \]
Dalam tabel kontingensi:
\[ Odds_{Merokok} = \frac{a}{b} \]
Odds Ratio digunakan untuk membandingkan odds antara dua kelompok.
\[ OR = \frac{ad}{bc} \]
Interpretasi:
Relative Risk merupakan perbandingan risiko kejadian pada kelompok terpapar dibandingkan kelompok tidak terpapar.
\[ RR = \frac{a/(a+b)}{c/(c+d)} \]
Interpretasi:
Misalkan diperoleh data sebagai berikut:
| Kanker | Tidak Kanker | |
|---|---|---|
| Merokok | 60 | 40 |
| Tidak Merokok | 20 | 80 |
Sehingga diperoleh:
\[ a=60, b=40, c=20, d=80 \]
Total observasi:
\[ n=200 \]
\[ P(Kanker|Merokok)=\frac{60}{100}=0.6 \]
\[ P(Kanker|TidakMerokok)=\frac{20}{100}=0.2 \]
Odds kanker pada perokok:
\[ Odds=\frac{60}{40}=1.5 \]
Odds kanker pada non-perokok:
\[ Odds=\frac{20}{80}=0.25 \]
\[ OR=\frac{60\times80}{40\times20} \]
\[ OR=6 \]
Interpretasi:
Individu yang merokok memiliki kemungkinan sekitar 6 kali lebih besar mengalami kanker paru dibandingkan individu yang tidak merokok.
data <- matrix(c(60,40,20,80),
nrow = 2,
byrow = TRUE)
rownames(data) <- c("Merokok","Tidak Merokok")
colnames(data) <- c("Kanker","Tidak Kanker")
data## Kanker Tidak Kanker
## Merokok 60 40
## Tidak Merokok 20 80
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: data
## X-squared = 31.688, df = 1, p-value = 1.811e-08
Uji Chi-Square digunakan untuk mengetahui apakah terdapat hubungan yang signifikan antara dua variabel kategori.
## Warning: package 'epitools' was built under R version 4.5.2
## $data
## Kanker Tidak Kanker Total
## Merokok 60 40 100
## Tidak Merokok 20 80 100
## Total 80 120 200
##
## $measure
## NA
## odds ratio with 95% C.I. estimate lower upper
## Merokok 1.000000 NA NA
## Tidak Merokok 5.915517 3.181806 11.37695
##
## $p.value
## NA
## two-sided midp.exact fisher.exact chi.square
## Merokok NA NA NA
## Tidak Merokok 6.163344e-09 1.063603e-08 7.764037e-09
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
Berdasarkan hasil analisis diperoleh nilai Odds Ratio sebesar 6. Hal ini menunjukkan bahwa individu yang merokok memiliki peluang sekitar enam kali lebih besar untuk mengalami kanker paru dibandingkan individu yang tidak merokok.
Hasil uji Chi-Square digunakan untuk menguji signifikansi hubungan antara variabel merokok dan kejadian kanker paru. Jika nilai p-value < 0.05, maka dapat disimpulkan bahwa terdapat hubungan yang signifikan antara kedua variabel tersebut.
Secara substantif, hasil ini menunjukkan bahwa kebiasaan merokok merupakan faktor risiko penting dalam terjadinya kanker paru. Oleh karena itu, upaya pencegahan seperti pengurangan kebiasaan merokok dan edukasi kesehatan sangat penting untuk meningkatkan kesehatan masyarakat.
Agresti, A. (2013). Categorical Data Analysis. Wiley.
Hosmer, D., Lemeshow, S., & Sturdivant, R. (2013). Applied Logistic Regression. Wiley.
Everitt, B. (2002). The Cambridge Dictionary of Statistics. Cambridge University Press.