Analisis data kategori adalah metode statistik yang digunakan untuk menganalisis variabel yang berbentuk kategori atau klasifikasi. Variabel kategori merepresentasikan kelompok seperti jenis kelamin, status merokok, atau status penyakit.
Menurut Agresti (2019), analisis data kategori mempelajari hubungan antar variabel kategori yang biasanya disajikan menggunakan tabel kontingensi.
Analisis ini sering digunakan dalam berbagai bidang penelitian seperti kesehatan, ilmu sosial, dan pemasaran untuk memahami pola hubungan antar kategori. Selain itu, teknik analisis data kategori memungkinkan peneliti menguji apakah terdapat hubungan yang signifikan antara dua atau lebih variabel kategori. Metode yang umum digunakan dalam analisis ini antara lain uji chi-square, ukuran asosiasi, serta model regresi logistik untuk mempelajari keterkaitan antar variabel kategori (Agresti, 2019; McHugh, 2013).
Berikut adalah karakteristik utama variabel kategori:
Nilai variabel berupa kategori atau label Variabel kategori tidak dinyatakan dalam bentuk angka yang memiliki makna kuantitatif, melainkan dalam bentuk kelompok atau label seperti jenis kelamin, status perkawinan, tingkat pendidikan, atau jenis pekerjaan (Agresti, 2019).
Kategori bersifat saling eksklusif (mutually exclusive) Setiap pengamatan hanya dapat masuk ke dalam satu kategori dan tidak dapat berada pada dua kategori sekaligus. Misalnya seseorang hanya dapat diklasifikasikan sebagai laki-laki atau perempuan dalam variabel jenis kelamin (McHugh, 2013).
Kategori bersifat lengkap atau mencakup semua kemungkinan (collectively exhaustive) Seluruh kategori yang dibuat harus mampu menampung seluruh kemungkinan nilai dari variabel yang diamati sehingga setiap observasi dapat diklasifikasikan dengan jelas (Agresti, 2019).
Data biasanya disajikan dalam bentuk frekuensi atau proporsi Karena berupa kategori, analisis variabel ini umumnya dilakukan dengan menghitung banyaknya observasi pada setiap kategori yang kemudian disajikan dalam tabel frekuensi atau tabel kontingensi (Agresti, 2019).
Dapat dibedakan menjadi skala nominal dan ordinal Variabel kategori dapat berupa nominal (tidak memiliki urutan, misalnya jenis kelamin atau agama) atau ordinal (memiliki urutan atau tingkatan, misalnya tingkat pendidikan atau tingkat kepuasan) (Agresti, 2019; Moore, McCabe, & Craig, 2017).
Nominal Variabel nominal adalah variabel kategori yang tidak memiliki urutan atau tingkatan tertentu antar kategorinya.Contoh variabel nominal antara lain jenis kelamin (laki-laki, perempuan), status perkawinan (belum menikah, menikah, cerai), agama, atau jenis pekerjaan. Dalam analisis statistik, data nominal biasanya disajikan dalam bentuk frekuensi atau proporsi dan sering dianalisis menggunakan tabel kontingensi atau uji chi-square.
Ordinal Variabel ordinal adalah variabel kategori yang memiliki urutan atau tingkatan tertentu antar kategorinya, namun jarak antar kategori tidak dapat diukur secara pasti. Contoh variabel ordinal antara lain tingkat pendidikan (SD, SMP, SMA, Perguruan Tinggi), tingkat kepuasan (tidak puas, cukup puas, puas, sangat puas), dan status ekonomi (rendah, menengah, tinggi).
Penelitian di bidang kesehatan Misalnya, penelitian yang mengkaji hubungan antara status merokok (perokok / tidak perokok) dengan kejadian penyakit paru-paru (ya / tidak).
Penelitian di bidang pendidikan Dalam penelitian pendidikan, analisis data kategori dapat digunakan untuk melihat hubungan antara jenis sekolah (negeri / swasta) dengan kelulusan siswa (lulus / tidak lulus).
Penelitian di bidang sosial Dalam penelitian sosial, analisis data kategori dapat digunakan untuk mengkaji hubungan antara tingkat pendidikan (SD, SMP, SMA, Perguruan Tinggi) dengan status pekerjaan (bekerja / tidak bekerja).
Tabel kontingensi menyajikan distribusi frekuensi dari dua atau lebih variabel kategori secara bersamaan.Secara umum, tabel kontingensi disusun dalam bentuk baris dan kolom, di mana setiap baris mewakili kategori dari satu variabel dan setiap kolom mewakili kategori dari variabel lainnya.
| Penyakit jantung | Tidak sakit jantung | Total | |
|---|---|---|---|
| Olahraga | a | b | a+b |
| Tidak Olahraga | c | d | c+d |
| Total | a+c | b+d | n |
Joint Distribution atau distribusi bersama adalah distribusi peluang yang menunjukkan probabilitas atau proporsi dari kombinasi kategori dua variabel secara bersamaan.Dalam tabel kontingensi, distribusi bersama diperoleh dari frekuensi pada setiap sel tabel yang kemudian dibagi dengan jumlah total observasi. Dengan kata lain, distribusi ini menggambarkan peluang terjadinya dua kategori sekaligus.
\[ P(A,B) = \frac{{frekuensi pada sel}}{n} \]
Distribusi marginal adalah distribusi peluang dari satu variabel saja tanpa memperhatikan variabel lainnya. Distribusi ini diperoleh dengan menjumlahkan frekuensi pada setiap baris atau kolom tabel kontingensi. Hasilnya biasanya ditampilkan dalam total baris atau total kolom pada tabel.
\[ P(X=Olahraga) = \frac{a+b}{n} \]
Distribusi kondisional adalah distribusi peluang dari satu variabel dengan syarat bahwa variabel lainnya memiliki kategori tertentu. Distribusi ini diperoleh dengan membagi frekuensi pada suatu sel dengan total frekuensi pada baris atau kolom yang bersesuaian.
\[ P(Penyakit jantung|Olahraga) = \frac{P(A,B)}{P(X=Olahraga)} = \frac{a}{a+b} \]
Ukuran asosiasi adalah ukuran statistik yang digunakan untuk menilai kekuatan hubungan atau keterkaitan antara dua variabel kategori dalam suatu tabel kontingensi.
Odds adalah ukuran yang menyatakan perbandingan antara peluang suatu kejadian terjadi dengan peluang kejadian tersebut tidak terjadi.
Jika peluang suatu kejadian dinyatakan sebagai:
\[ P = \frac{a}{a+b} \]
maka peluang tidak terjadinya kejadian adalah:
\[ 1 - P = \frac{b}{a+b} \]
Odds didefinisikan sebagai perbandingan antara peluang kejadian dengan peluang tidak terjadinya kejadian, yaitu:
\[ Odds = \frac{P}{1-P} \]
Dengan mensubstitusikan nilai peluang ke dalam rumus odds diperoleh:
\[ Odds = \frac{\frac{a}{a+b}}{\frac{b}{a+b}} = \frac{a}{b} \] Interpretasi:
Odds ratio (OR) adalah ukuran yang digunakan untuk membandingkan odds dari suatu kejadian antara dua kelompok yang berbeda.
Odds Ratio (OR) adalah ukuran asosiasi yang membandingkan odds antara dua kelompok. Jika odds pada kelompok pertama adalah:
\[ Odds_1 = \frac{a}{b} \]
dan odds pada kelompok kedua adalah:
\[ Odds_2 = \frac{c}{d} \]
maka Odds Ratio didefinisikan sebagai:
\[ OR = \frac{Odds_1}{Odds_2} \]
Sehingga diperoleh:
\[ OR = \frac{a/b}{c/d} = \frac{ad}{bc} \]
Interpretasi:
Relative Risk (RR) atau risiko relatif adalah ukuran asosiasi yang digunakan untuk membandingkan probabilitas terjadinya suatu kejadian pada kelompok yang terpapar dengan probabilitas kejadian pada kelompok yang tidak terpapar. Relative risk sering digunakan dalam penelitian epidemiologi, khususnya pada studi kohort, untuk mengetahui apakah suatu paparan meningkatkan atau menurunkan risiko terjadinya suatu kejadian atau penyakit.
Relative Risk (RR) adalah ukuran asosiasi yang membandingkan risiko kejadian antara dua kelompok.
Risiko pada kelompok pertama adalah:
\[ P_1 = \frac{a}{a+b} \]
Risiko pada kelompok kedua adalah:
\[ P_0 = \frac{c}{c+d} \]
Relative Risk didefinisikan sebagai:
\[ RR = \frac{P_1}{P_0} \]
Sehingga diperoleh:
\[ RR = \frac{\frac{a}{a+b}}{\frac{c}{c+d}} \] —
| Penyakit jantung | Tidak | Total | |
|---|---|---|---|
| Olahraga | 20 | 80 | 100 |
| Tidak Olahraga | 40 | 60 | 100 |
a = 20 b = 80 c = 40 d = 60 n = 200
\[ P(Penyakit jantung|Tidak Olahraga) = \frac{40}{100} = 0.4 \] Artinya, dari seluruh individu yang tidak berolahraga, sekitar 40% di antaranya mengalami penyakit jantung.
\[ P(Penyakit jantung|Olahraga) = \frac{20}{100} = 0.2 \] Artinya, dari seluruh individu yang berolahraga, sekitar 20% di antaranya mengalami penyakit jantung.
\[ Odds_{TidakOlahraga} = \frac{40}{60} = 0,67 \] Nilai 0,67 menunjukkan bahwa pada kelompok yang tidak berolahraga, perbandingan antara orang yang mengalami penyakit jantung dengan yang tidak mengalami penyakit jantung adalah sekitar 0,67 banding 1. Artinya, peluang mengalami penyakit jantung pada kelompok yang tidak berolahraga sekitar 0,67 kali dibandingkan peluang tidak mengalami penyakit jantung.
\[ Odds_{Olahraga} = \frac{20}{80} = 0,25 \] Nilai 0,25 menunjukkan bahwa pada kelompok yang berolahraga, perbandingan antara orang yang mengalami penyakit jantung dengan yang tidak mengalami penyakit jantung adalah sekitar 0,25 banding 1. Artinya, peluang mengalami penyakit jantung pada kelompok yang berolahraga adalah 0,25 kali dibandingkan peluang tidak mengalami penyakit jantung.
\[ OR = \frac{40 \times 80}{60 \times 20} = 2.67 \] Nilai OR sebesar 2,67 menunjukkan bahwa odds terjadinya penyakit jantung pada individu yang tidak berolahraga sekitar 2,67 kali lebih besar dibandingkan dengan individu yang berolahraga. Dengan kata lain, tidak berolahraga dapat diinterpretasikan sebagai faktor risiko yang meningkatkan kemungkinan terjadinya penyakit jantung.
Karena nilai OR > 1, maka dapat disimpulkan bahwa terdapat asosiasi positif antara tidak berolahraga dan kejadian penyakit jantung, yang berarti kelompok yang tidak berolahraga memiliki peluang lebih besar mengalami penyakit jantung dibandingkan kelompok yang berolahraga.
data <- matrix(c(20,80,40,60),
nrow = 2,
byrow = TRUE)
colnames(data) <- c("Penyakit_jantung","Tidak_sakit_jantung")
rownames(data) <- c("Olahraga","Tidak_Olahraga")
data
## Penyakit_jantung Tidak_sakit_jantung
## Olahraga 20 80
## Tidak_Olahraga 40 60
OR <- (data[2,1] * data[1,2]) / (data[2,2] * data[1,1])
OR
## [1] 2.666667
uji_chisq <- chisq.test(data)
uji_chisq
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: data
## X-squared = 8.5952, df = 1, p-value = 0.00337
barplot(data,
beside = TRUE,
col = c("pink","lightblue"),
main = "Perbandingan Kasus Penyakit Jantung Berdasarkan Status Olahraga",
xlab = "Status Olahraga",
ylab = "Jumlah Individu",
legend.text = colnames(data),
args.legend = list(x="topright"),
ylim = c(0, max(data) + 20))
Interpretasi grafik:
Dari grafik terlihat bahwa
Pada kelompok berolahraga, jumlah individu yang mengalami penyakit jantung (20) lebih sedikit dibandingkan yang tidak mengalami penyakit jantung (80).
Pada kelompok tidak berolahraga, jumlah individu yang mengalami penyakit jantung (40) lebih banyak dibandingkan kelompok yang berolahraga.
Hal ini menunjukkan bahwa aktivitas olahraga kemungkinan berkaitan dengan penurunan risiko penyakit jantung. ## Interpretasi Statistik Secara statistik, nilai odds ratio sebesar 2,67 menunjukkan bahwa odds terjadinya penyakit jantung pada individu yang tidak berolahraga adalah sekitar 2,67 kali odds pada individu yang berolahraga. Karena nilai OR > 1, maka terdapat asosiasi positif antara tidak berolahraga dan kejadian penyakit jantung. Hal ini menunjukkan bahwa status tidak berolahraga berkaitan dengan peningkatan peluang terjadinya penyakit jantung dibandingkan dengan kelompok yang berolahraga.
Dalam konteks kasus ini, hasil tersebut dapat diartikan bahwa individu yang tidak melakukan olahraga memiliki kecenderungan lebih besar mengalami penyakit jantung dibandingkan individu yang melakukan olahraga. Dengan kata lain, aktivitas olahraga berpotensi menjadi faktor yang berhubungan dengan penurunan risiko penyakit jantung.
Hasil ini menggambarkan bahwa olahraga dapat berperan sebagai faktor protektif terhadap penyakit jantung, karena kelompok yang berolahraga memiliki peluang lebih kecil untuk mengalami penyakit tersebut dibandingkan kelompok yang tidak berolahraga.
Agresti, A. (2019). An Introduction to Categorical Data Analysis. Wiley.
McHugh, M. L. (2013). The chi-square test of independence. Biochemia Medica, 23(2), 143–149. https://doi.org/10.11613/BM.2013.018
Moore, D. S., McCabe, G. P., & Craig, B. A. (2017). Introduction to the Practice of Statistics (9th ed.). W. H. Freeman.