Analisis data kategori merupakan metode analisis statistik yang digunakan untuk menganalisis data yang berbentuk kategori atau kelompok tertentu. Tujuan analisis data kategori yaitu untuk melihat distribusi frekuensi suatu kategori atau untuk mengetahui hubungan antara dua variabel kategori. Metode ini sering digunakan ketika data berbentuk nominal (misalnya jenis kelamin dan status perkawinan) atau ordinal (misalnya tingkat pendidikan dan kepuasan pelanggan). Analisis data kategori termasuk dalam teknik statistik yang digunakan untuk menganalisis variabel kategori, yang melibatkan metode seperti uji chi-square, regresi logistik, dan analisis kontingensi.
Karateristik variabel kategori yaitu:
Berupa kategori atau kelompok
Variabel kategori menyatakan data dalam bentuk kelompok atau klasifikasi tertentu, seperti jenis kelamin, status perkawinan, atau tingkat pendidikan.
Tidak menunjukkan nilai numerik sebenarnya
Nilai pada variabel kategori tidak menunjukkan besaran angka. Jika menggunakan angka, biasanya hanya sebagai kode kategori, bukan untuk perhitungan matematis.
Biasanya dinyatakan dalam frekuensi
Data kategori umumnya ditampilkan sebagai jumlah atau frekuensi pada setiap kategori sehingga dapat dibandingkan antar kelompok.
Menggunakan skala nominal atau ordinal
Variabel kategori terdiri dari variabel nominal dan variabel ordinal. Variabel nominal yaitu variabel yang tidak memiliki urutan tertentu, sedangkan variabel ordinal yaitu variabel yang memiliki tingkatan atau urutan.
| Bidang Ilmu | Contoh Kasus | Metode Analisis |
|---|---|---|
| Epidemiologi | Hubungan status merokok dengan kejadian kanker paru | Odds Ratio, Uji Chi-Square |
| Pemasaran | Hubungan jenis kelamin dengan preferensi produk | Uji Chi-Square, Cramer’s V |
| Sosiologi | Hubungan tingkat pendidikan dengan partisipasi pemilu | Uji Chi-Square |
| Kesehatan Masyarakat | Hubungan status vaksinasi dengan kejadian penyakit | Relative Risk, Uji Fisher |
| Psikologi Sosial | Hubungan jenis kelamin dengan tingkat kecemasan | Uji Chi-Square, Koefisien Kontingensi |
Tabel kontingensi atau yang sering disebut tabulasi silang (cross tabulation atau cross classification) merupakan tabel yang digunakan untuk menyajikan data dalam bentuk jumlah atau frekuensi dari beberapa kategori. Tabel ini digunakan untuk menampilkan dua atau lebih variabel secara bersamaan sehingga dapat terlihat bagaimana distribusi data pada setiap kategori dari variabel-variabel tersebut. Melalui tabel kontingensi, peneliti dapat melihat hubungan antara dua atau lebih variabel kategori. Namun, metode ini hanya menunjukkan adanya hubungan atau keterkaitan antar variabel, bukan hubungan sebab akibat.
Tabel kontingensi yang paling sederhana adalah tabel kontingensi 2 arah dengan variabel X memiliki 2 kategori dan variabel Y memiliki 2 kategori sehingga disebut tabel kontingensi 2 × 2. Struktur dari tabel kontingensi 2 × 2 dapat dilihat pada tabel berikut.
| \(Y_1\) | \(Y_2\) | Total | |
|---|---|---|---|
| \(X_1\) | \(a\) | \(b\) | \(a+b\) |
| \(X_2\) | \(c\) | \(d\) | \(c+d\) |
| Total | \(a+c\) | \(b+d\) | \(n\) |
Joint Distribution (distribusi bersama) adalah distribusi yang menunjukkan peluang atau frekuensi dua variabel secara simultan. Probabilitas bersama dari sel (i,j) diestimasi dengan:
\[ P(X,Y)=\frac{\text{frekuensi pada sel}}{n} \]
Marginal distribution adalah distribusi peluang dari suatu variabel yang diperoleh dengan menjumlahkan peluang variabel lainnya pada distribusi bersama (joint distribution).
Distribusi marginal untuk variabel \(X\):
\[ P(X_1)=\frac{a+b}{n} \]
Distribusi marginal untuk variabel \(Y\):
\[ P(Y_1)=\frac{a+c}{n} \]
Conditional probability adalah peluang terjadinya suatu kejadian A dengan syarat kejadian B sudah terjadi terlebih dahulu.
Rumus conditional probability:
\[ P(Y_1|X_1)=\frac{a}{a+b} \]
Odds adalah ukuran yang menyatakan perbandingan antara peluang suatu kejadian terjadi dengan peluang kejadian tersebut tidak terjadi.
\[ Odds_1=\frac{a}{b} \]
| Nilai Odds | Interpretasi |
|---|---|
| \(Odds > 1\) | Kejadian lebih mungkin terjadi dibandingkan tidak terjadi |
| \(Odds = 1\) | Peluang kejadian terjadi sama dengan tidak terjadi |
| \(Odds < 1\) | Kejadian lebih kecil kemungkinannya untuk terjadi dibandingkan tidak terjadi |
Odds Ratio (OR) adalah ukuran yang digunakan untuk membandingkan odds suatu kejadian pada dua kelompok yang berbeda. Dalam analisis data kategori, khususnya pada tabel kontingensi 2×2, OR digunakan untuk melihat seberapa kuat hubungan antara dua variabel kategori.
\[ OR=\frac{ad}{bc} \]
| Nilai OR | Interpretasi |
|---|---|
| \(OR > 1\) | Terdapat hubungan positif antara kedua variabel (kejadian lebih mungkin terjadi pada kelompok pertama) |
| \(OR = 1\) | Tidak ada hubungan antara kedua variabel |
| \(OR < 1\) | Terdapat hubungan negatif antara kedua variabel (kejadian lebih kecil kemungkinannya terjadi pada kelompok pertama) |
Relative Risk (RR) adalah ukuran yang digunakan untuk membandingkan risiko terjadinya suatu kejadian antara dua kelompok. Biasanya digunakan pada tabel kontingensi 2×2 untuk melihat apakah suatu faktor meningkatkan atau menurunkan risiko suatu kejadian.
Rumus Relative Risk
\[ RR=\frac{\frac{a}{a+b}}{\frac{c}{c+d}} \]
| Nilai RR | Interpretasi |
|---|---|
| \(RR > 1\) | Risiko kejadian lebih besar pada kelompok pertama |
| \(RR = 1\) | Tidak ada perbedaan risiko antara kedua kelompok |
| \(RR < 1\) | Risiko kejadian lebih kecil pada kelompok pertama |
Sebuah penelitian ingin mengetahui hubungan antara kebiasaan merokok dengan kejadian penyakit paru-paru. Sebanyak 200 responden diamati dan diperoleh data sebagai berikut:
| Penyakit Paru (\(Y_1\)) | Tidak Sakit (\(Y_2\)) | Total | |
|---|---|---|---|
| Perokok (\(X_1\)) | \(n_{11}=80\) | \(n_{12}=40\) | \(n_{1\cdot}=120\) |
| Tidak Merokok (\(X_2\)) | \(n_{21}=30\) | \(n_{22}=50\) | \(n_{2\cdot}=80\) |
| Total | \(n_{\cdot1}=110\) | \(n_{\cdot2}=90\) | \(n=200\) |
Peluang seseorang terkena penyakit paru-paru jika ia perokok adalah
\[ P(Y_1|X_1)=\frac{n_{11}}{n_{1\cdot}} =\frac{80}{120}=0.67 \]
Peluang seseorang terkena penyakit paru-paru jika ia tidak merokok adalah
\[ P(Y_1|X_2)=\frac{n_{21}}{n_{2\cdot}} =\frac{30}{80}=0.375 \]
Odds penyakit paru-paru pada perokok:
\[ Odds_1=\frac{80}{40}=2 \]
Interpretasi: Nilai odds sebesar 2 menunjukkan bahwa pada kelompok perokok, peluang mengalami penyakit paru-paru 2 kali lebih besar dibandingkan peluang tidak mengalami penyakit paru-paru.
Odds penyakit paru-paru pada bukan perokok:
\[ Odds_2=\frac{30}{50}=0.6 \]
Interpretasi: Nilai odds sebesar 0.6 menunjukkan bahwa pada kelompok bukan perokok, peluang mengalami penyakit paru-paru lebih kecil dibandingkan peluang tidak mengalami penyakit paru-paru.
\[ OR=\frac{80\times50}{40\times30} =\frac{4000}{1200}=3.33 \]
Interpretasi: Orang yang merokok memiliki odds sekitar 3.33 kali lebih besar untuk mengalami penyakit paru-paru dibandingkan orang yang tidak merokok.
data <- matrix(c(80,40,30,50),
nrow = 2,
byrow = TRUE)
rownames(data) <- c("Perokok","Bukan_Perokok")
colnames(data) <- c("Penyakit_Paru","Tidak_Sakit")
data
## Penyakit_Paru Tidak_Sakit
## Perokok 80 40
## Bukan_Perokok 30 50
# Cara Manual
OR <- (data[1,1]*data[2,2])/(data[1,2]*data[2,1]);OR
## [1] 3.333333
# Menggunakan Packages
library(epitools)
oddsratio(data)
## $data
## Penyakit_Paru Tidak_Sakit Total
## Perokok 80 40 120
## Bukan_Perokok 30 50 80
## Total 110 90 200
##
## $measure
## NA
## odds ratio with 95% C.I. estimate lower upper
## Perokok 1.000000 NA NA
## Bukan_Perokok 3.305027 1.839895 6.037307
##
## $p.value
## NA
## two-sided midp.exact fisher.exact chi.square
## Perokok NA NA NA
## Bukan_Perokok 5.420274e-05 7.953157e-05 4.869329e-05
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
chisq.test(data)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: data
## X-squared = 15.341, df = 1, p-value = 8.975e-05
# Bar plot dari tabel kontingensi
barplot(data,
beside = TRUE,
col = c("skyblue","salmon"),
legend = TRUE,
main = "Hubungan Merokok dan Penyakit Paru-Paru",
xlab = "Status Merokok",
ylab = "Jumlah Responden")
Berdasarkan joint distribution, peluang seseorang yang merokok dan mengalami penyakit paru-paru adalah sebesar 0.40. Sedangkan peluang seseorang yang tidak merokok tetapi mengalami penyakit paru-paru adalah sebesar 0.15. Nilai ini menunjukkan bahwa proporsi penderita penyakit paru-paru lebih besar pada kelompok perokok dibandingkan kelompok bukan perokok.
Dari marginal distribution, diperoleh bahwa peluang seseorang menjadi perokok adalah sebesar 0.60. Sedangkan peluang seseorang mengalami penyakit paru-paru adalah sebesar 0.55.
Selanjutnya, berdasarkan conditional probability, peluang seseorang mengalami penyakit paru-paru jika ia perokok adalah sekitar 0.67. Sedangkan peluang seseorang mengalami penyakit paru-paru jika ia bukan perokok adalah sekitar 0.38. Hal ini menunjukkan bahwa peluang terjadinya penyakit paru-paru lebih tinggi pada kelompok perokok.
Pada perhitungan odds, diperoleh nilai odds penyakit paru-paru pada kelompok perokok sebesar 2. Sedangkan pada kelompok bukan perokok sebesar 0.6. Hal ini menunjukkan bahwa pada kelompok perokok, peluang terjadinya penyakit paru-paru lebih besar dibandingkan peluang tidak terjadinya penyakit tersebut.
Perbandingan antara kedua odds tersebut menghasilkan Odds Ratio sebesar 3.31, yang menunjukkan bahwa odds terjadinya penyakit paru-paru pada kelompok perokok sekitar 3.31 kali lebih besar dibandingkan pada kelompok bukan perokok.
Hasil uji Chi-Square juga menunjukkan bahwa nilai p-value lebih kecil dari 0.05, sehingga hipotesis nol ditolak. Dengan demikian dapat disimpulkan bahwa terdapat hubungan yang signifikan antara kebiasaan merokok dan kejadian penyakit paru-paru.
Secara substantif, hasil analisis ini menunjukkan bahwa kebiasaan merokok berkaitan dengan meningkatnya kemungkinan terjadinya penyakit paru-paru. Individu yang merokok memiliki peluang yang lebih besar untuk mengalami penyakit paru-paru dibandingkan individu yang tidak merokok.
Hal ini menunjukkan bahwa merokok dapat dianggap sebagai faktor risiko terhadap penyakit paru-paru, sehingga upaya untuk mengurangi kebiasaan merokok sangat penting dalam rangka menurunkan kemungkinan terjadinya penyakit tersebut di masyarakat.
Agresti, A. (2013). Categorical Data Analysis. John Wiley & Sons.
Hosmer, D. W., Lemeshow, S., & Sturdivant, R. X. (2013). Applied Logistic Regression (3rd ed.). John Wiley & Sons.