Analisis data kategori merupakan cabang analisis statistik yang digunakan untuk menganalisis data yang variabelnya berbentuk kategori atau kelas tertentu. Variabel kategori adalah variabel yang memiliki skala pengukuran berupa sekumpulan kategori yang menggambarkan karakteristik objek yang diamati.
Dalam analisis data kategori, metode statistik yang digunakan umumnya berfokus pada frekuensi, proporsi, atau peluang kemunculan suatu kategori dalam populasi. Analisis ini sering digunakan untuk mempelajari hubungan antara variabel kategori melalui pendekatan probabilistik dan model statistik yang sesuai.
Variabel kategori memiliki beberapa karakteristik sebagai berikut:
Berbentuk kategori atau kelas
Nilai variabel dinyatakan dalam bentuk kategori yang menggambarkan
karakteristik objek, misalnya jenis kelamin, jenis pekerjaan, atau jenis
tempat tinggal.
Tidak memiliki makna numerik secara
langsung
Nilai kategori tidak dapat diinterpretasikan sebagai besaran numerik
sehingga operasi aritmetika seperti penjumlahan atau rata-rata tidak
relevan.
Dapat berupa nominal atau ordinal
Variabel kategori dapat bersifat nominal (tidak
memiliki urutan antar kategori) atau ordinal (memiliki
urutan atau tingkatan antar kategori).
Dianalisis menggunakan frekuensi atau
proporsi
Analisis biasanya dilakukan berdasarkan jumlah kemunculan (frekuensi)
atau proporsi pada setiap kategori.
Sering disajikan dalam tabel distribusi atau tabel
kontingensi
Data kategori umumnya ditampilkan dalam bentuk tabel frekuensi atau
tabel kontingensi untuk melihat distribusi maupun hubungan antar
variabel.
Analisis data kategori banyak digunakan dalam berbagai bidang penelitian karena banyak fenomena yang secara alami berbentuk kategori.
Penelitian kesehatan
Dalam bidang kesehatan, analisis data kategori dapat digunakan untuk menganalisis hubungan antara status merokok (perokok dan bukan perokok) dengan kejadian penyakit tertentu. Data tersebut dapat dianalisis menggunakan tabel kontingensi dan uji Chi-Square untuk mengetahui apakah terdapat hubungan yang signifikan antara kedua variabel tersebut.
Penelitian sosial
Dalam penelitian sosial, analisis data kategori dapat digunakan untuk mempelajari hubungan antara tingkat pendidikan dengan status pekerjaan.
Penelitian pemasaran
Dalam bidang pemasaran, analisis data kategori dapat digunakan untuk mengetahui hubungan antara jenis kelamin konsumen dengan preferensi terhadap suatu produk. Analisis ini membantu perusahaan memahami segmentasi pasar dan perilaku konsumen.
Tabel kontingensi merupakan tabel yang digunakan untuk menyajikan data kategorik dalam bentuk frekuensi yang menunjukkan hubungan antara dua atau lebih variabel kategori. Tabel ini biasanya digunakan untuk menggambarkan bagaimana distribusi satu variabel berhubungan dengan distribusi variabel lainnya.
Menurut Agresti (2013), tabel kontingensi merupakan alat dasar dalam analisis data kategori yang menampilkan frekuensi observasi dari kombinasi kategori antara dua atau lebih variabel. Melalui tabel ini, peneliti dapat mengamati pola hubungan antar variabel serta menjadi dasar dalam berbagai analisis statistik seperti uji Chi-Square, analisis asosiasi, dan model log-linear.
Secara umum, tabel kontingensi terdiri dari baris dan kolom yang merepresentasikan kategori dari dua variabel yang berbeda. Setiap sel pada tabel menunjukkan jumlah observasi yang termasuk dalam kombinasi kategori tertentu.
Sebagai contoh, berikut adalah tabel kontingensi 2 × 2 yang menunjukkan hubungan antara keikutsertaan dalam bimbingan belajar dan kelulusan ujian.
| Bimbingan Belajar | Lulus Ujian | Tidak Lulus | Total |
|---|---|---|---|
| Mengikuti Bimbel | 80 | 20 | 100 |
| Tidak Mengikuti | 60 | 40 | 100 |
| Total | 140 | 60 | 200 |
Pada tabel tersebut:
Sebagai contoh, nilai 80 pada sel pertama menunjukkan bahwa terdapat 80 mahasiswa yang mengikuti bimbingan belajar dan lulus ujian.
Joint distribution atau distribusi gabungan menggambarkan probabilitas terjadinya dua kategori secara bersamaan. Dalam konteks tabel kontingensi, distribusi gabungan diperoleh dengan membagi frekuensi pada setiap sel dengan jumlah total observasi.
Sebagai contoh, probabilitas seorang mahasiswa mengikuti bimbingan belajar dan lulus ujian adalah:
\[ P(\text{Bimbel dan Lulus}) = \frac{80}{200} = 0.40 \]
Nilai tersebut menunjukkan bahwa 40% dari seluruh mahasiswa dalam sampel mengikuti bimbingan belajar dan berhasil lulus ujian.
Contoh lain dari distribusi gabungan adalah probabilitas mahasiswa tidak mengikuti bimbingan belajar tetapi lulus ujian, yaitu:
\[ P(\text{Tidak Bimbel dan Lulus}) = \frac{60}{200} = 0.30 \]
Distribusi gabungan memberikan informasi mengenai peluang kombinasi dua kategori yang terjadi secara simultan dalam populasi atau sampel penelitian. Konsep ini sangat penting karena menjadi dasar dalam memahami hubungan antara dua variabel kategorik sebelum dilakukan analisis lebih lanjut seperti penghitungan ukuran asosiasi atau uji statistik.
Distribusi marginal merupakan distribusi probabilitas dari satu variabel tanpa mempertimbangkan variabel lainnya. Distribusi ini diperoleh dengan menjumlahkan frekuensi pada setiap baris atau kolom dalam tabel kontingensi.
Sebagai contoh:
\[ P(\text{Bimbel}) = \frac{100}{200} = 0.50 \]
\[ P(\text{Lulus}) = \frac{140}{200} = 0.70 \]
Distribusi marginal memberikan gambaran mengenai distribusi masing-masing variabel secara terpisah. Dalam konteks ini, distribusi marginal menunjukkan proporsi mahasiswa yang mengikuti bimbingan belajar tanpa memperhatikan hasil ujian, serta proporsi mahasiswa yang lulus ujian tanpa memperhatikan apakah mereka mengikuti bimbingan belajar atau tidak.
Probabilitas kondisional merupakan probabilitas suatu kejadian dengan syarat kejadian lain telah terjadi. Dalam tabel kontingensi, probabilitas kondisional dihitung dengan membagi frekuensi pada suatu sel dengan total frekuensi pada baris atau kolom tertentu.
Sebagai contoh, probabilitas seorang mahasiswa lulus ujian dengan syarat ia mengikuti bimbingan belajar adalah:
\[ P(\text{Lulus | Bimbel}) = \frac{80}{100} = 0.80 \]
Artinya, dari seluruh mahasiswa yang mengikuti bimbingan belajar, 80% di antaranya berhasil lulus ujian.
Sebaliknya, probabilitas seorang mahasiswa lulus ujian jika tidak mengikuti bimbingan belajar adalah:
\[ P(\text{Lulus | Tidak Bimbel}) = \frac{60}{100} = 0.60 \]
Perbandingan probabilitas kondisional tersebut menunjukkan bahwa mahasiswa yang mengikuti bimbingan belajar memiliki peluang lebih tinggi untuk lulus ujian dibandingkan mahasiswa yang tidak mengikuti bimbingan belajar.
Konsep probabilitas kondisional ini sangat penting dalam analisis data kategori karena menjadi dasar dalam memahami hubungan atau asosiasi antara dua variabel kategorik.
Ukuran asosiasi digunakan untuk mengukur kekuatan hubungan antara dua variabel kategorik dalam tabel kontingensi. Pada tabel kontingensi 2 × 2, ukuran asosiasi yang umum digunakan adalah Risk Difference (RD), Relative Risk (RR), dan Odds Ratio (OR). Ukuran-ukuran ini sering digunakan dalam berbagai penelitian untuk menilai hubungan antara suatu faktor yang diduga berpengaruh dan suatu kejadian tertentu.
Sebagai ilustrasi, digunakan tabel kontingensi 2 × 2 berikut yang menggambarkan hubungan antara keikutsertaan dalam bimbingan belajar dan kelulusan ujian.
| Lulus Ujian | Tidak Lulus | |
|---|---|---|
| Mengikuti Bimbel | a | b |
| Tidak Mengikuti | c | d |
Total observasi:
\[ n = a + b + c + d \]
Pada tabel tersebut:
Risk Difference (RD) atau selisih risiko merupakan ukuran asosiasi yang menyatakan perbedaan probabilitas kejadian antara kelompok yang mengikuti bimbingan belajar dan kelompok yang tidak mengikuti bimbingan belajar.
Secara matematis, Risk Difference dituliskan sebagai:
\[ RD = P(\text{event | bimbel}) - P(\text{event | tidak bimbel}) \]
Dalam konteks ini, kejadian (event) yang dimaksud adalah kelulusan ujian.
Dalam tabel kontingensi 2 × 2, rumusnya dapat dinyatakan sebagai:
\[ RD = \frac{a}{a+b} - \frac{c}{c+d} \]
Interpretasi dari Risk Difference adalah sebagai berikut:
Sebagai contoh, jika diperoleh nilai RD sebesar 0.20, maka dapat diinterpretasikan bahwa peluang mahasiswa yang mengikuti bimbingan belajar untuk lulus ujian lebih tinggi sebesar 20% dibandingkan mahasiswa yang tidak mengikuti bimbingan belajar.
Relative Risk (RR) atau risiko relatif merupakan ukuran asosiasi yang membandingkan probabilitas suatu kejadian antara kelompok yang mengikuti bimbingan belajar dan kelompok yang tidak mengikuti bimbingan belajar.
Secara matematis, Relative Risk dituliskan sebagai:
\[ RR = \frac{P(\text{event | bimbel})}{P(\text{event | tidak bimbel})} \]
Dalam konteks ini, kejadian (event) yang dimaksud adalah kelulusan ujian.
Dalam tabel kontingensi 2 × 2, rumus Relative Risk dapat dituliskan sebagai:
\[ RR = \frac{a/(a+b)}{c/(c+d)} \]
Interpretasi Relative Risk adalah sebagai berikut:
Sebagai contoh, jika diperoleh nilai RR sebesar 2, maka dapat diinterpretasikan bahwa mahasiswa yang mengikuti bimbingan belajar memiliki peluang dua kali lebih besar untuk lulus ujian dibandingkan mahasiswa yang tidak mengikuti bimbingan belajar.
Odds Ratio (OR) merupakan ukuran asosiasi yang membandingkan odds terjadinya suatu kejadian antara kelompok yang mengikuti bimbingan belajar dan kelompok yang tidak mengikuti bimbingan belajar. Ukuran ini sering digunakan dalam berbagai penelitian karena dapat menggambarkan kekuatan hubungan antara suatu faktor dan suatu kejadian tertentu.
Dalam konteks ini, faktor yang diamati adalah keikutsertaan mahasiswa dalam bimbingan belajar, sedangkan kejadian yang diamati adalah kelulusan ujian.
Rumus Odds Ratio pada tabel kontingensi 2 × 2 adalah:
\[ OR = \frac{a/b}{c/d} \]
yang dapat disederhanakan menjadi:
\[ OR = \frac{ad}{bc} \]
Interpretasi Odds Ratio adalah sebagai berikut:
Sebagai contoh, jika diperoleh nilai OR sebesar 3, maka dapat diinterpretasikan bahwa peluang mahasiswa yang mengikuti bimbingan belajar untuk lulus ujian tiga kali lebih besar dibandingkan mahasiswa yang tidak mengikuti bimbingan belajar.
Ketiga ukuran asosiasi tersebut memberikan informasi yang berbeda mengenai hubungan antara dua variabel kategorik. Oleh karena itu, pemilihan ukuran asosiasi yang tepat harus disesuaikan dengan desain penelitian dan tujuan analisis yang dilakukan.
Untuk memahami konsep ukuran asosiasi pada tabel kontingensi, berikut diberikan contoh kasus sederhana mengenai hubungan antara keikutsertaan dalam bimbingan belajar dan kelulusan ujian.
Misalkan dilakukan pengamatan terhadap 200 orang mahasiswa dan diperoleh data sebagai berikut.
| Keikutsertaan Bimbel | Lulus Ujian | Tidak Lulus | Total |
|---|---|---|---|
| Mengikuti Bimbel | 80 | 20 | 100 |
| Tidak Mengikuti Bimbel | 60 | 40 | 100 |
| Total | 140 | 60 | 200 |
Pada tabel tersebut dapat didefinisikan:
\[ a = 80, \quad b = 20, \quad c = 60, \quad d = 40 \]
Total pengamatan:
\[ n = a + b + c + d = 80 + 20 + 60 + 40 = 200 \]
Peluang bersyarat menunjukkan probabilitas suatu kejadian dengan syarat kejadian lain telah terjadi.
Peluang seorang mahasiswa lulus ujian dengan syarat ia mengikuti bimbingan belajar adalah:
\[ P(\text{Lulus | Mengikuti Bimbel}) = \frac{80}{100} = 0.80 \]
Artinya, 80% dari mahasiswa yang mengikuti bimbingan belajar berhasil lulus ujian.
Peluang seorang mahasiswa lulus ujian dengan syarat ia tidak mengikuti bimbingan belajar adalah:
\[ P(\text{Lulus | Tidak Mengikuti Bimbel}) = \frac{60}{100} = 0.60 \]
Artinya, 60% dari mahasiswa yang tidak mengikuti bimbingan belajar berhasil lulus ujian.
Perbandingan kedua probabilitas tersebut menunjukkan bahwa mahasiswa yang mengikuti bimbingan belajar memiliki peluang lebih besar untuk lulus ujian dibandingkan mahasiswa yang tidak mengikuti bimbingan belajar.
Odds merupakan rasio antara probabilitas terjadinya suatu kejadian dengan probabilitas kejadian tersebut tidak terjadi.
Odds kelulusan ujian pada kelompok mahasiswa yang mengikuti bimbingan belajar adalah:
\[ Odds_{bimbel} = \frac{80}{20} = 4.00 \]
Artinya, pada kelompok mahasiswa yang mengikuti bimbingan belajar terdapat sekitar 4 peluang lulus ujian dibandingkan dengan tidak lulus ujian.
Odds kelulusan ujian pada kelompok mahasiswa yang tidak mengikuti bimbingan belajar adalah:
\[ Odds_{tidak\ bimbel} = \frac{60}{40} = 1.50 \]
Artinya, pada kelompok mahasiswa yang tidak mengikuti bimbingan belajar terdapat sekitar 1.5 peluang lulus ujian dibandingkan dengan tidak lulus ujian.
Odds Ratio digunakan untuk membandingkan odds kejadian antara dua kelompok.
Rumus Odds Ratio pada tabel kontingensi 2 × 2 adalah:
\[ OR = \frac{ad}{bc} \]
Substitusi nilai dari tabel:
\[ OR = \frac{(80)(40)}{(20)(60)} \]
\[ OR = \frac{3200}{1200} \]
\[ OR = 2.67 \]
Interpretasi dari nilai tersebut adalah bahwa odds mahasiswa yang mengikuti bimbingan belajar untuk lulus ujian sekitar 2.67 kali lebih besar dibandingkan dengan mahasiswa yang tidak mengikuti bimbingan belajar.
Hasil ini menunjukkan adanya hubungan antara keikutsertaan dalam bimbingan belajar dan kelulusan ujian, di mana mahasiswa yang mengikuti bimbingan belajar memiliki peluang yang lebih tinggi untuk lulus ujian dibandingkan dengan mahasiswa yang tidak mengikuti bimbingan belajar.
Untuk melengkapi perhitungan manual yang telah dilakukan sebelumnya, analisis yang sama dapat dilakukan menggunakan perangkat lunak R. Analisis ini meliputi pembuatan tabel kontingensi, perhitungan Odds Ratio, serta pengujian hubungan antara variabel menggunakan uji Chi-Square.
Langkah pertama adalah membuat tabel kontingensi menggunakan fungsi
matrix() di R.
data <- matrix(c(80,20,60,40),
nrow = 2,
byrow = TRUE)
rownames(data) <- c("Mengikuti Bimbel","Tidak Mengikuti Bimbel")
colnames(data) <- c("Lulus Ujian","Tidak Lulus")
data## Lulus Ujian Tidak Lulus
## Mengikuti Bimbel 80 20
## Tidak Mengikuti Bimbel 60 40
data <- matrix(c(80,20,60,40),
nrow = 2,
byrow = TRUE)
rownames(data) <- c("Mengikuti Bimbel","Tidak Mengikuti Bimbel")
colnames(data) <- c("Lulus Ujian","Tidak Lulus")
data## Lulus Ujian Tidak Lulus
## Mengikuti Bimbel 80 20
## Tidak Mengikuti Bimbel 60 40
## Lulus Ujian Tidak Lulus
## Mengikuti Bimbel 0.8 0.2
## Tidak Mengikuti Bimbel 0.6 0.4
a <- data[1,1]
b <- data[1,2]
c <- data[2,1]
d <- data[2,2]
Odds_bimbel <- a/b
Odds_tidak_bimbel <- c/d
Odds_bimbel## [1] 4
## [1] 1.5
## [1] 2.666667
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: data
## X-squared = 8.5952, df = 1, p-value = 0.00337
## Lulus Ujian Tidak Lulus
## Mengikuti Bimbel 70 30
## Tidak Mengikuti Bimbel 70 30
mosaicplot(data,
main = "Hubungan Bimbingan Belajar dan Kelulusan Ujian",
col = c("lightblue","pink"))Berdasarkan hasil analisis menggunakan R, diperoleh nilai Odds Ratio sebesar
\[ OR = 2.67 \]
Nilai tersebut menunjukkan bahwa odds mahasiswa lulus ujian pada kelompok yang mengikuti bimbingan belajar sekitar 2.67 kali lebih besar dibandingkan dengan mahasiswa yang tidak mengikuti bimbingan belajar.
Selain itu, hasil uji Chi-Square menunjukkan nilai statistik
\[ X^2 = 8.595 \]
dengan derajat kebebasan
\[ df = 1 \]
serta nilai
\[ p\text{-value} = 0.00337 \]
Karena nilai p-value < 0.05, maka hipotesis nol \(H_0\) yang menyatakan bahwa tidak terdapat hubungan antara keikutsertaan dalam bimbingan belajar dan kelulusan ujian ditolak. Dengan demikian, dapat disimpulkan bahwa terdapat hubungan yang signifikan secara statistik antara keikutsertaan dalam bimbingan belajar dan keberhasilan mahasiswa dalam lulus ujian.
Dalam konteks kasus ini, hasil analisis menunjukkan bahwa mahasiswa yang mengikuti bimbingan belajar memiliki kemungkinan yang lebih tinggi untuk lulus ujian dibandingkan mahasiswa yang tidak mengikuti bimbingan belajar.
Perbedaan probabilitas kelulusan ujian antara kelompok mahasiswa yang mengikuti bimbingan belajar dan yang tidak mengikuti bimbingan belajar dapat dilihat dari peluang bersyarat yang diperoleh sebelumnya, yaitu:
\[ P(Lulus\ Ujian \mid Mengikuti\ Bimbel) = 0.8 \]
\[ P(Lulus\ Ujian \mid Tidak\ Mengikuti\ Bimbel) = 0.6 \]
Nilai tersebut menunjukkan bahwa proporsi mahasiswa yang lulus ujian pada kelompok yang mengikuti bimbingan belajar lebih tinggi dibandingkan pada kelompok mahasiswa yang tidak mengikuti bimbingan belajar.
Secara substantif, hasil ini menunjukkan bahwa keikutsertaan dalam bimbingan belajar dapat menjadi faktor yang berperan dalam meningkatkan peluang mahasiswa untuk lulus ujian. Oleh karena itu, penyediaan fasilitas bimbingan belajar yang efektif dapat menjadi salah satu strategi yang dapat membantu meningkatkan tingkat kelulusan mahasiswa dalam suatu ujian.
Agresti, A. (2013). Introduction to Categorical Data Analysis. Wiley.
Dobson, A. J. (2002). An Introduction to Generalized Linear Models. Chapman & Hall/CRC.
McCullagh, P., & Nelder, J. A. (1989). Generalized Linear Models. Chapman & Hall.