Analisis Data Kategori adalah sekumpulan metode statistik yang digunakan untuk menganalisis data di mana variabel responsnya (dan seringkali variabel penjelasnya) berupa kategori atau pengelompokan, bukan variabel kontinu. Menurut Agresti (2013) dalam bukunya Categorical Data Analysis, analisis ini sangat penting karena banyak penelitian ilmiah mengukur variabel kualitatif yang mengklasifikasikan subjek ke dalam beberapa kategori.
Karakteristik Variabel Kategori: Variabel kategori memiliki karakteristik diskrit dan dibagi menjadi dua jenis utama:
Contoh Penerapan Analisis Data Kategori:
Tabel kontingensi (tabel silang/ crosstabulation) adalah tabel matriks yang menampilkan distribusi frekuensi (jumlah observasi) dari variabel multivariat. Tabel ini digunakan untuk merangkum dan menguji hubungan antara dua atau lebih variabel kategori.
Sebuah tabel kontingensi dua arah berukuran \(I \times J\) terdiri dari \(I\) baris (kategori variabel \(X\)) dan \(J\) kolom (kategori variabel \(Y\)). Sel-sel dalam tabel berisi frekuensi observasi, dinotasikan dengan \(n_{ij}\) yang merupakan jumlah observasi pada baris ke-\(i\) dan kolom ke-\(j\).
Berikut adalah ilustrasi tabel kontingensi \(2 \times 2\):
| Variabel X / Variabel Y | Sukses (\(Y=1\)) | Gagal (\(Y=2\)) | Total Baris |
|---|---|---|---|
| Grup 1 (\(X=1\)) | \(n_{11}\) (\(a\)) | \(n_{12}\) (\(b\)) | \(n_{1+}\) |
| Grup 2 (\(X=2\)) | \(n_{21}\) (\(c\)) | \(n_{22}\) (\(d\)) | \(n_{2+}\) |
| Total Kolom | \(n_{+1}\) | \(n_{+2}\) | \(N\) |
Peluang gabungan mengukur kemungkinan sebuah observasi jatuh pada baris ke-\(i\) sekaligus kolom ke-\(j\) di waktu bersamaan. Dinotasikan sebagai \(\pi_{ij}\).
\[\pi_{ij} = P(X = i, Y = j) = \frac{n_{ij}}{N}\]
Total dari semua probabilitas gabungan dalam tabel adalah 1 (\(\sum \pi_{ij} = 1\)).
Distribusi marjinal adalah peluang dari suatu observasi berada di kategori baris tertentu (tanpa melihat kolom) atau kolom tertentu (tanpa melihat baris).
Peluang bersyarat adalah probabilitas bahwa observasi jatuh ke dalam kategori \(j\) dari variabel \(Y\) dengan syarat observasi tersebut berada pada kategori \(i\) dari variabel \(X\).
\[P(Y=j | X=i) = \pi_{j|i} = \frac{\pi_{ij}}{\pi_{i+}} = \frac{n_{ij}}{n_{i+}}\]
Ukuran asosiasi digunakan untuk mengukur kekuatan dan arah hubungan antara variabel-variabel kategori dalam tabel kontingensi.
Odds menyatakan rasio antara peluang terjadinya sebuah kejadian (sukses) berbanding peluang kejadian tersebut tidak terjadi (gagal). Jika \(p\) adalah probabilitas sukses:
\[Odds = \Omega = \frac{p}{1 - p}\]
Interpretasi: Jika probabilitas sukses adalah 0.8, maka probabilitas gagal adalah 0.2. \(Odds = 0.8 / 0.2 = 4\). Artinya, peluang kejadian tersebut terjadi adalah 4 kali lebih besar dibandingkan kejadian tersebut tidak terjadi.
Odds Ratio adalah rasio dari dua odds pada dua kelompok yang berbeda. OR sangat sering digunakan pada desain studi kasus-kontrol (case-control). Pada tabel \(2 \times 2\), rumusnya adalah:
\[OR = \theta = \frac{Odds_1}{Odds_2} = \frac{\pi_{1|1} / \pi_{2|1}}{\pi_{1|2} / \pi_{2|2}} = \frac{n_{11}n_{22}}{n_{12}n_{21}} = \frac{ad}{bc}\]
Interpretasi Statistik:
Relative Risk (atau Rasio Risiko) adalah rasio dari dua peluang sukses pada kelompok yang terpapar dibandingkan dengan kelompok yang tidak terpapar. Cocok digunakan pada studi kohort (cohort).
\[RR = \frac{P(Y=1 | X=1)}{P(Y=1 | X=2)} = \frac{a / (a+b)}{c / (c+d)}\]
Kasus: Hubungan antara Pemberian Kampanye Promosi (Diskon) dan Keputusan Pembelian. Misalkan sebuah toko retail mengamati 200 pelanggan dengan rincian data sebagai berikut:
| Status Promosi | Membeli | Tidak Membeli | Total |
|---|---|---|---|
| Diberi Promosi | 60 (\(a\)) | 40 (\(b\)) | 100 |
| Tidak Diberi Promosi | 20 (\(c\)) | 80 (\(d\)) | 100 |
| Total | 80 | 120 | 200 |
Peluang pelanggan membeli jika diberi promosi (\(P(Membeli|Promosi)\)): \[p_1 = \frac{a}{a+b} = \frac{60}{100} = 0.60\]
Peluang pelanggan membeli jika tidak diberi promosi (\(P(Membeli|Tidak \ Promosi)\)): \[p_2 = \frac{c}{c+d} = \frac{20}{100} = 0.20\]
Odds melakukan pembelian untuk pelanggan yang diberi promosi (\(Odds_1\)): \[Odds_1 = \frac{p_1}{1-p_1} = \frac{0.60}{1-0.60} = \frac{0.60}{0.40} = 1.5\]
Odds melakukan pembelian untuk pelanggan yang tidak diberi promosi (\(Odds_2\)): \[Odds_2 = \frac{p_2}{1-p_2} = \frac{0.20}{1-0.20} = \frac{0.20}{0.80} = 0.25\]
Menggunakan rasio dari kedua odds yang didapat: \[OR = \frac{Odds_1}{Odds_2} = \frac{1.5}{0.25} = 6\]
Menggunakan rumus perkalian silang \(\frac{ad}{bc}\): \[OR = \frac{60 \times 80}{40 \times 20} = \frac{4800}{800} = 6\]
Berikut adalah implementasi analisis yang sama menggunakan perangkat lunak R.
# 1. Membuat tabel kontingensi
data <- matrix(c(60, 40, 20, 80), nrow = 2, byrow = TRUE)
rownames(data) <- c("Diberi Promosi", "Tidak Diberi Promosi")
colnames(data) <- c("Membeli", "Tidak Membeli")
# Menampilkan tabel
cat("Tabel Kontingensi:\n")
## Tabel Kontingensi:
print(data)
## Membeli Tidak Membeli
## Diberi Promosi 60 40
## Tidak Diberi Promosi 20 80
# 2. Menghitung Odds Ratio
a <- data[1,1]
b <- data[1,2]
c <- data[2,1]
d <- data[2,2]
odds_ratio <- (a * d) / (b * c)
cat("\nNilai Odds Ratio (OR) :", odds_ratio, "\n")
##
## Nilai Odds Ratio (OR) : 6
# 3. Melakukan Uji Chi-Square
# Parameter correct=FALSE disetel untuk mencocokkan hitungan chi-square asimtotik konvensional.
hasil_chisq <- chisq.test(data, correct = FALSE)
cat("\nHasil Uji Chi-Square :\n")
##
## Hasil Uji Chi-Square :
print(hasil_chisq)
##
## Pearson's Chi-squared test
##
## data: data
## X-squared = 33.333, df = 1, p-value = 7.764e-09
Interpretasi Statistik: Berdasarkan hasil uji statistik Chi-Square menggunakan R, didapatkan nilai X-squared sebesar 33.333 dengan nilai p-value \(7.738 \times 10^{-9}\) (yang mana sangat jauh lebih kecil dari taraf signifikansi \(\alpha = 0.05\)). Karena p-value \(< 0.05\), maka kita menolak Hipotesis Nol (\(H_0\)). Secara statistik, ini menunjukkan bahwa terdapat bukti yang sangat kuat mengenai adanya asosiasi yang signifikan antara pemberian promosi dengan keputusan pembelian konsumen.
Interpretasi Substantif dalam Konteks Kasus: Dari perhitungan manual maupun output perangkat lunak R, diperoleh nilai Odds Ratio (OR) sebesar 6. Secara substantif, angka ini berarti pelanggan yang mendapatkan kampanye promosi memiliki kecenderungan (odds) 6 kali lipat lebih besar untuk melakukan pembelian produk dibandingkan dengan pelanggan yang tidak mendapatkan promosi. Hal ini mengonfirmasi bahwa kampanye promosi merupakan strategi yang sangat efektif untuk mendorong konversi penjualan pada sampel ini.