Analisis data kategori merupakan metode statistik yang digunakan untuk menganalisis data yang berbentuk kategori atau klasifikasi, yaitu variabel yang memiliki skala pengukuran berupa sekumpulan kategori yang digunakan untuk mengklasifikasikan suatu objek, individu, atau kejadian ke dalam kelompok tertentu. Sebagai contoh, pandangan politik dapat dikategorikan sebagai liberal, moderat, atau konservatif. Variabel kategorik dapat dibedakan berdasarkan skala pengukurannya, yaitu nominal dan ordinal, serta berdasarkan jumlah kategorinya, yaitu biner (dikotomik) dan multikategori. Variabel nominal merupakan variabel kategori yang tidak memiliki urutan tertentu, sedangkan variabel ordinal memiliki urutan atau tingkatan antar kategori. Sementara itu, variabel biner hanya memiliki dua kategori, seperti ya dan tidak, sedangkan variabel multikategori memiliki lebih dari dua kategori, seperti pilihan tempat tinggal yang dapat berupa rumah, kondominium, atau apartemen.
Analisis data kategori banyak digunakan dalam berbagai bidang penelitian. Beberapa contoh penerapannya adalah sebagai berikut:
Tabel kontingensi adalah tabel yang menyajikan distribusi frekuensi dari dua atau lebih variabel kategorik secara simultan, sehingga setiap sel menunjukkan jumlah observasi pada setiap kombinasi kategori dari variabel-variabel tersebut. Tabel ini digunakan untuk melihat pola atau hubungan antar variabel kategorik.
Struktur tabel kontingensi untuk dua variabel kategorik disajikan dalam bentuk tabel persegi panjang dengan \(I\) baris yang mewakili kategori variabel \(X\) dan \(J\) kolom yang mewakili variabel \(Y\). Setiap sel dalam tabel menunjukkan kombinasi kategori dari kedua variabel tersebut, sehingga terdapat \(I \times J\) kemungkinan kombinasi hasil. Berikut disajikan contoh tabel kontingensi dua arah yang menunjukkan kombinasi kategori dari dua variabel kategorik.
Tabel 1. Struktur Tabel Kontingensi 2×2
| \(Y=1\) | \(Y=0\) | Total | |
|---|---|---|---|
| \(X=1\) | \(n_{11}\) | \(n_{12}\) | \(n_{1\cdot}\) |
| \(X=0\) | \(n_{21}\) | \(n_{22}\) | \(n_{2\cdot}\) |
| Total | \(n_{\cdot1}\) | \(n_{\cdot2}\) | \(n\) |
dengan:
\(n_{ij} = \text{jumlah observasi pada kategori } X=i \text{ dan } Y=j\)
\(n = \sum_{i=1}^{2}\sum_{j=1}^{2} n_{ij}\)
Distribusi peluang bersama dinyatakan dengan \(\pi_{ij}\), yaitu peluang bahwa variabel \(X\) berada pada kategori ke-\(i\) dan variabel \(Y\) berada pada kategori ke-\(j\). Dalam praktiknya, nilai peluang tersebut dapat diestimasi menggunakan proporsi frekuensi pada setiap sel tabel kontingensi, yaitu
\[ \pi_{ij} = \frac{n_{ij}}{n} \]
dengan \(n_{ij}\) menyatakan jumlah observasi pada sel ke-\((i,j)\) dan \(n\) menyatakan jumlah total observasi.
Distribusi peluang marginal merupakan distribusi peluang dari masing-masing variabel secara terpisah tanpa memperhatikan variabel lainnya. Pada tabel kontingensi, distribusi marginal diperoleh dengan menjumlahkan peluang pada setiap baris atau kolom.
Distribusi marginal untuk variabel \(X\) dinyatakan sebagai
\[ \pi_{i.} = \sum_{j=1}^{2} \pi_{ij}, \]
sedangkan distribusi marginal untuk variabel \(Y\) dinyatakan sebagai
\[ \pi_{.j} = \sum_{i=1}^{2} \pi_{ij}. \]
Sebagai contoh, berdasarkan Tabel 1, peluang marginal dapat diperoleh dari proporsi frekuensi pada setiap baris atau kolom tabel kontingensi. Karena peluang bersama diestimasi dengan
\[ \pi_{ij} = \frac{n_{ij}}{n}, \]
maka peluang marginal untuk kategori pertama variabel \(X\) diperoleh dengan
\[ \pi_{1.} = \pi_{11} + \pi_{12}. \]
Sedangkan peluang marginal untuk kategori pertama variabel \(Y\) diperoleh dengan
\[ \pi_{.1} = \pi_{11} + \pi_{21}. \]
Distribusi peluang bersyarat (conditional probability) menyatakan peluang suatu kategori dari satu variabel dengan syarat bahwa kategori variabel lainnya telah diketahui. Dalam konteks tabel kontingensi, peluang bersyarat dihitung dengan membandingkan peluang bersama dengan peluang marginal.
\[ P(Y=j \mid X=i) = \frac{\pi_{ij}}{\pi_{i.}} \]
Sebaliknya, peluang bersyarat variabel \(X\) pada kategori ke-\(i\) dengan syarat variabel \(Y\) berada pada kategori ke-\(j\) dinyatakan sebagai
\[ P(X=i \mid Y=j) = \frac{\pi_{ij}}{\pi_{.j}} \]
Ukuran asosiasi digunakan untuk mengukur kekuatan hubungan antara dua variabel dalam tabel kontingensi.
Odds merupakan perbandingan antara probabilitas terjadinya suatu kejadian dengan probabilitas tidak terjadinya kejadian tersebut. Dalam konteks tabel kontingensi, odds dapat dinyatakan sebagai perbandingan antara peluang suatu kejadian dan peluang komplemennya.
Secara umum, jika probabilitas suatu kejadian dinyatakan dengan \(\pi\), maka odds didefinisikan sebagai
\[ \text{Odds} = \frac{\pi}{1-\pi}. \]
Odds Ratio (OR) digunakan untuk membandingkan odds antara dua kelompok pada tabel kontingensi \(2 \times 2\). Misalkan probabilitas kejadian pada kelompok 1 adalah \(\pi_1\) dan pada kelompok 2 adalah \(\pi_2\). Maka odds pada masing-masing kelompok adalah
\[ \text{Odds}_1 = \frac{\pi_1}{1-\pi_1}, \qquad \text{Odds}_2 = \frac{\pi_2}{1-\pi_2}. \]
Odds Ratio didefinisikan sebagai
\[ OR = \frac{\text{Odds}_1}{\text{Odds}_2} = \frac{\pi_1/(1-\pi_1)}{\pi_2/(1-\pi_2)}. \]
Pada tabel kontingensi \(2 \times 2\) dengan probabilitas sel \(\pi_{ij}\), Odds Ratio juga dapat dituliskan sebagai
\[ OR = \frac{\pi_{11}\pi_{22}}{\pi_{12}\pi_{21}}. \]
Interpretasi nilai Odds Ratio adalah sebagai berikut:
Relative Risk (RR) merupakan ukuran yang digunakan untuk membandingkan probabilitas terjadinya suatu kejadian pada dua kondisi atau kelompok yang berbeda. Secara umum, Relative Risk didefinisikan sebagai rasio antara dua probabilitas bersyarat.
\[ RR = \frac{P(Y=1 \mid X=1)}{P(Y=1 \mid X=0)} = \frac{\pi_{11}/\pi_{1.}}{\pi_{21}/\pi_{2.}} \]
Nilai Relative Risk diinterpretasikan sebagai berikut:
Sebuah toko ingin mengetahui apakah promosi diskon mempengaruhi keputusan konsumen untuk membeli produk. Dari survei terhadap 200 konsumen diperoleh data yang disajikan dalam tabel kontingensi berikut.
| Membeli | Tidak Membeli | Total | |
|---|---|---|---|
| Promosi | 70 | 30 | 100 |
| Tidak Promosi | 40 | 60 | 100 |
| Total | 110 | 90 | 200 |
Peluang membeli dengan promosi:
\[ P(Y=1|X=1)=\frac{n_{11}}{n_{11}+n_{12}} \]
\[ P(Y=1|X=1)=\frac{70}{70+30}=\frac{70}{100}=0.7 \]
Peluang membeli tanpa promosi:
\[ P(Y=1|X=0)=\frac{n_{21}}{n_{21}+n_{22}} \]
\[ P(Y=1|X=0)=\frac{40}{40+60}=\frac{40}{100}=0.4 \]
Odds membeli ketika ada promosi:
\[ \text{Odds}_1=\frac{P(Y=1|X=1)}{P(Y=0|X=1)} \]
\[ \text{Odds}_1=\frac{70/100}{30/100}=\frac{70}{30}=2.33 \]
Odds membeli tanpa promosi:
\[ \text{Odds}_0=\frac{P(Y=1|X=0)}{P(Y=0|X=0)} \]
\[ \text{Odds}_0=\frac{40/100}{60/100}=\frac{40}{60}=0.67 \]
Odds Ratio didefinisikan sebagai:
\[ OR=\frac{\text{Odds}_1}{\text{Odds}_0} \]
atau dapat dihitung langsung dari tabel:
\[ OR=\frac{n_{11}n_{22}}{n_{12}n_{21}} \]
Substitusi nilai:
\[ OR=\frac{70\times60}{30\times40} \]
\[ OR=\frac{4200}{1200}=3.5 \]
# Membuat tabel kontingensi
data <- matrix(c(70,30,40,60),
nrow = 2,
byrow = TRUE)
rownames(data) <- c("Promosi","Tidak_Promosi")
colnames(data) <- c("Membeli","Tidak_Membeli")
data
## Membeli Tidak_Membeli
## Promosi 70 30
## Tidak_Promosi 40 60
# Menghitung Odds Ratio
OR <- (data[1,1] * data[2,2]) / (data[1,2] * data[2,1])
OR
## [1] 3.5
# Uji Chi-Square
chisq.test(data)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: data
## X-squared = 16.99, df = 1, p-value = 3.758e-05
Hasil analisis menunjukkan bahwa nilai Odds Ratio adalah 3.5. Karena nilainya lebih besar dari 1, hal ini menandakan adanya hubungan positif antara penerapan promosi diskon dan keputusan konsumen untuk membeli produk.
Uji Chi-Square digunakan untuk menilai apakah hubungan tersebut signifikan secara statistik. Hasil uji Chi-Square menunjukkan p-value sebesar 0. Karena p-value < 0.05, maka dapat disimpulkan bahwa hubungan antara promosi dan keputusan membeli signifikan secara statistik.
Berdasarkan hasil analisis, konsumen yang menerima promosi diskon memiliki peluang sekitar 3.5 kali lebih besar untuk melakukan pembelian dibandingkan konsumen yang tidak menerima promosi. Hasil ini mengindikasikan bahwa pemberian promosi diskon dapat meningkatkan kemungkinan konsumen membeli produk di toko tersebut.
Agresti, A. (2013). Categorical Data Analysis. Wiley.