1. Pendahuluan

1.1 Pengertian Analisis Data Kategori

Analisis data kategori merupakan metode statistik yang digunakan untuk menganalisis data yang berbentuk kategori atau klasifikasi, yaitu variabel yang memiliki skala pengukuran berupa sekumpulan kategori yang digunakan untuk mengklasifikasikan suatu objek, individu, atau kejadian ke dalam kelompok tertentu. Sebagai contoh, pandangan politik dapat dikategorikan sebagai liberal, moderat, atau konservatif. Variabel kategorik dapat dibedakan berdasarkan skala pengukurannya, yaitu nominal dan ordinal, serta berdasarkan jumlah kategorinya, yaitu biner (dikotomik) dan multikategori. Variabel nominal merupakan variabel kategori yang tidak memiliki urutan tertentu, sedangkan variabel ordinal memiliki urutan atau tingkatan antar kategori. Sementara itu, variabel biner hanya memiliki dua kategori, seperti ya dan tidak, sedangkan variabel multikategori memiliki lebih dari dua kategori, seperti pilihan tempat tinggal yang dapat berupa rumah, kondominium, atau apartemen.

1.2 Karakteristik Variabel Kategori

  1. Nilainya berupa kategori atau label, bukan angka yang menunjukkan besaran kuantitatif.
  2. Digunakan untuk mengklasifikasikan objek atau individu ke dalam kelompok tertentu.
  3. Dapat memiliki dua kategori (biner/dikotomik) atau lebih dari dua kategori (multikategori).
  4. Beberapa variabel memiliki urutan kategori (ordinal), sedangkan yang lain tidak memiliki urutan (nominal).

1.3 Contoh Penerapan Analisis Data Kategori

Analisis data kategori banyak digunakan dalam berbagai bidang penelitian. Beberapa contoh penerapannya adalah sebagai berikut:

  • Ilmu sosial: digunakan untuk mengukur sikap dan opini, misalnya klasifikasi pandangan politik seperti liberal, moderat, dan konservatif.
  • Ilmu kesehatan: digunakan untuk mengukur respons pasien, seperti apakah pasien selamat setelah operasi (ya/tidak), tingkat keparahan cedera (tidak ada, ringan, sedang, berat), atau tahap penyakit (awal, lanjut).
  • Ilmu perilaku: digunakan untuk mengklasifikasikan jenis gangguan mental seperti skizofrenia, depresi, dan neurosis.
  • Kesehatan masyarakat: digunakan untuk mengetahui perubahan perilaku masyarakat, misalnya apakah kesadaran tentang AIDS meningkatkan penggunaan kondom (ya/tidak).
  • Zoologi: digunakan untuk mengelompokkan jenis makanan utama hewan, misalnya makanan utama buaya berupa ikan, invertebrata, atau reptil.
  • Pendidikan: digunakan untuk mengklasifikasikan jawaban mahasiswa pada ujian menjadi benar atau salah.
  • Pemasaran: digunakan untuk menganalisis preferensi konsumen terhadap suatu produk, misalnya pilihan Merek A, Merek B, atau Merek C.

2. Tabel Kontingensi

2.1 Definisi Tabel Kontingensi

Tabel kontingensi adalah tabel yang menyajikan distribusi frekuensi dari dua atau lebih variabel kategorik secara simultan, sehingga setiap sel menunjukkan jumlah observasi pada setiap kombinasi kategori dari variabel-variabel tersebut. Tabel ini digunakan untuk melihat pola atau hubungan antar variabel kategorik.

2.2 Struktur Tabel Kontingensi

Struktur tabel kontingensi untuk dua variabel kategorik disajikan dalam bentuk tabel persegi panjang dengan \(I\) baris yang mewakili kategori variabel \(X\) dan \(J\) kolom yang mewakili variabel \(Y\). Setiap sel dalam tabel menunjukkan kombinasi kategori dari kedua variabel tersebut, sehingga terdapat \(I \times J\) kemungkinan kombinasi hasil. Berikut disajikan contoh tabel kontingensi dua arah yang menunjukkan kombinasi kategori dari dua variabel kategorik.

Tabel 1. Struktur Tabel Kontingensi 2×2

\(Y=1\) \(Y=0\) Total
\(X=1\) \(n_{11}\) \(n_{12}\) \(n_{1\cdot}\)
\(X=0\) \(n_{21}\) \(n_{22}\) \(n_{2\cdot}\)
Total \(n_{\cdot1}\) \(n_{\cdot2}\) \(n\)

dengan:

\(n_{ij} = \text{jumlah observasi pada kategori } X=i \text{ dan } Y=j\)

\(n = \sum_{i=1}^{2}\sum_{j=1}^{2} n_{ij}\)

2.3 Joint Distribution

Distribusi peluang bersama dinyatakan dengan \(\pi_{ij}\), yaitu peluang bahwa variabel \(X\) berada pada kategori ke-\(i\) dan variabel \(Y\) berada pada kategori ke-\(j\). Dalam praktiknya, nilai peluang tersebut dapat diestimasi menggunakan proporsi frekuensi pada setiap sel tabel kontingensi, yaitu

\[ \pi_{ij} = \frac{n_{ij}}{n} \]

dengan \(n_{ij}\) menyatakan jumlah observasi pada sel ke-\((i,j)\) dan \(n\) menyatakan jumlah total observasi.

2.4 Marginal Distribution

Distribusi peluang marginal merupakan distribusi peluang dari masing-masing variabel secara terpisah tanpa memperhatikan variabel lainnya. Pada tabel kontingensi, distribusi marginal diperoleh dengan menjumlahkan peluang pada setiap baris atau kolom.

Distribusi marginal untuk variabel \(X\) dinyatakan sebagai

\[ \pi_{i.} = \sum_{j=1}^{2} \pi_{ij}, \]

sedangkan distribusi marginal untuk variabel \(Y\) dinyatakan sebagai

\[ \pi_{.j} = \sum_{i=1}^{2} \pi_{ij}. \]

Sebagai contoh, berdasarkan Tabel 1, peluang marginal dapat diperoleh dari proporsi frekuensi pada setiap baris atau kolom tabel kontingensi. Karena peluang bersama diestimasi dengan

\[ \pi_{ij} = \frac{n_{ij}}{n}, \]

maka peluang marginal untuk kategori pertama variabel \(X\) diperoleh dengan

\[ \pi_{1.} = \pi_{11} + \pi_{12}. \]

Sedangkan peluang marginal untuk kategori pertama variabel \(Y\) diperoleh dengan

\[ \pi_{.1} = \pi_{11} + \pi_{21}. \]

2.5 Conditional Probability

Distribusi peluang bersyarat (conditional probability) menyatakan peluang suatu kategori dari satu variabel dengan syarat bahwa kategori variabel lainnya telah diketahui. Dalam konteks tabel kontingensi, peluang bersyarat dihitung dengan membandingkan peluang bersama dengan peluang marginal.

\[ P(Y=j \mid X=i) = \frac{\pi_{ij}}{\pi_{i.}} \]

Sebaliknya, peluang bersyarat variabel \(X\) pada kategori ke-\(i\) dengan syarat variabel \(Y\) berada pada kategori ke-\(j\) dinyatakan sebagai

\[ P(X=i \mid Y=j) = \frac{\pi_{ij}}{\pi_{.j}} \]

3. Ukuran Asosiasi

Ukuran asosiasi digunakan untuk mengukur kekuatan hubungan antara dua variabel dalam tabel kontingensi.

3.1 Odds

Odds merupakan perbandingan antara probabilitas terjadinya suatu kejadian dengan probabilitas tidak terjadinya kejadian tersebut. Dalam konteks tabel kontingensi, odds dapat dinyatakan sebagai perbandingan antara peluang suatu kejadian dan peluang komplemennya.

Secara umum, jika probabilitas suatu kejadian dinyatakan dengan \(\pi\), maka odds didefinisikan sebagai

\[ \text{Odds} = \frac{\pi}{1-\pi}. \]

3.2 Odds Ratio

Odds Ratio (OR) digunakan untuk membandingkan odds antara dua kelompok pada tabel kontingensi \(2 \times 2\). Misalkan probabilitas kejadian pada kelompok 1 adalah \(\pi_1\) dan pada kelompok 2 adalah \(\pi_2\). Maka odds pada masing-masing kelompok adalah

\[ \text{Odds}_1 = \frac{\pi_1}{1-\pi_1}, \qquad \text{Odds}_2 = \frac{\pi_2}{1-\pi_2}. \]

Odds Ratio didefinisikan sebagai

\[ OR = \frac{\text{Odds}_1}{\text{Odds}_2} = \frac{\pi_1/(1-\pi_1)}{\pi_2/(1-\pi_2)}. \]

Pada tabel kontingensi \(2 \times 2\) dengan probabilitas sel \(\pi_{ij}\), Odds Ratio juga dapat dituliskan sebagai

\[ OR = \frac{\pi_{11}\pi_{22}}{\pi_{12}\pi_{21}}. \]

Interpretasi nilai Odds Ratio adalah sebagai berikut:

  • \(OR = 1\) menunjukkan tidak terdapat asosiasi antara kedua variabel.
  • \(OR > 1\) menunjukkan kejadian lebih mungkin terjadi pada kelompok pertama.
  • \(OR < 1\) menunjukkan kejadian lebih kecil kemungkinannya terjadi pada kelompok pertama.

3.3 Relative Risk

Relative Risk (RR) merupakan ukuran yang digunakan untuk membandingkan probabilitas terjadinya suatu kejadian pada dua kondisi atau kelompok yang berbeda. Secara umum, Relative Risk didefinisikan sebagai rasio antara dua probabilitas bersyarat.

\[ RR = \frac{P(Y=1 \mid X=1)}{P(Y=1 \mid X=0)} = \frac{\pi_{11}/\pi_{1.}}{\pi_{21}/\pi_{2.}} \]

Nilai Relative Risk diinterpretasikan sebagai berikut:

  • \(RR = 1\) menunjukkan bahwa probabilitas kejadian sama pada kedua kondisi.
  • \(RR > 1\) menunjukkan bahwa probabilitas kejadian lebih besar pada kondisi pertama.
  • \(RR < 1\) menunjukkan bahwa probabilitas kejadian lebih kecil pada kondisi pertama.

4. Contoh Pengerjaan Manual

Sebuah toko ingin mengetahui apakah promosi diskon mempengaruhi keputusan konsumen untuk membeli produk. Dari survei terhadap 200 konsumen diperoleh data yang disajikan dalam tabel kontingensi berikut.

Membeli Tidak Membeli Total
Promosi 70 30 100
Tidak Promosi 40 60 100
Total 110 90 200

4.1 Menghitung Peluang Bersyarat

Peluang membeli dengan promosi:

\[ P(Y=1|X=1)=\frac{n_{11}}{n_{11}+n_{12}} \]

\[ P(Y=1|X=1)=\frac{70}{70+30}=\frac{70}{100}=0.7 \]

Peluang membeli tanpa promosi:

\[ P(Y=1|X=0)=\frac{n_{21}}{n_{21}+n_{22}} \]

\[ P(Y=1|X=0)=\frac{40}{40+60}=\frac{40}{100}=0.4 \]

4.2 Menghitung Odds

Odds membeli ketika ada promosi:

\[ \text{Odds}_1=\frac{P(Y=1|X=1)}{P(Y=0|X=1)} \]

\[ \text{Odds}_1=\frac{70/100}{30/100}=\frac{70}{30}=2.33 \]

Odds membeli tanpa promosi:

\[ \text{Odds}_0=\frac{P(Y=1|X=0)}{P(Y=0|X=0)} \]

\[ \text{Odds}_0=\frac{40/100}{60/100}=\frac{40}{60}=0.67 \]

4.3 Menghitung Odds Ratio

Odds Ratio didefinisikan sebagai:

\[ OR=\frac{\text{Odds}_1}{\text{Odds}_0} \]

atau dapat dihitung langsung dari tabel:

\[ OR=\frac{n_{11}n_{22}}{n_{12}n_{21}} \]

Substitusi nilai:

\[ OR=\frac{70\times60}{30\times40} \]

\[ OR=\frac{4200}{1200}=3.5 \]

5. Analisis Menggunakan R

# Membuat tabel kontingensi

data <- matrix(c(70,30,40,60),
               nrow = 2,
               byrow = TRUE)

rownames(data) <- c("Promosi","Tidak_Promosi")
colnames(data) <- c("Membeli","Tidak_Membeli")

data
##               Membeli Tidak_Membeli
## Promosi            70            30
## Tidak_Promosi      40            60
# Menghitung Odds Ratio
OR <- (data[1,1] * data[2,2]) / (data[1,2] * data[2,1])

OR
## [1] 3.5
# Uji Chi-Square
chisq.test(data)
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  data
## X-squared = 16.99, df = 1, p-value = 3.758e-05

6. Interpretasi Hasil

6.1 Interpretasi Statistik

Hasil analisis menunjukkan bahwa nilai Odds Ratio adalah 3.5. Karena nilainya lebih besar dari 1, hal ini menandakan adanya hubungan positif antara penerapan promosi diskon dan keputusan konsumen untuk membeli produk.

Uji Chi-Square digunakan untuk menilai apakah hubungan tersebut signifikan secara statistik. Hasil uji Chi-Square menunjukkan p-value sebesar 0. Karena p-value < 0.05, maka dapat disimpulkan bahwa hubungan antara promosi dan keputusan membeli signifikan secara statistik.

6.2 Interpretasi Substantif

Berdasarkan hasil analisis, konsumen yang menerima promosi diskon memiliki peluang sekitar 3.5 kali lebih besar untuk melakukan pembelian dibandingkan konsumen yang tidak menerima promosi. Hasil ini mengindikasikan bahwa pemberian promosi diskon dapat meningkatkan kemungkinan konsumen membeli produk di toko tersebut.

7. Referensi

Agresti, A. (2013). Categorical Data Analysis. Wiley.