1 Pendahuluan

Analisis data kategori merupakan bagian penting dalam statistika yang digunakan untuk menganalisis data yang berbentuk kategori atau klasifikasi. Data kategori sering muncul dalam penelitian sosial, ekonomi, kesehatan, pendidikan, dan teknik.

Berbeda dengan data numerik yang memiliki nilai kuantitatif, data kategori menyatakan kelompok atau label. Contoh data kategori antara lain:

  • Jenis kelamin
  • Status pekerjaan
  • Tingkat pendidikan
  • Pilihan produk

Dalam praktik penelitian, data kategori biasanya dianalisis dalam bentuk frekuensi, proporsi, atau probabilitas.

E-book ini menjelaskan konsep analisis data kategori secara sistematis mulai dari teori hingga implementasi menggunakan bahasa pemrograman R.


2 Definisi Analisis Data Kategori

2.1 Pengertian Data Kategori

Data kategori (categorical data) adalah data yang nilainya menunjukkan kategori atau kelas tertentu.

Misalkan terdapat variabel acak diskrit:

\[ X \in \{1,2,...,k\} \]

dengan probabilitas:

\[ P(X=i) = p_i, \quad i = 1,2,...,k \]

dengan syarat:

\[ \sum_{i=1}^{k} p_i = 1 \]

Distribusi ini disebut distribusi multinomial jika terdapat lebih dari dua kategori.

Jika hanya dua kategori maka disebut distribusi binomial.

2.2 Jenis Data Kategori

2.2.1 Data Nominal

Data nominal tidak memiliki urutan.

Contoh:

  • warna
  • agama
  • jenis kelamin

2.2.2 Data Ordinal

Data ordinal memiliki tingkatan atau urutan.

Contoh:

  • tingkat kepuasan
  • tingkat pendidikan

Secara matematis dapat dituliskan:

\[ X_1 < X_2 < X_3 \]

namun jarak antar kategori tidak harus sama.

2.3 Tujuan Analisis Data Kategori

Tujuan utama analisis data kategori adalah:

  1. Mendeskripsikan distribusi kategori
  2. Menguji hubungan antar variabel kategori
  3. Mengukur kekuatan hubungan
  4. Membuat model probabilitas

Metode yang umum digunakan:

  • Tabel kontingensi
  • Uji Chi-Square
  • Ukuran asosiasi
  • Model log-linear

3 Tabel Kontingensi

3.1 Pengertian

Tabel kontingensi merupakan tabel yang menampilkan frekuensi bersama dari dua variabel kategori.

Misalkan terdapat variabel:

  • \(X\) dengan \(r\) kategori
  • \(Y\) dengan \(c\) kategori

Maka tabel kontingensi berukuran:

\[ r \times c \]

Frekuensi observasi dilambangkan:

\[ n_{ij} \]

dengan:

\[ i = 1,2,...,r \]

\[ j = 1,2,...,c \]

3.2 Struktur Tabel

Jumlah baris:

\[ n_{i.} = \sum_{j=1}^{c} n_{ij} \]

Jumlah kolom:

\[ n_{.j} = \sum_{i=1}^{r} n_{ij} \]

Jumlah total:

\[ N = \sum_{i=1}^{r} \sum_{j=1}^{c} n_{ij} \]

3.3 Distribusi Peluang

Probabilitas bersama:

\[ P(X=i,Y=j) = \frac{n_{ij}}{N} \]

Probabilitas marginal:

\[ P(X=i) = \frac{n_{i.}}{N} \]

\[ P(Y=j) = \frac{n_{.j}}{N} \]

Jika dua variabel independen maka:

\[ P(X=i,Y=j) = P(X=i)P(Y=j) \]


4 Ukuran Asosiasi

Ukuran asosiasi digunakan untuk mengetahui kekuatan hubungan antara variabel kategori.

4.1 Statistik Chi-Square

Statistik chi-square didefinisikan sebagai:

\[ \chi^2 = \sum_{i=1}^{r} \sum_{j=1}^{c} \frac{(O_{ij}-E_{ij})^2}{E_{ij}} \]

dengan:

  • \(O_{ij}\) = frekuensi observasi
  • \(E_{ij}\) = frekuensi harapan

Frekuensi harapan:

\[ E_{ij} = \frac{n_{i.} n_{.j}}{N} \]

Derajat bebas:

\[ df = (r-1)(c-1) \]

4.2 Koefisien Phi

Untuk tabel \(2 \times 2\) digunakan koefisien phi:

\[ \phi = \sqrt{\frac{\chi^2}{N}} \]

4.3 Koefisien Kontingensi

Koefisien kontingensi:

\[ C = \sqrt{\frac{\chi^2}{\chi^2 + N}} \]

4.4 Cramer’s V

Untuk tabel lebih besar:

\[ V = \sqrt{ \frac{\chi^2}{N(k-1)} } \]

dengan:

\[ k = \min(r,c) \]


5 Contoh Perhitungan Manual

Kopi Teh Jus Total
Laki-laki 30 10 10 50
Perempuan 20 25 5 50
Total 50 35 15 100

Frekuensi harapan:

\[ E_{ij} = \frac{n_{i.} n_{.j}}{N} \]

Contoh:

\[ E_{11} = \frac{50 \times 50}{100} = 25 \]

Statistik chi-square:

\[ \chi^2 = \sum \frac{(O_{ij}-E_{ij})^2}{E_{ij}} \]

Misalkan diperoleh:

\[ \chi^2 = 10.48 \]

Derajat bebas:

\[ df = (2-1)(3-1) = 2 \]


6 Analisis Menggunakan R

data <- matrix(c(30,10,10,
                 20,25,5),
               nrow=2,
               byrow=TRUE)

colnames(data) <- c("Kopi","Teh","Jus")
rownames(data) <- c("Laki-laki","Perempuan")

data

Uji Chi-Square:

chisq.test(data)

Menghitung Cramer’s V:

library(lsr)
cramersV(data)

7 Interpretasi Hasil

Misalkan hasil uji menghasilkan:

\[ \chi^2 = 10.48 \]

\[ p = 0.005 \]

Dengan:

\[ \alpha = 0.05 \]

Karena:

\[ p < \alpha \]

maka hipotesis nol ditolak.

Artinya terdapat hubungan signifikan antara variabel kategori.