Analisis data kategori merupakan bagian penting dalam statistika yang digunakan untuk menganalisis data yang berbentuk kategori atau klasifikasi. Data kategori sering muncul dalam penelitian sosial, ekonomi, kesehatan, pendidikan, dan teknik.
Berbeda dengan data numerik yang memiliki nilai kuantitatif, data kategori menyatakan kelompok atau label. Contoh data kategori antara lain:
Dalam praktik penelitian, data kategori biasanya dianalisis dalam bentuk frekuensi, proporsi, atau probabilitas.
E-book ini menjelaskan konsep analisis data kategori secara sistematis mulai dari teori hingga implementasi menggunakan bahasa pemrograman R.
Data kategori (categorical data) adalah data yang nilainya menunjukkan kategori atau kelas tertentu.
Misalkan terdapat variabel acak diskrit:
\[ X \in \{1,2,...,k\} \]
dengan probabilitas:
\[ P(X=i) = p_i, \quad i = 1,2,...,k \]
dengan syarat:
\[ \sum_{i=1}^{k} p_i = 1 \]
Distribusi ini disebut distribusi multinomial jika terdapat lebih dari dua kategori.
Jika hanya dua kategori maka disebut distribusi binomial.
Data nominal tidak memiliki urutan.
Contoh:
Data ordinal memiliki tingkatan atau urutan.
Contoh:
Secara matematis dapat dituliskan:
\[ X_1 < X_2 < X_3 \]
namun jarak antar kategori tidak harus sama.
Tujuan utama analisis data kategori adalah:
Metode yang umum digunakan:
Tabel kontingensi merupakan tabel yang menampilkan frekuensi bersama dari dua variabel kategori.
Misalkan terdapat variabel:
Maka tabel kontingensi berukuran:
\[ r \times c \]
Frekuensi observasi dilambangkan:
\[ n_{ij} \]
dengan:
\[ i = 1,2,...,r \]
\[ j = 1,2,...,c \]
Jumlah baris:
\[ n_{i.} = \sum_{j=1}^{c} n_{ij} \]
Jumlah kolom:
\[ n_{.j} = \sum_{i=1}^{r} n_{ij} \]
Jumlah total:
\[ N = \sum_{i=1}^{r} \sum_{j=1}^{c} n_{ij} \]
Probabilitas bersama:
\[ P(X=i,Y=j) = \frac{n_{ij}}{N} \]
Probabilitas marginal:
\[ P(X=i) = \frac{n_{i.}}{N} \]
\[ P(Y=j) = \frac{n_{.j}}{N} \]
Jika dua variabel independen maka:
\[ P(X=i,Y=j) = P(X=i)P(Y=j) \]
Ukuran asosiasi digunakan untuk mengetahui kekuatan hubungan antara variabel kategori.
Statistik chi-square didefinisikan sebagai:
\[ \chi^2 = \sum_{i=1}^{r} \sum_{j=1}^{c} \frac{(O_{ij}-E_{ij})^2}{E_{ij}} \]
dengan:
Frekuensi harapan:
\[ E_{ij} = \frac{n_{i.} n_{.j}}{N} \]
Derajat bebas:
\[ df = (r-1)(c-1) \]
Untuk tabel \(2 \times 2\) digunakan koefisien phi:
\[ \phi = \sqrt{\frac{\chi^2}{N}} \]
Koefisien kontingensi:
\[ C = \sqrt{\frac{\chi^2}{\chi^2 + N}} \]
Untuk tabel lebih besar:
\[ V = \sqrt{ \frac{\chi^2}{N(k-1)} } \]
dengan:
\[ k = \min(r,c) \]
| Kopi | Teh | Jus | Total | |
|---|---|---|---|---|
| Laki-laki | 30 | 10 | 10 | 50 |
| Perempuan | 20 | 25 | 5 | 50 |
| Total | 50 | 35 | 15 | 100 |
Frekuensi harapan:
\[ E_{ij} = \frac{n_{i.} n_{.j}}{N} \]
Contoh:
\[ E_{11} = \frac{50 \times 50}{100} = 25 \]
Statistik chi-square:
\[ \chi^2 = \sum \frac{(O_{ij}-E_{ij})^2}{E_{ij}} \]
Misalkan diperoleh:
\[ \chi^2 = 10.48 \]
Derajat bebas:
\[ df = (2-1)(3-1) = 2 \]
data <- matrix(c(30,10,10,
20,25,5),
nrow=2,
byrow=TRUE)
colnames(data) <- c("Kopi","Teh","Jus")
rownames(data) <- c("Laki-laki","Perempuan")
data
Uji Chi-Square:
chisq.test(data)
Menghitung Cramer’s V:
library(lsr)
cramersV(data)
Misalkan hasil uji menghasilkan:
\[ \chi^2 = 10.48 \]
\[ p = 0.005 \]
Dengan:
\[ \alpha = 0.05 \]
Karena:
\[ p < \alpha \]
maka hipotesis nol ditolak.
Artinya terdapat hubungan signifikan antara variabel kategori.