1 Pendahuluan

Analisis data kategori merupakan bagian penting dalam statistika yang digunakan untuk menganalisis data yang berbentuk kategori atau klasifikasi. Data kategori sering muncul dalam penelitian sosial, ekonomi, kesehatan, pendidikan, dan teknik.

Berbeda dengan data numerik yang memiliki nilai kuantitatif, data kategori menyatakan kelompok atau label. Contoh data kategori antara lain:

Jenis kelamin
Status pekerjaan
Tingkat pendidikan
Pilihan produk

Dalam praktik penelitian, data kategori biasanya dianalisis dalam bentuk frekuensi, proporsi, atau probabilitas.

E-book ini menjelaskan konsep analisis data kategori secara sistematis mulai dari teori hingga implementasi menggunakan bahasa pemrograman R.

2 Definisi Analisis Data Kategori

2.1 Pengertian Data Kategori

Data kategori (categorical data) adalah data yang nilainya menunjukkan kategori atau kelas tertentu.

Misalkan terdapat variabel acak diskrit:

\[ X \in \{1,2,...,k\} \]

dengan probabilitas:

\[ P(X=i) = p_i, \quad i = 1,2,...,k \]

dengan syarat:

\[ \sum_{i=1}^{k} p_i = 1 \]

Distribusi ini disebut distribusi multinomial jika terdapat lebih dari dua kategori.

Jika hanya dua kategori maka disebut distribusi binomial.

2.2 Jenis Data Kategori

2.2.1 Data Nominal

Data nominal tidak memiliki urutan.

Contoh:

warna
agama
jenis kelamin

2.2.2 Data Ordinal

Data ordinal memiliki tingkatan atau urutan.

Contoh:

tingkat kepuasan
tingkat pendidikan

Secara matematis dapat dituliskan:

\[ X_1 < X_2 < X_3 \]

namun jarak antar kategori tidak harus sama.

2.3 Tujuan Analisis Data Kategori

Tujuan utama analisis data kategori adalah:

Mendeskripsikan distribusi kategori
Menguji hubungan antar variabel kategori
Mengukur kekuatan hubungan
Membuat model probabilitas

Metode yang umum digunakan:

Tabel kontingensi
Uji Chi-Square
Ukuran asosiasi
Model log-linear

3 Tabel Kontingensi

3.1 Pengertian

Tabel kontingensi merupakan tabel yang menampilkan frekuensi bersama dari dua variabel kategori.

Misalkan terdapat variabel:

\(X\) dengan \(r\) kategori
\(Y\) dengan \(c\) kategori

Maka tabel kontingensi berukuran:

\[ r \times c \]

Frekuensi observasi dilambangkan:

\[ n_{ij} \]

dengan:

\[ i = 1,2,...,r \]

\[ j = 1,2,...,c \]

3.2 Struktur Tabel

Jumlah baris:

\[ n_{i.} = \sum_{j=1}^{c} n_{ij} \]

Jumlah kolom:

\[ n_{.j} = \sum_{i=1}^{r} n_{ij} \]

Jumlah total:

\[ N = \sum_{i=1}^{r} \sum_{j=1}^{c} n_{ij} \]

3.3 Distribusi Peluang

Probabilitas bersama:

\[ P(X=i,Y=j) = \frac{n_{ij}}{N} \]

Probabilitas marginal:

\[ P(X=i) = \frac{n_{i.}}{N} \]

\[ P(Y=j) = \frac{n_{.j}}{N} \]

Jika dua variabel independen maka:

\[ P(X=i,Y=j) = P(X=i)P(Y=j) \]

4 Ukuran Asosiasi

Ukuran asosiasi digunakan untuk mengetahui kekuatan hubungan antara variabel kategori.

4.1 Statistik Chi-Square

Statistik chi-square didefinisikan sebagai:

\[ \chi^2 = \sum_{i=1}^{r} \sum_{j=1}^{c} \frac{(O_{ij}-E_{ij})^2}{E_{ij}} \]

dengan:

\(O_{ij}\) = frekuensi observasi
\(E_{ij}\) = frekuensi harapan

Frekuensi harapan:

\[ E_{ij} = \frac{n_{i.} n_{.j}}{N} \]

Derajat bebas:

\[ df = (r-1)(c-1) \]

4.2 Koefisien Phi

Untuk tabel \(2 \times 2\) digunakan koefisien phi:

\[ \phi = \sqrt{\frac{\chi^2}{N}} \]

4.3 Koefisien Kontingensi

Koefisien kontingensi:

\[ C = \sqrt{\frac{\chi^2}{\chi^2 + N}} \]

4.4 Cramer’s V

Untuk tabel lebih besar:

\[ V = \sqrt{ \frac{\chi^2}{N(k-1)} } \]

dengan:

\[ k = \min(r,c) \]

5 Contoh Perhitungan Manual

	Kopi	Teh	Jus	Total
Laki-laki	30	10	10	50
Perempuan	20	25	5	50
Total	50	35	15	100

Frekuensi harapan:

\[ E_{ij} = \frac{n_{i.} n_{.j}}{N} \]

Contoh:

\[ E_{11} = \frac{50 \times 50}{100} = 25 \]

Statistik chi-square:

\[ \chi^2 = \sum \frac{(O_{ij}-E_{ij})^2}{E_{ij}} \]

Misalkan diperoleh:

\[ \chi^2 = 10.48 \]

Derajat bebas:

\[ df = (2-1)(3-1) = 2 \]

6 Analisis Menggunakan R

data <- matrix(c(30,10,10,
                 20,25,5),
               nrow=2,
               byrow=TRUE)

colnames(data) <- c("Kopi","Teh","Jus")
rownames(data) <- c("Laki-laki","Perempuan")

data

Uji Chi-Square:

chisq.test(data)

Menghitung Cramer’s V:

library(lsr)
cramersV(data)

7 Interpretasi Hasil

Misalkan hasil uji menghasilkan:

\[ \chi^2 = 10.48 \]

\[ p = 0.005 \]

Dengan:

\[ \alpha = 0.05 \]

Karena:

\[ p < \alpha \]

maka hipotesis nol ditolak.

Artinya terdapat hubungan signifikan antara variabel kategori.

Analisis Data Kategori

Nadya Manuella Siregar

2026-03-10

1 Pendahuluan

2 Definisi Analisis Data Kategori

2.1 Pengertian Data Kategori

2.2 Jenis Data Kategori

2.2.1 Data Nominal

2.2.2 Data Ordinal

2.3 Tujuan Analisis Data Kategori

3 Tabel Kontingensi

3.1 Pengertian

3.2 Struktur Tabel

3.3 Distribusi Peluang

4 Ukuran Asosiasi

4.1 Statistik Chi-Square

4.2 Koefisien Phi

4.3 Koefisien Kontingensi

4.4 Cramer’s V

5 Contoh Perhitungan Manual

6 Analisis Menggunakan R

7 Interpretasi Hasil