Pengantar Analisis Data Kategorik - Uji Chi-Square
Video Pembelajaran - P4
Video Pembelajaran dapat diakses melalui link berikut : https://ipb.link/materipadk
Uji Kebebasan Chi-Square
Uji kebebasan chi-square digunakan untuk menentukan apakah ada hubungan yang signifikan antara dua variabel kategorikal. Contoh tipikal adalah melihat apakah ada hubungan antara jenis kelamin dan tingkat kesibukan.
Hipotesis
- H0 (Hipotesis Nol): Tidak ada hubungan antara dua variabel, yang berarti variabel-variabel tersebut independen.
- H1 (Hipotesis Alternatif): Ada hubungan antara dua variabel, yang berarti variabel-variabel tersebut tidak independen.
Langkah-langkah Uji Kebebasan Chi-Square
Menyusun Tabel Kontingensi:
- Sebelum melakukan uji chi-square, data harus disusun dalam bentuk tabel kontingensi yang menampilkan frekuensi pengamatan untuk setiap kombinasi kategori dari dua variabel.
Contoh:
Tinggi Sedang Rendah Total Wanita 5 26 4 35 Pria 16 35 5 56 Total 21 61 9 91Menghitung Frekuensi yang Diharapkan (Expected Frequencies):
- Frekuensi yang diharapkan untuk setiap sel dalam tabel dihitung menggunakan rumus: \[ E_{ij} = \frac{(\text{Total Baris}_i \times \text{Total Kolom}_j)}{\text{Total Keseluruhan}} \]
- Misalnya, untuk menghitung frekuensi yang diharapkan untuk wanita yang memiliki tingkat kesibukan tinggi: \[ E_{\text{Wanita, Tinggi}} = \frac{35 \times 21}{91} = 8.08 \]
Menghitung Nilai Statistik Uji Chi-Square:
- Nilai statistik uji chi-square dihitung dengan menjumlahkan kuadrat dari perbedaan antara nilai yang diamati (\(O\)) dan nilai yang diharapkan (\(E\)), dibagi dengan nilai yang diharapkan untuk setiap sel: \[ \chi^2 = \sum \frac{(O_{ij} - E_{ij})^2}{E_{ij}} \]
Menentukan Derajat Kebebasan (Degrees of Freedom, df):
- Derajat kebebasan untuk uji chi-square ditentukan oleh jumlah baris dan kolom dalam tabel kontingensi: \[ \text{df} = (\text{Jumlah Baris} - 1) \times (\text{Jumlah Kolom} - 1) \]
Membandingkan Nilai Chi-Square dengan Nilai Kritis:
- Nilai yang dihitung dari chi-square (\(\chi^2\)) dibandingkan dengan nilai kritis dari distribusi chi-square dengan tingkat signifikansi tertentu (misalnya, 0.05) dan df yang sesuai.
- Jika nilai \(\chi^2\) lebih besar dari nilai kritis, maka H0 ditolak, yang berarti ada hubungan yang signifikan antara kedua variabel.
Implementasi dalam R
# Data tabel kontingensi
data <- matrix(c(5, 26, 4, 16, 35, 5), nrow = 2, byrow = TRUE)
# Menambahkan nama baris dan kolom
rownames(data) <- c("Wanita", "Pria")
colnames(data) <- c("Tinggi", "Sedang", "Rendah")
# Uji Chi-Square
chisq_test <- chisq.test(data)
# Hasil uji
print(chisq_test)##
## Pearson's Chi-squared test
##
## data: data
## X-squared = 2.4872, df = 2, p-value = 0.2883
## Tinggi Sedang Rendah
## Wanita 8.076923 23.46154 3.461538
## Pria 12.923077 37.53846 5.538462
Output:
X-squared: Nilai statistik chi-square yang dihitung.
df: Derajat kebebasan.
p-value: Karena p-value > 0.05 maka H0 tidak ditolak, artinya tidak adanya hubungan signifikan antara jenis kelamin dan tingkat kesibukan.
Uji Kehomogenan Chi-Square
Uji kehomogenan chi-square digunakan untuk membandingkan distribusi frekuensi dari satu variabel kategorikal pada beberapa populasi atau kelompok untuk menentukan apakah distribusi frekuensi serupa di seluruh populasi.
Hipotesis
- H0 (Hipotesis Nol): Proporsi untuk setiap kategori variabel adalah sama di semua kelompok.
- H1 (Hipotesis Alternatif): Proporsi untuk setiap kategori variabel berbeda di setidaknya satu kelompok.
Langkah-langkah Uji Kehomogenan Chi-Square
Menyusun Tabel Kontingensi:
- Sama seperti uji kebebasan, data harus disusun dalam bentuk tabel kontingensi. Dalam kasus ini, tabel akan menunjukkan frekuensi pengamatan dari berbagai kategori di beberapa kelompok populasi.
Contoh:
Wanita Pria Total Bachelor 118 321 439 College 281 523 804 Doctorate 6 23 29 HS-Gard 286 551 837 Master 40 106 146 No HS-Grad 96 235 331 Total 827 1759 2586Menghitung Frekuensi yang Diharapkan (Expected Frequencies):
- Sama seperti uji kebebasan, frekuensi yang diharapkan dihitung dengan cara yang sama.
Menghitung Nilai Statistik Uji Chi-Square:
- Nilai statistik chi-square dihitung dengan cara yang sama seperti dalam uji kebebasan.
Menentukan Derajat Kebebasan:
- Derajat kebebasan dihitung dengan rumus yang sama: \[ \text{df} = (\text{Jumlah Baris} - 1) \times (\text{Jumlah Kolom} - 1) \]
Membandingkan Nilai Chi-Square dengan Nilai Kritis:
- Jika nilai \(\chi^2\) yang dihitung lebih besar dari nilai kritis, maka H0 ditolak, yang berarti ada perbedaan signifikan dalam distribusi proporsi di antara kelompok.
Implementasi dalam R
# Data tabel kontingensi
data <- matrix(c(118, 321, 281, 523, 6, 23, 286, 551, 40, 106, 96, 235), nrow = 6, byrow = TRUE)
# Menambahkan nama baris dan kolom
rownames(data) <- c("Bachelor", "College", "Doctorate", "HS-Gard", "Master", "No HS-Grad")
colnames(data) <- c("Wanita", "Pria")
# Uji Chi-Square untuk kehomogenan
chisq_test <- chisq.test(data)
# Hasil uji
print(chisq_test)##
## Pearson's Chi-squared test
##
## data: data
## X-squared = 14.814, df = 5, p-value = 0.01119
## Wanita Pria
## Bachelor 140.391725 298.60828
## College 257.118329 546.88167
## Doctorate 9.274169 19.72583
## HS-Gard 267.671694 569.32831
## Master 46.690642 99.30936
## No HS-Grad 105.853442 225.14656
Output:
X-squared: Nilai statistik chi-square yang dihitung.
df: Derajat kebebasan.
p-value: Karena p-value < 0.05, maka H0 ditolak, artinya ada perbedaan proporsi signifikan antara jenis kelamin di berbagai tingkat pendidikan.
Latihan Soal
Soal 1: Hubungan antara Status Pekerjaan dan Preferensi Transportasi
Sebuah survei dilakukan untuk mengetahui apakah ada hubungan antara status pekerjaan seseorang (pekerja penuh waktu, paruh waktu, atau tidak bekerja) dan preferensi transportasi mereka (mobil pribadi, angkutan umum, atau sepeda).
Data Tabel Kontingensi:
Mobil Pribadi Angkutan Umum Sepeda Total
Pekerja Penuh Waktu 45 30 15 90
Pekerja Paruh Waktu 20 40 10 70
Tidak Bekerja 10 50 20 80
Total 75 120 45 240
Pertanyaan: Apakah status pekerjaan seseorang memiliki hubungan yang signifikan dengan preferensi transportasi mereka?
Soal 2: Hubungan antara Tingkat Pendidikan dan Preferensi Pembelian Online
Sebuah studi dilakukan untuk mengetahui apakah ada hubungan antara tingkat pendidikan seseorang (SD, SMP, SMA, S1) dan preferensi pembelian barang secara online (jarang, kadang-kadang, sering).
Data Tabel Kontingensi:
Jarang Kadang-kadang Sering Total
SD 50 20 10 80
SMP 40 30 30 100
SMA 30 50 70 150
S1 20 60 70 150
Total 140 160 180 480
Pertanyaan: Apakah tingkat pendidikan seseorang memiliki hubungan yang signifikan dengan preferensi mereka untuk pembelian barang secara online?
Soal 3: Hubungan antara Usia dan Penggunaan Media Sosial
Sebuah survei dilakukan untuk mengetahui apakah ada hubungan antara kelompok usia (remaja, dewasa muda, dewasa) dan frekuensi penggunaan media sosial (setiap hari, seminggu sekali, sebulan sekali).
Data Tabel Kontingensi:
Setiap Hari Seminggu Sekali Sebulan Sekali Total
Remaja 60 30 10 100
Dewasa Muda 70 20 10 100
Dewasa 30 50 20 100
Total 160 100 40 300
Pertanyaan: Apakah kelompok usia seseorang memiliki hubungan yang signifikan dengan frekuensi penggunaan media sosial mereka?
Soal 4: Hubungan antara Jenis Kelamin dan Preferensi Makanan
Penelitian dilakukan untuk mengetahui apakah ada hubungan antara jenis kelamin (pria, wanita) dan preferensi makanan favorit (daging, sayuran, makanan cepat saji).
Data Tabel Kontingensi:
Daging Sayuran Makanan Cepat Saji Total
Pria 80 30 40 150
Wanita 50 70 30 150
Total 130 100 70 300
Pertanyaan: Apakah jenis kelamin memiliki hubungan yang signifikan dengan preferensi makanan favorit?
Soal 5: Hubungan antara Lokasi Tempat Tinggal dan Frekuensi Kunjungan ke Bioskop
Sebuah studi dilakukan untuk melihat apakah ada hubungan antara lokasi tempat tinggal seseorang (kota besar, kota kecil, pedesaan) dan frekuensi kunjungan ke bioskop (sering, kadang-kadang, jarang).
Data Tabel Kontingensi:
Sering Kadang-kadang Jarang Total
Kota Besar 60 80 60 200
Kota Kecil 30 70 100 200
Pedesaan 10 30 160 200
Total 100 180 320 600
Pertanyaan: Apakah lokasi tempat tinggal seseorang memiliki hubungan yang signifikan dengan frekuensi kunjungan mereka ke bioskop?