Pengantar Analisis Data Kategorik - Uji Chi-Square

Video Pembelajaran - P4

Video Pembelajaran dapat diakses melalui link berikut : https://ipb.link/materipadk

Uji Kebebasan Chi-Square

Uji kebebasan chi-square digunakan untuk menentukan apakah ada hubungan yang signifikan antara dua variabel kategorikal. Contoh tipikal adalah melihat apakah ada hubungan antara jenis kelamin dan tingkat kesibukan.

Hipotesis

  • H0 (Hipotesis Nol): Tidak ada hubungan antara dua variabel, yang berarti variabel-variabel tersebut independen.
  • H1 (Hipotesis Alternatif): Ada hubungan antara dua variabel, yang berarti variabel-variabel tersebut tidak independen.

Langkah-langkah Uji Kebebasan Chi-Square

  1. Menyusun Tabel Kontingensi:

    • Sebelum melakukan uji chi-square, data harus disusun dalam bentuk tabel kontingensi yang menampilkan frekuensi pengamatan untuk setiap kombinasi kategori dari dua variabel.

    Contoh:

                    Tinggi  Sedang  Rendah  Total
    Wanita            5       26       4      35
    Pria              16      35       5      56
    Total             21      61       9      91
  2. Menghitung Frekuensi yang Diharapkan (Expected Frequencies):

    • Frekuensi yang diharapkan untuk setiap sel dalam tabel dihitung menggunakan rumus: \[ E_{ij} = \frac{(\text{Total Baris}_i \times \text{Total Kolom}_j)}{\text{Total Keseluruhan}} \]
    • Misalnya, untuk menghitung frekuensi yang diharapkan untuk wanita yang memiliki tingkat kesibukan tinggi: \[ E_{\text{Wanita, Tinggi}} = \frac{35 \times 21}{91} = 8.08 \]
  3. Menghitung Nilai Statistik Uji Chi-Square:

    • Nilai statistik uji chi-square dihitung dengan menjumlahkan kuadrat dari perbedaan antara nilai yang diamati (\(O\)) dan nilai yang diharapkan (\(E\)), dibagi dengan nilai yang diharapkan untuk setiap sel: \[ \chi^2 = \sum \frac{(O_{ij} - E_{ij})^2}{E_{ij}} \]
  4. Menentukan Derajat Kebebasan (Degrees of Freedom, df):

    • Derajat kebebasan untuk uji chi-square ditentukan oleh jumlah baris dan kolom dalam tabel kontingensi: \[ \text{df} = (\text{Jumlah Baris} - 1) \times (\text{Jumlah Kolom} - 1) \]
  5. Membandingkan Nilai Chi-Square dengan Nilai Kritis:

    • Nilai yang dihitung dari chi-square (\(\chi^2\)) dibandingkan dengan nilai kritis dari distribusi chi-square dengan tingkat signifikansi tertentu (misalnya, 0.05) dan df yang sesuai.
    • Jika nilai \(\chi^2\) lebih besar dari nilai kritis, maka H0 ditolak, yang berarti ada hubungan yang signifikan antara kedua variabel.

Implementasi dalam R

# Data tabel kontingensi
data <- matrix(c(5, 26, 4, 16, 35, 5), nrow = 2, byrow = TRUE)

# Menambahkan nama baris dan kolom
rownames(data) <- c("Wanita", "Pria")
colnames(data) <- c("Tinggi", "Sedang", "Rendah")

# Uji Chi-Square
chisq_test <- chisq.test(data)

# Hasil uji
print(chisq_test)
## 
##  Pearson's Chi-squared test
## 
## data:  data
## X-squared = 2.4872, df = 2, p-value = 0.2883
print(chisq_test$expected)
##           Tinggi   Sedang   Rendah
## Wanita  8.076923 23.46154 3.461538
## Pria   12.923077 37.53846 5.538462
  • Output:

    • X-squared: Nilai statistik chi-square yang dihitung.

    • df: Derajat kebebasan.

    • p-value: Karena p-value > 0.05 maka H0 tidak ditolak, artinya tidak adanya hubungan signifikan antara jenis kelamin dan tingkat kesibukan.

Uji Kehomogenan Chi-Square

Uji kehomogenan chi-square digunakan untuk membandingkan distribusi frekuensi dari satu variabel kategorikal pada beberapa populasi atau kelompok untuk menentukan apakah distribusi frekuensi serupa di seluruh populasi.

Hipotesis

  • H0 (Hipotesis Nol): Proporsi untuk setiap kategori variabel adalah sama di semua kelompok.
  • H1 (Hipotesis Alternatif): Proporsi untuk setiap kategori variabel berbeda di setidaknya satu kelompok.

Langkah-langkah Uji Kehomogenan Chi-Square

  1. Menyusun Tabel Kontingensi:

    • Sama seperti uji kebebasan, data harus disusun dalam bentuk tabel kontingensi. Dalam kasus ini, tabel akan menunjukkan frekuensi pengamatan dari berbagai kategori di beberapa kelompok populasi.

    Contoh:

                    Wanita  Pria  Total
    Bachelor          118    321    439
    College           281    523    804
    Doctorate          6      23     29
    HS-Gard           286    551    837
    Master            40     106    146
    No HS-Grad        96     235    331
    Total             827    1759   2586
  2. Menghitung Frekuensi yang Diharapkan (Expected Frequencies):

    • Sama seperti uji kebebasan, frekuensi yang diharapkan dihitung dengan cara yang sama.
  3. Menghitung Nilai Statistik Uji Chi-Square:

    • Nilai statistik chi-square dihitung dengan cara yang sama seperti dalam uji kebebasan.
  4. Menentukan Derajat Kebebasan:

    • Derajat kebebasan dihitung dengan rumus yang sama: \[ \text{df} = (\text{Jumlah Baris} - 1) \times (\text{Jumlah Kolom} - 1) \]
  5. Membandingkan Nilai Chi-Square dengan Nilai Kritis:

    • Jika nilai \(\chi^2\) yang dihitung lebih besar dari nilai kritis, maka H0 ditolak, yang berarti ada perbedaan signifikan dalam distribusi proporsi di antara kelompok.

Implementasi dalam R

# Data tabel kontingensi
data <- matrix(c(118, 321, 281, 523, 6, 23, 286, 551, 40, 106, 96, 235), nrow = 6, byrow = TRUE)

# Menambahkan nama baris dan kolom
rownames(data) <- c("Bachelor", "College", "Doctorate", "HS-Gard", "Master", "No HS-Grad")
colnames(data) <- c("Wanita", "Pria")

# Uji Chi-Square untuk kehomogenan
chisq_test <- chisq.test(data)

# Hasil uji
print(chisq_test)
## 
##  Pearson's Chi-squared test
## 
## data:  data
## X-squared = 14.814, df = 5, p-value = 0.01119
print(chisq_test$expected)
##                Wanita      Pria
## Bachelor   140.391725 298.60828
## College    257.118329 546.88167
## Doctorate    9.274169  19.72583
## HS-Gard    267.671694 569.32831
## Master      46.690642  99.30936
## No HS-Grad 105.853442 225.14656
  • Output:

    • X-squared: Nilai statistik chi-square yang dihitung.

    • df: Derajat kebebasan.

    • p-value: Karena p-value < 0.05, maka H0 ditolak, artinya ada perbedaan proporsi signifikan antara jenis kelamin di berbagai tingkat pendidikan.

Latihan Soal

Soal 1: Hubungan antara Status Pekerjaan dan Preferensi Transportasi

Sebuah survei dilakukan untuk mengetahui apakah ada hubungan antara status pekerjaan seseorang (pekerja penuh waktu, paruh waktu, atau tidak bekerja) dan preferensi transportasi mereka (mobil pribadi, angkutan umum, atau sepeda).

Data Tabel Kontingensi:

                   Mobil Pribadi  Angkutan Umum  Sepeda  Total
Pekerja Penuh Waktu     45             30         15      90
Pekerja Paruh Waktu     20             40         10      70
Tidak Bekerja           10             50         20      80
Total                   75            120         45      240

Pertanyaan: Apakah status pekerjaan seseorang memiliki hubungan yang signifikan dengan preferensi transportasi mereka?

Soal 2: Hubungan antara Tingkat Pendidikan dan Preferensi Pembelian Online

Sebuah studi dilakukan untuk mengetahui apakah ada hubungan antara tingkat pendidikan seseorang (SD, SMP, SMA, S1) dan preferensi pembelian barang secara online (jarang, kadang-kadang, sering).

Data Tabel Kontingensi:

                Jarang  Kadang-kadang  Sering  Total
SD               50           20        10      80
SMP              40           30        30     100
SMA              30           50        70     150
S1               20           60        70     150
Total           140          160       180     480

Pertanyaan: Apakah tingkat pendidikan seseorang memiliki hubungan yang signifikan dengan preferensi mereka untuk pembelian barang secara online?

Soal 3: Hubungan antara Usia dan Penggunaan Media Sosial

Sebuah survei dilakukan untuk mengetahui apakah ada hubungan antara kelompok usia (remaja, dewasa muda, dewasa) dan frekuensi penggunaan media sosial (setiap hari, seminggu sekali, sebulan sekali).

Data Tabel Kontingensi:

                   Setiap Hari  Seminggu Sekali  Sebulan Sekali  Total
Remaja                60             30             10          100
Dewasa Muda           70             20             10          100
Dewasa                30             50             20          100
Total                160            100             40          300

Pertanyaan: Apakah kelompok usia seseorang memiliki hubungan yang signifikan dengan frekuensi penggunaan media sosial mereka?

Soal 4: Hubungan antara Jenis Kelamin dan Preferensi Makanan

Penelitian dilakukan untuk mengetahui apakah ada hubungan antara jenis kelamin (pria, wanita) dan preferensi makanan favorit (daging, sayuran, makanan cepat saji).

Data Tabel Kontingensi:

                   Daging  Sayuran  Makanan Cepat Saji  Total
Pria                 80      30            40           150
Wanita               50      70            30           150
Total               130     100            70           300

Pertanyaan: Apakah jenis kelamin memiliki hubungan yang signifikan dengan preferensi makanan favorit?

Soal 5: Hubungan antara Lokasi Tempat Tinggal dan Frekuensi Kunjungan ke Bioskop

Sebuah studi dilakukan untuk melihat apakah ada hubungan antara lokasi tempat tinggal seseorang (kota besar, kota kecil, pedesaan) dan frekuensi kunjungan ke bioskop (sering, kadang-kadang, jarang).

Data Tabel Kontingensi:

                   Sering  Kadang-kadang  Jarang  Total
Kota Besar           60        80           60     200
Kota Kecil           30        70          100     200
Pedesaan             10        30          160     200
Total               100       180          320     600

Pertanyaan: Apakah lokasi tempat tinggal seseorang memiliki hubungan yang signifikan dengan frekuensi kunjungan mereka ke bioskop?