Pendahuluan

Dalam berbagai bidang penelitian seperti kesehatan, ekonomi, dan ilmu sosial, peneliti sering menghadapi data yang berbentuk kategori. Data kategori merupakan data yang nilainya berupa label atau kelompok tertentu dan bukan nilai numerik kontinu. Contoh variabel kategori antara lain jenis kelamin, status merokok, status penyakit, tingkat pendidikan, dan status pekerjaan.

Analisis data kategori bertujuan untuk memahami hubungan antara variabel kategorikal. Salah satu metode paling umum yang digunakan adalah tabel kontingensi. Tabel ini menyajikan frekuensi gabungan dari dua atau lebih variabel kategori sehingga memungkinkan peneliti untuk mempelajari hubungan atau asosiasi antar variabel tersebut.


1 Definisi Tabel Kontingensi

Tabel kontingensi adalah tabel yang menyajikan frekuensi gabungan dari dua atau lebih variabel kategori. Tabel ini digunakan untuk menggambarkan distribusi data dan mempelajari hubungan antara variabel kategorikal.

Secara umum tabel kontingensi digunakan untuk:

  • Menyajikan distribusi frekuensi gabungan
  • Menghitung probabilitas bersama (joint probability)
  • Menghitung distribusi marginal
  • Menghitung probabilitas bersyarat
  • Mengukur kekuatan hubungan antar variabel

Jika terdapat dua variabel kategori masing-masing dengan dua kategori maka tabel yang dihasilkan disebut tabel kontingensi 2×2.


2 Contoh Tabel Kontingensi

Misalkan dilakukan simulasi penelitian mengenai hubungan antara status merokok dan kanker paru.

Status Merokok Kanker Tidak Kanker Total
Merokok 60 40 100
Tidak Merokok 20 80 100
Total 80 120 200

Struktur umum tabel kontingensi 2×2 dapat dituliskan sebagai berikut:

Y = 1 Y = 0 Total
X = 1 \(a\) \(b\) \(a+b\)
X = 0 \(c\) \(d\) \(c+d\)
Total \(a+c\) \(b+d\) \(n\)

Total observasi:

\[ n = a + b + c + d \]


3 Ukuran Asosiasi

Ukuran asosiasi digunakan untuk mengukur kekuatan hubungan antara dua variabel kategori.

Odds

Odds merupakan rasio antara peluang kejadian dengan peluang tidak terjadinya kejadian.

\[ Odds = \frac{P}{1-P} \]

Dalam tabel kontingensi:

\[ Odds_1 = \frac{a}{b} \]

\[ Odds_0 = \frac{c}{d} \]


Odds Ratio

Odds Ratio membandingkan odds antara dua kelompok.

\[ OR = \frac{Odds_1}{Odds_0} \]

Substitusi menghasilkan:

\[ OR = \frac{a/b}{c/d} \]

Sehingga diperoleh:

\[ OR = \frac{ad}{bc} \]

Interpretasi:

  • \(OR = 1\) menunjukkan tidak ada asosiasi
  • \(OR > 1\) menunjukkan hubungan positif
  • \(OR < 1\) menunjukkan hubungan negatif

Relative Risk

Relative Risk membandingkan probabilitas kejadian pada dua kelompok.

\[ RR = \frac{P(Y=1|X=1)}{P(Y=1|X=0)} \]

Substitusi probabilitas:

\[ RR = \frac{\frac{a}{a+b}}{\frac{c}{c+d}} \]

Jika nilai RR lebih besar dari 1 maka kelompok pertama memiliki risiko lebih tinggi.


4 Contoh Perhitungan Manual

Gunakan data simulasi berikut:

Kanker Tidak Kanker
Merokok 60 40
Tidak Merokok 20 80

Total sampel:

\[ n = 60 + 40 + 20 + 80 = 200 \]

Probabilitas Bersyarat

\[ P(Kanker|Merokok)=\frac{60}{60+40}=0.6 \]

\[ P(Kanker|TidakMerokok)=\frac{20}{20+80}=0.2 \]


Odds

\[ Odds_1=\frac{60}{40}=1.5 \]

\[ Odds_0=\frac{20}{80}=0.25 \]


Odds Ratio

\[ OR=\frac{60\times80}{40\times20} \]

\[ OR=\frac{4800}{800}=6 \]

Interpretasi:

Nilai Odds Ratio sebesar 6 menunjukkan bahwa individu yang merokok memiliki peluang enam kali lebih besar mengalami kanker paru dibandingkan individu yang tidak merokok.


Analisis Menggunakan R

data <- matrix(c(60,40,20,80),
               nrow = 2,
               byrow = TRUE)

rownames(data) <- c("Merokok","Tidak Merokok")
colnames(data) <- c("Kanker","Tidak Kanker")

data
##               Kanker Tidak Kanker
## Merokok           60           40
## Tidak Merokok     20           80

Inferensi Tabel Kontingensi Dua Arah

Tabel Kontingensi 2x2

Gunakan data berikut tentang hubungan antara kebiasaan merokok dan kanker paru. Status Merokok Cancer (+) Control (-) Total Smoker 688 650 1338 Non-Smoker 21 59 80 Total 709 709 1418

Susun kembali tabel kontingensi 2 x 2 di dalam laporan Anda.

Diketahui: a = 688 b = 650 c = 21 d = 59

data <- matrix(c(688,650,
                   21,59),
                 nrow=2,
                 byrow=TRUE)
  
  rownames(data) <- c("Smoker","Non-Smoker")
  colnames(data) <- c("Cancer","Control")
  
data
##            Cancer Control
## Smoker        688     650
## Non-Smoker     21      59

Visualisasi Proporsi Kejadian Kanker Paru

Visualisasi berikut menunjukkan perbandingan proporsi kejadian kanker paru antara kelompok Smoker dan Non-Smoker.

p1 <- 688/1338
p0 <- 21/80

p1
## [1] 0.5142003
p0
## [1] 0.2625
prop <- c(p1, p0)

barplot(prop,
        names.arg=c("Smoker","Non-Smoker"),
        ylab="Proporsi Kanker Paru",
        main="Perbandingan Proporsi Kanker Paru",
        ylim=c(0,1))

Hitung estimasi titik proporsi kejadian kanker paru pada kelompok Smoker dan Non-Smoker.

Diketahui:

Total masing-masing kelompok adalah

\[ n_1 = a + b = 688 + 650 = 1338 \]

\[ n_0 = c + d = 21 + 59 = 80 \]

dengan

  • \(a\) = jumlah smoker yang mengalami kanker paru
  • \(b\) = jumlah smoker yang tidak mengalami kanker paru
  • \(c\) = jumlah non-smoker yang mengalami kanker paru
  • \(d\) = jumlah non-smoker yang tidak mengalami kanker paru

Proporsi kejadian kanker paru pada masing-masing kelompok dihitung dengan rumus

\[ p_1 = \frac{a}{a+b} \]

\[ p_0 = \frac{c}{c+d} \]

dimana

  • \(p_1\) = proporsi kanker paru pada kelompok smoker
  • \(p_0\) = proporsi kanker paru pada kelompok non-smoker

Analisis Menggunakan R

p1 <- 688/1338
p0 <- 21/80

p1
## [1] 0.5142003
p0
## [1] 0.2625

Kesimpulan Nilai ini menunjukkan bahwa sekitar 51.4% individu pada kelompok smoker mengalami kanker paru, sedangkan pada kelompok non-smoker hanya sekitar 26.25% yang mengalami kanker paru. Dengan demikian dapat disimpulkan bahwa proporsi kejadian kanker paru pada kelompok smoker lebih tinggi dibandingkan kelompok non-smoker.

Mosaic Plot Hubungan Merokok dan Kanker Paru

mosaicplot(data,
           color=TRUE,
           main="Hubungan Status Merokok dan Kanker Paru",
           xlab="Status Merokok",
           ylab="Kondisi")

Hitung interval kepercayaan 95% untuk proporsi masing-masing kelompok, RD, RR, dan OR.

1. Risk Difference

\[ RD = p_1 - p_0 \]

2. Risk Ratio

\[ RR = \frac{p_1}{p_0} \]

3. Odds Ratio

\[ OR = \frac{ad}{bc} \]

Analisis Menggunakan R

a = 688
b = 650
c = 21
d = 59

RD <- p1-p0
RR <- p1/p0
OR <- (a*d)/(b*c)

RD
## [1] 0.2517003
RR
## [1] 1.958858
OR
## [1] 2.973773

Kesimpulan Nilai Risk Difference (RD) = 0.2517 menunjukkan bahwa terdapat selisih risiko kejadian kanker paru sebesar 25.17% lebih tinggi pada kelompok smoker dibandingkan kelompok non-smoker.

Nilai Risk Ratio (RR) = 1.9589 menunjukkan bahwa risiko terkena kanker paru pada kelompok smoker hampir 1.96 kali lebih besar dibandingkan kelompok non-smoker.

Nilai Odds Ratio (OR) = 2.9738 menunjukkan bahwa peluang (odds) kejadian kanker paru pada kelompok smoker sekitar 2.97 kali lebih besar dibandingkan kelompok non-smoker.

Visualisasi Ukuran Asosiasi

assoc <- c(RD,RR,OR)

barplot(assoc,
        names.arg=c("RD","RR","OR"),
        main="Perbandingan Ukuran Asosiasi",
        ylab="Nilai Ukuran Asosiasi")


Lakukan uji dua proporsi.

Hipotesis

\[ H_0 : p_1 = p_0 \]

\[ H_1 : p_1 \neq p_0 \]

Analisis Menggunakan R

prop.test(c(a,c),c(a+b,c+d))
## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c(a, c) out of c(a + b, c + d)
## X-squared = 18.136, df = 1, p-value = 2.057e-05
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  0.1450106 0.3583900
## sample estimates:
##    prop 1    prop 2 
## 0.5142003 0.2625000

Kesimpulan

Hasil analisis menggunakan fungsi prop.test() di R menghasilkan nilai statistik uji

\[ \chi^2 = 18.136 \]

dengan nilai

\[ p\text{-value} = 2.057 \times 10^{-5} \]

Karena nilai p-value < 0.05, maka keputusan yang diambil adalah menolak \(H_0\).

Hal ini menunjukkan bahwa terdapat perbedaan proporsi kejadian kanker paru yang signifikan antara kelompok smoker dan non-smoker.


Lakukan uji chi-square independensi.

Hipotesis

\[ H_0 : \text{Tidak ada hubungan antara merokok dan kanker paru} \]

\[ H_1 : \text{Ada hubungan antara merokok dan kanker paru} \]

Analisis Menggunakan R

chisq.test(data)
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  data
## X-squared = 18.136, df = 1, p-value = 2.057e-05

Kesimpulan

Berdasarkan hasil analisis menggunakan fungsi chisq.test() diperoleh nilai statistik uji

\[ \chi^2 = 18.136 \]

dengan nilai

\[ p\text{-value} = 2.057 \times 10^{-5} \]

Karena p-value < 0.05, maka keputusan yang diambil adalah menolak \(H_0\).Hal ini menunjukkan bahwa variabel kebiasaan merokok dan kejadian kanker paru tidak bersifat independen, sehingga dapat disimpulkan bahwa terdapat hubungan antara kebiasaan merokok dan kejadian kanker paru.


Lakukan uji likelihood ratio (G^2).

\[ G^2 = 2 \sum O \ln \left(\frac{O}{E}\right) \]

Analisis Menggunakan R

library(DescTools)
GTest(data)
## 
##  Log likelihood ratio (G-test) test of independence without correction
## 
## data:  data
## G = 19.878, X-squared df = 1, p-value = 8.254e-06

Kesimpulan Berdasarkan hasil analisis menggunakan fungsi GTest() diperoleh nilai statistik uji

\[ G^2 = 19.878 \]

dengan nilai

\[ p\text{-value} = 8.254 \times 10^{-6} \]

Karena nilai p-value < 0.05, maka keputusan yang diambil adalah menolak \(H_0\).

Hal ini menunjukkan bahwa terdapat hubungan yang signifikan antara kebiasaan merokok dan kejadian kanker paru.


Lakukan Fisher exact test.

Analisis Menggunakan R

fisher.test(data)
## 
##  Fisher's Exact Test for Count Data
## 
## data:  data
## p-value = 1.476e-05
## alternative hypothesis: true odds ratio is not equal to 1
## 95 percent confidence interval:
##  1.755611 5.210711
## sample estimates:
## odds ratio 
##   2.971634

Kesimpulan Berdasarkan hasil analisis menggunakan fungsi fisher.test() diperoleh nilai

\[ p\text{-value} = 1.476 \times 10^{-5} \]

dengan estimasi

\[ OR = 2.9716 \]

Karena p-value < 0.05, maka keputusan yang diambil adalah menolak \(H_0\).

Hal ini menunjukkan bahwa terdapat hubungan yang signifikan antara kebiasaan merokok dan kejadian kanker paru.


Bandingkan hasil butir 4 sampai 7 dari sisi hipotesis, statistik uji, p-value, keputusan, dan interpretasi substantif.

Metode Hipotesis Statistik Uji p-value Keputusan
Uji dua proporsi \(p_1=p_0\) Z p-value Tolak / gagal tolak
Chi-square Independen \(\chi^2\) p-value Tolak / gagal tolak
Likelihood ratio Independen \(G^2\) p-value Tolak / gagal tolak
Fisher Independen Exact p-value Tolak / gagal tolak

Kesimpulan | Metode | Hipotesis | Statistik Uji | p-value | Keputusan | |——|——|——|——|——| | Uji Dua Proporsi | \(H_0: p_1 = p_0\) | \(\chi^2 = 18.136\) | \(2.057\times10^{-5}\) | Tolak \(H_0\) | | Chi-Square | Independen | \(\chi^2 = 18.136\) | \(2.057\times10^{-5}\) | Tolak \(H_0\) | | Likelihood Ratio | Independen | \(G^2 = 19.878\) | \(8.254\times10^{-6}\) | Tolak \(H_0\) | | Fisher Exact Test | Independen | Exact | \(1.476\times10^{-5}\) | Tolak \(H_0\) |

Berdasarkan tabel di atas terlihat bahwa semua metode pengujian memberikan hasil yang konsisten, yaitu nilai p-value lebih kecil dari 0.05, sehingga keputusan yang diambil pada setiap metode adalah menolak hipotesis nol.


Buat kesimpulan akhir tentang hubungan antara merokok dan kanker paru.

Berdasarkan seluruh analisis yang telah dilakukan, mulai dari estimasi proporsi, perhitungan ukuran asosiasi (RD, RR, OR), serta pengujian hipotesis menggunakan uji dua proporsi, uji chi-square, uji likelihood ratio, dan Fisher exact test, diperoleh hasil yang konsisten.

Kelompok smoker memiliki proporsi kejadian kanker paru sebesar \(0.514\), sedangkan kelompok non-smoker sebesar \(0.2625\). Selain itu diperoleh nilai RR = 1.9589 dan OR = 2.9738, yang menunjukkan bahwa risiko dan peluang kejadian kanker paru pada kelompok smoker jauh lebih tinggi dibandingkan kelompok non-smoker.

Selain itu seluruh metode pengujian menghasilkan p-value < 0.05, yang berarti hipotesis nol ditolak.

Dengan demikian dapat disimpulkan bahwa terdapat hubungan yang signifikan antara kebiasaan merokok dan kejadian kanker paru, di mana individu yang merokok memiliki risiko yang lebih tinggi untuk mengalami kanker paru dibandingkan individu yang tidak merokok.

Kasus 2: Tabel Kontingensi 2 x 3

Data berikut menunjukkan hubungan antara Gender dan Identifikasi Partai Politik.

Gender Democrat Republican Independent Total
Female 495 272 590 1357
Male 330 265 498 1093
Total 825 537 1088 2450

Penyusunan Tabel Kontingensi

Analisis Menggunakan R

data2 <- matrix(c(495,272,590,
                  330,265,498),
                nrow=2,
                byrow=TRUE)

rownames(data2) <- c("Female","Male")
colnames(data2) <- c("Democrat","Republican","Independent")

data2
##        Democrat Republican Independent
## Female      495        272         590
## Male        330        265         498

Kesimpulan

Tabel kontingensi di atas menunjukkan distribusi identifikasi partai politik pada kelompok Female dan Male.


Hitung Frekuensi Harapan untuk setiap sel

Frekuensi harapan dihitung dengan rumus

\[ E_{ij} = \frac{(Total\ Baris_i)(Total\ Kolom_j)}{Total\ Keseluruhan} \]

Analisis Menggunakan R

chisq.test(data2)$expected
##        Democrat Republican Independent
## Female  456.949   297.4322    602.6188
## Male    368.051   239.5678    485.3812

Kesimpulan Frekuensi harapan pada setiap sel dihitung menggunakan rumus

\[ E_{ij}=\frac{(Total\ Baris_i)(Total\ Kolom_j)}{Total\ Keseluruhan} \]

Hasil perhitungan menggunakan fungsi chisq.test(data2)$expected menunjukkan nilai frekuensi harapan sebagai berikut

\[ E = \begin{pmatrix} 456.949 & 297.4322 & 602.6188 \\ 368.051 & 239.5678 & 485.3812 \end{pmatrix} \]

Nilai tersebut menggambarkan jumlah observasi yang diharapkan pada setiap sel apabila variabel Gender dan Identifikasi Partai Politik bersifat independen. Frekuensi harapan ini selanjutnya digunakan sebagai dasar dalam perhitungan statistik uji chi-square.


Uji Chi-Square Independensi

Hipotesis

\[ H_0 : \text{Gender dan Identifikasi Partai Politik saling independen} \]

\[ H_1 : \text{Terdapat hubungan antara Gender dan Identifikasi Partai Politik} \]

Analisis Menggunakan R

chisq.test(data2)
## 
##  Pearson's Chi-squared test
## 
## data:  data2
## X-squared = 12.569, df = 2, p-value = 0.001865

Kesimpulan

Uji chi-square independensi dilakukan untuk menguji apakah terdapat hubungan antara variabel Gender dan Identifikasi Partai Politik.

Hipotesis yang diuji adalah

\[ H_0 : \text{Gender dan Identifikasi Partai Politik saling independen} \]

\[ H_1 : \text{Terdapat hubungan antara Gender dan Identifikasi Partai Politik} \]

Hasil analisis menggunakan R menghasilkan statistik uji

\[ \chi^2 = 12.569 \]

dengan derajat bebas

\[ df = 2 \]

serta nilai

\[ p\text{-value} = 0.001865 \]

Karena nilai

\[ p\text{-value} < 0.05 \]

maka hipotesis nol ditolak. Dengan demikian dapat disimpulkan bahwa terdapat hubungan yang signifikan antara Gender dan Identifikasi Partai Politik.


Residual Pearson atau standardized residual

Residual Pearson dihitung dengan rumus

\[ r_{ij} = \frac{O_{ij}-E_{ij}}{\sqrt{E_{ij}}} \]

Residual yang memiliki nilai absolut besar menunjukkan sel yang paling berkontribusi terhadap nilai chi-square.

Analisis Menggunakan R

chisq.test(data2)$residuals
##         Democrat Republican Independent
## Female  1.780051  -1.474656  -0.5140388
## Male   -1.983409   1.643125   0.5727640

Kesimpulan

Residual Pearson digunakan untuk mengetahui seberapa besar kontribusi masing-masing sel terhadap nilai chi-square. Residual Pearson dihitung menggunakan rumus

\[ r_{ij}=\frac{O_{ij}-E_{ij}}{\sqrt{E_{ij}}} \]

Nilai residual menunjukkan selisih antara frekuensi observasi dan frekuensi harapan pada setiap sel. Sel dengan nilai absolut residual yang besar menunjukkan kontribusi yang lebih besar terhadap nilai statistik chi-square.

Berdasarkan hasil analisis, kategori Female–Democrat dan Male–Democrat memiliki nilai residual yang relatif besar dibandingkan kategori lainnya. Hal ini menunjukkan bahwa distribusi observasi pada kategori tersebut berbeda cukup besar dari nilai yang diharapkan apabila kedua variabel bersifat independen.


Partisi Chi-Square

Partisi dilakukan untuk membandingkan:

  1. Democrat vs Republican
  2. (Democrat + Republican) vs Independent

Analisis Menggunakan R

# Democrat vs Republican
data_DR <- matrix(c(495,272,
                    330,265),
                  nrow=2,
                  byrow=TRUE)

chisq.test(data_DR)
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  data_DR
## X-squared = 11.178, df = 1, p-value = 0.0008279
# (Democrat + Republican) vs Independent
data_DI <- matrix(c(495+272,590,
                    330+265,498),
                  nrow=2,
                  byrow=TRUE)

chisq.test(data_DI)
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  data_DI
## X-squared = 0.98267, df = 1, p-value = 0.3215

Kesimpulan

Partisi chi-square dilakukan untuk mengetahui bagian mana dari tabel kontingensi yang paling berkontribusi terhadap hubungan antara variabel.

Perbandingan antara kategori Democrat dan Republican menghasilkan nilai

\[ p\text{-value} = 0.0008279 \]

yang menunjukkan adanya perbedaan distribusi yang signifikan antara kedua kategori tersebut.

Sementara itu perbandingan antara kelompok (Democrat + Republican) dan Independent menghasilkan nilai

\[ p\text{-value} = 0.3215 \]

yang menunjukkan bahwa perbedaan distribusi pada kelompok tersebut tidak signifikan.

Dengan demikian dapat disimpulkan bahwa kontribusi utama terhadap hubungan antara Gender dan Identifikasi Partai Politik lebih banyak berasal dari perbedaan distribusi antara kategori Democrat dan Republican.


Perbandingan Hasil Partisi Chi-Square dengan Uji Chi-Square Keseluruhan

Uji chi-square keseluruhan digunakan untuk menguji apakah terdapat hubungan antara dua variabel kategorik secara keseluruhan.

Hipotesis yang diuji adalah

\[ H_0 : \text{Gender dan Identifikasi Partai Politik bersifat independen} \]

\[ H_1 : \text{Terdapat hubungan antara Gender dan Identifikasi Partai Politik} \]

Selain itu dilakukan partisi chi-square untuk melihat bagian mana dari tabel yang paling berkontribusi terhadap hubungan tersebut, yaitu:

  1. Democrat vs Republican
  2. (Democrat + Republican) vs Independent

Analisis Menggunakan R

# Uji Chi-Square keseluruhan
chisq.test(data2)
## 
##  Pearson's Chi-squared test
## 
## data:  data2
## X-squared = 12.569, df = 2, p-value = 0.001865
# Partisi 1: Democrat vs Republican
data_DR <- matrix(c(495,272,
                    330,265),
                  nrow=2,
                  byrow=TRUE)

chisq.test(data_DR)
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  data_DR
## X-squared = 11.178, df = 1, p-value = 0.0008279
# Partisi 2: (Democrat + Republican) vs Independent
data_DI <- matrix(c(495+272,590,
                    330+265,498),
                  nrow=2,
                  byrow=TRUE)

chisq.test(data_DI)
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  data_DI
## X-squared = 0.98267, df = 1, p-value = 0.3215

Kesimpulan

Uji chi-square keseluruhan menghasilkan nilai

\[ \chi^2 = 12.569 \]

dengan

\[ p\text{-value} = 0.001865 \]

yang menunjukkan adanya hubungan yang signifikan antara Gender dan Identifikasi Partai Politik.

Hasil partisi chi-square menunjukkan bahwa kontribusi terbesar terhadap nilai chi-square keseluruhan berasal dari perbandingan antara kategori Democrat dan Republican, sedangkan perbandingan antara kelompok (Democrat + Republican) dan Independent tidak memberikan kontribusi yang signifikan.

Hal ini menunjukkan bahwa perbedaan distribusi identifikasi partai politik antara Female dan Male lebih terlihat pada kategori partai utama dibandingkan pada kategori Independent.


Kategori yang Paling Berkontribusi terhadap Hubungan Variabel

Untuk mengetahui kategori mana yang paling berkontribusi terhadap nilai chi-square digunakan residual Pearson dengan rumus

\[ r_{ij} = \frac{O_{ij}-E_{ij}}{\sqrt{E_{ij}}} \]

dengan

  • \(O_{ij}\) = frekuensi observasi
  • \(E_{ij}\) = frekuensi harapan

Semakin besar nilai absolut residual Pearson, maka semakin besar kontribusi sel tersebut terhadap nilai chi-square.

Analisis Menggunakan R

# Residual Pearson
chisq.test(data2)$residuals
##         Democrat Republican Independent
## Female  1.780051  -1.474656  -0.5140388
## Male   -1.983409   1.643125   0.5727640

Kesimpulan

Kategori yang paling berkontribusi terhadap hubungan antara kedua variabel dapat dilihat dari nilai residual Pearson yang dihitung dengan rumus

\[ r_{ij}=\frac{O_{ij}-E_{ij}}{\sqrt{E_{ij}}} \]

Semakin besar nilai absolut residual Pearson, maka semakin besar kontribusi sel tersebut terhadap nilai chi-square.

Berdasarkan hasil analisis, kategori Female–Democrat dan Male–Democrat memiliki nilai residual yang relatif besar dibandingkan kategori lainnya. Hal ini menunjukkan bahwa kategori tersebut memberikan kontribusi terbesar terhadap hubungan antara Gender dan Identifikasi Partai Politik.


Visualisasi

Mosaic Plot

mosaicplot(data2,
           color=TRUE,
           main="Hubungan Gender dan Identifikasi Partai Politik")

Kesimpulan

Mosaic plot membantu menggambarkan distribusi proporsi masing-masing kategori sehingga hubungan antar variabel dapat terlihat secara visual.


Kesimpulan Akhir

Berdasarkan seluruh analisis yang telah dilakukan, mulai dari penyusunan tabel kontingensi, perhitungan frekuensi harapan, uji chi-square independensi, analisis residual Pearson, serta partisi chi-square, diperoleh hasil analisis yang menunjukkan adanya hubungan antara Gender dan Identifikasi Partai Politik.

Hasil uji chi-square menghasilkan nilai statistik uji yang signifikan dengan p-value < 0.05, sehingga hipotesis nol yang menyatakan bahwa kedua variabel saling independen ditolak.

Analisis residual Pearson menunjukkan bahwa beberapa kategori memiliki nilai residual yang relatif besar, yang berarti kategori tersebut memberikan kontribusi paling besar terhadap nilai chi-square.

Selain itu, hasil partisi chi-square menunjukkan bahwa perbedaan distribusi partai politik juga terlihat pada perbandingan antara Democrat dan Republican, serta antara kelompok (Democrat + Republican) dan Independent.

Dengan demikian dapat disimpulkan bahwa gender memiliki hubungan dengan identifikasi partai politik, sehingga distribusi pilihan partai politik antara kelompok Female dan Male tidak sama.