Arindy Hanum D’Coen
140610240041
Dalam berbagai bidang penelitian seperti kesehatan, ekonomi, dan ilmu sosial, peneliti sering menghadapi data yang berbentuk kategori. Data kategori merupakan data yang nilainya berupa label atau kelompok tertentu dan bukan nilai numerik kontinu. Contoh variabel kategori antara lain jenis kelamin, status merokok, status penyakit, tingkat pendidikan, dan status pekerjaan.
Analisis data kategori bertujuan untuk memahami hubungan antara variabel kategorikal. Salah satu metode paling umum yang digunakan adalah tabel kontingensi. Tabel ini menyajikan frekuensi gabungan dari dua atau lebih variabel kategori sehingga memungkinkan peneliti untuk mempelajari hubungan atau asosiasi antar variabel tersebut.
Tabel kontingensi adalah tabel yang menyajikan frekuensi gabungan dari dua atau lebih variabel kategori. Tabel ini digunakan untuk menggambarkan distribusi data dan mempelajari hubungan antara variabel kategorikal.
Secara umum tabel kontingensi digunakan untuk:
Jika terdapat dua variabel kategori masing-masing dengan dua kategori maka tabel yang dihasilkan disebut tabel kontingensi 2×2.
Misalkan dilakukan simulasi penelitian mengenai hubungan antara status merokok dan kanker paru.
| Status Merokok | Kanker | Tidak Kanker | Total |
|---|---|---|---|
| Merokok | 60 | 40 | 100 |
| Tidak Merokok | 20 | 80 | 100 |
| Total | 80 | 120 | 200 |
Struktur umum tabel kontingensi 2×2 dapat dituliskan sebagai berikut:
| Y = 1 | Y = 0 | Total | |
|---|---|---|---|
| X = 1 | \(a\) | \(b\) | \(a+b\) |
| X = 0 | \(c\) | \(d\) | \(c+d\) |
| Total | \(a+c\) | \(b+d\) | \(n\) |
Total observasi:
\[ n = a + b + c + d \]
Ukuran asosiasi digunakan untuk mengukur kekuatan hubungan antara dua variabel kategori.
Odds merupakan rasio antara peluang kejadian dengan peluang tidak terjadinya kejadian.
\[ Odds = \frac{P}{1-P} \]
Dalam tabel kontingensi:
\[ Odds_1 = \frac{a}{b} \]
\[ Odds_0 = \frac{c}{d} \]
Odds Ratio membandingkan odds antara dua kelompok.
\[ OR = \frac{Odds_1}{Odds_0} \]
Substitusi menghasilkan:
\[ OR = \frac{a/b}{c/d} \]
Sehingga diperoleh:
\[ OR = \frac{ad}{bc} \]
Interpretasi:
Relative Risk membandingkan probabilitas kejadian pada dua kelompok.
\[ RR = \frac{P(Y=1|X=1)}{P(Y=1|X=0)} \]
Substitusi probabilitas:
\[ RR = \frac{\frac{a}{a+b}}{\frac{c}{c+d}} \]
Jika nilai RR lebih besar dari 1 maka kelompok pertama memiliki risiko lebih tinggi.
Gunakan data simulasi berikut:
| Kanker | Tidak Kanker | |
|---|---|---|
| Merokok | 60 | 40 |
| Tidak Merokok | 20 | 80 |
Total sampel:
\[ n = 60 + 40 + 20 + 80 = 200 \]
\[ P(Kanker|Merokok)=\frac{60}{60+40}=0.6 \]
\[ P(Kanker|TidakMerokok)=\frac{20}{20+80}=0.2 \]
\[ Odds_1=\frac{60}{40}=1.5 \]
\[ Odds_0=\frac{20}{80}=0.25 \]
\[ OR=\frac{60\times80}{40\times20} \]
\[ OR=\frac{4800}{800}=6 \]
Interpretasi:
Nilai Odds Ratio sebesar 6 menunjukkan bahwa individu yang merokok memiliki peluang enam kali lebih besar mengalami kanker paru dibandingkan individu yang tidak merokok.
data <- matrix(c(60,40,20,80),
nrow = 2,
byrow = TRUE)
rownames(data) <- c("Merokok","Tidak Merokok")
colnames(data) <- c("Kanker","Tidak Kanker")
data
## Kanker Tidak Kanker
## Merokok 60 40
## Tidak Merokok 20 80
Gunakan data berikut tentang hubungan antara kebiasaan merokok dan kanker paru. Status Merokok Cancer (+) Control (-) Total Smoker 688 650 1338 Non-Smoker 21 59 80 Total 709 709 1418
Diketahui: a = 688 b = 650 c = 21 d = 59
data <- matrix(c(688,650,
21,59),
nrow=2,
byrow=TRUE)
rownames(data) <- c("Smoker","Non-Smoker")
colnames(data) <- c("Cancer","Control")
data
## Cancer Control
## Smoker 688 650
## Non-Smoker 21 59
Visualisasi Proporsi Kejadian Kanker Paru
Visualisasi berikut menunjukkan perbandingan proporsi kejadian kanker paru antara kelompok Smoker dan Non-Smoker.
p1 <- 688/1338
p0 <- 21/80
p1
## [1] 0.5142003
p0
## [1] 0.2625
prop <- c(p1, p0)
barplot(prop,
names.arg=c("Smoker","Non-Smoker"),
ylab="Proporsi Kanker Paru",
main="Perbandingan Proporsi Kanker Paru",
ylim=c(0,1))
Diketahui:
Total masing-masing kelompok adalah
\[ n_1 = a + b = 688 + 650 = 1338 \]
\[ n_0 = c + d = 21 + 59 = 80 \]
dengan
Proporsi kejadian kanker paru pada masing-masing kelompok dihitung dengan rumus
\[ p_1 = \frac{a}{a+b} \]
\[ p_0 = \frac{c}{c+d} \]
dimana
Analisis Menggunakan R
p1 <- 688/1338
p0 <- 21/80
p1
## [1] 0.5142003
p0
## [1] 0.2625
Kesimpulan Nilai ini menunjukkan bahwa sekitar 51.4% individu pada kelompok smoker mengalami kanker paru, sedangkan pada kelompok non-smoker hanya sekitar 26.25% yang mengalami kanker paru. Dengan demikian dapat disimpulkan bahwa proporsi kejadian kanker paru pada kelompok smoker lebih tinggi dibandingkan kelompok non-smoker.
Mosaic Plot Hubungan Merokok dan Kanker Paru
mosaicplot(data,
color=TRUE,
main="Hubungan Status Merokok dan Kanker Paru",
xlab="Status Merokok",
ylab="Kondisi")
1. Risk Difference
\[ RD = p_1 - p_0 \]
2. Risk Ratio
\[ RR = \frac{p_1}{p_0} \]
3. Odds Ratio
\[ OR = \frac{ad}{bc} \]
Analisis Menggunakan R
a = 688
b = 650
c = 21
d = 59
RD <- p1-p0
RR <- p1/p0
OR <- (a*d)/(b*c)
RD
## [1] 0.2517003
RR
## [1] 1.958858
OR
## [1] 2.973773
Kesimpulan Nilai Risk Difference (RD) = 0.2517 menunjukkan bahwa terdapat selisih risiko kejadian kanker paru sebesar 25.17% lebih tinggi pada kelompok smoker dibandingkan kelompok non-smoker.
Nilai Risk Ratio (RR) = 1.9589 menunjukkan bahwa risiko terkena kanker paru pada kelompok smoker hampir 1.96 kali lebih besar dibandingkan kelompok non-smoker.
Nilai Odds Ratio (OR) = 2.9738 menunjukkan bahwa peluang (odds) kejadian kanker paru pada kelompok smoker sekitar 2.97 kali lebih besar dibandingkan kelompok non-smoker.
Visualisasi Ukuran Asosiasi
assoc <- c(RD,RR,OR)
barplot(assoc,
names.arg=c("RD","RR","OR"),
main="Perbandingan Ukuran Asosiasi",
ylab="Nilai Ukuran Asosiasi")
Hipotesis
\[ H_0 : p_1 = p_0 \]
\[ H_1 : p_1 \neq p_0 \]
Analisis Menggunakan R
prop.test(c(a,c),c(a+b,c+d))
##
## 2-sample test for equality of proportions with continuity correction
##
## data: c(a, c) out of c(a + b, c + d)
## X-squared = 18.136, df = 1, p-value = 2.057e-05
## alternative hypothesis: two.sided
## 95 percent confidence interval:
## 0.1450106 0.3583900
## sample estimates:
## prop 1 prop 2
## 0.5142003 0.2625000
Kesimpulan
Hasil analisis menggunakan fungsi prop.test() di R
menghasilkan nilai statistik uji
\[ \chi^2 = 18.136 \]
dengan nilai
\[ p\text{-value} = 2.057 \times 10^{-5} \]
Karena nilai p-value < 0.05, maka keputusan yang diambil adalah menolak \(H_0\).
Hal ini menunjukkan bahwa terdapat perbedaan proporsi kejadian kanker paru yang signifikan antara kelompok smoker dan non-smoker.
Hipotesis
\[ H_0 : \text{Tidak ada hubungan antara merokok dan kanker paru} \]
\[ H_1 : \text{Ada hubungan antara merokok dan kanker paru} \]
Analisis Menggunakan R
chisq.test(data)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: data
## X-squared = 18.136, df = 1, p-value = 2.057e-05
Kesimpulan
Berdasarkan hasil analisis menggunakan fungsi
chisq.test() diperoleh nilai statistik uji
\[ \chi^2 = 18.136 \]
dengan nilai
\[ p\text{-value} = 2.057 \times 10^{-5} \]
Karena p-value < 0.05, maka keputusan yang diambil adalah menolak \(H_0\).Hal ini menunjukkan bahwa variabel kebiasaan merokok dan kejadian kanker paru tidak bersifat independen, sehingga dapat disimpulkan bahwa terdapat hubungan antara kebiasaan merokok dan kejadian kanker paru.
\[ G^2 = 2 \sum O \ln \left(\frac{O}{E}\right) \]
Analisis Menggunakan R
library(DescTools)
GTest(data)
##
## Log likelihood ratio (G-test) test of independence without correction
##
## data: data
## G = 19.878, X-squared df = 1, p-value = 8.254e-06
Kesimpulan Berdasarkan hasil analisis menggunakan
fungsi GTest() diperoleh nilai statistik uji
\[ G^2 = 19.878 \]
dengan nilai
\[ p\text{-value} = 8.254 \times 10^{-6} \]
Karena nilai p-value < 0.05, maka keputusan yang diambil adalah menolak \(H_0\).
Hal ini menunjukkan bahwa terdapat hubungan yang signifikan antara kebiasaan merokok dan kejadian kanker paru.
Analisis Menggunakan R
fisher.test(data)
##
## Fisher's Exact Test for Count Data
##
## data: data
## p-value = 1.476e-05
## alternative hypothesis: true odds ratio is not equal to 1
## 95 percent confidence interval:
## 1.755611 5.210711
## sample estimates:
## odds ratio
## 2.971634
Kesimpulan Berdasarkan hasil analisis menggunakan
fungsi fisher.test() diperoleh nilai
\[ p\text{-value} = 1.476 \times 10^{-5} \]
dengan estimasi
\[ OR = 2.9716 \]
Karena p-value < 0.05, maka keputusan yang diambil adalah menolak \(H_0\).
Hal ini menunjukkan bahwa terdapat hubungan yang signifikan antara kebiasaan merokok dan kejadian kanker paru.
| Metode | Hipotesis | Statistik Uji | p-value | Keputusan |
|---|---|---|---|---|
| Uji dua proporsi | \(p_1=p_0\) | Z | p-value | Tolak / gagal tolak |
| Chi-square | Independen | \(\chi^2\) | p-value | Tolak / gagal tolak |
| Likelihood ratio | Independen | \(G^2\) | p-value | Tolak / gagal tolak |
| Fisher | Independen | Exact | p-value | Tolak / gagal tolak |
Kesimpulan | Metode | Hipotesis | Statistik Uji | p-value | Keputusan | |——|——|——|——|——| | Uji Dua Proporsi | \(H_0: p_1 = p_0\) | \(\chi^2 = 18.136\) | \(2.057\times10^{-5}\) | Tolak \(H_0\) | | Chi-Square | Independen | \(\chi^2 = 18.136\) | \(2.057\times10^{-5}\) | Tolak \(H_0\) | | Likelihood Ratio | Independen | \(G^2 = 19.878\) | \(8.254\times10^{-6}\) | Tolak \(H_0\) | | Fisher Exact Test | Independen | Exact | \(1.476\times10^{-5}\) | Tolak \(H_0\) |
Berdasarkan tabel di atas terlihat bahwa semua metode pengujian memberikan hasil yang konsisten, yaitu nilai p-value lebih kecil dari 0.05, sehingga keputusan yang diambil pada setiap metode adalah menolak hipotesis nol.
Berdasarkan seluruh analisis yang telah dilakukan, mulai dari estimasi proporsi, perhitungan ukuran asosiasi (RD, RR, OR), serta pengujian hipotesis menggunakan uji dua proporsi, uji chi-square, uji likelihood ratio, dan Fisher exact test, diperoleh hasil yang konsisten.
Kelompok smoker memiliki proporsi kejadian kanker paru sebesar \(0.514\), sedangkan kelompok non-smoker sebesar \(0.2625\). Selain itu diperoleh nilai RR = 1.9589 dan OR = 2.9738, yang menunjukkan bahwa risiko dan peluang kejadian kanker paru pada kelompok smoker jauh lebih tinggi dibandingkan kelompok non-smoker.
Selain itu seluruh metode pengujian menghasilkan p-value < 0.05, yang berarti hipotesis nol ditolak.
Dengan demikian dapat disimpulkan bahwa terdapat hubungan yang signifikan antara kebiasaan merokok dan kejadian kanker paru, di mana individu yang merokok memiliki risiko yang lebih tinggi untuk mengalami kanker paru dibandingkan individu yang tidak merokok.
Data berikut menunjukkan hubungan antara Gender dan Identifikasi Partai Politik.
| Gender | Democrat | Republican | Independent | Total |
|---|---|---|---|---|
| Female | 495 | 272 | 590 | 1357 |
| Male | 330 | 265 | 498 | 1093 |
| Total | 825 | 537 | 1088 | 2450 |
Analisis Menggunakan R
data2 <- matrix(c(495,272,590,
330,265,498),
nrow=2,
byrow=TRUE)
rownames(data2) <- c("Female","Male")
colnames(data2) <- c("Democrat","Republican","Independent")
data2
## Democrat Republican Independent
## Female 495 272 590
## Male 330 265 498
Kesimpulan
Tabel kontingensi di atas menunjukkan distribusi identifikasi partai politik pada kelompok Female dan Male.
Frekuensi harapan dihitung dengan rumus
\[ E_{ij} = \frac{(Total\ Baris_i)(Total\ Kolom_j)}{Total\ Keseluruhan} \]
Analisis Menggunakan R
chisq.test(data2)$expected
## Democrat Republican Independent
## Female 456.949 297.4322 602.6188
## Male 368.051 239.5678 485.3812
Kesimpulan Frekuensi harapan pada setiap sel dihitung menggunakan rumus
\[ E_{ij}=\frac{(Total\ Baris_i)(Total\ Kolom_j)}{Total\ Keseluruhan} \]
Hasil perhitungan menggunakan fungsi
chisq.test(data2)$expected menunjukkan nilai frekuensi
harapan sebagai berikut
\[ E = \begin{pmatrix} 456.949 & 297.4322 & 602.6188 \\ 368.051 & 239.5678 & 485.3812 \end{pmatrix} \]
Nilai tersebut menggambarkan jumlah observasi yang diharapkan pada setiap sel apabila variabel Gender dan Identifikasi Partai Politik bersifat independen. Frekuensi harapan ini selanjutnya digunakan sebagai dasar dalam perhitungan statistik uji chi-square.
Hipotesis
\[ H_0 : \text{Gender dan Identifikasi Partai Politik saling independen} \]
\[ H_1 : \text{Terdapat hubungan antara Gender dan Identifikasi Partai Politik} \]
Analisis Menggunakan R
chisq.test(data2)
##
## Pearson's Chi-squared test
##
## data: data2
## X-squared = 12.569, df = 2, p-value = 0.001865
Kesimpulan
Uji chi-square independensi dilakukan untuk menguji apakah terdapat hubungan antara variabel Gender dan Identifikasi Partai Politik.
Hipotesis yang diuji adalah
\[ H_0 : \text{Gender dan Identifikasi Partai Politik saling independen} \]
\[ H_1 : \text{Terdapat hubungan antara Gender dan Identifikasi Partai Politik} \]
Hasil analisis menggunakan R menghasilkan statistik uji
\[ \chi^2 = 12.569 \]
dengan derajat bebas
\[ df = 2 \]
serta nilai
\[ p\text{-value} = 0.001865 \]
Karena nilai
\[ p\text{-value} < 0.05 \]
maka hipotesis nol ditolak. Dengan demikian dapat disimpulkan bahwa terdapat hubungan yang signifikan antara Gender dan Identifikasi Partai Politik.
Residual Pearson dihitung dengan rumus
\[ r_{ij} = \frac{O_{ij}-E_{ij}}{\sqrt{E_{ij}}} \]
Residual yang memiliki nilai absolut besar menunjukkan sel yang paling berkontribusi terhadap nilai chi-square.
Analisis Menggunakan R
chisq.test(data2)$residuals
## Democrat Republican Independent
## Female 1.780051 -1.474656 -0.5140388
## Male -1.983409 1.643125 0.5727640
Kesimpulan
Residual Pearson digunakan untuk mengetahui seberapa besar kontribusi masing-masing sel terhadap nilai chi-square. Residual Pearson dihitung menggunakan rumus
\[ r_{ij}=\frac{O_{ij}-E_{ij}}{\sqrt{E_{ij}}} \]
Nilai residual menunjukkan selisih antara frekuensi observasi dan frekuensi harapan pada setiap sel. Sel dengan nilai absolut residual yang besar menunjukkan kontribusi yang lebih besar terhadap nilai statistik chi-square.
Berdasarkan hasil analisis, kategori Female–Democrat dan Male–Democrat memiliki nilai residual yang relatif besar dibandingkan kategori lainnya. Hal ini menunjukkan bahwa distribusi observasi pada kategori tersebut berbeda cukup besar dari nilai yang diharapkan apabila kedua variabel bersifat independen.
Partisi dilakukan untuk membandingkan:
Analisis Menggunakan R
# Democrat vs Republican
data_DR <- matrix(c(495,272,
330,265),
nrow=2,
byrow=TRUE)
chisq.test(data_DR)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: data_DR
## X-squared = 11.178, df = 1, p-value = 0.0008279
# (Democrat + Republican) vs Independent
data_DI <- matrix(c(495+272,590,
330+265,498),
nrow=2,
byrow=TRUE)
chisq.test(data_DI)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: data_DI
## X-squared = 0.98267, df = 1, p-value = 0.3215
Kesimpulan
Partisi chi-square dilakukan untuk mengetahui bagian mana dari tabel kontingensi yang paling berkontribusi terhadap hubungan antara variabel.
Perbandingan antara kategori Democrat dan Republican menghasilkan nilai
\[ p\text{-value} = 0.0008279 \]
yang menunjukkan adanya perbedaan distribusi yang signifikan antara kedua kategori tersebut.
Sementara itu perbandingan antara kelompok (Democrat + Republican) dan Independent menghasilkan nilai
\[ p\text{-value} = 0.3215 \]
yang menunjukkan bahwa perbedaan distribusi pada kelompok tersebut tidak signifikan.
Dengan demikian dapat disimpulkan bahwa kontribusi utama terhadap hubungan antara Gender dan Identifikasi Partai Politik lebih banyak berasal dari perbedaan distribusi antara kategori Democrat dan Republican.
Uji chi-square keseluruhan digunakan untuk menguji apakah terdapat hubungan antara dua variabel kategorik secara keseluruhan.
Hipotesis yang diuji adalah
\[ H_0 : \text{Gender dan Identifikasi Partai Politik bersifat independen} \]
\[ H_1 : \text{Terdapat hubungan antara Gender dan Identifikasi Partai Politik} \]
Selain itu dilakukan partisi chi-square untuk melihat bagian mana dari tabel yang paling berkontribusi terhadap hubungan tersebut, yaitu:
Analisis Menggunakan R
# Uji Chi-Square keseluruhan
chisq.test(data2)
##
## Pearson's Chi-squared test
##
## data: data2
## X-squared = 12.569, df = 2, p-value = 0.001865
# Partisi 1: Democrat vs Republican
data_DR <- matrix(c(495,272,
330,265),
nrow=2,
byrow=TRUE)
chisq.test(data_DR)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: data_DR
## X-squared = 11.178, df = 1, p-value = 0.0008279
# Partisi 2: (Democrat + Republican) vs Independent
data_DI <- matrix(c(495+272,590,
330+265,498),
nrow=2,
byrow=TRUE)
chisq.test(data_DI)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: data_DI
## X-squared = 0.98267, df = 1, p-value = 0.3215
Kesimpulan
Uji chi-square keseluruhan menghasilkan nilai
\[ \chi^2 = 12.569 \]
dengan
\[ p\text{-value} = 0.001865 \]
yang menunjukkan adanya hubungan yang signifikan antara Gender dan Identifikasi Partai Politik.
Hasil partisi chi-square menunjukkan bahwa kontribusi terbesar terhadap nilai chi-square keseluruhan berasal dari perbandingan antara kategori Democrat dan Republican, sedangkan perbandingan antara kelompok (Democrat + Republican) dan Independent tidak memberikan kontribusi yang signifikan.
Hal ini menunjukkan bahwa perbedaan distribusi identifikasi partai politik antara Female dan Male lebih terlihat pada kategori partai utama dibandingkan pada kategori Independent.
Untuk mengetahui kategori mana yang paling berkontribusi terhadap nilai chi-square digunakan residual Pearson dengan rumus
\[ r_{ij} = \frac{O_{ij}-E_{ij}}{\sqrt{E_{ij}}} \]
dengan
Semakin besar nilai absolut residual Pearson, maka semakin besar kontribusi sel tersebut terhadap nilai chi-square.
Analisis Menggunakan R
# Residual Pearson
chisq.test(data2)$residuals
## Democrat Republican Independent
## Female 1.780051 -1.474656 -0.5140388
## Male -1.983409 1.643125 0.5727640
Kesimpulan
Kategori yang paling berkontribusi terhadap hubungan antara kedua variabel dapat dilihat dari nilai residual Pearson yang dihitung dengan rumus
\[ r_{ij}=\frac{O_{ij}-E_{ij}}{\sqrt{E_{ij}}} \]
Semakin besar nilai absolut residual Pearson, maka semakin besar kontribusi sel tersebut terhadap nilai chi-square.
Berdasarkan hasil analisis, kategori Female–Democrat dan Male–Democrat memiliki nilai residual yang relatif besar dibandingkan kategori lainnya. Hal ini menunjukkan bahwa kategori tersebut memberikan kontribusi terbesar terhadap hubungan antara Gender dan Identifikasi Partai Politik.
Mosaic Plot
mosaicplot(data2,
color=TRUE,
main="Hubungan Gender dan Identifikasi Partai Politik")
Kesimpulan
Mosaic plot membantu menggambarkan distribusi proporsi masing-masing kategori sehingga hubungan antar variabel dapat terlihat secara visual.
Berdasarkan seluruh analisis yang telah dilakukan, mulai dari penyusunan tabel kontingensi, perhitungan frekuensi harapan, uji chi-square independensi, analisis residual Pearson, serta partisi chi-square, diperoleh hasil analisis yang menunjukkan adanya hubungan antara Gender dan Identifikasi Partai Politik.
Hasil uji chi-square menghasilkan nilai statistik uji yang signifikan dengan p-value < 0.05, sehingga hipotesis nol yang menyatakan bahwa kedua variabel saling independen ditolak.
Analisis residual Pearson menunjukkan bahwa beberapa kategori memiliki nilai residual yang relatif besar, yang berarti kategori tersebut memberikan kontribusi paling besar terhadap nilai chi-square.
Selain itu, hasil partisi chi-square menunjukkan bahwa perbedaan distribusi partai politik juga terlihat pada perbandingan antara Democrat dan Republican, serta antara kelompok (Democrat + Republican) dan Independent.
Dengan demikian dapat disimpulkan bahwa gender memiliki hubungan dengan identifikasi partai politik, sehingga distribusi pilihan partai politik antara kelompok Female dan Male tidak sama.