Tugas 1: Pengantar Analisis Data Kategori - Zahra Putri Argakoesoemah

1.1 Definisi Analisis Data Kategori

Analisis data kategori adalah metode statistik yang digunakan untuk menganalisis data yang berbentuk kategori atau klasifikasi. Berbeda dengan data numerik yang dianalisis menggunakan metode seperti regresi, data kategori biasanya dianalisis menggunakan pendekatan berbasis frekuensi. Analisis data kategori sering menggunakan alat seperti tabel kontingensi, uji chi-square, odds ratio, dan relative risk untuk memahami hubungan antar variabel.

Variabel kategori memiliki beberapa karakteristik utama:

Nilainya berupa label atau kategori.
Tidak memiliki makna numerik secara langsung.
Operasi matematika seperti penjumlahan atau rata-rata biasanya tidak bermakna.
Analisis sering didasarkan pada frekuensi kemunculan kategori.

Contoh variabel kategori antara lain:

Jenis kelamin (laki-laki, perempuan)
Status merokok (merokok, tidak merokok)
Status penyakit (sakit, tidak sakit)
Tingkat pendidikan (SD, SMP, SMA, Perguruan Tinggi)

Misalnya dalam penelitian kesehatan, peneliti sering ingin mengetahui apakah terdapat hubungan antara kebiasaan merokok dan kejadian kanker paru. Dalam penelitian pendidikan, peneliti mungkin ingin mengetahui hubungan antara metode pembelajaran dengan tingkat kelulusan mahasiswa.

1.2 Tabel Kontingensi

Tabel kontingensi adalah tabel yang digunakan untuk menyajikan distribusi frekuensi dari dua atau lebih variabel kategori secara bersamaan. Tabel ini memungkinkan peneliti melihat hubungan antara kategori dari dua variabel.

Contoh tabel kontingensi 2 × 2 ditunjukkan sebagai berikut.

	Penyakit	Tidak Penyakit
Merokok	a	b
Tidak Merokok	c	d

Nilai a, b, c, dan d menunjukkan jumlah observasi pada masing-masing kombinasi kategori.

1.2.1 Joint Distribution

Joint distribution adalah distribusi peluang bersama dari dua variabel kategori. Dalam konteks tabel kontingensi, joint distribution diperoleh dengan membagi setiap sel dengan total observasi.

\[ P(X=i, Y=j) = \frac{n_{ij}}{n} \]

di mana \(n_{ij}\) adalah frekuensi pada sel ke-i dan ke-j, serta \(n\) adalah total observasi.

Contohnya: \[ n=a+b+c+d \] \[ P(Merokok, Penyakit) = \frac{a}{n} \\ P(Merokok, Tidak\:Penyakit) = \frac{b}{n} \\ P(Tidak\:Merokok, Penyakit) = \frac{c}{n} \\ P(Tidak\:Merokok, Tidak\:Penyakit) = \frac{d}{n} \]

1.2.2 Marginal Distribution

Marginal distribution merupakan distribusi peluang dari satu variabel tanpa memperhatikan variabel lainnya. Nilai ini diperoleh dengan menjumlahkan frekuensi pada baris atau kolom tertentu.

\[ P(X=i) = \sum_j P(X=i,Y=j) \]

Sebagai contoh untuk variabel status merokok, peluangnya adalah: \[ P(Merokok) = \frac{a+b}{n} \\ P(Tidak\:Merokok) = \frac{c+d}{n} \]

Sebagai contoh untuk variabel status penyakit, peluangnya adalah: \[ P(Penyakit) = \frac{a+c}{n} \\ P(Tidak\:Penyakit) = \frac{b+d}{n} \]

1.2.3 Conditional Probability

Conditional probability adalah peluang suatu kejadian dengan syarat kejadian lain telah terjadi.

\[ P(Y=j|X=i) = \frac{P(X=i,Y=j)}{P(X=i)} \]

Konsep ini sangat penting untuk memahami hubungan antara dua variabel kategori.

Contohnya, peluang seseorang mengalami penyakit dengan syarat ia merokok adalah: \[ P(Penyakit|Merokok) = \frac{a}{a+b} \]

Sedangkan, peluang seseorang mengalami penyakit dengan syarat ia tidak merokok adalah: \[ P(Penyakit|Tidak\:Merokok) = \frac{c}{c+d} \]

1.3 Ukuran Asosiasi

Dalam tabel kontingensi, hubungan antara dua variabel kategori dapat diukur menggunakan beberapa ukuran asosiasi.

1.3.1 Odds

Odds adalah perbandingan antara peluang terjadinya suatu kejadian dengan peluang tidak terjadinya kejadian tersebut.

\[ Odds = \frac{P}{1-P} \]

Dalam tabel kontingensi 2×2, odds kejadian penyakit pada kelompok merokok adalah:

\[ Odds_{merokok} = \frac{a}{b} \]

1.3.2 Odds Ratio

Odds Ratio (OR) adalah rasio antara dua odds.

\[ OR = \frac{ad}{bc} \]

Interpretasi Odds Ratio:

OR = 1 → tidak ada hubungan
OR > 1 → kelompok terpapar memiliki odds kejadian lebih besar
OR < 1 → kelompok terpapar memiliki odds kejadian lebih kecil

*dalam contoh, kelompok terpapar merupakan orang yang merokok

1.3.3 Relative Risk

Relative Risk (RR) membandingkan peluang kejadian pada dua kelompok.

\[ RR = \frac{a/(a+b)}{c/(c+d)} \]

Interpretasi Relative Risk (RR):

RR = 1 → tidak ada perbedaan risiko
RR > 1 → risiko pada kelompok terpapar lebih besar
RR < 1 → risiko pada kelompok terpapar lebih kecil

1.4 Contoh Perhitungan Manual

Misalkan dilakukan penelitian sederhana mengenai hubungan antara kebiasaan olahraga dan penyakit jantung.

Data simulasi diperoleh sebagai berikut.

	Penyakit Jantung	Tidak
Jarang Olahraga	40	60
Rutin Olahraga	20	80

Total observasi adalah:

\[ n = 40 + 60 + 20 + 80 = 200 \]

1.4.1 Peluang Bersyarat

Peluang penyakit jantung pada kelompok jarang olahraga:

\[ P(Penyakit|Jarang) = \frac{40}{100} = 0.4 \]

Peluang penyakit pada kelompok rutin olahraga:

\[ P(Penyakit|Rutin) = \frac{20}{100} = 0.2 \]

1.4.2 Odds

Odds penyakit pada kelompok jarang olahraga:

\[ Odds_{jarang} = \frac{40}{60} = 0.667 \]

Odds pada kelompok rutin olahraga:

\[ Odds_{rutin} = \frac{20}{80} = 0.25 \]

1.4.3 Odds Ratio

\[ OR = \frac{40 \times 80}{60 \times 20} \]

\[ OR = \frac{3200}{1200} = 2.67 \]

Artinya peluang terkena penyakit jantung pada kelompok yang jarang olahraga sekitar 2.67 kali lebih besar dibandingkan kelompok yang rutin berolahraga.

1.5 Analisis Menggunakan R

Berikut contoh analisis menggunakan perangkat lunak R.

# Membuat data simulasi
data <- matrix(c(40,60,20,80),
               nrow=2,
               byrow=TRUE)

rownames(data) <- c("Jarang_Olahraga","Rutin_Olahraga")
colnames(data) <- c("Penyakit","Tidak")

data

##                 Penyakit Tidak
## Jarang_Olahraga       40    60
## Rutin_Olahraga        20    80

Menghitung odds ratio secara manual.

a <- data[1,1]
b <- data[1,2]
c <- data[2,1]
d <- data[2,2]

OR <- (a*d)/(b*c)
OR

## [1] 2.666667

Melakukan uji chi-square untuk mengetahui apakah terdapat hubungan antara olahraga dan penyakit jantung.

chisq.test(data)

## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  data
## X-squared = 8.5952, df = 1, p-value = 0.00337

Uji chi-square digunakan untuk menguji hipotesis nol bahwa kedua variabel bersifat independen.

1.6 Interpretasi Hasil

Berdasarkan perhitungan manual diperoleh nilai Odds Ratio sebesar 2.67. Hal ini menunjukkan bahwa individu yang jarang berolahraga memiliki peluang sekitar 2.67 kali lebih besar untuk mengalami penyakit jantung dibandingkan individu yang rutin berolahraga.

hasil uji chi-square menunjukkan nilai p-value sebesar 0.00337 yang lebih kecil dari tingkat signifikansi 0.05, maka dapat disimpulkan bahwa terdapat hubungan yang signifikan antara kebiasaan olahraga dan penyakit jantung.

Hasil ini menunjukkan bahwa aktivitas fisik memiliki peran penting dalam menjaga kesehatan jantung. Individu yang rutin berolahraga cenderung memiliki risiko penyakit jantung yang lebih rendah dibandingkan mereka yang jarang berolahraga.

Tugas 6 Inferensi Tabel Kontingensi Dua Arah - Zahra Putri Argakoesoemah

Tabel kontingensi adalah penyajian data kategorik dalam bentuk baris dan kolom yang digunakan untuk melihat distribusi frekuensi serta hubungan antara dua variabel. Pada tabel kontingensi 2x2, masing-masing variabel memiliki dua kategori, sedangkan pada tabel kontingensi 2x3, salah satu variabel memiliki dua kategori dan variabel lainnya memiliki tiga kategori. Melalui tabel ini, data dapat disusun secara lebih sistematis sehingga memudahkan peneliti dalam membaca pola, membandingkan antar kategori, dan menjadi dasar untuk analisis statistik lebih lanjut, seperti pengujian hubungan antar variabel.

1 Studi Kasus Tabel Kontingensi 2x2

1.1 Tabel Kontingensi 2x2

Status Merokok	Cancer (+)	Control (−)	Total
Smoker	688	650	1338
Non-Smoker	21	59	80
Total	709	709	1418

Data disajikan dalam tabel kontingensi 2 x 2 untuk melihat hubungan antara status merokok dan kejadian kanker paru.

#Data
a <- 688   # Smoker, Cancer(+)
b <- 650   # Smoker, Control(-)
c <- 21    # Non-Smoker, Cancer(+)
d <- 59    # Non-Smoker, Control(-)

tab <- matrix(c(a, b, c, d), nrow = 2, byrow = TRUE)
rownames(tab) <- c("Smoker", "Non-Smoker")
colnames(tab) <- c("Cancer(+)", "Control(-)")

tab

##            Cancer(+) Control(-)
## Smoker           688        650
## Non-Smoker        21         59

addmargins(tab)

##            Cancer(+) Control(-)  Sum
## Smoker           688        650 1338
## Non-Smoker        21         59   80
## Sum              709        709 1418

Tabel kontingensi menunjukkan distribusi kejadian kanker paru berdasarkan status merokok. Dari total 1338 individu pada kelompok smoker, terdapat 688 kasus kanker paru, sedangkan pada kelompok non-smoker hanya terdapat 21 kasus dari total 80 individu. Secara deskriptif, jumlah kasus kanker paru jauh lebih besar pada kelompok smoker dibandingkan non-smoker.

1.2 Estimasi Titik Proporsi Kejadian Kanker Paru pada Kelompok Smoker dan Non-Smoker

Estimasi titik proporsi kejadian kanker paru pada masing-masing kelompok adalah:

\[ \hat{p}_1 = \frac{a}{a+b} \]

\[ \hat{p}_2 = \frac{c}{c+d} \]

n1 <- a + b
n2 <- c + d

p_smoker <- a / n1
p_nonsmoker <- c / n2

p_smoker

## [1] 0.5142003

p_nonsmoker

## [1] 0.2625

Proporsi kejadian kanker paru pada kelompok smoker adalah sekitar 0.514, sedangkan pada kelompok non-smoker sekitar 0.263. Hal ini menunjukkan bahwa secara relatif, kejadian kanker paru pada kelompok smoker hampir dua kali lebih tinggi dibandingkan kelompok non-smoker.

1.3 Interval Kepercayaan 95% untuk Proporsi Masing-Masing Kelompok, RD, RR, dan OR

1.3.1 CI 95% untuk proporsi masing-masing kelompok

Interval kepercayaan 95% untuk proporsi suatu kelompok dapat dituliskan secara umum sebagai:

Untuk kelompok smoker:

\[ \hat{p}_1 \pm z_{0.025}\sqrt{\frac{\hat{p}_1(1-\hat{p}_1)}{n_1}} \]

Untuk kelompok non-smoker:

\[ \hat{p}_2 \pm z_{0.025}\sqrt{\frac{\hat{p}_2(1-\hat{p}_2)}{n_2}} \]

# Smoker
prop.test(a, n1, correct = FALSE)

## 
##  1-sample proportions test without continuity correction
## 
## data:  a out of n1, null probability 0.5
## X-squared = 1.0792, df = 1, p-value = 0.2989
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
##  0.4874177 0.5409016
## sample estimates:
##         p 
## 0.5142003

# Non-Smoker
prop.test(c, n2, correct = FALSE)

## 
##  1-sample proportions test without continuity correction
## 
## data:  c out of n2, null probability 0.5
## X-squared = 18.05, df = 1, p-value = 2.152e-05
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
##  0.1785740 0.3681896
## sample estimates:
##      p 
## 0.2625

Interval kepercayaan 95% untuk proporsi pada kelompok smoker berada pada rentang yang relatif tinggi dan sempit, hal tersebut menunjukkan estimasi yang cukup presisi. Sebaliknya, interval pada kelompok non-smoker lebih lebar karena ukuran sampel lebih kecil. Perbedaan interval ini juga mengindikasikan adanya perbedaan nyata antara kedua kelompok.

1.3.2 Risk Difference (RD) dan CI 95%

Risk Difference didefinisikan sebagai:

\[ RD = \hat{p}_1 - \hat{p}_2 \]

Standar error untuk \(RD\) adalah:

\[ SE(RD) = \sqrt{\frac{\hat{p}_1(1-\hat{p}_1)}{n_1}+\frac{\hat{p}_2(1-\hat{p}_2)}{n_2}} \]

Sehingga interval kepercayaan 95% untuk \(RD\) adalah:

\[ RD \pm z_{0.025}\,SE(RD) \]

RD <- p_smoker - p_nonsmoker

SE_RD <- sqrt((p_smoker * (1 - p_smoker) / n1) +
              (p_nonsmoker * (1 - p_nonsmoker) / n2))

CI_RD <- RD + c(-1, 1) * qnorm(0.975) * SE_RD

RD

## [1] 0.2517003

CI_RD

## [1] 0.1516343 0.3517663

Nilai Risk Difference sekitar 0.25 menunjukkan bahwa terdapat peningkatan risiko absolut sebesar 25% kejadian kanker paru pada kelompok smoker dibandingkan non-smoker. Karena interval kepercayaan tidak mencakup nol, perbedaan ini bersifat signifikan secara statistik.

1.3.3 Relative Risk (RR) dan CI 95%

Relative Risk didefinisikan sebagai:

\[ RR = \frac{\hat{p}_1}{\hat{p}_2} \]

Untuk interval kepercayaan, digunakan transformasi logaritma:

\[ \ln(RR) = \ln\left(\frac{\hat{p}_1}{\hat{p}_2}\right) \]

Standar error untuk \(\ln(RR)\) adalah:

\[ SE\bigl(\ln(RR)\bigr)=\sqrt{\left(\frac{1}{a}-\frac{1}{a+b}\right)+\left(\frac{1}{c}-\frac{1}{c+d}\right)} \]

Maka interval kepercayaan 95% untuk \(RR\) adalah:

\[ \exp\left[\ln(RR)\pm z_{0.025}\,SE\bigl(\ln(RR)\bigr)\right] \]

RR <- p_smoker / p_nonsmoker

SE_logRR <- sqrt((1/a) - (1/n1) + (1/c) - (1/n2))
CI_RR <- exp(log(RR) + c(-1, 1) * qnorm(0.975) * SE_logRR)

RR

## [1] 1.958858

CI_RR

## [1] 1.351735 2.838667

Nilai Relative Risk sekitar 1.95 menunjukkan bahwa individu yang merokok memiliki risiko hampir 2 kali lipat untuk mengalami kanker paru dibandingkan individu yang tidak merokok. Interval kepercayaan yang tidak mencakup nilai 1 menunjukkan bahwa peningkatan risiko ini signifikan.

1.3.4 Odds Ratio (OR) dan CI 95%

Odds Ratio didefinisikan sebagai:

\[ OR = \frac{ad}{bc} \]

Untuk interval kepercayaan, digunakan transformasi logaritma:

\[ \ln(OR)=\ln\left(\frac{ad}{bc}\right) \]

Standar error untuk \(\ln(OR)\) adalah:

\[ SE\bigl(\ln(OR)\bigr)=\sqrt{\frac{1}{a}+\frac{1}{b}+\frac{1}{c}+\frac{1}{d}} \]

Maka interval kepercayaan 95% untuk \(OR\) adalah:

\[ \exp\left[\ln(OR)\pm z_{0.025}\,SE\bigl(\ln(OR)\bigr)\right] \]

OR <- (a * d) / (b * c)

SE_logOR <- sqrt(1/a + 1/b + 1/c + 1/d)
CI_OR <- exp(log(OR) + c(-1, 1) * qnorm(0.975) * SE_logOR)

OR

## [1] 2.973773

CI_OR

## [1] 1.786737 4.949427

Nilai Odds Ratio sekitar 2.98 menunjukkan bahwa odds (peluang relatif) kejadian kanker paru pada kelompok smoker hampir 3 kali dibandingkan kelompok non-smoker. Hal ini memperkuat adanya hubungan yang kuat antara merokok dan kanker paru.

1.4 Uji Dua Proporsi

uji_2prop <- prop.test(x = c(a, c),
                       n = c(n1, n2),
                       correct = FALSE)

uji_2prop

## 
##  2-sample test for equality of proportions without continuity correction
## 
## data:  c(a, c) out of c(n1, n2)
## X-squared = 19.129, df = 1, p-value = 1.222e-05
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  0.1516343 0.3517663
## sample estimates:
##    prop 1    prop 2 
## 0.5142003 0.2625000

Hasil uji dua proporsi menghasilkan p-value yang sangat kecil yaitu 1.222e-05 < 0.05 sehingga hipotesis nol yang menyatakan bahwa kedua proporsi sama ditolak. Artinya, terdapat perbedaan yang signifikan antara proporsi kejadian kanker paru pada kelompok smoker dan non-smoker.

1.5 Uji Chi-Square Independensi

Hipotesis yang diuji adalah:

\[ H_0 : \text{Status merokok dan kejadian kanker paru saling independen} \]

\[ H_1 : \text{Status merokok dan kejadian kanker paru tidak saling independen} \] Statistik uji chi-square independensi adalah:

\[ \chi^2 = \sum_{i=1}^{2}\sum_{j=1}^{2}\frac{(O_{ij}-E_{ij})^2}{E_{ij}} \]

uji_chi <- chisq.test(tab, correct = FALSE)
uji_chi

## 
##  Pearson's Chi-squared test
## 
## data:  tab
## X-squared = 19.129, df = 1, p-value = 1.222e-05

Hasil uji chi-square menunjukkan p-value yang sangat kecil yaitu 1.222e-05 < 0.05 sehingga hipotesis nol ditolak. Ini berarti terdapat hubungan yang signifikan antara status merokok dan kejadian kanker paru. Dengan kata lain, kedua variabel tidak saling independen.

1.6 Uji Likelihood Ratio

Hipotesis yang diuji adalah:

\[ H_0 : \text{Status merokok dan kejadian kanker paru saling independen} \]

\[ H_1 : \text{Status merokok dan kejadian kanker paru tidak saling independen} \] Statistik likelihood ratio didefinisikan sebagai:

\[ G^2 = 2\sum_{i=1}^{2}\sum_{j=1}^{2} O_{ij}\ln\left(\frac{O_{ij}}{E_{ij}}\right) \]

# Frekuensi harapan
E <- outer(rowSums(tab), colSums(tab)) / sum(tab)

# Statistik G^2
G2 <- 2 * sum(tab * log(tab / E))
df <- (nrow(tab) - 1) * (ncol(tab) - 1)
p_value_G2 <- 1 - pchisq(G2, df)

G2

## [1] 19.87802

df

## [1] 1

p_value_G2

## [1] 8.25441e-06

Uji likelihood ratio juga menghasilkan p-value yang sangat kecil yaitu 8.25441e-06 < 0.05, sehingga hipotesis nol ditolak. Hasil ini konsisten dengan uji chi-square, menunjukkan bahwa terdapat hubungan yang signifikan antara status merokok dan kanker paru.

1.7 Fisher Exact Test

Hipotesis yang diuji adalah:

\[ H_0 : \text{Tidak terdapat asosiasi antara status merokok dan kejadian kanker paru} \]

\[ H_1 : \text{Terdapat asosiasi antara status merokok dan kejadian kanker paru} \] Statistik uji Fisher Exact didefinisikan sebagai:

\[ P(X=a)=\frac{\binom{a+b}{a}\binom{c+d}{c}}{\binom{n}{a+c}} \]

uji_fisher <- fisher.test(tab)
uji_fisher

## 
##  Fisher's Exact Test for Count Data
## 
## data:  tab
## p-value = 1.476e-05
## alternative hypothesis: true odds ratio is not equal to 1
## 95 percent confidence interval:
##  1.755611 5.210711
## sample estimates:
## odds ratio 
##   2.971634

Hasil uji Fisher exact memberikan p-value yang sangat kecil yaitu 1.476e-05 < 0.05 sehingga hipotesis nol ditolak. Uji ini memperkuat hasil sebelumnya dan sangat sesuai digunakan pada data dengan ukuran sampel kecil seperti kelompok non-smoker.

1.8 Perbandingan Hasil

hasil_uji <- data.frame(
  Metode = c("Uji dua proporsi", "Chi-square independensi", "Likelihood ratio (G^2)", "Fisher exact"),
  Statistik = c(
    unname(uji_2prop$statistic),
    unname(uji_chi$statistic),
    G2,
    NA
  ),
  df = c(
    unname(uji_2prop$parameter),
    unname(uji_chi$parameter),
    df,
    NA
  ),
  p_value = c(
    uji_2prop$p.value,
    uji_chi$p.value,
    p_value_G2,
    uji_fisher$p.value
  )
)

hasil_uji

##                    Metode Statistik df      p_value
## 1        Uji dua proporsi  19.12922  1 1.221601e-05
## 2 Chi-square independensi  19.12922  1 1.221601e-05
## 3  Likelihood ratio (G^2)  19.87802  1 8.254410e-06
## 4            Fisher exact        NA NA 1.476303e-05

Keputusan uji pada alpha = 0,05

hasil_uji$Keputusan <- ifelse(hasil_uji$p_value < 0.05,
                              "Tolak H0",
                              "Gagal tolak H0")
hasil_uji

##                    Metode Statistik df      p_value Keputusan
## 1        Uji dua proporsi  19.12922  1 1.221601e-05  Tolak H0
## 2 Chi-square independensi  19.12922  1 1.221601e-05  Tolak H0
## 3  Likelihood ratio (G^2)  19.87802  1 8.254410e-06  Tolak H0
## 4            Fisher exact        NA NA 1.476303e-05  Tolak H0

Keempat metode pengujian (uji dua proporsi, chi-square, likelihood ratio, dan Fisher exact test) memberikan hasil yang konsisten, yaitu menolak hipotesis nol. Hal ini menunjukkan bahwa kesimpulan yang diperoleh stabil dan tidak bergantung pada metode uji yang digunakan.

Berdasarkan analisis deskriptif dan inferensial, terdapat bukti yang kuat bahwa status merokok berhubungan dengan kejadian kanker paru. Individu yang merokok memiliki risiko dan peluang yang secara signifikan lebih tinggi untuk mengalami kanker paru dibandingkan individu yang tidak merokok.

2 Studi Kasus Tabel Kontingensi 2x3

2.1 Tabel Kontingensi 2x3

Gender	Democrat	Republican	Independent	Total
Female	495	272	590	1357
Male	330	265	498	1093
Total	825	537	1088	2450

# Data
tab2 <- matrix(c(495, 272, 590,
                 330, 265, 498),
               nrow = 2,
               byrow = TRUE)

rownames(tab2) <- c("Female", "Male")
colnames(tab2) <- c("Democrat", "Republican", "Independent")

tab2

##        Democrat Republican Independent
## Female      495        272         590
## Male        330        265         498

addmargins(tab2)

##        Democrat Republican Independent  Sum
## Female      495        272         590 1357
## Male        330        265         498 1093
## Sum         825        537        1088 2450

Tabel kontingensi menunjukkan distribusi identifikasi partai politik berdasarkan gender. Kelompok female memiliki jumlah terbesar pada kategori Independent, sedangkan pada kelompok male juga didominasi oleh Independent, namun dengan jumlah yang lebih kecil dibanding female. Secara umum, terdapat perbedaan distribusi preferensi politik antara gender.

2.1 Frekuensi Harapan (Expected Frequency)

Frekuensi harapan menunjukkan jumlah yang diharapkan pada tiap sel jika tidak terdapat hubungan antara gender dan identifikasi partai politik. Perbedaan antara frekuensi observasi dan frekuensi harapan akan menjadi dasar dalam pengujian chi-square. Frekuensi harapan untuk setiap sel dihitung dengan rumus:

\[ E_{ij} = \frac{(\text{total baris ke-}i)(\text{total kolom ke-}j)}{n} \]

atau dapat ditulis sebagai:

\[ E_{ij} = \frac{n_{i.} \, n_{.j}}{n} \]

E2 <- outer(rowSums(tab2), colSums(tab2)) / sum(tab2)
E2

##        Democrat Republican Independent
## Female  456.949   297.4322    602.6188
## Male    368.051   239.5678    485.3812

Berdasarkan hasil perhitungan, untuk kategori Democrat, jumlah perempuan yang diharapkan adalah sekitar 456.95, sedangkan jumlah observasi sebenarnya adalah 495 sehingga lebih tinggi dari yang diharapkan. Sebaliknya, pada kelompok laki-laki, frekuensi harapan adalah sekitar 368.05, sedangkan observasinya hanya 330 sehingga lebih rendah dari yang diharapkan.

Pada kategori Republican, jumlah perempuan yang diharapkan adalah sekitar 297.43, namun observasinya hanya 272 (lebih rendah dari harapan), sedangkan pada laki-laki diharapkan sekitar 239.57 tetapi observasinya 265 (lebih tinggi dari harapan).

Untuk kategori Independent, jumlah perempuan yang diharapkan adalah sekitar 602.62, sedangkan observasinya 590 (sedikit lebih rendah), dan pada laki-laki diharapkan sekitar 485.38 dengan observasi sebesar 498 (sedikit lebih tinggi).

Perbedaan antara frekuensi observasi dan frekuensi harapan terlihat cukup jelas terutama pada kategori Democrat dan Republican. Hal ini mengindikasikan adanya penyimpangan dari kondisi independensi, sehingga terdapat kemungkinan hubungan antara gender dan identifikasi partai politik yang akan diuji lebih lanjut menggunakan uji chi-square.

2.3 Uji Chi-Square Independensi

Hipotesis yang diuji adalah:

\[ H_0 : \text{Gender dan identifikasi partai politik saling independen} \]

\[ H_1 : \text{Gender dan identifikasi partai politik tidak saling independen} \] Untuk tabel 2 x 3, statistik uji dihitung dengan:

\[ \chi^2 = \sum_{i=1}^{2}\sum_{j=1}^{3}\frac{(O_{ij}-E_{ij})^2}{E_{ij}} \]

uji_chi2 <- chisq.test(tab2, correct = FALSE)
uji_chi2

## 
##  Pearson's Chi-squared test
## 
## data:  tab2
## X-squared = 12.569, df = 2, p-value = 0.001865

Hasil uji chi-square menghasilkan p-value yang sangat kecil yaitu 0.001865 < 0.05, sehingga hipotesis nol ditolak. Artinya, terdapat hubungan yang signifikan antara gender dan identifikasi partai politik. Dengan kata lain, distribusi preferensi partai tidak sama antara laki-laki dan perempuan.

2.4 Residual Pearson / Standardized Residual

Residual menunjukkan kontribusi masing-masing sel terhadap statistik chi-square. Nilai residual dengan nilai absolut lebih dari sekitar 2 mengindikasikan kontribusi yang signifikan. Residual Pearson untuk setiap sel dihitung dengan rumus:

\[ r_{ij} = \frac{O_{ij}-E_{ij}}{\sqrt{E_{ij}}} \]

# Residual Pearson
residual_pearson <- (tab2 - E2) / sqrt(E2)
residual_pearson

##         Democrat Republican Independent
## Female  1.780051  -1.474656  -0.5140388
## Male   -1.983409   1.643125   0.5727640

Standardized residual dihitung dengan rumus:

\[ r_{ij}^{(std)} = \frac{O_{ij}-E_{ij}} {\sqrt{E_{ij}(1-\frac{n_{i.}}{n})(1-\frac{n_{.j}}{n})}} \]

# Standardized residual dari R
uji_chi2$stdres

##         Democrat Republican Independent
## Female  3.272365  -2.498557   -1.032199
## Male   -3.272365   2.498557    1.032199

Berdasarkan hasil standardized residual, nilai terbesar secara absolut adalah 3.27, yang terdapat pada kategori Democrat, baik pada perempuan (positif) maupun laki-laki (negatif). Residual positif pada sel Female–Democrat menunjukkan bahwa jumlah perempuan yang memilih Democrat lebih besar dari yang diharapkan jika tidak terdapat hubungan antara gender dan identifikasi partai politik. Sebaliknya, residual negatif pada sel Male–Democrat menunjukkan bahwa jumlah laki-laki yang memilih Democrat lebih kecil dari yang diharapkan.

Pada kategori Republican, nilai residual sekitar 2.50 juga menunjukkan adanya kontribusi yang cukup besar, di mana perempuan cenderung lebih sedikit memilih Republican dibandingkan yang diharapkan, sedangkan laki-laki lebih banyak. Sementara itu, pada kategori Independent, nilai residual relatif kecil (sekitar 1.03) sehingga kontribusinya terhadap statistik chi-square tidak signifikan.

Karena nilai standardized residual pada kategori Democrat dan Republican memiliki nilai absolut lebih besar dari 2, maka kedua kategori tersebut memberikan kontribusi signifikan terhadap hubungan antara gender dan identifikasi partai politik, dengan kontribusi terbesar berasal dari kategori Democrat.

2.5 Partisi Chi-Square

2.5.1 Democrat vs Republican

Uji pada kategori Democrat vs Republican menunjukkan apakah terdapat perbedaan distribusi antara kedua partai tersebut berdasarkan gender. Hipotesis:

\[ H_0 : \text{Gender independen terhadap pilihan Democrat vs Republican} \]

\[ H_1 : \text{Gender tidak independen terhadap pilihan Democrat vs Republican} \] Untuk Democrat vs Republican, statistik uji chi-square dihitung dengan:

\[ \chi^2_{(D,R)} = \sum_{i=1}^{2}\sum_{j=1}^{2}\frac{(O_{ij}-E_{ij})^2}{E_{ij}} \]

tab_DR <- tab2[, 1:2]
chisq.test(tab_DR, correct = FALSE)

## 
##  Pearson's Chi-squared test
## 
## data:  tab_DR
## X-squared = 11.555, df = 1, p-value = 0.0006758

Karena p-value = 0.0006758 < 0.05 sehingga H0 ditolak yang artinya terdapat perbedaan preferensi antara laki-laki dan perempuan dalam memilih antara partai Democrat dan Republican.

2.5.2 (Democrat + Republican) vs Independent

Hasil uji menunjukkan apakah terdapat perbedaan antara kelompok yang memilih partai utama (Democrat + Republican) dengan Independent berdasarkan gender. Hipotesis yang diuji:

\[ H_0 : \text{Gender independen terhadap pilihan (Democrat + Republican) vs Independent} \]

\[ H_1 : \text{Gender tidak independen terhadap pilihan (Democrat + Republican) vs Independent} \] Untuk Democrat dan Republican digabung menjadi satu kelompok, lalu dibandingkan dengan Independen, statistik uji chi-square dihitung dengan:

\[ \chi^2_{(D+R,I)} = \sum_{i=1}^{2}\sum_{j=1}^{2}\frac{(O_{ij}-E_{ij})^2}{E_{ij}} \]

tab_DI <- cbind(
  Dem_Rep = tab2[,1] + tab2[,2],
  Independent = tab2[,3]
)

chisq.test(tab_DI, correct = FALSE)

## 
##  Pearson's Chi-squared test
## 
## data:  tab_DI
## X-squared = 1.0654, df = 1, p-value = 0.302

Berdasarkan hasil perhitungan, p-value = 0.302 sehingga H0 gagal ditolak yang menunjukkan bahwa gender tidak mempengaruhi kecenderungan memilih Independent dibandingkan partai utama.

2.6 Perbandingan dengan Uji Keseluruhan

Perbandingan dilakukan dengan melihat kontribusi masing-masing partisi terhadap statistik uji keseluruhan, yaitu:

\[ \chi^2_{\text{total}} \approx \chi^2_{(D,R)} + \chi^2_{(D+R,I)} \] Nilai statistik chi-square keseluruhan sebesar 12.569 dapat didekomposisi menjadi kontribusi dari dua partisi, yaitu perbandingan Democrat vs Republican sebesar 11.555 dan (Democrat + Republican) vs Independent sebesar 1.0654. Jumlah kedua nilai tersebut mendekati nilai chi-square total. Dari hasil tersebut, terlihat bahwa sebagian besar kontribusi berasal dari perbandingan antara Democrat dan Republican.

2.7 Kategori yang Paling Berkontribusi

Kategori yang paling berkontribusi terhadap hubungan antara gender dan identifikasi partai politik ditentukan dari nilai residual Pearson atau standardized residual terbesar secara absolut, yaitu:

\[ \max |r_{ij}| \]

atau

\[ \max |r_{ij}^{(std)}| \\ \max |r_{ij}^{(std)}| = 3.27 \] Berdasarkan nilai standardized residual, kategori yang paling berkontribusi terhadap hubungan antara gender dan identifikasi partai politik adalah kategori Democrat dengan nilai standardized residual sebesar 3.27.

Referensi

Agresti,A. (2007). An Introduction to Categorical Data Analysis (2nd ed.).New York: Wiley.

Analisis Data Kategori

Zahra Putri Argakoesoemah - 140610240047

Tugas 1: Pengantar Analisis Data Kategori - Zahra Putri Argakoesoemah

1.1 Definisi Analisis Data Kategori

1.2 Tabel Kontingensi

1.2.1 Joint Distribution

1.2.2 Marginal Distribution

1.2.3 Conditional Probability

1.3 Ukuran Asosiasi

1.3.1 Odds

1.3.2 Odds Ratio

1.3.3 Relative Risk

1.4 Contoh Perhitungan Manual

1.4.1 Peluang Bersyarat

1.4.2 Odds

1.4.3 Odds Ratio

1.5 Analisis Menggunakan R

1.6 Interpretasi Hasil

Tugas 6 Inferensi Tabel Kontingensi Dua Arah - Zahra Putri Argakoesoemah

1 Studi Kasus Tabel Kontingensi 2x2

1.1 Tabel Kontingensi 2x2

1.2 Estimasi Titik Proporsi Kejadian Kanker Paru pada Kelompok Smoker dan Non-Smoker

1.3 Interval Kepercayaan 95% untuk Proporsi Masing-Masing Kelompok, RD, RR, dan OR

1.3.1 CI 95% untuk proporsi masing-masing kelompok

1.3.2 Risk Difference (RD) dan CI 95%

1.3.3 Relative Risk (RR) dan CI 95%

1.3.4 Odds Ratio (OR) dan CI 95%

1.4 Uji Dua Proporsi

1.5 Uji Chi-Square Independensi

1.6 Uji Likelihood Ratio

1.7 Fisher Exact Test

1.8 Perbandingan Hasil

2 Studi Kasus Tabel Kontingensi 2x3

2.1 Tabel Kontingensi 2x3

2.1 Frekuensi Harapan (Expected Frequency)

2.3 Uji Chi-Square Independensi

2.4 Residual Pearson / Standardized Residual

2.5 Partisi Chi-Square

2.5.1 Democrat vs Republican

2.5.2 (Democrat + Republican) vs Independent

2.6 Perbandingan dengan Uji Keseluruhan

2.7 Kategori yang Paling Berkontribusi

Referensi