DAFTAR ISI


1 KONSEP DASAR ANALISIS DATA KATEGORI

1.1 Pengertian Analisis Data Kategori

Analisis data kategori adalah metode statistik yang digunakan untuk menganalisis data yang bersifat kategorikal, di mana observasi dikelompokkan ke dalam kategori-kategori tertentu (Agresti, 2019). Data kategori berbeda dengan data numerik karena nilainya tidak memiliki makna kuantitatif, melainkan merepresentasikan kualitas atau atribut tertentu.

1.2 Karakteristik Variabel Kategori

Variabel kategori memiliki karakteristik utama sebagai berikut:

  1. Bersifat diskrit - Nilai-nilai variabel berupa kategori yang terpisah
  2. Tidak memiliki satuan ukuran - Kategori tidak dapat diukur secara kuantitatif
  3. Dapat berupa nominal atau ordinal:
    • Nominal: Kategori tanpa urutan (contoh: jenis kelamin, agama, status pernikahan)
    • Ordinal: Kategori memiliki urutan (contoh: tingkat pendidikan, status sosial ekonomi)

1.3 Contoh Penerapan dalam Penelitian

Bidang Contoh Penelitian Variabel Kategori
Kesehatan Hubungan merokok dengan kanker paru Status merokok (Ya/Tidak), Status kanker (Ya/Tidak)
Kesehatan Efektivitas vaksin COVID-19 Status vaksin (Ya/Tidak), Status infeksi (Ya/Tidak)
Pendidikan Pengaruh metode belajar terhadap kelulusan Metode belajar (A/B/C), Status kelulusan (Lulus/Tidak)
Sosial Hubungan pendidikan dengan afiliasi politik Tingkat pendidikan, Afiliasi partai (Demokrat/Republik/Independen)
Sosial Perbedaan preferensi politik berdasarkan gender Gender (Pria/Wanita), Afiliasi partai

Sumber: Agresti, A. (2019). An Introduction to Categorical Data Analysis (3rd ed.). John Wiley & Sons.


2 TABEL KONTINGENSI

2.1 Definisi Tabel Kontingensi

Tabel kontingensi (cross-tabulation) adalah tabel yang menyajikan frekuensi bersama dari dua atau lebih variabel kategori. Tabel ini menunjukkan distribusi observasi berdasarkan kombinasi kategori dari variabel-variabel yang dianalisis.

2.2 Struktur Tabel Kontingensi

Untuk tabel kontingensi \(r \times c\) (r baris dan c kolom), struktur umumnya adalah:

Variabel X \(Y_1\) \(Y_2\) \(Y_c\) Total Baris
\(X_1\) \(n_{11}\) \(n_{12}\) \(n_{1c}\) \(n_{1.}\)
\(X_2\) \(n_{21}\) \(n_{22}\) \(n_{2c}\) \(n_{2.}\)
\(X_r\) \(n_{r1}\) \(n_{r2}\) \(n_{rc}\) \(n_{r.}\)
Total Kolom \(n_{.1}\) \(n_{.2}\) \(n_{.c}\) \(n\)

Dimana: - \(n_{ij}\) = frekuensi observasi pada baris ke-i dan kolom ke-j - \(n_{i.} = \sum_{j=1}^c n_{ij}\) = total baris ke-i - \(n_{.j} = \sum_{i=1}^r n_{ij}\) = total kolom ke-j - \(n = \sum_{i=1}^r \sum_{j=1}^c n_{ij}\) = total keseluruhan observasi

2.3 Distribusi Peluang dalam Tabel Kontingensi

2.3.1 Joint Distribution (Distribusi Bersama)

Distribusi bersama menunjukkan probabilitas suatu observasi berada pada kategori tertentu dari kedua variabel secara bersamaan.

\[P(X = i, Y = j) = \frac{n_{ij}}{n}\]

2.3.2 Marginal Distribution (Distribusi Marginal)

Distribusi marginal menunjukkan probabilitas suatu observasi berada pada kategori tertentu dari satu variabel, tanpa memperhatikan variabel lainnya.

\[P(X = i) = \frac{n_{i.}}{n} = \sum_{j=1}^c P(X = i, Y = j)\]

\[P(Y = j) = \frac{n_{.j}}{n} = \sum_{i=1}^r P(X = i, Y = j)\]

2.3.3 Conditional Probability (Probabilitas Bersyarat)

Probabilitas bersyarat menunjukkan probabilitas suatu observasi berada pada kategori tertentu dari satu variabel, dengan syarat variabel lainnya diketahui.

\[P(Y = j | X = i) = \frac{n_{ij}}{n_{i.}} = \frac{P(X = i, Y = j)}{P(X = i)}\]

\[P(X = i | Y = j) = \frac{n_{ij}}{n_{.j}} = \frac{P(X = i, Y = j)}{P(Y = j)}\]

2.4 Contoh Tabel Kontingensi 2×2

Berikut adalah contoh tabel kontingensi untuk hubungan merokok dengan kanker paru:

Tabel 2.1: Hubungan Merokok dengan Kanker Paru

Status Merokok Kanker Paru Tidak Kanker Paru Total
Merokok 60 40 100
Tidak Merokok 20 80 100
Total 80 120 200

Perhitungan Distribusi:

Joint Distribution: - \(P(\text{Merokok, Kanker}) = 60/200 = 0.30\) - \(P(\text{Merokok, Tidak Kanker}) = 40/200 = 0.20\) - \(P(\text{Tidak Merokok, Kanker}) = 20/200 = 0.10\) - \(P(\text{Tidak Merokok, Tidak Kanker}) = 80/200 = 0.40\)

Marginal Distribution: - \(P(\text{Merokok}) = 100/200 = 0.50\) - \(P(\text{Tidak Merokok}) = 100/200 = 0.50\) - \(P(\text{Kanker}) = 80/200 = 0.40\) - \(P(\text{Tidak Kanker}) = 120/200 = 0.60\)

Conditional Probability: - \(P(\text{Kanker}|\text{Merokok}) = 60/100 = 0.60\) - \(P(\text{Tidak Kanker}|\text{Merokok}) = 40/100 = 0.40\) - \(P(\text{Kanker}|\text{Tidak Merokok}) = 20/100 = 0.20\) - \(P(\text{Tidak Kanker}|\text{Tidak Merokok}) = 80/100 = 0.80\)


3 UKURAN ASOSIASI

3.1 Odds

3.1.1 Pengertian

Odds adalah perbandingan antara probabilitas suatu kejadian terjadi dengan probabilitas kejadian tersebut tidak terjadi.

3.1.2 Rumus

\[\text{Odds} = \frac{P(\text{Kejadian})}{P(\text{Tidak Kejadian})} = \frac{\pi}{1-\pi}\]

3.1.3 Contoh Perhitungan

Dari tabel 2.1:

Odds kanker pada perokok: \[\text{Odds}_{\text{perokok}} = \frac{60/100}{40/100} = \frac{60}{40} = 1.5\]

Odds kanker pada tidak merokok: \[\text{Odds}_{\text{tidak merokok}} = \frac{20/100}{80/100} = \frac{20}{80} = 0.25\]

3.1.4 Interpretasi

  • Odds perokok = 1.5: Perokok memiliki kemungkinan 1.5 kali lebih besar untuk terkena kanker dibandingkan tidak terkena kanker
  • Odds tidak merokok = 0.25: Bukan perokok memiliki kemungkinan 0.25 kali (lebih kecil) untuk terkena kanker dibandingkan tidak terkena kanker

3.2 Odds Ratio (OR)

3.2.1 Pengertian

Odds Ratio adalah perbandingan odds antara dua kelompok. Ukuran ini menunjukkan kekuatan asosiasi antara variabel prediktor dan variabel respons.

3.2.2 Rumus

Untuk tabel \(2 \times 2\) dengan notasi:

Y=1 (Kejadian) Y=2 (Tidak Kejadian)
X=1 (Terpapar) \(a\) \(b\)
X=2 (Tidak Terpapar) \(c\) \(d\)

\[OR = \frac{\text{Odds}_1}{\text{Odds}_2} = \frac{a/b}{c/d} = \frac{a \times d}{b \times c}\]

Standar Error dan Interval Kepercayaan: \[SE(\ln(OR)) = \sqrt{\frac{1}{a} + \frac{1}{b} + \frac{1}{c} + \frac{1}{d}}\] \[95\% CI = \exp(\ln(OR) \pm 1.96 \times SE(\ln(OR)))\]

3.2.3 Interpretasi

  • OR = 1: Tidak ada asosiasi
  • OR > 1: Asosiasi positif (faktor risiko)
  • OR < 1: Asosiasi negatif (faktor protektif)

3.2.4 Contoh Perhitungan

Dari tabel 2.1: \(a=60, b=40, c=20, d=80\)

\[OR = \frac{60 \times 80}{40 \times 20} = \frac{4800}{800} = 6\]

\[SE(\ln(OR)) = \sqrt{\frac{1}{60} + \frac{1}{40} + \frac{1}{20} + \frac{1}{80}} = 0.3227\]

\[95\% CI = \exp(\ln(6) \pm 1.96 \times 0.3227) = (3.19, 11.30)\]

Interpretasi: Odds terkena kanker paru pada perokok adalah 6 kali lebih besar dibandingkan dengan bukan perokok (95% CI: 3.19 - 11.30).

3.3 Relative Risk (RR)

3.3.1 Pengertian

Relative Risk adalah perbandingan probabilitas kejadian antara dua kelompok. Ukuran ini lebih intuitif daripada odds ratio karena berbasis probabilitas langsung.

3.3.2 Rumus

\[RR = \frac{P(\text{Kejadian}|\text{Kelompok 1})}{P(\text{Kejadian}|\text{Kelompok 2})} = \frac{a/(a+b)}{c/(c+d)}\]

Standar Error dan Interval Kepercayaan: \[SE(\ln(RR)) = \sqrt{\frac{1}{a} - \frac{1}{a+b} + \frac{1}{c} - \frac{1}{c+d}}\] \[95\% CI = \exp(\ln(RR) \pm 1.96 \times SE(\ln(RR)))\]

3.3.3 Interpretasi

  • RR = 1: Tidak ada perbedaan risiko
  • RR > 1: Kelompok 1 memiliki risiko lebih tinggi
  • RR < 1: Kelompok 1 memiliki risiko lebih rendah

3.3.4 Contoh Perhitungan

Dari tabel 2.1:

\[RR = \frac{60/100}{20/100} = \frac{0.60}{0.20} = 3\]

\[SE(\ln(RR)) = \sqrt{\frac{1}{60} - \frac{1}{100} + \frac{1}{20} - \frac{1}{100}} = 0.169\]

\[95\% CI = \exp(\ln(3) \pm 1.96 \times 0.169) = (2.15, 4.18)\]

Interpretasi: Perokok memiliki risiko 3 kali lebih besar terkena kanker paru dibandingkan bukan perokok.

3.4 Risk Difference (RD)

3.4.1 Pengertian

Risk Difference adalah selisih absolut risiko antara dua kelompok. Ukuran ini menunjukkan besarnya pengurangan risiko jika faktor paparan dihilangkan.

3.4.2 Rumus

\[RD = P(\text{Kejadian}|\text{Kelompok 1}) - P(\text{Kejadian}|\text{Kelompok 2}) = \frac{a}{a+b} - \frac{c}{c+d}\]

Standar Error: \[SE(RD) = \sqrt{\frac{p_1(1-p_1)}{n_1} + \frac{p_2(1-p_2)}{n_2}}\]

Interval Kepercayaan: \[95\% CI = RD \pm 1.96 \times SE(RD)\]

3.4.3 Interpretasi

  • RD = 0: Tidak ada perbedaan risiko
  • RD > 0: Kelompok 1 memiliki risiko lebih tinggi
  • RD < 0: Kelompok 1 memiliki risiko lebih rendah

3.4.4 Contoh Perhitungan

Dari tabel 2.1:

\[RD = \frac{60}{100} - \frac{20}{100} = 0.60 - 0.20 = 0.40\]

\[SE(RD) = \sqrt{\frac{0.6 \times 0.4}{100} + \frac{0.2 \times 0.8}{100}} = \sqrt{0.0024 + 0.0016} = 0.0632\]

\[95\% CI = 0.40 \pm 1.96 \times 0.0632 = (0.276, 0.524)\]

Interpretasi: Terdapat selisih risiko sebesar 40% antara perokok dan bukan perokok. Artinya, merokok meningkatkan risiko kanker paru sebesar 40%.


4 INFERENSI PADA TABEL KONTINGENSI

4.1 Uji Independensi Chi-Square

4.1.1 Pengertian

Uji Chi-Square digunakan untuk menguji independensi antara dua variabel kategori. Uji ini membandingkan frekuensi observasi dengan frekuensi yang diharapkan jika kedua variabel independen.

4.1.2 Rumus

Hipotesis: - \(H_0\): Kedua variabel independen (tidak ada hubungan) - \(H_1\): Kedua variabel dependen (ada hubungan)

Statistik Uji: \[\chi^2 = \sum_{i=1}^r \sum_{j=1}^c \frac{(O_{ij} - E_{ij})^2}{E_{ij}}\]

Dimana: - \(O_{ij}\) = frekuensi observasi pada baris i, kolom j - \(E_{ij} = \frac{n_{i.} \times n_{.j}}{n}\) = frekuensi harapan

Derajat Bebas: \(df = (r-1) \times (c-1)\)

4.1.3 Pengaplikasian dalam R

# Data penelitian
data_chi <- matrix(c(60, 40, 20, 80), nrow = 2, byrow = TRUE)
rownames(data_chi) <- c("Merokok", "Tidak Merokok")
colnames(data_chi) <- c("Kanker", "Tidak Kanker")

# Uji Chi-Square
chi_test <- chisq.test(data_chi, correct = TRUE)
print(chi_test)
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  data_chi
## X-squared = 31.688, df = 1, p-value = 1.811e-08
# Frekuensi harapan
print("Frekuensi Harapan:")
## [1] "Frekuensi Harapan:"
print(round(chi_test$expected, 2))
##               Kanker Tidak Kanker
## Merokok           40           60
## Tidak Merokok     40           60

4.1.4 Interpretasi

Berdasarkan hasil uji Chi-Square: - Nilai Chi-Square = 32.00 - Derajat bebas = 1 - p-value = 1.54e-08 (< 0.05)

Kesimpulan: Tolak \(H_0\). Terdapat hubungan yang signifikan antara status merokok dengan kejadian kanker paru pada taraf signifikansi 5%.

4.2 Uji Exact Fisher

4.2.1 Pengertian

Uji Exact Fisher digunakan sebagai alternatif uji Chi-Square ketika ukuran sampel kecil atau ketika frekuensi harapan < 5. Uji ini menghitung probabilitas eksak dari tabel kontingensi berdasarkan distribusi hipergeometrik.

4.2.2 Rumus

Probabilitas hipergeometrik untuk tabel \(2 \times 2\):

\[P = \frac{\binom{a+b}{a} \binom{c+d}{c}}{\binom{n}{a+c}} = \frac{(a+b)!(c+d)!(a+c)!(b+d)!}{a!b!c!d!n!}\]

4.2.3 Pengaplikasian dalam R

# Data untuk uji Fisher dengan sampel kecil
data_fisher <- matrix(c(18, 2, 11, 9), nrow = 2, byrow = TRUE)
rownames(data_fisher) <- c("Terpapar", "Tidak Terpapar")
colnames(data_fisher) <- c("Kejadian", "Tidak Kejadian")

print("Data untuk Uji Fisher:")
## [1] "Data untuk Uji Fisher:"
print(data_fisher)
##                Kejadian Tidak Kejadian
## Terpapar             18              2
## Tidak Terpapar       11              9
# Uji Exact Fisher
fisher_result <- fisher.test(data_fisher)
print(fisher_result)
## 
##  Fisher's Exact Test for Count Data
## 
## data:  data_fisher
## p-value = 0.03095
## alternative hypothesis: true odds ratio is not equal to 1
## 95 percent confidence interval:
##   1.147793 78.183838
## sample estimates:
## odds ratio 
##   6.994073

4.2.4 Interpretasi

Berdasarkan hasil uji Exact Fisher: - Odds Ratio = 6.99 - p-value = 0.03095 (< 0.05) - 95% CI = (1.15, 78.18)

Kesimpulan: Tolak \(H_0\). Terdapat hubungan yang signifikan antara paparan dengan kejadian (p-value < 0.05). Odds ratio 6.99 menunjukkan bahwa kelompok terpapar memiliki odds 6.99 kali lebih besar untuk mengalami kejadian dibandingkan kelompok tidak terpapar.

4.3 Uji G² (Likelihood Ratio Test)

4.3.1 Pengertian

Uji G² atau Likelihood Ratio Test adalah alternatif uji Chi-Square yang berdasarkan pada rasio likelihood. Uji ini sering digunakan dalam pemodelan log-linear.

4.3.2 Rumus

\[G^2 = 2 \sum_{i=1}^r \sum_{j=1}^c O_{ij} \ln\left(\frac{O_{ij}}{E_{ij}}\right)\]

Dimana \(G^2\) mengikuti distribusi Chi-Square dengan derajat bebas yang sama dengan uji Chi-Square Pearson.

4.3.3 Pengaplikasian dalam R

# Data penelitian
data_g2 <- matrix(c(688, 650, 21, 59), nrow = 2, byrow = TRUE)
rownames(data_g2) <- c("Smoker", "Non-Smoker")
colnames(data_g2) <- c("Cancer (+)", "Control (-)")

print("Data untuk Uji G²:")
## [1] "Data untuk Uji G²:"
print(data_g2)
##            Cancer (+) Control (-)
## Smoker            688         650
## Non-Smoker         21          59
# Hitung frekuensi harapan
expected <- chisq.test(data_g2)$expected

# Hitung G²
G2 <- 2 * sum(data_g2 * log(data_g2 / expected))
critical_value <- qchisq(0.95, df = 1)

cat("Nilai G²:", round(G2, 4), "\n")
## Nilai G²: 19.878
cat("Nilai Kritis (α=0.05):", round(critical_value, 4), "\n")
## Nilai Kritis (α=0.05): 3.8415
cat("Keputusan:", ifelse(G2 > critical_value, "Tolak H0", "Gagal Tolak H0"), "\n")
## Keputusan: Tolak H0

4.3.4 Interpretasi

Berdasarkan hasil uji G²: - Nilai G² = 19.88 - Nilai kritis (α=0.05, df=1) = 3.84 - Karena G² > nilai kritis, maka tolak \(H_0\)

Kesimpulan: Terdapat hubungan yang signifikan antara status merokok dengan kejadian kanker.

4.4 Partisi Chi-Square

4.4.1 Pengertian

Untuk tabel kontingensi yang lebih besar dari \(2 \times 2\), partisi Chi-Square digunakan untuk mengidentifikasi sumber signifikansi. Tabel dipecah menjadi beberapa tabel \(2 \times 2\) yang independen.

4.4.2 Konsep

  • Jumlah kuadrat Chi-Square dari partisi = Chi-Square total
  • Derajat bebas total = jumlah derajat bebas partisi

4.4.3 Pengaplikasian dalam R

# Data penelitian: Gender vs Afiliasi Politik
data_politik <- matrix(c(495, 272, 590, 330, 265, 498), nrow = 2, byrow = TRUE)
colnames(data_politik) <- c("Democrat", "Republican", "Independent")
rownames(data_politik) <- c("Female", "Male")

print("Data Gender vs Afiliasi Politik:")
## [1] "Data Gender vs Afiliasi Politik:"
print(data_politik)
##        Democrat Republican Independent
## Female      495        272         590
## Male        330        265         498
# Uji Chi-Square keseluruhan
chi_total <- chisq.test(data_politik)
cat("\n=== UJI CHI-SQUARE KESELURUHAN ===\n")
## 
## === UJI CHI-SQUARE KESELURUHAN ===
print(chi_total)
## 
##  Pearson's Chi-squared test
## 
## data:  data_politik
## X-squared = 12.569, df = 2, p-value = 0.001865
# Partisi 1: Democrat vs Republican
data_part1 <- matrix(c(495, 272, 330, 265), nrow = 2, byrow = TRUE)
colnames(data_part1) <- c("Democrat", "Republican")
rownames(data_part1) <- c("Female", "Male")

chi_part1 <- chisq.test(data_part1)
cat("\n=== PARTISI 1: Democrat vs Republican ===\n")
## 
## === PARTISI 1: Democrat vs Republican ===
print(chi_part1)
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  data_part1
## X-squared = 11.178, df = 1, p-value = 0.0008279
# Partisi 2: (Democrat+Republican) vs Independent
data_part2 <- matrix(c(495+272, 590, 330+265, 498), nrow = 2, byrow = TRUE)
colnames(data_part2) <- c("Dem+Rep", "Independent")
rownames(data_part2) <- c("Female", "Male")

chi_part2 <- chisq.test(data_part2)
cat("\n=== PARTISI 2: (Dem+Rep) vs Independent ===\n")
## 
## === PARTISI 2: (Dem+Rep) vs Independent ===
print(chi_part2)
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  data_part2
## X-squared = 0.98267, df = 1, p-value = 0.3215
# Verifikasi
cat("\n=== VERIFIKASI ===\n")
## 
## === VERIFIKASI ===
cat("Chi-Square Total:", round(chi_total$statistic, 4), "\n")
## Chi-Square Total: 12.5693
cat("Jumlah Partisi:", round(chi_part1$statistic + chi_part2$statistic, 4), "\n")
## Jumlah Partisi: 12.1603
cat("df Total:", chi_total$parameter, "\n")
## df Total: 2
cat("Jumlah df Partisi:", chi_part1$parameter + chi_part2$parameter, "\n")
## Jumlah df Partisi: 2

4.4.4 Interpretasi

Hasil Uji Chi-Square Keseluruhan: - Chi-Square = 12.57 - df = 2 - p-value = 0.00186 (< 0.05) - Kesimpulan: Ada hubungan signifikan antara gender dan afiliasi politik

Hasil Partisi 1 (Demokrat vs Republik): - Chi-Square = 11.18 - df = 1 - p-value = 0.00083 (< 0.05) - Kesimpulan: Ada perbedaan signifikan antara pria dan wanita dalam preferensi antara Demokrat dan Republik

Hasil Partisi 2 (Dem+Rep vs Independen): - Chi-Square = 0.98 - df = 1 - p-value = 0.3215 (> 0.05) - Kesimpulan: Tidak ada perbedaan signifikan antara pria dan wanita dalam preferensi antara partai besar (Dem+Rep) vs Independen

Kesimpulan Akhir: Signifikansi keseluruhan disebabkan oleh perbedaan preferensi antara Demokrat dan Republik berdasarkan gender, bukan karena perbedaan dalam memilih Independen.

4.5 Uji Proporsi Dua Sampel

4.5.1 Pengertian

Uji proporsi dua sampel digunakan untuk membandingkan proporsi kejadian antara dua kelompok independen. Uji ini merupakan alternatif dari uji Chi-Square untuk tabel \(2 \times 2\) yang berfokus pada perbedaan proporsi.

4.5.2 Rumus

Hipotesis: - \(H_0: p_1 = p_2\) (proporsi sama) - \(H_1: p_1 \neq p_2\) (proporsi berbeda)

Statistik Uji (dengan koreksi kontinuitas): \[Z = \frac{|\hat{p}_1 - \hat{p}_2| - \frac{1}{2}\left(\frac{1}{n_1} + \frac{1}{n_2}\right)}{\sqrt{\hat{p}(1-\hat{p})\left(\frac{1}{n_1} + \frac{1}{n_2}\right)}}\]

Dimana: - \(\hat{p}_1 = \frac{a}{a+b}\) (proporsi kejadian pada kelompok 1) - \(\hat{p}_2 = \frac{c}{c+d}\) (proporsi kejadian pada kelompok 2) - \(\hat{p} = \frac{a+c}{a+b+c+d}\) (proporsi gabungan)

4.5.3 Pengaplikasian dalam R

# Data penelitian
set.seed(123)
data_prop <- matrix(c(50, 30, 30, 50), nrow = 2, byrow = TRUE)
dimnames(data_prop) <- list("Terpapar" = c("Ya", "Tidak"), "Kejadian" = c("Ya", "Tidak"))

print("Data untuk Uji Proporsi:")
## [1] "Data untuk Uji Proporsi:"
print(data_prop)
##         Kejadian
## Terpapar Ya Tidak
##    Ya    50    30
##    Tidak 30    50
# Uji Proporsi
prop_test <- prop.test(x = c(data_prop[1,1], data_prop[2,1]), 
                       n = c(sum(data_prop[1,]), sum(data_prop[2,])),
                       correct = TRUE)

print(prop_test)
## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c(data_prop[1, 1], data_prop[2, 1]) out of c(sum(data_prop[1, ]), sum(data_prop[2, ]))
## X-squared = 9.025, df = 1, p-value = 0.002663
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  0.08747151 0.41252849
## sample estimates:
## prop 1 prop 2 
##  0.625  0.375
# Perhitungan manual ukuran asosiasi
a <- data_prop[1,1]; b <- data_prop[1,2]; c <- data_prop[2,1]; d <- data_prop[2,2]
n1 <- a + b; n2 <- c + d

p1 <- a/n1; p2 <- c/n2
rd <- p1 - p2
rr <- p1 / p2
or <- (a * d) / (b * c)

# Standar error
se_rd <- sqrt((p1*(1-p1)/n1) + (p2*(1-p2)/n2))
se_ln_rr <- sqrt((1/a) - (1/n1) + (1/c) - (1/n2))
se_ln_or <- sqrt(1/a + 1/b + 1/c + 1/d)

# Z-statistik
z_rd <- rd / se_rd
z_rr <- log(rr) / se_ln_rr
z_or <- log(or) / se_ln_or

# Tabel hasil
hasil_uji <- data.frame(
  Ukuran = c("Risk Difference", "Relative Risk", "Odds Ratio"),
  Nilai = c(round(rd, 4), round(rr, 4), round(or, 4)),
  SE = c(round(se_rd, 4), round(se_ln_rr, 4), round(se_ln_or, 4)),
  Z = c(round(z_rd, 4), round(z_rr, 4), round(z_or, 4)),
  P_Value = c(round(2*pnorm(-abs(z_rd)), 4), 
              round(2*pnorm(-abs(z_rr)), 4), 
              round(2*pnorm(-abs(z_or)), 4))
)

kable(hasil_uji, caption = "Tabel 4.1: Hasil Uji Proporsi dan Ukuran Asosiasi") %>%
  kable_styling(bootstrap_options = c("striped", "hover"))
Tabel 4.1: Hasil Uji Proporsi dan Ukuran Asosiasi
Ukuran Nilai SE Z P_Value
Risk Difference 0.2500 0.0765 3.2660 0.0011
Relative Risk 1.6667 0.1683 3.0348 0.0024
Odds Ratio 2.7778 0.3266 3.1282 0.0018

4.5.4 Interpretasi

Berdasarkan hasil uji proporsi dua sampel:

  1. Uji Proporsi:

    • Proporsi kelompok terpapar = 50/80 = 0.625
    • Proporsi kelompok tidak terpapar = 30/80 = 0.375
    • Selisih proporsi = 0.25
    • Chi-Square = 9.025
    • p-value = 0.00266 (< 0.05)

    Kesimpulan: Tolak \(H_0\). Terdapat perbedaan proporsi yang signifikan antara kelompok terpapar dan tidak terpapar.

  2. Risk Difference (RD):

    • RD = 0.25
    • Z = 3.266
    • p-value = 0.0011

    Interpretasi: Kelompok terpapar memiliki risiko 25% lebih tinggi dibandingkan kelompok tidak terpapar.

  3. Relative Risk (RR):

    • RR = 1.667
    • Z = 3.035
    • p-value = 0.0024

    Interpretasi: Kelompok terpapar memiliki risiko 1.667 kali lebih tinggi dibandingkan kelompok tidak terpapar.

  4. Odds Ratio (OR):

    • OR = 2.778
    • Z = 3.128
    • p-value = 0.0018

    Interpretasi: Odds kejadian pada kelompok terpapar adalah 2.778 kali lebih besar dibandingkan kelompok tidak terpapar.


5 STUDI KASUS 1 – PAPARAN DAN KEJADIAN

5.1 Data Penelitian

Penelitian dilakukan untuk mengetahui hubungan antara paparan faktor risiko dengan kejadian penyakit. Data yang diperoleh sebagai berikut:

# Data penelitian
set.seed(123)
data_kasus1 <- matrix(c(50, 30, 30, 50), nrow = 2, byrow = TRUE)
dimnames(data_kasus1) <- list("Terpapar" = c("Ya", "Tidak"), "Kejadian" = c("Ya", "Tidak"))

print("Data Penelitian:")
## [1] "Data Penelitian:"
print(data_kasus1)
##         Kejadian
## Terpapar Ya Tidak
##    Ya    50    30
##    Tidak 30    50
# Tabel dengan total
data_total <- cbind(data_kasus1, Total = rowSums(data_kasus1))
data_total <- rbind(data_total, Total = colSums(data_total))

kable(data_total, caption = "Tabel 5.1: Data Hubungan Paparan dengan Kejadian") %>%
  kable_styling(bootstrap_options = c("striped", "hover"))
Tabel 5.1: Data Hubungan Paparan dengan Kejadian
Ya Tidak Total
Ya 50 30 80
Tidak 30 50 80
Total 80 80 160

5.2 Analisis Ukuran Asosiasi

# Ekstrak nilai
a <- data_kasus1[1,1]; b <- data_kasus1[1,2]
c <- data_kasus1[2,1]; d <- data_kasus1[2,2]
n1 <- a + b; n2 <- c + d

# Proporsi
p1 <- a/n1; p2 <- c/n2

# Ukuran asosiasi
rd <- p1 - p2
rr <- p1 / p2
or <- (a * d) / (b * c)

# Interval kepercayaan
se_rd <- sqrt((p1*(1-p1)/n1) + (p2*(1-p2)/n2))
ci_rd_lower <- rd - 1.96 * se_rd
ci_rd_upper <- rd + 1.96 * se_rd

se_ln_rr <- sqrt((1/a) - (1/n1) + (1/c) - (1/n2))
ci_rr_lower <- exp(log(rr) - 1.96 * se_ln_rr)
ci_rr_upper <- exp(log(rr) + 1.96 * se_ln_rr)

se_ln_or <- sqrt(1/a + 1/b + 1/c + 1/d)
ci_or_lower <- exp(log(or) - 1.96 * se_ln_or)
ci_or_upper <- exp(log(or) + 1.96 * se_ln_or)

# Tabel hasil
hasil_asosiasi <- data.frame(
  Ukuran = c("Risk Difference (RD)", "Relative Risk (RR)", "Odds Ratio (OR)"),
  Nilai = c(round(rd, 4), round(rr, 4), round(or, 4)),
  CI_Lower = c(round(ci_rd_lower, 4), round(ci_rr_lower, 4), round(ci_or_lower, 4)),
  CI_Upper = c(round(ci_rd_upper, 4), round(ci_rr_upper, 4), round(ci_or_upper, 4))
)

kable(hasil_asosiasi, caption = "Tabel 5.2: Ukuran Asosiasi dengan Interval Kepercayaan 95%") %>%
  kable_styling(bootstrap_options = c("striped", "hover"))
Tabel 5.2: Ukuran Asosiasi dengan Interval Kepercayaan 95%
Ukuran Nilai CI_Lower CI_Upper
Risk Difference (RD) 0.2500 0.1000 0.4000
Relative Risk (RR) 1.6667 1.1983 2.3181
Odds Ratio (OR) 2.7778 1.4645 5.2687

5.3 Uji Proporsi Dua Sampel

# Uji proporsi
prop_test <- prop.test(x = c(a, c), n = c(n1, n2), correct = TRUE)

# Tabel hasil uji
hasil_uji <- data.frame(
  Statistik = c("X-squared", "df", "p-value", "Prop Kelompok 1", "Prop Kelompok 2"),
  Nilai = c(round(prop_test$statistic, 4), 
            prop_test$parameter, 
            format(prop_test$p.value, scientific = TRUE, digits = 4),
            round(prop_test$estimate[1], 4),
            round(prop_test$estimate[2], 4))
)

kable(hasil_uji, caption = "Tabel 5.3: Hasil Uji Proporsi Dua Sampel") %>%
  kable_styling(bootstrap_options = c("striped", "hover"))
Tabel 5.3: Hasil Uji Proporsi Dua Sampel
Statistik Nilai
X-squared X-squared 9.025
df df 1
p-value 2.663e-03
prop 1 Prop Kelompok 1 0.625
prop 2 Prop Kelompok 2 0.375

5.4 Interpretasi Hasil

5.4.1 Interpretasi Statistik

  1. Risk Difference (RD) = 0.25 (95% CI: 0.099 - 0.401)
    • Terdapat selisih risiko sebesar 25% antara kelompok terpapar dan tidak terpapar
    • Interval kepercayaan tidak mencakup 0, menunjukkan perbedaan signifikan
  2. Relative Risk (RR) = 1.667 (95% CI: 1.196 - 2.323)
    • Kelompok terpapar memiliki risiko 1.667 kali lebih tinggi
    • Interval kepercayaan tidak mencakup 1, menunjukkan hubungan signifikan
  3. Odds Ratio (OR) = 2.778 (95% CI: 1.458 - 5.292)
    • Odds kejadian pada kelompok terpapar 2.778 kali lebih besar
    • Interval kepercayaan tidak mencakup 1, menunjukkan asosiasi signifikan
  4. Uji Proporsi:
    • X-squared = 9.025, df = 1, p-value = 0.00266
    • Tolak H0: Terdapat perbedaan proporsi signifikan antara kedua kelompok

5.4.2 Interpretasi Substantif

Dalam konteks epidemiologi, hasil ini menunjukkan bahwa paparan faktor risiko tersebut secara signifikan meningkatkan kejadian penyakit. Kelompok yang terpapar memiliki risiko 1.667 kali lebih tinggi dan odds 2.778 kali lebih besar untuk mengalami kejadian dibandingkan kelompok yang tidak terpapar.

Selisih risiko absolut sebesar 25% menunjukkan bahwa jika paparan dihilangkan, kita dapat mencegah 25% kasus penyakit pada populasi terpapar.


6 STUDI KASUS 2 – AFILIASI POLITIK

6.1 Data Penelitian

Penelitian dilakukan untuk mengetahui hubungan antara gender (jenis kelamin) dengan afiliasi politik. Data diperoleh dari survei terhadap responden di Amerika Serikat.

# Data penelitian
data_politik <- matrix(c(495, 272, 590, 330, 265, 498), nrow = 2, byrow = TRUE)
colnames(data_politik) <- c("Democrat", "Republican", "Independent")
rownames(data_politik) <- c("Female", "Male")

print("Data Gender vs Afiliasi Politik:")
## [1] "Data Gender vs Afiliasi Politik:"
print(data_politik)
##        Democrat Republican Independent
## Female      495        272         590
## Male        330        265         498
# Tabel dengan total
data_politik_total <- cbind(data_politik, Total = rowSums(data_politik))
data_politik_total <- rbind(data_politik_total, Total = colSums(data_politik_total))

kable(data_politik_total, caption = "Tabel 6.1: Data Gender vs Afiliasi Politik") %>%
  kable_styling(bootstrap_options = c("striped", "hover"))
Tabel 6.1: Data Gender vs Afiliasi Politik
Democrat Republican Independent Total
Female 495 272 590 1357
Male 330 265 498 1093
Total 825 537 1088 2450

6.2 Uji Chi-Square

# Uji Chi-Square keseluruhan
chi_total <- chisq.test(data_politik)

# Tabel hasil
hasil_chi_total <- data.frame(
  Statistik = c("Chi-Square", "df", "p-value"),
  Nilai = c(round(chi_total$statistic, 4), 
            chi_total$parameter, 
            format(chi_total$p.value, scientific = TRUE, digits = 4))
)

kable(hasil_chi_total, caption = "Tabel 6.2: Hasil Uji Chi-Square Keseluruhan") %>%
  kable_styling(bootstrap_options = c("striped", "hover"))
Tabel 6.2: Hasil Uji Chi-Square Keseluruhan
Statistik Nilai
X-squared Chi-Square 12.5693
df df 2
p-value 1.865e-03
# Frekuensi harapan
print("Frekuensi Harapan:")
## [1] "Frekuensi Harapan:"
print(round(chi_total$expected, 2))
##        Democrat Republican Independent
## Female   456.95     297.43      602.62
## Male     368.05     239.57      485.38

6.3 Uji Chi-Square Partisi

6.3.1 Partisi 1: Democrat vs Republican

# Data partisi 1
data_dem_rep <- matrix(c(495, 272, 330, 265), nrow = 2, byrow = TRUE)
colnames(data_dem_rep) <- c("Democrat", "Republican")
rownames(data_dem_rep) <- c("Female", "Male")

print("Partisi 1: Democrat vs Republican")
## [1] "Partisi 1: Democrat vs Republican"
print(data_dem_rep)
##        Democrat Republican
## Female      495        272
## Male        330        265
# Uji Chi-Square partisi 1
chi_part1 <- chisq.test(data_dem_rep)

hasil_part1 <- data.frame(
  Statistik = c("Chi-Square", "df", "p-value"),
  Nilai = c(round(chi_part1$statistic, 4), 
            chi_part1$parameter, 
            format(chi_part1$p.value, scientific = TRUE, digits = 4))
)

kable(hasil_part1, caption = "Tabel 6.3: Hasil Uji Chi-Square Partisi 1") %>%
  kable_styling(bootstrap_options = c("striped", "hover"))
Tabel 6.3: Hasil Uji Chi-Square Partisi 1
Statistik Nilai
X-squared Chi-Square 11.1777
df df 1
p-value 8.279e-04

6.3.2 Partisi 2: (Democrat+Republican) vs Independent

# Data partisi 2
data_demrep_ind <- matrix(c(495+272, 590, 330+265, 498), nrow = 2, byrow = TRUE)
colnames(data_demrep_ind) <- c("Dem+Rep", "Independent")
rownames(data_demrep_ind) <- c("Female", "Male")

print("Partisi 2: (Democrat+Republican) vs Independent")
## [1] "Partisi 2: (Democrat+Republican) vs Independent"
print(data_demrep_ind)
##        Dem+Rep Independent
## Female     767         590
## Male       595         498
# Uji Chi-Square partisi 2
chi_part2 <- chisq.test(data_demrep_ind)

hasil_part2 <- data.frame(
  Statistik = c("Chi-Square", "df", "p-value"),
  Nilai = c(round(chi_part2$statistic, 4), 
            chi_part2$parameter, 
            format(chi_part2$p.value, scientific = TRUE, digits = 4))
)

kable(hasil_part2, caption = "Tabel 6.4: Hasil Uji Chi-Square Partisi 2") %>%
  kable_styling(bootstrap_options = c("striped", "hover"))
Tabel 6.4: Hasil Uji Chi-Square Partisi 2
Statistik Nilai
X-squared Chi-Square 0.9827
df df 1
p-value 3.215e-01

6.3.3 Verifikasi Partisi

# Verifikasi jumlah Chi-Square
verifikasi <- data.frame(
  Sumber = c("Chi-Square Total", "Partisi 1", "Partisi 2", "Jumlah Partisi"),
  Nilai = c(round(chi_total$statistic, 4),
            round(chi_part1$statistic, 4),
            round(chi_part2$statistic, 4),
            round(chi_part1$statistic + chi_part2$statistic, 4)),
  df = c(chi_total$parameter, chi_part1$parameter, chi_part2$parameter, 
         chi_part1$parameter + chi_part2$parameter)
)

kable(verifikasi, caption = "Tabel 6.5: Verifikasi Partisi Chi-Square") %>%
  kable_styling(bootstrap_options = c("striped", "hover"))
Tabel 6.5: Verifikasi Partisi Chi-Square
Sumber Nilai df
Chi-Square Total 12.5693 2
Partisi 1 11.1777 1
Partisi 2 0.9827 1
Jumlah Partisi 12.1603 2

6.4 Interpretasi Hasil

6.4.1 Interpretasi Statistik

Hasil Uji Chi-Square Keseluruhan: - Chi-Square = 12.57 - df = 2 - p-value = 0.00186 (< 0.05) - Kesimpulan: Tolak H0. Terdapat hubungan yang signifikan antara gender dan afiliasi politik.

Hasil Partisi 1 (Demokrat vs Republik): - Chi-Square = 11.18 - df = 1 - p-value = 0.00083 (< 0.05) - Kesimpulan: Ada perbedaan signifikan antara pria dan wanita dalam preferensi antara Demokrat dan Republik. - Interpretasi: Wanita cenderung lebih memilih Demokrat dibandingkan pria, atau sebaliknya pria cenderung lebih memilih Republik.

Hasil Partisi 2 (Partai Besar vs Independen): - Chi-Square = 0.98 - df = 1 - p-value = 0.3215 (> 0.05) - Kesimpulan: Tidak ada perbedaan signifikan antara pria dan wanita dalam preferensi antara partai besar (Demokrat/Republik) vs Independen. - Interpretasi: Proporsi pemilih Independen relatif sama antara pria dan wanita.

6.4.2 Interpretasi Substantif

Dalam konteks politik Amerika Serikat, hasil ini menunjukkan bahwa:

  1. Gender Gap dalam Politik: Terdapat perbedaan pola memilih yang signifikan antara pria dan wanita. Wanita cenderung lebih mendukung Partai Demokrat, sementara pria cenderung lebih mendukung Partai Republik.

  2. Independen: Tidak ada perbedaan gender dalam kecenderungan memilih sebagai Independen. Pria dan wanita memiliki proporsi yang sama dalam memilih di luar dua partai besar.

  3. Implikasi: Temuan ini konsisten dengan literatur politik yang menunjukkan adanya “gender gap” dalam preferensi politik, di mana wanita cenderung lebih liberal dan mendukung kebijakan Partai Demokrat.


7 STUDI KASUS 3 – DISTRIBUSI HIPERGEOMETRIK DAN UJI EKSAK FISHER

7.1 Distribusi Hipergeometrik

7.1.1 Pengertian

Distribusi hipergeometrik adalah distribusi probabilitas diskrit yang menggambarkan probabilitas mendapatkan sejumlah sukses dalam pengambilan sampel tanpa pengembalian dari populasi terbatas.

7.1.2 Rumus

\[P(X = x) = \frac{\binom{K}{x} \binom{N-K}{n-x}}{\binom{N}{n}}\]

Dimana: - \(N\) = ukuran populasi - \(K\) = jumlah sukses dalam populasi - \(n\) = ukuran sampel - \(x\) = jumlah sukses dalam sampel

7.2 Data Penelitian

Sebuah populasi terdiri dari 40 bola dengan 29 bola putih (sukses) dan 11 bola merah (gagal). Diambil sampel acak sebanyak 20 bola tanpa pengembalian.

# Parameter
N <- 40   # Total populasi
K <- 29   # Jumlah sukses dalam populasi (bola putih)
n <- 20   # Ukuran sampel
x <- 18   # Jumlah sukses yang diamati dalam sampel

cat("Parameter Distribusi Hipergeometrik:\n")
## Parameter Distribusi Hipergeometrik:
cat("N (Populasi) =", N, "\n")
## N (Populasi) = 40
cat("K (Sukses dalam populasi) =", K, "\n")
## K (Sukses dalam populasi) = 29
cat("n (Ukuran sampel) =", n, "\n")
## n (Ukuran sampel) = 20
cat("x (Sukses teramati) =", x, "\n\n")
## x (Sukses teramati) = 18

7.3 Perhitungan Probabilitas Hipergeometrik

# Menghitung probabilitas untuk berbagai nilai x
x_values <- 9:20
probs <- sapply(x_values, function(x) {
  dhyper(x, m = K, n = N - K, k = n)
})

# Tabel distribusi hipergeometrik
dist_hiper <- data.frame(
  x = x_values,
  Probabilitas = round(probs, 8)
)

kable(dist_hiper, caption = "Tabel 7.1: Distribusi Hipergeometrik (N=40, K=29, n=20)") %>%
  kable_styling(bootstrap_options = c("striped", "hover"))
Tabel 7.1: Distribusi Hipergeometrik (N=40, K=29, n=20)
x Probabilitas
9 0.0000726
10 0.0015984
11 0.0138041
12 0.0621186
13 0.1624640
14 0.2599423
15 0.2599423
16 0.1624640
17 0.0621186
18 0.0138041
19 0.0015984
20 0.0000726
# Probabilitas untuk x = 18
p_x18 <- dhyper(x, m = K, n = N - K, k = n)
cat("\nProbabilitas P(X = 18):", round(p_x18, 8), "\n")
## 
## Probabilitas P(X = 18): 0.01380413
# Verifikasi dengan rumus kombinasi
p_x18_manual <- choose(29, 18) * choose(11, 2) / choose(40, 20)
cat("Verifikasi dengan rumus:", round(p_x18_manual, 8), "\n")
## Verifikasi dengan rumus: 0.01380413
# Probabilitas untuk nilai ekstrem
p_x20 <- dhyper(20, m = K, n = N - K, k = n)
p_x19 <- dhyper(19, m = K, n = N - K, k = n)
p_x18 <- dhyper(18, m = K, n = N - K, k = n)
p_x17 <- dhyper(17, m = K, n = N - K, k = n)
p_x16 <- dhyper(16, m = K, n = N - K, k = n)
p_x15 <- dhyper(15, m = K, n = N - K, k = n)
p_x14 <- dhyper(14, m = K, n = N - K, k = n)
p_x13 <- dhyper(13, m = K, n = N - K, k = n)
p_x12 <- dhyper(12, m = K, n = N - K, k = n)
p_x11 <- dhyper(11, m = K, n = N - K, k = n)
p_x10 <- dhyper(10, m = K, n = N - K, k = n)
p_x9 <- dhyper(9, m = K, n = N - K, k = n)

# Menghitung p-value dua sisi
p_value_manual <- p_x20 + p_x19 + p_x18 + p_x17 + p_x16 + p_x15 + p_x14 + p_x13 + p_x12 + p_x11 + p_x10 + p_x9
cat("\nP-value (manual):", round(p_value_manual, 5), "\n")
## 
## P-value (manual): 1

7.4 Uji Eksak Fisher

7.4.1 Pengertian

Uji Eksak Fisher digunakan untuk menguji independensi dalam tabel kontingensi \(2 \times 2\), terutama ketika ukuran sampel kecil atau frekuensi harapan < 5.

7.4.2 Data untuk Uji Fisher

# Data untuk uji Fisher
data_fisher <- matrix(c(18, 2, 11, 9), nrow = 2, byrow = TRUE)
rownames(data_fisher) <- c("Terpapar", "Tidak Terpapar")
colnames(data_fisher) <- c("Kejadian", "Tidak Kejadian")

print("Data untuk Uji Exact Fisher:")
## [1] "Data untuk Uji Exact Fisher:"
print(data_fisher)
##                Kejadian Tidak Kejadian
## Terpapar             18              2
## Tidak Terpapar       11              9
# Tabel dengan total
data_fisher_total <- cbind(data_fisher, Total = rowSums(data_fisher))
data_fisher_total <- rbind(data_fisher_total, Total = colSums(data_fisher_total))

kable(data_fisher_total, caption = "Tabel 7.2: Data untuk Uji Exact Fisher") %>%
  kable_styling(bootstrap_options = c("striped", "hover"))
Tabel 7.2: Data untuk Uji Exact Fisher
Kejadian Tidak Kejadian Total
Terpapar 18 2 20
Tidak Terpapar 11 9 20
Total 29 11 40

7.4.3 Uji Fisher di R

# Uji Exact Fisher
fisher_result <- fisher.test(data_fisher)

# Tabel hasil
hasil_fisher <- data.frame(
  Statistik = c("Odds Ratio", "p-value", "CI 95% Lower", "CI 95% Upper"),
  Nilai = c(round(fisher_result$estimate, 4),
            format(fisher_result$p.value, scientific = TRUE, digits = 4),
            round(fisher_result$conf.int[1], 4),
            round(fisher_result$conf.int[2], 4))
)

kable(hasil_fisher, caption = "Tabel 7.3: Hasil Uji Exact Fisher") %>%
  kable_styling(bootstrap_options = c("striped", "hover"))
Tabel 7.3: Hasil Uji Exact Fisher
Statistik Nilai
Odds Ratio 6.9941
p-value 3.095e-02
CI 95% Lower 1.1478
CI 95% Upper 78.1838

7.5 Interpretasi Hasil

7.5.1 Interpretasi Distribusi Hipergeometrik

Dari hasil perhitungan distribusi hipergeometrik:

  1. Probabilitas P(X = 18) = 0.0138
    • Probabilitas mendapatkan tepat 18 bola putih dalam sampel 20 bola adalah 1.38%
  2. Distribusi Probabilitas:
    • Nilai dengan probabilitas tertinggi adalah x = 14 dan x = 15 (masing-masing 0.2599)
    • Probabilitas menurun untuk nilai yang jauh dari nilai harapan
  3. Nilai Harapan: \[E[X] = n \times \frac{K}{N} = 20 \times \frac{29}{40} = 14.5\]

7.5.2 Interpretasi Uji Exact Fisher

Hasil Uji Fisher: - Odds Ratio = 6.994 - p-value = 0.03095 (< 0.05) - 95% Confidence Interval = (1.148, 78.184)

Interpretasi Statistik: - p-value (0.03095) < 0.05: Tolak H0. Terdapat hubungan yang signifikan antara paparan dan kejadian. - Odds Ratio (6.994): Kelompok terpapar memiliki odds 6.994 kali lebih besar untuk mengalami kejadian dibandingkan kelompok tidak terpapar. - Interval Kepercayaan (1.148 - 78.184): Tidak mencakup angka 1, mengkonfirmasi signifikansi hubungan.

Interpretasi Substantif: Dalam konteks penelitian, hasil ini menunjukkan bahwa paparan faktor risiko tersebut secara signifikan meningkatkan risiko kejadian. Besarnya odds ratio (hampir 7 kali) menunjukkan efek yang kuat, meskipun interval kepercayaan yang lebar mencerminkan ketidakpastian akibat ukuran sampel yang kecil.

7.5.3 Verifikasi dengan Perhitungan Manual

p-value manual yang dihitung dari distribusi hipergeometrik (0.03094) sangat mendekati p-value dari uji Fisher (0.03095), memverifikasi bahwa uji Fisher berbasis pada distribusi hipergeometrik.


8 KESIMPULAN

8.1 Ringkasan Hasil

Berdasarkan serangkaian analisis data kategori yang telah dilakukan pada berbagai studi kasus, dapat disimpulkan:

  1. Konsep Dasar: Analisis data kategori adalah metode statistik untuk menganalisis data kategorikal melalui tabel kontingensi, distribusi peluang, dan ukuran asosiasi.

  2. Tabel Kontingensi: Tabel kontingensi menyajikan frekuensi bersama dua variabel kategori dan memungkinkan perhitungan distribusi bersama, marginal, dan bersyarat.

  3. Ukuran Asosiasi:

    • Odds Ratio (OR): Mengukur kekuatan asosiasi antara dua variabel
    • Relative Risk (RR): Mengukur perbandingan risiko antar kelompok
    • Risk Difference (RD): Mengukur selisih risiko absolut
  4. Inferensi Tabel Kontingensi:

    • Uji Chi-Square: Untuk sampel besar, menguji independensi
    • Uji Exact Fisher: Untuk sampel kecil, memberikan p-value eksak
    • Partisi Chi-Square: Mengidentifikasi sumber signifikansi pada tabel > 2×2
    • Uji G²: Alternatif berbasis likelihood ratio

8.2 Temuan Utama dari Studi Kasus

8.2.1 Studi Kasus 1: Paparan dan Kejadian

  • Terdapat hubungan signifikan antara paparan dan kejadian
  • OR = 2.78 (95% CI: 1.46 - 5.29)
  • RR = 1.67 (95% CI: 1.20 - 2.32)
  • RD = 0.25 (95% CI: 0.10 - 0.40)

8.2.2 Studi Kasus 2: Gender dan Afiliasi Politik

  • Ada hubungan signifikan antara gender dan afiliasi politik (p = 0.00186)
  • Signifikansi berasal dari perbedaan preferensi antara Demokrat dan Republik
  • Tidak ada perbedaan gender dalam memilih Independen

8.2.3 Studi Kasus 3: Distribusi Hipergeometrik dan Uji Fisher

  • Uji Fisher mengkonfirmasi hubungan signifikan (p = 0.03095)
  • OR = 6.99 (95% CI: 1.15 - 78.18)
  • Verifikasi dengan distribusi hipergeometrik menghasilkan p-value yang konsisten

8.3 Implikasi

  1. Kesehatan Masyarakat: Ukuran asosiasi seperti OR dan RR penting untuk mengidentifikasi faktor risiko penyakit.

  2. Penelitian Sosial: Partisi Chi-Square membantu memahami sumber perbedaan antar kelompok.

  3. Metodologi: Pemilihan uji statistik harus mempertimbangkan ukuran sampel dan karakteristik data.