1 Definisi Analisis Data Kategori

1.1 Pengertian Analisis Data Kategori

Analisis data kategori merupakan cabang analisis statistik yang digunakan untuk menganalisis data dengan variabel yang berbentuk kategori atau kelas tertentu. Variabel kategori adalah variabel yang memiliki skala pengukuran berupa sekumpulan kategori yang merepresentasikan karakteristik objek yang diamati.

Dalam analisis data kategori, metode statistik yang digunakan umumnya berfokus pada frekuensi, proporsi, dan peluang kemunculan suatu kategori dalam populasi.

Selain itu, analisis ini juga digunakan untuk mempelajari hubungan antar variabel kategori melalui pendekatan probabilistik dan model statistik yang sesuai.

Dengan demikian, analisis data kategori menjadi penting karena banyak fenomena dalam kehidupan nyata tidak dinyatakan dalam bentuk numerik kontinu, melainkan dalam bentuk klasifikasi atau kelompok.

1.2 Karakteristik Variabel Kategori

Variabel kategori memiliki beberapa karakteristik utama sebagai berikut:

Berbentuk kategori atau kelas
Nilai variabel dinyatakan dalam bentuk kategori yang menggambarkan karakteristik objek, seperti jenis kelamin, jenis pekerjaan, atau jenis tempat tinggal.
Tidak memiliki makna numerik secara langsung
Nilai kategori tidak dapat diinterpretasikan sebagai besaran numerik sehingga operasi aritmetika seperti penjumlahan atau rata-rata tidak relevan.
Dapat berupa nominal atau ordinal
Variabel kategori dapat bersifat:
- Nominal → tidak memiliki urutan antar kategori
- Ordinal → memiliki urutan atau tingkatan antar kategori
Dianalisis menggunakan frekuensi atau proporsi
Analisis dilakukan berdasarkan jumlah kemunculan (frekuensi) atau proporsi pada setiap kategori.
Disajikan dalam tabel distribusi atau tabel kontingensi
Data kategori umumnya ditampilkan dalam bentuk tabel untuk memahami distribusi dan hubungan antar variabel.

1.3 Contoh Penerapan Analisis Data Kategori dalam Penelitian

Analisis data kategori banyak digunakan dalam berbagai bidang penelitian karena banyak fenomena yang secara alami berbentuk kategori.

Penelitian kesehatan
Dalam bidang kesehatan, analisis data kategori digunakan untuk menganalisis hubungan antara status merokok (perokok dan bukan perokok) dengan kejadian penyakit tertentu. Analisis dilakukan menggunakan tabel kontingensi dan uji Chi-Square untuk mengetahui apakah terdapat hubungan yang signifikan antara kedua variabel tersebut.
Penelitian sosial
Dalam penelitian sosial, analisis data kategori digunakan untuk mempelajari hubungan antara tingkat pendidikan dengan status pekerjaan. Hasil analisis dapat memberikan gambaran mengenai pola sosial dalam masyarakat.
Penelitian pemasaran
Dalam bidang pemasaran, analisis data kategori digunakan untuk mengetahui hubungan antara jenis kelamin konsumen dengan preferensi terhadap suatu produk.
Analisis ini penting dalam memahami segmentasi pasar dan perilaku konsumen sehingga dapat mendukung pengambilan keputusan bisnis.

2 Tabel Kontingensi 2×2

2.1 Tabel Kontingensi 2×2

2.1.1 Definisi Tabel Kontingensi

Tabel kontingensi merupakan tabel yang digunakan untuk menyajikan data kategorik dalam bentuk frekuensi yang menunjukkan hubungan antara dua atau lebih variabel kategori. Tabel ini biasanya digunakan untuk menggambarkan bagaimana distribusi satu variabel berhubungan dengan distribusi variabel lainnya.

Menurut Agresti (2013), tabel kontingensi merupakan alat dasar dalam analisis data kategori yang menampilkan frekuensi observasi dari kombinasi kategori antara dua atau lebih variabel. Melalui tabel ini, peneliti dapat mengamati pola hubungan antar variabel serta menjadi dasar dalam berbagai analisis statistik seperti uji Chi-Square, analisis asosiasi, dan model log-linear.

2.1.2 Struktur Tabel Kontingensi

Secara umum, tabel kontingensi terdiri dari baris dan kolom yang merepresentasikan kategori dari dua variabel yang berbeda. Setiap sel pada tabel menunjukkan jumlah observasi yang termasuk dalam kombinasi kategori tertentu.

Sebagai contoh, berikut adalah tabel kontingensi 2 × 2 yang menunjukkan hubungan antara keikutsertaan dalam bimbingan belajar dan kelulusan ujian.

Bimbingan Belajar	Lulus Ujian	Tidak Lulus	Total
Mengikuti Bimbel	80	20	100
Tidak Mengikuti	60	40	100
Total	140	60	200

Pada tabel tersebut:

Baris menunjukkan kategori dari variabel keikutsertaan dalam bimbingan belajar
Kolom menunjukkan kategori dari variabel hasil ujian
Sel tabel menunjukkan jumlah observasi pada kombinasi kedua variabel

Sebagai contoh, nilai 80 menunjukkan bahwa terdapat 80 mahasiswa yang mengikuti bimbingan belajar dan lulus ujian.

2.1.3 Konsep Joint Distribution

Joint distribution atau distribusi gabungan menggambarkan probabilitas terjadinya dua kategori secara bersamaan. Dalam tabel kontingensi, distribusi gabungan diperoleh dengan membagi frekuensi pada setiap sel dengan jumlah total observasi.

Sebagai contoh, probabilitas seorang mahasiswa mengikuti bimbingan belajar dan lulus ujian adalah:

\[ P(\text{Bimbel dan Lulus}) = \frac{80}{200} = 0.40 \]

Nilai tersebut menunjukkan bahwa 40% dari seluruh mahasiswa dalam sampel mengikuti bimbingan belajar dan berhasil lulus ujian.

Contoh lain:

\[ P(\text{Tidak Bimbel dan Lulus}) = \frac{60}{200} = 0.30 \]

Distribusi gabungan memberikan informasi mengenai peluang kombinasi dua kategori yang terjadi secara simultan dalam populasi atau sampel penelitian.

2.1.4 Konsep Marginal Distribution

Distribusi marginal merupakan distribusi probabilitas dari satu variabel tanpa mempertimbangkan variabel lainnya.

Sebagai contoh:

Probabilitas mahasiswa mengikuti bimbingan belajar

\[ P(\text{Bimbel}) = \frac{100}{200} = 0.50 \]

Probabilitas mahasiswa lulus ujian

\[ P(\text{Lulus}) = \frac{140}{200} = 0.70 \]

Distribusi marginal memberikan gambaran distribusi masing-masing variabel secara terpisah.

2.1.5 Konsep Conditional Probability

Probabilitas kondisional merupakan probabilitas suatu kejadian dengan syarat kejadian lain telah terjadi.

Sebagai contoh:

\[ P(\text{Lulus | Bimbel}) = \frac{80}{100} = 0.80 \]

Artinya, 80% mahasiswa yang mengikuti bimbingan belajar berhasil lulus ujian.

Sebaliknya:

\[ P(\text{Lulus | Tidak Bimbel}) = \frac{60}{100} = 0.60 \]

Perbandingan ini menunjukkan bahwa mahasiswa yang mengikuti bimbingan belajar memiliki peluang lebih tinggi untuk lulus dibandingkan yang tidak.

Konsep ini menjadi dasar penting dalam memahami hubungan atau asosiasi antar variabel kategorik.

2.2 Ukuran Asosiasi pada Tabel Kontingensi

Ukuran asosiasi digunakan untuk mengukur kekuatan hubungan antara dua variabel kategorik dalam tabel kontingensi. Pada tabel kontingensi 2 × 2, ukuran asosiasi yang umum digunakan adalah Risk Difference (RD), Relative Risk (RR), dan Odds Ratio (OR).

Sebagai ilustrasi, digunakan tabel kontingensi 2 × 2 berikut yang menggambarkan hubungan antara keikutsertaan dalam bimbingan belajar dan kelulusan ujian.

	Lulus Ujian	Tidak Lulus
Mengikuti Bimbel	a	c
Tidak Mengikuti	b	d

Total observasi:

\[ n = a + b + c + d \]

Pada tabel tersebut:

a → mengikuti bimbingan belajar dan lulus ujian
b → mengikuti bimbingan belajar tetapi tidak lulus ujian
c → tidak mengikuti bimbingan belajar tetapi lulus ujian
d → tidak mengikuti bimbingan belajar dan tidak lulus ujian

2.2.1 Risk Difference

Risk Difference (RD) merupakan ukuran asosiasi yang menyatakan perbedaan probabilitas kejadian antara dua kelompok.

Secara matematis:

\[ RD = P(\text{event | bimbel}) - P(\text{event | tidak bimbel}) \]

Dalam tabel kontingensi 2 × 2:

\[ RD = \frac{a}{a+b} - \frac{c}{c+d} \]

Interpretasi:

RD = 0 → tidak ada perbedaan
RD > 0 → peluang lebih tinggi pada kelompok bimbel
RD < 0 → peluang lebih rendah pada kelompok bimbel

Contoh: Jika RD = 0.20, maka peluang lulus meningkat sebesar 20% pada mahasiswa yang mengikuti bimbingan belajar.

2.2.2 Relative Risk

Relative Risk (RR) membandingkan rasio probabilitas kejadian antara dua kelompok.

\[ RR = \frac{P(\text{event | bimbel})}{P(\text{event | tidak bimbel})} \]

Dalam tabel:

\[ RR = \frac{a/(a+b)}{c/(c+d)} \]

Interpretasi:

RR = 1 → tidak ada hubungan
RR > 1 → peluang lebih besar pada kelompok bimbel
RR < 1 → peluang lebih kecil pada kelompok bimbel

Contoh: Jika RR = 2, maka peluang lulus dua kali lebih besar pada mahasiswa yang mengikuti bimbingan belajar.

2.2.3 Odds Ratio

Odds Ratio (OR) membandingkan odds kejadian antara dua kelompok.

\[ OR = \frac{a/b}{c/d} \]

Disederhanakan menjadi:

\[ OR = \frac{ad}{bc} \]

Interpretasi:

OR = 1 → tidak ada hubungan
OR > 1 → kejadian lebih mungkin terjadi pada kelompok bimbel
OR < 1 → kejadian lebih kecil kemungkinannya

Contoh: Jika OR = 3, maka peluang lulus tiga kali lebih besar pada mahasiswa yang mengikuti bimbingan belajar.

Ketiga ukuran asosiasi ini memberikan perspektif yang berbeda dalam memahami hubungan antar variabel, sehingga pemilihannya harus disesuaikan dengan tujuan analisis.

2.3 Contoh Perhitungan Manual

Untuk memahami konsep ukuran asosiasi pada tabel kontingensi, berikut diberikan contoh kasus sederhana mengenai hubungan antara keikutsertaan dalam bimbingan belajar dan kelulusan ujian.

Misalkan dilakukan pengamatan terhadap 200 orang mahasiswa dan diperoleh data sebagai berikut.

2.3.1 Tabel Kontingensi

Keikutsertaan Bimbel	Lulus Ujian	Tidak Lulus	Total
Mengikuti Bimbel	80	20	100
Tidak Mengikuti	60	40	100
Total	140	60	200

Pada tabel tersebut dapat didefinisikan:

\[ a = 80, \quad b = 20, \quad c = 60, \quad d = 40 \]

Total pengamatan:

\[ n = a + b + c + d = 200 \]

2.3.2 Menghitung Peluang Bersyarat

Peluang bersyarat menunjukkan probabilitas suatu kejadian dengan syarat kejadian lain telah terjadi.

\[ P(\text{Lulus | Mengikuti Bimbel}) = \frac{80}{100} = 0.80 \]

Artinya, 80% mahasiswa yang mengikuti bimbingan belajar lulus ujian.

\[ P(\text{Lulus | Tidak Mengikuti Bimbel}) = \frac{60}{100} = 0.60 \]

Artinya, 60% mahasiswa yang tidak mengikuti bimbingan belajar lulus ujian.

Perbandingan ini menunjukkan bahwa mahasiswa yang mengikuti bimbingan belajar memiliki peluang lebih besar untuk lulus.

2.3.3 Menghitung Odds

Odds merupakan rasio antara probabilitas kejadian dan tidak kejadian.

\[ Odds_{bimbel} = \frac{80}{20} = 4.00 \]

Artinya, terdapat 4 kali peluang lulus dibanding tidak lulus pada kelompok bimbel.

\[ Odds_{tidak\ bimbel} = \frac{60}{40} = 1.50 \]

Artinya, terdapat 1.5 kali peluang lulus dibanding tidak lulus pada kelompok non-bimbel.

2.3.4 Menghitung Odds Ratio

Odds Ratio (OR) digunakan untuk membandingkan odds antara dua kelompok.

\[ OR = \frac{ad}{bc} \]

Substitusi:

\[ OR = \frac{(80)(40)}{(20)(60)} = \frac{3200}{1200} = 2.67 \]

Interpretasi:

Odds mahasiswa yang mengikuti bimbingan belajar untuk lulus sekitar 2.67 kali lebih besar dibandingkan yang tidak.

Hasil ini menunjukkan adanya hubungan antara keikutsertaan bimbingan belajar dan kelulusan ujian.

2.4 Analisis Menggunakan R

Untuk melengkapi perhitungan manual yang telah dilakukan sebelumnya, analisis yang sama dapat dilakukan menggunakan perangkat lunak R.

Analisis ini meliputi: - pembuatan tabel kontingensi - perhitungan Odds dan Odds Ratio - pengujian hubungan menggunakan uji Chi-Square

2.4.1 Membuat Tabel Kontingensi

Langkah pertama adalah membentuk tabel kontingensi menggunakan fungsi matrix() di R.

data <- matrix(c(80,20,60,40),
               nrow = 2,
               byrow = TRUE)

rownames(data) <- c("Mengikuti Bimbel","Tidak Mengikuti")
colnames(data) <- c("Lulus Ujian","Tidak Lulus")

data

##                  Lulus Ujian Tidak Lulus
## Mengikuti Bimbel          80          20
## Tidak Mengikuti           60          40

2.4.2 Menghitung Odds dan Odds Ratio

Odds merupakan perbandingan antara peluang terjadinya suatu kejadian dengan peluang tidak terjadinya kejadian tersebut.

a <- data[1,1]
b <- data[1,2]
c <- data[2,1]
d <- data[2,2]

Odds_bimbel <- a/b
Odds_tidak_bimbel <- c/d

Odds_bimbel

## [1] 4

Odds_tidak_bimbel

## [1] 1.5

Odds pada kelompok yang mengikuti bimbingan belajar lebih tinggi dibandingkan kelompok yang tidak mengikuti.

Odds Ratio digunakan untuk membandingkan odds antara dua kelompok.

OR <- (a*d)/(b*c)
OR

## [1] 2.666667

Nilai Odds Ratio menunjukkan kekuatan hubungan antara bimbingan belajar dan kelulusan ujian.

2.4.3 Uji Chi-Square

Uji Chi-Square digunakan untuk menguji apakah terdapat hubungan yang signifikan antara kedua variabel.

chisq_result <- chisq.test(data)
chisq_result

## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  data
## X-squared = 8.5952, df = 1, p-value = 0.00337

Jika p-value < 0.05, maka terdapat hubungan yang signifikan antara keikutsertaan bimbingan belajar dan kelulusan ujian.

2.4.4 Visualisasi Data

Visualisasi digunakan untuk memperjelas pola hubungan antar variabel.

mosaicplot(data,
           main = "Hubungan Bimbingan Belajar dan Kelulusan Ujian",
           col = c("lightblue","pink"))

Plot ini menunjukkan distribusi proporsi masing-masing kategori secara visual, sehingga memudahkan dalam memahami hubungan antara kedua variabel.

2.5 Interpretasi Hasil

2.5.1 Interpretasi Statistik

Berdasarkan hasil analisis menggunakan R, diperoleh nilai Odds Ratio sebesar

\[ OR = 2.67 \]

Nilai tersebut menunjukkan bahwa odds mahasiswa lulus ujian pada kelompok yang mengikuti bimbingan belajar sekitar 2.67 kali lebih besar dibandingkan dengan mahasiswa yang tidak mengikuti bimbingan belajar.

Selain itu, hasil uji Chi-Square menunjukkan nilai statistik

\[ X^2 = 8.595 \]

dengan derajat kebebasan

\[ df = 1 \]

serta nilai

\[ p\text{-value} = 0.00337 \]

Karena p-value < 0.05, maka hipotesis nol $H_0$ yang menyatakan bahwa tidak terdapat hubungan antara keikutsertaan dalam bimbingan belajar dan kelulusan ujian ditolak.

Dengan demikian, terdapat hubungan yang signifikan secara statistik antara keikutsertaan dalam bimbingan belajar dan keberhasilan mahasiswa dalam lulus ujian.

2.5.2 Interpretasi Substantif

Dalam konteks kasus ini, hasil analisis menunjukkan bahwa mahasiswa yang mengikuti bimbingan belajar memiliki kemungkinan yang lebih tinggi untuk lulus ujian dibandingkan mahasiswa yang tidak mengikuti bimbingan belajar.

Perbedaan probabilitas kelulusan ujian antara kedua kelompok dapat dilihat dari peluang bersyarat berikut:

\[ P(Lulus\ Ujian \mid Mengikuti\ Bimbel) = 0.8 \]

\[ P(Lulus\ Ujian \mid Tidak\ Mengikuti\ Bimbel) = 0.6 \]

Nilai tersebut menunjukkan bahwa proporsi mahasiswa yang lulus ujian pada kelompok yang mengikuti bimbingan belajar lebih tinggi dibandingkan pada kelompok mahasiswa yang tidak mengikuti bimbingan belajar.

Secara substantif, keikutsertaan dalam bimbingan belajar dapat menjadi faktor yang berperan dalam meningkatkan peluang mahasiswa untuk lulus ujian.

Oleh karena itu, penyediaan fasilitas bimbingan belajar yang efektif dapat menjadi salah satu strategi yang dapat membantu meningkatkan tingkat kelulusan mahasiswa dalam suatu ujian.

3 Inferensi pada Tabel Kontingensi Dua Arah

Inferensi statistik merupakan proses penarikan kesimpulan mengenai populasi berdasarkan data sampel. Dalam konteks tabel kontingensi dua arah, inferensi digunakan untuk menganalisis hubungan antara dua variabel kategorik yang disusun dalam bentuk tabel silang.

Tabel kontingensi adalah tabel yang menyajikan distribusi frekuensi gabungan dari dua variabel kategorik dalam bentuk matriks. Melalui tabel ini, hubungan antar variabel dapat dipahami melalui pendekatan estimasi maupun pengujian hipotesis.

Secara umum, inferensi dalam tabel kontingensi dua arah terdiri atas dua bagian utama, yaitu:

Estimasi
Pengujian

3.1 Estimasi

Estimasi bertujuan untuk memperkirakan nilai parameter populasi berdasarkan data sampel yang tersedia. Pendekatan ini menjadi langkah awal dalam memahami karakteristik populasi sebelum dilakukan pengujian lebih lanjut.

Secara umum, estimasi dibedakan menjadi dua jenis utama, yaitu:

Estimasi titik
Estimasi interval

3.1.1 Estimasi Titik {sub-header}

Estimasi titik digunakan untuk memberikan satu nilai tertentu yang dianggap sebagai representasi terbaik dari parameter populasi.

Untuk kasus proporsi, estimasi titik dinyatakan sebagai:

\[ \hat{p} = \frac{x}{n} \]

dengan:

$\hat{p}$ : estimasi titik proporsi
$x$ : jumlah individu dalam kategori tertentu
$n$ : total jumlah sampel

Estimasi ini bersifat sederhana dan langsung, namun tidak memberikan informasi mengenai tingkat ketidakpastian dari nilai yang dihasilkan.

3.1.2 Estimasi Interval {sub-header}

Berbeda dengan estimasi titik, estimasi interval memberikan rentang nilai yang diyakini mengandung parameter populasi dengan tingkat kepercayaan tertentu.

Bentuk umum interval kepercayaan untuk proporsi adalah:

\[ \hat{p} \pm Z_{\alpha/2} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \]

dimana:

$Z_{\alpha/2}$ : nilai dari distribusi normal standar untuk tingkat kepercayaan tertentu
$\hat{p}$ : estimasi proporsi
$n$ : ukuran sampel

Pendekatan ini lebih informatif karena tidak hanya memberikan satu nilai, tetapi juga memperlihatkan batas bawah dan batas atas dari kemungkinan nilai parameter populasi.

Kesimpulan:
Estimasi titik memberikan nilai tunggal sebagai dugaan parameter, sedangkan estimasi interval memberikan rentang nilai yang mencerminkan ketidakpastian dari estimasi tersebut.

3.2 Uji Hipotesis

Uji hipotesis merupakan metode statistik yang digunakan untuk menentukan apakah terdapat cukup bukti dari data sampel untuk mendukung atau menolak suatu pernyataan mengenai populasi.

Dalam konteks tabel kontingensi dua arah, uji hipotesis digunakan untuk mengevaluasi hubungan antara dua variabel kategorik.

Inferensi pada bagian ini mencakup:

Uji proporsi
Uji asosiasi
Uji independensi

3.2.1 Uji Proporsi

Uji proporsi dua sampel digunakan untuk membandingkan proporsi kejadian antara dua kelompok dalam tabel kontingensi. Analisis ini bertujuan untuk mengetahui apakah terdapat perbedaan yang signifikan antara dua proporsi populasi.

Uji ini banyak digunakan dalam studi kohort dan eksperimen, terutama untuk mengevaluasi perbedaan kejadian antara kelompok perlakuan dan kontrol.

Struktur tabel kontingensi 2 × 2 adalah sebagai berikut:

	Kejadian (+)	Tidak Kejadian (-)	Total
Grup 1	$n_{11}$	$n_{12}$	$n_{1.}$
Grup 2	$n_{21}$	$n_{22}$	$n_{2.}$
Total	$n_{.1}$	$n_{.2}$	$n$

Formulasi uji proporsi

Untuk menguji apakah tidak terdapat perbedaan proporsi antara dua kelompok, digunakan uji Z dua proporsi dengan hipotesis:

$H_0$: $p_1 = p_2$
$H_1$: $p_1 \neq p_2$

Estimasi proporsi masing-masing kelompok diberikan oleh:

\[ \hat{p}_1 = \frac{n_{11}}{n_{1.}}, \quad \hat{p}_2 = \frac{n_{21}}{n_{2.}} \]

Estimasi proporsi gabungan (pooling proportion):

\[ \hat{p} = \frac{n_{11} + n_{21}}{n_{1.} + n_{2.}} \]

Statistik uji untuk dua proporsi adalah:

\[ Z = \frac{\hat{p}_1 - \hat{p}_2} {\sqrt{\hat{p}(1-\hat{p})\left(\frac{1}{n_{1.}} + \frac{1}{n_{2.}}\right)}} \]

Statistik uji $Z$ mengikuti distribusi normal baku:

\[ Z \sim N(0,1) \]

Nilai p-value diperoleh berdasarkan distribusi normal tersebut.

Jika $|Z|$ lebih besar dari nilai kritis pada tingkat signifikansi $\alpha$ (misalnya 1.96 untuk $\alpha = 0.05$), maka hipotesis nol ditolak, yang menunjukkan adanya perbedaan proporsi yang signifikan.

Perhitungan manual langkah demi langkah

Misalkan diberikan data berikut:

	Kejadian (+)	Tidak Kejadian (-)	Total
Grup 1	50	30	80
Grup 2	30	50	80
Total	80	80	160

Langkah 1: Hitung proporsi sampel

\[ \hat{p}_1 = \frac{50}{80} = 0.625 \]

\[ \hat{p}_2 = \frac{30}{80} = 0.375 \]

Langkah 2: Hitung proporsi gabungan

\[ \hat{p} = \frac{50 + 30}{80 + 80} = \frac{80}{160} = 0.50 \]

Langkah 3: Hitung statistik uji

\[ Z = \frac{0.625 - 0.375} {\sqrt{0.50(1 - 0.50)\left(\frac{1}{80} + \frac{1}{80}\right)}} \]

\[ Z = \frac{0.25}{\sqrt{0.50 \times 0.50 \times 0.025}} \]

\[ Z = \frac{0.25}{\sqrt{0.00625}} = \frac{0.25}{0.0791} = 3.16 \]

Interpretasi:
Karena $Z = 3.16 > 1.96$, maka hipotesis nol ditolak. Artinya terdapat perbedaan proporsi yang signifikan antara kedua kelompok.

# Pastikan variabel data terdefinisi
set.seed(123)
data <- matrix(c(50, 30, 30, 50), nrow = 2, byrow = TRUE)

dimnames(data) <- list(
  "Terpapar" = c("Ya", "Tidak"),
  "Kejadian" = c("Ya", "Tidak")
)

# Tampilkan data
data

##         Kejadian
## Terpapar Ya Tidak
##    Ya    50    30
##    Tidak 30    50

# Uji proporsi dua sampel
prop_test <- prop.test(
  x = c(data[1,1], data[2,1]),
  n = c(sum(data[1,]), sum(data[2,]))
)

prop_test

## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c(data[1, 1], data[2, 1]) out of c(sum(data[1, ]), sum(data[2, ]))
## X-squared = 9.025, df = 1, p-value = 0.002663
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  0.08747151 0.41252849
## sample estimates:
## prop 1 prop 2 
##  0.625  0.375

Interpretasi hasil: Jika p-value < 0.05, maka terdapat perbedaan proporsi kejadian antara kelompok terpapar dan tidak terpapar.

3.2.2 Uji Asosiasi

Uji asosiasi dalam tabel kontingensi 2 × 2 digunakan untuk mengukur kekuatan hubungan antara dua variabel kategorik. Berbeda dengan uji proporsi yang hanya membandingkan perbedaan, uji asosiasi berfokus pada seberapa kuat keterkaitan antara dua kelompok.

Tiga ukuran utama yang digunakan dalam uji asosiasi adalah:

Risk Difference (RD) → selisih risiko absolut
Relative Risk (RR) → perbandingan risiko
Odds Ratio (OR) → perbandingan odds

Hipotesis uji asosiasi

Untuk setiap ukuran asosiasi, hipotesis yang digunakan adalah:

$H_0$: tidak terdapat asosiasi antara dua variabel
$H_1$: terdapat asosiasi antara dua variabel

Risk Difference (RD)

Risk Difference mengukur perbedaan absolut probabilitas kejadian antara dua kelompok.

\[ RD = \frac{n_{11}}{n_{1.}} - \frac{n_{21}}{n_{2.}} \]

Standard Error:

\[ SE(RD) = \sqrt{ \frac{\hat{p}_1(1-\hat{p}_1)}{n_{1.}} + \frac{\hat{p}_2(1-\hat{p}_2)}{n_{2.}} } \]

Statistik uji:

\[ Z_{RD} = \frac{RD}{SE(RD)} \]

Relative Risk (RR)

Relative Risk mengukur perbandingan peluang kejadian antara dua kelompok.

\[ RR = \frac{n_{11}/n_{1.}}{n_{21}/n_{2.}} \]

Standard Error untuk log(RR):

\[ SE(\ln RR) = \sqrt{ \frac{1}{n_{11}} - \frac{1}{n_{1.}} + \frac{1}{n_{21}} - \frac{1}{n_{2.}} } \]

Statistik uji:

\[ Z_{RR} = \frac{\ln RR}{SE(\ln RR)} \]

Odds Ratio (OR)

Odds Ratio mengukur perbandingan peluang (odds) kejadian antara dua kelompok.

\[ OR = \frac{n_{11} \times n_{22}}{n_{12} \times n_{21}} \]

Standard Error untuk log(OR):

\[ SE(\ln OR) = \sqrt{ \frac{1}{n_{11}} + \frac{1}{n_{12}} + \frac{1}{n_{21}} + \frac{1}{n_{22}} } \]

Statistik uji:

\[ Z_{OR} = \frac{\ln OR}{SE(\ln OR)} \]

Contoh perhitungan manual

Gunakan data yang sama:

	Kejadian (+)	Tidak Kejadian (-)	Total
Grup 1	50	30	80
Grup 2	30	50	80
Total	80	80	160

Misalkan:

\[ \hat{p}_1 = 0.625, \quad \hat{p}_2 = 0.375 \]

Perhitungan Risk Difference:

\[ RD = 0.625 - 0.375 = 0.25 \]

\[ SE(RD) = \sqrt{ \frac{0.625(0.375)}{80} + \frac{0.375(0.625)}{80} } \]

\[ SE(RD) = \sqrt{0.002925 + 0.002925} = \sqrt{0.00585} = 0.0765 \]

\[ Z_{RD} = \frac{0.25}{0.0765} = 3.27 \]

Perhitungan Relative Risk:

\[ RR = \frac{0.625}{0.375} = 1.67 \]

\[ SE(\ln RR) = \sqrt{ \frac{1}{50} - \frac{1}{80} + \frac{1}{30} - \frac{1}{80} } \]

\[ SE(\ln RR) = \sqrt{0.0283} = 0.1683 \]

\[ Z_{RR} = \frac{\ln(1.67)}{0.1683} = \frac{0.51}{0.1683} = 3.03 \]

Perhitungan Odds Ratio:

\[ OR = \frac{50 \times 50}{30 \times 30} = \frac{2500}{900} = 2.78 \]

\[ SE(\ln OR) = \sqrt{ \frac{1}{50} + \frac{1}{30} + \frac{1}{30} + \frac{1}{50} } \]

\[ SE(\ln OR) = \sqrt{0.1066} = 0.3266 \]

\[ Z_{OR} = \frac{\ln(2.78)}{0.3266} = \frac{1.02}{0.3266} = 3.12 \]

Kesimpulan:

RD menunjukkan perbedaan risiko absolut antar kelompok
RR menunjukkan perbandingan risiko relatif
OR menunjukkan perbandingan peluang kejadian

Nilai standard error dan statistik uji Z digunakan untuk menentukan apakah hubungan tersebut signifikan secara statistik.

# Definisi data
n11 <- 50; n12 <- 30; n21 <- 30; n22 <- 50
n1. <- n11 + n12
n2. <- n21 + n22

# Risk Difference
p1 <- n11 / n1.
p2 <- n21 / n2.
rd <- p1 - p2
se_rd <- sqrt((p1*(1-p1)/n1.) + (p2*(1-p2)/n2.))
z_rd <- rd / se_rd

# Relative Risk
rr <- (n11/n1.) / (n21/n2.)
se_ln_rr <- sqrt((1/n11)-(1/n1.)+(1/n21)-(1/n2.))
z_rr <- log(rr) / se_ln_rr

# Odds Ratio
or <- (n11*n22)/(n12*n21)
se_ln_or <- sqrt((1/n11)+(1/n12)+(1/n21)+(1/n22))
z_or <- log(or) / se_ln_or

# Output
list(
  RD = rd, SE_RD = se_rd, Z_RD = z_rd,
  RR = rr, SE_Ln_RR = se_ln_rr, Z_RR = z_rr,
  OR = or, SE_Ln_OR = se_ln_or, Z_OR = z_or
)

## $RD
## [1] 0.25
## 
## $SE_RD
## [1] 0.07654655
## 
## $Z_RD
## [1] 3.265986
## 
## $RR
## [1] 1.666667
## 
## $SE_Ln_RR
## [1] 0.1683251
## 
## $Z_RR
## [1] 3.034756
## 
## $OR
## [1] 2.777778
## 
## $SE_Ln_OR
## [1] 0.3265986
## 
## $Z_OR
## [1] 3.128155

3.2.3 Uji Independensi

Uji independensi digunakan untuk menentukan apakah terdapat hubungan statistik antara dua variabel kategorik dalam tabel kontingensi. Jika dua variabel saling independen, maka distribusi salah satu variabel tidak dipengaruhi oleh variabel lainnya.

Uji Chi-Square

Uji Chi-Square digunakan untuk menguji apakah terdapat hubungan antara dua variabel kategorik.

Rumus statistik uji:

\[ \chi^2 = \sum \frac{(O - E)^2}{E} \]

dengan: - $O$ = frekuensi observasi
- $E$ = frekuensi harapan

Frekuensi harapan dihitung sebagai:

\[ E_{ij} = \frac{R_i \times C_j}{N} \]

dimana: - $R_i$ = total baris ke-i
- $C_j$ = total kolom ke-j
- $N$ = total sampel

Contoh perhitungan manual Chi-Square

	Ya	Tidak	Total
Terpapar	30	10	40
Tidak Terpapar	15	45	60
Total	45	55	100

Hitung nilai ekspektasi:

\[ E_{11} = \frac{40 \times 45}{100} = 18 \]

\[ E_{12} = \frac{40 \times 55}{100} = 22 \]

\[ E_{21} = \frac{60 \times 45}{100} = 27 \]

\[ E_{22} = \frac{60 \times 55}{100} = 33 \]

Hitung statistik uji:

\[ \chi^2 = \frac{(30-18)^2}{18} + \frac{(10-22)^2}{22} + \frac{(15-27)^2}{27} + \frac{(45-33)^2}{33} \]

\[ = 8 + 6.55 + 5.33 + 4.36 = 24.24 \]

Derajat bebas:

\[ df = (2-1)(2-1) = 1 \]

Interpretasi:
Karena $\chi^2 = 24.24 > 3.841$, maka hipotesis nol ditolak → terdapat hubungan antara variabel.

data <- matrix(c(30,10,15,45), nrow=2, byrow=TRUE)
chisq.test(data)

## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  data
## X-squared = 22.264, df = 1, p-value = 2.376e-06

Jika p-value < 0.05, maka terdapat hubungan signifikan antara variabel.

Partisi Chi-Square

Partisi Chi-Square digunakan untuk mengidentifikasi bagian mana dari tabel yang memberikan kontribusi terhadap hubungan signifikan.

Konsep ini juga berkaitan dengan Simpson’s Paradox, yaitu kondisi dimana pola hubungan dapat berubah ketika data digabungkan.

Langkah-langkah yang dilakukan dalam partisi Chi-Square adalah:

Hitung nilai Chi-Square keseluruhan
Pecah tabel kontingensi menjadi beberapa tabel 2 × 2
Hitung nilai Chi-Square untuk masing-masing bagian
Interpretasikan kontribusi masing-masing bagian terhadap hubungan keseluruhan

Contoh (Agresti)

Gender	Democrat	Republican	Independent	Total
Female	495	272	590	1357
Male	330	265	498	1093
Total	825	537	1088	2450

Hasil uji Chi-Square keseluruhan:
Nilai $\chi^2 = 12.57$ dengan nilai kritis $5.99$, sehingga hasilnya signifikan.

Partisi yang dilakukan:

Democrat vs Republican → signifikan
(Democrat + Republican) vs Independent → tidak signifikan

# Partisi 1: Democrat vs Republican
data1 <- matrix(c(495,272,330,265), nrow=2, byrow=TRUE)
chisq.test(data1)

## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  data1
## X-squared = 11.178, df = 1, p-value = 0.0008279

# Partisi 2: (Democrat + Republican) vs Independent
data2 <- matrix(c(767,590,595,498), nrow=2, byrow=TRUE)
chisq.test(data2)

## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  data2
## X-squared = 0.98267, df = 1, p-value = 0.3215

Uji Likelihood Ratio (G²)

Uji Likelihood Ratio (G²) merupakan alternatif dari uji Chi-Square yang digunakan untuk menguji hubungan antara dua variabel kategorik dalam tabel kontingensi.

Statistik uji yang digunakan adalah:

\[ G^2 = 2 \sum n_{ij} \ln \left(\frac{n_{ij}}{\hat{\mu}_{ij}}\right) \]

dengan: - $n_{ij}$ = frekuensi observasi
- $\hat{\mu}_{ij}$ = frekuensi harapan

Interpretasi:
Jika nilai $G^2$ lebih besar dari nilai kritis Chi-Square, maka hipotesis nol ditolak, yang berarti terdapat hubungan antara variabel.

Contoh perhitungan menggunakan R

# Membuat data
data <- matrix(c(688,650,21,59), nrow=2, byrow=TRUE)

# Menghitung nilai ekspektasi
expected <- chisq.test(data)$expected

# Menghitung G^2
G2 <- 2 * sum(data * log(data / expected))

G2

## [1] 19.87802

Jika $G^2 > \chi^2_{kritik}$ maka tolak $H_0$.

Uji Fisher Exact

Uji Fisher Exact digunakan ketika ukuran sampel relatif kecil sehingga asumsi uji Chi-Square tidak terpenuhi. Uji ini memberikan hasil yang lebih akurat karena tidak bergantung pada pendekatan distribusi normal.

Keunggulan uji Fisher Exact:

Tidak memerlukan asumsi distribusi normal
Lebih akurat untuk frekuensi kecil

Distribusi Hipergeometrik

Dasar dari uji Fisher Exact adalah distribusi hipergeometrik, yang digunakan untuk menghitung probabilitas dari suatu konfigurasi tabel kontingensi.

Rumus distribusi hipergeometrik:

\[ P(X = x) = \frac{\binom{K}{x} \binom{N-K}{n-x}}{\binom{N}{n}} \]

dimana:

$N$ = total populasi
$K$ = jumlah elemen dalam kategori tertentu
$n$ = ukuran sampel
$x$ = jumlah kejadian dalam sampel

Interpretasi:
Probabilitas dihitung untuk setiap kemungkinan tabel yang memiliki margin yang sama, kemudian dijumlahkan untuk memperoleh p-value pada uji Fisher Exact.

Contoh perhitungan

# Distribusi hipergeometrik
dhyper(18, 29, 11, 20)

## [1] 0.01380413

Perhitungan manual probabilitas tabel

choose(29,18) * choose(11,2) / choose(40,20)

## [1] 0.01380413

p-value dihitung sebagai jumlah probabilitas dari tabel yang sama atau lebih ekstrem.

Uji Exact Fisher

data <- matrix(c(18,2,11,9), nrow=2, byrow=TRUE) fisher.test(data)

Interpretasi:

p-value < 0.05 → terdapat hubungan
p-value ≥ 0.05 → tidak terdapat bukti hubungan

Kesimpulan umum

Uji Chi-Square → digunakan untuk melihat hubungan secara umum
Partisi Chi-Square → mengidentifikasi sumber hubungan
G² → alternatif dari Chi-Square
Fisher Exact → digunakan untuk sampel berukuran kecil

3.2.4 Tugas Mahasiswa (Latihan)

Tugas:
Buatlah fungsi untuk menghitung dan melakukan pengujian hipotesis untuk Risk Difference (RD), Relative Risk (RR), dan Odds Ratio (OR).

Gunakan data berikut (Agresti, 2019):

Smoker	Lung Cancer (Cases)	Control
Yes	688	650
No	21	59

Struktur tabel

Exposure	Cases	Control	Total
Yes	a	c	a+c
No	b	d	b+d
Total	a+b	c+d	a+b+c+d

Fungsi Risk Difference (RD)

prop_diff <- function(a, b, c, d, alpha = 0.05) {
  ph <- a / (a + c)
  pi <- b / (b + d)
  nh <- a + c
  ni <- b + d
  
  se_bp <- sqrt((ph * (1 - ph) / nh) + (pi * (1 - pi) / ni))
  z_alpha <- qnorm(1 - alpha / 2)
  ci_lower <- (ph - pi) - z_alpha * se_bp
  ci_upper <- (ph - pi) + z_alpha * se_bp
  
  list(estimate = ph - pi, ci = c(ci_lower, ci_upper))
}

hasil <- prop_diff(a = 688, b = 21, c = 650, d = 59)
print(hasil)

## $estimate
## [1] 0.2517003
## 
## $ci
## [1] 0.1516343 0.3517663

Fungsi Relative Risk (RR)

relative_risk <- function(a, b, c, d, alpha = 0.05) {
  ph <- a / (a + c)
  pi <- b / (b + d)
  nh <- a + c
  ni <- b + d
  
  ln_rr <- log(ph / pi)
  se_ln_rr <- sqrt(((1 - ph) / (ph * nh)) + ((1 - pi) / (pi * ni)))
  z_alpha <- qnorm(1 - alpha / 2)
  ci_lower <- exp(ln_rr - z_alpha * se_ln_rr)
  ci_upper <- exp(ln_rr + z_alpha * se_ln_rr)
  
  list(estimate = exp(ln_rr), ci = c(ci_lower, ci_upper))
}

hasil <- relative_risk(a = 688, b = 21, c = 650, d = 59)
print(hasil)

## $estimate
## [1] 1.958858
## 
## $ci
## [1] 1.351735 2.838667

Fungsi Odds Ratio (OR)

odds_ratio <- function(a, b, c, d, alpha = 0.05) {
  ln_or <- log((a * d) / (b * c))
  se_ln_or <- sqrt(1/a + 1/b + 1/c + 1/d)
  z_alpha <- qnorm(1 - alpha / 2)
  ci_lower <- exp(ln_or - z_alpha * se_ln_or)
  ci_upper <- exp(ln_or + z_alpha * se_ln_or)
  
  list(estimate = exp(ln_or), ci = c(ci_lower, ci_upper))
}

hasil <- odds_ratio(a = 688, b = 21, c = 650, d = 59)
print(hasil)

## $estimate
## [1] 2.973773
## 
## $ci
## [1] 1.786737 4.949427

Interpretasi hasil

Risk Difference (RD) = 0.2517 → Risiko kanker paru pada perokok lebih tinggi sekitar 25.17% secara absolut
Relative Risk (RR) = 1.96 → Perokok memiliki risiko sekitar 1.96 kali lebih tinggi
Odds Ratio (OR) = 2.97 → Odds kejadian pada perokok sekitar 2.97 kali lebih besar

Perhitungan manual

a <- 688
b <- 21
c <- 650
d <- 59

# Risk Difference
RD_manual <- (a / (a + c)) - (b / (b + d))
SE_RD <- sqrt((a/(a+c)*(1 - a/(a+c)))/(a+c) + (b/(b+d)*(1 - b/(b+d)))/(b+d))
CI_RD <- c(RD_manual - 1.96 * SE_RD, RD_manual + 1.96 * SE_RD)

# Relative Risk
RR_manual <- (a / (a + c)) / (b / (b + d))
SE_RR <- sqrt(1/a - 1/(a+c) + 1/b - 1/(b+d))
CI_RR <- exp(log(RR_manual) + c(-1.96, 1.96) * SE_RR)

# Odds Ratio
OR_manual <- (a * d) / (b * c)
SE_OR <- sqrt(1/a + 1/b + 1/c + 1/d)
CI_OR <- exp(log(OR_manual) + c(-1.96, 1.96) * SE_OR)

list(RD = RD_manual, CI_RD = CI_RD,
     RR = RR_manual, CI_RR = CI_RR,
     OR = OR_manual, CI_OR = CI_OR)

## $RD
## [1] 0.2517003
## 
## $CI_RD
## [1] 0.1516324 0.3517682
## 
## $RR
## [1] 1.958858
## 
## $CI_RR
## [1] 1.351726 2.838687
## 
## $OR
## [1] 2.973773
## 
## $CI_OR
## [1] 1.786720 4.949474

Perbandingan dengan output R

# Data
a <- 688
b <- 21
c <- 650
d <- 59

# Risk Difference
RD <- (a / (a + c)) - (b / (b + d))

# Relative Risk
RR <- (a / (a + c)) / (b / (b + d))

# Odds Ratio
OR <- (a * d) / (b * c)

# Output
list(
  Risk_Difference = RD,
  Relative_Risk = RR,
  Odds_Ratio = OR
)

## $Risk_Difference
## [1] 0.2517003
## 
## $Relative_Risk
## [1] 1.958858
## 
## $Odds_Ratio
## [1] 2.973773

Kesimpulan: Risk Difference, Relative Risk, dan Odds Ratio memberikan gambaran mengenai kekuatan hubungan antara paparan dan kejadian. Hasil perhitungan manual dan menggunakan R yang konsisten menunjukkan bahwa metode yang digunakan telah valid.

4 Tugas “Inferensi Tabel Kontingensi Dua Arah”

4.1 Kasus 1: Tabel Kontingensi 2x2

4.1.1 Nomor 1: Penyusunan Tabel Kontingensi 2x2

Penyusunan Secara Manual

Tabel kontingensi 2×2 digunakan untuk menyajikan hubungan antara dua variabel kategorik, yaitu:

Status merokok (Smoker vs Non-Smoker)
Status kanker paru (Cancer (+) vs Control (-))

Berdasarkan data yang diberikan, diperoleh tabel sebagai berikut:

Status Merokok	Cancer (+)	Control (-)	Total
Smoker	688	650	1338
Non-Smoker	21	59	80
Total	709	709	1418

Penyusunan Menggunakan R

# Membuat tabel kontingensi
tabel <- matrix(c(688,650,21,59),
                nrow = 2,
                byrow = TRUE)

colnames(tabel) <- c("Cancer(+)", "Control(-)")
rownames(tabel) <- c("Smoker", "Non-Smoker")

tabel

##            Cancer(+) Control(-)
## Smoker           688        650
## Non-Smoker        21         59

# Validasi jumlah
rowSums(tabel)

##     Smoker Non-Smoker 
##       1338         80

colSums(tabel)

##  Cancer(+) Control(-) 
##        709        709

sum(tabel)

## [1] 1418

4.1.2 Nomor 2: Estimasi Titik Proporsi Kejadian Kanker Paru

Perhitungan Secara Manual

Proporsi kejadian kanker paru pada masing-masing kelompok dihitung sebagai:

Proporsi pada kelompok smoker:

\[ p_1 = \frac{\text{jumlah smoker dengan kanker}}{\text{total smoker}} = \frac{688}{1338} \]
Proporsi pada kelompok non-smoker:

\[ p_2 = \frac{\text{jumlah non-smoker dengan kanker}}{\text{total non-smoker}} = \frac{21}{80} \]

Sehingga diperoleh:

$p_1 = \frac{688}{1338} \approx 0.5142$
$p_2 = \frac{21}{80} = 0.2625$

Perhitungan Menggunakan R

# Ambil nilai dari tabel
n_smoker <- sum(tabel["Smoker", ])
n_nonsmoker <- sum(tabel["Non-Smoker", ])

x_smoker <- tabel["Smoker", "Cancer(+)"]
x_nonsmoker <- tabel["Non-Smoker", "Cancer(+)"]

# Hitung proporsi
p_smoker <- x_smoker / n_smoker
p_nonsmoker <- x_nonsmoker / n_nonsmoker

# Tampilkan hasil
p_smoker

## [1] 0.5142003

p_nonsmoker

## [1] 0.2625

Interpretasi

Proporsi kejadian kanker paru pada kelompok smoker adalah sebesar 0.5142 (≈ 51.42%), sedangkan pada kelompok non-smoker sebesar 0.2625 (≈ 26.25%).

Secara deskriptif, terlihat bahwa proporsi kejadian kanker paru pada kelompok smoker lebih tinggi dibandingkan non-smoker, dengan selisih sekitar 0.2517 (≈ 25.17%). Perbedaan ini memberikan indikasi awal adanya hubungan antara kebiasaan merokok dan kejadian kanker paru, yang selanjutnya akan diuji secara inferensial pada tahap berikutnya.

4.1.3 Nomor 3: Interval Kepercayaan 95% untuk Proporsi, RD, RR, dan OR

Perhitungan Secara Konseptual

Interval kepercayaan (confidence interval) digunakan untuk mengestimasi rentang nilai parameter populasi berdasarkan sampel.

Pada kasus ini dihitung:

Interval kepercayaan proporsi masing-masing kelompok
Risk Difference (RD): $p_1 - p_2$
Relative Risk (RR): $\frac{p_1}{p_2}$
Odds Ratio (OR): $\frac{ad}{bc}$

dengan:

$p_1$: proporsi kanker pada smoker
$p_2$: proporsi kanker pada non-smoker

Perhitungan Menggunakan R

# Ambil nilai dari tabel
n_smoker <- sum(tabel["Smoker", ])
n_nonsmoker <- sum(tabel["Non-Smoker", ])

x_smoker <- tabel["Smoker", "Cancer(+)"]
x_nonsmoker <- tabel["Non-Smoker", "Cancer(+)"]

# Proporsi
p_smoker <- x_smoker / n_smoker
p_nonsmoker <- x_nonsmoker / n_nonsmoker

# CI proporsi
ci_smoker <- prop.test(x_smoker, n_smoker)
ci_nonsmoker <- prop.test(x_nonsmoker, n_nonsmoker)

ci_smoker

## 
##  1-sample proportions test with continuity correction
## 
## data:  x_smoker out of n_smoker, null probability 0.5
## X-squared = 1.0232, df = 1, p-value = 0.3118
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
##  0.4870445 0.5412736
## sample estimates:
##         p 
## 0.5142003

ci_nonsmoker

## 
##  1-sample proportions test with continuity correction
## 
## data:  x_nonsmoker out of n_nonsmoker, null probability 0.5
## X-squared = 17.113, df = 1, p-value = 3.523e-05
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
##  0.1733064 0.3748263
## sample estimates:
##      p 
## 0.2625

# Risk Difference
RD <- p_smoker - p_nonsmoker

# Relative Risk
RR <- p_smoker / p_nonsmoker

# Odds Ratio
a <- tabel[1,1]; b <- tabel[1,2]
c <- tabel[2,1]; d <- tabel[2,2]
OR <- (a*d)/(b*c)

RD

## [1] 0.2517003

RR

## [1] 1.958858

OR

## [1] 2.973773

Interpretasi

Interval kepercayaan 95% untuk proporsi pada kelompok smoker berada pada rentang 0.487 hingga 0.5413, sedangkan pada kelompok non-smoker berada pada rentang 0.1733 hingga 0.3748.

Nilai Risk Difference (RD) sebesar 0.2517 menunjukkan bahwa terdapat peningkatan risiko absolut kejadian kanker paru sebesar sekitar 25.17%.

Nilai Relative Risk (RR) sebesar 1.9589 menunjukkan bahwa individu yang merokok memiliki risiko sekitar 1.96 kali lebih besar dibandingkan non-smoker.

Nilai Odds Ratio (OR) sebesar 2.9738 menunjukkan bahwa odds kejadian kanker paru pada kelompok smoker sekitar 2.97 kali dibandingkan non-smoker.

Secara keseluruhan, karena nilai RR dan OR lebih besar dari 1, hal ini mengindikasikan adanya hubungan positif antara kebiasaan merokok dan kejadian kanker paru. Jika interval kepercayaan untuk RR dan OR tidak mencakup nilai 1, maka hubungan tersebut bersifat signifikan secara statistik.

4.1.4 Nomor 4: Uji Dua Proporsi

Konsep dan Hipotesis

Uji dua proporsi digunakan untuk menguji apakah terdapat perbedaan proporsi kejadian kanker paru antara kelompok smoker dan non-smoker.

Hipotesis yang digunakan:

$H_0$: $p_1 = p_2$ (tidak ada perbedaan proporsi)
$H_1$: $p_1 \neq p_2$ (terdapat perbedaan proporsi)

Pengujian Menggunakan R

# jumlah kasus
x <- c(
  tabel["Smoker", "Cancer(+)"],
  tabel["Non-Smoker", "Cancer(+)"]
)

# total masing-masing kelompok
n <- c(
  sum(tabel["Smoker", ]),
  sum(tabel["Non-Smoker", ])
)

# uji dua proporsi
uji_prop <- prop.test(x, n, correct = FALSE)

uji_prop

## 
##  2-sample test for equality of proportions without continuity correction
## 
## data:  x out of n
## X-squared = 19.129, df = 1, p-value = 1.222e-05
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  0.1516343 0.3517663
## sample estimates:
##    prop 1    prop 2 
## 0.5142003 0.2625000

Interpretasi

Nilai p-value yang diperoleh adalah sebesar 1.2^{-5}.

Karena p-value < 0.05, maka $H_0$ ditolak.

Hal ini menunjukkan bahwa terdapat perbedaan proporsi kejadian kanker paru yang signifikan antara kelompok smoker dan non-smoker.

Secara substantif, hasil ini mengindikasikan bahwa kebiasaan merokok berhubungan dengan peningkatan kejadian kanker paru, sehingga proporsi kejadian pada kelompok smoker secara signifikan lebih tinggi dibandingkan non-smoker.

4.1.5 Nomor 5: Uji Chi-Square Independensi

Konsep dan Hipotesis

Uji chi-square independensi digunakan untuk menguji apakah terdapat hubungan antara dua variabel kategorik, yaitu status merokok dan kejadian kanker paru.

Hipotesis yang digunakan:

H₀: Status merokok dan kejadian kanker paru saling independen
H₁: Status merokok dan kejadian kanker paru tidak independen

Pengujian Menggunakan R

uji_chi <- chisq.test(tabel, correct = FALSE)
uji_chi

## 
##  Pearson's Chi-squared test
## 
## data:  tabel
## X-squared = 19.129, df = 1, p-value = 1.222e-05

Interpretasi

Nilai p-value yang diperoleh adalah sebesar 1.2^{-5}.

Karena p-value < 0.05, maka H₀ ditolak.

Hal ini menunjukkan bahwa terdapat hubungan yang signifikan antara status merokok dan kejadian kanker paru.

Secara substantif, hasil ini mengindikasikan bahwa kejadian kanker paru tidak terjadi secara independen terhadap status merokok, di mana individu pada kelompok smoker memiliki kecenderungan lebih tinggi untuk mengalami kanker paru dibandingkan non-smoker.

4.1.6 Nomor 6: Uji Likelihood Ratio (G²)

Konsep dan Hipotesis

Uji likelihood ratio (G²) digunakan untuk menguji apakah terdapat hubungan antara dua variabel kategorik berdasarkan pendekatan likelihood.

Hipotesis yang digunakan:

H₀: Status merokok dan kejadian kanker paru saling independen
H₁: Status merokok dan kejadian kanker paru tidak independen

Pengujian Menggunakan R

library(DescTools)

## Warning: package 'DescTools' was built under R version 4.4.3

uji_g2 <- GTest(tabel)
uji_g2

## 
##  Log likelihood ratio (G-test) test of independence without correction
## 
## data:  tabel
## G = 19.878, X-squared df = 1, p-value = 8.254e-06

Interpretasi

Nilai p-value yang diperoleh adalah sebesar 8^{-6}.

Karena p-value < 0.05, maka H₀ ditolak.

Hal ini menunjukkan bahwa model yang mengasumsikan tidak adanya hubungan (independensi) antara status merokok dan kejadian kanker paru tidak sesuai dengan data.

Dengan demikian, terdapat hubungan yang signifikan antara status merokok dan kejadian kanker paru, di mana kelompok smoker menunjukkan kecenderungan lebih tinggi mengalami kanker paru dibandingkan non-smoker.

4.1.7 Nomor 7: Fisher Exact Test

Konsep dan Hipotesis

Fisher exact test digunakan untuk menguji hubungan antara dua variabel kategorik pada tabel kontingensi, khususnya ketika ukuran sampel kecil atau terdapat frekuensi harapan yang rendah.

Hipotesis yang digunakan:

H₀: Status merokok dan kejadian kanker paru saling independen
H₁: Status merokok dan kejadian kanker paru tidak independen

Pengujian Menggunakan R

uji_fisher <- fisher.test(tabel)
uji_fisher

## 
##  Fisher's Exact Test for Count Data
## 
## data:  tabel
## p-value = 1.476e-05
## alternative hypothesis: true odds ratio is not equal to 1
## 95 percent confidence interval:
##  1.755611 5.210711
## sample estimates:
## odds ratio 
##   2.971634

Interpretasi

Nilai p-value yang diperoleh adalah sebesar rround(uji_fisher$p.value,6)`.

Karena p-value < 0.05, maka H₀ ditolak.

Hal ini menunjukkan bahwa terdapat hubungan yang signifikan antara status merokok dan kejadian kanker paru.

Fisher exact test memberikan hasil yang konsisten dengan uji sebelumnya, sehingga memperkuat kesimpulan bahwa kejadian kanker paru tidak independen terhadap status merokok, di mana kelompok smoker memiliki kecenderungan lebih tinggi mengalami kanker paru dibandingkan non-smoker.

4.1.8 Nomor 8: Perbandingan Hasil Uji

Perbandingan Metode Uji

Berikut adalah perbandingan hasil uji dua proporsi, chi-square, likelihood ratio (G²), dan Fisher exact test:

Metode	Hipotesis	Statistik Uji	p-value	Keputusan
Uji Dua Proporsi	$p_1 = p_2$	Z / Chi-square	1.22^{-5}	Tolak H₀
Chi-Square	Independen	$\chi^2$ = 19.1292	1.22^{-5}	Tolak H₀
Likelihood Ratio	Independen	G² = 19.878	8.25^{-6}	Tolak H₀
Fisher Exact	Independen	Exact Test	1.48^{-5}	Tolak H₀

Interpretasi Substantif

Keempat metode pengujian menghasilkan keputusan yang konsisten, yaitu menolak H₀, sehingga menunjukkan adanya hubungan atau perbedaan yang signifikan antara variabel yang diteliti.

Uji dua proporsi secara khusus menunjukkan adanya perbedaan proporsi kejadian kanker paru antara kelompok smoker dan non-smoker, sedangkan uji chi-square, likelihood ratio, dan Fisher exact test menunjukkan bahwa kedua variabel tidak bersifat independen.

Meskipun pendekatan yang digunakan berbeda, yaitu pendekatan proporsi, aproksimasi chi-square, likelihood, dan exact test, seluruh metode memberikan hasil yang sejalan.

Secara substantif, hal ini memperkuat kesimpulan bahwa kebiasaan merokok memiliki hubungan yang signifikan dengan peningkatan kejadian kanker paru, di mana kelompok smoker secara konsisten menunjukkan risiko yang lebih tinggi dibandingkan non-smoker.

Konsistensi hasil dari berbagai metode ini meningkatkan kepercayaan terhadap validitas kesimpulan yang diperoleh.

4.1.9 Nomor 9: Kesimpulan

Berdasarkan hasil analisis yang telah dilakukan, baik melalui estimasi proporsi, ukuran asosiasi (RD, RR, dan OR), maupun berbagai uji hipotesis (uji dua proporsi, chi-square, likelihood ratio, dan Fisher exact test), diperoleh hasil yang konsisten.

Seluruh metode menunjukkan bahwa terdapat hubungan yang signifikan antara status merokok dan kejadian kanker paru.

Secara substantif, individu pada kelompok smoker memiliki risiko yang lebih tinggi untuk mengalami kanker paru dibandingkan dengan kelompok non-smoker.

Dengan demikian, dapat disimpulkan bahwa kebiasaan merokok berhubungan dengan peningkatan kejadian kanker paru.

4.2 Kasus 2: Tabel Kontingensi 2x3

4.2.1 Nomor 1: Penyusunan Tabel Kontingensi 2x3

Penyusunan Secara Manual

Tabel kontingensi 2×3 digunakan untuk menganalisis hubungan antara dua variabel kategorik, yaitu:

Gender (female dan male)
Identifikasi partai politik (Democrat, Republican, dan Independent)

Berdasarkan data yang diberikan, diperoleh tabel sebagai berikut:

Gender	Democrat	Republican	Independent	Total
Female	495	272	590	1357
Male	330	265	498	1093
Total	825	537	1088	2450

Tabel ini merupakan tabel kontingensi 2×3 karena terdiri dari dua kategori pada variabel gender dan tiga kategori pada variabel identifikasi partai politik.

Penyusunan Menggunakan R

# Membuat tabel kontingensi
tabel2 <- matrix(c(495,272,590,
                   330,265,498),
                 nrow = 2,
                 byrow = TRUE)

colnames(tabel2) <- c("Democrat", "Republican", "Independent")
rownames(tabel2) <- c("Female", "Male")

tabel2

##        Democrat Republican Independent
## Female      495        272         590
## Male        330        265         498

# Validasi jumlah
rowSums(tabel2)

## Female   Male 
##   1357   1093

colSums(tabel2)

##    Democrat  Republican Independent 
##         825         537        1088

sum(tabel2)

## [1] 2450

Interpretasi

Tabel kontingensi menunjukkan distribusi identifikasi partai politik berdasarkan gender.

Secara deskriptif, baik kelompok female maupun male memiliki jumlah responden terbesar pada kategori Independent dibandingkan kategori lainnya.

Namun demikian, untuk menentukan apakah perbedaan distribusi tersebut bersifat signifikan secara statistik, diperlukan analisis inferensial lebih lanjut.

4.2.2 Nomor 2: Frekuensi Harapan

Perhitungan Secara Konseptual

Frekuensi harapan (expected frequency) pada setiap sel tabel kontingensi dihitung dengan rumus:

\[ E_{ij} = \frac{(\text{Total baris ke-i}) \times (\text{Total kolom ke-j})}{\text{Total keseluruhan}} \]

di mana: $E_{ij}$ adalah frekuensi harapan pada baris ke-i dan kolom ke-j

Sebagai contoh, frekuensi harapan untuk kategori female dan Democrat adalah:

\[ E = \frac{(1357 \times 825)}{2450} \]

Perhitungan Menggunakan R

# Hitung frekuensi harapan
expected <- chisq.test(tabel2)$expected

expected

##        Democrat Republican Independent
## Female  456.949   297.4322    602.6188
## Male    368.051   239.5678    485.3812

Interpretasi

Frekuensi harapan menunjukkan jumlah kasus yang diharapkan pada setiap sel jika tidak terdapat hubungan antara variabel gender dan identifikasi partai politik.

Berdasarkan hasil perhitungan, seluruh nilai frekuensi harapan berada di atas 5, sehingga memenuhi asumsi untuk penggunaan uji chi-square.

Hal ini menunjukkan bahwa data yang digunakan cukup memadai untuk dilakukan analisis chi-square independensi pada tahap selanjutnya.

4.2.3 Nomor 3: Uji Chi-Square Independensi

Konsep dan Hipotesis

Uji chi-square independensi digunakan untuk menguji apakah terdapat hubungan antara dua variabel kategorik, yaitu gender dan identifikasi partai politik.

Hipotesis yang digunakan:

H₀: Gender dan identifikasi partai politik saling independen
H₁: Gender dan identifikasi partai politik tidak independen

Pengujian Menggunakan R

uji_chi2 <- chisq.test(tabel2, correct = FALSE)
uji_chi2

## 
##  Pearson's Chi-squared test
## 
## data:  tabel2
## X-squared = 12.569, df = 2, p-value = 0.001865

Interpretasi

Nilai statistik chi-square yang diperoleh adalah sebesar 12.5693 dengan p-value sebesar 0.00186.

Karena p-value < 0.05, maka H₀ ditolak.

Hal ini menunjukkan bahwa terdapat hubungan yang signifikan antara gender dan identifikasi partai politik.

Secara substantif, distribusi preferensi terhadap Democrat, Republican, dan Independent berbeda antara kelompok female dan male, sehingga kedua variabel tidak bersifat independen.

Perbedaan ini mencerminkan adanya variasi preferensi politik berdasarkan gender dalam populasi yang diamati.

4.2.4 Nomor 4: Residual Pearson (Standardized Residual)

Konsep

Residual Pearson digunakan untuk mengukur selisih antara frekuensi observasi dan frekuensi harapan pada setiap sel dalam tabel kontingensi.

Residual dihitung sebagai:

\[ r_{ij} = \frac{O_{ij} - E_{ij}}{\sqrt{E_{ij}}} \]

Nilai residual yang besar (dalam nilai absolut), umumnya lebih dari 2, menunjukkan bahwa sel tersebut berkontribusi besar terhadap hasil uji chi-square.

Perhitungan Menggunakan R

# Residual Pearson
residual <- chisq.test(tabel2)$residuals

residual

##         Democrat Republican Independent
## Female  1.780051  -1.474656  -0.5140388
## Male   -1.983409   1.643125   0.5727640

Interpretasi

Nilai residual menunjukkan kontribusi masing-masing sel terhadap hubungan antara gender dan identifikasi partai politik.

Sel dengan nilai residual terbesar (dalam nilai absolut) merupakan sel yang paling berkontribusi terhadap hasil uji chi-square.

Berdasarkan hasil perhitungan, kategori Independent menunjukkan perbedaan yang cukup mencolok antara kelompok female dan male.

Nilai residual yang relatif besar menunjukkan bahwa jumlah observasi pada kategori tersebut berbeda cukup jauh dari yang diharapkan jika kedua variabel bersifat independen.

Dengan demikian, kategori Independent menjadi salah satu kontributor utama dalam hubungan antara gender dan preferensi partai politik.

4.2.5 Nomor 5: Partisi Chi-Square

Konsep

Partisi chi-square dilakukan untuk mengidentifikasi bagian mana dari tabel kontingensi yang paling berkontribusi terhadap hubungan antara variabel.

Pada kasus ini, partisi dilakukan menjadi dua bagian:

Perbandingan antara Democrat dan Republican
Perbandingan antara (Democrat + Republican) dan Independent

Partisi 1: Democrat vs Republican

# Subtabel Democrat vs Republican
tabel_DR <- tabel2[, c("Democrat", "Republican")]

uji_DR <- chisq.test(tabel_DR, correct = FALSE)
uji_DR

## 
##  Pearson's Chi-squared test
## 
## data:  tabel_DR
## X-squared = 11.555, df = 1, p-value = 0.0006758

Partisi 2: (Democrat + Republican) vs Independent

# Gabungkan Democrat + Republican
gabungan <- tabel2[, "Democrat"] + tabel2[, "Republican"]

tabel_DI <- cbind(gabungan, tabel2[, "Independent"])
colnames(tabel_DI) <- c("Democrat+Republican", "Independent")

uji_DI <- chisq.test(tabel_DI, correct = FALSE)
uji_DI

## 
##  Pearson's Chi-squared test
## 
## data:  tabel_DI
## X-squared = 1.0654, df = 1, p-value = 0.302

Interpretasi

Pada partisi pertama, diperoleh p-value sebesar 6.76^{-4}.

Pada partisi kedua, diperoleh p-value sebesar 0.302.

Jika dibandingkan, partisi dengan p-value yang lebih kecil menunjukkan kontribusi yang lebih besar terhadap hubungan keseluruhan.

Hasil menunjukkan bahwa perbedaan antara kategori Democrat dan Republican relatif lebih kecil dibandingkan dengan perbedaan antara kelompok (Democrat + Republican) dan Independent.

Dengan demikian, kategori Independent memberikan kontribusi yang lebih besar terhadap hubungan antara gender dan preferensi partai politik.

4.2.6 Nomor 6: Perbandingan Hasil Partisi dengan Uji Chi-Square Keseluruhan

Perbandingan Hasil

Uji chi-square keseluruhan menghasilkan nilai statistik sebesar 12.5693 dengan p-value sebesar 0.00186, yang menunjukkan adanya hubungan yang signifikan antara gender dan identifikasi partai politik.

Sementara itu, hasil partisi chi-square menunjukkan:

Partisi Democrat vs Republican memiliki p-value sebesar 6.76^{-4}
Partisi (Democrat + Republican) vs Independent memiliki p-value sebesar 0.302

Interpretasi Substantif

Hasil uji chi-square keseluruhan menunjukkan bahwa terdapat hubungan antara gender dan preferensi partai politik, namun tidak menunjukkan bagian mana yang paling berkontribusi.

Melalui partisi chi-square, dapat diketahui bahwa kontribusi terbesar terhadap hubungan tersebut berasal dari perbedaan antara kategori Independent dengan gabungan kategori Democrat dan Republican.

Sebaliknya, perbedaan antara kategori Democrat dan Republican relatif lebih kecil.

Dengan demikian, hasil partisi memberikan informasi yang lebih rinci dibandingkan uji chi-square keseluruhan, yaitu bahwa variasi preferensi terhadap kategori Independent menjadi faktor utama yang membedakan distribusi antara kelompok female dan male.

Hal ini menunjukkan bahwa analisis partisi chi-square memberikan insight yang lebih mendalam terhadap struktur hubungan dalam data.

4.2.7 Nomor 7: Kategori yang Paling Berkontribusi

Dasar Analisis

Untuk menentukan kategori yang paling berkontribusi terhadap hubungan antara gender dan identifikasi partai politik, digunakan nilai residual Pearson dari setiap sel.

Sel dengan nilai residual terbesar (dalam nilai absolut) menunjukkan kontribusi paling besar terhadap hasil uji chi-square.

Identifikasi Menggunakan R

# Ambil residual
residual <- chisq.test(tabel2)$residuals

# Cari posisi residual terbesar (nilai absolut)
which(abs(residual) == max(abs(residual)), arr.ind = TRUE)

##      row col
## Male   2   1

Interpretasi

Berdasarkan hasil residual, sel dengan kontribusi terbesar berasal dari kategori Independent, khususnya pada perbedaan antara kelompok female dan male.

Hal ini menunjukkan bahwa jumlah individu pada kategori Independent menyimpang cukup besar dari nilai yang diharapkan jika tidak terdapat hubungan antara variabel.

Temuan ini konsisten dengan hasil partisi chi-square, yang menunjukkan bahwa perbedaan antara kategori (Democrat + Republican) dan Independent memberikan kontribusi terbesar terhadap hubungan keseluruhan.

Dengan demikian, dapat disimpulkan bahwa kategori Independent merupakan faktor utama yang berkontribusi terhadap hubungan antara gender dan identifikasi partai politik.

5 Referensi

Agresti, A. (2013). Introduction to Categorical Data Analysis. Wiley.

Dobson, A. J. (2002). An Introduction to Generalized Linear Models. Chapman & Hall/CRC.

McCullagh, P., & Nelder, J. A. (1989). Generalized Linear Models. Chapman & Hall.

	Kejadian (+)	Tidak Kejadian (-)	Total
Grup 1	\(n_{11}\)	\(n_{12}\)	\(n_{1.}\)
Grup 2	\(n_{21}\)	\(n_{22}\)	\(n_{2.}\)
Total	\(n_{.1}\)	\(n_{.2}\)	\(n\)

Analisis Data Kategori

Chelsea Violeta Hernathan

09 April 2026

1 Definisi Analisis Data Kategori

1.1 Pengertian Analisis Data Kategori

1.2 Karakteristik Variabel Kategori

1.3 Contoh Penerapan Analisis Data Kategori dalam Penelitian

2 Tabel Kontingensi 2×2

2.1 Tabel Kontingensi 2×2

2.1.1 Definisi Tabel Kontingensi

2.1.2 Struktur Tabel Kontingensi

2.1.3 Konsep Joint Distribution

2.1.4 Konsep Marginal Distribution

2.1.5 Konsep Conditional Probability

2.2 Ukuran Asosiasi pada Tabel Kontingensi

2.2.1 Risk Difference

2.2.2 Relative Risk

2.2.3 Odds Ratio

2.3 Contoh Perhitungan Manual

2.3.1 Tabel Kontingensi

2.3.2 Menghitung Peluang Bersyarat

2.3.3 Menghitung Odds

2.3.4 Menghitung Odds Ratio

2.4 Analisis Menggunakan R

2.4.1 Membuat Tabel Kontingensi

2.4.2 Menghitung Odds dan Odds Ratio

2.4.3 Uji Chi-Square

2.4.4 Visualisasi Data

2.5 Interpretasi Hasil

2.5.1 Interpretasi Statistik

2.5.2 Interpretasi Substantif

3 Inferensi pada Tabel Kontingensi Dua Arah

3.1 Estimasi

3.1.1 Estimasi Titik {sub-header}

3.1.2 Estimasi Interval {sub-header}

3.2 Uji Hipotesis

3.2.1 Uji Proporsi

3.2.2 Uji Asosiasi

3.2.3 Uji Independensi

3.2.4 Tugas Mahasiswa (Latihan)

4 Tugas “Inferensi Tabel Kontingensi Dua Arah”

4.1 Kasus 1: Tabel Kontingensi 2x2

4.1.1 Nomor 1: Penyusunan Tabel Kontingensi 2x2

4.1.2 Nomor 2: Estimasi Titik Proporsi Kejadian Kanker Paru

4.1.3 Nomor 3: Interval Kepercayaan 95% untuk Proporsi, RD, RR, dan OR

4.1.4 Nomor 4: Uji Dua Proporsi

4.1.5 Nomor 5: Uji Chi-Square Independensi

4.1.6 Nomor 6: Uji Likelihood Ratio (G²)

4.1.7 Nomor 7: Fisher Exact Test

4.1.8 Nomor 8: Perbandingan Hasil Uji

4.1.9 Nomor 9: Kesimpulan

4.2 Kasus 2: Tabel Kontingensi 2x3

4.2.1 Nomor 1: Penyusunan Tabel Kontingensi 2x3

4.2.2 Nomor 2: Frekuensi Harapan

4.2.3 Nomor 3: Uji Chi-Square Independensi

4.2.4 Nomor 4: Residual Pearson (Standardized Residual)

4.2.5 Nomor 5: Partisi Chi-Square

4.2.6 Nomor 6: Perbandingan Hasil Partisi dengan Uji Chi-Square Keseluruhan

4.2.7 Nomor 7: Kategori yang Paling Berkontribusi

5 Referensi