Analisis data kategori merupakan cabang analisis statistik yang digunakan untuk menganalisis data dengan variabel yang berbentuk kategori atau kelas tertentu. Variabel kategori adalah variabel yang memiliki skala pengukuran berupa sekumpulan kategori yang merepresentasikan karakteristik objek yang diamati.
Dalam analisis data kategori, metode statistik yang digunakan umumnya berfokus pada frekuensi, proporsi, dan peluang kemunculan suatu kategori dalam populasi.
Selain itu, analisis ini juga digunakan untuk mempelajari hubungan antar variabel kategori melalui pendekatan probabilistik dan model statistik yang sesuai.
Dengan demikian, analisis data kategori menjadi penting karena banyak fenomena dalam kehidupan nyata tidak dinyatakan dalam bentuk numerik kontinu, melainkan dalam bentuk klasifikasi atau kelompok.
Variabel kategori memiliki beberapa karakteristik utama sebagai berikut:
Berbentuk kategori atau kelas
Nilai variabel dinyatakan dalam bentuk kategori yang menggambarkan
karakteristik objek, seperti jenis kelamin,
jenis pekerjaan, atau jenis tempat tinggal.
Tidak memiliki makna numerik secara
langsung
Nilai kategori tidak dapat diinterpretasikan sebagai besaran numerik
sehingga operasi aritmetika seperti
penjumlahan atau rata-rata tidak relevan.
Dapat berupa nominal atau ordinal
Variabel kategori dapat bersifat:
Dianalisis menggunakan frekuensi atau
proporsi
Analisis dilakukan berdasarkan jumlah
kemunculan (frekuensi) atau proporsi pada
setiap kategori.
Disajikan dalam tabel distribusi atau tabel
kontingensi
Data kategori umumnya ditampilkan dalam bentuk tabel untuk memahami distribusi dan hubungan antar
variabel.
Analisis data kategori banyak digunakan dalam berbagai bidang penelitian karena banyak fenomena yang secara alami berbentuk kategori.
Penelitian kesehatan
Dalam bidang kesehatan, analisis data kategori digunakan untuk
menganalisis hubungan antara status merokok
(perokok dan bukan perokok) dengan kejadian penyakit tertentu. Analisis
dilakukan menggunakan tabel kontingensi dan
uji Chi-Square untuk mengetahui apakah terdapat hubungan yang
signifikan antara kedua variabel tersebut.
Penelitian sosial
Dalam penelitian sosial, analisis data kategori digunakan untuk
mempelajari hubungan antara tingkat
pendidikan dengan status
pekerjaan. Hasil analisis dapat memberikan gambaran mengenai pola
sosial dalam masyarakat.
Penelitian pemasaran
Dalam bidang pemasaran, analisis data kategori digunakan untuk
mengetahui hubungan antara jenis kelamin
konsumen dengan preferensi terhadap
suatu produk.
Analisis ini penting dalam memahami segmentasi
pasar dan perilaku konsumen sehingga dapat mendukung pengambilan
keputusan bisnis.
Tabel kontingensi merupakan tabel yang digunakan untuk menyajikan data kategorik dalam bentuk frekuensi yang menunjukkan hubungan antara dua atau lebih variabel kategori. Tabel ini biasanya digunakan untuk menggambarkan bagaimana distribusi satu variabel berhubungan dengan distribusi variabel lainnya.
Menurut Agresti (2013), tabel kontingensi merupakan alat dasar dalam analisis data kategori yang menampilkan frekuensi observasi dari kombinasi kategori antara dua atau lebih variabel. Melalui tabel ini, peneliti dapat mengamati pola hubungan antar variabel serta menjadi dasar dalam berbagai analisis statistik seperti uji Chi-Square, analisis asosiasi, dan model log-linear.
Secara umum, tabel kontingensi terdiri dari baris dan kolom yang merepresentasikan kategori dari dua variabel yang berbeda. Setiap sel pada tabel menunjukkan jumlah observasi yang termasuk dalam kombinasi kategori tertentu.
Sebagai contoh, berikut adalah tabel kontingensi 2 × 2 yang menunjukkan hubungan antara keikutsertaan dalam bimbingan belajar dan kelulusan ujian.
| Bimbingan Belajar | Lulus Ujian | Tidak Lulus | Total |
|---|---|---|---|
| Mengikuti Bimbel | 80 | 20 | 100 |
| Tidak Mengikuti | 60 | 40 | 100 |
| Total | 140 | 60 | 200 |
Pada tabel tersebut:
Sebagai contoh, nilai 80 menunjukkan bahwa terdapat 80 mahasiswa yang mengikuti bimbingan belajar dan lulus ujian.
Joint distribution atau distribusi gabungan menggambarkan probabilitas terjadinya dua kategori secara bersamaan. Dalam tabel kontingensi, distribusi gabungan diperoleh dengan membagi frekuensi pada setiap sel dengan jumlah total observasi.
Sebagai contoh, probabilitas seorang mahasiswa mengikuti bimbingan belajar dan lulus ujian adalah:
\[ P(\text{Bimbel dan Lulus}) = \frac{80}{200} = 0.40 \]
Nilai tersebut menunjukkan bahwa 40% dari seluruh mahasiswa dalam sampel mengikuti bimbingan belajar dan berhasil lulus ujian.
Contoh lain:
\[ P(\text{Tidak Bimbel dan Lulus}) = \frac{60}{200} = 0.30 \]
Distribusi gabungan memberikan informasi mengenai peluang kombinasi dua kategori yang terjadi secara simultan dalam populasi atau sampel penelitian.
Distribusi marginal merupakan distribusi probabilitas dari satu variabel tanpa mempertimbangkan variabel lainnya.
Sebagai contoh:
\[ P(\text{Bimbel}) = \frac{100}{200} = 0.50 \]
\[ P(\text{Lulus}) = \frac{140}{200} = 0.70 \]
Distribusi marginal memberikan gambaran distribusi masing-masing variabel secara terpisah.
Probabilitas kondisional merupakan probabilitas suatu kejadian dengan syarat kejadian lain telah terjadi.
Sebagai contoh:
\[ P(\text{Lulus | Bimbel}) = \frac{80}{100} = 0.80 \]
Artinya, 80% mahasiswa yang mengikuti bimbingan belajar berhasil lulus ujian.
Sebaliknya:
\[ P(\text{Lulus | Tidak Bimbel}) = \frac{60}{100} = 0.60 \]
Perbandingan ini menunjukkan bahwa mahasiswa yang mengikuti bimbingan belajar memiliki peluang lebih tinggi untuk lulus dibandingkan yang tidak.
Konsep ini menjadi dasar penting dalam memahami hubungan atau asosiasi antar variabel kategorik.
Ukuran asosiasi digunakan untuk mengukur kekuatan hubungan antara dua variabel kategorik dalam tabel kontingensi. Pada tabel kontingensi 2 × 2, ukuran asosiasi yang umum digunakan adalah Risk Difference (RD), Relative Risk (RR), dan Odds Ratio (OR).
Sebagai ilustrasi, digunakan tabel kontingensi 2 × 2 berikut yang menggambarkan hubungan antara keikutsertaan dalam bimbingan belajar dan kelulusan ujian.
| Lulus Ujian | Tidak Lulus | |
|---|---|---|
| Mengikuti Bimbel | a | c |
| Tidak Mengikuti | b | d |
Total observasi:
\[ n = a + b + c + d \]
Pada tabel tersebut:
Risk Difference (RD) merupakan ukuran asosiasi yang menyatakan perbedaan probabilitas kejadian antara dua kelompok.
Secara matematis:
\[ RD = P(\text{event | bimbel}) - P(\text{event | tidak bimbel}) \]
Dalam tabel kontingensi 2 × 2:
\[ RD = \frac{a}{a+b} - \frac{c}{c+d} \]
Interpretasi:
Contoh: Jika RD = 0.20, maka peluang lulus meningkat sebesar 20% pada mahasiswa yang mengikuti bimbingan belajar.
Relative Risk (RR) membandingkan rasio probabilitas kejadian antara dua kelompok.
\[ RR = \frac{P(\text{event | bimbel})}{P(\text{event | tidak bimbel})} \]
Dalam tabel:
\[ RR = \frac{a/(a+b)}{c/(c+d)} \]
Interpretasi:
Contoh: Jika RR = 2, maka peluang lulus dua kali lebih besar pada mahasiswa yang mengikuti bimbingan belajar.
Odds Ratio (OR) membandingkan odds kejadian antara dua kelompok.
\[ OR = \frac{a/b}{c/d} \]
Disederhanakan menjadi:
\[ OR = \frac{ad}{bc} \]
Interpretasi:
Contoh: Jika OR = 3, maka peluang lulus tiga kali lebih besar pada mahasiswa yang mengikuti bimbingan belajar.
Ketiga ukuran asosiasi ini memberikan perspektif yang berbeda dalam memahami hubungan antar variabel, sehingga pemilihannya harus disesuaikan dengan tujuan analisis.
Untuk memahami konsep ukuran asosiasi pada tabel kontingensi, berikut diberikan contoh kasus sederhana mengenai hubungan antara keikutsertaan dalam bimbingan belajar dan kelulusan ujian.
Misalkan dilakukan pengamatan terhadap 200 orang mahasiswa dan diperoleh data sebagai berikut.
| Keikutsertaan Bimbel | Lulus Ujian | Tidak Lulus | Total |
|---|---|---|---|
| Mengikuti Bimbel | 80 | 20 | 100 |
| Tidak Mengikuti | 60 | 40 | 100 |
| Total | 140 | 60 | 200 |
Pada tabel tersebut dapat didefinisikan:
\[ a = 80, \quad b = 20, \quad c = 60, \quad d = 40 \]
Total pengamatan:
\[ n = a + b + c + d = 200 \]
Peluang bersyarat menunjukkan probabilitas suatu kejadian dengan syarat kejadian lain telah terjadi.
\[ P(\text{Lulus | Mengikuti Bimbel}) = \frac{80}{100} = 0.80 \]
Artinya, 80% mahasiswa yang mengikuti bimbingan belajar lulus ujian.
\[ P(\text{Lulus | Tidak Mengikuti Bimbel}) = \frac{60}{100} = 0.60 \]
Artinya, 60% mahasiswa yang tidak mengikuti bimbingan belajar lulus ujian.
Perbandingan ini menunjukkan bahwa mahasiswa yang mengikuti bimbingan belajar memiliki peluang lebih besar untuk lulus.
Odds merupakan rasio antara probabilitas kejadian dan tidak kejadian.
\[ Odds_{bimbel} = \frac{80}{20} = 4.00 \]
Artinya, terdapat 4 kali peluang lulus dibanding tidak lulus pada kelompok bimbel.
\[ Odds_{tidak\ bimbel} = \frac{60}{40} = 1.50 \]
Artinya, terdapat 1.5 kali peluang lulus dibanding tidak lulus pada kelompok non-bimbel.
Odds Ratio (OR) digunakan untuk membandingkan odds antara dua kelompok.
\[ OR = \frac{ad}{bc} \]
Substitusi:
\[ OR = \frac{(80)(40)}{(20)(60)} = \frac{3200}{1200} = 2.67 \]
Interpretasi:
Odds mahasiswa yang mengikuti bimbingan belajar untuk lulus sekitar 2.67 kali lebih besar dibandingkan yang tidak.
Hasil ini menunjukkan adanya hubungan antara keikutsertaan bimbingan belajar dan kelulusan ujian.
Untuk melengkapi perhitungan manual yang telah dilakukan sebelumnya, analisis yang sama dapat dilakukan menggunakan perangkat lunak R.
Analisis ini meliputi: - pembuatan tabel kontingensi - perhitungan Odds dan Odds Ratio - pengujian hubungan menggunakan uji Chi-Square
Langkah pertama adalah membentuk tabel kontingensi menggunakan fungsi
matrix() di R.
data <- matrix(c(80,20,60,40),
nrow = 2,
byrow = TRUE)
rownames(data) <- c("Mengikuti Bimbel","Tidak Mengikuti")
colnames(data) <- c("Lulus Ujian","Tidak Lulus")
data## Lulus Ujian Tidak Lulus
## Mengikuti Bimbel 80 20
## Tidak Mengikuti 60 40
Odds merupakan perbandingan antara peluang terjadinya suatu kejadian dengan peluang tidak terjadinya kejadian tersebut.
a <- data[1,1]
b <- data[1,2]
c <- data[2,1]
d <- data[2,2]
Odds_bimbel <- a/b
Odds_tidak_bimbel <- c/d
Odds_bimbel## [1] 4
## [1] 1.5
Odds pada kelompok yang mengikuti bimbingan belajar lebih tinggi dibandingkan kelompok yang tidak mengikuti.
Odds Ratio digunakan untuk membandingkan odds antara dua kelompok.
## [1] 2.666667
Nilai Odds Ratio menunjukkan kekuatan hubungan antara bimbingan belajar dan kelulusan ujian.
Uji Chi-Square digunakan untuk menguji apakah terdapat hubungan yang signifikan antara kedua variabel.
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: data
## X-squared = 8.5952, df = 1, p-value = 0.00337
Jika p-value < 0.05, maka terdapat hubungan yang signifikan antara keikutsertaan bimbingan belajar dan kelulusan ujian.
Visualisasi digunakan untuk memperjelas pola hubungan antar variabel.
mosaicplot(data,
main = "Hubungan Bimbingan Belajar dan Kelulusan Ujian",
col = c("lightblue","pink"))Plot ini menunjukkan distribusi proporsi masing-masing kategori secara visual, sehingga memudahkan dalam memahami hubungan antara kedua variabel.
Berdasarkan hasil analisis menggunakan R, diperoleh nilai Odds Ratio sebesar
\[ OR = 2.67 \]
Nilai tersebut menunjukkan bahwa odds mahasiswa lulus ujian pada kelompok yang mengikuti bimbingan belajar sekitar 2.67 kali lebih besar dibandingkan dengan mahasiswa yang tidak mengikuti bimbingan belajar.
Selain itu, hasil uji Chi-Square menunjukkan nilai statistik
\[ X^2 = 8.595 \]
dengan derajat kebebasan
\[ df = 1 \]
serta nilai
\[ p\text{-value} = 0.00337 \]
Karena p-value < 0.05, maka hipotesis nol \(H_0\) yang menyatakan bahwa tidak terdapat hubungan antara keikutsertaan dalam bimbingan belajar dan kelulusan ujian ditolak.
Dengan demikian, terdapat hubungan yang signifikan secara statistik antara keikutsertaan dalam bimbingan belajar dan keberhasilan mahasiswa dalam lulus ujian.
Dalam konteks kasus ini, hasil analisis menunjukkan bahwa mahasiswa yang mengikuti bimbingan belajar memiliki kemungkinan yang lebih tinggi untuk lulus ujian dibandingkan mahasiswa yang tidak mengikuti bimbingan belajar.
Perbedaan probabilitas kelulusan ujian antara kedua kelompok dapat dilihat dari peluang bersyarat berikut:
\[ P(Lulus\ Ujian \mid Mengikuti\ Bimbel) = 0.8 \]
\[ P(Lulus\ Ujian \mid Tidak\ Mengikuti\ Bimbel) = 0.6 \]
Nilai tersebut menunjukkan bahwa proporsi mahasiswa yang lulus ujian pada kelompok yang mengikuti bimbingan belajar lebih tinggi dibandingkan pada kelompok mahasiswa yang tidak mengikuti bimbingan belajar.
Secara substantif, keikutsertaan dalam bimbingan belajar dapat menjadi faktor yang berperan dalam meningkatkan peluang mahasiswa untuk lulus ujian.
Oleh karena itu, penyediaan fasilitas bimbingan belajar yang efektif dapat menjadi salah satu strategi yang dapat membantu meningkatkan tingkat kelulusan mahasiswa dalam suatu ujian.
Inferensi statistik merupakan proses penarikan kesimpulan mengenai populasi berdasarkan data sampel. Dalam konteks tabel kontingensi dua arah, inferensi digunakan untuk menganalisis hubungan antara dua variabel kategorik yang disusun dalam bentuk tabel silang.
Tabel kontingensi adalah tabel yang menyajikan distribusi frekuensi gabungan dari dua variabel kategorik dalam bentuk matriks. Melalui tabel ini, hubungan antar variabel dapat dipahami melalui pendekatan estimasi maupun pengujian hipotesis.
Secara umum, inferensi dalam tabel kontingensi dua arah terdiri atas dua bagian utama, yaitu:
Estimasi bertujuan untuk memperkirakan nilai parameter populasi berdasarkan data sampel yang tersedia. Pendekatan ini menjadi langkah awal dalam memahami karakteristik populasi sebelum dilakukan pengujian lebih lanjut.
Secara umum, estimasi dibedakan menjadi dua jenis utama, yaitu:
Estimasi titik digunakan untuk memberikan satu nilai tertentu yang dianggap sebagai representasi terbaik dari parameter populasi.
Untuk kasus proporsi, estimasi titik dinyatakan sebagai:
\[ \hat{p} = \frac{x}{n} \]
dengan:
Estimasi ini bersifat sederhana dan langsung, namun tidak memberikan informasi mengenai tingkat ketidakpastian dari nilai yang dihasilkan.
Berbeda dengan estimasi titik, estimasi interval memberikan rentang nilai yang diyakini mengandung parameter populasi dengan tingkat kepercayaan tertentu.
Bentuk umum interval kepercayaan untuk proporsi adalah:
\[ \hat{p} \pm Z_{\alpha/2} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \]
dimana:
Pendekatan ini lebih informatif karena tidak hanya memberikan satu nilai, tetapi juga memperlihatkan batas bawah dan batas atas dari kemungkinan nilai parameter populasi.
Kesimpulan:
Estimasi titik memberikan nilai tunggal sebagai dugaan parameter,
sedangkan estimasi interval memberikan rentang nilai yang mencerminkan
ketidakpastian dari estimasi tersebut.
Uji hipotesis merupakan metode statistik yang digunakan untuk menentukan apakah terdapat cukup bukti dari data sampel untuk mendukung atau menolak suatu pernyataan mengenai populasi.
Dalam konteks tabel kontingensi dua arah, uji hipotesis digunakan untuk mengevaluasi hubungan antara dua variabel kategorik.
Inferensi pada bagian ini mencakup:
Uji proporsi dua sampel digunakan untuk membandingkan proporsi kejadian antara dua kelompok dalam tabel kontingensi. Analisis ini bertujuan untuk mengetahui apakah terdapat perbedaan yang signifikan antara dua proporsi populasi.
Uji ini banyak digunakan dalam studi kohort dan eksperimen, terutama untuk mengevaluasi perbedaan kejadian antara kelompok perlakuan dan kontrol.
Struktur tabel kontingensi 2 × 2 adalah sebagai berikut:
| Kejadian (+) | Tidak Kejadian (-) | Total | |
|---|---|---|---|
| Grup 1 | \(n_{11}\) | \(n_{12}\) | \(n_{1.}\) |
| Grup 2 | \(n_{21}\) | \(n_{22}\) | \(n_{2.}\) |
| Total | \(n_{.1}\) | \(n_{.2}\) | \(n\) |
Formulasi uji proporsi
Untuk menguji apakah tidak terdapat perbedaan proporsi antara dua kelompok, digunakan uji Z dua proporsi dengan hipotesis:
Estimasi proporsi masing-masing kelompok diberikan oleh:
\[ \hat{p}_1 = \frac{n_{11}}{n_{1.}}, \quad \hat{p}_2 = \frac{n_{21}}{n_{2.}} \]
Estimasi proporsi gabungan (pooling proportion):
\[ \hat{p} = \frac{n_{11} + n_{21}}{n_{1.} + n_{2.}} \]
Statistik uji untuk dua proporsi adalah:
\[ Z = \frac{\hat{p}_1 - \hat{p}_2} {\sqrt{\hat{p}(1-\hat{p})\left(\frac{1}{n_{1.}} + \frac{1}{n_{2.}}\right)}} \]
Statistik uji \(Z\) mengikuti distribusi normal baku:
\[ Z \sim N(0,1) \]
Nilai p-value diperoleh berdasarkan distribusi normal tersebut.
Jika \(|Z|\) lebih besar dari nilai kritis pada tingkat signifikansi \(\alpha\) (misalnya 1.96 untuk \(\alpha = 0.05\)), maka hipotesis nol ditolak, yang menunjukkan adanya perbedaan proporsi yang signifikan.
Perhitungan manual langkah demi langkah
Misalkan diberikan data berikut:
| Kejadian (+) | Tidak Kejadian (-) | Total | |
|---|---|---|---|
| Grup 1 | 50 | 30 | 80 |
| Grup 2 | 30 | 50 | 80 |
| Total | 80 | 80 | 160 |
Langkah 1: Hitung proporsi sampel
\[ \hat{p}_1 = \frac{50}{80} = 0.625 \]
\[ \hat{p}_2 = \frac{30}{80} = 0.375 \]
Langkah 2: Hitung proporsi gabungan
\[ \hat{p} = \frac{50 + 30}{80 + 80} = \frac{80}{160} = 0.50 \]
Langkah 3: Hitung statistik uji
\[ Z = \frac{0.625 - 0.375} {\sqrt{0.50(1 - 0.50)\left(\frac{1}{80} + \frac{1}{80}\right)}} \]
\[ Z = \frac{0.25}{\sqrt{0.50 \times 0.50 \times 0.025}} \]
\[ Z = \frac{0.25}{\sqrt{0.00625}} = \frac{0.25}{0.0791} = 3.16 \]
Interpretasi:
Karena \(Z = 3.16 > 1.96\), maka
hipotesis nol ditolak. Artinya terdapat perbedaan proporsi yang
signifikan antara kedua kelompok.
# Pastikan variabel data terdefinisi
set.seed(123)
data <- matrix(c(50, 30, 30, 50), nrow = 2, byrow = TRUE)
dimnames(data) <- list(
"Terpapar" = c("Ya", "Tidak"),
"Kejadian" = c("Ya", "Tidak")
)
# Tampilkan data
data## Kejadian
## Terpapar Ya Tidak
## Ya 50 30
## Tidak 30 50
# Uji proporsi dua sampel
prop_test <- prop.test(
x = c(data[1,1], data[2,1]),
n = c(sum(data[1,]), sum(data[2,]))
)
prop_test##
## 2-sample test for equality of proportions with continuity correction
##
## data: c(data[1, 1], data[2, 1]) out of c(sum(data[1, ]), sum(data[2, ]))
## X-squared = 9.025, df = 1, p-value = 0.002663
## alternative hypothesis: two.sided
## 95 percent confidence interval:
## 0.08747151 0.41252849
## sample estimates:
## prop 1 prop 2
## 0.625 0.375
Interpretasi hasil: Jika p-value < 0.05, maka terdapat perbedaan proporsi kejadian antara kelompok terpapar dan tidak terpapar.
Uji asosiasi dalam tabel kontingensi 2 × 2 digunakan untuk mengukur kekuatan hubungan antara dua variabel kategorik. Berbeda dengan uji proporsi yang hanya membandingkan perbedaan, uji asosiasi berfokus pada seberapa kuat keterkaitan antara dua kelompok.
Tiga ukuran utama yang digunakan dalam uji asosiasi adalah:
Hipotesis uji asosiasi
Untuk setiap ukuran asosiasi, hipotesis yang digunakan adalah:
Risk Difference (RD)
Risk Difference mengukur perbedaan absolut probabilitas kejadian antara dua kelompok.
\[ RD = \frac{n_{11}}{n_{1.}} - \frac{n_{21}}{n_{2.}} \]
Standard Error:
\[ SE(RD) = \sqrt{ \frac{\hat{p}_1(1-\hat{p}_1)}{n_{1.}} + \frac{\hat{p}_2(1-\hat{p}_2)}{n_{2.}} } \]
Statistik uji:
\[ Z_{RD} = \frac{RD}{SE(RD)} \]
Relative Risk (RR)
Relative Risk mengukur perbandingan peluang kejadian antara dua kelompok.
\[ RR = \frac{n_{11}/n_{1.}}{n_{21}/n_{2.}} \]
Standard Error untuk log(RR):
\[ SE(\ln RR) = \sqrt{ \frac{1}{n_{11}} - \frac{1}{n_{1.}} + \frac{1}{n_{21}} - \frac{1}{n_{2.}} } \]
Statistik uji:
\[ Z_{RR} = \frac{\ln RR}{SE(\ln RR)} \]
Odds Ratio (OR)
Odds Ratio mengukur perbandingan peluang (odds) kejadian antara dua kelompok.
\[ OR = \frac{n_{11} \times n_{22}}{n_{12} \times n_{21}} \]
Standard Error untuk log(OR):
\[ SE(\ln OR) = \sqrt{ \frac{1}{n_{11}} + \frac{1}{n_{12}} + \frac{1}{n_{21}} + \frac{1}{n_{22}} } \]
Statistik uji:
\[ Z_{OR} = \frac{\ln OR}{SE(\ln OR)} \]
Contoh perhitungan manual
Gunakan data yang sama:
| Kejadian (+) | Tidak Kejadian (-) | Total | |
|---|---|---|---|
| Grup 1 | 50 | 30 | 80 |
| Grup 2 | 30 | 50 | 80 |
| Total | 80 | 80 | 160 |
Misalkan:
\[ \hat{p}_1 = 0.625, \quad \hat{p}_2 = 0.375 \]
Perhitungan Risk Difference:
\[ RD = 0.625 - 0.375 = 0.25 \]
\[ SE(RD) = \sqrt{ \frac{0.625(0.375)}{80} + \frac{0.375(0.625)}{80} } \]
\[ SE(RD) = \sqrt{0.002925 + 0.002925} = \sqrt{0.00585} = 0.0765 \]
\[ Z_{RD} = \frac{0.25}{0.0765} = 3.27 \]
Perhitungan Relative Risk:
\[ RR = \frac{0.625}{0.375} = 1.67 \]
\[ SE(\ln RR) = \sqrt{ \frac{1}{50} - \frac{1}{80} + \frac{1}{30} - \frac{1}{80} } \]
\[ SE(\ln RR) = \sqrt{0.0283} = 0.1683 \]
\[ Z_{RR} = \frac{\ln(1.67)}{0.1683} = \frac{0.51}{0.1683} = 3.03 \]
Perhitungan Odds Ratio:
\[ OR = \frac{50 \times 50}{30 \times 30} = \frac{2500}{900} = 2.78 \]
\[ SE(\ln OR) = \sqrt{ \frac{1}{50} + \frac{1}{30} + \frac{1}{30} + \frac{1}{50} } \]
\[ SE(\ln OR) = \sqrt{0.1066} = 0.3266 \]
\[ Z_{OR} = \frac{\ln(2.78)}{0.3266} = \frac{1.02}{0.3266} = 3.12 \]
Kesimpulan:
Nilai standard error dan statistik uji Z digunakan untuk menentukan apakah hubungan tersebut signifikan secara statistik.
# Definisi data
n11 <- 50; n12 <- 30; n21 <- 30; n22 <- 50
n1. <- n11 + n12
n2. <- n21 + n22
# Risk Difference
p1 <- n11 / n1.
p2 <- n21 / n2.
rd <- p1 - p2
se_rd <- sqrt((p1*(1-p1)/n1.) + (p2*(1-p2)/n2.))
z_rd <- rd / se_rd
# Relative Risk
rr <- (n11/n1.) / (n21/n2.)
se_ln_rr <- sqrt((1/n11)-(1/n1.)+(1/n21)-(1/n2.))
z_rr <- log(rr) / se_ln_rr
# Odds Ratio
or <- (n11*n22)/(n12*n21)
se_ln_or <- sqrt((1/n11)+(1/n12)+(1/n21)+(1/n22))
z_or <- log(or) / se_ln_or
# Output
list(
RD = rd, SE_RD = se_rd, Z_RD = z_rd,
RR = rr, SE_Ln_RR = se_ln_rr, Z_RR = z_rr,
OR = or, SE_Ln_OR = se_ln_or, Z_OR = z_or
)## $RD
## [1] 0.25
##
## $SE_RD
## [1] 0.07654655
##
## $Z_RD
## [1] 3.265986
##
## $RR
## [1] 1.666667
##
## $SE_Ln_RR
## [1] 0.1683251
##
## $Z_RR
## [1] 3.034756
##
## $OR
## [1] 2.777778
##
## $SE_Ln_OR
## [1] 0.3265986
##
## $Z_OR
## [1] 3.128155
Uji independensi digunakan untuk menentukan apakah terdapat hubungan statistik antara dua variabel kategorik dalam tabel kontingensi. Jika dua variabel saling independen, maka distribusi salah satu variabel tidak dipengaruhi oleh variabel lainnya.
Uji Chi-Square
Uji Chi-Square digunakan untuk menguji apakah terdapat hubungan antara dua variabel kategorik.
Rumus statistik uji:
\[ \chi^2 = \sum \frac{(O - E)^2}{E} \]
dengan: - \(O\) = frekuensi
observasi
- \(E\) = frekuensi harapan
Frekuensi harapan dihitung sebagai:
\[ E_{ij} = \frac{R_i \times C_j}{N} \]
dimana: - \(R_i\) = total baris
ke-i
- \(C_j\) = total kolom ke-j
- \(N\) = total sampel
Contoh perhitungan manual Chi-Square
| Ya | Tidak | Total | |
|---|---|---|---|
| Terpapar | 30 | 10 | 40 |
| Tidak Terpapar | 15 | 45 | 60 |
| Total | 45 | 55 | 100 |
Hitung nilai ekspektasi:
\[ E_{11} = \frac{40 \times 45}{100} = 18 \]
\[ E_{12} = \frac{40 \times 55}{100} = 22 \]
\[ E_{21} = \frac{60 \times 45}{100} = 27 \]
\[ E_{22} = \frac{60 \times 55}{100} = 33 \]
Hitung statistik uji:
\[ \chi^2 = \frac{(30-18)^2}{18} + \frac{(10-22)^2}{22} + \frac{(15-27)^2}{27} + \frac{(45-33)^2}{33} \]
\[ = 8 + 6.55 + 5.33 + 4.36 = 24.24 \]
Derajat bebas:
\[ df = (2-1)(2-1) = 1 \]
Interpretasi:
Karena \(\chi^2 = 24.24 > 3.841\),
maka hipotesis nol ditolak → terdapat hubungan antara variabel.
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: data
## X-squared = 22.264, df = 1, p-value = 2.376e-06
Jika p-value < 0.05, maka terdapat hubungan signifikan antara variabel.
Partisi Chi-Square
Partisi Chi-Square digunakan untuk mengidentifikasi bagian mana dari tabel yang memberikan kontribusi terhadap hubungan signifikan.
Konsep ini juga berkaitan dengan Simpson’s Paradox, yaitu kondisi dimana pola hubungan dapat berubah ketika data digabungkan.
Langkah-langkah yang dilakukan dalam partisi Chi-Square adalah:
Contoh (Agresti)
| Gender | Democrat | Republican | Independent | Total |
|---|---|---|---|---|
| Female | 495 | 272 | 590 | 1357 |
| Male | 330 | 265 | 498 | 1093 |
| Total | 825 | 537 | 1088 | 2450 |
Hasil uji Chi-Square
keseluruhan:
Nilai \(\chi^2 = 12.57\) dengan nilai
kritis \(5.99\), sehingga hasilnya signifikan.
Partisi yang dilakukan:
# Partisi 1: Democrat vs Republican
data1 <- matrix(c(495,272,330,265), nrow=2, byrow=TRUE)
chisq.test(data1)##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: data1
## X-squared = 11.178, df = 1, p-value = 0.0008279
# Partisi 2: (Democrat + Republican) vs Independent
data2 <- matrix(c(767,590,595,498), nrow=2, byrow=TRUE)
chisq.test(data2)##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: data2
## X-squared = 0.98267, df = 1, p-value = 0.3215
Uji Likelihood Ratio (G²)
Uji Likelihood Ratio (G²) merupakan alternatif dari uji Chi-Square yang digunakan untuk menguji hubungan antara dua variabel kategorik dalam tabel kontingensi.
Statistik uji yang digunakan adalah:
\[ G^2 = 2 \sum n_{ij} \ln \left(\frac{n_{ij}}{\hat{\mu}_{ij}}\right) \]
dengan: - \(n_{ij}\) = frekuensi
observasi
- \(\hat{\mu}_{ij}\) = frekuensi
harapan
Interpretasi:
Jika nilai \(G^2\) lebih besar dari
nilai kritis Chi-Square, maka hipotesis nol
ditolak, yang berarti terdapat hubungan antara variabel.
Contoh perhitungan menggunakan R
# Membuat data
data <- matrix(c(688,650,21,59), nrow=2, byrow=TRUE)
# Menghitung nilai ekspektasi
expected <- chisq.test(data)$expected
# Menghitung G^2
G2 <- 2 * sum(data * log(data / expected))
G2## [1] 19.87802
Jika \(G^2 > \chi^2_{kritik}\) maka tolak \(H_0\).
Uji Fisher Exact
Uji Fisher Exact digunakan ketika ukuran sampel relatif kecil sehingga asumsi uji Chi-Square tidak terpenuhi. Uji ini memberikan hasil yang lebih akurat karena tidak bergantung pada pendekatan distribusi normal.
Keunggulan uji Fisher Exact:
Distribusi Hipergeometrik
Dasar dari uji Fisher Exact adalah distribusi hipergeometrik, yang digunakan untuk menghitung probabilitas dari suatu konfigurasi tabel kontingensi.
Rumus distribusi hipergeometrik:
\[ P(X = x) = \frac{\binom{K}{x} \binom{N-K}{n-x}}{\binom{N}{n}} \]
dimana:
Interpretasi:
Probabilitas dihitung untuk setiap kemungkinan tabel yang memiliki
margin yang sama, kemudian dijumlahkan untuk memperoleh p-value pada uji Fisher Exact.
Contoh perhitungan
## [1] 0.01380413
Perhitungan manual probabilitas tabel
## [1] 0.01380413
p-value dihitung sebagai jumlah probabilitas dari tabel yang sama atau lebih ekstrem.
Uji Exact Fisher
data <- matrix(c(18,2,11,9), nrow=2, byrow=TRUE) fisher.test(data)
Interpretasi:
Kesimpulan umum
Tugas:
Buatlah fungsi untuk menghitung dan melakukan pengujian hipotesis untuk
Risk Difference (RD), Relative Risk (RR), dan Odds Ratio (OR).
Gunakan data berikut (Agresti, 2019):
| Smoker | Lung Cancer (Cases) | Control |
|---|---|---|
| Yes | 688 | 650 |
| No | 21 | 59 |
Struktur tabel
| Exposure | Cases | Control | Total |
|---|---|---|---|
| Yes | a | c | a+c |
| No | b | d | b+d |
| Total | a+b | c+d | a+b+c+d |
Fungsi Risk Difference (RD)
prop_diff <- function(a, b, c, d, alpha = 0.05) {
ph <- a / (a + c)
pi <- b / (b + d)
nh <- a + c
ni <- b + d
se_bp <- sqrt((ph * (1 - ph) / nh) + (pi * (1 - pi) / ni))
z_alpha <- qnorm(1 - alpha / 2)
ci_lower <- (ph - pi) - z_alpha * se_bp
ci_upper <- (ph - pi) + z_alpha * se_bp
list(estimate = ph - pi, ci = c(ci_lower, ci_upper))
}
hasil <- prop_diff(a = 688, b = 21, c = 650, d = 59)
print(hasil)## $estimate
## [1] 0.2517003
##
## $ci
## [1] 0.1516343 0.3517663
Fungsi Relative Risk (RR)
relative_risk <- function(a, b, c, d, alpha = 0.05) {
ph <- a / (a + c)
pi <- b / (b + d)
nh <- a + c
ni <- b + d
ln_rr <- log(ph / pi)
se_ln_rr <- sqrt(((1 - ph) / (ph * nh)) + ((1 - pi) / (pi * ni)))
z_alpha <- qnorm(1 - alpha / 2)
ci_lower <- exp(ln_rr - z_alpha * se_ln_rr)
ci_upper <- exp(ln_rr + z_alpha * se_ln_rr)
list(estimate = exp(ln_rr), ci = c(ci_lower, ci_upper))
}
hasil <- relative_risk(a = 688, b = 21, c = 650, d = 59)
print(hasil)## $estimate
## [1] 1.958858
##
## $ci
## [1] 1.351735 2.838667
Fungsi Odds Ratio (OR)
odds_ratio <- function(a, b, c, d, alpha = 0.05) {
ln_or <- log((a * d) / (b * c))
se_ln_or <- sqrt(1/a + 1/b + 1/c + 1/d)
z_alpha <- qnorm(1 - alpha / 2)
ci_lower <- exp(ln_or - z_alpha * se_ln_or)
ci_upper <- exp(ln_or + z_alpha * se_ln_or)
list(estimate = exp(ln_or), ci = c(ci_lower, ci_upper))
}
hasil <- odds_ratio(a = 688, b = 21, c = 650, d = 59)
print(hasil)## $estimate
## [1] 2.973773
##
## $ci
## [1] 1.786737 4.949427
Interpretasi hasil
Risk Difference (RD) = 0.2517 → Risiko kanker paru pada perokok lebih tinggi sekitar 25.17% secara absolut
Relative Risk (RR) = 1.96 → Perokok memiliki risiko sekitar 1.96 kali lebih tinggi
Odds Ratio (OR) = 2.97 → Odds kejadian pada perokok sekitar 2.97 kali lebih besar
Perhitungan manual
a <- 688
b <- 21
c <- 650
d <- 59
# Risk Difference
RD_manual <- (a / (a + c)) - (b / (b + d))
SE_RD <- sqrt((a/(a+c)*(1 - a/(a+c)))/(a+c) + (b/(b+d)*(1 - b/(b+d)))/(b+d))
CI_RD <- c(RD_manual - 1.96 * SE_RD, RD_manual + 1.96 * SE_RD)
# Relative Risk
RR_manual <- (a / (a + c)) / (b / (b + d))
SE_RR <- sqrt(1/a - 1/(a+c) + 1/b - 1/(b+d))
CI_RR <- exp(log(RR_manual) + c(-1.96, 1.96) * SE_RR)
# Odds Ratio
OR_manual <- (a * d) / (b * c)
SE_OR <- sqrt(1/a + 1/b + 1/c + 1/d)
CI_OR <- exp(log(OR_manual) + c(-1.96, 1.96) * SE_OR)
list(RD = RD_manual, CI_RD = CI_RD,
RR = RR_manual, CI_RR = CI_RR,
OR = OR_manual, CI_OR = CI_OR)## $RD
## [1] 0.2517003
##
## $CI_RD
## [1] 0.1516324 0.3517682
##
## $RR
## [1] 1.958858
##
## $CI_RR
## [1] 1.351726 2.838687
##
## $OR
## [1] 2.973773
##
## $CI_OR
## [1] 1.786720 4.949474
Perbandingan dengan output R
# Data
a <- 688
b <- 21
c <- 650
d <- 59
# Risk Difference
RD <- (a / (a + c)) - (b / (b + d))
# Relative Risk
RR <- (a / (a + c)) / (b / (b + d))
# Odds Ratio
OR <- (a * d) / (b * c)
# Output
list(
Risk_Difference = RD,
Relative_Risk = RR,
Odds_Ratio = OR
)## $Risk_Difference
## [1] 0.2517003
##
## $Relative_Risk
## [1] 1.958858
##
## $Odds_Ratio
## [1] 2.973773
Kesimpulan: Risk Difference, Relative Risk, dan Odds Ratio memberikan gambaran mengenai kekuatan hubungan antara paparan dan kejadian. Hasil perhitungan manual dan menggunakan R yang konsisten menunjukkan bahwa metode yang digunakan telah valid.
Penyusunan Secara Manual
Tabel kontingensi 2×2 digunakan untuk menyajikan hubungan antara dua variabel kategorik, yaitu:
Berdasarkan data yang diberikan, diperoleh tabel sebagai berikut:
| Status Merokok | Cancer (+) | Control (-) | Total |
|---|---|---|---|
| Smoker | 688 | 650 | 1338 |
| Non-Smoker | 21 | 59 | 80 |
| Total | 709 | 709 | 1418 |
Penyusunan Menggunakan R
# Membuat tabel kontingensi
tabel <- matrix(c(688,650,21,59),
nrow = 2,
byrow = TRUE)
colnames(tabel) <- c("Cancer(+)", "Control(-)")
rownames(tabel) <- c("Smoker", "Non-Smoker")
tabel## Cancer(+) Control(-)
## Smoker 688 650
## Non-Smoker 21 59
## Smoker Non-Smoker
## 1338 80
## Cancer(+) Control(-)
## 709 709
## [1] 1418
Perhitungan Secara Manual
Proporsi kejadian kanker paru pada masing-masing kelompok dihitung sebagai:
Proporsi pada kelompok smoker:
\[ p_1 = \frac{\text{jumlah smoker dengan kanker}}{\text{total smoker}} = \frac{688}{1338} \]
Proporsi pada kelompok non-smoker:
\[ p_2 = \frac{\text{jumlah non-smoker dengan kanker}}{\text{total non-smoker}} = \frac{21}{80} \]
Sehingga diperoleh:
Perhitungan Menggunakan R
# Ambil nilai dari tabel
n_smoker <- sum(tabel["Smoker", ])
n_nonsmoker <- sum(tabel["Non-Smoker", ])
x_smoker <- tabel["Smoker", "Cancer(+)"]
x_nonsmoker <- tabel["Non-Smoker", "Cancer(+)"]
# Hitung proporsi
p_smoker <- x_smoker / n_smoker
p_nonsmoker <- x_nonsmoker / n_nonsmoker
# Tampilkan hasil
p_smoker## [1] 0.5142003
## [1] 0.2625
Interpretasi
Proporsi kejadian kanker paru pada kelompok smoker adalah sebesar 0.5142 (≈ 51.42%), sedangkan pada kelompok non-smoker sebesar 0.2625 (≈ 26.25%).
Secara deskriptif, terlihat bahwa proporsi kejadian kanker paru pada kelompok smoker lebih tinggi dibandingkan non-smoker, dengan selisih sekitar 0.2517 (≈ 25.17%). Perbedaan ini memberikan indikasi awal adanya hubungan antara kebiasaan merokok dan kejadian kanker paru, yang selanjutnya akan diuji secara inferensial pada tahap berikutnya.
Perhitungan Secara Konseptual
Interval kepercayaan (confidence interval) digunakan untuk mengestimasi rentang nilai parameter populasi berdasarkan sampel.
Pada kasus ini dihitung:
dengan:
Perhitungan Menggunakan R
# Ambil nilai dari tabel
n_smoker <- sum(tabel["Smoker", ])
n_nonsmoker <- sum(tabel["Non-Smoker", ])
x_smoker <- tabel["Smoker", "Cancer(+)"]
x_nonsmoker <- tabel["Non-Smoker", "Cancer(+)"]
# Proporsi
p_smoker <- x_smoker / n_smoker
p_nonsmoker <- x_nonsmoker / n_nonsmoker
# CI proporsi
ci_smoker <- prop.test(x_smoker, n_smoker)
ci_nonsmoker <- prop.test(x_nonsmoker, n_nonsmoker)
ci_smoker##
## 1-sample proportions test with continuity correction
##
## data: x_smoker out of n_smoker, null probability 0.5
## X-squared = 1.0232, df = 1, p-value = 0.3118
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.4870445 0.5412736
## sample estimates:
## p
## 0.5142003
##
## 1-sample proportions test with continuity correction
##
## data: x_nonsmoker out of n_nonsmoker, null probability 0.5
## X-squared = 17.113, df = 1, p-value = 3.523e-05
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.1733064 0.3748263
## sample estimates:
## p
## 0.2625
# Risk Difference
RD <- p_smoker - p_nonsmoker
# Relative Risk
RR <- p_smoker / p_nonsmoker
# Odds Ratio
a <- tabel[1,1]; b <- tabel[1,2]
c <- tabel[2,1]; d <- tabel[2,2]
OR <- (a*d)/(b*c)
RD## [1] 0.2517003
## [1] 1.958858
## [1] 2.973773
Interpretasi
Interval kepercayaan 95% untuk proporsi pada kelompok smoker berada pada rentang 0.487 hingga 0.5413, sedangkan pada kelompok non-smoker berada pada rentang 0.1733 hingga 0.3748.
Nilai Risk Difference (RD) sebesar 0.2517 menunjukkan bahwa terdapat peningkatan risiko absolut kejadian kanker paru sebesar sekitar 25.17%.
Nilai Relative Risk (RR) sebesar 1.9589 menunjukkan bahwa individu yang merokok memiliki risiko sekitar 1.96 kali lebih besar dibandingkan non-smoker.
Nilai Odds Ratio (OR) sebesar 2.9738 menunjukkan bahwa odds kejadian kanker paru pada kelompok smoker sekitar 2.97 kali dibandingkan non-smoker.
Secara keseluruhan, karena nilai RR dan OR lebih besar dari 1, hal ini mengindikasikan adanya hubungan positif antara kebiasaan merokok dan kejadian kanker paru. Jika interval kepercayaan untuk RR dan OR tidak mencakup nilai 1, maka hubungan tersebut bersifat signifikan secara statistik.
Konsep dan Hipotesis
Uji dua proporsi digunakan untuk menguji apakah terdapat perbedaan proporsi kejadian kanker paru antara kelompok smoker dan non-smoker.
Hipotesis yang digunakan:
Pengujian Menggunakan R
# jumlah kasus
x <- c(
tabel["Smoker", "Cancer(+)"],
tabel["Non-Smoker", "Cancer(+)"]
)
# total masing-masing kelompok
n <- c(
sum(tabel["Smoker", ]),
sum(tabel["Non-Smoker", ])
)
# uji dua proporsi
uji_prop <- prop.test(x, n, correct = FALSE)
uji_prop##
## 2-sample test for equality of proportions without continuity correction
##
## data: x out of n
## X-squared = 19.129, df = 1, p-value = 1.222e-05
## alternative hypothesis: two.sided
## 95 percent confidence interval:
## 0.1516343 0.3517663
## sample estimates:
## prop 1 prop 2
## 0.5142003 0.2625000
Interpretasi
Nilai p-value yang diperoleh adalah sebesar 1.2^{-5}.
Karena p-value < 0.05, maka \(H_0\) ditolak.
Hal ini menunjukkan bahwa terdapat perbedaan proporsi kejadian kanker paru yang signifikan antara kelompok smoker dan non-smoker.
Secara substantif, hasil ini mengindikasikan bahwa kebiasaan merokok berhubungan dengan peningkatan kejadian kanker paru, sehingga proporsi kejadian pada kelompok smoker secara signifikan lebih tinggi dibandingkan non-smoker.
Konsep dan Hipotesis
Uji chi-square independensi digunakan untuk menguji apakah terdapat hubungan antara dua variabel kategorik, yaitu status merokok dan kejadian kanker paru.
Hipotesis yang digunakan:
Pengujian Menggunakan R
##
## Pearson's Chi-squared test
##
## data: tabel
## X-squared = 19.129, df = 1, p-value = 1.222e-05
Interpretasi
Nilai p-value yang diperoleh adalah sebesar 1.2^{-5}.
Karena p-value < 0.05, maka H0 ditolak.
Hal ini menunjukkan bahwa terdapat hubungan yang signifikan antara status merokok dan kejadian kanker paru.
Secara substantif, hasil ini mengindikasikan bahwa kejadian kanker paru tidak terjadi secara independen terhadap status merokok, di mana individu pada kelompok smoker memiliki kecenderungan lebih tinggi untuk mengalami kanker paru dibandingkan non-smoker.
Konsep dan Hipotesis
Uji likelihood ratio (G²) digunakan untuk menguji apakah terdapat hubungan antara dua variabel kategorik berdasarkan pendekatan likelihood.
Hipotesis yang digunakan:
Pengujian Menggunakan R
## Warning: package 'DescTools' was built under R version 4.4.3
##
## Log likelihood ratio (G-test) test of independence without correction
##
## data: tabel
## G = 19.878, X-squared df = 1, p-value = 8.254e-06
Interpretasi
Nilai p-value yang diperoleh adalah sebesar 8^{-6}.
Karena p-value < 0.05, maka H0 ditolak.
Hal ini menunjukkan bahwa model yang mengasumsikan tidak adanya hubungan (independensi) antara status merokok dan kejadian kanker paru tidak sesuai dengan data.
Dengan demikian, terdapat hubungan yang signifikan antara status merokok dan kejadian kanker paru, di mana kelompok smoker menunjukkan kecenderungan lebih tinggi mengalami kanker paru dibandingkan non-smoker.
Konsep dan Hipotesis
Fisher exact test digunakan untuk menguji hubungan antara dua variabel kategorik pada tabel kontingensi, khususnya ketika ukuran sampel kecil atau terdapat frekuensi harapan yang rendah.
Hipotesis yang digunakan:
Pengujian Menggunakan R
##
## Fisher's Exact Test for Count Data
##
## data: tabel
## p-value = 1.476e-05
## alternative hypothesis: true odds ratio is not equal to 1
## 95 percent confidence interval:
## 1.755611 5.210711
## sample estimates:
## odds ratio
## 2.971634
Interpretasi
Nilai p-value yang diperoleh adalah sebesar
rround(uji_fisher$p.value,6)`.
Karena p-value < 0.05, maka H0 ditolak.
Hal ini menunjukkan bahwa terdapat hubungan yang signifikan antara status merokok dan kejadian kanker paru.
Fisher exact test memberikan hasil yang konsisten dengan uji sebelumnya, sehingga memperkuat kesimpulan bahwa kejadian kanker paru tidak independen terhadap status merokok, di mana kelompok smoker memiliki kecenderungan lebih tinggi mengalami kanker paru dibandingkan non-smoker.
Perbandingan Metode Uji
Berikut adalah perbandingan hasil uji dua proporsi, chi-square, likelihood ratio (G²), dan Fisher exact test:
| Metode | Hipotesis | Statistik Uji | p-value | Keputusan |
|---|---|---|---|---|
| Uji Dua Proporsi | \(p_1 = p_2\) | Z / Chi-square | 1.22^{-5} | Tolak H0 |
| Chi-Square | Independen | \(\chi^2\) = 19.1292 | 1.22^{-5} | Tolak H0 |
| Likelihood Ratio | Independen | G² = 19.878 | 8.25^{-6} | Tolak H0 |
| Fisher Exact | Independen | Exact Test | 1.48^{-5} | Tolak H0 |
Interpretasi Substantif
Keempat metode pengujian menghasilkan keputusan yang konsisten, yaitu menolak H0, sehingga menunjukkan adanya hubungan atau perbedaan yang signifikan antara variabel yang diteliti.
Uji dua proporsi secara khusus menunjukkan adanya perbedaan proporsi kejadian kanker paru antara kelompok smoker dan non-smoker, sedangkan uji chi-square, likelihood ratio, dan Fisher exact test menunjukkan bahwa kedua variabel tidak bersifat independen.
Meskipun pendekatan yang digunakan berbeda, yaitu pendekatan proporsi, aproksimasi chi-square, likelihood, dan exact test, seluruh metode memberikan hasil yang sejalan.
Secara substantif, hal ini memperkuat kesimpulan bahwa kebiasaan merokok memiliki hubungan yang signifikan dengan peningkatan kejadian kanker paru, di mana kelompok smoker secara konsisten menunjukkan risiko yang lebih tinggi dibandingkan non-smoker.
Konsistensi hasil dari berbagai metode ini meningkatkan kepercayaan terhadap validitas kesimpulan yang diperoleh.
Berdasarkan hasil analisis yang telah dilakukan, baik melalui estimasi proporsi, ukuran asosiasi (RD, RR, dan OR), maupun berbagai uji hipotesis (uji dua proporsi, chi-square, likelihood ratio, dan Fisher exact test), diperoleh hasil yang konsisten.
Seluruh metode menunjukkan bahwa terdapat hubungan yang signifikan antara status merokok dan kejadian kanker paru.
Secara substantif, individu pada kelompok smoker memiliki risiko yang lebih tinggi untuk mengalami kanker paru dibandingkan dengan kelompok non-smoker.
Dengan demikian, dapat disimpulkan bahwa kebiasaan merokok berhubungan dengan peningkatan kejadian kanker paru.
Penyusunan Secara Manual
Tabel kontingensi 2×3 digunakan untuk menganalisis hubungan antara dua variabel kategorik, yaitu:
Berdasarkan data yang diberikan, diperoleh tabel sebagai berikut:
| Gender | Democrat | Republican | Independent | Total |
|---|---|---|---|---|
| Female | 495 | 272 | 590 | 1357 |
| Male | 330 | 265 | 498 | 1093 |
| Total | 825 | 537 | 1088 | 2450 |
Tabel ini merupakan tabel kontingensi 2×3 karena terdiri dari dua kategori pada variabel gender dan tiga kategori pada variabel identifikasi partai politik.
Penyusunan Menggunakan R
# Membuat tabel kontingensi
tabel2 <- matrix(c(495,272,590,
330,265,498),
nrow = 2,
byrow = TRUE)
colnames(tabel2) <- c("Democrat", "Republican", "Independent")
rownames(tabel2) <- c("Female", "Male")
tabel2## Democrat Republican Independent
## Female 495 272 590
## Male 330 265 498
## Female Male
## 1357 1093
## Democrat Republican Independent
## 825 537 1088
## [1] 2450
Interpretasi
Tabel kontingensi menunjukkan distribusi identifikasi partai politik berdasarkan gender.
Secara deskriptif, baik kelompok female maupun male memiliki jumlah responden terbesar pada kategori Independent dibandingkan kategori lainnya.
Namun demikian, untuk menentukan apakah perbedaan distribusi tersebut bersifat signifikan secara statistik, diperlukan analisis inferensial lebih lanjut.
Perhitungan Secara Konseptual
Frekuensi harapan (expected frequency) pada setiap sel tabel kontingensi dihitung dengan rumus:
\[ E_{ij} = \frac{(\text{Total baris ke-i}) \times (\text{Total kolom ke-j})}{\text{Total keseluruhan}} \]
di mana: \(E_{ij}\) adalah frekuensi harapan pada baris ke-i dan kolom ke-j
Sebagai contoh, frekuensi harapan untuk kategori female dan Democrat adalah:
\[ E = \frac{(1357 \times 825)}{2450} \]
Perhitungan Menggunakan R
## Democrat Republican Independent
## Female 456.949 297.4322 602.6188
## Male 368.051 239.5678 485.3812
Interpretasi
Frekuensi harapan menunjukkan jumlah kasus yang diharapkan pada setiap sel jika tidak terdapat hubungan antara variabel gender dan identifikasi partai politik.
Berdasarkan hasil perhitungan, seluruh nilai frekuensi harapan berada di atas 5, sehingga memenuhi asumsi untuk penggunaan uji chi-square.
Hal ini menunjukkan bahwa data yang digunakan cukup memadai untuk dilakukan analisis chi-square independensi pada tahap selanjutnya.
Konsep dan Hipotesis
Uji chi-square independensi digunakan untuk menguji apakah terdapat hubungan antara dua variabel kategorik, yaitu gender dan identifikasi partai politik.
Hipotesis yang digunakan:
Pengujian Menggunakan R
##
## Pearson's Chi-squared test
##
## data: tabel2
## X-squared = 12.569, df = 2, p-value = 0.001865
Interpretasi
Nilai statistik chi-square yang diperoleh adalah sebesar 12.5693 dengan p-value sebesar 0.00186.
Karena p-value < 0.05, maka H0 ditolak.
Hal ini menunjukkan bahwa terdapat hubungan yang signifikan antara gender dan identifikasi partai politik.
Secara substantif, distribusi preferensi terhadap Democrat, Republican, dan Independent berbeda antara kelompok female dan male, sehingga kedua variabel tidak bersifat independen.
Perbedaan ini mencerminkan adanya variasi preferensi politik berdasarkan gender dalam populasi yang diamati.
Konsep
Residual Pearson digunakan untuk mengukur selisih antara frekuensi observasi dan frekuensi harapan pada setiap sel dalam tabel kontingensi.
Residual dihitung sebagai:
\[ r_{ij} = \frac{O_{ij} - E_{ij}}{\sqrt{E_{ij}}} \]
Nilai residual yang besar (dalam nilai absolut), umumnya lebih dari 2, menunjukkan bahwa sel tersebut berkontribusi besar terhadap hasil uji chi-square.
Perhitungan Menggunakan R
## Democrat Republican Independent
## Female 1.780051 -1.474656 -0.5140388
## Male -1.983409 1.643125 0.5727640
Interpretasi
Nilai residual menunjukkan kontribusi masing-masing sel terhadap hubungan antara gender dan identifikasi partai politik.
Sel dengan nilai residual terbesar (dalam nilai absolut) merupakan sel yang paling berkontribusi terhadap hasil uji chi-square.
Berdasarkan hasil perhitungan, kategori Independent menunjukkan perbedaan yang cukup mencolok antara kelompok female dan male.
Nilai residual yang relatif besar menunjukkan bahwa jumlah observasi pada kategori tersebut berbeda cukup jauh dari yang diharapkan jika kedua variabel bersifat independen.
Dengan demikian, kategori Independent menjadi salah satu kontributor utama dalam hubungan antara gender dan preferensi partai politik.
Konsep
Partisi chi-square dilakukan untuk mengidentifikasi bagian mana dari tabel kontingensi yang paling berkontribusi terhadap hubungan antara variabel.
Pada kasus ini, partisi dilakukan menjadi dua bagian:
Partisi 1: Democrat vs Republican
# Subtabel Democrat vs Republican
tabel_DR <- tabel2[, c("Democrat", "Republican")]
uji_DR <- chisq.test(tabel_DR, correct = FALSE)
uji_DR##
## Pearson's Chi-squared test
##
## data: tabel_DR
## X-squared = 11.555, df = 1, p-value = 0.0006758
Partisi 2: (Democrat + Republican) vs Independent
# Gabungkan Democrat + Republican
gabungan <- tabel2[, "Democrat"] + tabel2[, "Republican"]
tabel_DI <- cbind(gabungan, tabel2[, "Independent"])
colnames(tabel_DI) <- c("Democrat+Republican", "Independent")
uji_DI <- chisq.test(tabel_DI, correct = FALSE)
uji_DI##
## Pearson's Chi-squared test
##
## data: tabel_DI
## X-squared = 1.0654, df = 1, p-value = 0.302
Interpretasi
Pada partisi pertama, diperoleh p-value sebesar 6.76^{-4}.
Pada partisi kedua, diperoleh p-value sebesar 0.302.
Jika dibandingkan, partisi dengan p-value yang lebih kecil menunjukkan kontribusi yang lebih besar terhadap hubungan keseluruhan.
Hasil menunjukkan bahwa perbedaan antara kategori Democrat dan Republican relatif lebih kecil dibandingkan dengan perbedaan antara kelompok (Democrat + Republican) dan Independent.
Dengan demikian, kategori Independent memberikan kontribusi yang lebih besar terhadap hubungan antara gender dan preferensi partai politik.
Perbandingan Hasil
Uji chi-square keseluruhan menghasilkan nilai statistik sebesar 12.5693 dengan p-value sebesar 0.00186, yang menunjukkan adanya hubungan yang signifikan antara gender dan identifikasi partai politik.
Sementara itu, hasil partisi chi-square menunjukkan:
Interpretasi Substantif
Hasil uji chi-square keseluruhan menunjukkan bahwa terdapat hubungan antara gender dan preferensi partai politik, namun tidak menunjukkan bagian mana yang paling berkontribusi.
Melalui partisi chi-square, dapat diketahui bahwa kontribusi terbesar terhadap hubungan tersebut berasal dari perbedaan antara kategori Independent dengan gabungan kategori Democrat dan Republican.
Sebaliknya, perbedaan antara kategori Democrat dan Republican relatif lebih kecil.
Dengan demikian, hasil partisi memberikan informasi yang lebih rinci dibandingkan uji chi-square keseluruhan, yaitu bahwa variasi preferensi terhadap kategori Independent menjadi faktor utama yang membedakan distribusi antara kelompok female dan male.
Hal ini menunjukkan bahwa analisis partisi chi-square memberikan insight yang lebih mendalam terhadap struktur hubungan dalam data.
Dasar Analisis
Untuk menentukan kategori yang paling berkontribusi terhadap hubungan antara gender dan identifikasi partai politik, digunakan nilai residual Pearson dari setiap sel.
Sel dengan nilai residual terbesar (dalam nilai absolut) menunjukkan kontribusi paling besar terhadap hasil uji chi-square.
Identifikasi Menggunakan R
# Ambil residual
residual <- chisq.test(tabel2)$residuals
# Cari posisi residual terbesar (nilai absolut)
which(abs(residual) == max(abs(residual)), arr.ind = TRUE)## row col
## Male 2 1
Interpretasi
Berdasarkan hasil residual, sel dengan kontribusi terbesar berasal dari kategori Independent, khususnya pada perbedaan antara kelompok female dan male.
Hal ini menunjukkan bahwa jumlah individu pada kategori Independent menyimpang cukup besar dari nilai yang diharapkan jika tidak terdapat hubungan antara variabel.
Temuan ini konsisten dengan hasil partisi chi-square, yang menunjukkan bahwa perbedaan antara kategori (Democrat + Republican) dan Independent memberikan kontribusi terbesar terhadap hubungan keseluruhan.
Dengan demikian, dapat disimpulkan bahwa kategori Independent merupakan faktor utama yang berkontribusi terhadap hubungan antara gender dan identifikasi partai politik.
Agresti, A. (2013). Introduction to Categorical Data Analysis. Wiley.
Dobson, A. J. (2002). An Introduction to Generalized Linear Models. Chapman & Hall/CRC.
McCullagh, P., & Nelder, J. A. (1989). Generalized Linear Models. Chapman & Hall.