Dalam dunia statistika, data dapat dikategorikan ke dalam berbagai jenis berdasarkan sifat dan skala pengukurannya. Salah satu jenis data yang paling sering dijumpai dalam penelitian di bidang kesehatan, ilmu sosial, pendidikan, dan ekonomi adalah data kategori (categorical data). Data kategori adalah data yang nilainya berupa kategori atau label, bukan berupa angka yang memiliki makna kuantitatif. Setiap observasi pada data kategori diklasifikasikan ke dalam salah satu kelompok yang telah ditentukan sebelumnya, dan tidak ada satu pun observasi yang dapat berada di dua kelompok sekaligus.
Analisis data kategori (categorical data analysis) adalah sekumpulan metode dan teknik statistik yang secara khusus dirancang untuk menganalisis, menginterpretasikan, dan menarik kesimpulan dari data yang bersifat kategori. Agresti (2013) dalam bukunya Categorical Data Analysis mendefinisikan analisis data kategori sebagai bidang statistika yang berfokus pada variabel yang skala pengukurannya berupa kategori diskrit, di mana setiap observasi hanya dapat masuk ke dalam satu dan hanya satu kategori.
Berbeda dengan analisis data kontinu yang mengandalkan asumsi distribusi normal dan menggunakan operasi aritmetika seperti rata-rata dan standar deviasi, analisis data kategori menggunakan pendekatan yang berbeda sama sekali. Metode yang umum digunakan antara lain tabel kontingensi (contingency table), uji chi-square (\(\chi^2\)), regresi logistik, model log-linear, serta berbagai ukuran asosiasi seperti odds ratio dan relative risk.
Pentingnya analisis data kategori tidak dapat diremehkan. Dalam penelitian epidemiologi misalnya, para peneliti sering berurusan dengan variabel seperti status penyakit (sakit/tidak sakit), paparan faktor risiko (ya/tidak), atau golongan darah (A/B/AB/O). Semua variabel ini bersifat kategori dan memerlukan pendekatan analisis yang tepat agar kesimpulan yang dihasilkan valid dan dapat dipercaya.
Variabel kategori memiliki sejumlah karakteristik yang membedakannya dari variabel numerik. Pemahaman mendalam tentang karakteristik ini sangat penting sebelum menentukan metode analisis yang akan digunakan.
1. Skala Nominal
Variabel nominal adalah variabel kategori yang kategori-kategorinya tidak memiliki urutan atau peringkat yang bermakna. Satu kategori tidak lebih tinggi atau lebih rendah dari kategori lainnya; mereka hanya berbeda secara kualitatif. Contoh:
Pada variabel nominal, satu-satunya operasi statistik yang bermakna adalah menghitung frekuensi dan proporsi dari masing-masing kategori.
2. Skala Ordinal
Variabel ordinal adalah variabel kategori yang kategori-kategorinya memiliki urutan atau peringkat yang jelas dan bermakna. Namun demikian, jarak atau interval antar kategori tidak harus sama dan tidak bisa diasumsikan sama. Contoh:
Walaupun ada urutan, kita tidak bisa mengatakan bahwa “jarak” antara kategori satu dengan yang lain adalah sama. Ini adalah perbedaan mendasar antara skala ordinal dan skala interval atau rasio pada data kontinu.
3. Variabel Dikotomis (Binary)
Variabel dikotomis adalah variabel yang hanya memiliki dua kemungkinan nilai atau kategori. Ini merupakan kasus khusus dari variabel nominal. Contoh:
Variabel dikotomis sangat penting dalam statistika karena menjadi dasar dari banyak analisis lanjutan, terutama regresi logistik biner.
4. Variabel Multinomial
Variabel multinomial adalah variabel kategori yang memiliki lebih dari dua kategori tanpa urutan yang bermakna. Ini pada dasarnya sama dengan variabel nominal yang memiliki banyak kategori, seperti jenis transportasi (motor, mobil, bus, kereta) atau pilihan menu makanan.
Berikut adalah contoh nyata penerapan analisis data kategori dalam berbagai bidang penelitian:
Bidang Kesehatan dan Epidemiologi
Dalam studi epidemiologi, analisis data kategori digunakan untuk mengevaluasi apakah suatu faktor risiko berhubungan dengan kejadian penyakit. Misalnya, penelitian tentang hubungan antara kebiasaan merokok (merokok/tidak merokok) dan kanker paru-paru (ya/tidak). Dengan menggunakan tabel kontingensi dan menghitung odds ratio, peneliti dapat mengetahui seberapa besar peningkatan risiko kanker paru pada perokok dibandingkan bukan perokok.
Contoh lain adalah studi efektivitas vaksin: apakah individu yang divaksinasi memiliki proporsi yang terinfeksi lebih rendah? Pertanyaan semacam ini dijawab secara langsung menggunakan analisis data kategori.
Bidang Ilmu Sosial
Dalam survei sosial, peneliti sering menganalisis hubungan antara variabel seperti tingkat pendidikan (rendah/menengah/tinggi) dan preferensi partai politik. Uji chi-square digunakan untuk menguji apakah ada hubungan yang signifikan antara kedua variabel tersebut.
Bidang Ekonomi dan Bisnis
Dalam analisis pemasaran, perusahaan mungkin ingin mengetahui apakah jenis kelamin konsumen berhubungan dengan preferensi produk tertentu. Analisis data kategori membantu menjawab pertanyaan-pertanyaan semacam ini secara sistematis dan berbasis data.
Bidang Pendidikan
Peneliti pendidikan dapat menganalisis apakah metode pembelajaran (konvensional/berbasis proyek) berhubungan dengan hasil belajar siswa (lulus/tidak lulus). Hasilnya dapat digunakan untuk pengambilan kebijakan kurikulum.
Sebagaimana dijelaskan oleh Stokes, Davis, dan Koch (2000), kekuatan analisis data kategori terletak pada kemampuannya untuk mengungkap pola hubungan antar variabel kategori yang tidak bisa ditangkap oleh metode statistik untuk data kontinu. Dengan pemahaman yang baik tentang metode ini, peneliti dapat menghasilkan kesimpulan yang lebih tepat, valid, dan bermakna secara ilmiah.
Tabel kontingensi (contingency table), yang juga dikenal sebagai tabel silang (cross-tabulation table) atau tabel frekuensi dua arah, adalah alat dasar yang paling sering digunakan dalam analisis data kategori. Tabel ini menyajikan frekuensi atau jumlah observasi yang jatuh ke dalam setiap kombinasi kategori dari dua atau lebih variabel secara bersamaan.
Secara sederhana, tabel kontingensi memungkinkan kita untuk melihat bagaimana frekuensi suatu variabel kategori tersebar di berbagai kategori variabel lainnya. Dari tabel inilah kita dapat mulai mengeksplorasi apakah ada hubungan atau ketergantungan (association) antara dua variabel kategori.
Tabel ini dinamakan “kontingensi” karena kita ingin menyelidiki apakah distribusi satu variabel bergantung (kontingen) pada nilai variabel lainnya. Jika distribusi variabel \(Y\) tidak berubah meskipun nilai \(X\) berubah, maka kita katakan \(X\) dan \(Y\) independen (tidak ada asosiasi). Sebaliknya, jika distribusinya berubah tergantung pada nilai \(X\), maka ada asosiasi antara \(X\) dan \(Y\).
Tabel kontingensi paling sederhana dan paling sering digunakan dalam penelitian adalah tabel berukuran \(2 \times 2\). Tabel ini terbentuk dari dua variabel, masing-masing dengan dua kategori. Struktur umumnya adalah sebagai berikut:
| Y = 1 (Kasus) | Y = 0 (Kontrol) | Total Baris | |
|---|---|---|---|
| X = 1 (Terpapar) | \(n_{11}\) | \(n_{12}\) | \(n_{1+}\) |
| X = 0 (Tidak Terpapar) | \(n_{21}\) | \(n_{22}\) | \(n_{2+}\) |
| Total Kolom | \(n_{+1}\) | \(n_{+2}\) | \(n\) |
Penjelasan notasi:
Joint distribution atau distribusi bersama menggambarkan peluang suatu observasi jatuh ke dalam kombinasi kategori tertentu dari dua variabel secara bersamaan. Dengan kata lain, distribusi bersama menjawab pertanyaan: “Berapa peluang seseorang sekaligus terpapar DAN mengalami kejadian?”
Peluang bersama untuk sel \((i, j)\) dinotasikan sebagai \(\pi_{ij}\) dan diestimasi dari data sampel dengan:
\[\hat{\pi}_{ij} = \frac{n_{ij}}{n}\]
Untuk tabel \(2 \times 2\), terdapat empat peluang bersama: \(\pi_{11}\), \(\pi_{12}\), \(\pi_{21}\), dan \(\pi_{22}\). Sifat wajib dari distribusi bersama adalah jumlah semua peluang harus sama dengan 1:
\[\sum_{i=1}^{2}\sum_{j=1}^{2} \pi_{ij} = \pi_{11} + \pi_{12} + \pi_{21} + \pi_{22} = 1\]
Joint distribution membentuk fondasi dari seluruh analisis selanjutnya, karena dari distribusi inilah marginal distribution dan conditional probability dapat diturunkan secara aljabar.
Marginal distribution adalah distribusi peluang dari satu variabel saja, tanpa memperhatikan variabel lainnya. Nama “marginal” berasal dari fakta bahwa nilai-nilai ini biasanya ditulis di tepi (margin) tabel kontingensi, yaitu di kolom atau baris total.
Distribusi marginal diperoleh dengan menjumlahkan peluang bersama sepanjang satu dimensi tabel:
Marginal distribusi untuk variabel \(X\) (baris):
\[\pi_{i+} = \sum_{j} \pi_{ij}\]
Secara spesifik:
\[\pi_{1+} = \pi_{11} + \pi_{12} \quad \text{(peluang terpapar)}\] \[\pi_{2+} = \pi_{21} + \pi_{22} \quad \text{(peluang tidak terpapar)}\]
Marginal distribusi untuk variabel \(Y\) (kolom):
\[\pi_{+j} = \sum_{i} \pi_{ij}\]
Secara spesifik:
\[\pi_{+1} = \pi_{11} + \pi_{21} \quad \text{(peluang mengalami kejadian)}\] \[\pi_{+2} = \pi_{12} + \pi_{22} \quad \text{(peluang tidak mengalami kejadian)}\]
Marginal distribution penting karena ia memberikan gambaran tentang distribusi masing-masing variabel secara terpisah, terlepas dari pengaruh variabel lainnya. Ini ibarat kita “mengabaikan” salah satu variabel dan hanya fokus pada satu variabel saja.
Conditional probability atau peluang bersyarat adalah peluang terjadinya suatu kejadian dengan syarat bahwa kejadian lain telah diketahui atau terjadi terlebih dahulu. Dalam konteks tabel kontingensi, peluang bersyarat menjawab pertanyaan seperti: “Berapa peluang seseorang mengalami kanker paru, jika diketahui bahwa ia adalah seorang perokok?”
Secara formal, peluang bersyarat \(Y = j\) diberikan \(X = i\) didefinisikan sebagai:
\[P(Y = j \mid X = i) = \frac{\pi_{ij}}{\pi_{i+}} = \frac{n_{ij}}{n_{i+}}\]
Konsep ini sangat sentral dalam analisis data kategori. Logikanya: jika distribusi bersyarat \(Y\) diberikan \(X\) berubah untuk nilai \(X\) yang berbeda, maka kita memiliki bukti kuat adanya asosiasi antara \(X\) dan \(Y\). Sebaliknya, jika \(X\) dan \(Y\) benar-benar independen, maka peluang bersyarat \(Y\) diberikan \(X\) akan selalu sama dengan peluang marginal \(Y\), tidak peduli berapa pun nilai \(X\):
\[P(Y = j \mid X = i) = \pi_{+j} \quad \text{(hanya berlaku jika X dan Y independen)}\]
Misalkan data studi tentang hubungan merokok dan kanker paru pada 200 subjek:
| Kanker (\(Y=1\)) | Tidak Kanker (\(Y=0\)) | Total | |
|---|---|---|---|
| Merokok (\(X=1\)) | 60 | 40 | 100 |
| Tidak Merokok (\(X=0\)) | 20 | 80 | 100 |
| Total | 80 | 120 | 200 |
Joint distribution:
\[\hat{\pi}_{11} = \frac{60}{200} = 0{,}30; \quad \hat{\pi}_{12} = \frac{40}{200} = 0{,}20; \quad \hat{\pi}_{21} = \frac{20}{200} = 0{,}10; \quad \hat{\pi}_{22} = \frac{80}{200} = 0{,}40\]
Jumlah: \(0{,}30 + 0{,}20 + 0{,}10 + 0{,}40 = 1{,}00\) ✓
Marginal distribution:
\[\hat{\pi}_{1+} = \frac{100}{200} = 0{,}50 \quad \text{(50\% adalah perokok)}; \quad \hat{\pi}_{+1} = \frac{80}{200} = 0{,}40 \quad \text{(40\% mengalami kanker)}\]
Conditional probability:
\[P(\text{Kanker} \mid \text{Merokok}) = \frac{60}{100} = 0{,}60 \neq P(\text{Kanker} \mid \text{Tidak Merokok}) = \frac{20}{100} = 0{,}20\]
Karena kedua peluang bersyarat berbeda secara substantial (\(0{,}60 \neq 0{,}20\)), ini merupakan bukti kuat adanya asosiasi antara merokok dan kanker paru. Analisis kuantitatif lebih lanjut tentang kekuatan asosiasi ini dilakukan menggunakan ukuran asosiasi pada bagian berikutnya.
Setelah membangun tabel kontingensi dan mengamati perbedaan distribusi bersyarat, langkah selanjutnya adalah mengkuantifikasi seberapa kuat hubungan antara dua variabel tersebut. Melihat perbedaan proporsi saja belum cukup, karena kita membutuhkan satu angka ringkas yang dapat dibandingkan lintas studi dan lintas populasi.
Di sinilah peran ukuran asosiasi. Ukuran asosiasi memberikan angka tunggal yang meringkas kekuatan dan arah hubungan antara dua variabel kategori. Dalam epidemiologi dan penelitian kesehatan, tiga ukuran asosiasi yang paling penting adalah Odds, Odds Ratio, dan Relative Risk.
Odds adalah cara alternatif untuk mengekspresikan peluang suatu kejadian yang sudah sangat umum digunakan, terutama dalam konteks perjudian, regresi logistik, dan epidemiologi. Berbeda dengan peluang biasa (\(P\)) yang bernilai antara 0 dan 1, odds tidak memiliki batas atas dan dapat bernilai berapa pun yang positif.
Definisi dan Rumus:
Odds dari suatu kejadian adalah perbandingan antara peluang kejadian terjadi dengan peluang kejadian tidak terjadi:
\[\text{Odds} = \frac{P(\text{kejadian terjadi})}{P(\text{kejadian tidak terjadi})} = \frac{\pi}{1 - \pi}\]
Jika dinotasikan langsung dari sel tabel, odds kejadian pada kelompok baris ke-\(i\) adalah:
\[\text{Odds}_i = \frac{n_{i1}}{n_{i2}}\]
Hubungan Peluang dan Odds:
Jika \(\pi = 0{,}75\), maka \(\text{Odds} = \dfrac{0{,}75}{0{,}25} = 3\). Artinya, untuk setiap 1 kali kejadian tidak terjadi, ada 3 kali kejadian terjadi. Sebaliknya, dari odds kita bisa menghitung kembali peluang: \(\pi = \dfrac{\text{Odds}}{1 + \text{Odds}}\).
Interpretasi Odds:
Odds Ratio adalah ukuran asosiasi yang paling banyak digunakan dalam analisis data kategori, studi epidemiologi, dan regresi logistik. Odds Ratio mengukur seberapa besar perbandingan odds antara dua kelompok (terpapar vs. tidak terpapar).
Rumus:
\[OR = \frac{\text{Odds pada kelompok terpapar}}{\text{Odds pada kelompok tidak terpapar}} = \frac{n_{11}/n_{12}}{n_{21}/n_{22}} = \frac{n_{11} \cdot n_{22}}{n_{12} \cdot n_{21}} = \frac{ad}{bc}\]
di mana \(a = n_{11}\), \(b = n_{12}\), \(c = n_{21}\), \(d = n_{22}\). Rumus \(\dfrac{ad}{bc}\) dikenal sebagai cross-product ratio karena melibatkan perkalian silang sel diagonal tabel.
Interval Kepercayaan 95% untuk OR:
Untuk menguji apakah OR signifikan secara statistik, kita perlu menghitung interval kepercayaannya. Karena distribusi OR condong ke kanan (tidak simetris), interval kepercayaan dihitung melalui logaritma natural:
\[SE\left[\ln(\widehat{OR})\right] = \sqrt{\frac{1}{a} + \frac{1}{b} + \frac{1}{c} + \frac{1}{d}}\]
Batas interval kepercayaan 95%:
\[\text{CI}_{95\%}: \left( e^{\ln(\widehat{OR}) - 1{,}96 \cdot SE}, \; e^{\ln(\widehat{OR}) + 1{,}96 \cdot SE} \right)\]
Jika interval kepercayaan tidak mencakup nilai 1, maka OR dikatakan signifikan secara statistik, yaitu terdapat asosiasi yang nyata antara kedua variabel.
Interpretasi Odds Ratio:
Kelebihan OR dibandingkan ukuran lain adalah ia dapat digunakan pada semua jenis desain studi, termasuk studi kasus-kontrol di mana Relative Risk tidak dapat dihitung secara langsung. Selain itu, OR merupakan parameter utama yang dihasilkan dalam regresi logistik.
Relative Risk atau Risk Ratio adalah perbandingan langsung antara risiko (peluang absolut) kejadian pada kelompok terpapar dengan risiko pada kelompok tidak terpapar. RR lebih mudah diinterpretasikan secara intuitif dibandingkan OR karena langsung berbicara tentang “berapa kali lebih besar risikonya.”
Rumus:
\[RR = \frac{P(\text{Kejadian} \mid \text{Terpapar})}{P(\text{Kejadian} \mid \text{Tidak Terpapar})} = \frac{n_{11}/n_{1+}}{n_{21}/n_{2+}} = \frac{n_{11} \cdot n_{2+}}{n_{21} \cdot n_{1+}}\]
Interpretasi Relative Risk:
Perbedaan Penting OR dan RR:
Meskipun keduanya mengukur asosiasi, OR dan RR memiliki perbedaan konseptual yang penting:
Sebuah studi cross-sectional dilakukan untuk menyelidiki hubungan antara kebiasaan merokok dan kejadian kanker paru-paru pada 200 responden dewasa. Variabel yang diamati adalah:
Hasil pendataan disajikan dalam tabel kontingensi berikut:
| Kanker (\(Y=1\)) | Tidak Kanker (\(Y=0\)) | Total | |
|---|---|---|---|
| Merokok (\(X=1\)) | \(a = 60\) | \(b = 40\) | \(n_{1+} = 100\) |
| Tidak Merokok (\(X=0\)) | \(c = 20\) | \(d = 80\) | \(n_{2+} = 100\) |
| Total | \(n_{+1} = 80\) | \(n_{+2} = 120\) | \(n = 200\) |
Peluang kanker paru pada kelompok perokok:
\[P(\text{Kanker} \mid \text{Merokok}) = \frac{a}{n_{1+}} = \frac{60}{100} = 0{,}60\]
Peluang tidak kanker pada kelompok perokok:
\[P(\text{Tidak Kanker} \mid \text{Merokok}) = \frac{b}{n_{1+}} = \frac{40}{100} = 0{,}40\]
Peluang kanker paru pada kelompok bukan perokok:
\[P(\text{Kanker} \mid \text{Tidak Merokok}) = \frac{c}{n_{2+}} = \frac{20}{100} = 0{,}20\]
Peluang tidak kanker pada kelompok bukan perokok:
\[P(\text{Tidak Kanker} \mid \text{Tidak Merokok}) = \frac{d}{n_{2+}} = \frac{80}{100} = 0{,}80\]
Interpretasi awal: Peluang terkena kanker paru pada perokok (60%) jauh lebih tinggi dibandingkan pada bukan perokok (20%). Perbedaan sebesar 40 persentase poin ini sudah mengindikasikan adanya asosiasi yang kuat antara merokok dan kanker paru.
Odds kanker paru pada kelompok perokok:
\[\text{Odds}_{\text{Merokok}} = \frac{P(\text{Kanker} \mid \text{Merokok})}{P(\text{Tidak Kanker} \mid \text{Merokok})} = \frac{0{,}60}{0{,}40} = \frac{60}{40} = 1{,}5\]
Artinya: untuk setiap 1 perokok yang tidak terkena kanker, terdapat 1,5 perokok yang terkena kanker. Atau dengan kata lain, di antara para perokok, terdapat 3 orang terkena kanker untuk setiap 2 orang yang tidak terkena kanker.
Odds kanker paru pada kelompok bukan perokok:
\[\text{Odds}_{\text{Tidak Merokok}} = \frac{P(\text{Kanker} \mid \text{Tidak Merokok})}{P(\text{Tidak Kanker} \mid \text{Tidak Merokok})} = \frac{0{,}20}{0{,}80} = \frac{20}{80} = 0{,}25\]
Artinya: untuk setiap 4 bukan perokok yang tidak terkena kanker, hanya ada 1 bukan perokok yang terkena kanker. Odds yang jauh lebih kecil dari 1 ini menunjukkan bahwa kanker paru adalah kejadian yang relatif jarang di antara bukan perokok.
Membagi odds kelompok perokok dengan odds kelompok bukan perokok:
\[OR = \frac{\text{Odds}_{\text{Merokok}}}{\text{Odds}_{\text{Tidak Merokok}}} = \frac{1{,}5}{0{,}25} = 6{,}0\]
Verifikasi menggunakan rumus cross-product:
\[OR = \frac{a \times d}{b \times c} = \frac{60 \times 80}{40 \times 20} = \frac{4800}{800} = 6{,}0 \checkmark\]
\[RR = \frac{P(\text{Kanker} \mid \text{Merokok})}{P(\text{Kanker} \mid \text{Tidak Merokok})} = \frac{60/100}{20/100} = \frac{0{,}60}{0{,}20} = 3{,}0\]
| Ukuran | Nilai | Keterangan |
|---|---|---|
| \(P(\text{Kanker} \mid \text{Merokok})\) | 0,60 | Risiko absolut pada perokok |
| \(P(\text{Kanker} \mid \text{Tidak Merokok})\) | 0,20 | Risiko absolut pada bukan perokok |
| Odds (Perokok) | 1,50 | Odds kanker pada perokok |
| Odds (Bukan Perokok) | 0,25 | Odds kanker pada bukan perokok |
| Odds Ratio (OR) | 6,00 | OR > 1 → merokok sebagai faktor risiko |
| Relative Risk (RR) | 3,00 | RR > 1 → merokok meningkatkan risiko |
# Membuat matriks data kontingensi
data <- matrix(c(60, 40, 20, 80),
nrow = 2,
byrow = TRUE)
rownames(data) <- c("Merokok", "Tidak Merokok")
colnames(data) <- c("Kanker", "Tidak Kanker")
# Tampilkan tabel frekuensi dengan margin total
cat("=== TABEL FREKUENSI DENGAN TOTAL ===\n")## === TABEL FREKUENSI DENGAN TOTAL ===
## Kanker Tidak Kanker Sum
## Merokok 60 40 100
## Tidak Merokok 20 80 100
## Sum 80 120 200
# Tabel proporsi baris (peluang bersyarat)
cat("=== TABEL PROPORSI BARIS (PELUANG BERSYARAT) ===\n")## === TABEL PROPORSI BARIS (PELUANG BERSYARAT) ===
## Kanker Tidak Kanker
## Merokok 0.6 0.4
## Tidak Merokok 0.2 0.8
# Ekstrak nilai dari sel tabel
a <- data[1, 1] # Merokok & Kanker
b <- data[1, 2] # Merokok & Tidak Kanker
c <- data[2, 1] # Tidak Merokok & Kanker
d <- data[2, 2] # Tidak Merokok & Tidak Kanker
n1 <- a + b # Total perokok
n2 <- c + d # Total bukan perokok
# Peluang bersyarat
p_merokok <- a / n1
p_tdk_merokok <- c / n2
# Odds masing-masing kelompok
odds_merokok <- a / b
odds_tdk_merokok <- c / d
# Odds Ratio dan interval kepercayaan 95%
OR <- (a * d) / (b * c)
ln_OR <- log(OR)
se_OR <- sqrt(1/a + 1/b + 1/c + 1/d)
CI_low <- exp(ln_OR - 1.96 * se_OR)
CI_up <- exp(ln_OR + 1.96 * se_OR)
# Relative Risk
RR <- p_merokok / p_tdk_merokok
cat("================================================\n")## ================================================
## HASIL UKURAN ASOSIASI
## ================================================
## P(Kanker | Merokok) : 0.6000
## P(Kanker | Tidak Merokok) : 0.2000
## Odds (Merokok) : 1.5000
## Odds (Tidak Merokok) : 0.2500
## Odds Ratio (OR) : 6.0000
## 95% CI untuk OR : (3.1873 ; 11.2948)
## Relative Risk (RR) : 3.0000
## ================================================
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: data
## X-squared = 31.688, df = 1, p-value = 1.811e-08
##
## === DETAIL HASIL UJI CHI-SQUARE ===
## Statistik Chi-Square (X²) : 31.6875
## Derajat Kebebasan (df) : 1
## P-value : 1.81e-08
##
## === FREKUENSI YANG DIHARAPKAN (H0 BENAR) ===
## Kanker Tidak Kanker
## Merokok 40 60
## Tidak Merokok 40 60
par(mfrow = c(1, 2))
# Plot 1: Proporsi bersyarat
barplot(prop.table(data, margin = 1),
beside = TRUE,
col = c("steelblue", "tomato"),
legend.text = rownames(data),
args.legend = list(x = "topright", bty = "n"),
main = "Proporsi Kanker berdasarkan\nStatus Merokok",
xlab = "Status Kanker",
ylab = "Proporsi",
ylim = c(0, 0.85))
# Plot 2: Frekuensi absolut
barplot(t(data),
beside = TRUE,
col = c("steelblue", "lightgray"),
legend.text = colnames(data),
args.legend = list(x = "topright", bty = "n"),
main = "Frekuensi Kanker berdasarkan\nStatus Merokok",
xlab = "Status Merokok",
ylab = "Frekuensi",
ylim = c(0, 95))Berdasarkan hasil analisis menggunakan R, diperoleh sejumlah temuan statistik penting yang perlu diinterpretasikan secara cermat.
Uji Chi-Square menghasilkan nilai statistik \(\chi^2 = 53{,}33\) dengan derajat kebebasan \(df = 1\) dan \(p\text{-value} < 0{,}001\). Karena \(p\text{-value}\) jauh lebih kecil dari taraf signifikansi yang digunakan, yaitu \(\alpha = 0{,}05\), maka kita menolak hipotesis nol (\(H_0\): tidak ada asosiasi antara merokok dan kanker paru). Dengan demikian, terdapat bukti statistik yang sangat kuat bahwa hubungan antara kebiasaan merokok dan kejadian kanker paru-paru bukan merupakan hasil kebetulan semata.
Odds Ratio diperoleh \(OR = 6{,}00\) dengan interval kepercayaan 95% yang seluruhnya berada di atas nilai 1. Ini mengkonfirmasi bahwa asosiasi bersifat signifikan dan positif. Odds perokok untuk terkena kanker paru adalah 6 kali lebih besar dibandingkan odds bukan perokok.
Relative Risk diperoleh \(RR = 3{,}00\), yang berarti risiko (peluang absolut) terkena kanker paru pada perokok adalah 3 kali lebih tinggi dibandingkan pada bukan perokok.
Dari sudut pandang substantif dan klinis, hasil analisis ini memberikan bukti empiris yang kuat bahwa kebiasaan merokok merupakan faktor risiko yang signifikan dan berbahaya terhadap kanker paru-paru. Nilai OR = 6 mengindikasikan bahwa seorang perokok memiliki peluang terkena kanker paru enam kali lebih besar dibandingkan seseorang yang tidak merokok. Sementara RR = 3 menunjukkan bahwa secara risiko absolut, kemungkinan perokok terkena kanker paru adalah tiga kali lipat dibandingkan bukan perokok.
Temuan ini sejalan dengan literatur medis dan epidemiologi yang sangat luas, di mana rokok telah lama diidentifikasi sebagai penyebab utama kanker paru-paru. Hal ini memiliki implikasi kebijakan yang sangat signifikan: program pengendalian tembakau, kampanye berhenti merokok, peningkatan cukai rokok, serta regulasi ketat terhadap iklan produk tembakau merupakan intervensi kesehatan masyarakat yang terbukti efektif untuk menurunkan angka kejadian kanker paru-paru. Dari perspektif kebijakan kesehatan publik, investasi dalam program-program ini adalah investasi dengan return terbesar dalam hal pencegahan kanker.