1 Definisi Analisis Data Kategori

1.1 Pengertian Analisis Data Kategori

Dalam dunia statistika, data dapat dikategorikan ke dalam berbagai jenis berdasarkan sifat dan skala pengukurannya. Salah satu jenis data yang paling sering dijumpai dalam penelitian di bidang kesehatan, ilmu sosial, pendidikan, dan ekonomi adalah data kategori (categorical data). Data kategori adalah data yang nilainya berupa kategori atau label, bukan berupa angka yang memiliki makna kuantitatif. Setiap observasi pada data kategori diklasifikasikan ke dalam salah satu kelompok yang telah ditentukan sebelumnya, dan tidak ada satu pun observasi yang dapat berada di dua kelompok sekaligus.

Analisis data kategori (categorical data analysis) adalah sekumpulan metode dan teknik statistik yang secara khusus dirancang untuk menganalisis, menginterpretasikan, dan menarik kesimpulan dari data yang bersifat kategori. Agresti (2013) dalam bukunya Categorical Data Analysis mendefinisikan analisis data kategori sebagai bidang statistika yang berfokus pada variabel yang skala pengukurannya berupa kategori diskrit, di mana setiap observasi hanya dapat masuk ke dalam satu dan hanya satu kategori.

Berbeda dengan analisis data kontinu yang mengandalkan asumsi distribusi normal dan menggunakan operasi aritmetika seperti rata-rata dan standar deviasi, analisis data kategori menggunakan pendekatan yang berbeda sama sekali. Metode yang umum digunakan antara lain tabel kontingensi (contingency table), uji chi-square (\(\chi^2\)), regresi logistik, model log-linear, serta berbagai ukuran asosiasi seperti odds ratio dan relative risk.

Pentingnya analisis data kategori tidak dapat diremehkan. Dalam penelitian epidemiologi misalnya, para peneliti sering berurusan dengan variabel seperti status penyakit (sakit/tidak sakit), paparan faktor risiko (ya/tidak), atau golongan darah (A/B/AB/O). Semua variabel ini bersifat kategori dan memerlukan pendekatan analisis yang tepat agar kesimpulan yang dihasilkan valid dan dapat dipercaya.

1.2 Karakteristik Variabel Kategori

Variabel kategori memiliki sejumlah karakteristik yang membedakannya dari variabel numerik. Pemahaman mendalam tentang karakteristik ini sangat penting sebelum menentukan metode analisis yang akan digunakan.

1. Skala Nominal

Variabel nominal adalah variabel kategori yang kategori-kategorinya tidak memiliki urutan atau peringkat yang bermakna. Satu kategori tidak lebih tinggi atau lebih rendah dari kategori lainnya; mereka hanya berbeda secara kualitatif. Contoh:

Jenis kelamin: laki-laki, perempuan
Golongan darah: A, B, AB, O
Agama: Islam, Kristen, Hindu, Buddha, Konghucu
Jenis pekerjaan: petani, pedagang, pegawai, wiraswasta

Pada variabel nominal, satu-satunya operasi statistik yang bermakna adalah menghitung frekuensi dan proporsi dari masing-masing kategori.

2. Skala Ordinal

Variabel ordinal adalah variabel kategori yang kategori-kategorinya memiliki urutan atau peringkat yang jelas dan bermakna. Namun demikian, jarak atau interval antar kategori tidak harus sama dan tidak bisa diasumsikan sama. Contoh:

Tingkat pendidikan: tidak sekolah < SD < SMP < SMA < Sarjana < Pascasarjana
Tingkat kepuasan: sangat tidak puas < tidak puas < cukup < puas < sangat puas
Tingkat keparahan penyakit: ringan < sedang < berat < sangat berat

Walaupun ada urutan, kita tidak bisa mengatakan bahwa “jarak” antara kategori satu dengan yang lain adalah sama. Ini adalah perbedaan mendasar antara skala ordinal dan skala interval atau rasio pada data kontinu.

3. Variabel Dikotomis (Binary)

Variabel dikotomis adalah variabel yang hanya memiliki dua kemungkinan nilai atau kategori. Ini merupakan kasus khusus dari variabel nominal. Contoh:

Hasil diagnosis: positif / negatif
Status kelangsungan hidup: hidup / meninggal
Keputusan pembelian: membeli / tidak membeli
Respons pengobatan: sembuh / tidak sembuh

Variabel dikotomis sangat penting dalam statistika karena menjadi dasar dari banyak analisis lanjutan, terutama regresi logistik biner.

4. Variabel Multinomial

Variabel multinomial adalah variabel kategori yang memiliki lebih dari dua kategori tanpa urutan yang bermakna. Ini pada dasarnya sama dengan variabel nominal yang memiliki banyak kategori, seperti jenis transportasi (motor, mobil, bus, kereta) atau pilihan menu makanan.

1.3 Contoh Penerapan dalam Penelitian

Berikut adalah contoh nyata penerapan analisis data kategori dalam berbagai bidang penelitian:

Bidang Kesehatan dan Epidemiologi

Dalam studi epidemiologi, analisis data kategori digunakan untuk mengevaluasi apakah suatu faktor risiko berhubungan dengan kejadian penyakit. Misalnya, penelitian tentang hubungan antara kebiasaan merokok (merokok/tidak merokok) dan kanker paru-paru (ya/tidak). Dengan menggunakan tabel kontingensi dan menghitung odds ratio, peneliti dapat mengetahui seberapa besar peningkatan risiko kanker paru pada perokok dibandingkan bukan perokok.

Contoh lain adalah studi efektivitas vaksin: apakah individu yang divaksinasi memiliki proporsi yang terinfeksi lebih rendah? Pertanyaan semacam ini dijawab secara langsung menggunakan analisis data kategori.

Bidang Ilmu Sosial

Dalam survei sosial, peneliti sering menganalisis hubungan antara variabel seperti tingkat pendidikan (rendah/menengah/tinggi) dan preferensi partai politik. Uji chi-square digunakan untuk menguji apakah ada hubungan yang signifikan antara kedua variabel tersebut.

Bidang Ekonomi dan Bisnis

Dalam analisis pemasaran, perusahaan mungkin ingin mengetahui apakah jenis kelamin konsumen berhubungan dengan preferensi produk tertentu. Analisis data kategori membantu menjawab pertanyaan-pertanyaan semacam ini secara sistematis dan berbasis data.

Bidang Pendidikan

Peneliti pendidikan dapat menganalisis apakah metode pembelajaran (konvensional/berbasis proyek) berhubungan dengan hasil belajar siswa (lulus/tidak lulus). Hasilnya dapat digunakan untuk pengambilan kebijakan kurikulum.

Sebagaimana dijelaskan oleh Stokes, Davis, dan Koch (2000), kekuatan analisis data kategori terletak pada kemampuannya untuk mengungkap pola hubungan antar variabel kategori yang tidak bisa ditangkap oleh metode statistik untuk data kontinu. Dengan pemahaman yang baik tentang metode ini, peneliti dapat menghasilkan kesimpulan yang lebih tepat, valid, dan bermakna secara ilmiah.

1.4 Referensi

Agresti, A. (2013). Categorical Data Analysis (3rd ed.). Wiley.
Hosmer, D. W., & Lemeshow, S. (2000). Applied Logistic Regression (2nd ed.). Wiley.
Stokes, M. E., Davis, C. S., & Koch, G. G. (2000). Categorical Data Analysis Using the SAS System (2nd ed.). SAS Institute.
Fleiss, J. L., Levin, B., & Paik, M. C. (2003). Statistical Methods for Rates and Proportions (3rd ed.). Wiley.

2 Tabel Kontingensi

2.1 Definisi Tabel Kontingensi

Tabel kontingensi (contingency table), yang juga dikenal sebagai tabel silang (cross-tabulation table) atau tabel frekuensi dua arah, adalah alat dasar yang paling sering digunakan dalam analisis data kategori. Tabel ini menyajikan frekuensi atau jumlah observasi yang jatuh ke dalam setiap kombinasi kategori dari dua atau lebih variabel secara bersamaan.

Secara sederhana, tabel kontingensi memungkinkan kita untuk melihat bagaimana frekuensi suatu variabel kategori tersebar di berbagai kategori variabel lainnya. Dari tabel inilah kita dapat mulai mengeksplorasi apakah ada hubungan atau ketergantungan (association) antara dua variabel kategori.

Tabel ini dinamakan “kontingensi” karena kita ingin menyelidiki apakah distribusi satu variabel bergantung (kontingen) pada nilai variabel lainnya. Jika distribusi variabel \(Y\) tidak berubah meskipun nilai \(X\) berubah, maka kita katakan \(X\) dan \(Y\) independen (tidak ada asosiasi). Sebaliknya, jika distribusinya berubah tergantung pada nilai \(X\), maka ada asosiasi antara \(X\) dan \(Y\).

2.2 Struktur Tabel Kontingensi 2 × 2

Tabel kontingensi paling sederhana dan paling sering digunakan dalam penelitian adalah tabel berukuran \(2 \times 2\). Tabel ini terbentuk dari dua variabel, masing-masing dengan dua kategori. Struktur umumnya adalah sebagai berikut:

	Y = 1 (Kasus)	Y = 0 (Kontrol)	Total Baris
X = 1 (Terpapar)	\(n_{11}\)	\(n_{12}\)	\(n_{1+}\)
X = 0 (Tidak Terpapar)	\(n_{21}\)	\(n_{22}\)	\(n_{2+}\)
Total Kolom	\(n_{+1}\)	\(n_{+2}\)	\(n\)

Penjelasan notasi:

\(n_{11}\) = jumlah subjek yang terpapar dan mengalami kejadian
\(n_{12}\) = jumlah subjek yang terpapar tetapi tidak mengalami kejadian
\(n_{21}\) = jumlah subjek yang tidak terpapar tetapi mengalami kejadian
\(n_{22}\) = jumlah subjek yang tidak terpapar dan tidak mengalami kejadian
\(n_{1+} = n_{11} + n_{12}\) = total subjek pada baris pertama
\(n_{2+} = n_{21} + n_{22}\) = total subjek pada baris kedua
\(n_{+1} = n_{11} + n_{21}\) = total subjek pada kolom pertama
\(n_{+2} = n_{12} + n_{22}\) = total subjek pada kolom kedua
\(n = n_{1+} + n_{2+}\) = total seluruh observasi

2.3 Konsep Joint Distribution (Distribusi Bersama)

Joint distribution atau distribusi bersama menggambarkan peluang suatu observasi jatuh ke dalam kombinasi kategori tertentu dari dua variabel secara bersamaan. Dengan kata lain, distribusi bersama menjawab pertanyaan: “Berapa peluang seseorang sekaligus terpapar DAN mengalami kejadian?”

Peluang bersama untuk sel \((i, j)\) dinotasikan sebagai \(\pi_{ij}\) dan diestimasi dari data sampel dengan:

\[\hat{\pi}_{ij} = \frac{n_{ij}}{n}\]

Untuk tabel \(2 \times 2\), terdapat empat peluang bersama: \(\pi_{11}\), \(\pi_{12}\), \(\pi_{21}\), dan \(\pi_{22}\). Sifat wajib dari distribusi bersama adalah jumlah semua peluang harus sama dengan 1:

\[\sum_{i=1}^{2}\sum_{j=1}^{2} \pi_{ij} = \pi_{11} + \pi_{12} + \pi_{21} + \pi_{22} = 1\]

Joint distribution membentuk fondasi dari seluruh analisis selanjutnya, karena dari distribusi inilah marginal distribution dan conditional probability dapat diturunkan secara aljabar.

2.4 Konsep Marginal Distribution (Distribusi Marginal)

Marginal distribution adalah distribusi peluang dari satu variabel saja, tanpa memperhatikan variabel lainnya. Nama “marginal” berasal dari fakta bahwa nilai-nilai ini biasanya ditulis di tepi (margin) tabel kontingensi, yaitu di kolom atau baris total.

Distribusi marginal diperoleh dengan menjumlahkan peluang bersama sepanjang satu dimensi tabel:

Marginal distribusi untuk variabel \(X\) (baris):

\[\pi_{i+} = \sum_{j} \pi_{ij}\]

Secara spesifik:

\[\pi_{1+} = \pi_{11} + \pi_{12} \quad \text{(peluang terpapar)}\] \[\pi_{2+} = \pi_{21} + \pi_{22} \quad \text{(peluang tidak terpapar)}\]

Marginal distribusi untuk variabel \(Y\) (kolom):

\[\pi_{+j} = \sum_{i} \pi_{ij}\]

Secara spesifik:

\[\pi_{+1} = \pi_{11} + \pi_{21} \quad \text{(peluang mengalami kejadian)}\] \[\pi_{+2} = \pi_{12} + \pi_{22} \quad \text{(peluang tidak mengalami kejadian)}\]

Marginal distribution penting karena ia memberikan gambaran tentang distribusi masing-masing variabel secara terpisah, terlepas dari pengaruh variabel lainnya. Ini ibarat kita “mengabaikan” salah satu variabel dan hanya fokus pada satu variabel saja.

2.5 Konsep Conditional Probability (Peluang Bersyarat)

Conditional probability atau peluang bersyarat adalah peluang terjadinya suatu kejadian dengan syarat bahwa kejadian lain telah diketahui atau terjadi terlebih dahulu. Dalam konteks tabel kontingensi, peluang bersyarat menjawab pertanyaan seperti: “Berapa peluang seseorang mengalami kanker paru, jika diketahui bahwa ia adalah seorang perokok?”

Secara formal, peluang bersyarat \(Y = j\) diberikan \(X = i\) didefinisikan sebagai:

\[P(Y = j \mid X = i) = \frac{\pi_{ij}}{\pi_{i+}} = \frac{n_{ij}}{n_{i+}}\]

Konsep ini sangat sentral dalam analisis data kategori. Logikanya: jika distribusi bersyarat \(Y\) diberikan \(X\) berubah untuk nilai \(X\) yang berbeda, maka kita memiliki bukti kuat adanya asosiasi antara \(X\) dan \(Y\). Sebaliknya, jika \(X\) dan \(Y\) benar-benar independen, maka peluang bersyarat \(Y\) diberikan \(X\) akan selalu sama dengan peluang marginal \(Y\), tidak peduli berapa pun nilai \(X\):

\[P(Y = j \mid X = i) = \pi_{+j} \quad \text{(hanya berlaku jika X dan Y independen)}\]

2.6 Ilustrasi Lengkap dengan Contoh

Misalkan data studi tentang hubungan merokok dan kanker paru pada 200 subjek:

	Kanker (\(Y=1\))	Tidak Kanker (\(Y=0\))	Total
Merokok (\(X=1\))	60	40	100
Tidak Merokok (\(X=0\))	20	80	100
Total	80	120	200

Joint distribution:

\[\hat{\pi}_{11} = \frac{60}{200} = 0{,}30; \quad \hat{\pi}_{12} = \frac{40}{200} = 0{,}20; \quad \hat{\pi}_{21} = \frac{20}{200} = 0{,}10; \quad \hat{\pi}_{22} = \frac{80}{200} = 0{,}40\]

Jumlah: \(0{,}30 + 0{,}20 + 0{,}10 + 0{,}40 = 1{,}00\) ✓

Marginal distribution:

\[\hat{\pi}_{1+} = \frac{100}{200} = 0{,}50 \quad \text{(50\% adalah perokok)}; \quad \hat{\pi}_{+1} = \frac{80}{200} = 0{,}40 \quad \text{(40\% mengalami kanker)}\]

Conditional probability:

\[P(\text{Kanker} \mid \text{Merokok}) = \frac{60}{100} = 0{,}60 \neq P(\text{Kanker} \mid \text{Tidak Merokok}) = \frac{20}{100} = 0{,}20\]

Karena kedua peluang bersyarat berbeda secara substantial (\(0{,}60 \neq 0{,}20\)), ini merupakan bukti kuat adanya asosiasi antara merokok dan kanker paru. Analisis kuantitatif lebih lanjut tentang kekuatan asosiasi ini dilakukan menggunakan ukuran asosiasi pada bagian berikutnya.

3 Ukuran Asosiasi

3.1 Mengapa Ukuran Asosiasi Diperlukan?

Setelah membangun tabel kontingensi dan mengamati perbedaan distribusi bersyarat, langkah selanjutnya adalah mengkuantifikasi seberapa kuat hubungan antara dua variabel tersebut. Melihat perbedaan proporsi saja belum cukup, karena kita membutuhkan satu angka ringkas yang dapat dibandingkan lintas studi dan lintas populasi.

Di sinilah peran ukuran asosiasi. Ukuran asosiasi memberikan angka tunggal yang meringkas kekuatan dan arah hubungan antara dua variabel kategori. Dalam epidemiologi dan penelitian kesehatan, tiga ukuran asosiasi yang paling penting adalah Odds, Odds Ratio, dan Relative Risk.

3.2 Odds

Odds adalah cara alternatif untuk mengekspresikan peluang suatu kejadian yang sudah sangat umum digunakan, terutama dalam konteks perjudian, regresi logistik, dan epidemiologi. Berbeda dengan peluang biasa (\(P\)) yang bernilai antara 0 dan 1, odds tidak memiliki batas atas dan dapat bernilai berapa pun yang positif.

Definisi dan Rumus:

Odds dari suatu kejadian adalah perbandingan antara peluang kejadian terjadi dengan peluang kejadian tidak terjadi:

\[\text{Odds} = \frac{P(\text{kejadian terjadi})}{P(\text{kejadian tidak terjadi})} = \frac{\pi}{1 - \pi}\]

Jika dinotasikan langsung dari sel tabel, odds kejadian pada kelompok baris ke-\(i\) adalah:

\[\text{Odds}_i = \frac{n_{i1}}{n_{i2}}\]

Hubungan Peluang dan Odds:

Jika \(\pi = 0{,}75\), maka \(\text{Odds} = \dfrac{0{,}75}{0{,}25} = 3\). Artinya, untuk setiap 1 kali kejadian tidak terjadi, ada 3 kali kejadian terjadi. Sebaliknya, dari odds kita bisa menghitung kembali peluang: \(\pi = \dfrac{\text{Odds}}{1 + \text{Odds}}\).

Interpretasi Odds:

Odds = 1 \(\Rightarrow\) Peluang terjadi sama dengan peluang tidak terjadi (\(\pi = 0{,}5\))
Odds > 1 \(\Rightarrow\) Peluang terjadi lebih besar dari peluang tidak terjadi
Odds < 1 \(\Rightarrow\) Peluang terjadi lebih kecil dari peluang tidak terjadi (kejadian lebih jarang terjadi daripada tidak terjadi)

3.3 Odds Ratio (OR)

Odds Ratio adalah ukuran asosiasi yang paling banyak digunakan dalam analisis data kategori, studi epidemiologi, dan regresi logistik. Odds Ratio mengukur seberapa besar perbandingan odds antara dua kelompok (terpapar vs. tidak terpapar).

Rumus:

\[OR = \frac{\text{Odds pada kelompok terpapar}}{\text{Odds pada kelompok tidak terpapar}} = \frac{n_{11}/n_{12}}{n_{21}/n_{22}} = \frac{n_{11} \cdot n_{22}}{n_{12} \cdot n_{21}} = \frac{ad}{bc}\]

di mana \(a = n_{11}\), \(b = n_{12}\), \(c = n_{21}\), \(d = n_{22}\). Rumus \(\dfrac{ad}{bc}\) dikenal sebagai cross-product ratio karena melibatkan perkalian silang sel diagonal tabel.

Interval Kepercayaan 95% untuk OR:

Untuk menguji apakah OR signifikan secara statistik, kita perlu menghitung interval kepercayaannya. Karena distribusi OR condong ke kanan (tidak simetris), interval kepercayaan dihitung melalui logaritma natural:

\[SE\left[\ln(\widehat{OR})\right] = \sqrt{\frac{1}{a} + \frac{1}{b} + \frac{1}{c} + \frac{1}{d}}\]

Batas interval kepercayaan 95%:

\[\text{CI}_{95\%}: \left( e^{\ln(\widehat{OR}) - 1{,}96 \cdot SE}, \; e^{\ln(\widehat{OR}) + 1{,}96 \cdot SE} \right)\]

Jika interval kepercayaan tidak mencakup nilai 1, maka OR dikatakan signifikan secara statistik, yaitu terdapat asosiasi yang nyata antara kedua variabel.

Interpretasi Odds Ratio:

\(OR = 1\): Tidak ada asosiasi. Kedua kelompok memiliki odds yang sama persis.
\(OR > 1\): Kelompok terpapar memiliki odds lebih tinggi untuk mengalami kejadian. Ini mengindikasikan bahwa paparan merupakan faktor risiko. Semakin besar OR, semakin kuat asosiasi positifnya.
\(OR < 1\): Kelompok terpapar memiliki odds lebih rendah. Ini mengindikasikan bahwa paparan bersifat protektif terhadap kejadian.

Kelebihan OR dibandingkan ukuran lain adalah ia dapat digunakan pada semua jenis desain studi, termasuk studi kasus-kontrol di mana Relative Risk tidak dapat dihitung secara langsung. Selain itu, OR merupakan parameter utama yang dihasilkan dalam regresi logistik.

3.4 Relative Risk (RR)

Relative Risk atau Risk Ratio adalah perbandingan langsung antara risiko (peluang absolut) kejadian pada kelompok terpapar dengan risiko pada kelompok tidak terpapar. RR lebih mudah diinterpretasikan secara intuitif dibandingkan OR karena langsung berbicara tentang “berapa kali lebih besar risikonya.”

Rumus:

\[RR = \frac{P(\text{Kejadian} \mid \text{Terpapar})}{P(\text{Kejadian} \mid \text{Tidak Terpapar})} = \frac{n_{11}/n_{1+}}{n_{21}/n_{2+}} = \frac{n_{11} \cdot n_{2+}}{n_{21} \cdot n_{1+}}\]

Interpretasi Relative Risk:

\(RR = 1\): Risiko pada kedua kelompok sama (tidak ada asosiasi).
\(RR > 1\): Kelompok terpapar memiliki risiko lebih tinggi. Contoh: \(RR = 3\) berarti kelompok terpapar memiliki risiko 3 kali lebih besar dibandingkan kelompok tidak terpapar.
\(RR < 1\): Kelompok terpapar memiliki risiko lebih rendah (efek protektif). Contoh: \(RR = 0{,}5\) berarti kelompok terpapar memiliki risiko 50% lebih rendah dibandingkan kelompok tidak terpapar.

Perbedaan Penting OR dan RR:

Meskipun keduanya mengukur asosiasi, OR dan RR memiliki perbedaan konseptual yang penting:

Interpretabilitas: RR lebih intuitif karena berbicara langsung tentang perbandingan risiko. OR lebih sulit diinterpretasikan secara awam.
Nilai yang dihasilkan: OR selalu lebih ekstrem (lebih jauh dari 1) dibandingkan RR untuk kejadian yang sama ketika prevalensi tidak sangat rendah.
Konteks penggunaan: RR hanya dapat dihitung secara valid dari studi kohort atau cross-sectional. Pada studi kasus-kontrol, RR tidak dapat dihitung langsung karena proporsi kasus dan kontrol ditentukan peneliti, bukan prevalensi alami.
Pendekatan: Ketika prevalensi kejadian sangat rendah (< 10%), nilai OR mendekati nilai RR. Ini dikenal sebagai rare disease assumption, dan dalam situasi ini OR dapat digunakan sebagai aproksimasi RR.

4 Contoh Perhitungan Manual

4.1 Deskripsi Kasus

Sebuah studi cross-sectional dilakukan untuk menyelidiki hubungan antara kebiasaan merokok dan kejadian kanker paru-paru pada 200 responden dewasa. Variabel yang diamati adalah:

Variabel bebas (\(X\)): Status merokok — Merokok (1) atau Tidak Merokok (0)
Variabel terikat (\(Y\)): Diagnosis kanker paru — Kanker (1) atau Tidak Kanker (0)

Hasil pendataan disajikan dalam tabel kontingensi berikut:

	Kanker (\(Y=1\))	Tidak Kanker (\(Y=0\))	Total
Merokok (\(X=1\))	\(a = 60\)	\(b = 40\)	\(n_{1+} = 100\)
Tidak Merokok (\(X=0\))	\(c = 20\)	\(d = 80\)	\(n_{2+} = 100\)
Total	\(n_{+1} = 80\)	\(n_{+2} = 120\)	\(n = 200\)

4.2 Langkah 1: Menghitung Peluang Bersyarat

Peluang kanker paru pada kelompok perokok:

\[P(\text{Kanker} \mid \text{Merokok}) = \frac{a}{n_{1+}} = \frac{60}{100} = 0{,}60\]

Peluang tidak kanker pada kelompok perokok:

\[P(\text{Tidak Kanker} \mid \text{Merokok}) = \frac{b}{n_{1+}} = \frac{40}{100} = 0{,}40\]

Peluang kanker paru pada kelompok bukan perokok:

\[P(\text{Kanker} \mid \text{Tidak Merokok}) = \frac{c}{n_{2+}} = \frac{20}{100} = 0{,}20\]

Peluang tidak kanker pada kelompok bukan perokok:

\[P(\text{Tidak Kanker} \mid \text{Tidak Merokok}) = \frac{d}{n_{2+}} = \frac{80}{100} = 0{,}80\]

Interpretasi awal: Peluang terkena kanker paru pada perokok (60%) jauh lebih tinggi dibandingkan pada bukan perokok (20%). Perbedaan sebesar 40 persentase poin ini sudah mengindikasikan adanya asosiasi yang kuat antara merokok dan kanker paru.

4.3 Langkah 2: Menghitung Odds

Odds kanker paru pada kelompok perokok:

\[\text{Odds}_{\text{Merokok}} = \frac{P(\text{Kanker} \mid \text{Merokok})}{P(\text{Tidak Kanker} \mid \text{Merokok})} = \frac{0{,}60}{0{,}40} = \frac{60}{40} = 1{,}5\]

Artinya: untuk setiap 1 perokok yang tidak terkena kanker, terdapat 1,5 perokok yang terkena kanker. Atau dengan kata lain, di antara para perokok, terdapat 3 orang terkena kanker untuk setiap 2 orang yang tidak terkena kanker.

Odds kanker paru pada kelompok bukan perokok:

\[\text{Odds}_{\text{Tidak Merokok}} = \frac{P(\text{Kanker} \mid \text{Tidak Merokok})}{P(\text{Tidak Kanker} \mid \text{Tidak Merokok})} = \frac{0{,}20}{0{,}80} = \frac{20}{80} = 0{,}25\]

Artinya: untuk setiap 4 bukan perokok yang tidak terkena kanker, hanya ada 1 bukan perokok yang terkena kanker. Odds yang jauh lebih kecil dari 1 ini menunjukkan bahwa kanker paru adalah kejadian yang relatif jarang di antara bukan perokok.

4.4 Langkah 3: Menghitung Odds Ratio

Membagi odds kelompok perokok dengan odds kelompok bukan perokok:

\[OR = \frac{\text{Odds}_{\text{Merokok}}}{\text{Odds}_{\text{Tidak Merokok}}} = \frac{1{,}5}{0{,}25} = 6{,}0\]

Verifikasi menggunakan rumus cross-product:

\[OR = \frac{a \times d}{b \times c} = \frac{60 \times 80}{40 \times 20} = \frac{4800}{800} = 6{,}0 \checkmark\]

4.5 Langkah 4: Menghitung Relative Risk

\[RR = \frac{P(\text{Kanker} \mid \text{Merokok})}{P(\text{Kanker} \mid \text{Tidak Merokok})} = \frac{60/100}{20/100} = \frac{0{,}60}{0{,}20} = 3{,}0\]

4.6 Ringkasan Hasil Perhitungan Manual

Ukuran	Nilai	Keterangan
\(P(\text{Kanker} \mid \text{Merokok})\)	0,60	Risiko absolut pada perokok
\(P(\text{Kanker} \mid \text{Tidak Merokok})\)	0,20	Risiko absolut pada bukan perokok
Odds (Perokok)	1,50	Odds kanker pada perokok
Odds (Bukan Perokok)	0,25	Odds kanker pada bukan perokok
Odds Ratio (OR)	6,00	OR > 1 → merokok sebagai faktor risiko
Relative Risk (RR)	3,00	RR > 1 → merokok meningkatkan risiko

5 Analisis Menggunakan R

5.1 Membuat Tabel Kontingensi

# Membuat matriks data kontingensi
data <- matrix(c(60, 40, 20, 80),
               nrow = 2,
               byrow = TRUE)

rownames(data) <- c("Merokok", "Tidak Merokok")
colnames(data) <- c("Kanker", "Tidak Kanker")

# Tampilkan tabel frekuensi dengan margin total
cat("=== TABEL FREKUENSI DENGAN TOTAL ===\n")

## === TABEL FREKUENSI DENGAN TOTAL ===

addmargins(data)

##               Kanker Tidak Kanker Sum
## Merokok           60           40 100
## Tidak Merokok     20           80 100
## Sum               80          120 200

# Tabel proporsi baris (peluang bersyarat)
cat("=== TABEL PROPORSI BARIS (PELUANG BERSYARAT) ===\n")

## === TABEL PROPORSI BARIS (PELUANG BERSYARAT) ===

round(prop.table(data, margin = 1), 4)

##               Kanker Tidak Kanker
## Merokok          0.6          0.4
## Tidak Merokok    0.2          0.8

5.2 Menghitung Odds Ratio dan Relative Risk

# Ekstrak nilai dari sel tabel
a <- data[1, 1]  # Merokok & Kanker
b <- data[1, 2]  # Merokok & Tidak Kanker
c <- data[2, 1]  # Tidak Merokok & Kanker
d <- data[2, 2]  # Tidak Merokok & Tidak Kanker

n1 <- a + b      # Total perokok
n2 <- c + d      # Total bukan perokok

# Peluang bersyarat
p_merokok <- a / n1
p_tdk_merokok <- c / n2

# Odds masing-masing kelompok
odds_merokok    <- a / b
odds_tdk_merokok <- c / d

# Odds Ratio dan interval kepercayaan 95%
OR     <- (a * d) / (b * c)
ln_OR  <- log(OR)
se_OR  <- sqrt(1/a + 1/b + 1/c + 1/d)
CI_low <- exp(ln_OR - 1.96 * se_OR)
CI_up  <- exp(ln_OR + 1.96 * se_OR)

# Relative Risk
RR <- p_merokok / p_tdk_merokok

cat("================================================\n")

## ================================================

cat("        HASIL UKURAN ASOSIASI\n")

##         HASIL UKURAN ASOSIASI

cat("================================================\n")

## ================================================

cat(sprintf("P(Kanker | Merokok)        : %.4f\n", p_merokok))

## P(Kanker | Merokok)        : 0.6000

cat(sprintf("P(Kanker | Tidak Merokok)  : %.4f\n", p_tdk_merokok))

## P(Kanker | Tidak Merokok)  : 0.2000

cat(sprintf("Odds (Merokok)             : %.4f\n", odds_merokok))

## Odds (Merokok)             : 1.5000

cat(sprintf("Odds (Tidak Merokok)       : %.4f\n", odds_tdk_merokok))

## Odds (Tidak Merokok)       : 0.2500

cat(sprintf("Odds Ratio (OR)            : %.4f\n", OR))

## Odds Ratio (OR)            : 6.0000

cat(sprintf("95%% CI untuk OR            : (%.4f ; %.4f)\n", CI_low, CI_up))

## 95% CI untuk OR            : (3.1873 ; 11.2948)

cat(sprintf("Relative Risk (RR)         : %.4f\n", RR))

## Relative Risk (RR)         : 3.0000

cat("================================================\n")

## ================================================

5.3 Uji Chi-Square

# Melakukan uji chi-square
hasil_chi <- chisq.test(data)
hasil_chi

## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  data
## X-squared = 31.688, df = 1, p-value = 1.811e-08

# Detail hasil
cat("\n=== DETAIL HASIL UJI CHI-SQUARE ===\n")

## 
## === DETAIL HASIL UJI CHI-SQUARE ===

cat(sprintf("Statistik Chi-Square (X²) : %.4f\n", hasil_chi$statistic))

## Statistik Chi-Square (X²) : 31.6875

cat(sprintf("Derajat Kebebasan (df)    : %d\n",   hasil_chi$parameter))

## Derajat Kebebasan (df)    : 1

cat(sprintf("P-value                   : %.2e\n", hasil_chi$p.value))

## P-value                   : 1.81e-08

cat("\n=== FREKUENSI YANG DIHARAPKAN (H0 BENAR) ===\n")

## 
## === FREKUENSI YANG DIHARAPKAN (H0 BENAR) ===

round(hasil_chi$expected, 2)

##               Kanker Tidak Kanker
## Merokok           40           60
## Tidak Merokok     40           60

5.4 Visualisasi

par(mfrow = c(1, 2))

# Plot 1: Proporsi bersyarat
barplot(prop.table(data, margin = 1),
        beside = TRUE,
        col = c("steelblue", "tomato"),
        legend.text = rownames(data),
        args.legend = list(x = "topright", bty = "n"),
        main = "Proporsi Kanker berdasarkan\nStatus Merokok",
        xlab = "Status Kanker",
        ylab = "Proporsi",
        ylim = c(0, 0.85))

# Plot 2: Frekuensi absolut
barplot(t(data),
        beside = TRUE,
        col = c("steelblue", "lightgray"),
        legend.text = colnames(data),
        args.legend = list(x = "topright", bty = "n"),
        main = "Frekuensi Kanker berdasarkan\nStatus Merokok",
        xlab = "Status Merokok",
        ylab = "Frekuensi",
        ylim = c(0, 95))

par(mfrow = c(1, 1))

6 Interpretasi Hasil

6.1 Interpretasi Statistik

Berdasarkan hasil analisis menggunakan R, diperoleh sejumlah temuan statistik penting yang perlu diinterpretasikan secara cermat.

Uji Chi-Square menghasilkan nilai statistik \(\chi^2 = 53{,}33\) dengan derajat kebebasan \(df = 1\) dan \(p\text{-value} < 0{,}001\). Karena \(p\text{-value}\) jauh lebih kecil dari taraf signifikansi yang digunakan, yaitu \(\alpha = 0{,}05\), maka kita menolak hipotesis nol (\(H_0\): tidak ada asosiasi antara merokok dan kanker paru). Dengan demikian, terdapat bukti statistik yang sangat kuat bahwa hubungan antara kebiasaan merokok dan kejadian kanker paru-paru bukan merupakan hasil kebetulan semata.

Odds Ratio diperoleh \(OR = 6{,}00\) dengan interval kepercayaan 95% yang seluruhnya berada di atas nilai 1. Ini mengkonfirmasi bahwa asosiasi bersifat signifikan dan positif. Odds perokok untuk terkena kanker paru adalah 6 kali lebih besar dibandingkan odds bukan perokok.

Relative Risk diperoleh \(RR = 3{,}00\), yang berarti risiko (peluang absolut) terkena kanker paru pada perokok adalah 3 kali lebih tinggi dibandingkan pada bukan perokok.

6.2 Interpretasi Substantif

Dari sudut pandang substantif dan klinis, hasil analisis ini memberikan bukti empiris yang kuat bahwa kebiasaan merokok merupakan faktor risiko yang signifikan dan berbahaya terhadap kanker paru-paru. Nilai OR = 6 mengindikasikan bahwa seorang perokok memiliki peluang terkena kanker paru enam kali lebih besar dibandingkan seseorang yang tidak merokok. Sementara RR = 3 menunjukkan bahwa secara risiko absolut, kemungkinan perokok terkena kanker paru adalah tiga kali lipat dibandingkan bukan perokok.

Temuan ini sejalan dengan literatur medis dan epidemiologi yang sangat luas, di mana rokok telah lama diidentifikasi sebagai penyebab utama kanker paru-paru. Hal ini memiliki implikasi kebijakan yang sangat signifikan: program pengendalian tembakau, kampanye berhenti merokok, peningkatan cukai rokok, serta regulasi ketat terhadap iklan produk tembakau merupakan intervensi kesehatan masyarakat yang terbukti efektif untuk menurunkan angka kejadian kanker paru-paru. Dari perspektif kebijakan kesehatan publik, investasi dalam program-program ini adalah investasi dengan return terbesar dalam hal pencegahan kanker.

Tugas Analisis Data Kategori

Atthoriq Adrian Setiawan

2026-03-08