Dalam banyak penelitian di bidang kesehatan, ekonomi, dan ilmu sosial, data yang diperoleh seringkali berbentuk kategori (categorical data). Data kategori merupakan data yang menunjukkan klasifikasi atau kelompok tertentu seperti jenis kelamin, status kesehatan, tingkat pendidikan, dan status merokok.Salah satu metode yang umum digunakan untuk menganalisis hubungan antara dua variabel kategori adalah menggunakan tabel kontingensi. Tabel ini menyajikan distribusi frekuensi gabungan antara dua variabel sehingga memudahkan peneliti dalam melihat pola hubungan yang mungkin terjadi.
Tabel kontingensi membantu melihat pola hubungan serta mengukur kekuatan asosiasi antar variabel.
Analisis data kategori merupakan metode statistik yang digunakan untuk menganalisis variabel yang nilainya berupa kategori atau klasifikasi. Variabel kategori tidak memiliki makna numerik secara langsung, namun menunjukkan keanggotaan suatu objek dalam kelompok tertentu. Menurut Agresti (2019), analisis data kategori bertujuan untuk memahami pola hubungan antara variabel kategori serta mengukur kekuatan asosiasi antar variabel tersebut.
Nominal
Variabel nominal merupakan variabel kategori yang tidak memiliki urutan.
Ordinal
Variabel ordinal merupakan variabel kategori yang memiliki urutan, tetapi jarak antar kategori tidak dapat diukur secara pasti.
Tabel kontingensi merupakan tabel ringkasan data dua variabel kategori. Tabel kontingensi sangat berguna ketika jumlah pengamatan besar perlu diringkas ke dalam bentuk tabel sederhana. Ringkasan data dilakukan dengan menghitung jumlah observasi yang diamati untuk setiap level dari variabel kategori.
| Variabel 1.1 | Variabel 1.2 | Total | |
|---|---|---|---|
| Variabel 2.1 | a | b | a+b |
| Variabel 2.2 | c | d | c+d |
| Total | a+c | b+d | n |
Joint distribution adalah peluang gabungan dari dua kejadian.
\[ P( Variabel 1.1 \cap Variabel 2.1) = \frac{a}{n} \]
Marginal distribution adalah peluang dari satu variabel tanpa memperhatikan variabel lainnya.
\[ P(Variabel 2.1) = \frac{a+b}{n} \]
Conditional probability adalah peluang suatu kejadian dengan syarat kejadian lain telah terjadi.
\[ P(Varibael 1.1 | Variabel 2.1) = \frac{a}{a+b} \]
Ukuran asosiasi digunakan untuk mengukur kekuatan hubungan antara dua variabel kategori.
Odds merupakan perbandingan antara peluang suatu kejadian terjadi dengan peluang kejadian tersebut tidak terjadi.
\[ Odds = \frac{p}{1-p} \]
Dalam tabel kontingensi:
\[ Odds = \frac{a}{b} \]
Odds Ratio digunakan untuk membandingkan odds antara dua kelompok.
\[ OR = \frac{ad}{bc} \]
Interpretasi:
Relative Risk membandingkan probabilitas kejadian antara dua kelompok.
\[ RR = \frac{\frac{a}{a+b}}{\frac{c}{c+d}} \]
Interpretasi:
Misalkan diperoleh data berikut:
| Kanker | Tidak Kanker | Total | |
|---|---|---|---|
| Merokok | 60 | 40 | 100 |
| Tidak Merokok | 20 | 80 | 100 |
Total sampel:
\[ n = 200 \]
Peluang kanker pada perokok:
\[ P(Kanker|Merokok) = \frac{60}{100} = 0.6 \]
Peluang kanker pada non-perokok:
\[ P(Kanker|Tidak Merokok) = \frac{20}{100} = 0.2 \]
Odds kanker pada perokok:
\[ Odds_{perokok} = \frac{60}{40} = 1.5 \]
Odds kanker pada non-perokok:
\[ Odds_{non} = \frac{20}{80} = 0.25 \]
\[ OR = \frac{60 \times 80}{40 \times 20} \]
\[ OR = \frac{4800}{800} \]
\[ OR = 6 \]
Interpretasi: odds terkena kanker pada perokok 6 kali lebih besar dibandingkan non-perokok.
data <- matrix(c(60,40,20,80),
nrow=2,
byrow=TRUE)
rownames(data) <- c("Merokok","Tidak Merokok")
colnames(data) <- c("Kanker","Tidak Kanker")
data## Kanker Tidak Kanker
## Merokok 60 40
## Tidak Merokok 20 80
## Kanker Tidak Kanker
## Merokok 0.3 0.2
## Tidak Merokok 0.1 0.4
Tabel proporsi menunjukkan distribusi peluang dari setiap kombinasi kategori.
Dapat dilihat bahwa proporsi kejadian kanker lebih tinggi pada kelompok merokok dibandingkan tidak merokok.
Namun, analisis ini masih bersifat deskriptif dan belum dapat menyimpulkan apakah perbedaan tersebut signifikan secara statistik.
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: data
## X-squared = 31.688, df = 1, p-value = 1.811e-08
Uji Chi-Square digunakan untuk menguji hubungan antara dua variabel kategori.
Hipotesis:
H0: Tidak terdapat hubungan antara merokok dan kanker
H1: Terdapat hubungan antara merokok dan kanker
Berdasarkan hasil uji, diperoleh p-value < 0.05 sehingga H0 ditolak.
Artinya:
Terdapat hubungan yang signifikan antara kebiasaan merokok dan kejadian
kanker. Hal ini menunjukkan bahwa variabel merokok dan kanker tidak
independen.
## $data
## Kanker Tidak Kanker Total
## Merokok 60 40 100
## Tidak Merokok 20 80 100
## Total 80 120 200
##
## $measure
## NA
## odds ratio with 95% C.I. estimate lower upper
## Merokok 1.000000 NA NA
## Tidak Merokok 5.915517 3.181806 11.37695
##
## $p.value
## NA
## two-sided midp.exact fisher.exact chi.square
## Merokok NA NA NA
## Tidak Merokok 6.163344e-09 1.063603e-08 7.764037e-09
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
Nilai Odds Ratio (OR) > 1 menunjukkan bahwa terdapat hubungan positif antara kebiasaan merokok dan kejadian kanker.
Artinya, individu yang merokok memiliki peluang (odds) lebih besar untuk terkena kanker dibandingkan individu yang tidak merokok.
Nilai odds ratio sebesar 6. Hal ini menunjukkan bahwa odds terkena kanker paru pada kelompok perokok enam kali lebih besar dibandingkan kelompok yang tidak merokok.
Hasil uji chi-square menunjukan nilai p-value kurang dari 0.05 maka dapat disimpulkan bahwa terdapat hubungan yang signifikan antara kebiasaan merokok dan kejadian kanker paru.
data1 <- matrix(c(688,650,21,59),
nrow=2,
byrow=TRUE)
rownames(data1) <- c("Smoker","Non-Smoker")
colnames(data1) <- c("Cancer","Control")
data1## Cancer Control
## Smoker 688 650
## Non-Smoker 21 59
## [1] 0.5142003
## [1] 0.2625
Proporsi kejadian kanker paru pada kelompok perokok adalah sebesar 51,4%, sedangkan pada kelompok non-perokok sebesar 26,25%. Hal ini menunjukkan bahwa proporsi individu yang mengalami kanker paru pada kelompok perokok secara signifikan lebih tinggi dibandingkan dengan kelompok non-perokok. Dengan demikian, secara deskriptif dapat diindikasikan bahwa kebiasaan merokok berkaitan dengan peningkatan kejadian kanker paru.
##
## 2-sample test for equality of proportions with continuity correction
##
## data: c(688, 21) out of c(1338, 80)
## X-squared = 18.136, df = 1, p-value = 2.057e-05
## alternative hypothesis: two.sided
## 95 percent confidence interval:
## 0.1450106 0.3583900
## sample estimates:
## prop 1 prop 2
## 0.5142003 0.2625000
Hasil uji proporsi menunjukkan bahwa nilai p-value lebih kecil dari 0,05, sehingga hipotesis nol yang menyatakan tidak adanya perbedaan proporsi ditolak. Hal ini berarti terdapat perbedaan proporsi kejadian kanker paru yang signifikan antara kelompok perokok dan non-perokok. Selain itu, interval kepercayaan 95% yang dihasilkan tidak mencakup nilai nol, sehingga semakin memperkuat bahwa perbedaan proporsi tersebut bukan terjadi secara kebetulan.
## [1] 0.2517003
Nilai Risk Difference (RD) diperoleh sebesar sekitar 0,25, yang menunjukkan bahwa terdapat peningkatan risiko absolut kejadian kanker paru sebesar 25% pada kelompok perokok dibandingkan dengan kelompok non-perokok.
## $data
## Cancer Control Total
## Smoker 688 650 1338
## Non-Smoker 21 59 80
## Total 709 709 1418
##
## $measure
## NA
## risk ratio with 95% C.I. estimate lower upper
## Smoker 1.000000 NA NA
## Non-Smoker 1.518115 1.317306 1.749536
##
## $p.value
## NA
## two-sided midp.exact fisher.exact chi.square
## Smoker NA NA NA
## Non-Smoker 9.747013e-06 1.476303e-05 1.221601e-05
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
## $data
## Cancer Control Total
## Smoker 688 650 1338
## Non-Smoker 21 59 80
## Total 709 709 1418
##
## $measure
## NA
## odds ratio with 95% C.I. estimate lower upper
## Smoker 1.000000 NA NA
## Non-Smoker 2.957353 1.803249 5.040264
##
## $p.value
## NA
## two-sided midp.exact fisher.exact chi.square
## Smoker NA NA NA
## Non-Smoker 9.747013e-06 1.476303e-05 1.221601e-05
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
Hasil perhitungan menunjukkan bahwa nilai Relative Risk (RR) lebih besar dari 1, yang mengindikasikan bahwa risiko kejadian kanker paru pada kelompok perokok lebih tinggi dibandingkan dengan kelompok non-perokok. Selain itu, nilai Odds Ratio (OR) juga lebih besar dari 1, yang menunjukkan adanya hubungan positif antara kebiasaan merokok dan kejadian kanker paru.
##
## 2-sample test for equality of proportions without continuity correction
##
## data: c(688, 21) out of c(1338, 80)
## X-squared = 19.129, df = 1, p-value = 1.222e-05
## alternative hypothesis: two.sided
## 95 percent confidence interval:
## 0.1516343 0.3517663
## sample estimates:
## prop 1 prop 2
## 0.5142003 0.2625000
Berdasarkan hasil uji dua proporsi, diperoleh nilai p-value yang lebih kecil dari 0,05, sehingga hipotesis nol yang menyatakan tidak adanya perbedaan proporsi antara kelompok perokok dan non-perokok ditolak. Hal ini menunjukkan bahwa terdapat perbedaan proporsi kejadian kanker paru yang signifikan antara kedua kelompok.
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: data1
## X-squared = 18.136, df = 1, p-value = 2.057e-05
Berdasarkan hasil uji chi-square, diperoleh nilai p-value yang lebih kecil dari 0,05, sehingga hipotesis nol yang menyatakan bahwa variabel merokok dan kejadian kanker paru saling independen ditolak. Hal ini menunjukkan bahwa terdapat hubungan yang signifikan antara kebiasaan merokok dan kejadian kanker paru.
## [1] 19.87802
Nilai statistik likelihood ratio (G²) yang diperoleh relatif besar, yang menunjukkan adanya perbedaan antara frekuensi observasi dan frekuensi harapan. Hal ini mengindikasikan bahwa terdapat hubungan antara variabel merokok dan kejadian kanker paru
##
## Fisher's Exact Test for Count Data
##
## data: data1
## p-value = 1.476e-05
## alternative hypothesis: true odds ratio is not equal to 1
## 95 percent confidence interval:
## 1.755611 5.210711
## sample estimates:
## odds ratio
## 2.971634
Berdasarkan hasil Fisher Exact Test, diperoleh nilai p-value yang lebih kecil dari 0,05, sehingga hipotesis nol yang menyatakan tidak adanya hubungan antara variabel ditolak. Hal ini menunjukkan bahwa terdapat hubungan yang signifikan antara kebiasaan merokok dan kejadian kanker paru.
Berdasarkan hasil analisis menggunakan berbagai metode inferensi, yaitu uji dua proporsi, uji chi-square, likelihood ratio test (G²), dan Fisher Exact Test, seluruhnya menunjukkan nilai p-value yang lebih kecil dari 0,05. Hal ini mengindikasikan bahwa hipotesis nol ditolak, sehingga dapat disimpulkan bahwa terdapat hubungan yang signifikan antara kebiasaan merokok dan kejadian kanker paru. Selain itu, ukuran asosiasi seperti Risk Difference (RD), Relative Risk (RR), dan Odds Ratio (OR) menunjukkan bahwa kelompok perokok memiliki risiko yang lebih tinggi untuk mengalami kanker paru dibandingkan dengan kelompok non-perokok.
data2 <- matrix(c(495,272,590,
330,265,498),
nrow=2,
byrow=TRUE)
rownames(data2) <- c("Female","Male")
colnames(data2) <- c("Democrat","Republican","Independent")
data2## Democrat Republican Independent
## Female 495 272 590
## Male 330 265 498
## Democrat Republican Independent
## Female 456.949 297.4322 602.6188
## Male 368.051 239.5678 485.3812
Frekuensi harapan menunjukkan jumlah observasi yang diharapkan pada setiap sel jika kedua variabel bersifat independen. Nilai ini digunakan sebagai pembanding terhadap frekuensi observasi untuk menilai apakah terdapat penyimpangan dari kondisi independensi.Uji Chi-Square
##
## Pearson's Chi-squared test
##
## data: data2
## X-squared = 12.569, df = 2, p-value = 0.001865
Berdasarkan hasil uji chi-square, diperoleh nilai p-value yang lebih kecil dari 0,05, sehingga hipotesis nol yang menyatakan bahwa gender dan preferensi politik saling independen ditolak. Hal ini menunjukkan bahwa terdapat hubungan yang signifikan antara gender dan preferensi politik.
## Democrat Republican Independent
## Female 1.780051 -1.474656 -0.5140388
## Male -1.983409 1.643125 0.5727640
Residual menunjukkan kategori yang paling berkontribusi terhadap perbedaan.
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: sub1
## X-squared = 11.178, df = 1, p-value = 0.0008279
Hasil uji chi-square pada partisi antara kategori Democrat dan Republican menunjukkan bahwa nilai p-value lebih kecil dari 0,05, sehingga hipotesis nol ditolak. Hal ini berarti terdapat perbedaan distribusi yang signifikan antara preferensi Democrat dan Republican berdasarkan gender
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: sub2
## X-squared = 0.98267, df = 1, p-value = 0.3215
Hasil uji chi-square pada partisi antara kelompok (Democrat + Republican) dan Independent menunjukkan bahwa nilai p-value lebih besar dari 0,05, sehingga hipotesis nol tidak ditolak. Hal ini menunjukkan bahwa tidak terdapat perbedaan yang signifikan antara kelompok (Democrat + Republican) dan Independent berdasarkan gender.
Berdasarkan hasil uji chi-square, diperoleh bahwa terdapat hubungan yang signifikan antara gender dan preferensi politik. Hasil ini menunjukkan bahwa distribusi pilihan politik berbeda antara laki-laki dan perempuan. Analisis lebih lanjut menggunakan partisi chi-square menunjukkan bahwa perbedaan yang signifikan terutama terjadi antara kategori Democrat dan Republican, sedangkan tidak terdapat perbedaan yang signifikan antara kelompok (Democrat + Republican) dan Independent.