Pendahuluan

Latar Belakang

Dalam banyak penelitian di bidang kesehatan, ekonomi, dan ilmu sosial, data yang diperoleh seringkali berbentuk kategori (categorical data). Data kategori merupakan data yang menunjukkan klasifikasi atau kelompok tertentu seperti jenis kelamin, status kesehatan, tingkat pendidikan, dan status merokok.Salah satu metode yang umum digunakan untuk menganalisis hubungan antara dua variabel kategori adalah menggunakan tabel kontingensi. Tabel ini menyajikan distribusi frekuensi gabungan antara dua variabel sehingga memudahkan peneliti dalam melihat pola hubungan yang mungkin terjadi.

Tabel kontingensi membantu melihat pola hubungan serta mengukur kekuatan asosiasi antar variabel.

1. Definisi Analisis Data Kategori

Analisis data kategori merupakan metode statistik yang digunakan untuk menganalisis variabel yang nilainya berupa kategori atau klasifikasi. Variabel kategori tidak memiliki makna numerik secara langsung, namun menunjukkan keanggotaan suatu objek dalam kelompok tertentu. Menurut Agresti (2019), analisis data kategori bertujuan untuk memahami pola hubungan antara variabel kategori serta mengukur kekuatan asosiasi antar variabel tersebut.

Jenis Variabel

Nominal

Variabel nominal merupakan variabel kategori yang tidak memiliki urutan.
Ordinal

Variabel ordinal merupakan variabel kategori yang memiliki urutan, tetapi jarak antar kategori tidak dapat diukur secara pasti.

2. Tabel Kontingensi

Definisi

Tabel kontingensi merupakan tabel ringkasan data dua variabel kategori. Tabel kontingensi sangat berguna ketika jumlah pengamatan besar perlu diringkas ke dalam bentuk tabel sederhana. Ringkasan data dilakukan dengan menghitung jumlah observasi yang diamati untuk setiap level dari variabel kategori.

Struktur Tabel Kontingensi 2x2

	Variabel 1.1	Variabel 1.2	Total
Variabel 2.1	a	b	a+b
Variabel 2.2	c	d	c+d
Total	a+c	b+d	n

Joint Distribution

Joint distribution adalah peluang gabungan dari dua kejadian.

\[ P( Variabel 1.1 \cap Variabel 2.1) = \frac{a}{n} \]

Marginal Distribution

Marginal distribution adalah peluang dari satu variabel tanpa memperhatikan variabel lainnya.

\[ P(Variabel 2.1) = \frac{a+b}{n} \]

Conditional Probability

Conditional probability adalah peluang suatu kejadian dengan syarat kejadian lain telah terjadi.

\[ P(Varibael 1.1 | Variabel 2.1) = \frac{a}{a+b} \]

3. Ukuran Asosiasi

Ukuran asosiasi digunakan untuk mengukur kekuatan hubungan antara dua variabel kategori.

Odds

Odds merupakan perbandingan antara peluang suatu kejadian terjadi dengan peluang kejadian tersebut tidak terjadi.

\[ Odds = \frac{p}{1-p} \]

Dalam tabel kontingensi:

\[ Odds = \frac{a}{b} \]

Odds Ratio

Odds Ratio digunakan untuk membandingkan odds antara dua kelompok.

\[ OR = \frac{ad}{bc} \]

Interpretasi:

OR = 1 → tidak ada hubungan
OR > 1 → faktor meningkatkan risiko
OR < 1 → faktor bersifat protektif

Relative Risk

Relative Risk membandingkan probabilitas kejadian antara dua kelompok.

\[ RR = \frac{\frac{a}{a+b}}{\frac{c}{c+d}} \]

Interpretasi:

RR = 1 → tidak ada perbedaan risiko
RR > 1 → risiko lebih tinggi pada kelompok pertama
RR < 1 → risiko lebih rendah pada kelompok pertama

4. Contoh Perhitungan Manual

Misalkan diperoleh data berikut:

	Kanker	Tidak Kanker	Total
Merokok	60	40	100
Tidak Merokok	20	80	100

Total sampel:

\[ n = 200 \]

Peluang Bersyarat

Peluang kanker pada perokok:

\[ P(Kanker|Merokok) = \frac{60}{100} = 0.6 \]

Peluang kanker pada non-perokok:

\[ P(Kanker|Tidak Merokok) = \frac{20}{100} = 0.2 \]

Odds

Odds kanker pada perokok:

\[ Odds_{perokok} = \frac{60}{40} = 1.5 \]

Odds kanker pada non-perokok:

\[ Odds_{non} = \frac{20}{80} = 0.25 \]

Odds Ratio

\[ OR = \frac{60 \times 80}{40 \times 20} \]

\[ OR = \frac{4800}{800} \]

\[ OR = 6 \]

Interpretasi: odds terkena kanker pada perokok 6 kali lebih besar dibandingkan non-perokok.

5. Analisis Menggunakan R

Data

data <- matrix(c(60,40,20,80),
               nrow=2,
               byrow=TRUE)

rownames(data) <- c("Merokok","Tidak Merokok")
colnames(data) <- c("Kanker","Tidak Kanker")

data

##               Kanker Tidak Kanker
## Merokok           60           40
## Tidak Merokok     20           80

Proporsi

prop.table(data)

##               Kanker Tidak Kanker
## Merokok          0.3          0.2
## Tidak Merokok    0.1          0.4

Tabel proporsi menunjukkan distribusi peluang dari setiap kombinasi kategori.

Dapat dilihat bahwa proporsi kejadian kanker lebih tinggi pada kelompok merokok dibandingkan tidak merokok.

Namun, analisis ini masih bersifat deskriptif dan belum dapat menyimpulkan apakah perbedaan tersebut signifikan secara statistik.

Uji Chi-Square

chisq.test(data)

## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  data
## X-squared = 31.688, df = 1, p-value = 1.811e-08

Uji Chi-Square digunakan untuk menguji hubungan antara dua variabel kategori.

Hipotesis:

H0: Tidak terdapat hubungan antara merokok dan kanker
H1: Terdapat hubungan antara merokok dan kanker

Berdasarkan hasil uji, diperoleh p-value < 0.05 sehingga H0 ditolak.

Artinya:
Terdapat hubungan yang signifikan antara kebiasaan merokok dan kejadian kanker. Hal ini menunjukkan bahwa variabel merokok dan kanker tidak independen.

Odds Ratio

oddsratio(data)

## $data
##               Kanker Tidak Kanker Total
## Merokok           60           40   100
## Tidak Merokok     20           80   100
## Total             80          120   200
## 
## $measure
##                         NA
## odds ratio with 95% C.I. estimate    lower    upper
##            Merokok       1.000000       NA       NA
##            Tidak Merokok 5.915517 3.181806 11.37695
## 
## $p.value
##                NA
## two-sided         midp.exact fisher.exact   chi.square
##   Merokok                 NA           NA           NA
##   Tidak Merokok 6.163344e-09 1.063603e-08 7.764037e-09
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"

Nilai Odds Ratio (OR) > 1 menunjukkan bahwa terdapat hubungan positif antara kebiasaan merokok dan kejadian kanker.

Artinya, individu yang merokok memiliki peluang (odds) lebih besar untuk terkena kanker dibandingkan individu yang tidak merokok.

6. Interpretasi Hasil

Nilai odds ratio sebesar 6. Hal ini menunjukkan bahwa odds terkena kanker paru pada kelompok perokok enam kali lebih besar dibandingkan kelompok yang tidak merokok.
Hasil uji chi-square menunjukan nilai p-value kurang dari 0.05 maka dapat disimpulkan bahwa terdapat hubungan yang signifikan antara kebiasaan merokok dan kejadian kanker paru.

Kasus 1: Tabel Kontingensi 2x2

Data

data1 <- matrix(c(688,650,21,59),
                nrow=2,
                byrow=TRUE)

rownames(data1) <- c("Smoker","Non-Smoker")
colnames(data1) <- c("Cancer","Control")

data1

##            Cancer Control
## Smoker        688     650
## Non-Smoker     21      59

Proporsi Kejadian

prop_smoker <- 688/1338
prop_nonsmoker <- 21/80

prop_smoker

## [1] 0.5142003

prop_nonsmoker

## [1] 0.2625

Proporsi kejadian kanker paru pada kelompok perokok adalah sebesar 51,4%, sedangkan pada kelompok non-perokok sebesar 26,25%. Hal ini menunjukkan bahwa proporsi individu yang mengalami kanker paru pada kelompok perokok secara signifikan lebih tinggi dibandingkan dengan kelompok non-perokok. Dengan demikian, secara deskriptif dapat diindikasikan bahwa kebiasaan merokok berkaitan dengan peningkatan kejadian kanker paru.

Interval Kepercayaan

prop.test(c(688,21), c(1338,80))

## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c(688, 21) out of c(1338, 80)
## X-squared = 18.136, df = 1, p-value = 2.057e-05
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  0.1450106 0.3583900
## sample estimates:
##    prop 1    prop 2 
## 0.5142003 0.2625000

Hasil uji proporsi menunjukkan bahwa nilai p-value lebih kecil dari 0,05, sehingga hipotesis nol yang menyatakan tidak adanya perbedaan proporsi ditolak. Hal ini berarti terdapat perbedaan proporsi kejadian kanker paru yang signifikan antara kelompok perokok dan non-perokok. Selain itu, interval kepercayaan 95% yang dihasilkan tidak mencakup nilai nol, sehingga semakin memperkuat bahwa perbedaan proporsi tersebut bukan terjadi secara kebetulan.

Risk Difference

RD <- prop_smoker - prop_nonsmoker
RD

## [1] 0.2517003

Nilai Risk Difference (RD) diperoleh sebesar sekitar 0,25, yang menunjukkan bahwa terdapat peningkatan risiko absolut kejadian kanker paru sebesar 25% pada kelompok perokok dibandingkan dengan kelompok non-perokok.

RR dan OR

riskratio(data1)

## $data
##            Cancer Control Total
## Smoker        688     650  1338
## Non-Smoker     21      59    80
## Total         709     709  1418
## 
## $measure
##                         NA
## risk ratio with 95% C.I. estimate    lower    upper
##               Smoker     1.000000       NA       NA
##               Non-Smoker 1.518115 1.317306 1.749536
## 
## $p.value
##             NA
## two-sided      midp.exact fisher.exact   chi.square
##   Smoker               NA           NA           NA
##   Non-Smoker 9.747013e-06 1.476303e-05 1.221601e-05
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"

oddsratio(data1)

## $data
##            Cancer Control Total
## Smoker        688     650  1338
## Non-Smoker     21      59    80
## Total         709     709  1418
## 
## $measure
##                         NA
## odds ratio with 95% C.I. estimate    lower    upper
##               Smoker     1.000000       NA       NA
##               Non-Smoker 2.957353 1.803249 5.040264
## 
## $p.value
##             NA
## two-sided      midp.exact fisher.exact   chi.square
##   Smoker               NA           NA           NA
##   Non-Smoker 9.747013e-06 1.476303e-05 1.221601e-05
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"

Hasil perhitungan menunjukkan bahwa nilai Relative Risk (RR) lebih besar dari 1, yang mengindikasikan bahwa risiko kejadian kanker paru pada kelompok perokok lebih tinggi dibandingkan dengan kelompok non-perokok. Selain itu, nilai Odds Ratio (OR) juga lebih besar dari 1, yang menunjukkan adanya hubungan positif antara kebiasaan merokok dan kejadian kanker paru.

Uji Dua Proporsi

prop.test(c(688,21), c(1338,80), correct=FALSE)

## 
##  2-sample test for equality of proportions without continuity correction
## 
## data:  c(688, 21) out of c(1338, 80)
## X-squared = 19.129, df = 1, p-value = 1.222e-05
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  0.1516343 0.3517663
## sample estimates:
##    prop 1    prop 2 
## 0.5142003 0.2625000

Berdasarkan hasil uji dua proporsi, diperoleh nilai p-value yang lebih kecil dari 0,05, sehingga hipotesis nol yang menyatakan tidak adanya perbedaan proporsi antara kelompok perokok dan non-perokok ditolak. Hal ini menunjukkan bahwa terdapat perbedaan proporsi kejadian kanker paru yang signifikan antara kedua kelompok.

Uji Chi-Square

chisq <- chisq.test(data1)
chisq

## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  data1
## X-squared = 18.136, df = 1, p-value = 2.057e-05

Berdasarkan hasil uji chi-square, diperoleh nilai p-value yang lebih kecil dari 0,05, sehingga hipotesis nol yang menyatakan bahwa variabel merokok dan kejadian kanker paru saling independen ditolak. Hal ini menunjukkan bahwa terdapat hubungan yang signifikan antara kebiasaan merokok dan kejadian kanker paru.

Uji G²

observed <- data1
expected <- chisq$expected

G2 <- 2 * sum(observed * log(observed/expected))
G2

## [1] 19.87802

Nilai statistik likelihood ratio (G²) yang diperoleh relatif besar, yang menunjukkan adanya perbedaan antara frekuensi observasi dan frekuensi harapan. Hal ini mengindikasikan bahwa terdapat hubungan antara variabel merokok dan kejadian kanker paru

Fisher Test

fisher.test(data1)

## 
##  Fisher's Exact Test for Count Data
## 
## data:  data1
## p-value = 1.476e-05
## alternative hypothesis: true odds ratio is not equal to 1
## 95 percent confidence interval:
##  1.755611 5.210711
## sample estimates:
## odds ratio 
##   2.971634

Berdasarkan hasil Fisher Exact Test, diperoleh nilai p-value yang lebih kecil dari 0,05, sehingga hipotesis nol yang menyatakan tidak adanya hubungan antara variabel ditolak. Hal ini menunjukkan bahwa terdapat hubungan yang signifikan antara kebiasaan merokok dan kejadian kanker paru.

Kesimpulan Kasus 1

Berdasarkan hasil analisis menggunakan berbagai metode inferensi, yaitu uji dua proporsi, uji chi-square, likelihood ratio test (G²), dan Fisher Exact Test, seluruhnya menunjukkan nilai p-value yang lebih kecil dari 0,05. Hal ini mengindikasikan bahwa hipotesis nol ditolak, sehingga dapat disimpulkan bahwa terdapat hubungan yang signifikan antara kebiasaan merokok dan kejadian kanker paru. Selain itu, ukuran asosiasi seperti Risk Difference (RD), Relative Risk (RR), dan Odds Ratio (OR) menunjukkan bahwa kelompok perokok memiliki risiko yang lebih tinggi untuk mengalami kanker paru dibandingkan dengan kelompok non-perokok.

Kasus 2: Tabel Kontingensi 2x3

Data

data2 <- matrix(c(495,272,590,
                  330,265,498),
                nrow=2,
                byrow=TRUE)

rownames(data2) <- c("Female","Male")
colnames(data2) <- c("Democrat","Republican","Independent")

data2

##        Democrat Republican Independent
## Female      495        272         590
## Male        330        265         498

Frekuensi Harapan

chisq2 <- chisq.test(data2)
chisq2$expected

##        Democrat Republican Independent
## Female  456.949   297.4322    602.6188
## Male    368.051   239.5678    485.3812

Frekuensi harapan menunjukkan jumlah observasi yang diharapkan pada setiap sel jika kedua variabel bersifat independen. Nilai ini digunakan sebagai pembanding terhadap frekuensi observasi untuk menilai apakah terdapat penyimpangan dari kondisi independensi.Uji Chi-Square

chisq2

## 
##  Pearson's Chi-squared test
## 
## data:  data2
## X-squared = 12.569, df = 2, p-value = 0.001865

Berdasarkan hasil uji chi-square, diperoleh nilai p-value yang lebih kecil dari 0,05, sehingga hipotesis nol yang menyatakan bahwa gender dan preferensi politik saling independen ditolak. Hal ini menunjukkan bahwa terdapat hubungan yang signifikan antara gender dan preferensi politik.

Residual Pearson

chisq2$residuals

##         Democrat Republican Independent
## Female  1.780051  -1.474656  -0.5140388
## Male   -1.983409   1.643125   0.5727640

Residual menunjukkan kategori yang paling berkontribusi terhadap perbedaan.

Partisi Chi-Square

Democrat vs Republican

sub1 <- data2[,1:2]
chisq.test(sub1)

## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  sub1
## X-squared = 11.178, df = 1, p-value = 0.0008279

Hasil uji chi-square pada partisi antara kategori Democrat dan Republican menunjukkan bahwa nilai p-value lebih kecil dari 0,05, sehingga hipotesis nol ditolak. Hal ini berarti terdapat perbedaan distribusi yang signifikan antara preferensi Democrat dan Republican berdasarkan gender

(Democrat + Republican) vs Independent

sub2 <- cbind(rowSums(data2[,1:2]), data2[,3])
chisq.test(sub2)

## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  sub2
## X-squared = 0.98267, df = 1, p-value = 0.3215

Hasil uji chi-square pada partisi antara kelompok (Democrat + Republican) dan Independent menunjukkan bahwa nilai p-value lebih besar dari 0,05, sehingga hipotesis nol tidak ditolak. Hal ini menunjukkan bahwa tidak terdapat perbedaan yang signifikan antara kelompok (Democrat + Republican) dan Independent berdasarkan gender.

Kesimpulan Kasus 2

Berdasarkan hasil uji chi-square, diperoleh bahwa terdapat hubungan yang signifikan antara gender dan preferensi politik. Hasil ini menunjukkan bahwa distribusi pilihan politik berbeda antara laki-laki dan perempuan. Analisis lebih lanjut menggunakan partisi chi-square menunjukkan bahwa perbedaan yang signifikan terutama terjadi antara kategori Democrat dan Republican, sedangkan tidak terdapat perbedaan yang signifikan antara kelompok (Democrat + Republican) dan Independent.

Tugas Analisis Data Kategorik

Syahid Fattahul Ihsan

Jumat, 10 April 2026

Pendahuluan

Latar Belakang

1. Definisi Analisis Data Kategori

Jenis Variabel

2. Tabel Kontingensi

Definisi

Struktur Tabel Kontingensi 2x2

Joint Distribution

Marginal Distribution

Conditional Probability

3. Ukuran Asosiasi

Odds

Odds Ratio

Relative Risk

4. Contoh Perhitungan Manual

Peluang Bersyarat

Odds

Odds Ratio

5. Analisis Menggunakan R

Data

Proporsi

Uji Chi-Square

Odds Ratio

6. Interpretasi Hasil

Kasus 1: Tabel Kontingensi 2x2

Data

Proporsi Kejadian

Interval Kepercayaan

Risk Difference

RR dan OR

Uji Dua Proporsi

Uji Chi-Square

Uji G²

Fisher Test

Kesimpulan Kasus 1

Kasus 2: Tabel Kontingensi 2x3

Data

Frekuensi Harapan

Residual Pearson

Partisi Chi-Square

Democrat vs Republican

(Democrat + Republican) vs Independent

Kesimpulan Kasus 2