Tugas 1 Analisis Data Kategori

Analisis Data Kategori merupakan metode statistik yang digunakan berbagai bidang penelitian. Data kategori yaitu data yang menyatakan klasifikasi atau kelompok tertentu. Salah satu metode yang digunakan untuk menganalisis hubungan antara variabel kategori adalah melalui tabel kontingensi. Dari tabel tersebut dapat dihitung berbagai ukuran asosiasi, seperti odds, odds ratio, dan relative risk, untuk menggambarkan kekuatan hubungan antar variabel.

1 1. Definisi Analisis Data Kategori

Analisis data kategori adalah metode statistik yang digunakan untuk menganalisis data yang berbentuk kategori atau kelompok. Data kategori merupakan data yang nilai variabelnya berupa label atau klasifikasi tertentu, bukan angka yang memiliki makna kuantitatif.

Menurut Alan Agresti dalam buku Categorical Data Analysis, analisis data kategori digunakan untuk mempelajari hubungan antara variabel yang berskala nominal atau ordinal melalui distribusi frekuensi atau probabilitas. Teknik ini sering digunakan untuk mengetahui apakah terdapat hubungan atau asosiasi antara dua atau lebih variabel kategori.

Analisis ini biasanya menggunakan tabel frekuensi, tabel kontingensi, serta metode inferensi seperti uji chi-square untuk mengevaluasi hubungan antar variabel.

1.1 Karakteristik Variabel Kategori

Variabel kategori memiliki beberapa karakteristik utama, yaitu:

  • Nilai berupa kategori atau label
  • Tidak memiliki makna numerik secara langsung
  • Dapat dibagi menjadi:
    • Nominal (misal: jenis kelamin, golongan darah)
    • Ordinal (misal: tingkat pendidikan, tingkat kepuasan)

1.2 Contoh Penerapan dalam Penelitian

Contoh penerapan analisis data kategori antara lain:

  • Hubungan antara status merokok/tidak merokok dan kejadian penyakit paru-paru.
  • Hubungan antara kategori usia dan preferensi penggunaan media sosial.
  • Analisis hubungan golongan darah dan kerentanan terhadap penyakit tertentu.

Metode analisis yang sering digunakan dalam analisis data kategori meliputi tabel kontingensi, uji Chi-Square, dan regresi logistik.

2 2. Tabel Kontingensi

2.1 1. Definisi Tabel Kontingensi

Tabel kontingensi adalah tabel yang digunakan untuk menyajikan data kategori dengan menampilkan frekuensi dari kombinasi dua atau lebih variabel kategori. Tabel ini membantu peneliti melihat bagaimana suatu kategori pada satu variabel berhubungan dengan kategori pada variabel lainnya.

Menurut Alan Agresti dalam buku Categorical Data Analysis, tabel kontingensi digunakan untuk merangkum dan menggambarkan hubungan antara variabel kategori melalui distribusi frekuensi. Dengan tabel ini, peneliti dapat lebih mudah memahami pola hubungan dalam data serta menjadi dasar untuk melakukan analisis statistik lebih lanjut.

2.2 2. Struktur Tabel Kontingensi

Struktur tabel kontingensi terdiri dari baris dan kolom yang masing-masing merepresentasikan kategori dari variabel yang berbeda. Setiap sel dalam tabel menunjukkan jumlah frekuensi atau banyaknya pengamatan untuk kombinasi kategori tertentu dari kedua variabel. Selain itu, tabel kontingensi juga biasanya dilengkapi dengan jumlah total pada setiap baris dan kolom yang disebut sebagai distribusi marginal. Sebagai contoh, tabel kontingensi 2 × 2 dapat digunakan untuk melihat hubungan antara dua variabel yang masing-masing memiliki dua kategori.

2.2.1 Contoh Tabel Kontingensi 2 × 2

Tabel kontingensi 2 × 2 memiliki struktur sebagai berikut:

Kategori 1 (+) Kategori 2 (-) Total
Grup 1 \(n_{11}\) \(n_{12}\) \(n_{1.}\)
Grup 2 \(n_{21}\) \(n_{22}\) \(n_{2.}\)
Total \(n_{.1}\) \(n_{.2}\) \(n\)

Keterangan:

  • \(n_{11}\) : jumlah kasus kategori (+) pada Grup 1
  • \(n_{12}\) : jumlah kasus kategori (−) pada Grup 1
  • \(n_{21}\) : jumlah kasus kategori (+) pada Grup 2
  • \(n_{22}\) : jumlah kasus kategori (−) pada Grup 2
  • \(n_{1.}\) : total observasi pada Grup 1
  • \(n_{2.}\) : total observasi pada Grup 2
  • \(n_{.1}\) : total observasi pada Kategori 1
  • \(n_{.2}\) : total observasi pada Kategori 2
  • \(n\) : total seluruh observasi

Contoh kasus dalam Tabel Kontingensi:

data <- matrix(c(30,20,
                 25,25),
               nrow=2,
               byrow=TRUE)

rownames(data) <- c("Pria","Wanita")
colnames(data) <- c("Suka Produk","Tidak Suka")

knitr::kable(data)
Suka Produk Tidak Suka
Pria 30 20
Wanita 25 25

2.3 3. Joint Distribution

Joint distribution atau distribusi gabungan merupakan distribusi probabilitas yang menunjukkan peluang terjadinya dua kejadian secara bersamaan. Dalam tabel kontingensi, joint distribution diperoleh dengan membagi frekuensi pada setiap sel dengan jumlah total pengamatan.

Secara matematis, joint distribution dinyatakan sebagai

\[ P(X=i, Y=j) = \frac{n_{ij}}{n} \] Sebagai contoh, berikut Tabel Kontingensi untuk kasus joint distribution:

joint <- prop.table(data)

knitr::kable(round(joint,3))
Suka Produk Tidak Suka
Pria 0.30 0.20
Wanita 0.25 0.25

2.4 4. Marginal Distribution

Marginal distribution adalah distribusi probabilitas dari satu variabel tanpa memperhatikan variabel lainnya. Distribusi ini diperoleh dari jumlah total pada baris atau kolom dalam tabel kontingensi yang kemudian dibagi dengan jumlah total observasi.

Secara matematis, marginal distribution dinyatakan sebagai:

\[ P(X=i) = \frac{n_{i.}}{n} \]

dan

\[ P(Y=j) = \frac{n_{.j}}{n} \] Berikut Tabel Kontingensi untuk kasus marginal distribution:

data <- matrix(c(30,20,
                 25,25),
               nrow=2,
               byrow=TRUE)

rownames(data) <- c("Pria","Wanita")
colnames(data) <- c("Suka Produk","Tidak Suka")

knitr::kable(data)
Suka Produk Tidak Suka
Pria 30 20
Wanita 25 25

Marginal distribution baris:

marginal_row <- prop.table(data,1)

knitr::kable(round(marginal_row,3))
Suka Produk Tidak Suka
Pria 0.6 0.4
Wanita 0.5 0.5

Marginal distribution kolom:

marginal_col <- prop.table(data,2)

knitr::kable(round(marginal_col,3))
Suka Produk Tidak Suka
Pria 0.545 0.444
Wanita 0.455 0.556

Sebagai contoh, nilai pada marginal distribution baris menunjukkan proporsi preferensi produk pada masing-masing kelompok responden. Sementara itu, marginal distribution kolom menunjukkan proporsi responden berdasarkan kategori preferensi produk secara keseluruhan.

2.5 5. Conditional Probability

Conditional probability adalah probabilitas suatu kategori terjadi dengan syarat kategori lain telah terjadi.

Sebagai contoh, probabilitas seseorang menyukai produk A dengan syarat orang tersebut adalah pria.

# conditional probability
prop.table(data, margin = 1)
##        Suka Produk Tidak Suka
## Pria           0.6        0.4
## Wanita         0.5        0.5

3 3. Ukuran Asosiasi

Ukuran asosiasi digunakan untuk mengukur kekuatan hubungan antara dua variabel kategori dalam tabel kontingensi. Beberapa ukuran asosiasi yang sering digunakan adalah odds, odds ratio, dan relative risk.

Misalkan diberikan tabel kontingensi 2 × 2 sebagai berikut:

\[ \begin{array}{c|cc} & Outcome\;1 & Outcome\;0 \\ \hline Exposure\;1 & a & b \\ Exposure\;0 & c & d \\ \end{array} \]

3.1 1. Odds

Odds merupakan perbandingan antara peluang suatu kejadian terjadi dengan peluang kejadian tersebut tidak terjadi.

Rumus odds secara umum adalah:

\[ Odds = \frac{p}{1-p} \]

Dalam tabel kontingensi, odds pada kelompok yang terpapar dapat dituliskan sebagai:

\[ Odds = \frac{a}{b} \]

3.1.1 Interpretasi

  • Odds > 1 menunjukkan kejadian lebih mungkin terjadi
  • Odds = 1 menunjukkan peluang kejadian dan tidak kejadian sama besar
  • Odds < 1 menunjukkan kejadian lebih kecil kemungkinannya terjadi

3.2 2. Odds Ratio

Odds Ratio digunakan untuk membandingkan odds antara dua kelompok.

Rumus Odds Ratio adalah:

\[ OR = \frac{a/b}{c/d} \]

yang dapat disederhanakan menjadi:

\[ OR = \frac{ad}{bc} \]

3.2.1 Interpretasi

  • OR = 1 menunjukkan tidak ada hubungan antara kedua variabel
  • OR > 1 menunjukkan adanya asosiasi positif
  • OR < 1 menunjukkan adanya asosiasi negatif

3.3 3. Relative Risk

Relative Risk digunakan untuk membandingkan probabilitas kejadian antara kelompok yang terpapar dan kelompok yang tidak terpapar.

Rumus Relative Risk adalah:

\[ RR = \frac{a/(a+b)}{c/(c+d)} \]

3.3.1 Interpretasi

  • RR = 1 menunjukkan tidak ada hubungan
  • RR > 1 menunjukkan paparan meningkatkan risiko
  • RR < 1 menunjukkan paparan bersifat protektif

4 4. Contoh Perhitungan Manual

Sebagai contoh, akan dianalisis hubungan antara kebiasaan merokok dan kejadian kanker paru-paru.

Misalkan diperoleh data sebagai berikut:

\[ \begin{array}{c|cc} & Kanker & Tidak\;Kanker \\ \hline Merokok & 60 & 40 \\ Tidak\;Merokok & 20 & 80 \\ \end{array} \]

4.1 1. Menghitung Peluang Bersyarat

Peluang terkena kanker pada kelompok perokok:

\[ P(Kanker | Merokok) = \frac{60}{60+40} = \frac{60}{100} = 0.6 \]

Peluang terkena kanker pada kelompok tidak merokok:

\[ P(Kanker | Tidak\;Merokok) = \frac{20}{20+80} = \frac{20}{100} = 0.2 \]

4.2 2. Menghitung Odds

Odds terkena kanker pada kelompok perokok:

\[ Odds_{merokok} = \frac{60}{40} = 1.5 \]

Odds terkena kanker pada kelompok tidak merokok:

\[ Odds_{tidak\;merokok} = \frac{20}{80} = 0.25 \]

4.3 3. Menghitung Odds Ratio

\[ OR = \frac{ad}{bc} \]

\[ OR = \frac{(60)(80)}{(40)(20)} \]

\[ OR = \frac{4800}{800} = 6 \]

Interpretasi: Individu yang merokok memiliki odds terkena kanker paru-paru sekitar 6 kali lebih besar dibandingkan individu yang tidak merokok.

5 5. Analisis Menggunakan R

Analisis yang sama dapat dilakukan menggunakan R.

data <- matrix(c(60,40,20,80),
               nrow=2,
               byrow=TRUE)

rownames(data) <- c("Merokok","Tidak Merokok")
colnames(data) <- c("Kanker","Tidak Kanker")

data
##               Kanker Tidak Kanker
## Merokok           60           40
## Tidak Merokok     20           80
library(epitools)

oddsratio(data)
## $data
##               Kanker Tidak Kanker Total
## Merokok           60           40   100
## Tidak Merokok     20           80   100
## Total             80          120   200
## 
## $measure
##                         NA
## odds ratio with 95% C.I. estimate    lower    upper
##            Merokok       1.000000       NA       NA
##            Tidak Merokok 5.915517 3.181806 11.37695
## 
## $p.value
##                NA
## two-sided         midp.exact fisher.exact   chi.square
##   Merokok                 NA           NA           NA
##   Tidak Merokok 6.163344e-09 1.063603e-08 7.764037e-09
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
library(epitools)

oddsratio(data)
## $data
##               Kanker Tidak Kanker Total
## Merokok           60           40   100
## Tidak Merokok     20           80   100
## Total             80          120   200
## 
## $measure
##                         NA
## odds ratio with 95% C.I. estimate    lower    upper
##            Merokok       1.000000       NA       NA
##            Tidak Merokok 5.915517 3.181806 11.37695
## 
## $p.value
##                NA
## two-sided         midp.exact fisher.exact   chi.square
##   Merokok                 NA           NA           NA
##   Tidak Merokok 6.163344e-09 1.063603e-08 7.764037e-09
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"

6 6. Interpretasi Hasil

Berdasarkan hasil analisis yang telah dilakukan sebelumnya menggunakan tabel kontingensi, perhitungan odds ratio, dan uji chi-square, dapat diberikan interpretasi sebagai berikut.

6.1 1. Interpretasi Statistik

Dari hasil perhitungan diperoleh nilai Odds Ratio (OR) = 6. Nilai ini menunjukkan bahwa odds terjadinya kanker paru-paru pada individu yang merokok sekitar 6 kali lebih besar dibandingkan individu yang tidak merokok.

Selain itu, hasil uji Chi-Square digunakan untuk menguji apakah terdapat hubungan yang signifikan antara kebiasaan merokok dan kejadian kanker paru-paru. Jika nilai p-value lebih kecil dari tingkat signifikansi (misalnya 0.05), maka hipotesis nol yang menyatakan tidak adanya hubungan antara kedua variabel ditolak.

Dengan demikian, dapat disimpulkan bahwa terdapat hubungan yang signifikan antara kebiasaan merokok dan kejadian kanker paru-paru.

6.2 2. Interpretasi Substantif dalam Konteks Kasus

Secara substantif, hasil ini menunjukkan bahwa kebiasaan merokok merupakan faktor yang berasosiasi kuat dengan meningkatnya risiko terkena kanker paru-paru. Individu yang merokok memiliki kemungkinan yang jauh lebih besar mengalami kanker paru-paru dibandingkan dengan individu yang tidak merokok.

Temuan ini konsisten dengan banyak penelitian kesehatan masyarakat yang menyatakan bahwa merokok merupakan salah satu faktor risiko utama bagi penyakit kanker paru-paru. Oleh karena itu, upaya pencegahan seperti pengurangan konsumsi rokok dan kampanye berhenti merokok sangat penting untuk menurunkan risiko penyakit tersebut.

Tugas 6 Analisis Data Kategori

7 Inferensi Tabel Kontingensi Dua Arah

Pada bagian ini dilakukan analisis inferensi pada tabel kontingensi dua arah. Analisis ini bertujuan untuk mengkaji hubungan antara dua variabel kategori serta melakukan pengujian hipotesis dan estimasi ukuran asosiasi seperti risk difference, relative risk, dan odds ratio.

7.1 Kasus 1: Merokok dan Kanker Paru

Data hubungan antara status merokok dan kejadian kanker paru-paru disajikan dalam tabel kontingensi berikut.

data1 <- matrix(c(688, 650,
                  21, 59),
                nrow = 2,
                byrow = TRUE)

rownames(data1) <- c("Smoker", "Non-Smoker")
colnames(data1) <- c("Cancer (+)", "Control (-)")

knitr::kable(data1)
Cancer (+) Control (-)
Smoker 688 650
Non-Smoker 21 59
addmargins(data1)
##            Cancer (+) Control (-)  Sum
## Smoker            688         650 1338
## Non-Smoker         21          59   80
## Sum               709         709 1418

Tabel di atas menunjukkan bahwa jumlah kasus kanker paru-paru pada kelompok perokok jauh lebih tinggi dibandingkan dengan kelompok non-perokok. Hal ini mengindikasikan adanya kemungkinan hubungan antara kebiasaan merokok dan kejadian kanker paru-paru.

7.2 Kasus 2: Gender dan Identifikasi Partai Politik

Data hubungan antara gender dan identifikasi partai politik disajikan dalam tabel berikut.

data2 <- matrix(c(495,272,590,
                  330,265,498),
                nrow=2,
                byrow=TRUE)

rownames(data2) <- c("Female","Male")
colnames(data2) <- c("Democrat","Republican","Independent")

knitr::kable(data2)
Democrat Republican Independent
Female 495 272 590
Male 330 265 498
addmargins(data2)
##        Democrat Republican Independent  Sum
## Female      495        272         590 1357
## Male        330        265         498 1093
## Sum         825        537        1088 2450

Tabel di atas menunjukkan distribusi responden berdasarkan gender dan preferensi partai politik. Secara umum, kategori Independent memiliki jumlah responden yang lebih besar dibandingkan kategori lainnya pada kedua kelompok gender.

7.3 Metode Analisis

Data pada kedua kasus di atas akan digunakan untuk melakukan analisis inferensi, meliputi estimasi proporsi, ukuran asosiasi, serta pengujian hipotesis untuk mengetahui hubungan antar variabel. Analisis yang dilakukan pada data tabel kontingensi meliputi:

  1. Estimasi Proporsi

    Proporsi kejadian pada masing-masing kelompok dihitung sebagai:

    \[ p = \frac{x}{n} \]

  2. Ukuran Asosiasi

    • Risk Difference (RD): \[ RD = p_1 - p_2 \]

    • Relative Risk (RR): \[ RR = \frac{p_1}{p_2} \]

    • Odds Ratio (OR): \[ OR = \frac{ad}{bc} \]

  3. Pengujian Hipotesis

    • Uji dua proporsi
    • Uji Chi-Square independensi
    • Uji Likelihood Ratio (\(G^2\))
    • Fisher Exact Test

Analisis dilakukan menggunakan perangkat lunak R.

7.4 Hasil dan Interpretasi

7.4.1 Kasus 1

7.4.1.1 Estimasi Proporsi

p_smoker <- data1[1,1] / sum(data1[1,])
p_nonsmoker <- data1[2,1] / sum(data1[2,])

p_smoker
## [1] 0.5142003
p_nonsmoker
## [1] 0.2625

Proporsi kejadian kanker pada kelompok perokok lebih tinggi dibandingkan kelompok non-perokok.

7.4.1.2 Confidence Interval

prop.test(data1[1,1], sum(data1[1,]))
## 
##  1-sample proportions test with continuity correction
## 
## data:  data1[1, 1] out of sum(data1[1, ]), null probability 0.5
## X-squared = 1.0232, df = 1, p-value = 0.3118
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
##  0.4870445 0.5412736
## sample estimates:
##         p 
## 0.5142003
prop.test(data1[2,1], sum(data1[2,]))
## 
##  1-sample proportions test with continuity correction
## 
## data:  data1[2, 1] out of sum(data1[2, ]), null probability 0.5
## X-squared = 17.113, df = 1, p-value = 3.523e-05
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
##  0.1733064 0.3748263
## sample estimates:
##      p 
## 0.2625

7.4.1.3 Uji Dua Proporsi

prop.test(c(data1[1,1], data1[2,1]),
          c(sum(data1[1,]), sum(data1[2,])))
## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c(data1[1, 1], data1[2, 1]) out of c(sum(data1[1, ]), sum(data1[2, ]))
## X-squared = 18.136, df = 1, p-value = 2.057e-05
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  0.1450106 0.3583900
## sample estimates:
##    prop 1    prop 2 
## 0.5142003 0.2625000

7.4.1.4 Chi-Square Test

chisq.test(data1)
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  data1
## X-squared = 18.136, df = 1, p-value = 2.057e-05

7.4.1.5 Likelihood Ratio

library(DescTools)
## Warning: package 'DescTools' was built under R version 4.4.3
GTest(data1)
## 
##  Log likelihood ratio (G-test) test of independence without correction
## 
## data:  data1
## G = 19.878, X-squared df = 1, p-value = 8.254e-06

7.4.1.6 Fisher Exact Test

fisher.test(data1)
## 
##  Fisher's Exact Test for Count Data
## 
## data:  data1
## p-value = 1.476e-05
## alternative hypothesis: true odds ratio is not equal to 1
## 95 percent confidence interval:
##  1.755611 5.210711
## sample estimates:
## odds ratio 
##   2.971634

Berdasarkan hasil pengujian, seluruh metode menunjukkan bahwa nilai p-value lebih kecil dari 0.05, sehingga hipotesis nol ditolak. Hal ini menunjukkan bahwa terdapat hubungan yang signifikan antara kebiasaan merokok dan kejadian kanker paru-paru.

Nilai ukuran asosiasi menunjukkan bahwa kelompok perokok memiliki risiko yang lebih tinggi mengalami kanker paru-paru dibandingkan non-perokok.

7.4.2 Kasus 2

7.4.2.1 Frekuensi Harapan

# Expected frequency
chisq.test(data2)$expected
##        Democrat Republican Independent
## Female  456.949   297.4322    602.6188
## Male    368.051   239.5678    485.3812

Frekuensi harapan menunjukkan nilai yang diharapkan pada setiap sel jika tidak terdapat hubungan antara gender dan preferensi partai politik.

7.4.2.2 Uji Chi-Square

chisq.test(data2)
## 
##  Pearson's Chi-squared test
## 
## data:  data2
## X-squared = 12.569, df = 2, p-value = 0.001865

Hasil uji chi-square digunakan untuk menguji apakah terdapat hubungan antara gender dan identifikasi partai politik.

7.4.2.3 Residual Pearson (Standarized Residual)

# residual Pearson
chisq.test(data2)$residuals
##         Democrat Republican Independent
## Female  1.780051  -1.474656  -0.5140388
## Male   -1.983409   1.643125   0.5727640
# standardized residual
chisq.test(data2)$stdres
##         Democrat Republican Independent
## Female  3.272365  -2.498557   -1.032199
## Male   -3.272365   2.498557    1.032199

Nilai residual menunjukkan kontribusi masing-masing sel terhadap nilai chi-square. Nilai residual yang besar (positif atau negatif) menunjukkan adanya penyimpangan yang cukup besar dari nilai harapan.

7.4.2.4 Partisi Chi-Square

7.4.2.4.1 Democrat vs Republican
# subset Democrat vs Republican
data_DR <- data2[,1:2]
chisq.test(data_DR)
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  data_DR
## X-squared = 11.178, df = 1, p-value = 0.0008279
7.4.2.4.2 (Democrat + Republican) vs Independent
# gabungkan kolom
data_combined <- cbind(
  DemRep = data2[,1] + data2[,2],
  Independent = data2[,3]
)

chisq.test(data_combined)
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  data_combined
## X-squared = 0.98267, df = 1, p-value = 0.3215

Berdasarkan hasil uji chi-square, diperoleh nilai p-value yang lebih kecil dari 0.05, sehingga hipotesis nol ditolak. Hal ini menunjukkan bahwa terdapat hubungan yang signifikan antara gender dan identifikasi partai politik.

Dari hasil analisis residual, terlihat bahwa beberapa kategori memiliki kontribusi yang lebih besar terhadap hubungan tersebut, khususnya pada kategori Independent.

Hasil partisi chi-square menunjukkan bahwa perbedaan distribusi antara Democrat dan Republican relatif lebih kecil dibandingkan dengan perbedaan antara kelompok (Democrat + Republican) dan Independent.

Dengan demikian, kategori Independent merupakan faktor yang paling berkontribusi dalam hubungan antara gender dan preferensi partai politik.

7.5 Kesimpulan

Berdasarkan hasil analisis inferensi pada tabel kontingensi dua arah, diperoleh bahwa pada kedua kasus terdapat hubungan yang signifikan antara variabel yang diteliti.

Pada Kasus 1 (Merokok dan Kanker Paru-paru), seluruh hasil pengujian menunjukkan bahwa hipotesis nol ditolak (p-value < 0.05). Hal ini menunjukkan adanya hubungan yang signifikan antara kebiasaan merokok dan kejadian kanker paru-paru. Selain itu, hasil estimasi ukuran asosiasi menunjukkan bahwa kelompok perokok memiliki risiko yang lebih tinggi mengalami kanker paru-paru dibandingkan kelompok non-perokok.

Pada Kasus 2 (Gender dan Identifikasi Partai Politik), hasil uji chi-square juga menunjukkan bahwa hipotesis nol ditolak, sehingga terdapat hubungan yang signifikan antara gender dan preferensi partai politik. Analisis lebih lanjut melalui residual dan partisi chi-square menunjukkan bahwa kategori Independent memberikan kontribusi terbesar terhadap perbedaan distribusi antar kelompok.

Secara keseluruhan, analisis tabel kontingensi dua arah dapat digunakan untuk mengidentifikasi adanya hubungan antar variabel kategori serta mengukur kekuatan asosiasi yang terjadi, sehingga memberikan informasi yang penting dalam pengambilan keputusan berbasis data.

8 7. Contoh Kasus Model Regresi dalam Analisis Data Kategori

Selain menggunakan tabel kontingensi dan ukuran asosiasi, analisis data kategori juga dapat dilakukan melalui berbagai model regresi yang dirancang khusus untuk variabel respon kategorik maupun data hitung. Pemilihan model regresi bergantung pada jenis variabel respon yang digunakan.

Secara umum, model regresi dalam analisis data kategori meliputi:

  1. Regresi Logistik Biner
  2. Regresi Logistik Multinomial
  3. Regresi Logistik Ordinal
  4. Regresi Poisson
  5. Model Log-Linier

Masing-masing model memiliki karakteristik, asumsi, serta interpretasi yang berbeda sesuai dengan struktur data yang dianalisis.

9 7.1 Regresi Logistik Biner

Regresi logistik biner digunakan ketika variabel respon hanya memiliki dua kategori.

9.1 Contoh Kasus

Dataset: Titanic Dataset

Tujuan penelitian adalah menganalisis faktor-faktor yang memengaruhi peluang seorang penumpang selamat dalam tragedi Titanic.

9.1.1 Variabel Respon

Variabel Kategori
Survived 0 = Tidak Selamat
1 = Selamat

9.1.2 Variabel Prediktor

  • Jenis kelamin
  • Umur
  • Kelas tiket
  • Jumlah anggota keluarga

9.1.3 Model

\[ \log \left( \frac{\pi}{1-\pi} \right) = \beta_0+\beta_1X_1+\beta_2X_2+\cdots+\beta_pX_p \]

dengan:

\[ \pi=P(Y=1) \]

9.1.4 Tahapan Analisis

  1. Analisis deskriptif data.
  2. Pemeriksaan hubungan awal antar variabel.
  3. Estimasi parameter menggunakan Maximum Likelihood.
  4. Uji simultan menggunakan Likelihood Ratio Test.
  5. Uji parsial menggunakan Wald Test.
  6. Menghitung Odds Ratio.
  7. Evaluasi kesesuaian model menggunakan Hosmer-Lemeshow Test.

9.1.5 Interpretasi

Jika diperoleh:

\[ OR=e^{\beta_1}=3 \]

maka individu pada kategori tersebut memiliki peluang selamat tiga kali lebih besar dibandingkan kategori referensi.

10 7.2 Regresi Logistik Multinomial

Regresi logistik multinomial digunakan apabila variabel respon memiliki lebih dari dua kategori yang tidak memiliki urutan.

10.1 Contoh Kasus

Dataset: Sakernas BPS

Tujuan penelitian adalah menganalisis faktor-faktor yang memengaruhi status pekerjaan seseorang.

10.1.1 Variabel Respon

Kategori
Buruh
Pegawai
Wiraswasta

Misalkan kategori referensi adalah Buruh.

10.1.2 Variabel Prediktor

  • Umur
  • Pendidikan
  • Jenis kelamin
  • Wilayah tempat tinggal

10.1.3 Model

Untuk tiga kategori respon dibentuk dua persamaan logit:

\[ \log \left(\frac{\pi_2}{\pi_1}\right) = \beta_{20} +\beta_{21}X_1 +\cdots +\beta_{2p}X_p \]

\[ \log \left(\frac{\pi_3}{\pi_1}\right) = \beta_{30} +\beta_{31}X_1 +\cdots +\beta_{3p}X_p \]

10.1.4 Tahapan Analisis

  1. Analisis deskriptif.
  2. Tabulasi silang variabel respon dan prediktor.
  3. Estimasi parameter model.
  4. Uji Likelihood Ratio.
  5. Uji Wald.
  6. Interpretasi Odds Ratio.
  7. Evaluasi menggunakan Pseudo R-Square.

10.1.5 Interpretasi

Jika diperoleh:

\[ OR=2.5 \]

maka individu dengan karakteristik tertentu memiliki peluang 2.5 kali lebih besar menjadi pegawai dibandingkan buruh.

11 7.3 Regresi Logistik Ordinal

Regresi logistik ordinal digunakan ketika kategori respon memiliki urutan tertentu.

11.1 Contoh Kasus

Dataset: Students Performance in Exams

Tujuan penelitian adalah menganalisis faktor-faktor yang memengaruhi tingkat prestasi akademik siswa.

11.1.1 Variabel Respon

Nilai Kategori
< 60 Rendah
60 – 80 Sedang
> 80 Tinggi

Urutan kategori:

\[ Rendah < Sedang < Tinggi \]

11.1.2 Variabel Prediktor

  • Gender
  • Pendidikan orang tua
  • Kursus persiapan
  • Jam belajar

11.1.3 Model Proportional Odds

\[ \log \left( \frac{P(Y\le j)} {P(Y>j)} \right) = \alpha_j-\beta X \]

11.1.4 Tahapan Analisis

  1. Analisis deskriptif.
  2. Uji asumsi proportional odds.
  3. Estimasi parameter.
  4. Uji simultan.
  5. Uji parsial.
  6. Perhitungan Odds Ratio.
  7. Evaluasi kesesuaian model.

11.1.5 Interpretasi

Jika:

\[ OR=1.8 \]

maka siswa yang mengikuti kursus memiliki peluang 1.8 kali lebih besar berada pada kategori prestasi yang lebih tinggi.

12 7.4 Regresi Poisson

Regresi Poisson digunakan untuk memodelkan variabel respon berupa data hitung (count data).

12.1 Contoh Kasus

Dataset: Bike Sharing Dataset

Tujuan penelitian adalah menganalisis faktor-faktor yang memengaruhi jumlah penyewaan sepeda per hari.

12.1.1 Variabel Respon

Jumlah penyewaan sepeda.

12.1.2 Variabel Prediktor

  • Temperatur
  • Kelembapan
  • Kecepatan angin
  • Musim

12.1.3 Model

\[ \log(\mu_i) = \beta_0+\beta_1X_1+\cdots+\beta_pX_p \]

atau

\[ \mu_i = e^{\beta_0+\beta_1X_1+\cdots+\beta_pX_p} \]

12.1.4 Tahapan Analisis

  1. Analisis deskriptif.
  2. Pemeriksaan distribusi data hitung.
  3. Pemeriksaan overdispersion.
  4. Estimasi parameter model.
  5. Uji simultan.
  6. Uji parsial.
  7. Interpretasi Incidence Rate Ratio (IRR).

12.1.5 Interpretasi

Jika:

\[ IRR=e^{\beta_1}=1.15 \]

maka setiap kenaikan satu satuan variabel prediktor meningkatkan rata-rata jumlah kejadian sebesar 15%.

13 7.5 Model Log-Linier

Model log-linier digunakan ketika seluruh variabel yang dianalisis merupakan variabel kategorik dan fokus analisis adalah hubungan antar variabel dalam tabel kontingensi multidimensi.

13.1 Contoh Kasus

Dataset: Adult Census Income Dataset

13.1.1 Variabel

  • Pendidikan
  • Jenis Kelamin
  • Kategori Pendapatan

13.1.2 Model Independence

\[ \log(m_{ijk}) = \lambda +\lambda_i^A +\lambda_j^B +\lambda_k^C \]

13.1.3 Model Interaksi Dua Faktor

\[ \log(m_{ijk}) = \lambda +\lambda_i^A +\lambda_j^B +\lambda_k^C +\lambda_{ij}^{AB} +\lambda_{ik}^{AC} +\lambda_{jk}^{BC} \]

13.1.4 Model Saturated

\[ \log(m_{ijk}) = \lambda +\lambda_i^A +\lambda_j^B +\lambda_k^C +\lambda_{ij}^{AB} +\lambda_{ik}^{AC} +\lambda_{jk}^{BC} +\lambda_{ijk}^{ABC} \]

13.1.5 Tahapan Analisis

  1. Membentuk tabel kontingensi multidimensi.
  2. Menyesuaikan model independensi.
  3. Menghitung statistik Likelihood Ratio.
  4. Membandingkan model menggunakan Deviance, AIC, dan BIC.
  5. Memilih model terbaik.
  6. Menginterpretasikan interaksi yang signifikan.

13.1.6 Interpretasi

Apabila interaksi antara pendidikan dan pendapatan signifikan, maka tingkat pendidikan berhubungan dengan kategori pendapatan yang diperoleh individu.

14 Kesimpulan

Pemilihan model regresi dalam analisis data kategori harus disesuaikan dengan bentuk variabel respon yang digunakan. Regresi logistik biner digunakan untuk respon dua kategori, regresi multinomial untuk respon nominal lebih dari dua kategori, regresi ordinal untuk respon yang memiliki urutan, regresi Poisson untuk data hitung, dan model log-linier untuk menganalisis asosiasi antar variabel kategorik dalam tabel kontingensi multidimensi.

15 Referensi

  • Agresti, A. (2019). An Introduction to Categorical Data Analysis. Wiley.
  • Montgomery, D. C. (2017). Design and Analysis of Experiments. Wiley.
  • Johnson, R. A., & Bhattacharyya, G. K. (2010). Statistics: Principles and Methods. Wiley.