PADK - Interpretasi Model Regresi Logistik

Video Pembelajaran - P10

Video Pembelajaran dapat diakses melalui link berikut : https://ipb.link/materipadk

1. Pendahuluan

1.1 Definisi dan Pentingnya Peubah Respon Biner

Peubah respon biner adalah variabel yang hanya memiliki dua kemungkinan hasil, seperti “ya/tidak”, “sukses/gagal”, atau “lulus/tidak lulus”. Regresi logistik digunakan ketika kita ingin memprediksi probabilitas terjadinya salah satu dari dua kemungkinan hasil berdasarkan satu atau lebih peubah penjelas (predictors). Model ini sering digunakan dalam berbagai bidang seperti kesehatan, keuangan, dan penelitian sosial.

1.2 Pendugaan Peluang Binomial dan Keterbatasannya

Pendugaan peluang binomial sering digunakan untuk data biner, tetapi memiliki keterbatasan, terutama dalam variabilitas peluang prediksi. Regresi logistik menawarkan solusi dengan memodelkan log odds sebagai fungsi linear dari peubah penjelas, yang menjaga nilai prediksi dalam rentang 0 hingga 1.

1.3 Pemodelan dengan Regresi Klasik

Dalam regresi klasik atau regresi linear, prediksi dapat berada di luar rentang [0, 1], yang tidak sesuai untuk probabilitas. Oleh karena itu, regresi logistik digunakan karena model ini secara alami membatasi prediksi dalam rentang yang diinginkan.


2. Regresi Logistik

2.1 Dasar Regresi Logistik

Regresi logistik digunakan untuk memodelkan hubungan antara satu atau lebih peubah penjelas (predictor) dengan peubah respon biner. Tujuan utama adalah memprediksi probabilitas kejadian tertentu berdasarkan peubah penjelas. Regresi logistik sangat efektif dalam kasus di mana peubah respon bersifat biner.

2.1.1 Model Logit

Model logit menghubungkan log odds dari probabilitas kejadian (\(\pi(x)\)) dengan kombinasi linear dari peubah penjelas (\(X\)):

\[ \text{logit}(\pi(x)) = \log\left(\frac{\pi(x)}{1 - \pi(x)}\right) = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_k X_k \]

2.2 Interpretasi Koefisien (\(\beta\))

Koefisien dalam regresi logistik (\(\beta\)) diinterpretasikan sebagai perubahan log odds dari kejadian yang diinginkan untuk setiap perubahan satu unit dalam peubah X. Ini adalah langkah penting karena memberikan wawasan tentang kekuatan dan arah hubungan antara peubah penjelas dan respon.

2.2.1 Interpretasi Odds

Odds (\(O\)) adalah perbandingan antara kemungkinan terjadinya suatu kejadian dan tidak terjadinya kejadian tersebut. Dalam regresi logistik:

\[ O(x) = \frac{\pi(x)}{1 - \pi(x)} = e^{\beta_0 + \beta_1 X_1 + \dots + \beta_k X_k} \]

Contoh: Misalkan, model regresi logistik menghasilkan \(\beta_1 = 0.0055\), ini berarti bahwa setiap kenaikan satu unit dalam jumlah tagihan meningkatkan odds gagal bayar sebesar \(e^{0.0055} \approx 1.0055\).


3. Uji Parameter Model

3.1 Uji Simultan (Likelihood Ratio Test)

Uji ini digunakan untuk menguji apakah semua peubah penjelas dalam model memiliki pengaruh yang signifikan secara bersama-sama. Ini membantu kita memahami apakah model yang kita gunakan sudah cukup baik atau tidak.

Statistik uji-G adalah:

\[ G = 2 \times (\text{Log-likelihood tanpa peubah bebas} / \text{Log-likelihood dengan peubah bebas}) \]

Keputusan diambil dengan membandingkan nilai \(G\) dengan distribusi \(\chi^2\) dengan derajat kebebasan \(k\).

3.2 Uji Parsial (Wald Test)

Uji Wald digunakan untuk menguji signifikansi dari masing-masing koefisien secara parsial. Ini penting untuk mengetahui apakah setiap peubah penjelas secara individual memberikan kontribusi signifikan terhadap model.

Statistik uji Wald adalah:

\[ Z^2 = \left(\frac{\hat{\beta_i}}{\text{SE}(\hat{\beta_i})}\right)^2 \]

3.3 Uji Hosmer-Lemeshow

Uji Hosmer-Lemeshow digunakan untuk menguji kebaikan model (goodness-of-fit). Ini mengukur seberapa baik model prediktif sesuai dengan data yang diamati. Hipotesis nol adalah bahwa model cocok dengan data.

Statistik uji Hosmer-Lemeshow adalah:

\[ \chi^2 = \sum_{g=1}^{G} \frac{(O_g - E_g)^2}{E_g(1 - E_g)} \]


Contoh Soal

Tabel berikut menunjukkan suhu (°F) saat penerbangan dan apakah pesawat mengalami gangguan termal ketika penerbangan. Uji pengaruh suhu penerbangan terhadap gangguan termal menggunakan uji Wald dan likelihood ratio.

\[ \begin{array}{|c|c|c|} \hline \text{Ft} & \text{Temperature} & \text{TD} \\ \hline 1 & 66 & 0 \\ 2 & 70 & 0 \\ 3 & 69 & 0 \\ 4 & 68 & 0 \\ 5 & 72 & 0 \\ 6 & 73 & 0 \\ 7 & 79 & 0 \\ 8 & 57 & 1 \\ 9 & 51 & 1 \\ 10 & 64 & 1 \\ 11 & 72 & 1 \\ 12 & 78 & 0 \\ \hline \end{array} \quad \begin{array}{|c|c|c|} \hline \text{Ft} & \text{Temperature} & \text{TD} \\ \hline 13 & 67 & 0 \\ 14 & 53 & 0 \\ 15 & 67 & 0 \\ 16 & 75 & 0 \\ 17 & 81 & 0 \\ 18 & 76 & 0 \\ 19 & 76 & 0 \\ 20 & 75 & 1 \\ 21 & 75 & 1 \\ 22 & 76 & 1 \\ 23 & 58 & 1 \\ \hline \end{array} \]

Catatan: Ft = nomor penerbangan, TD = gangguan termal (1 = ya, 0 = tidak).

Implementasi R:

# Memasukkan data
data_penerbangan <- data.frame(
  Ft = c(1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12,13,14,15,16,17,18,19,20,21,22,23),
  Temperature = c(66, 70, 69, 68, 67, 72, 73, 70, 57, 63, 70, 78, 67, 53, 67, 75, 70, 81, 76, 79, 75, 76, 58),
  TD = c(0, 1, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 1)
)

# Model regresi logistik
model_logit <- glm(TD ~ Temperature, data = data_penerbangan, family = binomial)

# Hasil model
summary(model_logit)
## 
## Call:
## glm(formula = TD ~ Temperature, family = binomial, data = data_penerbangan)
## 
## Coefficients:
##             Estimate Std. Error z value Pr(>|z|)  
## (Intercept)  15.0429     7.3786   2.039   0.0415 *
## Temperature  -0.2322     0.1082  -2.145   0.0320 *
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 28.267  on 22  degrees of freedom
## Residual deviance: 20.315  on 21  degrees of freedom
## AIC: 24.315
## 
## Number of Fisher Scoring iterations: 5
# Uji Wald (t-statistic atau z-statistic)
wald_statistic <- summary(model_logit)$coefficients[2, "z value"]
wald_statistic
## [1] -2.144959

Uji Wald

Hipotesis

  • \(H_0\): \(\beta_1 = 0\) (tidak signifikan)

  • \(H_1\): \(\beta_1 \neq 0\) (signifikan)

Stat. uji

  • \(Z^2 = 4.6008\)

  • \(p\text{-value} = 0.0320\)

Keputusan

  • Tolak \(H_0\)

Interpretasi: Cukup bukti untuk menyatakan bahwa suhu pada saat penerbangan berpengaruh signifikan terhadap gangguan termal pada taraf nyata 5%.


# Uji Likelihood Ratio
model_terbatas <- glm(TD ~ 1, data = data_penerbangan, family = binomial)
logLik_terbatas <- logLik(model_terbatas)
logLik_penuh <- logLik(model_logit)
LR_statistic <- -2 * (logLik_terbatas - logLik_penuh)
LR_statistic
## 'log Lik.' 7.95196 (df=1)
# Derajat kebebasan untuk uji Likelihood Ratio
df <- model_terbatas$df.residual - model_logit$df.residual

# Menghitung p-value
p_value_LR <- pchisq(LR_statistic, df = df, lower.tail = FALSE)
p_value_LR
## 'log Lik.' 0.004803533 (df=1)

Uji Likelihood Ratio

Hipotesis

  • \(H_0\): \(\beta_1 = 0\) (tidak signifikan)

  • \(H_1\): \(\beta_1 \neq 0\) (signifikan)

Stat. uji

  • \(G = 7.9520\)

  • \(p\text{-value} = 0.0048\)

Keputusan

  • Tolak \(H_0\)

Interpretasi: Cukup bukti untuk menyatakan bahwa suhu pada saat penerbangan berpengaruh signifikan terhadap gangguan termal pada taraf nyata 5%.


Latihan Soal

Soal 1: Pengaruh Latihan terhadap Cedera

Tabel berikut menunjukkan jumlah jam latihan per minggu dan apakah atlet mengalami cedera dalam musim tertentu. Uji pengaruh jumlah jam latihan terhadap kejadian cedera menggunakan uji Wald dan Likelihood Ratio.

Atlet Jam Latihan Cedera (1=ya, 0=tidak)
1 10 0
2 15 1
3 12 0
4 20 1
5 18 1
6 5 0
7 25 1
8 7 0
9 14 0
10 22 1

Soal 2: Pengaruh Konsumsi Kalori terhadap Berat Badan

Tabel berikut menunjukkan jumlah kalori yang dikonsumsi per hari dan apakah seseorang mengalami kenaikan berat badan dalam sebulan. Uji pengaruh konsumsi kalori terhadap kenaikan berat badan menggunakan uji Wald dan Likelihood Ratio.

Orang Kalori/Hari Kenaikan BB (1=ya, 0=tidak)
1 2000 0
2 2500 1
3 1800 0
4 3000 1
5 2300 0
6 2700 1
7 1500 0
8 2800 1
9 2200 0
10 2600 1

Soal 3: Pengaruh Waktu Belajar terhadap Lulus Ujian

Tabel berikut menunjukkan jumlah jam belajar per minggu dan apakah seorang siswa lulus ujian akhir. Uji pengaruh jumlah jam belajar terhadap kelulusan menggunakan uji Wald dan Likelihood Ratio.

Siswa Jam Belajar Lulus (1=ya, 0=tidak)
1 5 0
2 8 1
3 4 0
4 10 1
5 7 0
6 12 1
7 3 0
8 9 1
9 6 0
10 11 1

Soal 4: Pengaruh Konsumsi Air terhadap Dehidrasi

Tabel berikut menunjukkan jumlah liter air yang dikonsumsi per hari dan apakah seseorang mengalami dehidrasi. Uji pengaruh konsumsi air terhadap kejadian dehidrasi menggunakan uji Wald dan Likelihood Ratio.

Orang Liter Air/Hari Dehidrasi (1=ya, 0=tidak)
1 2.0 0
2 1.5 1
3 2.5 0
4 1.0 1
5 3.0 0
6 0.8 1
7 2.2 0
8 1.7 1
9 3.5 0
10 1.2 1

Soal 5: Pengaruh Kualitas Udara terhadap Penyakit Pernapasan

Tabel berikut menunjukkan indeks kualitas udara dan apakah seseorang mengalami penyakit pernapasan. Uji pengaruh kualitas udara terhadap penyakit pernapasan menggunakan uji Wald dan Likelihood Ratio.

Orang Indeks Kualitas Udara Penyakit Pernapasan (1=ya, 0=tidak)
1 50 0
2 120 1
3 80 0
4 150 1
5 100 0
6 160 1
7 70 0
8 140 1
9 90 0
10 130 1

Soal 6: Pengaruh Konsumsi Alkohol terhadap Insomnia

Tabel berikut menunjukkan jumlah konsumsi alkohol per minggu (dalam gelas) dan apakah seseorang mengalami insomnia. Uji pengaruh konsumsi alkohol terhadap insomnia menggunakan uji Wald dan Likelihood Ratio.

Orang Gelas/Minggu Insomnia (1=ya, 0=tidak)
1 1 0
2 5 1
3 2 0
4 7 1
5 3 0
6 8 1
7 0 0
8 6 1
9 4 0
10 9 1

Soal 7: Pengaruh Konsumsi Kafein terhadap Gangguan Tidur

Tabel berikut menunjukkan jumlah kafein yang dikonsumsi per hari (dalam mg) dan apakah seseorang mengalami gangguan tidur. Uji pengaruh konsumsi kafein terhadap gangguan tidur menggunakan uji Wald dan Likelihood Ratio.

Orang Kafein (mg/hari) Gangguan Tidur (1=ya, 0=tidak)
1 100 0
2 250 1
3 150 0
4 300 1
5 200 0
6 350 1
7 80 0
8 280 1
9 180 0
10 320 1

Soal 8: Pengaruh Konsumsi Gula terhadap Risiko Diabetes

Tabel berikut menunjukkan jumlah konsumsi gula per hari (dalam gram) dan apakah seseorang didiagnosis dengan diabetes. Uji pengaruh konsumsi gula terhadap risiko diabetes menggunakan uji Wald dan Likelihood Ratio.

Orang Gula (gram/hari) Diabetes (1=ya, 0=tidak)
1 30 0
2 50 1
3 40 0
4 60 1
5 45 0
6 70 1
7 25 0
8 55 1
9 35 0
10 65 1

Soal 9: Pengaruh Pola Tidur terhadap Produktivitas

Tabel berikut menunjukkan jumlah jam tidur per hari dan apakah seseorang produktif di tempat kerja. Uji pengaruh pola tidur terhadap produktivitas menggunakan uji Wald dan Likelihood Ratio.

Orang Jam Tidur/Hari Produktif (1=ya, 0=tidak)
1 6 0
2 8 1
3 5 0
4 7 1
5 4 0
6 9 1
7 3 0
8 10 1
9 6 0
10 8 1

Soal 10: Pengaruh Aktivitas Fisik terhadap Penyakit Jantung

Tabel berikut menunjukkan jumlah waktu yang dihabiskan untuk aktivitas fisik per minggu (dalam jam) dan apakah seseorang didiagnosis dengan penyakit jantung. Uji pengaruh aktivitas fisik terhadap risiko penyakit jantung menggunakan uji Wald dan Likelihood Ratio.

Orang Jam/Minggu Penyakit Jantung (1=ya, 0=tidak)
1 3 0
2 1 1
3 4 0
4 0 1
5 5 0
6 2 1
7 6 0
8 1 1
9 7 0
10 0 1