PADK - Regresi Logistik Kategorik

Video Pembelajaran - P11

Video Pembelajaran dapat diakses melalui link berikut : https://ipb.link/materipadk

Regresi Logistik Kategorik

Model dengan Peubah Dummy

Dalam regresi logistik dengan peubah kategorik, peubah dummy digunakan untuk memodelkan kategori. Ini penting karena peubah kategorik tidak dapat digunakan secara langsung dalam model regresi. Sebagai contoh, wilayah dengan tiga kategori (pedesaan, perkotaan, perindustrian) diubah menjadi dua peubah dummy.

Model logit dapat ditulis sebagai:

\[ \text{logit}(\pi(x)) = \beta_0 + \beta_1 c_1 + \beta_2 c_2 + \beta_3 x \]

Contoh Soal

Pada suatu survey diduga perubahan proporsi preferensi suatu merk sepatu A dan B dipengaruhi oleh wilayah dan pendapatan. Peubah respon yang digunakan adalah preferensi merk sepatu, sedangkan wilayah dan pendapatan per bulan merupakan peubah penjelas. Peubah pendapatan merupakan peubah kontinu dan lainnya merupakan peubah kategorik sebagai berikut:

\[ Wilayah(X_1) = \begin{cases} 1 = \text{Pedesaan} \\ 2 = \text{Perkotaan} \\ 3 = \text{Perindustrian} \end{cases} \]

\[ Preferensi Merk Sepatu (Y) = \begin{cases} 1 = \text{Merk A} \\ 0 = \text{Merk B} \end{cases} \]

Asumsi: tidak ada interaksi antar kategori dalam suatu peubah kategorik.

Implementasi R:

# Install and load the necessary package
library(readxl)

# Baca data dari file Excel
data_path <- "C:/Users/Adhiyatma Nugraha/Music/ASISTEN PRAKTIKUM/PENGANTAR ANALISIS DATA KATEGORIK/Data P11.xlsx"
data_sepatu <- read_excel(data_path)

# Mengonversi kolom ke dalam bentuk yang sesuai
data_sepatu <- data.frame(
  wilayah = factor(data_sepatu$wilayah),  # Mengonversi 'wilayah' ke faktor
  pendapatan = data_sepatu$pendapatan,
  preferensi = data_sepatu$merk 
)

# Membuat model logit dengan peubah dummy
logit_sepatu <- glm(preferensi ~ wilayah + pendapatan, data = data_sepatu, family = binomial(link = "logit"))
summary(logit_sepatu)
## 
## Call:
## glm(formula = preferensi ~ wilayah + pendapatan, family = binomial(link = "logit"), 
##     data = data_sepatu)
## 
## Coefficients:
##             Estimate Std. Error z value Pr(>|z|)    
## (Intercept)  -5.7652     1.1585  -4.977 6.47e-07 ***
## wilayah2     -5.5145     1.0207  -5.403 6.57e-08 ***
## wilayah3     -4.7367     1.0695  -4.429 9.48e-06 ***
## pendapatan    4.9848     0.8379   5.949 2.69e-09 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 199.071  on 145  degrees of freedom
## Residual deviance:  96.605  on 142  degrees of freedom
## AIC: 104.6
## 
## Number of Fisher Scoring iterations: 6

Model dengan peubah dummy

\[ \text{logit}(\pi(x)) = \beta_0 + \beta_1 c_1 + \beta_2 c_2 + \beta_3 x \]

Di mana:

  • \(c_1\) = bernilai 1 untuk perkotaan, 0 wilayah lainnya

  • \(c_2\) = bernilai 1 untuk perindustrian, 0 wilayah lainnya

  • \(x\) = pendapatan (dalam juta)

Model dengan peubah dummy

\[ \text{logit}(\pi(x)) = -5.7652 - 5.5145 c_1 - 4.7367 c_2 + 4.9848 x \]

Nilai logit untuk setiap wilayah

Wilayah Persamaan logit \(\pi(x)\)
Pedesaan \(\text{logit}(\pi(x)) = -5.7652 - 5.5145(0) - 4.7367(0) + 4.9848 x = -5.7652 + 4.9848 x\)
Perkotaan \(\text{logit}(\pi(x)) = -5.7652 - 5.5145(1) - 4.7367(0) + 4.9848 x = -11.2797 + 4.9848 x\)
Perindustrian \(\text{logit}(\pi(x)) = -5.7652 - 5.5145(0) - 4.7367(1) + 4.9848 x = -10.5019 + 4.9848 x\)

Contoh pendugaan

\[ \pi(x) = \frac{\exp \left( \text{logit} (\pi(x)) \right)}{1 + \exp \left( \text{logit} (\pi(x)) \right)} \]

Wilayah Pendapatan Logit(π(x)) π(x) Y
Pedesaan 2 Juta -5.7652 + 4.9848 (2) = 4.2044 \(\frac{\exp(4.2044)}{1 + \exp(4.2044)} = 0.9853\) Merek B (Y = 1)
Perkotaan 2 Juta -11.2797 + 4.9848 (2) = -1.3101 \(\frac{\exp(-1.3101)}{1 + \exp(-1.3101)} = 0.2125\) Merek A (Y = 0)
Perindustrian 2 Juta -10.5019 + 4.9848 (2) = -0.5323 \(\frac{\exp(-0.5323)}{1 + \exp(-0.5323)} = 0.36998\) Merek A (Y = 0)

Perhitungan Odd Rasio Dua Wilayah

Odd Rasio antara dua wilayah dihitung berdasarkan selisih intersep dari dua model wilayah.

Wilayah Intersep Model Intersep Model Pedesaan Selisih Intersep Odds Ratio Interpretasi
Perkotaan -11.2797 -5.7652 -5.5145 0.004028 Dugaan odds seseorang dari perkotaan untuk memilih merk sepatu B adalah sebesar 0.004028 kali dugaan odds seseorang dari pedesaan
Perindustrian -0.5323 -5.7652 -4.7367 0.008768 Dugaan odds seseorang dari perindustrian untuk memilih merk sepatu B adalah sebesar 0.008768 kali dugaan odds seseorang dari pedesaan