PADK - Regresi Logistik Kategorik
Video Pembelajaran - P11
Video Pembelajaran dapat diakses melalui link berikut : https://ipb.link/materipadk
Regresi Logistik Kategorik
Model dengan Peubah Dummy
Dalam regresi logistik dengan peubah kategorik, peubah dummy digunakan untuk memodelkan kategori. Ini penting karena peubah kategorik tidak dapat digunakan secara langsung dalam model regresi. Sebagai contoh, wilayah dengan tiga kategori (pedesaan, perkotaan, perindustrian) diubah menjadi dua peubah dummy.
Model logit dapat ditulis sebagai:
\[ \text{logit}(\pi(x)) = \beta_0 + \beta_1 c_1 + \beta_2 c_2 + \beta_3 x \]
Contoh Soal
Pada suatu survey diduga perubahan proporsi preferensi suatu merk sepatu A dan B dipengaruhi oleh wilayah dan pendapatan. Peubah respon yang digunakan adalah preferensi merk sepatu, sedangkan wilayah dan pendapatan per bulan merupakan peubah penjelas. Peubah pendapatan merupakan peubah kontinu dan lainnya merupakan peubah kategorik sebagai berikut:
\[ Wilayah(X_1) = \begin{cases} 1 = \text{Pedesaan} \\ 2 = \text{Perkotaan} \\ 3 = \text{Perindustrian} \end{cases} \]
\[ Preferensi Merk Sepatu (Y) = \begin{cases} 1 = \text{Merk A} \\ 0 = \text{Merk B} \end{cases} \]
Asumsi: tidak ada interaksi antar kategori dalam suatu peubah kategorik.
Implementasi R:
# Install and load the necessary package
library(readxl)
# Baca data dari file Excel
data_path <- "C:/Users/Adhiyatma Nugraha/Music/ASISTEN PRAKTIKUM/PENGANTAR ANALISIS DATA KATEGORIK/Data P11.xlsx"
data_sepatu <- read_excel(data_path)
# Mengonversi kolom ke dalam bentuk yang sesuai
data_sepatu <- data.frame(
wilayah = factor(data_sepatu$wilayah), # Mengonversi 'wilayah' ke faktor
pendapatan = data_sepatu$pendapatan,
preferensi = data_sepatu$merk
)
# Membuat model logit dengan peubah dummy
logit_sepatu <- glm(preferensi ~ wilayah + pendapatan, data = data_sepatu, family = binomial(link = "logit"))
summary(logit_sepatu)##
## Call:
## glm(formula = preferensi ~ wilayah + pendapatan, family = binomial(link = "logit"),
## data = data_sepatu)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -5.7652 1.1585 -4.977 6.47e-07 ***
## wilayah2 -5.5145 1.0207 -5.403 6.57e-08 ***
## wilayah3 -4.7367 1.0695 -4.429 9.48e-06 ***
## pendapatan 4.9848 0.8379 5.949 2.69e-09 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 199.071 on 145 degrees of freedom
## Residual deviance: 96.605 on 142 degrees of freedom
## AIC: 104.6
##
## Number of Fisher Scoring iterations: 6
Model dengan peubah dummy
\[ \text{logit}(\pi(x)) = \beta_0 + \beta_1 c_1 + \beta_2 c_2 + \beta_3 x \]
Di mana:
\(c_1\) = bernilai 1 untuk perkotaan, 0 wilayah lainnya
\(c_2\) = bernilai 1 untuk perindustrian, 0 wilayah lainnya
\(x\) = pendapatan (dalam juta)
Model dengan peubah dummy
\[ \text{logit}(\pi(x)) = -5.7652 - 5.5145 c_1 - 4.7367 c_2 + 4.9848 x \]
Nilai logit untuk setiap wilayah
| Wilayah | Persamaan logit \(\pi(x)\) |
|---|---|
| Pedesaan | \(\text{logit}(\pi(x)) = -5.7652 - 5.5145(0) - 4.7367(0) + 4.9848 x = -5.7652 + 4.9848 x\) |
| Perkotaan | \(\text{logit}(\pi(x)) = -5.7652 - 5.5145(1) - 4.7367(0) + 4.9848 x = -11.2797 + 4.9848 x\) |
| Perindustrian | \(\text{logit}(\pi(x)) = -5.7652 - 5.5145(0) - 4.7367(1) + 4.9848 x = -10.5019 + 4.9848 x\) |
Contoh pendugaan
\[ \pi(x) = \frac{\exp \left( \text{logit} (\pi(x)) \right)}{1 + \exp \left( \text{logit} (\pi(x)) \right)} \]
| Wilayah | Pendapatan | Logit(π(x)) | π(x) | Y |
|---|---|---|---|---|
| Pedesaan | 2 Juta | -5.7652 + 4.9848 (2) = 4.2044 | \(\frac{\exp(4.2044)}{1 + \exp(4.2044)} = 0.9853\) | Merek B (Y = 1) |
| Perkotaan | 2 Juta | -11.2797 + 4.9848 (2) = -1.3101 | \(\frac{\exp(-1.3101)}{1 + \exp(-1.3101)} = 0.2125\) | Merek A (Y = 0) |
| Perindustrian | 2 Juta | -10.5019 + 4.9848 (2) = -0.5323 | \(\frac{\exp(-0.5323)}{1 + \exp(-0.5323)} = 0.36998\) | Merek A (Y = 0) |
Perhitungan Odd Rasio Dua Wilayah
Odd Rasio antara dua wilayah dihitung berdasarkan selisih intersep dari dua model wilayah.
| Wilayah | Intersep Model | Intersep Model Pedesaan | Selisih Intersep | Odds Ratio | Interpretasi |
|---|---|---|---|---|---|
| Perkotaan | -11.2797 | -5.7652 | -5.5145 | 0.004028 | Dugaan odds seseorang dari perkotaan untuk memilih merk sepatu B adalah sebesar 0.004028 kali dugaan odds seseorang dari pedesaan |
| Perindustrian | -0.5323 | -5.7652 | -4.7367 | 0.008768 | Dugaan odds seseorang dari perindustrian untuk memilih merk sepatu B adalah sebesar 0.008768 kali dugaan odds seseorang dari pedesaan |