PADK - Regresi Logistik
Video Pembelajaran - P12
Video Pembelajaran dapat diakses melalui link berikut : https://ipb.link/materipadk
Penelitian dilakukan untuk mengetahui pengaruh harga (X1) dan kualitas sinyal (X2) terhadap kepuasan pelanggan (Y).
Variabel X1 dan X2 merupakan penilaian numerik, sedangkan Y merupakan peubah biner dengan 1 menggambarkan pelanggan puas dan 0 tidak puas. Penelitian dilakukan terhadap 30 pelanggan.
X1 -> harga
X2 -> kualitas sinyal
Y -> dua kategori:
• 1 puas
• 0 tidak puas
\[ \log \left( \frac{\pi(x)}{1 - \pi(x)} \right) = \beta_0 + \beta_1 x_1 + \beta_2 x_2 \]
\[ \hat{\pi}(x) = \frac{\exp(\beta_0 + \beta_1 x_1 + \beta_2 x_2)}{1 - \exp(\beta_0 + \beta_1 x_1 + \beta_2 x_2)} \]
\[ \hat{\pi}(x) = \frac{\exp(3.7523 + 0.00003 x_1 - 0.0473 x_2)}{1 - \exp(3.7523 + 0.00003 x_1 - 0.0473 x_2)} \]
Berdasarkan R-sq, model hanya dapat mewakili 2.87% keragaman pada data.
- Hasil uji likelihood ratio: Model tidak signifikan
pada taraf nyata 5%.
- Hasil uji wald: Peubah harga dan kualitas sinyal tidak berpengaruh signifikan terhadap kepuasan pelanggan provider.
Hipotesis
- H0: model cocok
- H1: model tidak cocok
Keputusan: Tak tolak H0
Berdasarkan uji goodness of fit, dapat disimpulkan bahwa model cocok digunakan pada taraf nyata 5%.
Sebuah penelitian dilakukan untuk mengetahui preferensi belanja remaja berdasarkan jenjang pendidikan dan pendapatan keluarga.
Berikut merupakan rincian peubahnya:
\[ Pendidikan = \begin{cases} 1, & \text{SMP} \\ 2, & \text{SMA} \\ 3, & \text{S1} \end{cases} \]
\[ Preferensi belanja = \begin{cases} 1, & \text{Online} \\ 0, & \text{Offline} \end{cases} \]
Model dengan peubah dummy
\[ \logit(\pi(x)) = \beta_0 + \beta_1 c_2 + \beta_2 c_3 + \beta_3 x \]
- \(c_2\) = bernilai 1 untuk SMA, 0
lainnya
- \(c_3\) = bernilai 1 untuk S1, 0
lainnya
- \(x\) = pendapatan (dalam juta)
Model dengan peubah dummy
\[ \logit(\pi(x)) = -14.6713 + 0.7847c_2 + 3.8603c_2 + 2.6625x \]
| Pendidikan | \(\logit(\pi(x))\) |
|---|---|
| SMP | \(\logit(\pi(x)) = -14.6713 + 0.7847(0) +
3.8603(0) + 2.6625x\) \(\logit(\pi(x)) = -14.6713 + 2.6625x\) |
| SMA | \(\logit(\pi(x)) = -14.6713 + 0.7847(1) +
3.8603(0) + 2.6625x\) \(\logit(\pi(x)) = -13.8866 + 2.6625x\) |
| S1 | \(\logit(\pi(x)) = -14.6713 + 0.7847(0) +
3.8603(1) + 2.6625x\) \(\logit(\pi(x)) = -10.811 + 2.6625x\) |
Contoh pendugaan
\[ \pi(x) = \frac{\exp(\logit(\pi(x)))}{1 + \exp(\logit(\pi(x)))} \]
| Wilayah | Pendapatan | \(\logit(\pi(x))\) | \(\pi(x)\) | \(Y\) |
|---|---|---|---|---|
| SMP | 2 Juta | -14.6713 + 2.6625 (2) = -9.3463 | 0.000087 | Offline (Y = 0) |
| SMA | 2 Juta | -13.8866 + 2.6625 (2) = -8.5616 | 0.000192 | Offline (Y = 0) |
| S1 | 2 Juta | -10.811 + 2.6625 (2) = -5.486 | 0.004127 | Offline (Y = 0) |
Perhitungan Odds Ratio Dua Kategori
| Pendidikan | Intersep Model | Intersep Model SMP | Selisih Intersep | Odds Ratio | Interpretasi |
|---|---|---|---|---|---|
| SMA | -13.8866 | -14.6713 | 0.7847 | 2.1917 | Dugaan odds seseorang jenjang SMA untuk memilih belanja online adalah sebesar 2.1917 kali dugaan odds untuk seseorang dari jenjang SMP |
| S1 | -10.811 | -14.6713 | 3.8603 | 47.4796 | Dugaan odds seseorang jenjang S1 untuk memilih belanja online adalah sebesar 47.4796 kali dugaan odds untuk seseorang dari jenjang SMP |
Berdasarkan R-square, model hanya dapat mewakili 58.97% dari keragaman pada data.
Berdasarkan Uji likelihood ratio, dapat disimpulkan bahwa minimal ada 1 peubah yang berpengaruh signifikan terhadap preferensi belanja pada taraf nyata 5%.
H0 : model cocok
H1 : model tidak cocok
Berdasarkan Uji goodness of fit, dapat disimpulkan bahwa model preferensi belanja terhadap pendidikan dan pendapatan cocok digunakan pada taraf nyata 5%.
01 Regresi Logistik Ordinal
- Terdapat beberapa opsi model untuk peubah kategorik ordinal, yaitu memperlakukan peubah tersebut sebagai peubah nominal, peubah numerik, dan peubah biner.
- Model yang terbaik memiliki nilai likelihood ratio dari selisih antara model intercept dan model lengkap yang paling kecil.
Sebuah penelitian dilakukan untuk mengetahui preferensi belanja remaja berdasarkan jenjang pendidikan dan pendapatan keluarga. Berikut merupakan rincian peubahnya:
\[ Pendidikan = \begin{cases} 1, & \text{SMP} \\ 2, & \text{SMA} \\ 3, & \text{S1} \end{cases} \]
\[ Preferensi \text{belanja} = \begin{cases} 1, & \text{Online} \\ 0, & \text{Offline} \end{cases} \]
| Pendidikan | Intersep Model | Intersep Model SMP | Selisih Intersep | Odds Ratio | Interpretasi |
|---|---|---|---|---|---|
| SMA | -13.8866 | -14.6713 | 0.7847 | 2.1917 | Dugaan odds seseorang jenjang SMA untuk memilih belanja online adalah sebesar 2.1917 kali dugaan odds untuk seseorang dari jenjang SMP |
| S1 | -10.811 | -14.6713 | 3.8603 | 47.4796 | Dugaan odds seseorang jenjang S1 untuk memilih belanja online adalah sebesar 47.4796 kali dugaan odds untuk seseorang dari jenjang SMP |
02 Model Interaksi
- Ada dua atau lebih peubah bebas pada model.
- Interaksi; efek bersama 2 peubah bebas atau lebih yang mempengaruhi \(y\).
- Model ditambahkan peubah baru sebagai interaksi antar peubah bebas.
| Peubah bebas: A, B | Peubah bebas: A, B, C |
|---|---|
| Interaksi: A*B | Interaksi: AB, AC, BC, AB*C |
\[ \logit(\pi(x)) = -14.1174 + 0.9248 \text{pendidikan} + 2.1431 \text{pendapatan} + 0.177 \text{pendpatan} * \text{pendpatan} \]
SMP (pendidikan = 1)
\(\logit(\pi(x)) = -13.1926 + 2.3201
\text{pendapatan}\)
SMA (pendidikan = 2)
\(\logit(\pi(x)) = -12.2678 + 2.4971
\text{pendapatan}\)
S1 (pendidikan = 3)
\(\logit(\pi(x)) = -11.343 + 2.6741
\text{pendapatan}\)
\[ \logit(\pi(x)) = -11.8665 - 20.7048 \text{pendidikan} + 2.2043 \text{pendapatan} + 5.9385 \text{pendidikan} * \text{pendapatan} \]
S1 (pendidikan = 1)
\(\logit(\pi(x)) = -32.5713 + 8.1428
\text{pendapatan}\)
Non-S1 (pendidikan = 0)
\(\logit(\pi(x)) = -11.8665 + 2.2043
\text{pendapatan}\)
Kriteria Pemilihan Model
- Berdasarkan uji simultan dan parsial
- Uji beda devians
- AIC
- Uji diagnostik
- Kurva ROC
- dll
Seleksi Model
- Forward Stepwise
- Backward Stepwise
Uji Beda Devians
- Hipotesis
- H0: model sederhana lebih baik
- H1: model yang lebih lengkap yang lebih baik
- Devians
\[ D = -2 \sum_{i=1}^{n} \left[ y_i \ln \left(\frac{\hat{\pi_i}}{y_i}\right) + (1 - y_i) \ln \left(\frac{1-\hat{\pi_i}}{1 - y_i}\right)\right] \]
- Kriteria Penolakan
\[ D_{\text{hitung}} > \chi^2_{(db = n-p)} \quad \text{Tolak } H_0 \]
AIC
- AIC = -2 log likelihood + 2 (jumlah parameter dalam model)
- Model yang lebih baik adalah model yang memiliki AIC yang terkecil.
Forward Stepwise
- Menyeleksi satu persatu variabel yang masuk dalam model secara sequential.
- Misal: ada 4 peubah penjelas (X1: jenis kelamin, X2: umur, X3: pekerjaan, X4: pendapatan)
- Dari keempat peubah penjelas itu, yang dimasukan pertama ke dalam model adalah variabel yang memiliki nilai korelasi parsial paling tinggi.
- Uji kebaikan model tersebut, jika model tersebut cocok maka peubah penjelas tersebut masuk kedalam model.
- Masukkan peubah penjelas selanjutnya.
- Bandingkan kedua model tersebut baik berdasarkan AIC ataupun beda deviansnya.
- Dan seterusnya.
Backward Stepwise
- Dimulai dengan memasukkan semua variabel prediktor, kemudian dibuang satu persatu secara sequential, sampai didapatkan model yang paling layak digunakan.
Contoh Backward Stepwise
| Model | Prediktor | Devians | df | Model banding | Beda Devians | Beda df | p-value | Signifikansi |
|---|---|---|---|---|---|---|---|---|
| 1 | C + S + C + W | 173.7 | 155 | - | - | - | - | - |
| 2 | C + S + W | 186.6 | 167 | (2)-(1) | 12.9 | 11 | 0.30 | Tak Tolak H0 |
| 3a | C + S | 208.8 | 167 | (3a)-(2) | 22.2 | 1 | 0.00 | Tolak H0 |
| 3b | S + W | 194.4 | 158 | (3b)-(2) | 7.8 | 3 | 0.05 | Tak Tolak H0 |
| 3c | C + W | 187.5 | 160 | (3c)-(2) | 0.9 | 1 | 0.64 | Tak Tolak H0 |
| 4a | C | 212.2 | 164 | (4a)-(3c) | 24.6 | 1 | 0.00 | Tolak H0 |
| 4b | W | 194.5 | 157 | (4b)-(3c) | 7.0 | 3 | 0.07 | Tak Tolak H0 |
| 5 | C = dark + W | 188 | 170 | (5)-(3c) | 0.3 | 2 | 0.78 | Tak Tolak H0 |
| None | 225.8 | 172 | (6)-(5) | 37.8 | 2 | 0.00 | Tolak H0 |
Tabel Klasifikasi
- Untuk melihat kebaikan model regresi logistik dalam membuat prediksi.
- Membuat prediksi menjadi biner(0,1).
- π₀ sebagai cut off keputusan hasil klasifikasi.
- Prediksi bernilai 1 ketika π₁ > π₀.
- Peluang untuk pilihan π₀ bebas ditentukan.
Tabel Klasifikasi
| Aktual | Prediksi 1 π₀ = 0.59 | Prediksi 2 π₀ = 0.5 | ||
|---|---|---|---|---|
| ȳ = 1 | ȳ = 0 | ȳ = 1 | ȳ = 0 | |
| y = 1 | 72 | 28 | 65 | 35 |
| y = 0 | 50 | 20 | 45 | 25 |
π₀ = p(y = 1)
π₀ = 100/170 = 0.59
Sensitivitas = p(ȳ = 1 | y = 1)
Sensitivitas 1 = 72/100 = 0.72
Sensitivitas 2 = 65/100 = 0.65
Spesifisitas = p(ȳ = 0 | y = 0)
Spesifisitas 1 = 20/70 = 0.29
Spesifisitas 2 = 25/70 = 0.36
Keseluruhan akurasi
Akurasi 1 = 92/170 = 0.54
Akurasi 2 = 90/170 = 0.53
Kurva ROC
- ROC = Receiver Operating Characteristic.
- Menggambarkan hubungan antara sensitivitas (sumbu x) dan 1-spesifisitas (sumbu y).
- Semakin baik model, semakin tinggi kurva ROC, semakin luas daerah di bawah kurva ROC.
- Indeks konkordansi (c) : nilai ukuran daya prediksi.
Fakta Kurva ROC
- Area di bawah kurva ROC mengukur kemampuan prediksi model (indeks konkordan).
- Semakin baik kuasa prediktif model, semakin tinggi kurva ROC.
- Model yang baik adalah model dengan indeks konkordansi tinggi.
- Pada tingkat spesifisitas tertentu, kuasa prediktif yang lebih baik bersesuaian dengan sensitivitas yang tinggi.