PADK - Regresi Logistik

Video Pembelajaran - P12

Video Pembelajaran dapat diakses melalui link berikut : https://ipb.link/materipadk

Penelitian dilakukan untuk mengetahui pengaruh harga (X1) dan kualitas sinyal (X2) terhadap kepuasan pelanggan (Y).

Variabel X1 dan X2 merupakan penilaian numerik, sedangkan Y merupakan peubah biner dengan 1 menggambarkan pelanggan puas dan 0 tidak puas. Penelitian dilakukan terhadap 30 pelanggan.

X1 -> harga
X2 -> kualitas sinyal
Y -> dua kategori:
• 1 puas
• 0 tidak puas

\[ \log \left( \frac{\pi(x)}{1 - \pi(x)} \right) = \beta_0 + \beta_1 x_1 + \beta_2 x_2 \]

\[ \hat{\pi}(x) = \frac{\exp(\beta_0 + \beta_1 x_1 + \beta_2 x_2)}{1 - \exp(\beta_0 + \beta_1 x_1 + \beta_2 x_2)} \]

\[ \hat{\pi}(x) = \frac{\exp(3.7523 + 0.00003 x_1 - 0.0473 x_2)}{1 - \exp(3.7523 + 0.00003 x_1 - 0.0473 x_2)} \]

Berdasarkan R-sq, model hanya dapat mewakili 2.87% keragaman pada data.

  • Hasil uji likelihood ratio: Model tidak signifikan pada taraf nyata 5%.
  • Hasil uji wald: Peubah harga dan kualitas sinyal tidak berpengaruh signifikan terhadap kepuasan pelanggan provider.

Hipotesis

  • H0: model cocok
  • H1: model tidak cocok

Keputusan: Tak tolak H0

Berdasarkan uji goodness of fit, dapat disimpulkan bahwa model cocok digunakan pada taraf nyata 5%.


Sebuah penelitian dilakukan untuk mengetahui preferensi belanja remaja berdasarkan jenjang pendidikan dan pendapatan keluarga.

Berikut merupakan rincian peubahnya:

\[ Pendidikan = \begin{cases} 1, & \text{SMP} \\ 2, & \text{SMA} \\ 3, & \text{S1} \end{cases} \]

\[ Preferensi belanja = \begin{cases} 1, & \text{Online} \\ 0, & \text{Offline} \end{cases} \]

Model dengan peubah dummy

\[ \logit(\pi(x)) = \beta_0 + \beta_1 c_2 + \beta_2 c_3 + \beta_3 x \]

  • \(c_2\) = bernilai 1 untuk SMA, 0 lainnya
  • \(c_3\) = bernilai 1 untuk S1, 0 lainnya
  • \(x\) = pendapatan (dalam juta)

Model dengan peubah dummy

\[ \logit(\pi(x)) = -14.6713 + 0.7847c_2 + 3.8603c_2 + 2.6625x \]

Pendidikan \(\logit(\pi(x))\)
SMP \(\logit(\pi(x)) = -14.6713 + 0.7847(0) + 3.8603(0) + 2.6625x\)
\(\logit(\pi(x)) = -14.6713 + 2.6625x\)
SMA \(\logit(\pi(x)) = -14.6713 + 0.7847(1) + 3.8603(0) + 2.6625x\)
\(\logit(\pi(x)) = -13.8866 + 2.6625x\)
S1 \(\logit(\pi(x)) = -14.6713 + 0.7847(0) + 3.8603(1) + 2.6625x\)
\(\logit(\pi(x)) = -10.811 + 2.6625x\)

Contoh pendugaan

\[ \pi(x) = \frac{\exp(\logit(\pi(x)))}{1 + \exp(\logit(\pi(x)))} \]

Wilayah Pendapatan \(\logit(\pi(x))\) \(\pi(x)\) \(Y\)
SMP 2 Juta -14.6713 + 2.6625 (2) = -9.3463 0.000087 Offline (Y = 0)
SMA 2 Juta -13.8866 + 2.6625 (2) = -8.5616 0.000192 Offline (Y = 0)
S1 2 Juta -10.811 + 2.6625 (2) = -5.486 0.004127 Offline (Y = 0)

Perhitungan Odds Ratio Dua Kategori

Pendidikan Intersep Model Intersep Model SMP Selisih Intersep Odds Ratio Interpretasi
SMA -13.8866 -14.6713 0.7847 2.1917 Dugaan odds seseorang jenjang SMA untuk memilih belanja online adalah sebesar 2.1917 kali dugaan odds untuk seseorang dari jenjang SMP
S1 -10.811 -14.6713 3.8603 47.4796 Dugaan odds seseorang jenjang S1 untuk memilih belanja online adalah sebesar 47.4796 kali dugaan odds untuk seseorang dari jenjang SMP

Berdasarkan R-square, model hanya dapat mewakili 58.97% dari keragaman pada data.

Berdasarkan Uji likelihood ratio, dapat disimpulkan bahwa minimal ada 1 peubah yang berpengaruh signifikan terhadap preferensi belanja pada taraf nyata 5%.

H0 : model cocok

H1 : model tidak cocok

Berdasarkan Uji goodness of fit, dapat disimpulkan bahwa model preferensi belanja terhadap pendidikan dan pendapatan cocok digunakan pada taraf nyata 5%.


01 Regresi Logistik Ordinal

  • Terdapat beberapa opsi model untuk peubah kategorik ordinal, yaitu memperlakukan peubah tersebut sebagai peubah nominal, peubah numerik, dan peubah biner.
  • Model yang terbaik memiliki nilai likelihood ratio dari selisih antara model intercept dan model lengkap yang paling kecil.

Sebuah penelitian dilakukan untuk mengetahui preferensi belanja remaja berdasarkan jenjang pendidikan dan pendapatan keluarga. Berikut merupakan rincian peubahnya:

\[ Pendidikan = \begin{cases} 1, & \text{SMP} \\ 2, & \text{SMA} \\ 3, & \text{S1} \end{cases} \]

\[ Preferensi \text{belanja} = \begin{cases} 1, & \text{Online} \\ 0, & \text{Offline} \end{cases} \]


Pendidikan Intersep Model Intersep Model SMP Selisih Intersep Odds Ratio Interpretasi
SMA -13.8866 -14.6713 0.7847 2.1917 Dugaan odds seseorang jenjang SMA untuk memilih belanja online adalah sebesar 2.1917 kali dugaan odds untuk seseorang dari jenjang SMP
S1 -10.811 -14.6713 3.8603 47.4796 Dugaan odds seseorang jenjang S1 untuk memilih belanja online adalah sebesar 47.4796 kali dugaan odds untuk seseorang dari jenjang SMP

02 Model Interaksi

  • Ada dua atau lebih peubah bebas pada model.
  • Interaksi; efek bersama 2 peubah bebas atau lebih yang mempengaruhi \(y\).
  • Model ditambahkan peubah baru sebagai interaksi antar peubah bebas.
Peubah bebas: A, B Peubah bebas: A, B, C
Interaksi: A*B Interaksi: AB, AC, BC, AB*C

\[ \logit(\pi(x)) = -14.1174 + 0.9248 \text{pendidikan} + 2.1431 \text{pendapatan} + 0.177 \text{pendpatan} * \text{pendpatan} \]

SMP (pendidikan = 1)
\(\logit(\pi(x)) = -13.1926 + 2.3201 \text{pendapatan}\)

SMA (pendidikan = 2)
\(\logit(\pi(x)) = -12.2678 + 2.4971 \text{pendapatan}\)

S1 (pendidikan = 3)
\(\logit(\pi(x)) = -11.343 + 2.6741 \text{pendapatan}\)

\[ \logit(\pi(x)) = -11.8665 - 20.7048 \text{pendidikan} + 2.2043 \text{pendapatan} + 5.9385 \text{pendidikan} * \text{pendapatan} \]

S1 (pendidikan = 1)
\(\logit(\pi(x)) = -32.5713 + 8.1428 \text{pendapatan}\)

Non-S1 (pendidikan = 0)
\(\logit(\pi(x)) = -11.8665 + 2.2043 \text{pendapatan}\)


Kriteria Pemilihan Model

  • Berdasarkan uji simultan dan parsial
  • Uji beda devians
  • AIC
  • Uji diagnostik
  • Kurva ROC
  • dll

Seleksi Model

  • Forward Stepwise
  • Backward Stepwise

Uji Beda Devians

  • Hipotesis
    • H0: model sederhana lebih baik
    • H1: model yang lebih lengkap yang lebih baik
  • Devians

\[ D = -2 \sum_{i=1}^{n} \left[ y_i \ln \left(\frac{\hat{\pi_i}}{y_i}\right) + (1 - y_i) \ln \left(\frac{1-\hat{\pi_i}}{1 - y_i}\right)\right] \]

  • Kriteria Penolakan

\[ D_{\text{hitung}} > \chi^2_{(db = n-p)} \quad \text{Tolak } H_0 \]


AIC

  • AIC = -2 log likelihood + 2 (jumlah parameter dalam model)
  • Model yang lebih baik adalah model yang memiliki AIC yang terkecil.

Forward Stepwise

  • Menyeleksi satu persatu variabel yang masuk dalam model secara sequential.
  • Misal: ada 4 peubah penjelas (X1: jenis kelamin, X2: umur, X3: pekerjaan, X4: pendapatan)
  • Dari keempat peubah penjelas itu, yang dimasukan pertama ke dalam model adalah variabel yang memiliki nilai korelasi parsial paling tinggi.
  • Uji kebaikan model tersebut, jika model tersebut cocok maka peubah penjelas tersebut masuk kedalam model.
  • Masukkan peubah penjelas selanjutnya.
  • Bandingkan kedua model tersebut baik berdasarkan AIC ataupun beda deviansnya.
  • Dan seterusnya.

Backward Stepwise

  • Dimulai dengan memasukkan semua variabel prediktor, kemudian dibuang satu persatu secara sequential, sampai didapatkan model yang paling layak digunakan.

Contoh Backward Stepwise


Model Prediktor Devians df Model banding Beda Devians Beda df p-value Signifikansi
1 C + S + C + W 173.7 155 - - - - -
2 C + S + W 186.6 167 (2)-(1) 12.9 11 0.30 Tak Tolak H0
3a C + S 208.8 167 (3a)-(2) 22.2 1 0.00 Tolak H0
3b S + W 194.4 158 (3b)-(2) 7.8 3 0.05 Tak Tolak H0
3c C + W 187.5 160 (3c)-(2) 0.9 1 0.64 Tak Tolak H0
4a C 212.2 164 (4a)-(3c) 24.6 1 0.00 Tolak H0
4b W 194.5 157 (4b)-(3c) 7.0 3 0.07 Tak Tolak H0
5 C = dark + W 188 170 (5)-(3c) 0.3 2 0.78 Tak Tolak H0
None 225.8 172 (6)-(5) 37.8 2 0.00 Tolak H0

Tabel Klasifikasi

  • Untuk melihat kebaikan model regresi logistik dalam membuat prediksi.
  • Membuat prediksi menjadi biner(0,1).
  • π₀ sebagai cut off keputusan hasil klasifikasi.
  • Prediksi bernilai 1 ketika π₁ > π₀.
  • Peluang untuk pilihan π₀ bebas ditentukan.

Tabel Klasifikasi

Aktual Prediksi 1 π₀ = 0.59 Prediksi 2 π₀ = 0.5
ȳ = 1 ȳ = 0 ȳ = 1 ȳ = 0
y = 1 72 28 65 35
y = 0 50 20 45 25

π₀ = p(y = 1)

π₀ = 100/170 = 0.59

Sensitivitas = p(ȳ = 1 | y = 1)

Sensitivitas 1 = 72/100 = 0.72

Sensitivitas 2 = 65/100 = 0.65

Spesifisitas = p(ȳ = 0 | y = 0)

Spesifisitas 1 = 20/70 = 0.29

Spesifisitas 2 = 25/70 = 0.36

Keseluruhan akurasi

Akurasi 1 = 92/170 = 0.54

Akurasi 2 = 90/170 = 0.53


Kurva ROC

  • ROC = Receiver Operating Characteristic.
  • Menggambarkan hubungan antara sensitivitas (sumbu x) dan 1-spesifisitas (sumbu y).
  • Semakin baik model, semakin tinggi kurva ROC, semakin luas daerah di bawah kurva ROC.
  • Indeks konkordansi (c) : nilai ukuran daya prediksi.

Fakta Kurva ROC

  • Area di bawah kurva ROC mengukur kemampuan prediksi model (indeks konkordan).
  • Semakin baik kuasa prediktif model, semakin tinggi kurva ROC.
  • Model yang baik adalah model dengan indeks konkordansi tinggi.
  • Pada tingkat spesifisitas tertentu, kuasa prediktif yang lebih baik bersesuaian dengan sensitivitas yang tinggi.