PADK - Strategi Pemilihan Model

Video Pembelajaran - P14

Video Pembelajaran dapat diakses melalui link berikut : https://ipb.link/materipadk

Dasar-Dasar

  1. Dari satu dataset, dapat dibangun beberapa model regresi logistik.
  2. Tujuan utama dalam membangun model adalah mendapatkan model yang paling sesuai untuk menggambarkan pola dalam data.
  3. Tidak ada jaminan bahwa model yang dibangun dapat sepenuhnya menggambarkan data dengan sempurna; yang diharapkan hanyalah menemukan model yang lebih cocok atau lebih sesuai.

Seleksi Model

Untuk memilih model terbaik, digunakan beberapa metode, antara lain:

  • Uji Simultan dan Parsial: Menguji signifikansi parameter secara keseluruhan maupun individual.
  • Uji Beda Devians: Membandingkan devians antar model untuk menilai perbaikan kualitas model.
  • Kriteria Akaike (AIC):
    \[ \text{AIC} = -2 \log \text{Likelihood} + 2p \] dengan \(p\) adalah jumlah parameter dalam model. Model dengan AIC terkecil dianggap paling baik.
  • Uji Diagnostik: Mengevaluasi asumsi dan performa model, termasuk multikolinearitas dan kesesuaian.
  • Kurva ROC: Menilai kemampuan prediksi dengan area di bawah kurva (AUC).
  • Metode Lainnya (dll): Misalnya Cross-Validation, BIC (Bayesian Information Criterion).

Kriteria Pemilihan Model

  1. Forward Stepwise: Variabel dimasukkan secara bertahap ke dalam model berdasarkan signifikansi parsialnya.
  2. Backward Stepwise: Dimulai dengan memasukkan semua variabel prediktor, kemudian dieliminasi satu per satu hingga mendapatkan model terbaik.

Variabel yang tidak signifikan dapat dihapus dari model atau diteliti ulang.


Penjelasan Forward Stepwise

  • Seleksi variabel dilakukan secara sequential:
    1. Pilih variabel dengan nilai korelasi parsial tertinggi.
    2. Uji kebaikan model dengan variabel tersebut.
    3. Masukkan variabel selanjutnya dan bandingkan model berdasarkan AIC atau uji beda devians.
    4. Ulangi langkah hingga semua variabel signifikan.

Penjelasan Backward Stepwise

  • Dimulai dengan semua variabel prediktor, lalu:
    1. Hapus satu variabel yang paling tidak signifikan.
    2. Uji kebaikan model yang tersisa.
    3. Ulangi proses hingga tercapai model yang paling sesuai.

Contoh Backward Stepwise

  • Dimulai dengan memasukkan semua variabel prediktor, kemudian dibuang satu per satu secara sequential, sampai didapatkan model yang paling layak digunakan.

Contoh Backward Stepwise

Model Prediktor Devians df Model banding Beda Devians Beda df p-value Signifikansi
1 CS+CW+S*W 173.7 155 - - - - -
2 C + S + W 186.6 166 (2)-(1) 12.9 11 0.30 Tak Tolak H0
3a C + S 208.8 167 (3a)-(2) 22.2 1 0.00 Tolak H0
3b S + W 194.4 169 (3b)-(2) 7.8 3 0.05 Tak Tolak H0
3c C + W 187.5 168 (3c)-(2) 0.9 2 0.64 Tak Tolak H0
4a C 212.1 169 (4a)-(3c) 24.6 1 0.00 Tolak H0
4b W 194.5 171 (4b)-(3c) 7 3 0.07 Tak Tolak H0
5 C=dark + W 188 170 (5)-(3c) 0.5 2 0.78 Tak Tolak H0
6 None 225.8 172 (6)-(5) 37.8 2 0.00 Tolak H0

Tabel Klasifikasi

  • Untuk menilai performa model regresi logistik dalam prediksi:
    1. Prediksi dibuat menjadi biner (\(y = 0\) atau \(y = 1\)).
    2. Ambang keputusan (\(\pi_0\)) ditentukan.
    3. Prediksi bernilai \(1\) jika \(\pi_i > \pi_0\).
Prediksi 1 (\(\pi_0 = 0.59\)) Prediksi 2 (\(\pi_0 = 0.5\))
\(y = 1, \hat{y} = 1\): 72 \(y = 1, \hat{y} = 1\): 65
\(y = 1, \hat{y} = 0\): 28 \(y = 1, \hat{y} = 0\): 35
\(y = 0, \hat{y} = 1\): 50 \(y = 0, \hat{y} = 1\): 45
\(y = 0, \hat{y} = 0\): 20 \(y = 0, \hat{y} = 0\): 25
  • Sensitivitas:
    \[ \text{Sensitivitas 1} = \frac{72}{100} = 0.72, \quad \text{Sensitivitas 2} = \frac{65}{100} = 0.65 \]
  • Spesifisitas:
    \[ \text{Spesifisitas 1} = \frac{20}{70} = 0.29, \quad \text{Spesifisitas 2} = \frac{25}{70} = 0.36 \]
  • Akurasi Keseluruhan:
    \[ \text{Akurasi 1} = \frac{92}{170} = 0.54, \quad \text{Akurasi 2} = \frac{90}{170} = 0.53 \]

Kurva ROC

  • Receiver Operating Characteristic (ROC): Menggambarkan hubungan antara sensitivitas (y-axis) dan 1-spesifisitas (x-axis).
  • Area di Bawah Kurva (AUC): Mengukur kemampuan prediktif model. Model yang baik memiliki AUC tinggi.

Indeks Konkordansi (c): Nilai AUC. Model dengan \(c > 0.8\) dianggap sangat baik.

Kesimpulan:

Seleksi model regresi logistik bertujuan memperoleh model yang sederhana, signifikan, dan memiliki kemampuan prediksi yang baik. Setiap metode seperti AIC, ROC, dan stepwise memiliki keunggulan sesuai kebutuhan analisis.