PADK - Strategi Pemilihan Model
Video Pembelajaran - P14
Video Pembelajaran dapat diakses melalui link berikut : https://ipb.link/materipadk
Dasar-Dasar
- Dari satu dataset, dapat dibangun beberapa model regresi
logistik.
- Tujuan utama dalam membangun model adalah mendapatkan model yang
paling sesuai untuk menggambarkan pola dalam data.
- Tidak ada jaminan bahwa model yang dibangun dapat sepenuhnya menggambarkan data dengan sempurna; yang diharapkan hanyalah menemukan model yang lebih cocok atau lebih sesuai.
Seleksi Model
Untuk memilih model terbaik, digunakan beberapa metode, antara lain:
- Uji Simultan dan Parsial: Menguji signifikansi
parameter secara keseluruhan maupun individual.
- Uji Beda Devians: Membandingkan devians antar model
untuk menilai perbaikan kualitas model.
- Kriteria Akaike (AIC):
\[ \text{AIC} = -2 \log \text{Likelihood} + 2p \] dengan \(p\) adalah jumlah parameter dalam model. Model dengan AIC terkecil dianggap paling baik.
- Uji Diagnostik: Mengevaluasi asumsi dan performa
model, termasuk multikolinearitas dan kesesuaian.
- Kurva ROC: Menilai kemampuan prediksi dengan area
di bawah kurva (AUC).
- Metode Lainnya (dll): Misalnya Cross-Validation, BIC (Bayesian Information Criterion).
Kriteria Pemilihan Model
- Forward Stepwise: Variabel dimasukkan secara
bertahap ke dalam model berdasarkan signifikansi parsialnya.
- Backward Stepwise: Dimulai dengan memasukkan semua variabel prediktor, kemudian dieliminasi satu per satu hingga mendapatkan model terbaik.
Variabel yang tidak signifikan dapat dihapus dari model atau diteliti ulang.
Penjelasan Forward Stepwise
- Seleksi variabel dilakukan secara sequential:
- Pilih variabel dengan nilai korelasi parsial tertinggi.
- Uji kebaikan model dengan variabel tersebut.
- Masukkan variabel selanjutnya dan bandingkan model berdasarkan AIC
atau uji beda devians.
- Ulangi langkah hingga semua variabel signifikan.
- Pilih variabel dengan nilai korelasi parsial tertinggi.
Penjelasan Backward Stepwise
- Dimulai dengan semua variabel prediktor, lalu:
- Hapus satu variabel yang paling tidak signifikan.
- Uji kebaikan model yang tersisa.
- Ulangi proses hingga tercapai model yang paling sesuai.
- Hapus satu variabel yang paling tidak signifikan.
Contoh Backward Stepwise
- Dimulai dengan memasukkan semua variabel prediktor, kemudian dibuang satu per satu secara sequential, sampai didapatkan model yang paling layak digunakan.
Contoh Backward Stepwise
| Model | Prediktor | Devians | df | Model banding | Beda Devians | Beda df | p-value | Signifikansi |
|---|---|---|---|---|---|---|---|---|
| 1 | CS+CW+S*W | 173.7 | 155 | - | - | - | - | - |
| 2 | C + S + W | 186.6 | 166 | (2)-(1) | 12.9 | 11 | 0.30 | Tak Tolak H0 |
| 3a | C + S | 208.8 | 167 | (3a)-(2) | 22.2 | 1 | 0.00 | Tolak H0 |
| 3b | S + W | 194.4 | 169 | (3b)-(2) | 7.8 | 3 | 0.05 | Tak Tolak H0 |
| 3c | C + W | 187.5 | 168 | (3c)-(2) | 0.9 | 2 | 0.64 | Tak Tolak H0 |
| 4a | C | 212.1 | 169 | (4a)-(3c) | 24.6 | 1 | 0.00 | Tolak H0 |
| 4b | W | 194.5 | 171 | (4b)-(3c) | 7 | 3 | 0.07 | Tak Tolak H0 |
| 5 | C=dark + W | 188 | 170 | (5)-(3c) | 0.5 | 2 | 0.78 | Tak Tolak H0 |
| 6 | None | 225.8 | 172 | (6)-(5) | 37.8 | 2 | 0.00 | Tolak H0 |
Tabel Klasifikasi
- Untuk menilai performa model regresi logistik dalam prediksi:
- Prediksi dibuat menjadi biner (\(y =
0\) atau \(y = 1\)).
- Ambang keputusan (\(\pi_0\))
ditentukan.
- Prediksi bernilai \(1\) jika \(\pi_i > \pi_0\).
- Prediksi dibuat menjadi biner (\(y =
0\) atau \(y = 1\)).
| Prediksi 1 (\(\pi_0 = 0.59\)) | Prediksi 2 (\(\pi_0 = 0.5\)) |
|---|---|
| \(y = 1, \hat{y} = 1\): 72 | \(y = 1, \hat{y} = 1\): 65 |
| \(y = 1, \hat{y} = 0\): 28 | \(y = 1, \hat{y} = 0\): 35 |
| \(y = 0, \hat{y} = 1\): 50 | \(y = 0, \hat{y} = 1\): 45 |
| \(y = 0, \hat{y} = 0\): 20 | \(y = 0, \hat{y} = 0\): 25 |
- Sensitivitas:
\[ \text{Sensitivitas 1} = \frac{72}{100} = 0.72, \quad \text{Sensitivitas 2} = \frac{65}{100} = 0.65 \]
- Spesifisitas:
\[ \text{Spesifisitas 1} = \frac{20}{70} = 0.29, \quad \text{Spesifisitas 2} = \frac{25}{70} = 0.36 \]
- Akurasi Keseluruhan:
\[ \text{Akurasi 1} = \frac{92}{170} = 0.54, \quad \text{Akurasi 2} = \frac{90}{170} = 0.53 \]
Kurva ROC
- Receiver Operating Characteristic (ROC):
Menggambarkan hubungan antara sensitivitas (y-axis) dan 1-spesifisitas
(x-axis).
- Area di Bawah Kurva (AUC): Mengukur kemampuan prediktif model. Model yang baik memiliki AUC tinggi.
Indeks Konkordansi (c): Nilai AUC. Model dengan \(c > 0.8\) dianggap sangat baik.
Kesimpulan:
Seleksi model regresi logistik bertujuan memperoleh model yang sederhana, signifikan, dan memiliki kemampuan prediksi yang baik. Setiap metode seperti AIC, ROC, dan stepwise memiliki keunggulan sesuai kebutuhan analisis.