Validasi model adalah proses, untuk memastikan bahwa model yang
diusulkan sudah tepat, terutama dalam kaitannya dengan tujuan
investigasi Keterbatasan penting dan proses pemilihan model yang hanya
didasarkan pada data dalam sampel adalah bahwa hal ini dapat rentan
terhadap data- snooping, yaitu menyesuaikan sejumlah besar model ke satu
set data. Dengan melihat sejumlah besar model, kita dapat menyesuaikan
data secara berlebihan dan mengecilkan variasi alami dalam representasi
kita.
Memilih model hanya berdasarkan data dalam sampel juga tidak
mendukung tujuan inferensi prediktif Khususnya dalam aplikasi aktuaria,
tujuan kami adalah membuat pernyataan tentang pengalaman baru, bukan
kumpulan data yang ada. Sebagai contoh, kami menggunakan pengalaman
klaim dari satu tahun untuk mengembangkan model yang dapat digunakan
untuk menentukan harga kontrak asuransi di tahun berikutnya Sebagai
analogi, kita dapat menganggap kumpulan data pelatihan sebagai
pengalaman dari satu tahun yang digunakan untuk memprediksi perilaku
kumpulan data uji tahun berikutnya.
Kita dapat menjawab kritik-kritik ini dengan menggunakan teknik yang
dikenal sebagai validasi di luar
sampel Situasi yang ideal adalah memiliki dua set data, satu
untuk pelatihan, atau pengembangan model, dan satu lagi untuk pengujian,
atau validasi model. Pada awalnya, kami mengembangkan satu atau beberapa
model pada set data pertama yang kami sebut sebagai model kandidat.
Kemudian, kinerja relatif dari model kandidat dapat diukur pada set data
kedua. Dengan cara ini, data yang digunakan untuk memvalidasi model
tidak terpengaruh oleh prosedur yang digunakan untuk merumuskan
model.
Pembagian Data Secara Acak Sayangnya, jarang sekali
dua set data tersedia bagi penyelidik Namun, kita dapat
mengimplementasikan proses validasi dengan membagi set data menjadi sub-
sampel pelatihan dan pengujian. Gambar 4.11
mengilustrasikan pemisahan data ini.
Berbagai peneliti merekomendasikan proporsi yang berbeda untuk
alokasi Snee (1977) menyarankan agar pemisahan data tidak dilakukan
kecuali ukuran sampel cukup besar Panduan dari Picard dan Berk (1990)
menunjukkan bahwa semakin besar jumlah parameter yang akan diestimasi,
maka semakin besar pula proporsi observasi yang dibutuhkan untuk
subsampel pengembangan mode.
Statistik Validasi Model. Sebagian besar literatur
yang mendukung pembentukan proses validasi model didasarkan pada model
regresi dan klasifikasi yang dapat Anda anggap sebagai masalah
input-output (James et al (2013)) Artinya, kita memiliki beberapa input
\(x_1,...,x_k\) yang berhubungan dengan
output y melalui fungsi seperti :
\(y = \mathrm{g}\left(x_1,
\ldots,x_k\right).\)
Seseorang menggunakan sampel pelatihan untuk mengembangkan estimasi
\(g\), katakanlah, \(\hat{g}\), dan kemudian mengkalibrasi jarak
dari hasil yang diamati ke prediksi menggunakan kriteria dalam bentuk
:
Di sini, “d” adalah suatu ukuran jarak dan jumlah \(i\) adalah jumlah dan data uji. Dalam
banyak aplikasi regresi, adalah umum untuk menggunakan jarak Euclidean
kuadrat dengan bentuk \(d(y_{i}, g) = (y_{i} -
g) ^ 2\) Dalam aplikasi aktuarial, jarak Euclidean \(d(y_{i}, g) = |y_{i} - g|\) sering kali
lebih disukai karena sifat data yang condong ke kanan (nilai y yang
besar dan terpencar bisa berpengaruh besar terhadap ukuran).
Memilih Distribusi. Namun, fokus kami sejauh ini adalah memilih
distribusi untuk kumpulan data yang dapat digunakan untuk pemodelan
aktuara tanpa input tambahan zy,… Bahkan dalam masalah yang lebih
mendasar ini, pendekatan validasi model sangat berharga. Jika kita
mendasarkan semua inferensi hanya pada data dalam sampel, maka ada
kecenderungan untuk memilih model yang lebih rumit daripada yang
dibutuhkan. Sebagai contoh, kita dapat memilih empat parameter GB2,
generalized beta jenis kedua, distribusi ketika hanya dibutuhkan dua
parameter Pareto Kriteria informasi seperti AIC dan BIC termasuk penalti
untuk kompleksitas model sehingga memberikan perlindungan, tetapi
menggunakan sampel uji adalah jaminan terbaik untuk mencapai model yang
parsimoni Dani kutipan yang sering dikaitkan dengan Albert Einstein,
kami ingin menggunakan model sesederhana mungkin tetapi tidak lebih
sederhana.
4.2.4. Pemilihan Model Berdasarkan Validasi Silang
Meskipun validasi di luar sampel adalah standar emas dalam pemodelan
prediktif, tidak selalu praktis untuk melakukannya. Alasan utamanya
adalah karena kita memiliki ukuran sampel yang terbatas dan kriteria
pemilihan model di luar sampel dalam persamaan (4.4) bergantung pada
pembagian data secara acak. Ini berarti bahwa analis yang berbeda,
bahkan ketika bekerja dengan set data yang sama dan pendekatan yang sama
untuk pemodelan, dapat memilih model yang berbeda. Hal ini mungkin
terjadi dalam aplikasi aktuaria karena kita bekerja dengan set data yang
miring di mana ada kemungkinan besar untuk mendapatkan hasil yang sangat
besar dan hasil yang besar dapat memiliki pengaruh yang besar pada
estimasi parameter.
Prosedur Validasi Silang. Sebagai alternatif,
seseorang dapat menggunakan validasi silang, sebagai berikut.
• Prosedurnya dimulai dengan menggunakan mekanisme acak untuk membagi
data menjadi K subset dengan ukuran yang kurang lebih sama, yang dikenal
sebagai fold, di mana analis biasanya menggunak 5 hingga 10.
• Selanjutnya, kita menggunakan K-1 subsampekspertama untuk
mengestimasi parameter model. Kemudian, “prediksi hasil untuk K
subsampel dan gunakan ukuran seperti pada persamaan (4.4) untuk
meringkas kecocokan.
• Sekarang, ulangi hal ini dengan memegang masing-masing dari K
sub-sampel, rangkum dengan statistik di luar sampel. Dengan demikian,
rangkumlah K statistik ini, biasanya dengan rata-rata, untuk memberikan
satu statistik keseluruhan untuk tujuan perbandingan.
Ulangi langkah-langkah ini untuk beberapa model kandidat dan pilih
model dengan statistik validasi silang terendah secara keseluruhan.
Validasi silang banyak digunakan karena mempertahankan rasa prediktif
dari proses validasi model di luar sampel, tetapi karena penggunaan
ulang data, lebih stabil dibandingkan sampel acak.