Teori Risiko

Model Selection and Estimation


Kontak : \(\downarrow\)
Email
Instagram yyosia
RPubs https://rpubs.com/yosia/

4.2 Model Selection

Di bagian ini, kita akan mempelajari cara:

  • Menjelaskan proses spesifikasi pemilihan model berulang

  • Langkah-langkah kerangka yang diperlukan untuk memilih model parametrik

  • Menjelaskan perangkap pemilihan model yang murni didasarkan pada data dalam sampel jika dibandingkan dengan keuntungan validasi model di luar sampel

Bagian ini menggarisbawahi gagasan bahwa pemilihan model adalah proses berulang di mana model dirumuskan secara siklis (ulang) dan diuji kesesuaiannya sebelum menggunakannya untuk inferensi. Setelah ikhtisar, kami menjelaskan Pemilihan model Proses berdasarkan:

  • kumpulan data dalam sampel atau himpunan data pelatihan,

  • kumpulan data di luar sampel atau himpunan data yang di uji, dan

  • metode yang menggabungkan pendekatan ini yang dikenal sebagai validasi silang.

4.2.1 Pemilihan Model Iteratif

Dalam pengembangannya, kami memeriksa data secara grafis, membuat hipotesis struktur model, dan membandingkan data dengan model kandidat untuk merumuskan model yang lebih baik. Box (1980) menggambarkan hal ini sebagai sebuah proses berulang yang ditunjukkan pada Gambar 4.10.


Proses berulang ini memberikan resep yang berguna untuk menyusun tugas dalam menentukan model untuk mewakili sekumpulan data.

1. Langkah pertama, tahap perumusan model, dilakukan dengan memeriksa data secara grafis dan menggunakan pengetahuan sebelumnya tentang hubungan, seperti dari teori ekonomi atau praktik industri.

2. Langkah kedua dalam iterasi adalah penyesuaian berdasarkan asumsi model yang ditentukan. Asumsi-asumsi ini harus konsisten dengan data agar model dapat digunakan secara valid.

3. Langkah ketiga adalah pengecekan diagnostik; data dan model harus konsisten satu sama lain sebelum kesimpulan tambahan dapat dibuat. Pemeriksaan diagnostik merupakan bagian penting dari formulasi model; pemeriksaan ini dapat mengungkapkan kesalahan yang dibuat pada langkah sebelumnya dan memberikan cara untuk memperbaiki kesalahan tersebut.

Proses berulang juga menekankan keterampilan yang Anda butuhkan untuk membuat analitik bekerja. Pertama, Anda memerlukan kemauan untuk meringkas informasi secara numerik dan menggambarkan informasi ini secara grafis. Kedua, penting untuk mengembangkan pemahaman tentang sifat-sifat model. Anda harus memahami bagaimana perilaku model probabilistik untuk mencocokkan satu set data dengan model tersebut. Ketiga, sifat-sifat teoritis model juga penting untuk menyimpulkan hubungan umum berdasarkan perilaku data.

4.2.2 Pemilihan Model Berdasarkan Dataset Pelatihan

Biasanya, dataset yang digunakan untuk analisis disebut sebagai dataset dalam sampel atau dataset pelatihan. Teknik yang tersedia untuk memilih model bergantung pada apakah hasil \(X\) bersifat diskrit, kontinu, atau gabungan keduanya, meskipun prinsipnya sama.

Langkah-langkah Ringkasan Dasar secara grafis dan lainnya. Mulailah dengan meringkas data secara grafis dan dengan statistik yang tidak bergantung pada bentuk parametrik tertentu, seperti yang dirangkum pada Bagian 4.1. Secara khusus, Anda perlu membuat grafik distribusi empiris dan fungsi kepadatan. Khususnya untuk data kehilangan yang mengandung banyak angka nol dan yang dapat miring, menentukan skala yang sesuai (misalnya, logaritmik) dapat menimbulkan kesulitan. Untuk data diskrit, tabel sering kali lebih disukai. Tentukan momen sampel, seperti rata-rata dan varians, serta kuantil yang dipilih, termasuk minimum, maksimum, dan median. Untuk data diskrit, modus (atau nilai yang paling sering muncul) biasanya sangat membantu.

Rangkuman ini, serta pengetahuan Anda tentang praktik industri, akan menyarankan satu atau lebih kandidat model parametrik. Umumnya, mulailah dengan model parametrik yang lebih sederhana (misalnya, satu parameter eksponensial sebelum dua parameter gamma), secara bertahap perkenalkan lebih banyak kerumitan ke dalam proses pemodelan.

Lakukan kritik terhadap model parametrik kandidat secara numerik dan grafis. Untuk grafik, gunakan alat bantu yang diperkenalkan pada Bagian 4.1.2 seperti plot \(pp\) dan \(qq\). Untuk penilaian numerik, periksa signifikansi statistik parameter dan cobalah untuk menghilangkan parameter yang tidak memberikan informasi tambahan.

4.2.3 Pemilihan Model Berdasarkan Dataset Uji

Validasi model adalah proses untuk memastikan bahwa model yang diusulkan sudah tepat, terutama dalam kaitannya dengan tujuan investigasi. Keterbatasan penting dari proses pemilihan model yang hanya didasarkan pada data dalam sampel adalah bahwa hal ini dapat rentan terhadap data-snooping, yaitu menyesuaikan sejumlah besar model ke satu set data. Dengan melihat sejumlah besar model, kita dapat menyesuaikan data secara berlebihan dan mengecilkan variasi alami dalam representasi kita.

Memilih model hanya berdasarkan data dalam sampel juga tidak mendukung tujuan inferensi prediktif. Khususnya dalam aplikasi aktuaria, tujuan kami adalah membuat pernyataan tentang pengalaman baru, bukan kumpulan data yang ada. Sebagai contoh, kami menggunakan pengalaman klaim dari satu tahun untuk mengembangkan model yang dapat digunakan untuk menentukan harga kontrak asuransi di tahun berikutnya. Sebagai analogi, kita dapat menganggap kumpulan data pelatihan sebagai pengalaman dari satu tahun yang digunakan untuk memprediksi perilaku kumpulan data uji tahun berikutnya.

Kita dapat menjawab kritik-kritik ini dengan menggunakan teknik yang dikenal sebagai validasi di luar sampel. Situasi yang ideal adalah memiliki dua set data, satu untuk pelatihan, atau pengembangan model, dan satu lagi untuk pengujian, atau validasi model. Pada awalnya, kami mengembangkan satu atau beberapa model pada set data pertama yang kami sebut sebagai model kandidat. Kemudian, kinerja relatif dari model kandidat dapat diukur pada set data kedua. Dengan cara ini, data yang digunakan untuk memvalidasi model tidak terpengaruh oleh prosedur yang digunakan untuk merumuskan model.

Pembagian Data Secara Acak. Sayangnya, jarang sekali dua set data tersedia bagi penyelidik. Namun, kita dapat mengimplementasikan proses validasi dengan membagi set data menjadi sub-sampel pelatihan dan pengujian. Gambar 4.11 mengilustrasikan pemisahan data ini.


Berbagai peneliti merekomendasikan proporsi yang berbeda untuk alokasi. Snee (1977) menyarankan agar pemisahan data tidak dilakukan kecuali ukuran sampel cukup besar. Panduan dari Picard dan Berk (1990) menunjukkan bahwa semakin besar jumlah parameter yang akan diestimasi, maka semakin besar pula proporsi observasi yang dibutuhkan untuk subsampel pengembangan model.

Statistik Validasi Model. Sebagian besar literatur yang mendukung pembentukan proses validasi model didasarkan pada model regresi dan klasifikasi yang dapat Anda anggap sebagai masalah input-output (James et al. (2013)). Artinya, kita memiliki beberapa input \(x_1,...,x_k\) yang berhubungan dengan output \(y\) melalui fungsi seperti

\[y = \mathrm{g}\left(x_1, \ldots, x_k\right).\]

Seseorang menggunakan sampel pelatihan untuk mengembangkan estimasi \(g\), katakanlah, \(\hat g\), dan kemudian mengkalibrasi jarak dari hasil yang diamati ke prediksi menggunakan kriteria dalam bentuk

\[\begin{equation} \sum_i \mathrm{d}(y_i,\hat{\mathrm{g}}\left(x_{i1}, \ldots, x_{ik}\right) ) . \tag{4.4} \end{equation}\]

Di sini, “d” adalah suatu ukuran jarak dan jumlah \(i\) adalah jumlah dari data uji. Dalam banyak aplikasi regresi, adalah umum untuk menggunakan jarak Euclidean kuadrat dengan bentuk \(\mathrm{d}(y_i,\mathrm{g}) = (y_i-\mathrm{g})^2\) Dalam aplikasi aktuarial, jarak Euclidean \(\mathrm{d}(y_i,\mathrm{g}) = |y_i-\mathrm{g}|\) sering kali lebih disukai karena sifat data yang condong ke kanan (nilai y yang besar dan terpencar bisa berpengaruh besar terhadap ukuran).

Memilih Distribusi. Namun, fokus kami sejauh ini adalah memilih distribusi untuk kumpulan data yang dapat digunakan untuk pemodelan aktuaria tanpa input tambahan \(x_1,...,x_k\). Bahkan dalam masalah yang lebih mendasar ini, pendekatan validasi model sangat berharga. Jika kita mendasarkan semua inferensi hanya pada data dalam sampel, maka ada kecenderungan untuk memilih model yang lebih rumit daripada yang dibutuhkan. Sebagai contoh, kita dapat memilih empat parameter GB2, generalized beta jenis kedua, distribusi ketika hanya dibutuhkan dua parameter Pareto. Kriteria informasi seperti AIC dan BIC termasuk penalti untuk kompleksitas model sehingga memberikan perlindungan, tetapi menggunakan sampel uji adalah jaminan terbaik untuk mencapai model yang parsimoni. Dari kutipan yang sering dikaitkan dengan Albert Einstein, kami ingin “menggunakan model sesederhana mungkin tetapi tidak lebih sederhana.”

4.2.4 Pemilihan Model Berdasarkan Validasi Silang

Meskipun validasi di luar sampel adalah standar emas dalam pemodelan prediktif, tidak selalu praktis untuk melakukannya. Alasan utamanya adalah karena kita memiliki ukuran sampel yang terbatas dan kriteria pemilihan model di luar sampel dalam persamaan (4.4) bergantung pada pembagian data secara acak. Ini berarti bahwa analis yang berbeda, bahkan ketika bekerja dengan set data yang sama dan pendekatan yang sama untuk pemodelan, dapat memilih model yang berbeda. Hal ini mungkin terjadi dalam aplikasi aktuaria karena kita bekerja dengan set data yang miring di mana ada kemungkinan besar untuk mendapatkan hasil yang sangat besar dan hasil yang besar dapat memiliki pengaruh yang besar pada estimasi parameter.

Prosedur Validasi Silang. Sebagai alternatif, seseorang dapat menggunakan validasi silang, sebagai berikut.

• Prosedurnya dimulai dengan menggunakan mekanisme acak untuk membagi data menjadi K subset dengan ukuran yang kurang lebih sama, yang dikenal sebagai fold, di mana analis biasanya menggunakan 5 hingga 10.

• Selanjutnya, kita menggunakan K-1 subsampel pertama untuk mengestimasi parameter model. Kemudian, “prediksi” hasil untuk K subsampel dan gunakan ukuran seperti pada persamaan (4.4) untuk meringkas kecocokan.

• Sekarang, ulangi hal ini dengan memegang masing-masing dari K sub-sampel, rangkum dengan statistik di luar sampel. Dengan demikian, rangkumlah K statistik ini, biasanya dengan rata-rata, untuk memberikan satu statistik keseluruhan untuk tujuan perbandingan.

Ulangi langkah-langkah ini untuk beberapa model kandidat dan pilih model dengan statistik validasi silang terendah secara keseluruhan.

Validasi silang banyak digunakan karena mempertahankan rasa prediktif dari proses validasi model di luar sampel, tetapi karena penggunaan ulang data, lebih stabil dibandingkan sampel acak.