Estimasi Model
Pada bab ini saya akan membahas pemilihan model untuk parametrik
alternatif yang berfokus pada data dari distribusi kontinu dan
menjelaskan tentang estimasi untuk data yang dikelompokkan, disensor,
dan dipotong.
Model Selection and Diagnostics
Perbandingan Grafik Dsitribusi
Gambar diatas menunjukkan fungsi distribusi dan densitas
nonparametrik versus fitted. Pada grafik disebelah kiri membandingkan
fungsi distribusi, dengan titik-titik yang sesuai dengan distribusi
empiris, kurva biru tebal sesuai dengan gamma yang dipasang dan kurva
ungu muda sesuai dengan Pareto yang dipasang. Panel sebelah kanan
membandingkan ketiga distribusi ini yang dirangkum menggunakan fungsi
kepadatan probabilitas.
Panel kanan memberikan informasi serupa
untuk fungsi kerapatan dan memberikan pesan yang konsisten. Berdasarkan
(hanya) angka-angka ini, distribusi Pareto adalah pilihan yang jelas
bagi analis.
Panel kiri menunjukkan fungsi distribusi distribusi
klaim. Titik-titik yang membentuk kurva “berbentuk S” mewakili fungsi
distribusi empiris pada setiap pengamatan. Kurva biru tebal memberikan
nilai yang sesuai untuk distribusi gamma yang pas dan ungu muda untuk
distribusi Pareto yang pas. Karena Pareto lebih dekat dengan fungsi
distribusi empiris daripada gamma, ini memberikan bukti bahwa Pareto
adalah model yang lebih baik untuk kumpulan data ini.
Gambar diatas adalah probabilitas-probabilitas plot,atau \((pp)\) plot. \(PP\) plot mmebandingkan probabilitas
kumulatif dibawah dua model. Gamma yang dipasang di sebelah kiri dan
Pareto yang dipasang di sebelah kanan, dibandingkan dengan fungsi
distribusi data empiris yang sama. Garis lurus mewakili kesetaraan
antara dua distribusi yang dibandingkan, sehingga titik yang dekat
dengan garis diinginkan. Seperti yang terlihat pada demonstrasi
sebelumnya, Pareto jauh lebih dekat dengan distribusi empiris daripada
gamma, memberikan bukti tambahan bahwa Pareto adalah model yang lebih
baik.
Sumbu horizontal memberikan fungsi distribusi empiris pada
setiap pengamatan. Di panel sebelah kiri, fungsi distribusi yang sesuai
untuk gamma ditampilkan di sumbu vertikal. Panel sebelah kanan
menunjukkan distribusi Pareto yang pas.
Perbandingan Statistik Distribusi
Pada tabel dibawah disebut sebagai three goodness of fit statistics
yaitu ukuran yang digunakan untuk menilai seberapa cocok model statistik
dengan data, biasanya dengan meringkas perbedaan antara pengamatan dan
nilai yang diharapkan dibawah model yang umum digunakan.
\(F_N\) = distribusi empiris
\(F\) = distribusi hipotesis
\(F^*_i = F(x_i)\)
Kolmogorov-Smirnov statistics adalah perbedaan absolut maksimum
antara fungsi distribusi yang dipasang dan fungsi distribusi empiris.
Alih-alih membandingkan perbedaan antara titik tunggal, statistik
Cramer-von Mises mengintegrasikan perbedaan antara fungsi distribusi
empiris dan pas pada seluruh rentang nilai. Statistik Anderson-Darling
juga mengintegrasikan perbedaan ini pada rentang nilai, meskipun
diboboti oleh kebalikan dari varian. Oleh karena itu lebih menekankan
pada ekor distribusi
Method of Moment
Metode ini merupakan estimasi parameter populasi dengan pendekatan
momen parametrik menggunakan momen sampel empiris. pada momen ini, momen
distribusi parametrik menggunakan momen empiris atau nonparametrik
kemudian dapat dipecahkan secara aljabar untuk estimasi parameter.
Ada beberapa definisi berdasarkan apa yang saya cari,sebagai
berikut.
Percentile Matching
Teori pencocokan persentil adalah sebagai berikut: Persentil teoretis
𝑝 populasi dinyatakan sebagai fungsi dalam parameter 𝜃 dan ditetapkan
sama dengan persentil empiris yang dihaluskan \(𝑝̂\) dari sampel data. 𝜃 kemudian dipecahkan
dalam hal ini persamaan dan \(𝜃̂\) yang
dihasilkan dianggap sebagai estimasi titik untuk parameter 𝜃. Dengan
kata lain, kita mengasumsikan bahwa nilai persentil yang dipilih dari
sampel sama dengan nilai persentil teoretis dalam populasi dan kemudian
dapat menyimpulkan apa parameternya. Persentil teoretis 𝑝 diselesaikan
dengan menyetel CDF distribusi sama dengan persentil yang dipilih dan
variabel x dipecahkan. dan variabel 𝑥 dipecahkan. Hal ini dilakukan
karena \(∀𝑝, 𝑝 = 𝑃(𝑥 ≤ 𝑝) = 1 −
e^\frac{-x}{\theta}= 𝐹(𝑥)\) Dalam eksponensial distribusi:
\[
F(x) =p
\] \[
1-e^\frac{-x}{\theta} = p
\] \[
x = -\theta ln(1-p)
\] Nilai 𝑥 kemudian akan ditetapkan sama dengan persentil empiris
yang dihaluskan \(𝑝̂\) yaitu:
\[
𝑝̂=(1-h)x_j +hx_{j+1}
\]
dimana,
dan \(x_j\) adalah persamaan \(j^{th}\) sepotong data dalam sampel yang
dipesan. Intinya, \(𝑝̂\) adalah sebuah
nomor tertimbang tepat untuk mewakili \(p^{th}\) persentil empiris dari setiap
sampel. Jadi,
\[
𝑝̂= x = -\theta ln(1-p)
\] \[
\frac{-𝑝̂}{ln(1-p)} =\theta ̂ or \frac{x}{ln(1-p)}= \theta ̂
\] \(\theta ̂\) adalah estimator
titik, 𝑝 adalah persentil yang dipilih untuk dicocokkan, dan \(𝑝̂= 𝑥\) adalah nilai dari sampel yang sesuai
dengan persentil yang dipilih.
