Email : brigita.melantika@student.matanauniversity.ac.id
RPubs : https://rpubs.com/brigitatiaraem/
Jurusan : Statistika
Address : ARA Center, Matana University Tower
Jl. CBD Barat Kav, RT.1, Curug Sangereng, Kelapa Dua, Tangerang, Banten 15810.
Di bagian ini, Anda mempelajari cara:
Perkirakan momen, kuantil, dan distribusi tanpa mengacu pada distribusi parametrik
Ringkas data secara grafis tanpa mengacu pada distribusi parametrik
Tentukan ukuran yang meringkas penyimpangan parametrik dari kecocokan nonparametrik
Gunakan estimator nonparametrik untuk memperkirakan parameter yang dapat digunakan untuk memulai prosedur estimasi parametrik
Pada bagian pembahasan sebelumnya telah mempelajari cara meringkas distribusi dengan cara menghitung, varians, kuantil/persentil, dan sebagainya. Untuk memperkirakan langkah-langkah ringkasan menggunakan kumpulan data, salah satu strateginya adalah:
menganggap bentuk parametrik untuk distribusi, seperti binomial negatif untuk frekuensi atau distribusi gamma untuk tingkat keparahan,
memperkirakan parameter distribusi itu,
gunakan distribusi dengan estimasi parameter untuk menghitung ukuran ringkasan yang diinginkan.
Ini adalah pendekatan parametrik . Strategi lain adalah memperkirakan ukuran ringkasan yang diinginkan langsung dari pengamatan tanpa mengacu pada model parametrik. Tidak mengherankan, ini dikenal sebagai pendekatan nonparametrik
mempertimbangkan jenis skema pengambilan sampel yang paling dasar dan mengasumsikan bahwa observasi adalah realisasi dari serangkaian variabel acak \(X_1, \ldots, X_n\) yang iid menarik dari distribusi populasi yang tidak diketahui \(F( ⋅ )\). Cara yang setara untuk mengatakan ini adalah itu \(X_1, \ldots, X_n\), adalah sampel acak (dengan penggantian) dari F( ⋅) .Kemudian menjelaskan estimator nonparametrik dari banyak ukuran penting yang meringkas sebuah distribusi.
Pada bagian 2.2.2. telah mendefinisikan momen untuk frekuensi dan pada bagian 3.1.1 untuk keparahan. Secara khusus, k -momen ke-, \(\mathrm{E~}[X^k] = \mu^{\prime}_k\) , merangkum banyak aspek distribusi untuk berbagai pilihan k . Di Sini, μ′k kadang-kadang disebut k th momen populasi untuk membedakannya dari k momen sampel,
\[\frac{1}{n} \sum_{i=1}^n X_i^k ,\]
yang merupakan estimator nonparametrik yang sesuai. Dalam aplikasi tipikal, k adalah bilangan bulat positif, meskipun tidak perlu dalam teori.
Kasus khusus yang penting adalah momen pertama di mana \(k = 1\) . Dalam hal ini, simbol prima ( \(\prime\) ) dan 1 subskrip biasanya dijatuhkan dan satu digunakan \(\mu=\mu^{\prime}_1\) untuk menunjukkan mean populasi, atau hanya mean . Estimator sampel yang sesuai untuk \(μ\) disebut rata-rata sampel , dilambangkan dengan bilah di atas variabel acak:
\[\overline{X} =\frac{1}{n} \sum_{i=1}^n X_i .\]
Jenis ringkasan ukuran minat lainnya adalah k -momen pusat ke- , \(\mathrm{E~} [(X-\mu)^k] = \mu_k\) . (Kadang-kadang, \(\mu^{\prime}_k\) disebut k -th momen mentah untuk membedakannya dari momen sentral μk .). Estimator nonparametrik, atau sampel, dari \(\mu_k\) adalah
\[\frac{1}{n} \sum_{i=1}^n \left(X_i - \overline{X}\right)^k .\]
Momen pusat kedua ( \(k = 2\) ) adalah kasus penting yang biasanya akan diberikan simbol baru, \(\sigma^2 = \mathrm{E~} [(X-\mu)^2]\) , dikenal sebagai varians . Sifat penduga momen sampel dari varians seperti \(n^{-1}\sum_{i=1}^n \left(X_i - \overline{X}\right)^2\) telah dipelajari secara ekstensif tetapi bukan satu-satunya estimator yang mungkin. Versi yang paling banyak digunakan adalah versi di mana ukuran sampel efektif dikurangi satu, jadi kami mendefinisikannya
\[s^2 = \frac{1}{n-1} \sum_{i=1}^n \left(X_i - \overline{X}\right)^2.\]
Membagi dengan \(n − 1\) alih-alih N masalah kecil ketika Anda memiliki ukuran sampel yang besar \(N\) seperti yang umum dalam aplikasi asuransi. Estimator varians sampel \(s^2\) tidak memihak dalam arti bahwa \(\mathrm{E~} [s^2] = \sigma^2\) , properti yang diinginkan terutama saat menginterpretasikan hasil analisis.
Kita telah melihat bagaimana menghitung estimator nonparametrik dari k saat ini \(\mathrm{E~} [X^k]\) . Dengan cara yang sama, untuk fungsi apa pun yang diketahui g (⋅) , kita dapat memperkirakan \(\mathrm{E~} [\mathrm{g}(X)]\) menggunakan\(n^{-1}\sum_{i=1}^n \mathrm{g}(X_i)\)
Sekarang perhatikan fungsinya \(\mathrm{g}(X) = I(X \le x)\) untuk tetap \(X\) . Di sini, notasi $I( ⋅ \() adalah fungsi indikator ; itu mengembalikan 1 jika acara ( ⋅ ) benar dan 0 sebaliknya. Perhatikan bahwa sekarang variabel acak\) g (X$) memiliki distribusi Bernoulli (distribusi binomial dengan \(n = 1\) ). Kita dapat menggunakan distribusi ini untuk dengan mudah menghitung jumlah seperti rata-rata dan varians. Misalnya, untuk pilihan ini \(g (⋅)\) , nilai harapannya adalah \(\mathrm{E~} [I(X \le x)] = \Pr(X \le x) = F(x)\) , fungsi distribusi dievaluasi pada \(X\) . Menggunakan prinsip analog , kami mendefinisikan estimator nonparametrik dari fungsi distribusi
\[ \begin{aligned} F_n(x) &= \frac{1}{n} \sum_{i=1}^n I\left(X_i \le x\right) \\ &= \frac{\text{number of observations less than or equal to }x}{n} . \end{aligned} \]
Sebagai $F_N( ⋅ $) didasarkan hanya pada pengamatan dan tidak mengasumsikan keluarga parametrik untuk distribusi, itu nonparametrik dan juga dikenal sebagai fungsi distribusi empiris . Ia juga dikenal sebagai fungsi distribusi kumulatif empiris dan, dalam R, seseorang dapat menggunakan ecdf(.) fungsi tersebut untuk menghitungnya.
Contoh 4.1.1. Kumpulan Data Mainan . Sebagai ilustrasi, pertimbangkan kumpulan data fiktif, atau “mainan”. \(n = 10\) observasi. Tentukan fungsi distribusi empiris.
\[ {\small \begin{array}{c|cccccccccc} \hline i &1&2&3&4&5&6&7&8&9&10 \\ X_i& 10 &15 &15 &15 &20 &23 &23 &23 &23 &30\\ \hline \end{array} }\]
Kemudian memeriksa bahwa rata-rata sampel adalah \(\overline{X} = 19.7\) dan bahwa varians sampel adalah \(S^2= 34,45556\) . Fungsi distribusi empiris yang sesuai adalah
\[ \begin{aligned} F_n(x) &= \left\{ \begin{array}{ll} 0 & \text{ for }\ x<10 \\ 0.1 & \text{ for }\ 10 \leq x<15 \\ 0.4 & \text{ for }\ 15 \leq x<20 \\ 0.5 & \text{ for }\ 20 \leq x<23 \\ 0.9 & \text{ for }\ 23 \leq x<30 \\ 1 & \text{ for }\ x \geq 30, \end{array} \right.\end{aligned}\]
(xExample <- c(10,rep(15,3),20,rep(23,4),30))## [1] 10 15 15 15 20 23 23 23 23 30
PercentilesxExample <- ecdf(xExample)
plot(PercentilesxExample, main="",xlab="x")Pada bagian 3.1.1 median , yaitu angka yang kira-kira setengah dari kumpulan data berada di bawah (atau di atasnya) . Kuartil pertama adalah angka yang kira-kira 25% datanya berada di bawahnya dan kuartil ketiga adalah angka yang kira-kira 75% datanya berada di bawahnya. 100 hal persentil adalah angka sehingga \(100×p\) persen dari data di bawahnya.
Untuk menggeneralisasi konsep ini, pertimbangkan fungsi distribusi \(F(⋅\)) , yang mungkin kontinu atau tidak, dan biarkan Q menjadi pecahan sehingga \(0 < q< 1\) . Kami ingin mendefinisikan quantile , katakanlah \(q_F\) , menjadi bilangan sedemikian sehingga \(F(q_F) \approx q\) . Perhatikan bahwa ketika \(q=0.5\) , \(q_F\) adalah median; Kapan \(q=0.25\) , \(q_F\) adalah kuartil pertama, dan seterusnya. Dengan cara yang sama, ketika \(q = 0, 0.01, 0.02, \ldots, 0.99, 1.00\) , yang dihasilkan QF adalah persentil. Jadi, kuantil menggeneralisasikan konsep median, kuartil, dan persentil.
Lebih tepatnya, untuk diberikan \(0 < q< 1\) , tentukan q kuantil \(q_F\) untuk menjadi nomor yang memenuhi:
\[ \begin{equation} F(q_F-) \le q \le F(q_F) \tag{4.1} \end{equation}\]
Untuk mendapatkan pemahaman yang lebih baik tentang definisi ini, mari kita lihat beberapa kasus khusus. Pertama, pertimbangkan kasus di mana X adalah variabel acak kontinu sehingga fungsi distribusi \(F(⋅)\) tidak memiliki titik lompatan, seperti yang diilustrasikan pada Gambar 4.2 . Pada gambar ini, beberapa pecahan, Q1 , Q2 , Dan Q3 ditunjukkan dengan kuantil yang sesuai \(q_{F,1} , q_{F,2} , dan q_{F,3}\) . Dalam setiap kasus, dapat dilihat bahwa \(F(q_F-)= F(q_F)\) sehingga ada kuantil unik. Karena kita dapat menemukan invers unik dari fungsi distribusi di mana saja \(0 < q< 1\) , kita bisa menulis \(q_F= F^{-1}(q)\)
{r image1, echo=FALSE, fig.cap=““,fig.align=‘center’, out.width = ‘80%’} knitr::include_graphics(”Quantile1-1.png”)}
Gambar 4.3 menunjukkan tiga kasus untuk fungsi distribusi. Panel kiri sesuai dengan kasus kontinu yang baru saja dibahas. Panel tengah menampilkan titik lompatan yang serupa dengan yang telah kita lihat dalam fungsi distribusi empiris Gambar 4.1 . Untuk nilai \(q\) ditampilkan di panel ini, kami masih memiliki nilai kuantil yang unik \(q_F\) . Meskipun ada banyak nilai Q seperti yang \(F(q_F-) \le q \le F(q_F)\) , untuk nilai tertentu dari \(q\) , hanya ada satu solusi untuk persamaan (4.1) . Panel kanan menggambarkan situasi di mana kuantil tidak dapat ditentukan secara unik untuk \(q\) ditampilkan karena ada berbagai \(q_F\) persamaan yang memuaskan (4.1) .
{r image2, echo=FALSE, fig.cap=““,fig.align=‘center’, out.width = ‘80%’} knitr::include_graphics(”Quantile2-1.png”)}
Contoh 4.1.2. Kumpulan Data Mainan: Lanjutan. Tentukan kuantil yang sesuai dengan persentil ke-20, ke-50, dan ke-95.
Solusi . Perhatikan Gambar 4.1 . Kasus \(q=0.20\) sesuai dengan panel tengah Gambar Gambar 4.3 , jadi persentil ke-20 adalah 15. Kasus \(q=0.50\) sesuai dengan panel kanan, jadi mediannya adalah angka antara 20 dan 23 inklusif. Banyak paket perangkat lunak menggunakan rata-rata 21,5 (misalnya R, seperti yang terlihat di bawah). Untuk persentil ke-95, solusinya adalah 30. Kita dapat melihat dari Gambar 4.1 bahwa 30 juga sesuai dengan persentil ke-99 dan ke-99,99.
quantile(xExample, probs=c(0.2, 0.5, 0.95), type=6)## 20% 50% 95%
## 15.0 21.5 30.0
Dengan mengambil rata-rata tertimbang antara pengamatan data, kuantil empiris yang dihaluskan dapat menangani kasus seperti panel kanan pada Gambar 4.3 . Itu Q kuantil empiris yang dihaluskan didefinisikan sebagai
\[\hat{\pi}_q = (1-h) X_{(j)} + h X_{(j+1)}\]
Di mana \(j=\lfloor(n+1)q\rfloor\) , Dan\(X_{(1)}, \ldots, X_{(n)}\) adalah nilai yang diurutkan (dikenal sebagai statistik urutan ) yang sesuai dengan \(X_1, \ldots, X_n\). (Ingat bahwa tanda kurung ⌊ ⋅ ⌋ adalah fungsi lantai yang menunjukkan nilai bilangan bulat terbesar.) Perhatikan bah wa \(\hat{\pi}_q\)$ hanyalah sebuah interpolasi linear antara \(X_{( j )}\) dan \(X_{(j+1)}\).
Contoh 4.1.3. Kumpulan Data Mainan: Lanjutan. Tentukan persentil yang dihaluskan ke-50 dan ke-20.
Solusi Ambil \(n = 10\) Dan \(q= 0,5\). Kemudian, \(j=\lfloor(11)(0.5) \rfloor= \lfloor 5.5 \rfloor=5\), . Maka kuantil empiris yang dihaluskan ke-0,5 adalah
\[\hat{\pi}_{0.5} = (1-0.5) X_{(5)} + (0.5) X_{(6)} = 0.5 (20) + (0.5)(23) = 21.5.\]
Sekarang ambil \(n = 10\) Dan \(q= 0,2\) . Pada kasus ini, \(j=\lfloor(11)(0.2)\rfloor=\lfloor 2.2 \rfloor=2\) . Maka kuantil empiris yang dihaluskan ke-0,2 adalah
\[\hat{\pi}_{0.2} = (1-0.2) X_{(2)} + (0.2) X_{(3)} = 0.8 (15) + (0.2)(15) = 15.\]
Variabel Diskrit. Ketika variabel acak adalah diskrit, memperkirakan fungsi massa probabilitas \(f(x) = \Pr(X=x)\) mudah. Kami hanya menggunakan rata-rata sampel, yang didefinisikan sebagai
\[f_n(x) = \frac{1}{n} \sum_{i=1}^n I(X_i = x),\]
yang merupakan proporsi sampel sama dengan X
Variabel Berkelanjutan dalam Grup. Untuk variabel acak kontinu, pertimbangkan formulasi diskrit di mana domain dari F( ⋅ ) dipartisi oleh konstanta \(\{c_0 < c_1 < \cdots < c_k\}\) ke dalam interval bentuk \([c_{j-1}, c_j)\) , untuk \(j=1, \ldots, k\) . Pengamatan data dengan demikian “dikelompokkan” berdasarkan interval di mana mereka jatuh. Kemudian, kita dapat menggunakan definisi dasar dari fungsi massa empiris, atau variasi seperti
\[f_n(x) = \frac{n_j}{n \times (c_j - c_{j-1})} \ \ \ \ \ \ c_{j-1} \le x < c_j,\]
Di mana \(N_J\) adalah jumlah pengamatan ( \(X_i\) ) yang termasuk dalam interval \([c_{j-1}, c_j)\).
Variabel Berkelanjutan (tidak dikelompokkan). Memperluas gagasan ini ke contoh di mana kami mengamati data individual, perhatikan bahwa kami selalu dapat membuat pengelompokan arbitrer dan menggunakan rumus ini. Lebih formal, biarkan \(b > 0\) menjadi konstanta positif kecil, yang dikenal sebagai bandwidth , dan menentukan penaksir kepadatan menjadi
\[\begin{equation} f_n(x) = \frac{1}{2nb} \sum_{i=1}^n I(x-b < X_i \le x + b) \tag{4.2} \end{equation}\]
Secara lebih umum, tentukan penaksir kerapatan kernel dari pdf di X sebagai
\[\begin{equation} f_n(x) = \frac{1}{nb} \sum_{i=1}^n w\left(\frac{x-X_i}{b}\right) , \tag{4.3} \end{equation}\]
Di mana w adalah fungsi kerapatan probabilitas yang berpusat di sekitar 0. Perhatikan bahwa persamaan (4.2) adalah kasus khusus penduga kerapatan kernel di mana \(w(x) = \frac{1}{2}I(-1 < x \le 1)\) , juga dikenal sebagai kernel seragam . Pilihan populer lainnya ditunjukkan pada Tabel 4.1 .
\[{\small \begin{matrix} \begin{array}{l|cc} \hline \text{Kernel} & w(x) \\ \hline \text{Uniform } & \frac{1}{2}I(-1 < x \le 1) \\ \text{Triangle} & (1-|x|)\times I(|x| \le 1) \\ \text{Epanechnikov} & \frac{3}{4}(1-x^2) \times I(|x| \le 1) \\ \text{Gaussian} & \phi(x) \\ \hline \end{array}\end{matrix} }\]
Di Sini, \(\phi(\cdot)\) adalah fungsi kepadatan normal standar. Seperti yang akan kita lihat pada contoh berikut, pilihan bandwidth \(B\) hadir dengan tradeoff bias-varians antara mencocokkan fitur distribusi lokal dan mengurangi volatilitas.
Contoh 4.1.4. Dana Properti. Gambar 4.4 menunjukkan histogram (dengan persegi panjang abu-abu yang diarsir) dari klaim properti logaritmik dari tahun 2010. Kurva tebal (biru) mewakili kerapatan kernel Gaussian di mana bandwidth dipilih secara otomatis menggunakan aturan ad hoc berdasarkan ukuran sampel dan volatilitas data ini . Untuk dataset ini, bandwidth ternyata b = 0,3255 . Sebagai perbandingan, kurva putus-putus (merah) menunjukkan penaksir densitas dengan lebar pita sama dengan 0,1 dan kurva halus berwarna hijau menggunakan lebar pita 1. Sebagaimana diantisipasi, lebar pita yang lebih kecil (0,1) menunjukkan mengambil rata-rata lokal dengan data yang lebih sedikit sehingga kita mendapatkan ide yang lebih baik dari rata-rata lokal, tetapi dengan harga volatilitas yang lebih tinggi. Sebaliknya, bandwidth yang lebih besar (1) memperhalus fluktuasi lokal, menghasilkan kurva yang lebih halus yang mungkin melewatkan gangguan pada rata-rata lokal. Untuk aplikasi aktuaria, kami terutama menggunakan estimator densitas kernel untuk mendapatkan kesan visual cepat dari data. Dari perspektif ini, Anda cukup menggunakan aturan ad hoc default untuk pemilihan bandwidth, mengetahui bahwa Anda memiliki kemampuan untuk mengubahnya tergantung pada situasi yang dihadapi.
ClaimLev <- read.csv("Data/CLAIMLEVEL.csv", header=TRUE); #nrow(ClaimLev); # 6258
ClaimData<-subset(ClaimLev,Year==2010); #2010 subset
#Density Comparison
hist(log(ClaimData$Claim), main="", ylim=c(0,.35),xlab="Log Expenditures", freq=FALSE, col="lightgray")
lines(density(log(ClaimData$Claim)), col="blue",lwd=2.5)
lines(density(log(ClaimData$Claim), bw=1), col="green")
lines(density(log(ClaimData$Claim), bw=.1), col="red", lty=3)
legend("topright", c("b=0.3255 (default)", "b=0.1", "b=1.0"), lty=c(1,3,1), lwd=c(2.5,1,1),
col=c("blue", "red", "green"), cex=1)
#density(log(ClaimData$Claim))$bw ##default bandwidth{r image3, echo=FALSE, fig.cap=““,fig.align=‘center’, out.width = ‘80%’} knitr::include_graphics(”Density2-11.png”)}
Estimator densitas nonparametrik, seperti estimator kernel, sering digunakan dalam praktik. Konsep ini juga dapat diperluas untuk memberikan versi halus dari fungsi distribusi empiris. Mengingat definisi penaksir densitas kernel, penaksir kernel dari fungsi distribusi dapat ditemukan sebagai
\[\begin{aligned} \tilde{F}_n(x) = \frac{1}{n} \sum_{i=1}^n W\left(\frac{x-X_i}{b}\right).\end{aligned}\]
Di mana \(W\) adalah fungsi distribusi yang terkait dengan densitas kernel \(w\) . Sebagai ilustrasi, untuk kernel yang seragam, kita punya \(w(y) = \frac{1}{2}I(-1 < y \le 1)\) , Jadi
\[\begin{aligned} W(y) = \begin{cases} 0 & y<-1\\ \frac{y+1}{2}& -1 \le y < 1 \\ 1 & y \ge 1 \\ \end{cases}\end{aligned} .\]
Contoh 4.1.5. Soal Ujian Aktuaria. Anda mempelajari lima nyawa untuk memperkirakan waktu dari timbulnya penyakit hingga kematian. Waktu kematian adalah:
\[\begin{array}{ccccc} 2 & 3 & 3 & 3 & 7 \\ \end{array}\]
Menggunakan kernel segitiga dengan bandwidth 2 , hitung taksiran fungsi densitas pada 2,5. Solusi. Untuk perkiraan kepadatan kernel, kami punya
\[f_n(x) = \frac{1}{nb} \sum_{i=1}^n w\left(\frac{x-X_i}{b}\right),\]
Di mana \(n = 5\) , \(b = 2\) , Dan \(x = 2,5\) . Untuk inti segitiga, \(w(x) = (1-|x|)\times I(|x| \le 1)\) . Dengan demikian,
\[\begin{array}{c|c|c} \hline X_i & \frac{x-X_i}{b} & w\left(\frac{x-X_i}{b} \right) \\ \hline 2 & \frac{2.5-2}{2}=\frac{1}{4} & (1-\frac{1}{4})(1) = \frac{3}{4} \\ \hline 3 & & \\ 3 & \frac{2.5-3}{2}=\frac{-1}{4} & \left(1-\left| \frac{-1}{4} \right| \right)(1) = \frac{3}{4} \\ 3 & & \\ \hline 7 & \frac{2.5-7}{2}=-2.25 & (1-|-2.25|)(0) = 0\\ \hline \end{array}\]
Kemudian perkiraan densitas kernel di \(x = 2,5\) adalah
\[f_n(2.5) = \frac{1}{5(2)}\left( \frac{3}{4} + (3) \frac{3}{4} + 0 \right) = \frac{3}{10}\]
Salah satu cara untuk membuat penaksir nonparametrik dari beberapa kuantitas adalah dengan menggunakan prinsip analog atau plug-in di mana seseorang menggantikan cdf yang tidak diketahui \(F\) dengan estimasi yang diketahui seperti cdf empiris \(F_N\) . Jadi, jika kita mencoba memperkirakan \(\mathrm{E}~[\mathrm{g}(X)]=\mathrm{E}_F~[\mathrm{g}(X)]\) untuk fungsi generik g , maka kami mendefinisikan estimator nonparametrik menjadi \(\mathrm{E}_{F_n}~[\mathrm{g}(X)]=n^{-1}\sum_{i=1}^n \mathrm{g}(X_i)\).
Untuk melihat cara kerjanya, sebagai kasus khusus dari g , kami menganggap kerugian per variabel acak pembayaran \(Y = (X-d)_+\) dan rasio eliminasi kerugian yang diperkenalkan di Bagian 3.4.1. Kita dapat mengungkapkan ini sebagai
\[LER(d) = \frac{\mathrm{E~}[X - (X-d)_+]}{\mathrm{E~}[X]} =\frac{\mathrm{E~}[\min(X,d)]}{\mathrm{E~}[X]} ,\]
Contoh. 4.1.6. Klaim Cidera Tubuh dan Rasio Penghapusan Kerugian Kami menggunakan sampel 432 klaim mobil tertutup dari Boston dari Derrig, Ostaszewski, dan Rempala ( 2001 ) . Kerugian dicatat untuk pembayaran karena cedera tubuh dalam kecelakaan mobil. Kerugian tidak dapat dikurangkan tetapi dibatasi oleh berbagai jumlah pertanggungan maksimum yang juga tersedia dalam data. Ternyata hanya 17 dari 432 ( ≈ 4%) tunduk pada batasan kebijakan ini sehingga kami mengabaikan data ini untuk ilustrasi ini.
Kerugian rata-rata yang dibayarkan adalah 6906 dalam dolar AS. Gambar 4.5 menunjukkan aspek lain dari distribusi. Secara khusus, panel sebelah kiri menunjukkan fungsi distribusi empiris, panel sebelah kanan memberikan plot kepadatan nonparametrik.
{r image4, echo=FALSE, fig.cap=““,fig.align=‘center’, out.width = ‘80%’} knitr::include_graphics(”BIClaims-1.png”)}
Dampak kerugian cedera tubuh dapat dikurangi dengan pengenaan limit atau pembelian polis reasuransi (lihat Bagian 10.3). Untuk mengukur dampak dari alat mitigasi risiko ini, biasanya menghitung rasio eliminasi kerugian (LER) seperti yang diperkenalkan di Bagian 3.4.1. Fungsi distribusi tidak tersedia sehingga harus diestimasi dengan cara tertentu. Menggunakan prinsip plug-in, estimator nonparametrik dapat didefinisikan sebagai
\[LER_n(d) = \frac{n^{-1} \sum_{i=1}^n \min(X_i,d)}{n^{-1} \sum_{i=1}^n X_i} = \frac{\sum_{i=1}^n \min(X_i,d)}{\sum_{i=1}^n X_i} .\]
Gambar 4.6 menunjukkan estimator \(LER_n(d)\) untuk berbagai pilihan \(d\) . Misalnya, di \(d= 1.000\) dan punya \(LER_n( 1000 ) ≈ 0,1442\). Dengan demikian, memberlakukan batas 1.000 berarti ekspektasi klaim yang ditahan 14,42 persen lebih rendah bila dibandingkan dengan ekspektasi klaim dengan deductible nol.
{r image5, echo=FALSE, fig.cap=““,fig.align=‘center’, out.width = ‘80%’} knitr::include_graphics(”LER-1.png”)}
Bagian sebelumnya memperkenalkan estimator nonparametrik di mana tidak ada bentuk parametrik yang diasumsikan tentang distribusi yang mendasarinya. Namun, dalam banyak aplikasi aktuaria, analis berusaha menggunakan kecocokan parametrik dari distribusi untuk kemudahan penjelasan dan kemampuan untuk memperluasnya ke situasi yang lebih kompleks seperti memasukkan variabel penjelas dalam pengaturan regresi. Saat memasang distribusi parametrik, seorang analis mungkin mencoba menggunakan distribusi gamma untuk mewakili sekumpulan data kerugian. Namun, analis lain mungkin lebih suka menggunakan distribusi Pareto. Bagaimana cara menentukan model mana yang akan dipilih?
Alat nonparametrik dapat digunakan untuk menguatkan pemilihan model parametrik. Pada dasarnya, pendekatannya adalah untuk menghitung langkah-langkah ringkasan yang dipilih di bawah model parametrik yang dipasang dan membandingkannya dengan kuantitas yang sesuai di bawah model nonparametrik. Karena model nonparametrik tidak mengasumsikan distribusi tertentu dan hanya merupakan fungsi dari data, model ini digunakan sebagai tolok ukur untuk menilai seberapa baik distribusi/model parametrik mewakili data. Juga, ketika ukuran sampel meningkat, distribusi empiris hampir pasti menyatu dengan distribusi populasi yang mendasarinya (berdasarkan hukum jumlah besar yang kuat). Dengan demikian distribusi empiris adalah proksi yang baik untuk populasi. Perbandingan estimator parametrik dengan nonparametrik dapat mengingatkan analis akan kekurangan dalam model parametrik dan terkadang menunjukkan cara untuk meningkatkan spesifikasi parametrik. Prosedur diarahkan menilai validitas model yang dikenal sebagaidiagnostik model .
Kita telah melihat teknik overlay grafik untuk tujuan perbandingan. Untuk memperkuat penerapan teknik ini, Gambar 4.7membandingkan distribusi empiris dengan dua distribusi pas parametrik. Panel kiri menunjukkan fungsi distribusi distribusi klaim. Titik-titik yang membentuk kurva “berbentuk S” mewakili fungsi distribusi empiris pada setiap pengamatan. Kurva biru tebal memberikan nilai yang sesuai untuk distribusi gamma yang pas dan ungu muda untuk distribusi Pareto yang pas. Karena Pareto lebih dekat dengan fungsi distribusi empiris daripada gamma, ini memberikan bukti bahwa Pareto adalah model yang lebih baik untuk kumpulan data ini. Panel kanan memberikan informasi serupa untuk fungsi kerapatan dan memberikan pesan yang konsisten. Berdasarkan (hanya) angka-angka ini, distribusi Pareto adalah pilihan yang jelas bagi analis.
{r image6, echo=FALSE, fig.cap=““,fig.align=‘center’, out.width = ‘80%’} knitr::include_graphics(”ComparisonCDFPDF-1.png”)}
Untuk cara lain untuk membandingkan kesesuaian dua model yang cocok, pertimbangkan plot probabilitas-probabilitas (\(pp\)) . A \[pp\] plot membandingkan probabilitas kumulatif di bawah dua model. Untuk tujuan kami, kedua model ini adalah fungsi distribusi empiris nonparametrik dan model pas parametrik. Gambar 4.8 menunjukkan \(pp\) plot untuk data Dana Properti yang diperkenalkan di Bagian 1.3 . Gamma yang dipasang di sebelah kiri dan Pareto yang dipasang di sebelah kanan, dibandingkan dengan fungsi distribusi data empiris yang sama. Garis lurus mewakili kesetaraan antara dua distribusi yang dibandingkan, sehingga titik yang dekat dengan garis diinginkan. Seperti yang terlihat pada demonstrasi sebelumnya, Pareto jauh lebih dekat dengan distribusi empiris daripada gamma, memberikan bukti tambahan bahwa Pareto adalah model yang lebih baik.
{r image7, echo=FALSE, fig.cap=““,fig.align=‘center’, out.width = ‘80%’} knitr::include_graphics(”PPPlot-1.png”)}
Itu QQ plot membandingkan dua model yang dipasang melalui kuantilnya. Seperti hal hal plot, kami membandingkan nonparametrik dengan model pas parametrik. Kuantil dapat dievaluasi pada setiap titik kumpulan data, atau pada kisi (misalnya, di 0 , 0,001 , 0,002 , … , 0,999 , 1,000 ), tergantung aplikasinya. Pada Gambar 4.9 , untuk setiap titik pada kisi tersebut, sumbu horizontal menampilkan kuantil empiris dan sumbu vertikal menampilkan kuantil parametrik yang sesuai (gamma untuk dua panel atas, Pareto untuk dua panel bawah). Kuantil diplot pada skala asli di panel kiri dan pada skala log di panel kanan untuk memungkinkan kita melihat di mana kekurangan distribusi yang pas. Garis lurus mewakili kesetaraan antara distribusi empiris dan distribusi pas. Dari plot ini, kita sekali lagi melihat bahwa Pareto secara keseluruhan lebih cocok daripada gamma. Selain itu, panel kanan bawah menunjukkan bahwa distribusi Pareto bekerja dengan baik dengan klaim besar, tetapi memberikan kecocokan yang lebih buruk untuk klaim kecil.
{r image8, echo=FALSE, fig.cap=““,fig.align=‘center’, out.width = ‘80%’} knitr::include_graphics(”QQPlot-1.png”)}
Contoh 4.1.7. Soal Ujian Aktuaria. Grafik di bawah ini menunjukkan \(pp\) plot distribusi pas dibandingkan dengan sampel.
{r image9, echo=FALSE, fig.cap=““,fig.align=‘center’, out.width = ‘80%’} knitr::include_graphics(”unnamed-chunk-40-1.png”)}
Solusi. Ekor dari distribusi yang pas terlalu tebal di sebelah kiri, terlalu tipis di sebelah kanan, dan distribusi yang pas memiliki probabilitas yang lebih kecil di sekitar median daripada sampel. Untuk melihat ini, ingat bahwa hal hal plot grafik distribusi kumulatif dari dua distribusi pada sumbunya (empiris pada sumbu x dan dipasang pada sumbu y dalam kasus ini). Untuk nilai kecil dari X , model yang dipasang memberikan probabilitas yang lebih besar untuk berada di bawah nilai itu daripada yang terjadi dalam sampel (mis F( x ) >FN( x ) ). Ini menunjukkan bahwa model memiliki ekor kiri yang lebih berat daripada datanya. Untuk nilai besar dari X , model kembali memberikan probabilitas yang lebih besar untuk berada di bawah nilai itu dan dengan demikian lebih kecil kemungkinannya untuk berada di atas nilai itu (mis S( x ) <SN( x ) ). Hal ini menunjukkan bahwa model memiliki ekor kanan yang lebih ringan dari pada data. Selain itu, saat kita mulai dari 0,4 hingga 0,6 pada sumbu horizontal (dengan demikian melihat 20% tengah data), hal hal plot meningkat dari sekitar 0,3 menjadi 0,4. Ini menunjukkan bahwa model hanya menempatkan sekitar 10% dari probabilitas dalam kisaran ini.
Saat memilih model, akan sangat membantu untuk menampilkan tampilan grafis. Namun, untuk melaporkan hasil, melengkapi tampilan grafis dengan statistik terpilih yang meringkas kebaikan kesesuaian model dapat efektif. Tabel 4.2 menyediakan tiga statistik kebaikan yang umum digunakan . Dalam tabel ini, \(F_N\) adalah distribusi empiris, \(F\) adalah distribusi pas atau hipotesis, dan \(F_i^* = F(x_i)\) .
\[{\small \begin{matrix} \begin{array}{l|cc} \hline \text{Statistic} & \text{Definition} & \text{Computational Expression} \\ \hline \text{Kolmogorov-} & \max_x |F_n(x) - F(x)| & \max(D^+, D^-) \text{ where } \\ ~~~\text{Smirnov} && D^+ = \max_{i=1, \ldots, n} \left|\frac{i}{n} - F_i^*\right| \\ && D^- = \max_{i=1, \ldots, n} \left| F_i^* - \frac{i-1}{n} \right| \\ \text{Cramer-von Mises} & n \int (F_n(x) - F(x))^2 f(x) dx & \frac{1}{12n} + \sum_{i=1}^n \left(F_i^* - (2i-1)/n\right)^2 \\ \text{Anderson-Darling} & n \int \frac{(F_n(x) - F(x))^2}{F(x)(1-F(x))} f(x) dx & -n-\frac{1}{n} \sum_{i=1}^n (2i-1) \log\left(F_i^*(1-F_{n+1-i})\right)^2 \\ \hline \end{array} \\ \end{matrix} }\]
Statistik Kolmogorov-Smirnov adalah perbedaan absolut maksimum antara fungsi distribusi yang dipasang dan fungsi distribusi empiris. Alih-alih membandingkan perbedaan antara titik tunggal, statistik Cramer-von Mises mengintegrasikan perbedaan antara fungsi distribusi empiris dan pas pada seluruh rentang nilai. Statistik Anderson-Darling juga mengintegrasikan perbedaan ini pada rentang nilai, meskipun diboboti oleh kebalikan dari varian. Oleh karena itu lebih menekankan pada ekor distribusi (yaitu kapan \(F( x )\) atau \(1-F(x)=S(x)\) kecil).
Contoh 4.1.8. Soal Ujian Aktuaria (dimodifikasi). Contoh pembayaran klaim adalah:
\[\begin{array}{ccccc} 29 & 64 & 90 & 135 & 182 \\ \end{array}\]
Bandingkan distribusi klaim empiris dengan distribusi eksponensial dengan rata-rata 100 dengan menghitung nilai statistik uji Kolmogorov-Smirnov.
Solusi. Untuk distribusi eksponensial dengan rata-rata 100 , fungsi distribusi kumulatif adalah \(F(x)=1-e^{-x/100}\) . Dengan demikian,
\[\begin{array}{ccccc} \hline x & F(x) & F_n(x) & F_n(x-) & \max(|F(x)-F_n(x)|,|F(x)-F_n(x-)|) \\ \hline 29 & 0.2517 & 0.2 & 0 & \max(0.0517, 0.2517) = 0.2517 \\ 64 & 0.4727 & 0.4 & 0.2 & \max(0.0727, 0.2727) = 0.2727 \\ 90 & 0.5934 & 0.6 & 0.4 & \max(0.0066, 0.1934) = 0.1934 \\ 135 & 0.7408 & 0.8 & 0.6 & \max(0.0592, 0.1408) = 0.1408 \\ 182 & 0.8380 & 1 & 0.8 & \max(0.1620, 0.0380) = 0.1620 \\ \hline \end{array}\]
Oleh karena itu, statistik uji Kolmogorov-Smirnov adalah
\[KS = \max(0.2517, 0.2727, 0.1934, 0.1408, 0.1620) = 0.2727 .\]
Metode pencocokan momen dan persentil merupakan metode estimasi nonparametrik yang memberikan alternatif kemungkinan maksimum. Umumnya, kemungkinan maksimum adalah teknik yang lebih disukai karena menggunakan data secara lebih efisien. (Lihat Lampiran Bab 17 untuk definisi efisiensi yang tepat.) Namun, metode pencocokan momen dan persentil berguna karena lebih mudah diinterpretasikan dan karena itu memungkinkan aktuaris atau analis untuk menjelaskan prosedur kepada orang lain. Selain itu, prosedur estimasi numerik (misalnya jika dilakukan di R) untuk kemungkinan maksimum adalah iteratif dan membutuhkan nilai awal untuk memulai proses rekursif. Meskipun banyak masalah yang kuat untuk pemilihan nilai awal, untuk beberapa situasi kompleks, penting untuk memiliki nilai awal yang mendekati nilai optimal (tidak diketahui). Metode momen dan pencocokan persentil adalah teknik yang dapat menghasilkan perkiraan yang diinginkan tanpa investasi komputasi yang serius dan dengan demikian dapat digunakan sebagai nilai awal untuk menghitung kemungkinan maksimum.
Di bawah metode momen , kami mengaproksimasi momen distribusi parametrik menggunakan momen empiris (nonparametrik) yang dijelaskan di Bagian 4.1.1.1 . Kami kemudian dapat memecahkan secara aljabar untuk estimasi parameter.
Contoh 4.1.9. Dana Properti. Untuk dana properti 2010, ada \(n = 1 , 377\) klaim individu (dalam ribuan dolar) dengan
\[m_1 = \frac{1}{n} \sum_{i=1}^n X_i = 26.62259 \ \ \ \ \text{and} \ \ \ \ m_2 = \frac{1}{n} \sum_{i=1}^n X_i^2 = 136154.6 .\]
Sesuaikan parameter distribusi gamma dan Pareto menggunakan metode momen.
Solusi. Agar sesuai dengan distribusi gamma, kami memiliki \(\mu_1 = \alpha \theta\) Dan \(\mu_2^{\prime} = \alpha(\alpha+1) \theta^2\) . Menyamakan keduanya menghasilkan metode penaksir momen, aljabar mudah menunjukkannya
\[\alpha = \frac{\mu_1^2}{\mu_2^{\prime}-\mu_1^2} \ \ \ \text{and} \ \ \ \theta = \frac{\mu_2^{\prime}-\mu_1^2}{\mu_1}.\]
Jadi, metode penduga momen adalah
\[\begin{aligned} \hat{\alpha} &= \frac{26.62259^2}{136154.6-26.62259^2} = 0.005232809 \\ \hat{\theta} &= \frac{136154.6-26.62259^2}{26.62259} = 5,087.629. \end{aligned}\]
Sebagai perbandingan, nilai kemungkinan maksimum berubah menjadi \(\hat{\alpha}_{MLE} = 0.2905959\) Dan \(\hat{\theta}_{MLE} = 91.61378\) , jadi ada perbedaan besar antara dua prosedur estimasi. Ini adalah salah satu indikasi, seperti yang telah kita lihat sebelumnya, bahwa model gamma kurang cocok.
Sebaliknya, sekarang asumsikan distribusi Pareto sehingga \(\mu_1 = \theta/(\alpha -1)\) Dan \(\mu_2^{\prime} = 2\theta^2/((\alpha-1)(\alpha-2) )\) . Perhatikan bahwa ungkapan ini untuk μ′2 hanya berlaku untuk α > 2 . Pertunjukan aljabar yang mudah
\[\alpha = 1+ \frac{\mu_2^{\prime}}{\mu_2^{\prime}-\mu_1^2} \ \ \ \ \text{and} \ \ \ \ \ \theta = (\alpha-1)\mu_1.\]
Jadi, metode penduga momen adalah
\[ \begin{aligned} \hat{\alpha} &= 1+ \frac{136154.6}{136154.6-26,62259^2} = 2.005233 \\ \hat{\theta} &= (2.005233-1) \cdot 26.62259 = 26.7619 \end{aligned}\]
Nilai kemungkinan maksimum berubah menjadi \(\hat{\alpha}_{MLE} = 0.9990936\) Dan \(\hat{\theta}_{MLE} = 2.2821147\) . Sangat menarik bahwa \(\hat{\alpha}_{MLE}<1\) ; untuk distribusi Pareto, ingat itu \(α < 1\) berarti rata-ratanya tak terhingga. Ini adalah indikasi lain bahwa kumpulan data klaim properti adalah distribusi ekor panjang.
Seperti contoh di atas, ada fleksibilitas dengan metode momen. Misalnya, kita dapat mencocokkan momen kedua dan ketiga alih-alih yang pertama dan kedua, menghasilkan estimator yang berbeda. Selain itu, tidak ada jaminan bahwa solusi akan ada untuk setiap masalah. Untuk data yang disensor atau terpotong, momen pencocokan dimungkinkan untuk beberapa masalah, tetapi secara umum, ini adalah skenario yang lebih sulit. Terakhir, untuk distribusi di mana momen tidak ada atau tidak terbatas, metode momen tidak tersedia. Sebagai alternatif, seseorang dapat menggunakan teknik pencocokan persentil.
Di bawah pencocokan persentil , kami memperkirakan kuantil atau persentil dari distribusi parametrik menggunakan kuantil atau persentil empiris (nonparametrik) yang dijelaskan di Bagian 4.1.1.3 .
Contoh 4.1.10. Dana Properti. Untuk dana properti 2010, kami mengilustrasikan pencocokan pada kuantil. Secara khusus, distribusi Pareto secara intuitif menyenangkan karena solusi bentuk tertutup untuk kuantil. Ingatlah bahwa fungsi distribusi untuk distribusi Pareto adalah
\[F(x) = 1 - \left(\frac{\theta}{x+\theta}\right)^{\alpha}.\]
Aljabar mudah menunjukkan bahwa kita dapat menyatakan kuantil sebagai
\[F^{-1}(q) = \theta \left( (1-q)^{-1/\alpha} -1 \right).\]
untuk sebagian kecil q , \(0 < q< 1\).
Tentukan estimasi parameter distribusi Pareto menggunakan kuantil empiris ke-25 dan ke-95.
Solusi. Persentil ke-25 (kuartil pertama) ternyata adalah 0,78853 dan persentil ke-95 adalah 50.98293 (keduanya dalam ribuan dolar). Dengan dua persamaan
\[0.78853 = \theta \left( 1- (1-.25)^{-1/\alpha} \right) \ \ \ \ \text{and} \ \ \ \ 50.98293 = \theta \left( 1- (1-.75)^{-1/\alpha} \right)\]
dan dua yang tidak diketahui, solusinya adalah
\[\hat{\alpha} = 0.9412076 \ \ \ \ \ \text{and} \ \ \ \ \hat{\theta} = 2.205617 .\]
Sehingga kesimpulannya adalah rutin numerik diperlukan untuk solusi ini karena tidak ada solusi analitik yang tersedia. Selanjutnya, ingatlah perkiraan kemungkinan maksimumadalah α^ML E= 0,9990936 Dan θ^ML E= 2,2821147 , sehingga pencocokan persentil memberikan perkiraan yang lebih baik untuk distribusi Pareto daripada metode momen.
Contoh 4.1.11. Soal Ujian Aktuaria. Anda diberikan:
\[F(x) = \frac{\left(x/\theta\right)^{\gamma}}{1+\left(x/\theta\right)^{\gamma}}\]
\[\begin{array}{ccccccccccc} 10 &35 &80 &86 &90 &120 &158 &180 &200 &210 &1500 \\ \end{array}\]
Hitung estimasi dari \(θ\) dengan pencocokan persentil, menggunakan perkiraan persentil ke-40 dan ke-80 yang dihaluskan secara empiris.
Solusi. Dengan 11 pengamatan, kami memiliki \(j=\lfloor(n+1)q\rfloor = \lfloor 12(0.4) \rfloor = \lfloor 4.8\rfloor=4\). Dengan interpolasi, perkiraan persentil ke-40 yang dihaluskan secara empiris adalah \(\hat{\pi}_{0.4} = (1-h) X_{(j)} + h X_{(j+1)} = 0.2(86)+0.8(90)=89.2\).
Demikian pula, untuk perkiraan persentil yang dihaluskan secara empiris ke-80, kami memiliki \(12 ( 0,8 ) = 9,6\) jadi perkiraannya \(\hat{\pi}_{0.8} = 0.4(200)+0.6(210)=206\).
Dengan menggunakan distribusi kumulatif loglogistik, kita perlu menyelesaikan dua persamaan berikut untuk parameter \({\hat{\theta}}\) Dan \({\hat{\gamma}}\) :
\[0.4=\frac{(89.2/{\hat{\theta}})^{\hat{\gamma}}}{1+(89.2/{\hat{\theta}})^{\hat{\gamma}}} \ \ \ \text{and} \ \ \ \ 0.8=\frac{(206/{\hat{\theta}})^{\hat{\gamma}}}{1+(206/{\hat{\theta}})^{\hat{\gamma}}} .\]
Pemecahan untuk setiap ekspresi kurung memberi \(\frac{2}{3}=(89.2/\theta)^{\hat{\gamma}}\) Dan \(4=(206/{\hat{\theta}})^{\hat{\gamma}}\) . Mengambil rasio persamaan kedua dengan yang pertama memberi \(6=(206/89.2)^{\hat{\gamma}}\Rightarrow {\hat{\gamma}}=\frac{\log(6)}{\log(206/89.2)} = 2.1407\). Kemudian \(4^{1/2.1407}=206/{\hat{\theta}} \Rightarrow {\hat{\theta}}=107.8\).
Seperti metode momen, pencocokan persentil hampir terlalu fleksibel dalam arti bahwa estimator dapat bervariasi tergantung pada persentil berbeda yang dipilih. Misalnya, seorang aktuaris dapat menggunakan estimasi pada persentil ke-25 dan ke-95 sedangkan yang lain menggunakan persentil ke-20 dan ke-80. Secara umum estimasi parameter akan berbeda dan tidak ada alasan kuat untuk memilih salah satu dari yang lain. Seperti halnya metode momen, pencocokan persentil menarik karena memberikan teknik yang dapat diterapkan dengan mudah dalam situasi tertentu dan memiliki dasar intuitif. Meskipun sebagian besar aplikasi aktuaria menggunakan estimator kemungkinan maksimum, akan lebih mudah untuk memiliki pendekatan alternatif seperti metode momen dan pencocokan persentil yang tersedia.