Email : brigita.melantika@student.matanauniversity.ac.id
RPubs : https://rpubs.com/brigitatiaraem/
Jurusan : Statistika
Address : ARA Center, Matana University Tower
Jl. CBD Barat Kav, RT.1, Curug Sangereng, Kelapa Dua, Tangerang, Banten 15810.
Pratinjau Bab. Lampiran Bab 15 memperkenalkan teori kemungkinan maksimum terkait estimasi parameter dari keluarga parametrik. Lampiran ini memberikan contoh yang lebih spesifik dan mengembangkan beberapa konsep. Bagian 17.1 mengulas definisi fungsi kemungkinan dan memperkenalkan propertinya. Bagian 17.2 mengulas estimasi kemungkinan maksimum, dan memperluas properti sampel besar mereka untuk kasus di mana terdapat beberapa parameter dalam model. Bagian 17.3 mengulas inferensi statistik berdasarkan estimasi kemungkinan maksimum, dengan contoh-contoh khusus pada kasus dengan beberapa parameter.
Di sini, kami memberikan tinjauan singkat tentang fungsi kemungkinan dan fungsi log-kemungkinan dari Lampiran Bab 15. Biarkan \(f(\cdot|\boldsymbol\theta)\) menjadi fungsi probabilitas dari \(X\) , fungsi massa probabilitas(probability mass function/PMF) jika \(X\) diskrit atau fungsi densitas probabilitas (probability density function/PDF) jika kontinu. Kemungkinan adalah fungsi dari parameter ( \(\theta\) ) yang diberikan data ( \(x\) ). Oleh karena itu, itu adalah fungsi parameter dengan data yang tetap, bukan fungsi data dengan parameter yang tetap. Vektor data \(x\) biasanya merupakan realisasi dari sampel acak seperti yang didefinisikan dalam Lampiran Bab 15.
\[L(\boldsymbol{\theta}|\mathbf{x})=f(\mathbf{x}|\boldsymbol{\theta})=\prod_{i=1}^nf(x_i|\boldsymbol{\theta}),\]
Diberikan suatu realisasi dari sampel acak \(\mathbf{x}=(x_1,x_2,\cdots,x_n)\) dengan ukuran n , fungsi kemungkinan didefinisikan sebagai berikut:
\[l(\boldsymbol{\theta}|\mathbf{x})=\log L(\boldsymbol{\theta}|\mathbf{x})=\sum_{i=1}^n\log f(x_i|\boldsymbol{\theta}),\]
\[l(\boldsymbol{\theta}|\mathbf{x})=\log L(\boldsymbol{\theta}|\mathbf{x})=\sum_{i=1}^n\log f(x_i|\boldsymbol{\theta}),\]
Di Appendix Bab 15, kita telah menggunakan distribusi normal sebagai contoh untuk menggambarkan konsep fungsi kemungkinan (likelihood function) dan fungsi log-kemungkinan (log-likelihood function). Di sini, kita akan turunkan fungsi kemungkinan dan fungsi log-kemungkinan yang sesuai ketika distribusi populasi berasal dari keluarga distribusi Pareto.
Dalam statistik matematika, turunan pertama dari fungsi log-kemungkinan terhadap parameter, \(u(\boldsymbol\theta)=\partial l(\boldsymbol \theta|\mathbf{x})/\partial \boldsymbol \theta\), disebut sebagai fungsi skor, atau vektor skor ketika terdapat beberapa parameter dalam \(\theta\). Fungsi skor atau vektor skor dapat dituliskan sebagai berikut:
\[u(\boldsymbol\theta)=\frac{ \partial}{\partial \boldsymbol \theta} l(\boldsymbol \theta|\mathbf{x}) =\frac{ \partial}{\partial \boldsymbol \theta} \log \prod_{i=1}^n f(x_i;\boldsymbol \theta ) =\sum_{i=1}^n \frac{ \partial}{\partial \boldsymbol \theta} \log f(x_i;\boldsymbol \theta ),\]
\[\mathrm{E}[u(\boldsymbol\theta)]=\mathrm{E} \left[ \frac{ \partial}{\partial \boldsymbol \theta} l(\boldsymbol \theta|\mathbf{x}) \right] = \mathbf 0 .\]
di mana \(u(\boldsymbol\theta)=(u_1(\boldsymbol\theta),u_2(\boldsymbol\theta),\cdots,u_p(\boldsymbol\theta))\) ketika \(\boldsymbol\theta=(\theta_1,\cdots,\theta_p)\) berisi \(p > 2\) parameter, dengan elemen uk(θ) = ∂l(θ|x)/∂θk merupakan turunan parsial terhadap \(\theta_k\) \(k=1,2,\cdots,p\)
Fungsi kemungkinan memiliki sifat-sifat berikut:
Salah satu sifat dasar dari fungsi kemungkinan adalah bahwa harapan dari fungsi skor terhadap \(x\) adalah 0. Yaitu,
\[\begin{aligned} \mathrm{E} \left[ \frac{ \partial}{\partial \boldsymbol \theta} l(\boldsymbol \theta|\mathbf{x}) \right] &= \mathrm{E} \left[ \frac{\frac{\partial}{\partial \boldsymbol \theta}f(\mathbf{x};\boldsymbol \theta)}{f(\mathbf{x};\boldsymbol \theta )} \right] = \int\frac{\partial}{\partial \boldsymbol \theta} f(\mathbf{y};\boldsymbol \theta ) d \mathbf y \\ &= \frac{\partial}{\partial \boldsymbol \theta} \int f(\mathbf{y};\boldsymbol \theta ) d \mathbf y = \frac{\partial}{\partial \boldsymbol \theta} 1 = \mathbf 0.\end{aligned} \]
\[\mathrm{E} \left( \frac{ \partial^2 }{\partial \boldsymbol \theta\partial \boldsymbol \theta^{\prime}} l(\boldsymbol \theta|\mathbf{x}) \right) + \mathrm{E} \left( \frac{ \partial l(\boldsymbol \theta|\mathbf{x})}{\partial\boldsymbol \theta} \frac{ \partial l(\boldsymbol \theta|\mathbf{x})}{\partial\boldsymbol \theta^{\prime}}\right) = \mathbf 0.\]
\[\mathcal{I}(\boldsymbol \theta) = \mathrm{E} \left( \frac{ \partial l(\boldsymbol \theta|\mathbf{x})}{\partial \boldsymbol \theta} \frac{ \partial l(\boldsymbol \theta|\mathbf{x})}{\partial \boldsymbol \theta^{\prime}} \right) = -\mathrm{E} \left( \frac{ \partial^2}{\partial \boldsymbol \theta \partial \boldsymbol \theta^{\prime}} l(\boldsymbol \theta|\mathbf{x}) \right).\]
Saat ukuran sampel n mendekati tak hingga, fungsi skor (vektor) akan konvergen dalam distribusi ke distribusi normal (atau distribusi normal multivariat jika \(\theta\) mengandung beberapa parameter) dengan rata-rata 0 dan varian (atau matriks kovarian dalam kasus multivariat) diberikan oleh \(\mathcal{I}(\boldsymbol \theta)\).
Dalam statistika, estimasi maksimum likelihood adalah nilai-nilai parameter θ yang paling mungkin dihasilkan oleh data.
Berdasarkan definisi yang diberikan dalam Lampiran Bab 15, nilai \(\theta\), katakanlah \(\hat{\boldsymbol \theta}_{MLE}\), yang memaksimalkan fungsi likelihood, disebut sebagai estimasi maksimum likelihood (MLE) dari \(\theta\).
Karena fungsi logaritma \(\log(\cdot)\) adalah fungsi satu-ke-satu, kita juga dapat menentukan \(\hat{\boldsymbol \theta}_{MLE}\)dengan memaksimalkan fungsi log-likelihood, \(l(\boldsymbol \theta|\mathbf{x})\). Dengan kata lain, MLE didefinisikan sebagai:
\[\hat{\boldsymbol \theta}_{MLE} = {\mbox{argmax}}_{\boldsymbol{\theta}\in\Theta}~l(\boldsymbol{\theta}|\mathbf{x}).\]
Diberikan bentuk analitik dari fungsi likelihood, MLE dapat diperoleh dengan mengambil turunan pertama dari fungsi log-likelihood terhadap θ, dan mengatur nilai-nilai turunan parsial menjadi nol. Dengan kata lain, MLE adalah solusi dari persamaan-persamaan berikut:
\[\frac{\partial l(\hat{\boldsymbol{\theta}}|\mathbf{x})}{\partial\hat{\boldsymbol{\theta}}}=\mathbf 0.\]
Dari Appendix Chapter 15, MLE memiliki beberapa sifat yang baik dalam sampel besar, di bawah kondisi reguler tertentu. Kami menyajikan hasil-hasil tersebut untuk kasus satu parameter di Appendix Chapter 15, tetapi hasil-hasil tersebut juga berlaku untuk kasus ketika \(\theta\) mengandung beberapa parameter. Secara khusus, kami memiliki hasil-hasil berikut, dalam kasus umum ketika \(\boldsymbol{\theta}=(\theta_1,\theta_2,\cdots,\theta_p)\).
MLE dari suatu parameter \(\theta\), \(\hat{\boldsymbol \theta}_{MLE}\), adalah estimator yang konsisten. Artinya, MLE \(\hat{\boldsymbol \theta}_{MLE}\) konvergen dalam probabilitas menuju nilai sebenarnya \(\theta\), saat ukuran sampel n menuju tak hingga.
MLE memiliki sifat asymptotic normality, yang berarti bahwa estimator akan konvergen dalam distribusi menuju distribusi normal multivariat yang berpusat pada nilai sebenarnya, saat ukuran sampel menuju tak hingga. Secara khusus,
\[\sqrt{n}(\hat{\boldsymbol{\theta}}_{MLE}-\boldsymbol{\theta})\rightarrow N\left(\mathbf 0,\,\boldsymbol{V}\right),\quad \mbox{as}\quad n\rightarrow \infty,\]
di mana V merupakan varian asimptotik (atau matriks kovarian) dari estimator. Oleh karena itu, MLE \(\hat{\boldsymbol \theta}_{MLE}\) memiliki distribusi normal yang hampir dengan mean \(\theta\) dan varian (matriks kovarian jika \(\boldsymbol{V}/n\) saat ukuran sampel besar.
Berdasarkan hasil-hasil di atas, kita dapat melakukan inferensi statistik berdasarkan prosedur yang ditentukan dalam Appendix Chapter 15.
Metode estimasi maksimum likelihood memiliki banyak keunggulan dibandingkan metode alternatif seperti metode momen yang diperkenalkan dalam Appendix Chapter 15.
Ini adalah alat umum yang berfungsi dalam banyak situasi. Misalnya, kita dapat menuliskan fungsi likelihood dalam bentuk tertutup untuk data yang tercensored dan tertruncated. Estimasi maksimum likelihood dapat digunakan untuk model regresi termasuk covariate, seperti regresi survival, generalized linear models, dan mixed models, yang mungkin mencakup covariate yang bergantung pada waktu.
Dari efisiensi MLE, metode ini optimal, yang terbaik, dalam arti bahwa memiliki varian terkecil di antara kelas semua estimator yang tidak bias untuk ukuran sampel besar.
Dari hasil mengenai asimptotik normalitas MLE, kita dapat memperoleh distribusi untuk estimator dalam sampel besar, memungkinkan pengguna untuk menilai variabilitas dalam estimasi dan melakukan inferensi statistik pada parameter. Pendekatan ini lebih sedikit menghabiskan komputasi dibandingkan metode resampling yang membutuhkan banyak fitting model.
Meskipun memiliki banyak keunggulan, MLE memiliki kekurangan dalam kasus seperti generalized linear models ketika tidak memiliki bentuk analitik tertutup. Dalam kasus seperti itu, estimator maksimum likelihood dihitung secara iteratif menggunakan metode optimisasi numerik. Misalnya, kita dapat menggunakan algoritma iteratif Newton-Raphson atau variasinya untuk mendapatkan MLE. Algoritma iteratif membutuhkan nilai awal. Untuk beberapa masalah, pemilihan nilai awal yang dekat menjadi sangat penting, terutama dalam kasus di mana fungsi likelihood memiliki minimum atau maksimum lokal. Oleh karena itu, mungkin ada masalah konvergensi ketika nilai awal jauh dari nilai maksimum. Oleh karena itu, penting untuk memulai dari nilai yang berbeda di seluruh ruang parameter, dan membandingkan likelihood atau log-likelihood yang dimaksimumkan untuk memastikan bahwa algoritma telah konvergen ke maksimum global.
Di Appendix Chapter 15, kami telah memperkenalkan metode berbasis maksimum likelihood untuk inferensi statistik ketika θ mengandung satu parameter. Di sini, kami akan memperluas hasil tersebut untuk kasus di mana terdapat beberapa parameter dalam θ.
Di Appendix Chapter 15, kami mendefinisikan pengujian hipotesis terkait hipotesis nol, yaitu pernyataan mengenai parameter-parameter dari distribusi atau model. Salah satu jenis inferensi yang penting adalah untuk menilai apakah estimasi parameter secara signifikan secara statistik, artinya apakah nilai parameter tersebut nol atau tidak.
Sebelumnya, kami telah belajar bahwa mle \(\mathrm{Var}(\hat{\boldsymbol{\theta}}_{MLE})\) memiliki distribusi normal untuk ukuran sampel yang besar dengan mean θ dan matriks kovarian varian \(\mathcal{I}^{-1}(\boldsymbol \theta)\). Berdasarkan distribusi normal multivariat, elemen ke-j dari θ^MLE, katakanlah \(\mathrm{Var}(\hat{\boldsymbol{\theta}}_{MLE})\),\(\hat{\theta}_{MLE,j}\), memiliki distribusi normal univariat untuk ukuran sampel yang besar.
Tentukan \(se(\hat{\theta}_{MLE,j})\), yaitu kesalahan standar (deviasi standar yang diestimasi), sebagai akar kuadrat elemen diagonal ke-j dari \(\mathcal{I}^{-1}(\boldsymbol \theta)_{MLE}\). Untuk menilai hipotesis nol bahwa \(\theta_j=\theta_0\), kami mendefinisikan statistik t atau rasio t sebagai \(t(\hat{\theta}_{MLE,j})=(\hat{\theta}_{MLE,j}-\theta_0)/se(\hat{\theta}_{MLE,j})\).
Di bawah hipotesis nol, statistik t tersebut memiliki distribusi t-Student dengan derajat kebebasan sebesar \(n−p\), dengan \(p\) adalah dimensi dari \(\theta\) .
Untuk sebagian besar aplikasi aktuaria, kita memiliki ukuran sampel yang besar \(n\), sehingga distribusi \(t\) sangat dekat dengan distribusi normal (standar). Dalam kasus ketika n sangat besar atau ketika kesalahan standar diketahui, statistik \(t\) dapat disebut sebagai statistik \(z\) atau skor \(z\).
Berdasarkan hasil dari Appendix Chapter 15, jika statistik \(t\) \(t(\hat{\theta}_{MLE,j})\) melebihi nilai batas (dalam nilai absolut), maka pengujian untuk parameter ke-j \(\theta_j\) dianggap signifikan secara statistik. Jika \(\theta_j\) adalah koefisien regresi dari variabel independen ke-j, maka kita mengatakan bahwa variabel ke-j tersebut signifikan secara statistik.
Sebagai contoh, jika kita menggunakan tingkat signifikansi 5%, maka nilai batasnya adalah 1.96 dengan menggunakan pendekatan distribusi normal untuk kasus dengan ukuran sampel yang besar. Secara umum, dengan menggunakan tingkat signifikansi \(100 \alpha \%\), maka nilai batasnya adalah kuantil \(100(1-\alpha/2)\%\) dari distribusi t-Student dengan derajat kebebasan \(n−p\).
Konsep lain yang berguna dalam pengujian hipotesis adalah p-value atau probability value. Berdasarkan definisi matematis dalam Appendix Chapter 15, p-value didefinisikan sebagai tingkat signifikansi terkecil di mana hipotesis nol akan ditolak. Oleh karena itu, p-value adalah statistik ringkasan yang berguna bagi analis data untuk dilaporkan karena memungkinkan pembaca memahami kekuatan bukti statistik tentang penyimpangan dari hipotesis nol.
Selain pengujian hipotesis dan estimasi interval yang diperkenalkan di Appendix Chapter 15 dan subbagian sebelumnya, jenis inferensi penting lainnya adalah pemilihan model dari dua pilihan, di mana satu pilihan merupakan kasus khusus dari yang lain dengan beberapa parameter dibatasi. Untuk dua model tersebut, di mana satu model termasuk dalam model yang lain, kami telah memperkenalkan uji rasio kemungkinan (likelihood ratio test/LRT) di Appendix Chapter 15. Di sini, kami akan secara singkat mengulas proses melakukan LRT berdasarkan contoh khusus dari dua model alternatif.
Misalkan kita memiliki sebuah model (besar) di mana kita memperoleh estimasi maximum likelihood, \(\hat{\boldsymbol{\theta}}_{MLE}v\). Sekarang diasumsikan bahwa beberapa elemen \(p\) dalam \(\theta\) adalah nol, dan kita menentukan estimasi maximum likelihood dari himpunan yang tersisa, dengan estimasi yang dihasilkan ditunjukkan sebagai \(\hat{\boldsymbol{\theta}}_{Reduced}\).
Berdasarkan definisi di Appendix Chapter 15, statistik \(LRT= 2 \left( l(\hat{\boldsymbol{\theta}}_{MLE}) - l(\hat{\boldsymbol{\theta}}_{Reduced}) \right)\), disebut sebagai statistik rasio kemungkinan. Di bawah hipotesis nol bahwa model yang dibatasi adalah benar, rasio kemungkinan memiliki distribusi chi-kuadrat dengan derajat kebebasan sebanyak d, yaitu jumlah variabel yang diatur menjadi nol.
Uji seperti ini memungkinkan kita menentukan model mana dari dua model yang lebih mungkin benar, dengan mempertimbangkan data yang diamati. Jika statistik LRT besar relatif terhadap nilai kritis dari distribusi chi-kuadrat, maka kita menolak model yang dibatasi dan memilih model yang lebih besar. Detail mengenai nilai kritis dan metode alternatif berdasarkan kriteria informasi dijelaskan di Appendix Chapter 15.