Data yang digunakan dalam fitting distribution merupakan data random bangkitan dengan proporsi 90% data berdistribusi normal (nilai mean sebesar 0 dan nilai standar deviasi sebesar 0,01) dan 10% data berdistribusi student-t (derajat bebas sebesar 3). Jumlah data yang dibangkitkan adalah 1.000 data.
Dari data tersebut, dapat diketahui karakteristik data dengan melakukan analisis statistika deskriptif. Hasil dari analisis statistika deskriptif data adalah sebagai berikut.
## [1] "Mean dari data adalah 0.00391785901285201"
## [1] "Median dari data adalah -0.000266080268348823"
## [1] "Standar deviasi dari data adalah 0.520064432065642"
## [1] "Tidak ada modus dalam data"
## [1] "Skewness dari data adalah -5.56228474804949 ."
## [1] "Kurtosis dari data adalah 105.85888046869 ."
Perbedaan nilai antara nilai rata - rata dengan nilai median dapat diartikan bahwa data tidak berdistribusi normal dengan sempurna. Selain itu, nilai standar deviasi dari data adalah 0,52006 yang menggambarkan seberapa tersebar data. Dari data return saham ini tidak ditemukan modus karena setiap data memiliki nilai yang berbeda sehingga tidak ada nilai yang memiliki frekuensi lebih dari satu. Nilai skewness yang negatif menggambarkan bahwa data memiliki puncak di sisi kanan grafik atau memiliki nilai ekstrem di sisi kiri grafik. Nilai kurtosis yang sangat tinggi menandakan bahwa banyak data yang berada di sekitar nilai rata - rata dengan adanya outlier. Selain itu, dilakukan visualisasi untuk mengetahui persebaran data dengan hasil sebagai berikut.
Dari visualisasi dengan boxplot, didapatkan hasil bahwa data cenderung berada pada nilai yang sangat mendekati 0. Terdapat sangat banyak outlier atau nilai ekstrem pada data ini. Nilai dari kuartil 1, median, dan kuartil 3 tidak terlihat dengan jelas pada gambar di atas. Hal ini bisa diakibatkan oleh rentang antara kuartil 1 dan kuartil 3 yang sangat kecil. Selain itu, whiskers pada boxplot juga tidak terlihat dengan jelas yang bisa diakibatkan oleh nilai whiskers yang sangat kecil. Selain visualisasi dengan boxplot, visualisasi persebaran data dapat menggunakan histogram dengan hasil sebagai berikut.
Dari visualiasasi dengan histogram, didapatkan informasi mengenai persebaran data terbanyak berada pada rentang -0,5 hingga 0,5. Frekuensi data pada rentang nilai tersebut sangat tinggi dibandingkan rentang lainnya yang hanya berkisar lebih sedikit dari 100 data. Terdapat nilai yang cukup ekstrem pada data ini, yaitu lebih dari -8 dengan frekuensi yang sangat kecil, yaitu 1. Nilai ekstrem tersebut cenderung berpotensi menjadi outlier pada data.
Untuk mengetahui distribusi apa yang cocok dengan data, dilakukan fitting distribution dengan asumsi beberapa distribusi, yaitu distribusi normal, distribusi student-t,dan distribusi generalized pareto.
Dalam fitting distribution ini, ingin dicari nilai dari estimasi parameter, plot distribusi, dan nilai kebaikan model. Hasil dari estimasi parameter fitting distribution distribusi normal adalah sebagai berikut.
## mean sd
## 0.003917859 0.519804335
Setelah mengetahui estimasi parameter, dapat dilakukan visualisasi
plot dari distribusi normal dengan hasil sebagai berikut.
Dari gambar di atas, didapatkan bahwa diagram densitas dari distribusi
normal standar cukup tervisualisasi walaupun masih kurang cocok dengan
data. Dari diagram CDF, dapat dilihat bahwa data juga cukup
tervisualisasi mengikuti garis CDF, namun masih belum cukup cocok.
Diagram Q-Q menghasilkan cukup banyak nilai yang mengikuti garis
diagonal yang ada. Hal ini mengindikasikan bahwa nilai kuantil empiris
dengan teoritis memiliki kemiripan antara satu sama lain. Di sisi lain,
diagram CDF dan P-P tidak mengikuti garis acuan yang ada sehingga dapat
diartikan bahwa nilai CDF dan peluang empiris dengan teoritis tidak
cocok. Setelah mendapatkan plot, nilai kebaikan model dapat dicari
dengan nilai AIC, BIC, dan log likelihood dengan hasil sebagai
berikut.
## [1] "AIC dari distribusi adalah 1533.27143154764"
## [1] "BIC dari distribusi adalah 1543.08694210561"
## [1] "Log likelihood dari distribusi adalah -764.635715773821"
Setelah mengetahui nilai kebaikan data dari nilai AIC, BIC, dan log likelihood, nilai tersebut akan digunakan untuk perbandingan dengan distribusi lainnya. Untuk mengetahui apakah distribusi ini sudah sesuai dengan data, maka dilakukan uji goodness of fit dan Kolmogorov-Smirnov dengan hasil sebagai berikut.
##
## Asymptotic one-sample Kolmogorov-Smirnov test
##
## data: return_saham$`Return Saham`
## D = 0.44093, p-value < 0.00000000000000022
## alternative hypothesis: two-sided
##
## Results of Goodness-of-Fit Test
## -------------------------------
##
## Test Method: Kolmogorov-Smirnov GOF
##
## Hypothesized Distribution: Normal
##
## Estimated Parameter(s): mean = 0.003917859
## sd = 0.520064432
##
## Estimation Method: mvue
##
## Data: return_saham$`Return Saham`
##
## Sample Size: 1000
##
## Test Statistic: ks = 0.427256
##
## Test Statistic Parameter: n = 1000
##
## P-value: 0
##
## Alternative Hypothesis: True cdf does not equal the
## Normal Distribution.
Dari pengujian tersebut, dapat disimpulkan bahwa data tidak berdistribusi normal karena nilai p-value yang lebih kecil dibanding alpha.
Dalam fitting distribution ini, ingin dicari nilai dari estimasi parameter, plot distribusi, dan nilai kebaikan model. Hasil dari estimasi parameter fitting distribution distribusi student-t adalah sebagai berikut.
## df
## 16.91099
Setelah mengetahui estimasi parameter, dapat dilakukan visualisasi
plot dari distribusi student-t dengan hasil sebagai berikut.
Dari gambar di atas, didapatkan bahwa diagram densitas dari distribusi
student-t dengan derajat bebas 3 tervisualisasi dengan cukup
baik dengan densitas tertinggi berada pada rentang nilai -1 hingga 1.
Dari diagram tersebut, dapat dikatakan fungsi densitasnya memiliki
puncak di sisi kanan grafik dan cenderung skewness negatif.
Diagram Q-Q menghasilkan cukup banyak nilai yang mengikuti garis
diagonal yang ada. Hal ini bisa mengindikasikan bahwa nilai kuantil
empiris dengan teoritis cukup sesuai. Di sisi lain, diagram CDF kurang
mengikuti garis acuan yang ada sehingga dapat diartikan bahwa nilai CDF
empiris dengan teoritis cukup sesuai. Akan tetapi, diagram P-P tidak
mengikuti garis acuan yang ada sehingga dapat diartikan bahwa nilai
peluang empiris dengan teoritis sangatlah berbeda. Setelah mendapatkan
plot, nilai kebaikan model dapat dicari dengan nilai AIC, BIC, dan
log likelihood dengan hasil sebagai berikut.
## [1] "AIC dari distribusi adalah 2068.87029702181"
## [1] "BIC dari distribusi adalah 2073.77805230079"
## [1] "Log likelihood dari distribusi adalah -1033.4351485109"
Setelah mengetahui nilai kebaikan data dari nilai AIC, BIC, dan log likelihood, nilai tersebut akan digunakan untuk perbandingan dengan distribusi lainnya. Untuk mengetahui apakah distribusi ini sudah sesuai dengan data, maka dilakukan uji Kolmogorov-Smirnov dengan hasil sebagai berikut.
##
## Asymptotic one-sample Kolmogorov-Smirnov test
##
## data: return_saham$`Return Saham`
## D = 0.44196, p-value < 0.00000000000000022
## alternative hypothesis: two-sided
Dari pengujian tersebut, dapat disimpulkan bahwa data tidak berdistribusi student-t karena nilai p-value yang lebih kecil dibanding alpha.
Dalam fitting distribution ini, ingin dicari nilai dari estimasi parameter, plot distribusi, dan nilai kebaikan model. Hasil dari estimasi parameter fitting distribution distribusi generalized pareto adalah sebagai berikut.
## xi beta
## -0.3841027 1.5507573
Setelah mengetahui estimasi parameter, dapat dilakukan visualisasi
plot dari distribusi generalized pareto dengan hasil sebagai
berikut.
Dari gambar di atas, didapatkan bahwa diagram densitas dari GPD dengan
tidak tervisualisasi dengan baik dengan densitas tertinggi berada pada
nilai 0. Sama halnya dengan plot CDF data terhadap CDF dari GPD yang
juga tidak sesuai. Diagram Q-Q menunjukkan data yang tidak mengikuti
garis diagonal yang ada. Hal ini bisa mengindikasikan bahwa nilai
kuantil empiris dengan teoritis sangatlah berbeda. Di sisi lain, diagram
CDF dan P-P sangat tidak mengikuti garis acuan yang ada sehingga dapat
diartikan bahwa nilai CDF dan peluang empiris dengan teoritis tidak
cocok. Setelah mendapatkan plot, nilai kebaikan model dapat dicari
dengan nilai AIC, BIC, dan log likelihood dengan hasil sebagai
berikut.
## [1] "AIC dari distribusi adalah 109.468089693477"
## [1] "BIC dari distribusi adalah 119.283600251441"
## [1] "Log likelihood dari distribusi adalah -52.7340448467383"
Setelah mengetahui nilai kebaikan data dari nilai AIC, BIC, dan log likelihood, nilai tersebut akan digunakan untuk perbandingan dengan distribusi lainnya. Untuk mengetahui apakah distribusi ini sudah sesuai dengan data, maka dilakukan uji Kolmogorov-Smirnov dengan hasil sebagai berikut.
##
## Asymptotic one-sample Kolmogorov-Smirnov test
##
## data: return_saham$`Return Saham`
## D = 0.91885, p-value < 0.00000000000000022
## alternative hypothesis: two-sided
Dari pengujian tersebut, dapat disimpulkan bahwa data tidak berdistribusi generalized pareto karena nilai p-value yang lebih kecil dibanding alpha.
Dari perbandingan nilai p-value uji Kolomogorov-Smirnov, dapat disimpulkan bahwa tidak ada distribusi yang sesuai dengan data. Karena hasil visualisasi yang sulit disimpulkan dan uji Kolmogorov-Smirnov yang menyatakan bahwa data tidak sesuai dengan distribusi, pemilihan distribusi yang cukup sesuai dengan data dapat dilakukan dengan membandingkan nilai kebaikan model berdasarkan perhitungan log likelihood, AIC, dan BIC. Dari perbandingan ketiga nilai, distribusi yang memiliki nilai AIC terkecil, BIC terkecil, dan log likelihood terbesar adalah distribusi generalized pareto. Walaupun hasil uji Kolmogorov-Smirnov tidak memenuhi, distribusi ini merupakan distribusi terbaik dibandingkan 2 distribusi lainnya, yaitu distribusi normal dan distribusi student-t.