Data

Data yang digunakan dalam fitting distribution merupakan data random bangkitan dengan proporsi 90% data berdistribusi normal (nilai mean sebesar 0 dan nilai standar deviasi sebesar 0,01) dan 10% data berdistribusi student-t (derajat bebas sebesar 3). Jumlah data yang dibangkitkan adalah 1.000 data.

Statistika Deskriptif

Dari data tersebut, dapat diketahui karakteristik data dengan melakukan analisis statistika deskriptif. Hasil dari analisis statistika deskriptif data adalah sebagai berikut.

## [1] "Mean dari data adalah 0.00391785901285201"
## [1] "Median dari data adalah -0.000266080268348823"
## [1] "Standar deviasi dari data adalah 0.520064432065642"
## [1] "Tidak ada modus dalam data"
## [1] "Skewness dari data adalah -5.56228474804949 ."
## [1] "Kurtosis dari data adalah 105.85888046869 ."

Perbedaan nilai antara nilai rata - rata dengan nilai median dapat diartikan bahwa data tidak berdistribusi normal dengan sempurna. Selain itu, nilai standar deviasi dari data adalah 0,52006 yang menggambarkan seberapa tersebar data. Dari data return saham ini tidak ditemukan modus karena setiap data memiliki nilai yang berbeda sehingga tidak ada nilai yang memiliki frekuensi lebih dari satu. Nilai skewness yang negatif menggambarkan bahwa data memiliki puncak di sisi kanan grafik atau memiliki nilai ekstrem di sisi kiri grafik. Nilai kurtosis yang sangat tinggi menandakan bahwa banyak data yang berada di sekitar nilai rata - rata dengan adanya outlier. Selain itu, dilakukan visualisasi untuk mengetahui persebaran data dengan hasil sebagai berikut.

Dari visualisasi dengan boxplot, didapatkan hasil bahwa data cenderung berada pada nilai yang sangat mendekati 0. Terdapat sangat banyak outlier atau nilai ekstrem pada data ini. Nilai dari kuartil 1, median, dan kuartil 3 tidak terlihat dengan jelas pada gambar di atas. Hal ini bisa diakibatkan oleh rentang antara kuartil 1 dan kuartil 3 yang sangat kecil. Selain itu, whiskers pada boxplot juga tidak terlihat dengan jelas yang bisa diakibatkan oleh nilai whiskers yang sangat kecil. Selain visualisasi dengan boxplot, visualisasi persebaran data dapat menggunakan histogram dengan hasil sebagai berikut.

Dari visualiasasi dengan histogram, didapatkan informasi mengenai persebaran data terbanyak berada pada rentang -0,5 hingga 0,5. Frekuensi data pada rentang nilai tersebut sangat tinggi dibandingkan rentang lainnya yang hanya berkisar lebih sedikit dari 100 data. Terdapat nilai yang cukup ekstrem pada data ini, yaitu lebih dari -8 dengan frekuensi yang sangat kecil, yaitu 1. Nilai ekstrem tersebut cenderung berpotensi menjadi outlier pada data.

Fitting Distribution

Untuk mengetahui distribusi apa yang cocok dengan data, dilakukan fitting distribution dengan asumsi beberapa distribusi, yaitu distribusi normal, distribusi student-t,dan distribusi generalized pareto.

Distribusi Normal

Dalam fitting distribution ini, ingin dicari nilai dari estimasi parameter, plot distribusi, dan nilai kebaikan model. Hasil dari estimasi parameter fitting distribution distribusi normal adalah sebagai berikut.

##        mean          sd 
## 0.003917859 0.519804335

Setelah mengetahui estimasi parameter, dapat dilakukan visualisasi plot dari distribusi normal dengan hasil sebagai berikut. Dari gambar di atas, didapatkan bahwa diagram densitas dari distribusi normal standar cukup tervisualisasi walaupun masih kurang cocok dengan data. Dari diagram CDF, dapat dilihat bahwa data juga cukup tervisualisasi mengikuti garis CDF, namun masih belum cukup cocok. Diagram Q-Q menghasilkan cukup banyak nilai yang mengikuti garis diagonal yang ada. Hal ini mengindikasikan bahwa nilai kuantil empiris dengan teoritis memiliki kemiripan antara satu sama lain. Di sisi lain, diagram CDF dan P-P tidak mengikuti garis acuan yang ada sehingga dapat diartikan bahwa nilai CDF dan peluang empiris dengan teoritis tidak cocok. Setelah mendapatkan plot, nilai kebaikan model dapat dicari dengan nilai AIC, BIC, dan log likelihood dengan hasil sebagai berikut.

## [1] "AIC dari distribusi adalah 1533.27143154764"
## [1] "BIC dari distribusi adalah 1543.08694210561"
## [1] "Log likelihood dari distribusi adalah -764.635715773821"

Setelah mengetahui nilai kebaikan data dari nilai AIC, BIC, dan log likelihood, nilai tersebut akan digunakan untuk perbandingan dengan distribusi lainnya. Untuk mengetahui apakah distribusi ini sudah sesuai dengan data, maka dilakukan uji goodness of fit dan Kolmogorov-Smirnov dengan hasil sebagai berikut.

## 
##  Asymptotic one-sample Kolmogorov-Smirnov test
## 
## data:  return_saham$`Return Saham`
## D = 0.44093, p-value < 0.00000000000000022
## alternative hypothesis: two-sided
## 
## Results of Goodness-of-Fit Test
## -------------------------------
## 
## Test Method:                     Kolmogorov-Smirnov GOF
## 
## Hypothesized Distribution:       Normal
## 
## Estimated Parameter(s):          mean = 0.003917859
##                                  sd   = 0.520064432
## 
## Estimation Method:               mvue
## 
## Data:                            return_saham$`Return Saham`
## 
## Sample Size:                     1000
## 
## Test Statistic:                  ks = 0.427256
## 
## Test Statistic Parameter:        n = 1000
## 
## P-value:                         0
## 
## Alternative Hypothesis:          True cdf does not equal the
##                                  Normal Distribution.

Dari pengujian tersebut, dapat disimpulkan bahwa data tidak berdistribusi normal karena nilai p-value yang lebih kecil dibanding alpha.

Distribusi Student-t

Dalam fitting distribution ini, ingin dicari nilai dari estimasi parameter, plot distribusi, dan nilai kebaikan model. Hasil dari estimasi parameter fitting distribution distribusi student-t adalah sebagai berikut.

##       df 
## 16.91099

Setelah mengetahui estimasi parameter, dapat dilakukan visualisasi plot dari distribusi student-t dengan hasil sebagai berikut. Dari gambar di atas, didapatkan bahwa diagram densitas dari distribusi student-t dengan derajat bebas 3 tervisualisasi dengan cukup baik dengan densitas tertinggi berada pada rentang nilai -1 hingga 1. Dari diagram tersebut, dapat dikatakan fungsi densitasnya memiliki puncak di sisi kanan grafik dan cenderung skewness negatif. Diagram Q-Q menghasilkan cukup banyak nilai yang mengikuti garis diagonal yang ada. Hal ini bisa mengindikasikan bahwa nilai kuantil empiris dengan teoritis cukup sesuai. Di sisi lain, diagram CDF kurang mengikuti garis acuan yang ada sehingga dapat diartikan bahwa nilai CDF empiris dengan teoritis cukup sesuai. Akan tetapi, diagram P-P tidak mengikuti garis acuan yang ada sehingga dapat diartikan bahwa nilai peluang empiris dengan teoritis sangatlah berbeda. Setelah mendapatkan plot, nilai kebaikan model dapat dicari dengan nilai AIC, BIC, dan log likelihood dengan hasil sebagai berikut.

## [1] "AIC dari distribusi adalah 2068.87029702181"
## [1] "BIC dari distribusi adalah 2073.77805230079"
## [1] "Log likelihood dari distribusi adalah -1033.4351485109"

Setelah mengetahui nilai kebaikan data dari nilai AIC, BIC, dan log likelihood, nilai tersebut akan digunakan untuk perbandingan dengan distribusi lainnya. Untuk mengetahui apakah distribusi ini sudah sesuai dengan data, maka dilakukan uji Kolmogorov-Smirnov dengan hasil sebagai berikut.

## 
##  Asymptotic one-sample Kolmogorov-Smirnov test
## 
## data:  return_saham$`Return Saham`
## D = 0.44196, p-value < 0.00000000000000022
## alternative hypothesis: two-sided

Dari pengujian tersebut, dapat disimpulkan bahwa data tidak berdistribusi student-t karena nilai p-value yang lebih kecil dibanding alpha.

Distribusi Generalized Pareto

Dalam fitting distribution ini, ingin dicari nilai dari estimasi parameter, plot distribusi, dan nilai kebaikan model. Hasil dari estimasi parameter fitting distribution distribusi generalized pareto adalah sebagai berikut.

##         xi       beta 
## -0.3841027  1.5507573

Setelah mengetahui estimasi parameter, dapat dilakukan visualisasi plot dari distribusi generalized pareto dengan hasil sebagai berikut. Dari gambar di atas, didapatkan bahwa diagram densitas dari GPD dengan tidak tervisualisasi dengan baik dengan densitas tertinggi berada pada nilai 0. Sama halnya dengan plot CDF data terhadap CDF dari GPD yang juga tidak sesuai. Diagram Q-Q menunjukkan data yang tidak mengikuti garis diagonal yang ada. Hal ini bisa mengindikasikan bahwa nilai kuantil empiris dengan teoritis sangatlah berbeda. Di sisi lain, diagram CDF dan P-P sangat tidak mengikuti garis acuan yang ada sehingga dapat diartikan bahwa nilai CDF dan peluang empiris dengan teoritis tidak cocok. Setelah mendapatkan plot, nilai kebaikan model dapat dicari dengan nilai AIC, BIC, dan log likelihood dengan hasil sebagai berikut.

## [1] "AIC dari distribusi adalah 109.468089693477"
## [1] "BIC dari distribusi adalah 119.283600251441"
## [1] "Log likelihood dari distribusi adalah -52.7340448467383"

Setelah mengetahui nilai kebaikan data dari nilai AIC, BIC, dan log likelihood, nilai tersebut akan digunakan untuk perbandingan dengan distribusi lainnya. Untuk mengetahui apakah distribusi ini sudah sesuai dengan data, maka dilakukan uji Kolmogorov-Smirnov dengan hasil sebagai berikut.

## 
##  Asymptotic one-sample Kolmogorov-Smirnov test
## 
## data:  return_saham$`Return Saham`
## D = 0.91885, p-value < 0.00000000000000022
## alternative hypothesis: two-sided

Dari pengujian tersebut, dapat disimpulkan bahwa data tidak berdistribusi generalized pareto karena nilai p-value yang lebih kecil dibanding alpha.

Kesimpulan

Dari perbandingan nilai p-value uji Kolomogorov-Smirnov, dapat disimpulkan bahwa tidak ada distribusi yang sesuai dengan data. Karena hasil visualisasi yang sulit disimpulkan dan uji Kolmogorov-Smirnov yang menyatakan bahwa data tidak sesuai dengan distribusi, pemilihan distribusi yang cukup sesuai dengan data dapat dilakukan dengan membandingkan nilai kebaikan model berdasarkan perhitungan log likelihood, AIC, dan BIC. Dari perbandingan ketiga nilai, distribusi yang memiliki nilai AIC terkecil, BIC terkecil, dan log likelihood terbesar adalah distribusi generalized pareto. Walaupun hasil uji Kolmogorov-Smirnov tidak memenuhi, distribusi ini merupakan distribusi terbaik dibandingkan 2 distribusi lainnya, yaitu distribusi normal dan distribusi student-t.