1.) Pendahuluan

Latar Belakang

Dalam dunia investasi modern, investor sering menggunakan data historis return saham untuk memperkirakan rata-rata keuntungan di masa mendatang. Namun, estimasi rata-rata return yang diperoleh dari sampel tidak pernah pasti karena adanya ketidakpastian estimasi (estimation uncertainty). Interval kepercayaan (IK) 95% merupakan salah satu alat statistika yang digunakan untuk mengukur tingkat ketidakpastian tersebut. Lebar interval kepercayaan dipengaruhi oleh beberapa faktor, yaitu: 1. Ukuran sampel (sample size) 2. Variabilitas data (standard deviation) 3. Pengetahuan terhadap standar deviasi populasi Praktikum ini menggunakan simulasi Monte Carlo untuk mempelajari bagaimana ketiga faktor tersebut memengaruhi lebar interval kepercayaan 95%.

Tujuan

Menganalisis pengaruh ukuran sampel terhadap lebar IK 95%.
Menganalisis pengaruh variabilitas data terhadap lebar IK 95%.
Membandingkan penggunaan distribusi z dan distribusi t.
Memvalidasi hasil simulasi menggunakan formula teoritis.
Memvisualisasikan ketidakpastian estimasi secara komprehensif.

2.) Paket yang Digunakan

3.) Parameter Simulasi

ukuran_sampel <- c(5,30,100)

sd_populasi <- c(10,50,90)

metode <- c(
  "Sigma Diketahui (z)",
  "Sigma Tidak Diketahui (t)"
)

n_simulasi <- 10000

mu_pop <- 100

alpha <- 0.05

4.) Fungsi Simulasi

simulasi_IK <- function(n, sigma, metode){

  lebar_IK <- numeric(n_simulasi)

  for(i in 1:n_simulasi){

    sampel <- rnorm(
      n = n,
      mean = mu_pop,
      sd = sigma
    )

    if(metode=="Sigma Diketahui (z)"){

      margin_error <-
        qnorm(0.975) *
        sigma/sqrt(n)

    } else {

      s <- sd(sampel)

      margin_error <-
        qt(0.975,df=n-1) *
        s/sqrt(n)
    }

    lebar_IK[i] <- 2*margin_error
  }

  data.frame(
    n = n,
    sigma = sigma,
    metode = metode,
    rata_lebar = mean(lebar_IK),
    sd_lebar = sd(lebar_IK),

    lebar_teori =
      ifelse(
        metode=="Sigma Diketahui (z)",
        2*qnorm(0.975)*sigma/sqrt(n),
        2*qt(0.975,df=n-1)*sigma/sqrt(n)
      ),

    seluruh_lebar = I(list(lebar_IK))
  )
}

5.) Menjalankan Simulasi

kombinasi <- expand_grid(
  n = ukuran_sampel,
  sigma = sd_populasi,
  metode = metode
)

hasil_simulasi <- pmap_dfr(
  kombinasi,
  function(n, sigma, metode){
    simulasi_IK(n = n, sigma = sigma, metode = metode)
  }
)

hasil_simulasi <- hasil_simulasi %>%
  select(-seluruh_lebar)

kable(hasil_simulasi, digits = 2)

n	sigma	metode	rata_lebar	sd_lebar	lebar_teori
5	10	Sigma Diketahui (z)	17.53	0.00	17.53
5	10	Sigma Tidak Diketahui (t)	23.34	8.42	24.83
5	50	Sigma Diketahui (z)	87.65	0.00	87.65
5	50	Sigma Tidak Diketahui (t)	116.43	42.68	124.17
5	90	Sigma Diketahui (z)	157.77	0.00	157.77
5	90	Sigma Tidak Diketahui (t)	211.04	76.38	223.50
30	10	Sigma Diketahui (z)	7.16	0.00	7.16
30	10	Sigma Tidak Diketahui (t)	7.40	0.97	7.47
30	50	Sigma Diketahui (z)	35.78	0.00	35.78
30	50	Sigma Tidak Diketahui (t)	37.04	4.90	37.34
30	90	Sigma Diketahui (z)	64.41	0.00	64.41
30	90	Sigma Tidak Diketahui (t)	66.58	8.76	67.21
100	10	Sigma Diketahui (z)	3.92	0.00	3.92
100	10	Sigma Tidak Diketahui (t)	3.96	0.28	3.97
100	50	Sigma Diketahui (z)	19.60	0.00	19.60
100	50	Sigma Tidak Diketahui (t)	19.80	1.41	19.84
100	90	Sigma Diketahui (z)	35.28	0.00	35.28
100	90	Sigma Tidak Diketahui (t)	35.62	2.55	35.72

6.) Heatmap Lebar IK

plot1 <- ggplot(
hasil_simulasi,
aes(
factor(n),
factor(sigma),
fill=rata_lebar
)
)+
geom_tile(color="white")+
geom_text(
aes(label=round(rata_lebar,1)),
color="white",
size=6
)+
facet_wrap(~metode)+
scale_fill_viridis_c()+
labs(
title="Heatmap Lebar IK",
x="Ukuran Sampel",
y="Standar Deviasi"
)

plot1

7.) Pengaruh Ukuran Sampel

plot2 <- ggplot(
hasil_simulasi,
aes(
n,
rata_lebar,
color=factor(sigma),
group=sigma
)
)+
geom_line(linewidth=1.2)+
geom_point(size=4)+
facet_wrap(~metode)+
labs(
title="Pengaruh Ukuran Sampel",
x="n",
y="Lebar IK"
)

plot2

8.) Pengaruh Variabilitas Data

plot3 <- ggplot(
hasil_simulasi,
aes(
factor(sigma),
rata_lebar,
fill=factor(n)
)
)+
geom_col(position="dodge")+
facet_wrap(~metode)+
labs(
title="Pengaruh Variabilitas Data"
)

plot3

9.) Validasi Simulasi

plot4 <- ggplot(
hasil_simulasi,
aes(
lebar_teori,
rata_lebar
)
)+
geom_point(size=4)+
geom_abline(
slope=1,
intercept=0,
linetype="dashed"
)+
facet_wrap(~metode)+
labs(
title="Simulasi vs Teori"
)

plot4

10.) Panel Gabungan

(plot1 | plot2) /
(plot3 | plot4)

11.) Interpretasi Hasil

Pengaruh ukuran sampel (n) terhadap lebar IK

Hasil simulasi menunjukkan pola yang konsisten: semakin besar ukuran sampel, semakin sempit lebar interval kepercayaan. Misalnya pada σ = 50 dengan metode z, lebar IK turun drastis dari 87,65 (n = 5) menjadi 35,78 (n = 30) lalu 19,60 (n = 100). Ini sesuai teori, karena standard error berbanding terbalik dengan akar n (SE = σ/√n) — menambah sampel 4x lipat (dari 5 ke 30 lebih) hanya mengurangi lebar IK sekitar separuh, bukan sebanding linear, karena efeknya melalui akar kuadrat.

Pengaruh variabilitas data (σ) terhadap lebar IK

Semakin besar standar deviasi populasi, semakin lebar IK yang dihasilkan, dan hubungannya linear/proporsional. Pada n = 30 metode z, lebar IK naik dari 7,16 (σ = 10) → 35,78 (σ = 50) → 64,41 (σ = 90), kenaikan yang sebanding dengan kenaikan σ. Ini logis karena margin of error langsung proporsional terhadap σ.

Perbandingan distribusi z vs distribusi t

Ini bagian paling menarik dari hasil Anda. Pada sampel kecil (n = 5), distribusi t menghasilkan IK yang jauh lebih lebar dan lebih variatif dibanding z — misalnya pada σ = 50: z menghasilkan lebar 87,65 (sd =0) sementara t menghasilkan rata-rata 116,43 dengan sd = 42,68. Perbedaan ini mengecil drastis seiring n membesar: pada n = 100, σ = 50, z = 19,60 dan t = 19,80 — hampir identik.

Ini menunjukkan dua hal penting:

Saat σ tidak diketahui dan harus diestimasi dari sampel kecil, ketidakpastian tambahan ini membuat IK lebih lebar (margin ekstra dari distribusi t yang berekor lebih tebal) dan lebih bervariasi antar simulasi (karena s sebagai estimator σ sendiri berfluktuasi).
Saat n besar, distribusi t konvergen ke distribusi z, sehingga perbedaan praktis menjadi minimal — konsisten dengan teori bahwa distribusi t mendekati distribusi normal ketika derajat bebas (df = n-1) besar.

Perlu dicatat bahwa sd_lebar = 0 untuk semua kasus metode z. Ini bukan temuan substantif melainkan konsekuensi dari kode: pada metode z, margin_error dihitung memakai σ populasi yang sudah diketahui (konstan), bukan dari sampel, sehingga lebar_IK selalu sama di setiap iterasi simulasi — tidak ada variasi sama sekali. Variasi hanya muncul pada metode t, karena disitu s (standar deviasi sampel) yang dipakai berubah-ubah setiap iterasi.

Validasi simulasi terhadap teori

Pada plot Simulasi vs Teori, titik-titik (rata_lebar vs lebar_teori) seharusnya jatuh sangat dekat dengan garis diagonal (slope = 1, intercept = 0) — dan memang demikian, dengan selisih kecil yang konsisten (misalnya t pada n = 5, σ = 10 : simulasi 23,34 vs teori 24,83). Ini mengonfirmasi bahwa simulasi Monte Carlo Anda (dengan 10.000 iterasi) sudah cukup presisi untuk mereplikasi hasil formula teoritis, walau ada deviasi kecil khas simulasi Monte Carlo akibat random sampling error — yang sebetulnya bisa diperkecil lagi dengan menambah n_simulasi atau menetapkan seed berbeda untuk cross-check.

12.) Kesimpulan

Ukuran sampel

berpengaruh kuat memperkecil lebar IK, namun dengan laju yang melambat (mengikuti hubungan 1/√n), bukan linear.

Variabilitas data (σ)

berpengaruh proporsional/linear: makin besar volatilitas data return saham, makin lebar ketidakpastian estimasinya — relevan langsung dengan konteks saham teknologi yang dikenal volatil.

Distribusi t lebih konservatif (lebar dan lebih variatif) dibanding z

terutama pada sampel kecil, karena harus menanggung ketidakpastian ganda: ketidakpastian terhadap rata-rata dan terhadap σ itu sendiri. Perbedaan ini hilang ketika n membesar (n≥30 sudah cukup dekat, n=100 hampir tak terbedakan).

Hasil simulasi tervalidasi dengan baik terhadap formula teoritis

menunjukkan bahwa pendekatan Monte Carlo bisa dipakai sebagai alat verifikasi numerik untuk teori interval kepercayaan.

Implikasi praktis untuk investor

dalam mengestimasi return saham teknologi (yang volatilitasnya cenderung tinggi/σ besar) dari data historis terbatas (n kecil), investor harus mewaspadai bahwa interval kepercayaan estimasi return bisa sangat lebar dan tidak presisi — terutama karena dalam praktik nyata σ populasi memang tidak pernah diketahui, sehingga distribusi t (dengan IK yang lebih lebar dan realistis) adalah pendekatan yang tepat digunakan, bukan z.

Praktikum Week 5 - PSS

Simulasi Monte Carlo Ketidakpastian Estimasi Return Investasi Saham Teknologi Menggunakan Interval Kepercayaan 95%

Markus Perdana Sipayung - 2404010014 - Pemodelan Statistika dan Simulasi