Naufal Muzaky

2404010024 Lakukan simulasi untuk mempelajari pengaruh ukuran sampel, variabilitas data (standar deviasi), dan pengetahuan tentang standar deviasi populasi (diketahui/tidak diketahui) terhadap lebar interval kepercayaan 95%, dengan informasi setiap faktor dan level sebagai berikut:

Faktor 1: Ukuran Sampel (n), Level: 5, 30, 100
Faktor 2: Variabilitas Data (Standar Deviasi, σ atau s), Level: 10, 50, 90
Faktor 3: Pengetahuan Standar Deviasi Populasi, Level: Diketahui (σ), Tidak Diketahui (s)

# Penentuan Parameter
n_levels <- c(5, 30, 100)
sd_pop_levels <- c(10, 50, 90)
alpha <- 0.05

# Inisialisasi tabel penyimpanan hasil
hasil_simulasi <- expand.grid(n = n_levels, 
                              sd_pop = sd_pop_levels, 
                              status = c("Diketahui", "Tidak Diketahui"))
hasil_simulasi$lebar_interval <- NA

# Pelaksanaan Simulasi menggunakan Pembangkitan Data Acak
set.seed(456) 

for(i in 1:nrow(hasil_simulasi)) {
  n_val <- hasil_simulasi$n[i]
  sigma_true <- hasil_simulasi$sd_pop[i]
  
  # Pembangkitan data acak berdistribusi normal
  data_sampel <- rnorm(n_val, mean = 100, sd = sigma_true)
  s_estimasi <- sd(data_sampel)
  
  if(hasil_simulasi$status[i] == "Diketahui") {
    # Perhitungan berbasis Distribusi Z
    z_crit <- qnorm(1 - alpha/2)
    margin_error <- z_crit * sigma_true / sqrt(n_val)
  } else {
    # Perhitungan berbasis Distribusi t
    t_crit <- qt(1 - alpha/2, df = n_val - 1)
    margin_error <- t_crit * s_estimasi / sqrt(n_val) 
  }
  hasil_simulasi$lebar_interval[i] <- 2 * margin_error
}

# Penyajian Data
print(hasil_simulasi)

##      n sd_pop          status lebar_interval
## 1    5     10       Diketahui      17.530451
## 2   30     10       Diketahui       7.156777
## 3  100     10       Diketahui       3.919928
## 4    5     50       Diketahui      87.652254
## 5   30     50       Diketahui      35.783883
## 6  100     50       Diketahui      19.599640
## 7    5     90       Diketahui     157.774057
## 8   30     90       Diketahui      64.410989
## 9  100     90       Diketahui      35.279352
## 10   5     10 Tidak Diketahui       8.516706
## 11  30     10 Tidak Diketahui       7.527549
## 12 100     10 Tidak Diketahui       4.185622
## 13   5     50 Tidak Diketahui      85.479637
## 14  30     50 Tidak Diketahui      37.694403
## 15 100     50 Tidak Diketahui      19.832674
## 16   5     90 Tidak Diketahui     158.584793
## 17  30     90 Tidak Diketahui      62.325789
## 18 100     90 Tidak Diketahui      35.466370

# Visualisasi Data
library(ggplot2)

## Warning: package 'ggplot2' was built under R version 4.5.2

ggplot(hasil_simulasi, aes(x = as.factor(n), y = lebar_interval, fill = status)) +
  geom_bar(stat = "identity", position = "dodge") +
  facet_wrap(~sd_pop, labeller = label_both, scales = "free_y") +
  labs(title = "Analisis Lebar Interval Kepercayaan 95%",
       x = "Ukuran Sampel (n)",
       y = "Lebar Interval Kepercayaan",
       fill = "Kondisi Parameter") +
  theme_minimal()

# Interpretasi Hasil Simulasi

Hasil simulasi memberikan gambaran komprehensif mengenai dinamika estimasi interval dalam statistika inferensial:

Pengaruh Ukuran Sampel (\(n\))

Terdapat korelasi negatif antara ukuran sampel dengan lebar interval. Peningkatan jumlah sampel dari 5 menjadi 100 secara konsisten mempersempit lebar interval kepercayaan. Hal ini menunjukkan bahwa penambahan data secara signifikan mampu meningkatkan presisi estimasi dan mengurangi galat standar (standard error).

Pengaruh Variabilitas Data

Variabilitas yang diwakili oleh Standar Deviasi memiliki korelasi positif dengan lebar interval. Pada tingkat variabilitas tinggi (SD: 90), interval kepercayaan menjadi sangat lebar dibandingkan pada tingkat variabilitas rendah (SD: 10). Hal ini menegaskan bahwa semakin besar sebaran data dalam populasi, semakin besar pula rentang ketidakpastian yang dihasilkan dalam proses estimasi.

Pengaruh Pengetahuan Standar Deviasi Populasi

Perbedaan antara kondisi “Diketahui” (Z) dan “Tidak Diketahui” (t) terlihat sangat kontras pada ukuran sampel kecil (\(n=5\)). Penggunaan distribusi \(t\) menghasilkan interval yang lebih lebar sebagai bentuk kompensasi atas ketidakpastian estimasi standar deviasi sampel. Namun, seiring bertambahnya ukuran sampel menjadi \(n=100\), lebar interval pada kedua kondisi tersebut cenderung konvergen atau menunjukkan hasil yang identik.

Karakteristik Simpang Sampel Acak

Melalui penggunaan metode pembangkitan data acak, terlihat bahwa lebar interval pada kondisi “Tidak Diketahui” tidak selalu bersifat linear. Hal ini disebabkan oleh nilai standar deviasi sampel (\(s\)) yang berfluktuasi tergantung pada data yang terjaring dalam proses sampling acak, yang merefleksikan realitas variabilitas dalam penelitian lapangan.

Kesimpulan

Presisi interval kepercayaan sangat bergantung pada kecukupan ukuran sampel dan tingkat variabilitas data. Penggunaan distribusi \(t\) merupakan keharusan metodologis saat standar deviasi populasi tidak diketahui guna menghindari bias estimasi, terutama pada sampel kecil. Secara keseluruhan, peningkatan ukuran sampel adalah strategi paling efektif untuk memitigasi ketidakpastian dalam estimasi statistik.