Week 5 - Ketidakpastian Estimasi

#Pendahuluan

Estimasi interval merupakan metode dalam statistika yang digunakan untuk memperkirakan parameter populasi berdasarkan data sampel. Salah satu bentuk estimasi interval yang paling umum digunakan adalah selang kepercayaan (confidence interval). Selang kepercayaan memberikan rentang nilai yang diperkirakan mengandung parameter populasi dengan tingkat keyakinan tertentu, misalnya 95%.

Lebar interval kepercayaan dipengaruhi oleh beberapa faktor penting, antara lain ukuran sampel, variabilitas data, serta pengetahuan tentang standar deviasi populasi. Pemahaman mengenai faktor-faktor tersebut penting karena dapat mempengaruhi tingkat ketepatan estimasi yang dihasilkan.

set.seed(123)

library(dplyr)

## Warning: package 'dplyr' was built under R version 4.4.3

## 
## Attaching package: 'dplyr'

## The following objects are masked from 'package:stats':
## 
##     filter, lag

## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

library(ggplot2)

## Warning: package 'ggplot2' was built under R version 4.4.3

# Parameter simulasi
sample_size <- c(5, 30, 100)
sd_values <- c(10, 50, 90)
alpha <- 0.05
mu <- 100

# Menyimpan hasil
results <- data.frame()

# Simulasi
for(n in sample_size){
  for(sd_val in sd_values){
    
    # Generate data sampel
    data <- rnorm(n, mean = mu, sd = sd_val)
    
    mean_sample <- mean(data)
    sd_sample <- sd(data)
    
    
    # Standar deviasi diketahui
    
    z_value <- qnorm(1 - alpha/2)
    error_z <- z_value * sd_val / sqrt(n)
    
    lower_z <- mean_sample - error_z
    upper_z <- mean_sample + error_z
    
    width_z <- upper_z - lower_z
    
    
    # Standar deviasi tidak diketahui
    
    t_value <- qt(1 - alpha/2, df = n-1)
    error_t <- t_value * sd_sample / sqrt(n)
    
    lower_t <- mean_sample - error_t
    upper_t <- mean_sample + error_t
    
    width_t <- upper_t - lower_t
    
    
    # Simpan hasil
    
    results <- rbind(results,
                     
                     data.frame(
                       Sample_Size = n,
                       SD = sd_val,
                       SD_Type = "Known",
                       CI_Width = width_z
                     ),
                     
                     data.frame(
                       Sample_Size = n,
                       SD = sd_val,
                       SD_Type = "Unknown",
                       CI_Width = width_t
                     )
                     
    )
    
  }
}

results

##    Sample_Size SD SD_Type   CI_Width
## 1            5 10   Known  17.530451
## 2            5 10 Unknown  20.140333
## 3            5 50   Known  87.652254
## 4            5 50 Unknown 144.466314
## 5            5 90   Known 157.774057
## 6            5 90 Unknown 142.919714
## 7           30 10   Known   7.156777
## 8           30 10 Unknown   7.524113
## 9           30 50   Known  35.783883
## 10          30 50 Unknown  34.612846
## 11          30 90   Known  64.410989
## 12          30 90 Unknown  54.901935
## 13         100 10   Known   3.919928
## 14         100 10 Unknown   3.965923
## 15         100 50   Known  19.599640
## 16         100 50 Unknown  18.569914
## 17         100 90   Known  35.279352
## 18         100 90 Unknown  36.942450

#Hasil Simulasi Tabel berikut menunjukkan lebar interval kepercayaan 95% untuk setiap kombinasi ukuran sampel, standar deviasi, dan pengetahuan standar deviasi populasi.

# Visualisasi 1
# Pengaruh Ukuran Sampel terhadap Lebar CI

ggplot(results, aes(x = factor(Sample_Size), y = CI_Width, fill = SD_Type)) +
  geom_bar(stat = "identity", position = "dodge") +
  facet_wrap(~SD) +
  labs(
    title = "Pengaruh Ukuran Sampel terhadap Lebar Interval Kepercayaan",
    x = "Ukuran Sampel",
    y = "Lebar Interval Kepercayaan",
    fill = "Pengetahuan SD"
  ) +
  theme_minimal()

Grafik di atas menunjukkan bahwa semakin besar ukuran sampel, semakin sempit interval kepercayaan yang dihasilkan.

# Visualisasi 2
# Pengaruh Variabilitas Data

ggplot(results, aes(x = factor(SD), y = CI_Width, fill = SD_Type)) +
  geom_bar(stat = "identity", position = "dodge") +
  facet_wrap(~Sample_Size) +
  labs(
    title = "Pengaruh Variabilitas Data terhadap Lebar Interval Kepercayaan",
    x = "Standar Deviasi",
    y = "Lebar Interval Kepercayaan",
    fill = "Pengetahuan SD"
  ) +
  theme_minimal()

Grafik menunjukkan bahwa semakin besar standar deviasi data, semakin lebar interval kepercayaan yang dihasilkan.

# Visualisasi 3
# Hubungan Semua Faktor

ggplot(results, aes(x = Sample_Size, y = CI_Width, color = factor(SD))) +
  geom_line(size = 1) +
  geom_point(size = 3) +
  facet_wrap(~SD_Type) +
  labs(
    title = "Hubungan Ukuran Sampel, Variabilitas Data, dan Lebar CI",
    x = "Ukuran Sampel",
    y = "Lebar Interval Kepercayaan",
    color = "Standar Deviasi"
  ) +
  theme_minimal()

## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

Visualisasi ini menunjukkan hubungan antara ukuran sampel, variabilitas data, dan pengetahuan standar deviasi terhadap lebar interval kepercayaan.

#Interpretasi

Berdasarkan hasil simulasi, dapat dilihat bahwa ukuran sampel memiliki pengaruh yang signifikan terhadap lebar interval kepercayaan. Semakin besar ukuran sampel yang digunakan, maka interval kepercayaan yang dihasilkan akan semakin sempit. Hal ini menunjukkan bahwa estimasi parameter populasi menjadi lebih presisi ketika jumlah data yang digunakan lebih banyak.

Variabilitas data juga berpengaruh terhadap lebar interval kepercayaan. Semakin besar standar deviasi data, maka interval kepercayaan menjadi semakin lebar. Hal ini menunjukkan bahwa data yang memiliki variasi tinggi menghasilkan tingkat ketidakpastian yang lebih besar dalam proses estimasi.

Selain itu, pengetahuan tentang standar deviasi populasi juga mempengaruhi hasil interval kepercayaan. Ketika standar deviasi populasi diketahui, digunakan distribusi normal (Z) sehingga interval kepercayaan cenderung lebih sempit. Sebaliknya, ketika standar deviasi populasi tidak diketahui, digunakan distribusi t yang menghasilkan interval kepercayaan sedikit lebih lebar karena mempertimbangkan ketidakpastian tambahan dalam estimasi standar deviasi.

#Kesimpulan

Berdasarkan simulasi yang dilakukan, dapat disimpulkan bahwa:

Ukuran sampel yang lebih besar menghasilkan interval kepercayaan yang lebih sempit dan estimasi yang lebih presisi.
Variabilitas data yang lebih tinggi menyebabkan interval kepercayaan menjadi lebih lebar.
Penggunaan distribusi t ketika standar deviasi populasi tidak diketahui menghasilkan interval kepercayaan yang sedikit lebih lebar dibandingkan distribusi normal.

Dengan memahami faktor-faktor tersebut, peneliti dapat menentukan strategi pengambilan sampel yang lebih tepat untuk menghasilkan estimasi parameter populasi yang lebih akurat.

Week 5 - Ketidakpastian Estimasi

Muharima Sahara (2404220039)

2026-03-15