Pendahuluan

Estimasi interval merupakan metode statistika yang digunakan untuk memperkirakan nilai parameter populasi berdasarkan data sampel. Berbeda dengan estimasi titik yang hanya memberikan satu nilai dugaan, estimasi interval memberikan rentang nilai yang disebut selang kepercayaan (confidence interval).

Selang kepercayaan dipengaruhi oleh beberapa faktor, antara lain ukuran sampel, variabilitas data, dan tingkat kepercayaan yang digunakan. Pada praktikum ini dilakukan simulasi untuk melihat bagaimana faktor-faktor tersebut mempengaruhi lebar selang kepercayaan 95%.

Tujuan

  1. Mensimulasikan perhitungan selang kepercayaan menggunakan R.
  2. Melihat pengaruh ukuran sampel terhadap lebar interval kepercayaan.
  3. Melihat pengaruh variabilitas data terhadap interval kepercayaan.
  4. Membandingkan interval kepercayaan ketika standar deviasi populasi diketahui dan tidak diketahui.

Parameter Simulasi

Pada simulasi ini digunakan beberapa kombinasi faktor sebagai berikut:

Simulasi Interval Kepercayaan

# Parameter
alpha <- 0.05

# Faktor
n_vec <- c(5, 30, 100)
sd_vec <- c(10, 50, 90)
kondisi <- c("Diketahui", "Tidak Diketahui")

# Kombinasi
grid <- expand.grid(n = n_vec,
                    sd = sd_vec,
                    kondisi = kondisi)

# Fungsi
hitung_ci <- function(n, sd, kondisi){
  
  if(kondisi == "Diketahui"){
    metode <- "Z"
    kritis <- qnorm(1 - alpha/2)
  } else {
    metode <- "t"
    kritis <- qt(1 - alpha/2, df = n - 1)
  }
  
  error <- kritis * sd / sqrt(n)
  lebar <- 2 * error
  
  return(data.frame(Metode = metode,
                    Nilai_Kritis = kritis,
                    Error_Margin = error,
                    Lebar_CI = lebar))
}

# Hitung semua kombinasi
list_hasil <- mapply(hitung_ci,
                     grid$n,
                     grid$sd,
                     grid$kondisi,
                     SIMPLIFY = FALSE)

# Gabungkan
hasil <- cbind(grid, do.call(rbind, list_hasil))

# Urutkan
hasil <- hasil[order(hasil$n, hasil$sd), ]

# Tampilkan
hasil
##      n sd         kondisi Metode Nilai_Kritis Error_Margin   Lebar_CI
## 1    5 10       Diketahui      Z     1.959964     8.765225  17.530451
## 10   5 10 Tidak Diketahui      t     2.776445    12.416640  24.833280
## 4    5 50       Diketahui      Z     1.959964    43.826127  87.652254
## 13   5 50 Tidak Diketahui      t     2.776445    62.083200 124.166400
## 7    5 90       Diketahui      Z     1.959964    78.887029 157.774057
## 16   5 90 Tidak Diketahui      t     2.776445   111.749760 223.499520
## 2   30 10       Diketahui      Z     1.959964     3.578388   7.156777
## 11  30 10 Tidak Diketahui      t     2.045230     3.734061   7.468123
## 5   30 50       Diketahui      Z     1.959964    17.891941  35.783883
## 14  30 50 Tidak Diketahui      t     2.045230    18.670307  37.340614
## 8   30 90       Diketahui      Z     1.959964    32.205495  64.410989
## 17  30 90 Tidak Diketahui      t     2.045230    33.606552  67.213105
## 3  100 10       Diketahui      Z     1.959964     1.959964   3.919928
## 12 100 10 Tidak Diketahui      t     1.984217     1.984217   3.968434
## 6  100 50       Diketahui      Z     1.959964     9.799820  19.599640
## 15 100 50 Tidak Diketahui      t     1.984217     9.921085  19.842170
## 9  100 90       Diketahui      Z     1.959964    17.639676  35.279352
## 18 100 90 Tidak Diketahui      t     1.984217    17.857953  35.715905
library(tidyr)
## Warning: package 'tidyr' was built under R version 4.5.3
# Ubah ke format long
data_long <- hasil |>
  pivot_longer(cols = c(Lebar_CI),
               names_to = "Condition",
               values_to = "Lebar_CI")

# Bikin label kondisi (Z vs t)
data_long$Condition <- ifelse(data_long$Metode == "Z",
                             "CI_Sigma_Known",
                             "CI_Sigma_Unknown")
library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.5.3
ggplot(data_long, aes(x = factor(n),
                      y = Lebar_CI,
                      fill = Condition)) +
  
  geom_bar(stat = "identity",
           position = position_dodge()) +
  
  facet_wrap(~sd) +
  
  scale_fill_manual(values = c("orange", "maroon")) +
  
  labs(title = "Pengaruh Ukuran Sampel dan Variabilitas terhadap Lebar CI 95%",
       x = "Ukuran Sampel (n)",
       y = "Lebar Interval Kepercayaan",
       fill = "Kondisi") +
  
  theme_minimal() +
  theme(plot.title = element_text(hjust = 0.5))

Berdasarkan hasil simulasi yang diperoleh, terlihat bahwa lebar selang kepercayaan 95% dipengaruhi oleh tiga faktor utama, yaitu ukuran sampel, variabilitas data (standar deviasi), dan kondisi apakah standar deviasi populasi diketahui atau tidak.

Pembahasan

Pengaruh Ukuran Sampel

Dari tabel hasil, dapat diamati bahwa semakin besar ukuran sampel (n), maka nilai lebar selang kepercayaan (Lebar_CI) semakin kecil. Pada ukuran sampel kecil seperti n = 5, interval kepercayaan yang dihasilkan cenderung sangat lebar. Sebaliknya, pada ukuran sampel yang lebih besar seperti n = 100, interval menjadi jauh lebih sempit.

Hal ini menunjukkan bahwa peningkatan jumlah sampel dapat mengurangi ketidakpastian dalam estimasi sehingga hasil estimasi menjadi lebih presisi.

Pengaruh Variabilitas Data

Standar deviasi yang lebih besar menyebabkan lebar interval kepercayaan meningkat. Data yang memiliki variasi besar akan lebih menyebar dari rata-rata sehingga meningkatkan ketidakpastian dalam estimasi.

Pengaruh Variabilitas Data

Variabilitas data yang diwakili oleh standar deviasi (SD) juga memberikan pengaruh yang signifikan. Untuk nilai SD yang kecil (misalnya 10), lebar interval kepercayaan relatif sempit. Namun, ketika SD meningkat menjadi 50 atau 90, lebar interval kepercayaan meningkat secara signifikan.

Hal ini disebabkan karena data yang lebih menyebar (variabilitas tinggi) menyebabkan ketidakpastian estimasi meningkat, sehingga rentang interval harus diperlebar.

Pengaruh Perbedaan Kondisi antara Standar Deviasi

Perbedaan kondisi antara standar deviasi populasi diketahui dan tidak diketahui juga mempengaruhi hasil interval. Pada kondisi standar deviasi diketahui, perhitungan menggunakan distribusi normal (Z), sedangkan pada kondisi tidak diketahui digunakan distribusi t.

Dari hasil simulasi terlihat bahwa lebar interval kepercayaan dengan metode t cenderung lebih besar dibandingkan dengan metode Z, terutama pada ukuran sampel kecil. Hal ini terjadi karena distribusi t memiliki nilai kritis yang lebih besar untuk mengakomodasi ketidakpastian tambahan dari estimasi standar deviasi sampel.

Kesimpulan

Berdasarkan simulasi yang telah dilakukan dapat disimpulkan bahwa:

  1. Semakin besar ukuran sampel, maka selang kepercayaan akan semakin sempit.
  2. Variabilitas data yang besar menyebabkan selang kepercayaan menjadi lebih lebar.
  3. Selang kepercayaan dengan standar deviasi populasi diketahui cenderung lebih sempit dibandingkan ketika standar deviasi tidak diketahui.