Ketidakpastian Estimasi

1. Pendahuluan

Laporan ini bertujuan untuk menganalisis bagaimana ketidakpastian dalam estimasi rata-rata populasi dipengaruhi oleh berbagai faktor statistik. Fokus utama analisis adalah pada lebar Interval Kepercayaan (Confidence Interval), yang mencerminkan tingkat presisi dari sebuah estimasi. Melalui simulasi ini, kita akan melihat interaksi antara ukuran sampel, variabilitas data, dan ketersediaan informasi mengenai parameter populasi.

2. Metodologi dan Parameter Simulasi

Simulasi ini mencakup 18 skenario berbeda yang dibentuk dari kombinasi faktor-faktor berikut: 1. Ukuran Sampel (\(n\)): 5, 30, dan 100. 2. Variabilitas (Standar Deviasi, \(\sigma\) atau \(s\)): 10, 50, dan 90. 3. Kondisi Distribusi: * Distribusi Z: Digunakan ketika standar deviasi populasi (\(\sigma\)) diketahui. * Distribusi t: Digunakan ketika standar deviasi populasi tidak diketahui (menggunakan \(s\)).

Tingkat kepercayaan yang digunakan dalam seluruh skenario adalah 95% (\(\alpha = 0.05\)).

Dasar Teori

Lebar interval dihitung berdasarkan Margin of Error (MoE) dengan rumus: * Z-Interval: \(MoE = z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}\) * t-Interval: \(MoE = t_{\alpha/2, df} \cdot \frac{s}{\sqrt{n}}\) (dengan \(df = n - 1\))

Lebar Interval = \(2 \times MoE\)

3. Implementasi Kode R

library(tidyverse)

## Warning: package 'tidyverse' was built under R version 4.5.2

## Warning: package 'ggplot2' was built under R version 4.5.2

## Warning: package 'tibble' was built under R version 4.5.2

## Warning: package 'tidyr' was built under R version 4.5.2

## Warning: package 'readr' was built under R version 4.5.2

## Warning: package 'purrr' was built under R version 4.5.2

## Warning: package 'dplyr' was built under R version 4.5.2

## Warning: package 'forcats' was built under R version 4.5.2

## Warning: package 'lubridate' was built under R version 4.5.2

## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.1.4     ✔ readr     2.1.6
## ✔ forcats   1.0.1     ✔ stringr   1.5.2
## ✔ ggplot2   4.0.1     ✔ tibble    3.3.0
## ✔ lubridate 1.9.4     ✔ tidyr     1.3.1
## ✔ purrr     1.2.0     
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors

library(knitr)
library(kableExtra)

## Warning: package 'kableExtra' was built under R version 4.5.2

## 
## Attaching package: 'kableExtra'
## 
## The following object is masked from 'package:dplyr':
## 
##     group_rows

# Membuat grid untuk 18 skenario
skenario_data <- expand.grid(
  n = c(5, 30, 100),
  sd = c(10, 50, 90),
  kondisi = c("Diketahui (Z)", "Tidak Diketahui (t)")
)

# Fungsi perhitungan Margin of Error
calc_moe <- function(n, sd, kondisi) {
  alpha <- 0.05
  if (kondisi == "Diketahui (Z)") {
    kritis <- qnorm(1 - alpha/2)
  } else {
    kritis <- qt(1 - alpha/2, df = n - 1)
  }
  return(kritis * (sd / sqrt(n)))
}

# Eksekusi perhitungan
hasil_analisis <- skenario_data %>%
  mutate(
    Margin_Error = mapply(calc_moe, n, sd, kondisi),
    Lebar_Interval = Margin_Error * 2
  )

# Menampilkan Tabel Hasil
hasil_analisis %>%
  kable(digits = 3, caption = "Tabel Simulasi Lebar Interval Kepercayaan 95%") %>%
  kable_styling(bootstrap_options = c("striped", "hover", "condensed"))

Tabel Simulasi Lebar Interval Kepercayaan 95%
n	sd	kondisi	Margin_Error	Lebar_Interval
5	10	Diketahui (Z)	8.765	17.530
30	10	Diketahui (Z)	3.578	7.157
100	10	Diketahui (Z)	1.960	3.920
5	50	Diketahui (Z)	43.826	87.652
30	50	Diketahui (Z)	17.892	35.784
100	50	Diketahui (Z)	9.800	19.600
5	90	Diketahui (Z)	78.887	157.774
30	90	Diketahui (Z)	32.205	64.411
100	90	Diketahui (Z)	17.640	35.279
5	10	Tidak Diketahui (t)	12.417	24.833
30	10	Tidak Diketahui (t)	3.734	7.468
100	10	Tidak Diketahui (t)	1.984	3.968
5	50	Tidak Diketahui (t)	62.083	124.166
30	50	Tidak Diketahui (t)	18.670	37.341
100	50	Tidak Diketahui (t)	9.921	19.842
5	90	Tidak Diketahui (t)	111.750	223.500
30	90	Tidak Diketahui (t)	33.607	67.213
100	90	Tidak Diketahui (t)	17.858	35.716

4. Visualisasi Data

Grafik di bawah ini menggambarkan tren perubahan lebar interval berdasarkan perubahan ukuran sampel dan tingkat variabilitas.

ggplot(hasil_analisis, aes(x = as.factor(n), y = Lebar_Interval, color = as.factor(sd), group = sd)) +
  geom_line(size = 1) +
  geom_point(size = 3) +
  facet_wrap(~kondisi) +
  labs(
    title = "Analisis Lebar Interval Kepercayaan",
    subtitle = "Perbandingan Distribusi Z dan Distribusi t pada Berbagai Level SD",
    x = "Ukuran Sampel (n)",
    y = "Lebar Interval",
    color = "Standar Deviasi"
  ) +
  theme_minimal() +
  theme(legend.position = "bottom")

## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

5. Interpretasi dan Analisis

A. Pengaruh Ukuran Sampel (\(n\))

Hasil simulasi menunjukkan hubungan terbalik antara ukuran sampel dan lebar interval. Semakin besar nilai \(n\), semakin sempit rentang interval kepercayaan. Hal ini membuktikan bahwa peningkatan jumlah data secara signifikan meningkatkan presisi estimasi dengan mengurangi standar error.

B. Pengaruh Variabilitas Data (SD)

Variabilitas data memiliki korelasi positif dengan lebar interval. Skenario dengan standar deviasi tinggi (90) secara konsisten menghasilkan interval yang lebih lebar dibandingkan dengan standar deviasi rendah (10). Hal ini mengindikasikan bahwa semakin heterogen sebuah data, semakin besar ketidakpastian dalam mengestimasi rata-rata populasi.

C. Perbandingan Kondisi Z dan t

Terdapat perbedaan krusial pada sampel kecil (\(n=5\)): * Interval pada distribusi \(t\) jauh lebih lebar dibandingkan distribusi \(Z\). Ini terjadi karena distribusi \(t\) memberikan “margin pengaman” tambahan untuk mengompensasi ketidakpastian akibat penggunaan standar deviasi sampel. * Pada sampel besar (\(n=100\)), perbedaan antara kedua distribusi tersebut menjadi sangat tipis (konvergen). Ini menunjukkan bahwa untuk sampel yang besar, estimasi menggunakan distribusi \(t\) akan menyamai distribusi normal.

6. Kesimpulan

Ketidakpastian estimasi dapat diminimalisir dengan meningkatkan ukuran sampel dan memastikan proses pengumpulan data memiliki variabilitas yang terkontrol. Penggunaan distribusi \(t\) sangat penting pada sampel kecil untuk menghindari underestimation terhadap rentang ketidakpastian yang sebenarnya.