Pendahuluan

Estimasi Interval

Estimasi dalam statistika adalah proses untuk menentukan rentang nilai yang mungkin dari parameter populasi berdasarkan data sampel. Estimasi ini memberikan informasi tentang tingkat kepercayaan terhadap parameter tersebut. Selang kepercayaan (confidence interval) adalah rentang nilai yang digunakan untuk mengestimasi parameter populasi dengan tingkat kepercayaan tertentu. Selang ini memberikan informasi mengenai seberapa percaya diri kita bahwa parameter populasi berada dalam rentang yang telah ditentukan.

Studi Kasus

Seorang peneliti pertanian ingin mengetahui rata-rata tinggi tanaman jagung pada suatu varietas baru. Untuk itu, dilakukan pengambilan sampel dari lahan percobaan dengan kondisi yang berbeda-beda. Peneliti ingin melihat bagaimana ukuran sampel, variabilitas data, dan pengetahuan tentang standar deviasi populasi memengaruhi lebar interval kepercayaan 95% dalam mengestimasi rata-rata tinggi tanaman. Peneliti melakukan beberapa skenario:

Ukuran Sampel (n)

Kecil = 5 tanaman
Sedang = 30 tanaman
Besar = 100 tanaman

Variabilitas Data

Rendah = 10 cm
Sedang = 50 cm
Tinggi = 90 cm

Pengetahuan Standar Deviasi Populasi

Diketahui
Tidak diketahui

ukuran_sampel <- c(5, 30, 100)
standar_deviasi <- c(10, 50, 90)
sd_populasi <- c(TRUE, FALSE)
tingkat_kepercayaan <- 0.95

# Menghitung CI dan  Margin Error
menghitung_ci <- function(data, sd_diketahui, conf = 0.95, sigma_pop = NULL) {
  
  n <- length(data)
  mean_data <- mean(data)
  s <- sd(data)
  alpha <- 1 - conf
  
  if (sd_diketahui) {
    nilai_kritis <- qnorm(1 - alpha/2)
    se <- sigma_pop / sqrt(n)
    metode <- "Z"
  } else {
    nilai_kritis <- qt(1 - alpha/2, df = n - 1)
    se <- s / sqrt(n)
    metode <- "t"
  }
  
  margin_error <- nilai_kritis * se
  lebar_interval <- 2 * margin_error
  
  return(list(
    Mean = mean_data,
    Metode = metode,
    Nilai_Kritis = nilai_kritis,
    Margin_Error = margin_error,
    Lebar_CI = lebar_interval
  ))
}

set.seed(234)
# Hasil
hasil_list <- list()
index <- 1

for (n in ukuran_sampel) {
  for (sd in standar_deviasi) {
    for (sd_diketahui in sd_populasi) {
      
      # data simulasi
      data <- rnorm(n, mean = 150, sd = sd)
      
      hasil_ci <- menghitung_ci(data,
        sd_diketahui = sd_diketahui,
        conf = tingkat_kepercayaan,
        sigma_pop = sd)
      
      hasil_list[[index]] <- data.frame(
        N = n,
        SD = sd,
        Status_SD = ifelse(sd_diketahui, "Diketahui", "Tidak Diketahui"),
        Mean_Sampel = hasil_ci$Mean,
        Metode = hasil_ci$Metode,
        Nilai_Kritis = hasil_ci$Nilai_Kritis,
        Margin_Error = hasil_ci$Margin_Error,
        Lebar_CI = hasil_ci$Lebar_CI
      )
      
      index <- index + 1
    }
  }
}

output <- do.call(rbind, hasil_list)

print(output)

##      N SD       Status_SD Mean_Sampel Metode Nilai_Kritis Margin_Error
## 1    5 10       Diketahui    150.0779      Z     1.959964     8.765225
## 2    5 10 Tidak Diketahui    141.4769      t     2.776445    16.507135
## 3    5 50       Diketahui    176.4112      Z     1.959964    43.826127
## 4    5 50 Tidak Diketahui    150.0006      t     2.776445    34.593333
## 5    5 90       Diketahui    170.8982      Z     1.959964    78.887029
## 6    5 90 Tidak Diketahui    103.6099      t     2.776445   117.819228
## 7   30 10       Diketahui    149.0960      Z     1.959964     3.578388
## 8   30 10 Tidak Diketahui    150.5913      t     2.045230     3.454542
## 9   30 50       Diketahui    144.1888      Z     1.959964    17.891941
## 10  30 50 Tidak Diketahui    142.6819      t     2.045230    14.773456
## 11  30 90       Diketahui    160.1346      Z     1.959964    32.205495
## 12  30 90 Tidak Diketahui    144.6208      t     2.045230    33.301830
## 13 100 10       Diketahui    150.1949      Z     1.959964     1.959964
## 14 100 10 Tidak Diketahui    151.4957      t     1.984217     1.994186
## 15 100 50       Diketahui    145.9434      Z     1.959964     9.799820
## 16 100 50 Tidak Diketahui    147.0702      t     1.984217     9.959351
## 17 100 90       Diketahui    156.8054      Z     1.959964    17.639676
## 18 100 90 Tidak Diketahui    136.0176      t     1.984217    15.416412
##      Lebar_CI
## 1   17.530451
## 2   33.014271
## 3   87.652254
## 4   69.186667
## 5  157.774057
## 6  235.638457
## 7    7.156777
## 8    6.909085
## 9   35.783883
## 10  29.546911
## 11  64.410989
## 12  66.603659
## 13   3.919928
## 14   3.988372
## 15  19.599640
## 16  19.918702
## 17  35.279352
## 18  30.832825

Visualisasi 1

library(ggplot2)

ggplot(output, aes(x = N, y = Lebar_CI, color = Status_SD)) +
  geom_line() +
  geom_point() +
  facet_wrap(~ SD) +
  labs(
    title = "Pengaruh Ukuran Sampel terhadap Lebar CI",
    x = "Ukuran Sampel (n)",
    y = "Lebar Interval Kepercayaan"
  ) +
  theme_minimal()

Visualisasi 2

ggplot(output, aes(x = SD, y = Lebar_CI, color = Status_SD)) +
  geom_line() +
  geom_point() +
  facet_wrap(~ N) +
  labs(
    title = "Pengaruh Standar Deviasi terhadap Lebar CI",
    x = "Standar Deviasi Kepercayaan"
  ) +
  theme_minimal()

Visualisasi 3

library(dplyr)

## Warning: package 'dplyr' was built under R version 4.4.3

## 
## Attaching package: 'dplyr'

## The following objects are masked from 'package:stats':
## 
##     filter, lag

## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

summary_data <- output %>%
  group_by(N, SD, Status_SD) %>%
  summarise(rata_ci = mean(Lebar_CI), .groups = "drop")

ggplot(summary_data, aes(x = factor(N), y = rata_ci, fill = Status_SD)) +
  geom_bar(stat = "identity", position = "dodge") +
  facet_wrap(~ SD) +
  labs(
    title = "Rata-rata Lebar CI",
    x = "Ukuran Sampel",
    y = "Rata-rata Lebar CI"
  ) +
  theme_minimal()

Interpretasi

Berdasarkan grafik yang menggambarkan pengaruh ukuran sampel terhadap lebar interval kepercayaan, terlihat bahwa ukuran sampel (n) memiliki pengaruh yang sangat signifikan terhadap lebar interval kepercayaan. Pada semua tingkat variasi data, ketika jumlah sampel meningkat dari 5 hingga 100, lebar interval kepercayaan semakin menyempit. Hal ini menunjukkan bahwa semakin banyak tanaman jagung yang diamati, maka estimasi rata-rata tinggi tanaman menjadi lebih presisi dan dapat dipercaya. Selain itu, pada sampel kecil (n=5), terlihat bahwa garis biru (Sd tidak diketahui) berada di atas garis merah (SD diketahui). Hal ini disebabkan karena nilai kritis distribusi t lebih besar dibandingkan distribusi Z pada derajat kebebasan kecil, sehingga menghasilkan interval kepercayaan yang lebih lebar. Namun, seiring dengan bertambahnya ukuran sampel, perbedaan antara kedua kondisi tersebut semakin mengecil, karena distribusi t mendekati distribusi normal.
Grafik 2 menunjukkan adanya hubungan linear positif pengaruh variabilitas data terhadap lebar interval kepercayaan. Jika tanaman jagung di lahan memiliki tinggi yang sangat beragam (SD = 90), maka lebar interval kepercayaan menjadi sangat besar. Sebaliknya, jika tinggi tanaman relatif seragam (SD = 10), lebar interval jauh lebih kecil. Artinya, jika tinggi tanaman jagung sangat bervariasi, maka ketidakpastian dalam estimasi rata-rata juga meningkat.
Bar Chart 3 menunjukkan perbandingan lebar interval kepercayaan dalam kondisi SD diketahui dan SD tidak diketahui. Pada kelompok SD 90 (variabilitas tinggi) dengan sampel 5, terdapat perbedaan yang signifikan antara batang merah dan biru di mana batang biru (Tidak Diketahui) jauh lebih tinggi. Ini membuktikan bahwa saat data sangat bervariasi dan sampelnya sedikit, ketidaktahuan akan standar deviasi populasi memberikan dampak paling buruk terhadap presisi. Sementara itu, saat ukuran sampel tinggi (n = 100), perbedaan tinggi batang antara kedua kategori tersebut menjadi tidak signifikan di mana batang biru dan batang merah memiliki tinggi yang relatif sama. Hal ini menunjukkan bahwa distribusi t akan mendekati distribusi normal seiring dengan bertambahnya derajat bebas atau ukuran sampel.

Ketidakpastian Estimasi

Carissa Azarine Henry

2026-03-16