Estimasi dalam statistika adalah proses untuk menentukan rentang nilai yang mungkin dari parameter populasi berdasarkan data sampel. Estimasi ini memberikan informasi tentang tingkat kepercayaan terhadap parameter tersebut. Selang kepercayaan (confidence interval) adalah rentang nilai yang digunakan untuk mengestimasi parameter populasi dengan tingkat kepercayaan tertentu. Selang ini memberikan informasi mengenai seberapa percaya diri kita bahwa parameter populasi berada dalam rentang yang telah ditentukan.
Seorang peneliti pertanian ingin mengetahui rata-rata tinggi tanaman jagung pada suatu varietas baru. Untuk itu, dilakukan pengambilan sampel dari lahan percobaan dengan kondisi yang berbeda-beda. Peneliti ingin melihat bagaimana ukuran sampel, variabilitas data, dan pengetahuan tentang standar deviasi populasi memengaruhi lebar interval kepercayaan 95% dalam mengestimasi rata-rata tinggi tanaman. Peneliti melakukan beberapa skenario:
ukuran_sampel <- c(5, 30, 100)
standar_deviasi <- c(10, 50, 90)
sd_populasi <- c(TRUE, FALSE)
tingkat_kepercayaan <- 0.95
# Menghitung CI dan Margin Error
menghitung_ci <- function(data, sd_diketahui, conf = 0.95, sigma_pop = NULL) {
n <- length(data)
mean_data <- mean(data)
s <- sd(data)
alpha <- 1 - conf
if (sd_diketahui) {
nilai_kritis <- qnorm(1 - alpha/2)
se <- sigma_pop / sqrt(n)
metode <- "Z"
} else {
nilai_kritis <- qt(1 - alpha/2, df = n - 1)
se <- s / sqrt(n)
metode <- "t"
}
margin_error <- nilai_kritis * se
lebar_interval <- 2 * margin_error
return(list(
Mean = mean_data,
Metode = metode,
Nilai_Kritis = nilai_kritis,
Margin_Error = margin_error,
Lebar_CI = lebar_interval
))
}
set.seed(234)
# Hasil
hasil_list <- list()
index <- 1
for (n in ukuran_sampel) {
for (sd in standar_deviasi) {
for (sd_diketahui in sd_populasi) {
# data simulasi
data <- rnorm(n, mean = 150, sd = sd)
hasil_ci <- menghitung_ci(data,
sd_diketahui = sd_diketahui,
conf = tingkat_kepercayaan,
sigma_pop = sd)
hasil_list[[index]] <- data.frame(
N = n,
SD = sd,
Status_SD = ifelse(sd_diketahui, "Diketahui", "Tidak Diketahui"),
Mean_Sampel = hasil_ci$Mean,
Metode = hasil_ci$Metode,
Nilai_Kritis = hasil_ci$Nilai_Kritis,
Margin_Error = hasil_ci$Margin_Error,
Lebar_CI = hasil_ci$Lebar_CI
)
index <- index + 1
}
}
}
output <- do.call(rbind, hasil_list)
print(output)
## N SD Status_SD Mean_Sampel Metode Nilai_Kritis Margin_Error
## 1 5 10 Diketahui 150.0779 Z 1.959964 8.765225
## 2 5 10 Tidak Diketahui 141.4769 t 2.776445 16.507135
## 3 5 50 Diketahui 176.4112 Z 1.959964 43.826127
## 4 5 50 Tidak Diketahui 150.0006 t 2.776445 34.593333
## 5 5 90 Diketahui 170.8982 Z 1.959964 78.887029
## 6 5 90 Tidak Diketahui 103.6099 t 2.776445 117.819228
## 7 30 10 Diketahui 149.0960 Z 1.959964 3.578388
## 8 30 10 Tidak Diketahui 150.5913 t 2.045230 3.454542
## 9 30 50 Diketahui 144.1888 Z 1.959964 17.891941
## 10 30 50 Tidak Diketahui 142.6819 t 2.045230 14.773456
## 11 30 90 Diketahui 160.1346 Z 1.959964 32.205495
## 12 30 90 Tidak Diketahui 144.6208 t 2.045230 33.301830
## 13 100 10 Diketahui 150.1949 Z 1.959964 1.959964
## 14 100 10 Tidak Diketahui 151.4957 t 1.984217 1.994186
## 15 100 50 Diketahui 145.9434 Z 1.959964 9.799820
## 16 100 50 Tidak Diketahui 147.0702 t 1.984217 9.959351
## 17 100 90 Diketahui 156.8054 Z 1.959964 17.639676
## 18 100 90 Tidak Diketahui 136.0176 t 1.984217 15.416412
## Lebar_CI
## 1 17.530451
## 2 33.014271
## 3 87.652254
## 4 69.186667
## 5 157.774057
## 6 235.638457
## 7 7.156777
## 8 6.909085
## 9 35.783883
## 10 29.546911
## 11 64.410989
## 12 66.603659
## 13 3.919928
## 14 3.988372
## 15 19.599640
## 16 19.918702
## 17 35.279352
## 18 30.832825
library(ggplot2)
ggplot(output, aes(x = N, y = Lebar_CI, color = Status_SD)) +
geom_line() +
geom_point() +
facet_wrap(~ SD) +
labs(
title = "Pengaruh Ukuran Sampel terhadap Lebar CI",
x = "Ukuran Sampel (n)",
y = "Lebar Interval Kepercayaan"
) +
theme_minimal()
ggplot(output, aes(x = SD, y = Lebar_CI, color = Status_SD)) +
geom_line() +
geom_point() +
facet_wrap(~ N) +
labs(
title = "Pengaruh Standar Deviasi terhadap Lebar CI",
x = "Standar Deviasi Kepercayaan"
) +
theme_minimal()
library(dplyr)
## Warning: package 'dplyr' was built under R version 4.4.3
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
summary_data <- output %>%
group_by(N, SD, Status_SD) %>%
summarise(rata_ci = mean(Lebar_CI), .groups = "drop")
ggplot(summary_data, aes(x = factor(N), y = rata_ci, fill = Status_SD)) +
geom_bar(stat = "identity", position = "dodge") +
facet_wrap(~ SD) +
labs(
title = "Rata-rata Lebar CI",
x = "Ukuran Sampel",
y = "Rata-rata Lebar CI"
) +
theme_minimal()
Berdasarkan grafik yang menggambarkan pengaruh ukuran sampel terhadap lebar interval kepercayaan, terlihat bahwa ukuran sampel (n) memiliki pengaruh yang sangat signifikan terhadap lebar interval kepercayaan. Pada semua tingkat variasi data, ketika jumlah sampel meningkat dari 5 hingga 100, lebar interval kepercayaan semakin menyempit. Hal ini menunjukkan bahwa semakin banyak tanaman jagung yang diamati, maka estimasi rata-rata tinggi tanaman menjadi lebih presisi dan dapat dipercaya. Selain itu, pada sampel kecil (n=5), terlihat bahwa garis biru (Sd tidak diketahui) berada di atas garis merah (SD diketahui). Hal ini disebabkan karena nilai kritis distribusi t lebih besar dibandingkan distribusi Z pada derajat kebebasan kecil, sehingga menghasilkan interval kepercayaan yang lebih lebar. Namun, seiring dengan bertambahnya ukuran sampel, perbedaan antara kedua kondisi tersebut semakin mengecil, karena distribusi t mendekati distribusi normal.
Grafik 2 menunjukkan adanya hubungan linear positif pengaruh variabilitas data terhadap lebar interval kepercayaan. Jika tanaman jagung di lahan memiliki tinggi yang sangat beragam (SD = 90), maka lebar interval kepercayaan menjadi sangat besar. Sebaliknya, jika tinggi tanaman relatif seragam (SD = 10), lebar interval jauh lebih kecil. Artinya, jika tinggi tanaman jagung sangat bervariasi, maka ketidakpastian dalam estimasi rata-rata juga meningkat.
Bar Chart 3 menunjukkan perbandingan lebar interval kepercayaan dalam kondisi SD diketahui dan SD tidak diketahui. Pada kelompok SD 90 (variabilitas tinggi) dengan sampel 5, terdapat perbedaan yang signifikan antara batang merah dan biru di mana batang biru (Tidak Diketahui) jauh lebih tinggi. Ini membuktikan bahwa saat data sangat bervariasi dan sampelnya sedikit, ketidaktahuan akan standar deviasi populasi memberikan dampak paling buruk terhadap presisi. Sementara itu, saat ukuran sampel tinggi (n = 100), perbedaan tinggi batang antara kedua kategori tersebut menjadi tidak signifikan di mana batang biru dan batang merah memiliki tinggi yang relatif sama. Hal ini menunjukkan bahwa distribusi t akan mendekati distribusi normal seiring dengan bertambahnya derajat bebas atau ukuran sampel.