Estimasi interval merupakan teknik statistika yang digunakan untuk memperkirakan nilai parameter populasi berdasarkan data sampel. Berbeda dengan estimasi titik yang hanya memberikan satu nilai dugaan, estimasi interval menghasilkan rentang nilai yang kemungkinan besar memuat parameter populasi sebenarnya.
Rentang tersebut disebut selang kepercayaan (confidence interval). Jika digunakan tingkat kepercayaan 95%, maka dapat dikatakan bahwa sekitar 95% dari interval yang dibentuk dari berbagai sampel akan memuat nilai parameter populasi.
Sebuah perusahaan digital ingin memperkirakan rata‑rata lama pengguna mengakses situs mereka. Dua survei dilakukan dengan ukuran sampel berbeda.
# Survei A
n1 <- 30
mean1 <- 6
sd1 <- 2.5
alpha <- 0.05
t_value1 <- qt(1 - alpha/2, df = n1-1)
error_margin1 <- t_value1 * sd1 / sqrt(n1)
interval1 <- c(mean1 - error_margin1, mean1 + error_margin1)
interval1
## [1] 5.066485 6.933515
# Survei B
n2 <- 120
mean2 <- 6
sd2 <- 2.5
alpha <- 0.05
t_value2 <- qt(1 - alpha/2, df = n2-1)
error_margin2 <- t_value2 * sd2 / sqrt(n2)
interval2 <- c(mean2 - error_margin2, mean2 + error_margin2)
interval2
## [1] 5.548106 6.451894
Hasil yang diperoleh menunjukkan bahwa survei dengan ukuran sampel lebih besar menghasilkan interval yang lebih sempit. Hal ini berarti estimasi rata-rata menjadi lebih presisi karena semakin banyak data yang digunakan dalam perhitungan.
Sebuah perusahaan ingin mengestimasi rata-rata waktu (dalam menit) yang dihabiskan karyawan untuk menyelesaikan tugas harian. Terdapat dua divisi dengan tingkat variasi waktu kerja yang berbeda.
Divisi A: 35 karyawan, rata-rata waktu = 50 menit, standar deviasi = 8 Divisi B: 35 karyawan, rata-rata waktu = 50 menit, standar deviasi = 18
# Divisi A
nA <- 35
meanA <- 50
sdA <- 8
alpha <- 0.05
t_valueA <- qt(1 - alpha/2, df = nA-1)
error_marginA <- t_valueA * sdA / sqrt(nA)
intervalA <- c(meanA - error_marginA, meanA + error_marginA)
intervalA
## [1] 47.2519 52.7481
# Divisi B
nB <- 35
meanB <- 50
sdB <- 18
t_valueB <- qt(1 - alpha/2, df = nB-1)
error_marginB <- t_valueB * sdB / sqrt(nB)
intervalB <- c(meanB - error_marginB, meanB + error_marginB)
intervalB
## [1] 43.81678 56.18322
Dapat dilihat bahwa Divisi B memiliki interval yang lebih lebar dibandingkan Divisi A.
Hal ini disebabkan karena standar deviasi Divisi B lebih besar (18 dibanding 8), sehingga data lebih menyebar dan ketidakpastian estimasi meningkat.
Kesimpulan: Variabilitas data yang lebih tinggi akan menghasilkan selang kepercayaan yang lebih lebar, yang berarti estimasi rata-rata menjadi kurang presisi.
Sebuah lembaga pelatihan ingin mengestimasi rata-rata nilai ujian peserta. Dari sampel yang diambil, diketahui rata-rata nilai adalah 85 dengan standar deviasi 12 dari 60 peserta.
mean_val <- 85
sd_val <- 12
n <- 60
alpha95 <- 0.05
t_value95 <- qt(1 - alpha95/2, df = n-1)
error_margin95 <- t_value95 * sd_val / sqrt(n)
interval95 <- c(mean_val - error_margin95, mean_val + error_margin95)
interval95
## [1] 81.90007 88.09993
# Divisi B
alpha99 <- 0.01
t_value99 <- qt(1 - alpha99/2, df = n-1)
error_margin99 <- t_value99 * sd_val / sqrt(n)
interval99 <- c(mean_val - error_margin99, mean_val + error_margin99)
interval99
## [1] 80.87642 89.12358
Semakin tinggi tingkat kepercayaan yang digunakan, maka selang kepercayaan akan semakin lebar. Hal ini terjadi karena kita ingin meningkatkan keyakinan bahwa parameter populasi berada dalam interval tersebut, sehingga rentangnya harus diperluas.
Sebuah universitas ingin memperkirakan rata-rata tinggi badan mahasiswa fmipa. Diketahui standar deviasi populasi sebesar 6 cm. Dari sampel 40 mahasiswa diperoleh rata-rata tinggi badan 168 cm.
mean_tinggi <- 168
sd_tinggi <- 6
n <- 40
alpha <- 0.05
z_value <- qnorm(1 - alpha/2)
error_margin <- z_value * sd_tinggi / sqrt(n)
interval <- c(mean_tinggi - error_margin, mean_tinggi + error_margin)
interval
## [1] 166.1406 169.8594
Interval kepercayaan yang dihasilkan memberikan rentang nilai yang kemungkinan memuat rata-rata tinggi badan mahasiswa fmipa. Dengan tingkat kepercayaan 95%, rata-rata populasi diperkirakan berada dalam interval tersebut. Karena standar deviasi populasi diketahui, estimasi ini lebih presisi.
Untuk mahasiswa fakultas ekonomi, standar deviasi populasi tidak diketahui. Diambil sampel 20 mahasiswa dengan data tinggi badan sebagai berikut.
tinggi_badan <- c(162,165,168,170,169,167,166,171,172,168,
169,170,167,166,173,174,168,169,171,170)
mean_tinggi <- mean(tinggi_badan)
sd_tinggi <- sd(tinggi_badan)
n <- length(tinggi_badan)
alpha <- 0.05
t_value <- qt(1 - alpha/2, df = n-1)
error_margin <- t_value * sd_tinggi / sqrt(n)
interval <- c(mean_tinggi - error_margin, mean_tinggi + error_margin)
interval
## [1] 167.4187 170.0813
Karena standar deviasi populasi tidak diketahui, digunakan distribusi t. Distribusi ini biasanya menghasilkan interval yang sedikit lebih lebar dibandingkan distribusi normal karena mempertimbangkan ketidakpastian tambahan dari estimasi standar deviasi sampel.
Beberapa faktor yang mempengaruhi lebar interval kepercayaan antara lain: