Estimasi dalam statistika adalah proses untuk menentukan rentang nilai yang mungkin dari parameter populasi berdasarkan data sampel. Estimasi ini memberikan informasi tentang tingkat kepercayaan terhadap parameter tersebut. Selang kepercayaan (confidence interval) adalah rentang nilai yang digunakan untuk mengestimasi parameter populasi dengan tingkat kepercayaan tertentu. Selang ini memberikan informasi mengenai seberapa percaya diri kita bahwa parameter populasi berada dalam rentang yang telah ditentukan.
Selang kepercayaan dibentuk oleh tiga komponen utama: 1. Nilai Estimasi (Point Estimate): Ini adalah nilai tengah dari sampel yang digunakan untuk mengestimasi parameter populasi. Contoh umum adalah rata-rata sampel. 2. Tingkat Kepercayaan (Confidence Level): Tingkat kepercayaan adalah probabilitas bahwa selang kepercayaan yang dihitung mencakup parameter populasi yang sebenarnya. Tingkat kepercayaan yang umum digunakan adalah 90%, 95%, dan 99%. 3. Margin of Error: Margin of error adalah nilai yang ditambahkan dan dikurangi dari nilai estimasi untuk membentuk selang kepercayaan. Besarnya margin of error bergantung pada variabilitas data dan ukuran sampel.
Proses untuk menghitung selang kepercayaan adalah sebagai berikut: 1. Tentukan Nilai Estimasi: Tentukan nilai estimasi dari sampel, misalnya rata-rata sampel. 2. Pilih Tingkat Kepercayaan: Pilih tingkat kepercayaan yang sesuai, misalnya 95%. 3. Hitung Margin of Error: Margin of error dihitung dengan menggunakan distribusi z (jika standar deviasi populasi diketahui) atau distribusi t (jika standar deviasi populasi tidak diketahui). 4. Tentukan Selang Kepercayaan: Selang kepercayaan diperoleh dengan menambahkan dan mengurangi margin of error dari nilai estimasi.
Untuk menghitung estimasi interval dari rata-rata populasi (\(\mu\)) berdasarkan sampel, digunakan rumus
berikut:
- Ketika standar deviasi populasi (\(\sigma\)) diketahui:
\[
\bar{X} \pm Z_{\frac{\alpha}{2}} \times \frac{\sigma}{\sqrt{n}}
\]
- Ketika standar deviasi populasi (\(\sigma\)) tidak diketahui:
\[
\bar{X} \pm t_{\frac{\alpha}{2}, df} \times \frac{s}{\sqrt{n}}
\]
Jika standar deviasi populasi (\(\sigma\)) diketahui, rumus margin of error
(\(E\)) adalah:
\[
E = Z_{\frac{\alpha}{2}} \times \frac{\sigma}{\sqrt{n}}
\]
Jika standar deviasi populasi tidak diketahui dan kita menggunakan
standar deviasi sampel (\(s\)), rumus
margin of error adalah:
\[
E = t_{\frac{\alpha}{2}, df} \times \frac{s}{\sqrt{n}}
\]
Di mana:
- \(Z_{\frac{\alpha}{2}}\) adalah nilai
z dari distribusi normal standar untuk tingkat kepercayaan
tertentu.
- \(t_{\frac{\alpha}{2}, df}\) adalah
nilai t dari distribusi t-Student untuk tingkat kepercayaan tertentu dan
derajat kebebasan (\(df\)).
- \(\sigma\) adalah standar deviasi
populasi.
- \(s\) adalah standar deviasi
sampel.
- \(n\) adalah ukuran sampel.
Selang kepercayaan memberikan informasi tentang rentang di mana kita memperkirakan parameter populasi berada. Misalnya, selang kepercayaan 95% untuk rata-rata populasi berarti kita 95% yakin bahwa rata-rata populasi berada dalam rentang tersebut. Perlu dicatat bahwa ini bukan berarti ada 95% kemungkinan bahwa rata-rata populasi ada dalam selang tertentu dari satu sampel melainkan bahwa jika kita mengambil banyak sampel, 95% dari selang kepercayaan yang dihitung dari sampel-sampel tersebut akan mencakup rata-rata populasi yang sebenarnya. Ini berarti bahwa dalam jangka panjang, jika kita mengulang pengambilan sampel dan menghitung selang kepercayaan untuk masing-masing sampel tersebut, sekitar 95% dari selang-selang kepercayaan tersebut akan berisi nilai rata-rata populasi yang sebenarnya. Namun, ini juga berarti bahwa 5% dari selang kepercayaan yang dihitung mungkin tidak akan mencakup nilai rata-rata populasi yang sebenarnya
Margin of error adalah jarak dari nilai estimasi (misalnya, rata-rata sampel) ke batas atas atau batas bawah dari selang kepercayaan. Margin of error mencerminkan tingkat ketidakpastian yang kita miliki dalam estimasi. Semakin besar margin of error, semakin luas rentang estimasi kita, yang menunjukkan bahwa kita kurang yakin tentang perkiraan nilai rata-rata populasi. Sebaliknya, margin of error yang lebih kecil menunjukkan estimasi yang lebih presisi dan keyakinan yang lebih tinggi terhadap estimasi tersebut. Margin of error yang kecil biasanya dihasilkan dari ukuran sampel yang lebih besar atau dari data yang memiliki variabilitas rendah. Dengan margin of error yang kecil, selang kepercayaan menjadi lebih sempit, yang berarti estimasi rata-rata populasi lebih dekat dengan nilai sebenarnya. Oleh karena itu, memahami margin of error membantu dalam menilai keandalan dan akurasi hasil dari analisis statistik, serta dalam mengambil keputusan berdasarkan estimasi tersebut.
Sebuah perusahaan ingin mengestimasi rata-rata waktu yang dihabiskan oleh pelanggan di situs web mereka. Mereka melakukan dua survei dengan ukuran sampel yang berbeda.
Survei 1: 30 pelanggan, rata-rata waktu = 5 menit, standar deviasi = 2 menit. Survei 2: 100 pelanggan, rata-rata waktu = 5 menit, standar deviasi = 2 menit
# Survei 1
n1 <- 30
mean1 <- 5
sd1 <- 2
alpha <- 0.05
t_value1 <- qt(1 - alpha/2, df = n1-1)
error_margin1 <- t_value1 * sd1 / sqrt(n1)
interval1 <- c(mean1 - error_margin1, mean1 + error_margin1)
interval1
## [1] 4.253188 5.746812
# Survei 2
n2 <- 100
mean2 <- 5
sd2 <- 2
t_value2 <- qt(1 - alpha/2, df = n2-1)
error_margin2 <- t_value2 * sd2 / sqrt(n2)
interval2 <- c(mean2 - error_margin2, mean2 + error_margin2)
interval2
## [1] 4.603157 5.396843
Survei 1 memiliki interval kepercayaan (4.252, 5.748) menit. Survei 2 memiliki interval kepercayaan (4.602, 5.398) menit. Ukuran sampel yang lebih besar (100 vs 30) menghasilkan selang kepercayaan yang lebih sempit, menunjukkan estimasi yang lebih presisi.
Sebuah sekolah ingin mengestimasi rata-rata nilai ujian matematika siswa. Mereka memiliki dua kelas dengan variabilitas nilai yang berbeda.
Kelas A: 40 siswa, rata-rata nilai = 75, standar deviasi = 10 Kelas B: 40 siswa, rata-rata nilai = 75, standar deviasi = 20
# Kelas A
nA <- 40
meanA <- 75
sdA <- 10
alpha <- 0.05
t_valueA <- qt(1 - alpha/2, df = nA-1)
error_marginA <- t_valueA * sdA / sqrt(nA)
intervalA <- c(meanA - error_marginA, meanA + error_marginA)
intervalA
## [1] 71.80184 78.19816
# Kelas B
nB <- 40
meanB <- 75
sdB <- 20
t_valueB <- qt(1 - alpha/2, df = nB-1)
error_marginB <- t_valueB * sdB / sqrt(nB)
intervalB <- c(meanB - error_marginB, meanB + error_marginB)
intervalB
## [1] 68.60369 81.39631
Kelas A memiliki interval kepercayaan (71.784, 78.216). Kelas B memiliki interval kepercayaan (68.568, 81.432). Variabilitas data yang lebih tinggi (standar deviasi 20 vs 10) menghasilkan selang kepercayaan yang lebih lebar, menunjukkan estimasi yang kurang presisi.
Sebuah perusahaan ingin mengestimasi rata-rata jumlah produk yang terjual per hari. Mereka menggunakan dua tingkat kepercayaan yang berbeda.
Sampel: 50 hari, rata-rata penjualan = 100 produk, standar deviasi = 15 produk Tingkat kepercayaan: 90% dan 99%
# Tingkat Kepercayaan 90%
alpha90 <- 0.10
t_value90 <- qt(1 - alpha90/2, df = 49)
error_margin90 <- t_value90 * 15 / sqrt(50)
interval90 <- c(100 - error_margin90, 100 + error_margin90)
interval90
## [1] 96.4435 103.5565
# Tingkat Kepercayaan 99%
alpha99 <- 0.01
t_value99 <- qt(1 - alpha99/2, df = 49)
error_margin99 <- t_value99 * 15 / sqrt(50)
interval99 <- c(100 - error_margin99, 100 + error_margin99)
interval99
## [1] 94.31496 105.68504
Interval kepercayaan 90% adalah (96.464, 103.536). Interval kepercayaan 99% adalah (94.394, 105.606). Tingkat kepercayaan yang lebih tinggi (99% vs 90%) menghasilkan selang kepercayaan yang lebih lebar, menunjukkan rentang yang lebih luas untuk mencakup parameter populasi dengan keyakinan yang lebih tinggi.
Sebuah universitas ingin mengestimasi rata-rata tinggi badan mahasiswa di fakultas teknik. Berdasarkan data historis, standar deviasi tinggi badan populasi mahasiswa teknik adalah 5 cm. Sebuah sampel acak dari 36 mahasiswa diambil, dan rata-rata tinggi badan sampel adalah 170 cm.
Karena standar deviasi populasi diketahui, kita menggunakan distribusi z.
mean_tinggi <- 170 # dalam cm
sd_tinggi <- 5
# dalam cm (diketahui)
n <- 36
alpha <- 0.05
# Menghitung nilai z untuk tingkat kepercayaan 95%
z_value <- qnorm(1 - alpha/2)
# Menghitung margin of error
error_margin <- z_value * sd_tinggi / sqrt(n)
# Menghitung interval kepercayaan
## [1] 168.3667 171.6333
interval <- c(mean_tinggi - error_margin, mean_tinggi + error_margin)
interval
## [1] 168.3667 171.6333
Interval kepercayaan 95% untuk rata-rata tinggi badan mahasiswa teknik adalah (168.37 cm, 171.63 cm). Artinya, kita dapat yakin 95% bahwa rata-rata tinggi badan seluruh mahasiswa teknik di universitas tersebut berada dalam rentang ini. Karena standar deviasi populasi diketahui, estimasi ini lebih presisi
Universitas yang sama ingin mengestimasi rata-rata tinggi badan mahasiswa di fakultas seni. Namun, standar deviasi populasi tidak diketahui. Sebuah sampel acak dari 25 mahasiswa diambil, dan hasilnya adalah sebagai berikut (dalam cm):
tinggi_badan <- c(165, 168, 170, 172, 169, 167, 171, 166, 173, 174, 170, 168, 169, 167, 172, 171, 170, 169, 168, 173, 172, 170, 169, 167, 171)
Karena standar deviasi populasi tidak diketahui, kita menggunakan distribusi t.
mean_tinggi <- mean(tinggi_badan)
sd_tinggi <- sd(tinggi_badan)
n <- length(tinggi_badan)
alpha <- 0.05
# Menghitung nilai t untuk tingkat kepercayaan 95% dan df = n-1
t_value <- qt(1 - alpha/2, df = n-1)
# Menghitung margin of error
error_margin <- t_value * sd_tinggi / sqrt(n)
# Menghitung interval kepercayaan
## [1] 168.6802 170.5998
interval <- c(mean_tinggi - error_margin, mean_tinggi + error_margin)
interval
## [1] 168.6802 170.5998
Interval kepercayaan 95% untuk rata-rata tinggi badan mahasiswa seni adalah (168.67 cm, 170.73 cm). Artinya, kita dapat yakin 95% bahwa rata-rata tinggi badan seluruh mahasiswa seni di universitas tersebut berada dalam rentang ini. Karena standar deviasi populasi tidak diketahui, kita menggunakan distribusi t, yang menghasilkan interval yang sedikit lebih lebar dibandingkan jika standar deviasi populasi diketahui.
Lakukan simulasi untuk mempelajari pengaruh ukuran sampel, variabilitas data (standar deviasi), dan pengetahuan tentang standar deviasi populasi (diketahui/tidak diketahui) terhadap lebar interval kepercayaan 95%, dengan informasi setiap faktor dan level sebagai berikut: Faktor 1: Ukuran sampel ( n ) dengan level yaitu, 5,30, dan 100 Faktor 2: Variabilitas Data (Standar Deviasi σ atau s) dengan level yaitu, 10, 50, dan 90 Faktor 3: Pengetahuan Standar Deviasi Populasi, dengan level yaitu, diketahui dan tidak diketahu. Interpretasikan hasilnya
library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.3.3
set.seed(777)
# Parameter Simulasi
n_values <- c(5, 30, 100) # Ukuran sampel
sd_values <- c(10, 50, 90) # Standar deviasi
alpha <- 0.05 # Tingkat signifikansi 5%
mu <- 50 # Rata-rata populasi
k <- 1000 # Jumlah simulasi
# Menyimpan hasil simulasi
results <- data.frame()
for (n in n_values) {
for (sd in sd_values) {
for (pop_sd_known in c(TRUE, FALSE)) {
width_ci <- numeric(k) # Menyimpan lebar interval kepercayaan
for (i in 1:k) {
sample_data <- rnorm(n, mean = mu, sd = sd) # Ambil sampel dari distribusi normal
sample_mean <- mean(sample_data) # Rata-rata sampel
sample_sd <- sd(sample_data) # Standar deviasi sampel
if (pop_sd_known) {
# Jika standar deviasi populasi diketahui, gunakan Z-score
z_critical <- qnorm(1 - alpha / 2)
margin_error <- z_critical * (sd / sqrt(n))
} else {
# Jika standar deviasi populasi tidak diketahui, gunakan t-score
t_critical <- qt(1 - alpha / 2, df = n - 1)
margin_error <- t_critical * (sample_sd / sqrt(n))
}
width_ci[i] <- 2 * margin_error # Lebar interval kepercayaan
}
# Simpan hasil rata-rata lebar interval kepercayaan
results <- rbind(results, data.frame(
n = n,
sd = sd,
pop_sd_known = ifelse(pop_sd_known, "Diketahui", "Tidak Diketahui"),
mean_width = mean(width_ci)
))
}
}
}
# Menampilkan hasil dalam tabel
knitr::kable(results, caption = "Lebar Interval Kepercayaan 95% untuk Berbagai Kondisi")
n | sd | pop_sd_known | mean_width |
---|---|---|---|
5 | 10 | Diketahui | 17.530451 |
5 | 10 | Tidak Diketahui | 23.427016 |
5 | 50 | Diketahui | 87.652254 |
5 | 50 | Tidak Diketahui | 115.790327 |
5 | 90 | Diketahui | 157.774057 |
5 | 90 | Tidak Diketahui | 207.083758 |
30 | 10 | Diketahui | 7.156777 |
30 | 10 | Tidak Diketahui | 7.421059 |
30 | 50 | Diketahui | 35.783883 |
30 | 50 | Tidak Diketahui | 37.053154 |
30 | 90 | Diketahui | 64.410989 |
30 | 90 | Tidak Diketahui | 67.432420 |
100 | 10 | Diketahui | 3.919928 |
100 | 10 | Tidak Diketahui | 3.962793 |
100 | 50 | Diketahui | 19.599640 |
100 | 50 | Tidak Diketahui | 19.839520 |
100 | 90 | Diketahui | 35.279352 |
100 | 90 | Tidak Diketahui | 35.717363 |
ggplot(results, aes(x = factor(n), y = mean_width, fill = pop_sd_known)) +
geom_bar(stat = "identity", position = "dodge") +
facet_wrap(~ sd, labeller = label_bquote(sigma == .(sd))) +
labs(
title = "Pengaruh Ukuran Sampel, Variabilitas, dan Pengetahuan Standar Deviasi terhadap Lebar Interval Kepercayaan",
x = "Ukuran Sampel (n)",
y = "Rata-rata Lebar Interval Kepercayaan",
fill = "Standar Deviasi Populasi"
) +
theme_minimal()
## Interpretasi ### Pengaruh Ukuran Sampel (\(n\))
- Semakin besar ukuran sampel, semakin kecil lebar interval
kepercayaan.
- Sampel yang lebih besar mengurangi ketidakpastian estimasi, sehingga
estimasi lebih presisi.
Berdasarkan hasil simulasi, dapat disimpulkan bahwa:
1. Ukuran sampel yang lebih besar dan variabilitas data yang lebih
rendah akan menghasilkan interval kepercayaan yang lebih sempit,
sehingga estimasi lebih presisi.
2. Mengetahui standar deviasi populasi membantu mempersempit interval
kepercayaan karena penggunaan Z-score lebih stabil dibandingkan dengan
t-Student, terutama pada ukuran sampel kecil.