Estimasi dalam statistika adalah proses untuk menentukan rentang nilai yang mungkin dari parameter populasi berdasarkan data sampel. Estimasi ini memberikan informasi tentang tingkat kepercayaan terhadap parameter tersebut.
Selang kepercayaan (confidence interval) adalah rentang nilai yang digunakan untuk mengestimasi parameter populasi dengan tingkat kepercayaan tertentu. Selang ini memberikan informasi mengenai seberapa percaya diri kita bahwa parameter populasi berada dalam rentang yang telah ditentukan.
dibentuk oleh tiga komponan utama:
Nilai Estimasi (Point Estimate): Nilai tengah dari sampel yang digunakan untuk mengestimasi parameter populasi, misalnya rata-rata sampel.
Tingkat Kepercayaan (Confidence Level): Probabilitas selang kepercayaan yang dihitung mencakup parameter populasi yang sebenarnya (90%, 95%, dan 99%).
Margin of Error: Nilai yang ditambahkan dan dikurangi dari nilai estimasi untuk membentuk selang kepercayaan. Besarnya Margin of Error bergantung pada variabilitas data dan ukuran sampel.
Untuk menghitung estimasi interval dari rata-rata populasi (µ) berdasarkan sampel, digunakan rumus berikut:
Ketika standar deviasi populasi (σ) diketahui: X^¯± Z_α/2 × σ/√n
Ketika standar deviasi populasi (σ) tidak diketahui: X^¯ ± t_α/2,df × s/√n
Di mana:
Z_α/2 adalah nilai z dari distribusi normal standar untuk tingkat kepercayaan tertentu.
t_α/2,df adalah nilai t dari distribusi t-Student untuk tingkat kepercayaan tertentu dan derajat kebebasan (df).
σ adalah standar deviasi populasi.
s adalah standar deviasi sampel.
n adalah ukuran sampel.
Jika kita mengambil banyak sampel, 95% dari selang kepercayaan yang dihitung dari sampel-sampel tersebut akan mencakup rata-rata populasi yang sebenarnya. Ini berarti bahwa dalam jangka panjang, jika kita mengulang pengambilan sampel dan menghitung selang kepercayaan untuk masing-masing sampel tersebut, sekitar 95% dari selang-selang kepercayaan tersebut akan berisi nilai rata-rata populasi yang sebenarnya.
Semakin besar margin of error, semakin luas rentang estimasi kita, yang menunjukkan bahwa kita kurang yakin tentang perkiraan nilai rata-rata populasi. Sebaliknya, margin of error yang lebih kecil menunjukkan estimasi yang lebih presisi dan keyakinan yang lebih tinggi terhadap estimasi tersebut. Margin of error yang kecil biasanya dihasilkan dari ukuran sampel yang lebih besar atau dari data yang memiliki variabilitas rendah. Dengan margin of error yang kecil, selang kepercayaan menjadi lebih sempit, yang berarti estimasi rata-rata populasi lebih dekat dengan nilai sebenarnya.
Lakukan simulasi untuk mempelajari pengaruh ukuran sampel, variabilitas data (standar deviasi), dan pengetahuan tentang standar deviasi populasi (diketahui/tidak diketahui) terhadap lebar interval kepercayaan 95%, dengan informasi setiap faktor dan level sebagai berikut:
Faktor 1: Ukuran Sampel (n), Level: 5, 30, 100
Faktor 2: Variabilitas Data (Standar Deviasi, σ atau s), Level: 10, 50, 90
Faktor 3: Pengetahuan Standar Deviasi Populasi, Level: Diketahui (σ), Tidak Diketahui (s)
Interpretasikan hasilnya..
Sebuah perusahaan ingin mengestimasi rata-rata jumlah produk yang terjual per hari. Untuk melakukan estimasi tersebut digunakan metode interval kepercayan 95%. Perusahaan ingin mengetahui bagaimana pengaruh ukuran sampel, variabilitas data, dan pengetahuan mengenai standar deviasi populasi terhadap lebar interval kepercayaan dengan disediakan informasi setiap faktor dan level sebagai berikut:
Faktor 1: Ukuran Sampel (n), Level: 5, 30, 100
Faktor 2: Variabilitas Data (Standar Deviasi, σ atau s), Level: 10, 50, 90
Faktor 3: Pengetahuan Standar Deviasi Populasi, Level: Diketahui (σ), Tidak Diketahui (s)
Diasumsikan rata-rata sampel = 100 dan tingkat kepercayaan yang digunakan adalah 95% (α=0.05).
Pada kondisi pertama digunakan ukuran sampel kecil yaitu n = 5. Kemudian dilakukan simulasi dengan variasi standar deviasi 10, 50, dan 90, serta dua kondisi yaitu standar deviasi diketahui dan tidak diketahui.
alpha <- 0.05 #Tingkat Kepercayaan 95%
mean_sim <- 100
n <- 5
z <- qnorm(1-alpha/2) #sd diketahui
t <- qt(1-alpha/2, df=n-1) #sd tidak diketahui
# sd = 10
sd <- 10
c(mean_sim - z*sd/sqrt(n), mean_sim + z*sd/sqrt(n)) #sd diketahui
## [1] 91.23477 108.76523
c(mean_sim - t*sd/sqrt(n), mean_sim + t*sd/sqrt(n)) #sd tidak diketahui
## [1] 87.58336 112.41664
# sd = 50
sd <- 50
c(mean_sim - z*sd/sqrt(n), mean_sim + z*sd/sqrt(n)) #sd diketahui
## [1] 56.17387 143.82613
c(mean_sim - t*sd/sqrt(n), mean_sim + t*sd/sqrt(n)) #sd tidak diketahui
## [1] 37.9168 162.0832
# sd = 90
sd <- 90
c(mean_sim - z*sd/sqrt(n), mean_sim + z*sd/sqrt(n)) #sd diketahui
## [1] 21.11297 178.88703
c(mean_sim - t*sd/sqrt(n), mean_sim + t*sd/sqrt(n)) #sd tidak diketahui
## [1] -11.74976 211.74976
# Tabel Hasil Ukuran sampel n = 5
alpha <- 0.05
mean_sim <- 100
n <- 5
z <- qnorm(1-alpha/2)
t <- qt(1-alpha/2, df=n-1)
sd_values <- c(10,50,90)
tabel_n5 <- data.frame()
for(sd in sd_values){
lower_z <- mean_sim - z*sd/sqrt(n)
upper_z <- mean_sim + z*sd/sqrt(n)
lower_t <- mean_sim - t*sd/sqrt(n)
upper_t <- mean_sim + t*sd/sqrt(n)
tabel_n5 <- rbind(tabel_n5,
data.frame(
SD = sd,
Pengetahuan_SD = "Diketahui",
Lower = round(lower_z,2),
Upper = round(upper_z,2),
Lebar_Interval = round(upper_z-lower_z,2)
),
data.frame(
SD = sd,
Pengetahuan_SD = "Tidak diketahui",
Lower = round(lower_t,2),
Upper = round(upper_t,2),
Lebar_Interval = round(upper_t-lower_t,2)
))
}
tabel_n5
## SD Pengetahuan_SD Lower Upper Lebar_Interval
## 1 10 Diketahui 91.23 108.77 17.53
## 2 10 Tidak diketahui 87.58 112.42 24.83
## 3 50 Diketahui 56.17 143.83 87.65
## 4 50 Tidak diketahui 37.92 162.08 124.17
## 5 90 Diketahui 21.11 178.89 157.77
## 6 90 Tidak diketahui -11.75 211.75 223.50
Interpretasi
Pada ukuran sampel yang sangat kecil yaitu n = 5, interval kepercayaan yang dihasilkan cenderung sangat lebar. Hal ini menunjukkan bahwa jumlah sampel yang sedikit menyebabkan tingkat ketidakpastian dalam estimasi rata-rata populasi menjadi tinggi. Selain itu, semakin besar nilai standar deviasi, interval kepercayaan juga semakin melebar. Kondisi ketika standar deviasi populasi tidak diketahui menghasilkan interval yang lebih lebar dibandingkan ketika standar deviasi diketahui, karena distribusi t memperhitungkan ketidakpastian tambahan dalam estimasi variabilitas data.
Pada kondisi kedua digunakan ukuran sampel yang lebih besar yaitu n = 30. Simulasi kembali dilakukan dengan standar deviasi 10, 50, dan 90 serta dua kondisi pengetahuan standar deviasi populasi.
alpha <- 0.05
mean_sim <- 100
n <- 30
z <- qnorm(1-alpha/2) #sd diketahui
t <- qt(1-alpha/2, df=n-1) #sd tidak diketahui
# sd = 10
sd <- 10
c(mean_sim - z*sd/sqrt(n), mean_sim + z*sd/sqrt(n)) #sd diketahui
## [1] 96.42161 103.57839
c(mean_sim - t*sd/sqrt(n), mean_sim + t*sd/sqrt(n)) #sd tidak diketahui
## [1] 96.26594 103.73406
# sd = 50
sd <- 50
c(mean_sim - z*sd/sqrt(n), mean_sim + z*sd/sqrt(n)) #sd diketahui
## [1] 82.10806 117.89194
c(mean_sim - t*sd/sqrt(n), mean_sim + t*sd/sqrt(n)) #sd tidak diketahui
## [1] 81.32969 118.67031
# sd = 90
sd <- 90
c(mean_sim - z*sd/sqrt(n), mean_sim + z*sd/sqrt(n)) #sd diketahui
## [1] 67.79451 132.20549
c(mean_sim - t*sd/sqrt(n), mean_sim + t*sd/sqrt(n)) #sd tidak diketahui
## [1] 66.39345 133.60655
# Tabel Hasil Ukuran sampel n = 30
n <- 30
z <- qnorm(1-alpha/2)
t <- qt(1-alpha/2, df=n-1)
tabel_n30 <- data.frame()
for(sd in sd_values){
lower_z <- mean_sim - z*sd/sqrt(n)
upper_z <- mean_sim + z*sd/sqrt(n)
lower_t <- mean_sim - t*sd/sqrt(n)
upper_t <- mean_sim + t*sd/sqrt(n)
tabel_n30 <- rbind(tabel_n30,
data.frame(
SD = sd,
Pengetahuan_SD = "Diketahui",
Lower = round(lower_z,2),
Upper = round(upper_z,2),
Lebar_Interval = round(upper_z-lower_z,2)
),
data.frame(
SD = sd,
Pengetahuan_SD = "Tidak diketahui",
Lower = round(lower_t,2),
Upper = round(upper_t,2),
Lebar_Interval = round(upper_t-lower_t,2)
))
}
tabel_n30
## SD Pengetahuan_SD Lower Upper Lebar_Interval
## 1 10 Diketahui 96.42 103.58 7.16
## 2 10 Tidak diketahui 96.27 103.73 7.47
## 3 50 Diketahui 82.11 117.89 35.78
## 4 50 Tidak diketahui 81.33 118.67 37.34
## 5 90 Diketahui 67.79 132.21 64.41
## 6 90 Tidak diketahui 66.39 133.61 67.21
Interpretasi
Ketika ukuran sampel meningkat menjadi n = 30, interval kepercayaan menjadi lebih sempit dibandingkan n = 5. Hal ini menunjukkan bahwa semakin banyak data yang digunakan dalam sampel, estimasi rata-rata populasi menjadi lebih presisi. Pengaruh variabilitas data tetap terlihat, di mana nilai standar deviasi yang lebih besar menghasilkan interval kepercayaan yang lebih lebar. Selain itu, perbedaan antara distribusi z dan t mulai menjadi lebih kecil karena ukuran sampel sudah cukup besar.
Pada kondisi terakhir digunakan ukuran sampel besar yaitu n = 100 untuk melihat bagaimana perubahan interval kepercayaan ketika jumlah data sangat banyak.
alpha <- 0.05
mean_sim <- 100
n <- 100
z <- qnorm(1-alpha/2) #sd diketahui
t <- qt(1-alpha/2, df=n-1) #sd tidak diketahui
# sd = 10
sd <- 10
c(mean_sim - z*sd/sqrt(n), mean_sim + z*sd/sqrt(n)) #sd diketahui
## [1] 98.04004 101.95996
c(mean_sim - t*sd/sqrt(n), mean_sim + t*sd/sqrt(n)) #sd tidak diketahui
## [1] 98.01578 101.98422
# sd = 50
sd <- 50
c(mean_sim - z*sd/sqrt(n), mean_sim + z*sd/sqrt(n)) #sd diketahui
## [1] 90.20018 109.79982
c(mean_sim - t*sd/sqrt(n), mean_sim + t*sd/sqrt(n)) #sd tidak diketahui
## [1] 90.07892 109.92108
# sd = 90
sd <- 90
c(mean_sim - z*sd/sqrt(n), mean_sim + z*sd/sqrt(n)) #sd diketahui
## [1] 82.36032 117.63968
c(mean_sim - t*sd/sqrt(n), mean_sim + t*sd/sqrt(n)) #sd tidak diketahui
## [1] 82.14205 117.85795
# Tabel Hasil Ukuran sampel n = 100
n <- 100
z <- qnorm(1-alpha/2)
t <- qt(1-alpha/2, df=n-1)
tabel_n100 <- data.frame()
for(sd in sd_values){
lower_z <- mean_sim - z*sd/sqrt(n)
upper_z <- mean_sim + z*sd/sqrt(n)
lower_t <- mean_sim - t*sd/sqrt(n)
upper_t <- mean_sim + t*sd/sqrt(n)
tabel_n100 <- rbind(tabel_n100,
data.frame(
SD = sd,
Pengetahuan_SD = "Diketahui",
Lower = round(lower_z,2),
Upper = round(upper_z,2),
Lebar_Interval = round(upper_z-lower_z,2)
),
data.frame(
SD = sd,
Pengetahuan_SD = "Tidak diketahui",
Lower = round(lower_t,2),
Upper = round(upper_t,2),
Lebar_Interval = round(upper_t-lower_t,2)
))
}
tabel_n100
## SD Pengetahuan_SD Lower Upper Lebar_Interval
## 1 10 Diketahui 98.04 101.96 3.92
## 2 10 Tidak diketahui 98.02 101.98 3.97
## 3 50 Diketahui 90.20 109.80 19.60
## 4 50 Tidak diketahui 90.08 109.92 19.84
## 5 90 Diketahui 82.36 117.64 35.28
## 6 90 Tidak diketahui 82.14 117.86 35.72
Interpretasi
Pada ukuran sampel besar yaitu n = 100, interval kepercayaan menjadi sangat sempit dibandingkan dua kondisi sebelumnya. Hal ini menunjukkan bahwa semakin besar ukuran sampel, estimasi rata-rata populasi menjadi lebih akurat dan stabil. Selain itu, perbedaan antara distribusi z dan t hampir tidak terlihat, karena ukuran sampel yang besar distribusi t mendekati distribusi normal.
Berdasarkan hasil simulasi yang dilakukan dapat disimpulkan bahwa: