Estimasi dalam statistika adalah proses untuk menentukan rentang nilai yang mungkin dari parameter populasi berdasarkan data sampel. Estimasi ini memberikan informasi tentang tingkat kepercayaan terhadap parameter tersebut.
Selang kepercayaan (confidence interval) adalah rentang nilai yang digunakan untuk mengestimasi parameter populasi dengan tingkat kepercayaan tertentu. Selang ini memberikan informasi mengenai seberapa percaya diri kita bahwa parameter populasi berada dalam rentang yang telah ditentukan.
Selang kepercayaan dibentuk oleh tiga komponen utama:
1. Nilai Estimasi (Point Estimate): Ini adalah nilai tengah dari sampel
yang digunakan untuk mengestimasi parameter populasi. Contoh umum adalah
rata-rata sampel.
2. Tingkat Kepercayaan (Confidence Level): Tingkat kepercayaan adalah
probabilitas bahwa selang kepercayaan yang dihitung mencakup parameter
populasi yang sebenarnya. Tingkat kepercayaan yang umum digunakan adalah
90%, 95%, dan 99%.
3. Margin of Error: Margin of error adalah nilai yang ditambahkan dan
dikurangi dari nilai estimasi untuk membentuk selang kepercayaan.
Besarnya margin of error bergantung pada variabilitas data dan ukuran
sampel.
Proses untuk menghitung selang kepercayaan adalah sebagai
berikut:
1. Tentukan Nilai Estimasi: Tentukan nilai estimasi dari sampel,
misalnya rata-rata sampel.
2. Pilih Tingkat Kepercayaan: Pilih tingkat kepercayaan yang sesuai,
misalnya 95%.
3. Hitung Margin of Error: Margin of error dihitung dengan menggunakan
distribusi z (jika standar deviasi populasi diketahui) atau distribusi t
(jika standar deviasi populasi tidak diketahui).
4. Tentukan Selang Kepercayaan: Selang kepercayaan diperoleh dengan
menambahkan dan mengurangi margin of error dari nilai estimasi.
Untuk menghitung estimasi interval dari rata-rata populasi (μ) berdasarkan sampel, digunakan rumus berikut:
Ketika standar deviasi populasi (σ) diketahui: \[ \bar{x} \pm z_{\alpha/2} \frac{\sigma}{\sqrt{n}} \]
Ketika standar deviasi populasi (σ) tidak diketahui: \[ \bar{x} \pm t_{\alpha/2, df}\frac{s}{\sqrt{n}} \]
Jika standar deviasi populasi (σ) diketahui, rumus margin of error (E) adalah: \[ E = z_{\alpha/2} \frac{\sigma}{\sqrt{n}} \]
Jika standar deviasi populasi tidak diketahui dan kita menggunakan standar deviasi sampel (s ), rumus margin of error adalah: E=tα2,df×sn√
Di mana:
- Zα2 adalah nilai z dari distribusi normal standar untuk tingkat
kepercayaan tertentu.
- tα2,df adalah nilai t dari distribusi t-Student untuk tingkat
kepercayaan tertentu dan derajat kebebasan (df). - σ adalah standar
deviasi populasi. - s adalah standar deviasi sampel. - n adalah ukuran
sampel.
Selang kepercayaan memberikan informasi tentang rentang di mana kita memperkirakan parameter populasi berada. Misalnya, selang kepercayaan 95% untuk rata-rata populasi berarti kita 95% yakin bahwa rata-rata populasi berada dalam rentang tersebut. Perlu dicatat bahwa ini bukan berarti ada 95% kemungkinan bahwa rata-rata populasi ada dalam selang tertentu dari satu sampel melainkan bahwa jika kita mengambil banyak sampel, 95% dari selang kepercayaan yang dihitung dari sampel-sampel tersebut akan mencakup rata-rata populasi yang sebenarnya. Ini berarti bahwa dalam jangka panjang, jika kita mengulang pengambilan sampel dan menghitung selang kepercayaan untuk masing-masing sampel tersebut, sekitar 95% dari selang-selang kepercayaan tersebut akan berisi nilai rata-rata populasi yang sebenarnya. Namun, ini juga berarti bahwa 5% dari selang kepercayaan yang dihitung mungkin tidak akan mencakup nilai rata-rata populasi yang sebenarnya.
Margin of error adalah jarak dari nilai estimasi (misalnya, rata-rata sampel) ke batas atas atau batas bawah dari selang kepercayaan. Margin of error mencerminkan tingkat ketidakpastian yang kita miliki dalam estimasi. Semakin besar margin of error, semakin luas rentang estimasi kita, yang menunjukkan bahwa kita kurang yakin tentang perkiraan nilai rata-rata populasi. Sebaliknya, margin of error yang lebih kecil menunjukkan estimasi yang lebih presisi dan keyakinan yang lebih tinggi terhadap estimasi tersebut. Margin of error yang kecil biasanya dihasilkan dari ukuran sampel yang lebih besar atau dari data yang memiliki variabilitas rendah. Dengan margin of error yang kecil, selang kepercayaan menjadi lebih sempit, yang berarti estimasi rata-rata populasi lebih dekat dengan nilai sebenarnya. Oleh karena itu, memahami margin of error membantu dalam menilai keandalan dan akurasi hasil dari analisis statistik, serta dalam mengambil keputusan berdasarkan estimasi tersebut.
Beberapa faktor yang dapat mempengaruhi lebar selang kepercayaan
antara lain:
1. Ukuran Sampel: Semakin besar ukuran sampel, semakin sempit selang
kepercayaan, karena semakin banyak informasi yang tersedia untuk
mengestimasi parameter populasi.
2. Variabilitas Data: Semakin besar variabilitas data (standar deviasi),
semakin lebar selang kepercayaan. Hal ini karena data yang lebih
variabel memerlukan rentang yang lebih luas untuk mencakup parameter
populasi.
3. Tingkat Kepercayaan: Tingkat kepercayaan yang lebih tinggi
menghasilkan selang kepercayaan yang lebih lebar, karena kita memerlukan
rentang yang lebih luas untuk meningkatkan keyakinan bahwa parameter
populasi tercakup.
Estimasi dalam dan selang kepercayaan adalah konsep penting dalam statistika yang memungkinkan kita untuk membuat inferensi tentang parameter populasi berdasarkan data sampel. Dengan memahami dan menghitung selang kepercayaan, kita dapat membuat estimasi yang lebih akurat dan dapat diandalkan untuk pengambilan keputusan.
Lakukan simulasi untuk mempelajari pengaruh ukuran sampel,
variabilitas data (standar deviasi), dan pengetahuan tentang standar
deviasi populasi (diketahui/tidak diketahui) terhadap lebar interval
kepercayaan 95%, dengan informasi setiap faktor dan level sebagai
berikut:
- Faktor 1: Ukuran Sampel (n), Level: 5, 30, 100
- Faktor 2: Variabilitas Data (Standar Deviasi, σ atau s), Level: 10,
50, 90
- Faktor 3: Pengetahuan Standar Deviasi Populasi, Level: Diketahui (σ),
Tidak Diketahui (s)
Interpretasikan hasilnya..
Sebuah perusahaan elektronik ingin mengestimasi rata-rata daya tahan (dalam jam) dari model baterai terbaru mereka dengan tingkat kepercayaan 95%. Untuk memahami ketidakpastian dalam estimasi ini, tim Quality Control (QC) melakukan simulasi perhitungan interval kepercayaan dengan menguji pengaruh dari tiga faktor utama:
Ukuran Sampel (\(n\)): 5, 30, dan 100
Variabilitas Data (Standar Deviasi, \(\sigma\) atau \(s\)): 10, 50, dan 90
Pengetahuan Standar Deviasi Populasi: Diketahui (\(\sigma\)) vs Tidak Diketahui (\(s\))
Dalam seluruh simulasi ini, tim QC menetapkan rata-rata sampel daya tahan baterai sebesar 50 jam sebagai basis perhitungan.
Pada kondisi pertama digunakan ukuran sampel kecil yaitu n = 5. Kemudian dilakukan simulasi dengan variasi standar deviasi 10, 50, dan 90, serta dua kondisi yaitu standar deviasi diketahui dan tidak diketahui.
alpha <- 0.05 #Tingkat Kepercayaan 95%
mean_sim <- 50
n <- 5
z <- qnorm(1-alpha/2) #sd diketahui
t <- qt(1-alpha/2, df=n-1) #sd tidak diketahui
# sd = 10
sd <- 10
c(mean_sim - z*sd/sqrt(n), mean_sim + z*sd/sqrt(n)) #sd diketahui
## [1] 41.23477 58.76523
c(mean_sim - t*sd/sqrt(n), mean_sim + t*sd/sqrt(n)) #sd tidak diketahui
## [1] 37.58336 62.41664
# sd = 50
sd <- 50
c(mean_sim - z*sd/sqrt(n), mean_sim + z*sd/sqrt(n)) #sd diketahui
## [1] 6.173873 93.826127
c(mean_sim - t*sd/sqrt(n), mean_sim + t*sd/sqrt(n)) #sd tidak diketahui
## [1] -12.0832 112.0832
# sd = 90
sd <- 90
c(mean_sim - z*sd/sqrt(n), mean_sim + z*sd/sqrt(n)) #sd diketahui
## [1] -28.88703 128.88703
c(mean_sim - t*sd/sqrt(n), mean_sim + t*sd/sqrt(n)) #sd tidak diketahui
## [1] -61.74976 161.74976
# Tabel Hasil Ukuran sampel n = 5
sd_values <- c(10,50,90)
tabel_n5 <- data.frame()
for(sd in sd_values){
lower_z <- mean_sim - z*sd/sqrt(n)
upper_z <- mean_sim + z*sd/sqrt(n)
lower_t <- mean_sim - t*sd/sqrt(n)
upper_t <- mean_sim + t*sd/sqrt(n)
tabel_n5 <- rbind(tabel_n5,
data.frame(
SD = sd,
Pengetahuan_SD = "Diketahui",
Lower = round(lower_z,2),
Upper = round(upper_z,2),
Lebar_Interval = round(upper_z-lower_z,2)
),
data.frame(
SD = sd,
Pengetahuan_SD = "Tidak diketahui",
Lower = round(lower_t,2),
Upper = round(upper_t,2),
Lebar_Interval = round(upper_t-lower_t,2)
))
}
tabel_n5
## SD Pengetahuan_SD Lower Upper Lebar_Interval
## 1 10 Diketahui 41.23 58.77 17.53
## 2 10 Tidak diketahui 37.58 62.42 24.83
## 3 50 Diketahui 6.17 93.83 87.65
## 4 50 Tidak diketahui -12.08 112.08 124.17
## 5 90 Diketahui -28.89 128.89 157.77
## 6 90 Tidak diketahui -61.75 161.75 223.50
Pada ukuran sampel yang sangat kecil yaitu n = 5, interval kepercayaan yang dihasilkan cenderung sangat lebar. Hal ini menunjukkan bahwa jumlah sampel yang sedikit menyebabkan tingkat ketidakpastian dalam estimasi rata-rata daya tahan baterai menjadi tinggi. Selain itu, semakin besar nilai standar deviasi, interval kepercayaan juga semakin melebar. Kondisi ketika standar deviasi populasi tidak diketahui menghasilkan interval yang jauh lebih lebar dibandingkan ketika standar deviasi diketahui, karena distribusi t harus memperhitungkan ketidakpastian ekstra dari estimasi variabilitas sampel yang sangat kecil.
Pada kondisi kedua digunakan ukuran sampel yang lebih besar yaitu n = 30. Simulasi kembali dilakukan dengan standar deviasi 10, 50, dan 90 serta dua kondisi pengetahuan standar deviasi populasi.
alpha <- 0.05
mean_sim <- 50
n <- 30
z <- qnorm(1-alpha/2) #sd diketahui
t <- qt(1-alpha/2, df=n-1) #sd tidak diketahui
# sd = 10
sd <- 10
c(mean_sim - z*sd/sqrt(n), mean_sim + z*sd/sqrt(n)) #sd diketahui
## [1] 46.42161 53.57839
c(mean_sim - t*sd/sqrt(n), mean_sim + t*sd/sqrt(n)) #sd tidak diketahui
## [1] 46.26594 53.73406
# sd = 50
sd <- 50
c(mean_sim - z*sd/sqrt(n), mean_sim + z*sd/sqrt(n)) #sd diketahui
## [1] 32.10806 67.89194
c(mean_sim - t*sd/sqrt(n), mean_sim + t*sd/sqrt(n)) #sd tidak diketahui
## [1] 31.32969 68.67031
# sd = 90
sd <- 90
c(mean_sim - z*sd/sqrt(n), mean_sim + z*sd/sqrt(n)) #sd diketahui
## [1] 17.79451 82.20549
c(mean_sim - t*sd/sqrt(n), mean_sim + t*sd/sqrt(n)) #sd tidak diketahui
## [1] 16.39345 83.60655
# Tabel Hasil Ukuran sampel n = 30
tabel_n30 <- data.frame()
for(sd in sd_values){
lower_z <- mean_sim - z*sd/sqrt(n)
upper_z <- mean_sim + z*sd/sqrt(n)
lower_t <- mean_sim - t*sd/sqrt(n)
upper_t <- mean_sim + t*sd/sqrt(n)
tabel_n30 <- rbind(tabel_n30,
data.frame(
SD = sd,
Pengetahuan_SD = "Diketahui",
Lower = round(lower_z,2),
Upper = round(upper_z,2),
Lebar_Interval = round(upper_z-lower_z,2)
),
data.frame(
SD = sd,
Pengetahuan_SD = "Tidak diketahui",
Lower = round(lower_t,2),
Upper = round(upper_t,2),
Lebar_Interval = round(upper_t-lower_t,2)
))
}
tabel_n30
## SD Pengetahuan_SD Lower Upper Lebar_Interval
## 1 10 Diketahui 46.42 53.58 7.16
## 2 10 Tidak diketahui 46.27 53.73 7.47
## 3 50 Diketahui 32.11 67.89 35.78
## 4 50 Tidak diketahui 31.33 68.67 37.34
## 5 90 Diketahui 17.79 82.21 64.41
## 6 90 Tidak diketahui 16.39 83.61 67.21
Ketika ukuran sampel meningkat menjadi n = 30, interval kepercayaan menjadi lebih sempit dibandingkan n = 5. Hal ini menunjukkan bahwa semakin banyak data yang digunakan dalam sampel, estimasi rata-rata populasi menjadi lebih presisi. Pengaruh variabilitas data tetap terlihat, di mana nilai standar deviasi yang lebih besar menghasilkan interval kepercayaan yang lebih lebar. Selain itu, perbedaan pelebaran interval antara distribusi z dan t mulai menjadi lebih tipis karena ukuran sampel sudah cukup besar untuk menaksir varians dengan baik.
Pada kondisi terakhir digunakan ukuran sampel besar yaitu n = 100 untuk melihat bagaimana perubahan interval kepercayaan ketika jumlah data sangat banyak.
alpha <- 0.05
mean_sim <- 50
n <- 100
z <- qnorm(1-alpha/2) #sd diketahui
t <- qt(1-alpha/2, df=n-1) #sd tidak diketahui
# sd = 10
sd <- 10
c(mean_sim - z*sd/sqrt(n), mean_sim + z*sd/sqrt(n)) #sd diketahui
## [1] 48.04004 51.95996
c(mean_sim - t*sd/sqrt(n), mean_sim + t*sd/sqrt(n)) #sd tidak diketahui
## [1] 48.01578 51.98422
# sd = 50
sd <- 50
c(mean_sim - z*sd/sqrt(n), mean_sim + z*sd/sqrt(n)) #sd diketahui
## [1] 40.20018 59.79982
c(mean_sim - t*sd/sqrt(n), mean_sim + t*sd/sqrt(n)) #sd tidak diketahui
## [1] 40.07892 59.92108
# sd = 90
sd <- 90
c(mean_sim - z*sd/sqrt(n), mean_sim + z*sd/sqrt(n)) #sd diketahui
## [1] 32.36032 67.63968
c(mean_sim - t*sd/sqrt(n), mean_sim + t*sd/sqrt(n)) #sd tidak diketahui
## [1] 32.14205 67.85795
# Tabel Hasil Ukuran sampel n = 100
tabel_n100 <- data.frame()
for(sd in sd_values){
lower_z <- mean_sim - z*sd/sqrt(n)
upper_z <- mean_sim + z*sd/sqrt(n)
lower_t <- mean_sim - t*sd/sqrt(n)
upper_t <- mean_sim + t*sd/sqrt(n)
tabel_n100 <- rbind(tabel_n100,
data.frame(
SD = sd,
Pengetahuan_SD = "Diketahui",
Lower = round(lower_z,2),
Upper = round(upper_z,2),
Lebar_Interval = round(upper_z-lower_z,2)
),
data.frame(
SD = sd,
Pengetahuan_SD = "Tidak diketahui",
Lower = round(lower_t,2),
Upper = round(upper_t,2),
Lebar_Interval = round(upper_t-lower_t,2)
))
}
tabel_n100
## SD Pengetahuan_SD Lower Upper Lebar_Interval
## 1 10 Diketahui 48.04 51.96 3.92
## 2 10 Tidak diketahui 48.02 51.98 3.97
## 3 50 Diketahui 40.20 59.80 19.60
## 4 50 Tidak diketahui 40.08 59.92 19.84
## 5 90 Diketahui 32.36 67.64 35.28
## 6 90 Tidak diketahui 32.14 67.86 35.72
Pada ukuran sampel besar yaitu n = 100, interval kepercayaan menjadi sangat sempit dibandingkan dua kondisi sebelumnya. Hal ini menunjukkan bahwa semakin besar ukuran sampel, estimasi rata-rata populasi menjadi lebih presisi dan stabil. Selain itu, perbedaan nilai lebar interval antara distribusi z dan t hampir tidak terlihat (nilainya nyaris identik), karena pada ukuran sampel yang besar, distribusi t secara asimtotik mendekati bentuk distribusi normal standar.
Berdasarkan hasil analisis skenario simulasi yang dilakukan, dapat disimpulkan bahwa:
Ukuran sampel (\(n\)) memiliki pengaruh besar terhadap interval kepercayaan. Semakin besar ukuran sampel, interval kepercayaan semakin sempit, yang berarti margin kesalahan semakin mengecil.
Variabilitas data (\(\sigma\) / \(s\)) berbanding lurus dengan lebar interval. Semakin besar standar deviasi, data semakin menyebar, sehingga interval kepercayaan harus dibuat semakin lebar untuk mempertahankan tingkat keyakinan 95%.
Pengetahuan akan parameter populasi memengaruhi pemilihan distribusi. Jika standar deviasi populasi diketahui, interval dihitung menggunakan distribusi z yang lebih akurat. Sebaliknya, jika tidak diketahui, digunakan distribusi t yang akan memberikan rentang interval sedikit lebih lebar sebagai kompensasi ketidakpastian ekstra, terutama saat jumlah sampelnya sangat kecil.