Estimasi Interval

Estimasi dalam statistika adalah proses untuk menentukan rentang nilai yang mungkin dari parameter populasi berdasarkan data sampel. Estimasi ini memberikan informasi tentang tingkat kepercayaan terhadap parameter tersebut.

Selang kepercayaan (confidence interval) adalah rentang nilai yang digunakan untuk mengestimasi parameter populasi dengan tingkat kepercayaan tertentu. Selang ini memberikan informasi mengenai seberapa percaya diri kita bahwa parameter populasi berada dalam rentang yang telah ditentukan.

Komponen Selang Kepercayaan

Selang kepercayaan dibentuk oleh tiga komponen utama:
1. Nilai Estimasi (Point Estimate): Ini adalah nilai tengah dari sampel yang digunakan untuk mengestimasi parameter populasi. Contoh umum adalah rata-rata sampel.
2. Tingkat Kepercayaan (Confidence Level): Tingkat kepercayaan adalah probabilitas bahwa selang kepercayaan yang dihitung mencakup parameter populasi yang sebenarnya. Tingkat kepercayaan yang umum digunakan adalah 90%, 95%, dan 99%.
3. Margin of Error: Margin of error adalah nilai yang ditambahkan dan dikurangi dari nilai estimasi untuk membentuk selang kepercayaan. Besarnya margin of error bergantung pada variabilitas data dan ukuran sampel.

Proses Perhitungan Selang Kepercayaan

Proses untuk menghitung selang kepercayaan adalah sebagai berikut:
1. Tentukan Nilai Estimasi: Tentukan nilai estimasi dari sampel, misalnya rata-rata sampel.
2. Pilih Tingkat Kepercayaan: Pilih tingkat kepercayaan yang sesuai, misalnya 95%.
3. Hitung Margin of Error: Margin of error dihitung dengan menggunakan distribusi z (jika standar deviasi populasi diketahui) atau distribusi t (jika standar deviasi populasi tidak diketahui).
4. Tentukan Selang Kepercayaan: Selang kepercayaan diperoleh dengan menambahkan dan mengurangi margin of error dari nilai estimasi.

Rumus Estimasi Interval

Untuk menghitung estimasi interval dari rata-rata populasi (μ) berdasarkan sampel, digunakan rumus berikut:

Rumus Margin of Error

Jika standar deviasi populasi (σ) diketahui, rumus margin of error (E) adalah: \[ E = z_{\alpha/2} \frac{\sigma}{\sqrt{n}} \]

Jika standar deviasi populasi tidak diketahui dan kita menggunakan standar deviasi sampel (s ), rumus margin of error adalah: E=tα2,df×sn√

Di mana:
- Zα2 adalah nilai z dari distribusi normal standar untuk tingkat kepercayaan tertentu.
- tα2,df adalah nilai t dari distribusi t-Student untuk tingkat kepercayaan tertentu dan derajat kebebasan (df). - σ adalah standar deviasi populasi. - s adalah standar deviasi sampel. - n adalah ukuran sampel.

Interpretasi Selang Kepercayaan

Selang kepercayaan memberikan informasi tentang rentang di mana kita memperkirakan parameter populasi berada. Misalnya, selang kepercayaan 95% untuk rata-rata populasi berarti kita 95% yakin bahwa rata-rata populasi berada dalam rentang tersebut. Perlu dicatat bahwa ini bukan berarti ada 95% kemungkinan bahwa rata-rata populasi ada dalam selang tertentu dari satu sampel melainkan bahwa jika kita mengambil banyak sampel, 95% dari selang kepercayaan yang dihitung dari sampel-sampel tersebut akan mencakup rata-rata populasi yang sebenarnya. Ini berarti bahwa dalam jangka panjang, jika kita mengulang pengambilan sampel dan menghitung selang kepercayaan untuk masing-masing sampel tersebut, sekitar 95% dari selang-selang kepercayaan tersebut akan berisi nilai rata-rata populasi yang sebenarnya. Namun, ini juga berarti bahwa 5% dari selang kepercayaan yang dihitung mungkin tidak akan mencakup nilai rata-rata populasi yang sebenarnya.

Interpretasi Margin of Error

Margin of error adalah jarak dari nilai estimasi (misalnya, rata-rata sampel) ke batas atas atau batas bawah dari selang kepercayaan. Margin of error mencerminkan tingkat ketidakpastian yang kita miliki dalam estimasi. Semakin besar margin of error, semakin luas rentang estimasi kita, yang menunjukkan bahwa kita kurang yakin tentang perkiraan nilai rata-rata populasi. Sebaliknya, margin of error yang lebih kecil menunjukkan estimasi yang lebih presisi dan keyakinan yang lebih tinggi terhadap estimasi tersebut. Margin of error yang kecil biasanya dihasilkan dari ukuran sampel yang lebih besar atau dari data yang memiliki variabilitas rendah. Dengan margin of error yang kecil, selang kepercayaan menjadi lebih sempit, yang berarti estimasi rata-rata populasi lebih dekat dengan nilai sebenarnya. Oleh karena itu, memahami margin of error membantu dalam menilai keandalan dan akurasi hasil dari analisis statistik, serta dalam mengambil keputusan berdasarkan estimasi tersebut.

Faktor yang Mempengaruhi Selang Kepercayaan

Beberapa faktor yang dapat mempengaruhi lebar selang kepercayaan antara lain:
1. Ukuran Sampel: Semakin besar ukuran sampel, semakin sempit selang kepercayaan, karena semakin banyak informasi yang tersedia untuk mengestimasi parameter populasi.
2. Variabilitas Data: Semakin besar variabilitas data (standar deviasi), semakin lebar selang kepercayaan. Hal ini karena data yang lebih variabel memerlukan rentang yang lebih luas untuk mencakup parameter populasi.
3. Tingkat Kepercayaan: Tingkat kepercayaan yang lebih tinggi menghasilkan selang kepercayaan yang lebih lebar, karena kita memerlukan rentang yang lebih luas untuk meningkatkan keyakinan bahwa parameter populasi tercakup.

Kesimpulan

Estimasi dalam dan selang kepercayaan adalah konsep penting dalam statistika yang memungkinkan kita untuk membuat inferensi tentang parameter populasi berdasarkan data sampel. Dengan memahami dan menghitung selang kepercayaan, kita dapat membuat estimasi yang lebih akurat dan dapat diandalkan untuk pengambilan keputusan.

Tugas

Lakukan simulasi untuk mempelajari pengaruh ukuran sampel, variabilitas data (standar deviasi), dan pengetahuan tentang standar deviasi populasi (diketahui/tidak diketahui) terhadap lebar interval kepercayaan 95%, dengan informasi setiap faktor dan level sebagai berikut:
- Faktor 1: Ukuran Sampel (n), Level: 5, 30, 100
- Faktor 2: Variabilitas Data (Standar Deviasi, σ atau s), Level: 10, 50, 90
- Faktor 3: Pengetahuan Standar Deviasi Populasi, Level: Diketahui (σ), Tidak Diketahui (s)

Interpretasikan hasilnya..

Penyelesaian

Studi Kasus: Simulasi Faktor Ketidakpastian Estimasi Daya Tahan Baterai

Sebuah perusahaan elektronik ingin mengestimasi rata-rata daya tahan (dalam jam) dari model baterai terbaru mereka dengan tingkat kepercayaan 95%. Untuk memahami ketidakpastian dalam estimasi ini, tim Quality Control (QC) melakukan simulasi perhitungan interval kepercayaan dengan menguji pengaruh dari tiga faktor utama:

  1. Ukuran Sampel (\(n\)): 5, 30, dan 100

  2. Variabilitas Data (Standar Deviasi, \(\sigma\) atau \(s\)): 10, 50, dan 90

  3. Pengetahuan Standar Deviasi Populasi: Diketahui (\(\sigma\)) vs Tidak Diketahui (\(s\))

Dalam seluruh simulasi ini, tim QC menetapkan rata-rata sampel daya tahan baterai sebesar 50 jam sebagai basis perhitungan.

1. Faktor 1 : Ukuran sampel n = 5

Pada kondisi pertama digunakan ukuran sampel kecil yaitu n = 5. Kemudian dilakukan simulasi dengan variasi standar deviasi 10, 50, dan 90, serta dua kondisi yaitu standar deviasi diketahui dan tidak diketahui.

alpha <- 0.05  #Tingkat Kepercayaan 95%
mean_sim <- 50
n <- 5

z <- qnorm(1-alpha/2)  #sd diketahui
t <- qt(1-alpha/2, df=n-1)  #sd tidak diketahui

# sd = 10
sd <- 10
c(mean_sim - z*sd/sqrt(n), mean_sim + z*sd/sqrt(n)) #sd diketahui
## [1] 41.23477 58.76523
c(mean_sim - t*sd/sqrt(n), mean_sim + t*sd/sqrt(n)) #sd tidak diketahui
## [1] 37.58336 62.41664
# sd = 50
sd <- 50
c(mean_sim - z*sd/sqrt(n), mean_sim + z*sd/sqrt(n)) #sd diketahui
## [1]  6.173873 93.826127
c(mean_sim - t*sd/sqrt(n), mean_sim + t*sd/sqrt(n)) #sd tidak diketahui
## [1] -12.0832 112.0832
# sd = 90
sd <- 90
c(mean_sim - z*sd/sqrt(n), mean_sim + z*sd/sqrt(n)) #sd diketahui
## [1] -28.88703 128.88703
c(mean_sim - t*sd/sqrt(n), mean_sim + t*sd/sqrt(n)) #sd tidak diketahui
## [1] -61.74976 161.74976
# Tabel Hasil Ukuran sampel n = 5
sd_values <- c(10,50,90)
tabel_n5 <- data.frame()

for(sd in sd_values){
  lower_z <- mean_sim - z*sd/sqrt(n)
  upper_z <- mean_sim + z*sd/sqrt(n)
  
  lower_t <- mean_sim - t*sd/sqrt(n)
  upper_t <- mean_sim + t*sd/sqrt(n)
  
  tabel_n5 <- rbind(tabel_n5,
                    data.frame(
                      SD = sd,
                      Pengetahuan_SD = "Diketahui",
                      Lower = round(lower_z,2),
                      Upper = round(upper_z,2),
                      Lebar_Interval = round(upper_z-lower_z,2)
                    ),
                    data.frame(
                      SD = sd,
                      Pengetahuan_SD = "Tidak diketahui",
                      Lower = round(lower_t,2),
                      Upper = round(upper_t,2),
                      Lebar_Interval = round(upper_t-lower_t,2)
                    ))
}

tabel_n5
##   SD  Pengetahuan_SD  Lower  Upper Lebar_Interval
## 1 10       Diketahui  41.23  58.77          17.53
## 2 10 Tidak diketahui  37.58  62.42          24.83
## 3 50       Diketahui   6.17  93.83          87.65
## 4 50 Tidak diketahui -12.08 112.08         124.17
## 5 90       Diketahui -28.89 128.89         157.77
## 6 90 Tidak diketahui -61.75 161.75         223.50

Interpretasi

Pada ukuran sampel yang sangat kecil yaitu n = 5, interval kepercayaan yang dihasilkan cenderung sangat lebar. Hal ini menunjukkan bahwa jumlah sampel yang sedikit menyebabkan tingkat ketidakpastian dalam estimasi rata-rata daya tahan baterai menjadi tinggi. Selain itu, semakin besar nilai standar deviasi, interval kepercayaan juga semakin melebar. Kondisi ketika standar deviasi populasi tidak diketahui menghasilkan interval yang jauh lebih lebar dibandingkan ketika standar deviasi diketahui, karena distribusi t harus memperhitungkan ketidakpastian ekstra dari estimasi variabilitas sampel yang sangat kecil.

2. Faktor 1 : Ukuran sampel n = 30

Pada kondisi kedua digunakan ukuran sampel yang lebih besar yaitu n = 30. Simulasi kembali dilakukan dengan standar deviasi 10, 50, dan 90 serta dua kondisi pengetahuan standar deviasi populasi.

alpha <- 0.05
mean_sim <- 50
n <- 30

z <- qnorm(1-alpha/2)  #sd diketahui
t <- qt(1-alpha/2, df=n-1)  #sd tidak diketahui

# sd = 10
sd <- 10
c(mean_sim - z*sd/sqrt(n), mean_sim + z*sd/sqrt(n)) #sd diketahui
## [1] 46.42161 53.57839
c(mean_sim - t*sd/sqrt(n), mean_sim + t*sd/sqrt(n)) #sd tidak diketahui
## [1] 46.26594 53.73406
# sd = 50
sd <- 50
c(mean_sim - z*sd/sqrt(n), mean_sim + z*sd/sqrt(n)) #sd diketahui
## [1] 32.10806 67.89194
c(mean_sim - t*sd/sqrt(n), mean_sim + t*sd/sqrt(n)) #sd tidak diketahui
## [1] 31.32969 68.67031
# sd = 90
sd <- 90
c(mean_sim - z*sd/sqrt(n), mean_sim + z*sd/sqrt(n)) #sd diketahui
## [1] 17.79451 82.20549
c(mean_sim - t*sd/sqrt(n), mean_sim + t*sd/sqrt(n)) #sd tidak diketahui
## [1] 16.39345 83.60655
# Tabel Hasil Ukuran sampel n = 30
tabel_n30 <- data.frame()

for(sd in sd_values){
  lower_z <- mean_sim - z*sd/sqrt(n)
  upper_z <- mean_sim + z*sd/sqrt(n)
  
  lower_t <- mean_sim - t*sd/sqrt(n)
  upper_t <- mean_sim + t*sd/sqrt(n)
  
  tabel_n30 <- rbind(tabel_n30,
                    data.frame(
                      SD = sd,
                      Pengetahuan_SD = "Diketahui",
                      Lower = round(lower_z,2),
                      Upper = round(upper_z,2),
                      Lebar_Interval = round(upper_z-lower_z,2)
                    ),
                    data.frame(
                      SD = sd,
                      Pengetahuan_SD = "Tidak diketahui",
                      Lower = round(lower_t,2),
                      Upper = round(upper_t,2),
                      Lebar_Interval = round(upper_t-lower_t,2)
                    ))
}

tabel_n30
##   SD  Pengetahuan_SD Lower Upper Lebar_Interval
## 1 10       Diketahui 46.42 53.58           7.16
## 2 10 Tidak diketahui 46.27 53.73           7.47
## 3 50       Diketahui 32.11 67.89          35.78
## 4 50 Tidak diketahui 31.33 68.67          37.34
## 5 90       Diketahui 17.79 82.21          64.41
## 6 90 Tidak diketahui 16.39 83.61          67.21

Interpretasi

Ketika ukuran sampel meningkat menjadi n = 30, interval kepercayaan menjadi lebih sempit dibandingkan n = 5. Hal ini menunjukkan bahwa semakin banyak data yang digunakan dalam sampel, estimasi rata-rata populasi menjadi lebih presisi. Pengaruh variabilitas data tetap terlihat, di mana nilai standar deviasi yang lebih besar menghasilkan interval kepercayaan yang lebih lebar. Selain itu, perbedaan pelebaran interval antara distribusi z dan t mulai menjadi lebih tipis karena ukuran sampel sudah cukup besar untuk menaksir varians dengan baik.

3. Faktor 1 : Ukuran sampel n = 100

Pada kondisi terakhir digunakan ukuran sampel besar yaitu n = 100 untuk melihat bagaimana perubahan interval kepercayaan ketika jumlah data sangat banyak.

alpha <- 0.05
mean_sim <- 50
n <- 100

z <- qnorm(1-alpha/2) #sd diketahui
t <- qt(1-alpha/2, df=n-1) #sd tidak diketahui

# sd = 10
sd <- 10
c(mean_sim - z*sd/sqrt(n), mean_sim + z*sd/sqrt(n)) #sd diketahui
## [1] 48.04004 51.95996
c(mean_sim - t*sd/sqrt(n), mean_sim + t*sd/sqrt(n)) #sd tidak diketahui
## [1] 48.01578 51.98422
# sd = 50
sd <- 50
c(mean_sim - z*sd/sqrt(n), mean_sim + z*sd/sqrt(n)) #sd diketahui
## [1] 40.20018 59.79982
c(mean_sim - t*sd/sqrt(n), mean_sim + t*sd/sqrt(n)) #sd tidak diketahui
## [1] 40.07892 59.92108
# sd = 90
sd <- 90
c(mean_sim - z*sd/sqrt(n), mean_sim + z*sd/sqrt(n)) #sd diketahui
## [1] 32.36032 67.63968
c(mean_sim - t*sd/sqrt(n), mean_sim + t*sd/sqrt(n)) #sd tidak diketahui
## [1] 32.14205 67.85795
# Tabel Hasil Ukuran sampel n = 100
tabel_n100 <- data.frame()

for(sd in sd_values){
  lower_z <- mean_sim - z*sd/sqrt(n)
  upper_z <- mean_sim + z*sd/sqrt(n)
  
  lower_t <- mean_sim - t*sd/sqrt(n)
  upper_t <- mean_sim + t*sd/sqrt(n)
  
  tabel_n100 <- rbind(tabel_n100,
                    data.frame(
                      SD = sd,
                      Pengetahuan_SD = "Diketahui",
                      Lower = round(lower_z,2),
                      Upper = round(upper_z,2),
                      Lebar_Interval = round(upper_z-lower_z,2)
                    ),
                    data.frame(
                      SD = sd,
                      Pengetahuan_SD = "Tidak diketahui",
                      Lower = round(lower_t,2),
                      Upper = round(upper_t,2),
                      Lebar_Interval = round(upper_t-lower_t,2)
                    ))
}

tabel_n100
##   SD  Pengetahuan_SD Lower Upper Lebar_Interval
## 1 10       Diketahui 48.04 51.96           3.92
## 2 10 Tidak diketahui 48.02 51.98           3.97
## 3 50       Diketahui 40.20 59.80          19.60
## 4 50 Tidak diketahui 40.08 59.92          19.84
## 5 90       Diketahui 32.36 67.64          35.28
## 6 90 Tidak diketahui 32.14 67.86          35.72

Interpretasi

Pada ukuran sampel besar yaitu n = 100, interval kepercayaan menjadi sangat sempit dibandingkan dua kondisi sebelumnya. Hal ini menunjukkan bahwa semakin besar ukuran sampel, estimasi rata-rata populasi menjadi lebih presisi dan stabil. Selain itu, perbedaan nilai lebar interval antara distribusi z dan t hampir tidak terlihat (nilainya nyaris identik), karena pada ukuran sampel yang besar, distribusi t secara asimtotik mendekati bentuk distribusi normal standar.

Kesimpulan

Berdasarkan hasil analisis skenario simulasi yang dilakukan, dapat disimpulkan bahwa:

  1. Ukuran sampel (\(n\)) memiliki pengaruh besar terhadap interval kepercayaan. Semakin besar ukuran sampel, interval kepercayaan semakin sempit, yang berarti margin kesalahan semakin mengecil.

  2. Variabilitas data (\(\sigma\) / \(s\)) berbanding lurus dengan lebar interval. Semakin besar standar deviasi, data semakin menyebar, sehingga interval kepercayaan harus dibuat semakin lebar untuk mempertahankan tingkat keyakinan 95%.

  3. Pengetahuan akan parameter populasi memengaruhi pemilihan distribusi. Jika standar deviasi populasi diketahui, interval dihitung menggunakan distribusi z yang lebih akurat. Sebaliknya, jika tidak diketahui, digunakan distribusi t yang akan memberikan rentang interval sedikit lebih lebar sebagai kompensasi ketidakpastian ekstra, terutama saat jumlah sampelnya sangat kecil.