Estimasi Interval

Estimasi dalam statistika adalah proses untuk menentukan rentang nilai yang mungkin dari parameter populasi berdasarkan data sampel. Estimasi ini memberikan informasi tentang tingkat kepercayaan terhadap parameter tersebut.

Selang kepercayaan (confidence interval) adalah rentang nilai yang digunakan untuk mengestimasi parameter populasi dengan tingkat kepercayaan tertentu. Selang ini memberikan informasi mengenai seberapa percaya diri kita bahwa parameter populasi berada dalam rentang yang telah ditentukan.

Komponen Selang Kepercayaan

dibentuk oleh tiga komponan utama:

  1. Nilai Estimasi (Point Estimate): Nilai tengah dari sampel yang digunakan untuk mengestimasi parameter populasi, misalnya rata-rata sampel.

  2. Tingkat Kepercayaan (Confidence Level): Probabilitas selang kepercayaan yang dihitung mencakup parameter populasi yang sebenarnya (90%, 95%, dan 99%).

  3. Margin of Error: Nilai yang ditambahkan dan dikurangi dari nilai estimasi untuk membentuk selang kepercayaan. Besarnya Margin of Error bergantung pada variabilitas data dan ukuran sampel.

Proses Perhitungan Selang Kepercayaan

  1. Menentukan Nilai Estimasi (rata-rata sampel)
  2. Memilih Tingkat Kepercayaan (95%)
  3. Menghitung Margin of Error (distribusi z - jika standar deviasi populasi diketahui; distribusi t - jika standar deviasi populasi tidak diketahui)
  4. Menentukan Selang Kepercayaan

Rumus Estimasi Interval

Untuk menghitung estimasi interval dari rata-rata populasi (µ) berdasarkan sampel, digunakan rumus berikut:

Rumus Margin of Error

Di mana:

Interpretasi Selang Kepercayaan

Jika kita mengambil banyak sampel, 95% dari selang kepercayaan yang dihitung dari sampel-sampel tersebut akan mencakup rata-rata populasi yang sebenarnya. Ini berarti bahwa dalam jangka panjang, jika kita mengulang pengambilan sampel dan menghitung selang kepercayaan untuk masing-masing sampel tersebut, sekitar 95% dari selang-selang kepercayaan tersebut akan berisi nilai rata-rata populasi yang sebenarnya.

Interpretasi Margin of Error

Semakin besar margin of error, semakin luas rentang estimasi kita, yang menunjukkan bahwa kita kurang yakin tentang perkiraan nilai rata-rata populasi. Sebaliknya, margin of error yang lebih kecil menunjukkan estimasi yang lebih presisi dan keyakinan yang lebih tinggi terhadap estimasi tersebut. Margin of error yang kecil biasanya dihasilkan dari ukuran sampel yang lebih besar atau dari data yang memiliki variabilitas rendah. Dengan margin of error yang kecil, selang kepercayaan menjadi lebih sempit, yang berarti estimasi rata-rata populasi lebih dekat dengan nilai sebenarnya.

Faktor yang Mempengaruhi Selang Kepercayaan

  1. Ukuran Sampel: Semakin besar ukuran sampel, semakin sempit selang kepercayaan, karena semakin banyak informasi yang tersedia untuk mengestimasi parameter populasi.
  2. Variabilitas Data: Semakin besar variabilitas data (standar deviasi), semakin lebar selang kepercayaan. Hal ini karena data yang lebih variabel memerlukan rentang yang lebih luas untuk mencakup parameter populasi.
  3. Tingkat Kepercayaan: Tingkat kepercayaan yang lebih tinggi menghasilkan selang kepercayaan yang lebih lebar, karena kita memerlukan rentang yang lebih luas untuk meningkatkan keyakinan bahwa parameter populasi tercakup.

Tugas

Lakukan simulasi untuk mempelajari pengaruh ukuran sampel, variabilitas data (standar deviasi), dan pengetahuan tentang standar deviasi populasi (diketahui/tidak diketahui) terhadap lebar interval kepercayaan 95%, dengan informasi setiap faktor dan level sebagai berikut:

Interpretasikan hasilnya..

Penyelesaian

Sebuah perusahaan ingin mengestimasi rata-rata jumlah produk yang terjual per hari. Untuk melakukan estimasi tersebut digunakan metode interval kepercayan 95%. Perusahaan ingin mengetahui bagaimana pengaruh ukuran sampel, variabilitas data, dan pengetahuan mengenai standar deviasi populasi terhadap lebar interval kepercayaan dengan disediakan informasi setiap faktor dan level sebagai berikut:

Diasumsikan rata-rata sampel = 100 dan tingkat kepercayaan yang digunakan adalah 95% (α=0.05).

1. Faktor 1 : Ukuran sampel n = 5

Pada kondisi pertama digunakan ukuran sampel kecil yaitu n = 5. Kemudian dilakukan simulasi dengan variasi standar deviasi 10, 50, dan 90, serta dua kondisi yaitu standar deviasi diketahui dan tidak diketahui.

alpha <- 0.05  #Tingkat Kepercayaan 95%
mean_sim <- 100
n <- 5

z <- qnorm(1-alpha/2)  #sd diketahui
t <- qt(1-alpha/2, df=n-1)  #sd tidak diketahui

# sd = 10
sd <- 10
c(mean_sim - z*sd/sqrt(n), mean_sim + z*sd/sqrt(n)) #sd diketahui
## [1]  91.23477 108.76523
c(mean_sim - t*sd/sqrt(n), mean_sim + t*sd/sqrt(n)) #sd tidak diketahui
## [1]  87.58336 112.41664
# sd = 50
sd <- 50
c(mean_sim - z*sd/sqrt(n), mean_sim + z*sd/sqrt(n)) #sd diketahui
## [1]  56.17387 143.82613
c(mean_sim - t*sd/sqrt(n), mean_sim + t*sd/sqrt(n)) #sd tidak diketahui
## [1]  37.9168 162.0832
# sd = 90
sd <- 90
c(mean_sim - z*sd/sqrt(n), mean_sim + z*sd/sqrt(n)) #sd diketahui
## [1]  21.11297 178.88703
c(mean_sim - t*sd/sqrt(n), mean_sim + t*sd/sqrt(n)) #sd tidak diketahui
## [1] -11.74976 211.74976
# Tabel Hasil Ukuran sampel n = 5
alpha <- 0.05
mean_sim <- 100
n <- 5

z <- qnorm(1-alpha/2)
t <- qt(1-alpha/2, df=n-1)

sd_values <- c(10,50,90)

tabel_n5 <- data.frame()

for(sd in sd_values){
  
  lower_z <- mean_sim - z*sd/sqrt(n)
  upper_z <- mean_sim + z*sd/sqrt(n)
  
  lower_t <- mean_sim - t*sd/sqrt(n)
  upper_t <- mean_sim + t*sd/sqrt(n)
  
  tabel_n5 <- rbind(tabel_n5,
                    data.frame(
                      SD = sd,
                      Pengetahuan_SD = "Diketahui",
                      Lower = round(lower_z,2),
                      Upper = round(upper_z,2),
                      Lebar_Interval = round(upper_z-lower_z,2)
                    ),
                    data.frame(
                      SD = sd,
                      Pengetahuan_SD = "Tidak diketahui",
                      Lower = round(lower_t,2),
                      Upper = round(upper_t,2),
                      Lebar_Interval = round(upper_t-lower_t,2)
                    ))
}

tabel_n5
##   SD  Pengetahuan_SD  Lower  Upper Lebar_Interval
## 1 10       Diketahui  91.23 108.77          17.53
## 2 10 Tidak diketahui  87.58 112.42          24.83
## 3 50       Diketahui  56.17 143.83          87.65
## 4 50 Tidak diketahui  37.92 162.08         124.17
## 5 90       Diketahui  21.11 178.89         157.77
## 6 90 Tidak diketahui -11.75 211.75         223.50

Interpretasi

Pada ukuran sampel yang sangat kecil yaitu n = 5, interval kepercayaan yang dihasilkan cenderung sangat lebar. Hal ini menunjukkan bahwa jumlah sampel yang sedikit menyebabkan tingkat ketidakpastian dalam estimasi rata-rata populasi menjadi tinggi. Selain itu, semakin besar nilai standar deviasi, interval kepercayaan juga semakin melebar. Kondisi ketika standar deviasi populasi tidak diketahui menghasilkan interval yang lebih lebar dibandingkan ketika standar deviasi diketahui, karena distribusi t memperhitungkan ketidakpastian tambahan dalam estimasi variabilitas data.

2. Faktor 1 : Ukuran sampel n = 30

Pada kondisi kedua digunakan ukuran sampel yang lebih besar yaitu n = 30. Simulasi kembali dilakukan dengan standar deviasi 10, 50, dan 90 serta dua kondisi pengetahuan standar deviasi populasi.

alpha <- 0.05
mean_sim <- 100
n <- 30

z <- qnorm(1-alpha/2)  #sd diketahui
t <- qt(1-alpha/2, df=n-1)  #sd tidak diketahui

# sd = 10
sd <- 10
c(mean_sim - z*sd/sqrt(n), mean_sim + z*sd/sqrt(n)) #sd diketahui
## [1]  96.42161 103.57839
c(mean_sim - t*sd/sqrt(n), mean_sim + t*sd/sqrt(n)) #sd tidak diketahui
## [1]  96.26594 103.73406
# sd = 50
sd <- 50
c(mean_sim - z*sd/sqrt(n), mean_sim + z*sd/sqrt(n)) #sd diketahui
## [1]  82.10806 117.89194
c(mean_sim - t*sd/sqrt(n), mean_sim + t*sd/sqrt(n)) #sd tidak diketahui
## [1]  81.32969 118.67031
# sd = 90
sd <- 90
c(mean_sim - z*sd/sqrt(n), mean_sim + z*sd/sqrt(n)) #sd diketahui
## [1]  67.79451 132.20549
c(mean_sim - t*sd/sqrt(n), mean_sim + t*sd/sqrt(n)) #sd tidak diketahui
## [1]  66.39345 133.60655
# Tabel Hasil Ukuran sampel n = 30
n <- 30

z <- qnorm(1-alpha/2)
t <- qt(1-alpha/2, df=n-1)

tabel_n30 <- data.frame()

for(sd in sd_values){
  
  lower_z <- mean_sim - z*sd/sqrt(n)
  upper_z <- mean_sim + z*sd/sqrt(n)
  
  lower_t <- mean_sim - t*sd/sqrt(n)
  upper_t <- mean_sim + t*sd/sqrt(n)
  
  tabel_n30 <- rbind(tabel_n30,
                    data.frame(
                      SD = sd,
                      Pengetahuan_SD = "Diketahui",
                      Lower = round(lower_z,2),
                      Upper = round(upper_z,2),
                      Lebar_Interval = round(upper_z-lower_z,2)
                    ),
                    data.frame(
                      SD = sd,
                      Pengetahuan_SD = "Tidak diketahui",
                      Lower = round(lower_t,2),
                      Upper = round(upper_t,2),
                      Lebar_Interval = round(upper_t-lower_t,2)
                    ))
}

tabel_n30
##   SD  Pengetahuan_SD Lower  Upper Lebar_Interval
## 1 10       Diketahui 96.42 103.58           7.16
## 2 10 Tidak diketahui 96.27 103.73           7.47
## 3 50       Diketahui 82.11 117.89          35.78
## 4 50 Tidak diketahui 81.33 118.67          37.34
## 5 90       Diketahui 67.79 132.21          64.41
## 6 90 Tidak diketahui 66.39 133.61          67.21

Interpretasi

Ketika ukuran sampel meningkat menjadi n = 30, interval kepercayaan menjadi lebih sempit dibandingkan n = 5. Hal ini menunjukkan bahwa semakin banyak data yang digunakan dalam sampel, estimasi rata-rata populasi menjadi lebih presisi. Pengaruh variabilitas data tetap terlihat, di mana nilai standar deviasi yang lebih besar menghasilkan interval kepercayaan yang lebih lebar. Selain itu, perbedaan antara distribusi z dan t mulai menjadi lebih kecil karena ukuran sampel sudah cukup besar.

3. Faktor 1 : Ukuran sampel n = 100

Pada kondisi terakhir digunakan ukuran sampel besar yaitu n = 100 untuk melihat bagaimana perubahan interval kepercayaan ketika jumlah data sangat banyak.

alpha <- 0.05
mean_sim <- 100
n <- 100

z <- qnorm(1-alpha/2) #sd diketahui
t <- qt(1-alpha/2, df=n-1) #sd tidak diketahui

# sd = 10
sd <- 10
c(mean_sim - z*sd/sqrt(n), mean_sim + z*sd/sqrt(n)) #sd diketahui
## [1]  98.04004 101.95996
c(mean_sim - t*sd/sqrt(n), mean_sim + t*sd/sqrt(n)) #sd tidak diketahui
## [1]  98.01578 101.98422
# sd = 50
sd <- 50
c(mean_sim - z*sd/sqrt(n), mean_sim + z*sd/sqrt(n)) #sd diketahui
## [1]  90.20018 109.79982
c(mean_sim - t*sd/sqrt(n), mean_sim + t*sd/sqrt(n)) #sd tidak diketahui
## [1]  90.07892 109.92108
# sd = 90
sd <- 90
c(mean_sim - z*sd/sqrt(n), mean_sim + z*sd/sqrt(n)) #sd diketahui
## [1]  82.36032 117.63968
c(mean_sim - t*sd/sqrt(n), mean_sim + t*sd/sqrt(n)) #sd tidak diketahui
## [1]  82.14205 117.85795
# Tabel Hasil Ukuran sampel n = 100
n <- 100

z <- qnorm(1-alpha/2)
t <- qt(1-alpha/2, df=n-1)

tabel_n100 <- data.frame()

for(sd in sd_values){
  
  lower_z <- mean_sim - z*sd/sqrt(n)
  upper_z <- mean_sim + z*sd/sqrt(n)
  
  lower_t <- mean_sim - t*sd/sqrt(n)
  upper_t <- mean_sim + t*sd/sqrt(n)
  
  tabel_n100 <- rbind(tabel_n100,
                    data.frame(
                      SD = sd,
                      Pengetahuan_SD = "Diketahui",
                      Lower = round(lower_z,2),
                      Upper = round(upper_z,2),
                      Lebar_Interval = round(upper_z-lower_z,2)
                    ),
                    data.frame(
                      SD = sd,
                      Pengetahuan_SD = "Tidak diketahui",
                      Lower = round(lower_t,2),
                      Upper = round(upper_t,2),
                      Lebar_Interval = round(upper_t-lower_t,2)
                    ))
}

tabel_n100
##   SD  Pengetahuan_SD Lower  Upper Lebar_Interval
## 1 10       Diketahui 98.04 101.96           3.92
## 2 10 Tidak diketahui 98.02 101.98           3.97
## 3 50       Diketahui 90.20 109.80          19.60
## 4 50 Tidak diketahui 90.08 109.92          19.84
## 5 90       Diketahui 82.36 117.64          35.28
## 6 90 Tidak diketahui 82.14 117.86          35.72

Interpretasi

Pada ukuran sampel besar yaitu n = 100, interval kepercayaan menjadi sangat sempit dibandingkan dua kondisi sebelumnya. Hal ini menunjukkan bahwa semakin besar ukuran sampel, estimasi rata-rata populasi menjadi lebih akurat dan stabil. Selain itu, perbedaan antara distribusi z dan t hampir tidak terlihat, karena ukuran sampel yang besar distribusi t mendekati distribusi normal.

Kesimpulan

Berdasarkan hasil simulasi yang dilakukan dapat disimpulkan bahwa:

  1. Ukuran sampel memiliki pengaruh besar terhadap interval kepercayaan. Semakin besar ukuran sampel, interval kepercayaan semakin sempit.
  2. Variabilitas data juga mempengaruhi interval kepercayaan. Semakin besar standar deviasi, interval kepercayaan semakin lebar.
  3. Jika standar deviasi populasi diketahui, interval kepercayaan dihitung menggunakan distribusi z, sedangkan jika tidak diketahui digunakan distribusi t yang menghasilkan interval sedikit lebih lebar.