Estimasi dalam statistika adalah proses untuk menentukan rentang nilai yang mungkin dari parameter populasiberdasarkan data sampel. Estimasi ini memberikan informasi tentang tingkat kepercayaan terhadap parametertersebut. Selang kepercayaan (confidence interval) adalah rentang nilai yang digunakan untuk mengestimasi parameterpopulasi dengan tingkat kepercayaan tertentu. Selang ini memberikan informasi mengenai seberapa percayadiri kita bahwa parameter populasi berada dalam rentang yang telah ditentukan.
Selang kepercayaan dibentuk oleh tiga komponen utama: 1. Nilai Estimasi (Point Estimate): Ini adalah nilai tengah dari sampel yang digunakan untuk mengestimasi parameter populasi. Contoh umum adalah rata-rata sampel. 2. Tingkat Kepercayaan (Confidence Level): Tingkat kepercayaan adalah probabilitas bahwa selangkepercayaan yang dihitung mencakup parameter populasi yang sebenarnya. Tingkat kepercayaan yang umumdigunakan adalah 90%, 95%, dan 99%. 3. Margin of Error: Margin of error adalah nilai yang ditambahkan dan dikurangi dari nilai estimasi untukmembentuk selang kepercayaan. Besarnya margin of error bergantung pada variabilitas data dan ukuransampel.
Proses untuk menghitung selang kepercayaan adalah sebagai berikut: 1. Tentukan Nilai Estimasi: Tentukan nilai estimasi dari sampel, misalnya rata-rata sampel. 2. Pilih Tingkat Kepercayaan: Pilih tingkat kepercayaan yang sesuai, misalnya 95%. 3. Hitung Margin of Error: Margin of error dihitung dengan menggunakan distribusi z (jika standar deviasi populasi diketahui) atau distribusi t (jika standar deviasi populasi tidak diketahui). 4. Tentukan Selang Kepercayaan: Selang kepercayaan diperoleh dengan menambahkan dan mengurangi margin of error dari nilai estimasi.
Untuk menghitung estimasi interval dari rata-rata populasi \((\mu)\) berdasarkan sampel, digunakan rumus berikut: -ketika standar deviasi populasi\((\sigma)\)diketahui:\[\bar{X}\pm Z_{\frac{\alpha}{2}}\times\frac{\sigma^2}{\sqrt{n}}\] -Ketika standar deviasi populasi \((\sigma)\) tidak diketahui: \[\bar{X} \pm t_{\frac{\alpha}{2}, df} \times \frac{s^2}{\sqrt{n}}\]
Jika standar deviasi \((\sigma)\) populasi diketahui, rumus margin of error \((E)\) adalah: \[E = Z_{\frac{\alpha}{2}} \times \frac{\sigma}{\sqrt{n}}\]
Jika standar deviasi populasi tidak diketahui dan kita menggunakan standar deviasi sampel (s), rumus margin of error adalah: \[E = t_{\frac{\alpha}{2}, df} \times \frac{s}{\sqrt{n}}\]
Di mana: - \[Z_{\frac{\alpha}{2}}\] adalah nilai z dari distribusi normal standar untuk tingkat kepercayaan tertentu.
\[t_{\frac{\alpha}{2}, df}\] adalah nilai t dari distribusi t-Student untuk tingkat kepercayaan tertentu dan derajat kebebasan (df).
\((\sigma)\) adalah standar deviasi populasi.
s adalah standar deviasi sampel.
n adalah ukuran sampel.
Selang kepercayaan memberikan informasi tentang rentang di mana kita memperkirakan parameter populasiberada. Misalnya, selang kepercayaan 95% untuk rata-rata populasi berarti kita 95% yakin bahwa rata-ratapopulasi berada dalam rentang tersebut. Perlu dicatat bahwa ini bukan berarti ada 95% kemungkinan bahwarata-rata populasi ada dalam selang tertentu dari satu sampel melainkan bahwa jika kita mengambil banyaksampel, 95% dari selang kepercayaan yang dihitung dari sampel-sampel tersebut akan mencakup rata-ratapopulasi yang sebenarnya. Ini berarti bahwa dalam jangka panjang, jika kita mengulang pengambilan sampeldan menghitung selang kepercayaan untuk masing-masing sampel tersebut, sekitar 95% dari selang-selangkepercayaan tersebut akan berisi nilai rata-rata populasi yang sebenarnya. Namun, ini juga berarti bahwa 5%dari selang kepercayaan yang dihitung mungkin tidak akan mencakup nilai rata-rata populasi yang sebenarnya.
Margin of error adalah jarak dari nilai estimasi (misalnya, rata-rata sampel) ke batas atas atau batas bawahdari selang kepercayaan. Margin of error mencerminkan tingkat ketidakpastian yang kita miliki dalam estimasi.Semakin besar margin of error, semakin luas rentang estimasi kita, yang menunjukkan bahwa kita kurang yakintentang perkiraan nilai rata-rata populasi. Sebaliknya, margin of error yang lebih kecil menunjukkan estimasiyang lebih presisi dan keyakinan yang lebih tinggi terhadap estimasi tersebut. Margin of error yang kecil biasanya dihasilkan dari ukuran sampel yang lebih besar atau dari data yang memiliki variabilitas rendah.Dengan margin of error yang kecil, selang kepercayaan menjadi lebih sempit, yang berarti estimasi rata-ratapopulasi lebih dekat dengan nilai sebenarnya. Oleh karena itu, memahami margin of error membantu dalammenilai keandalan dan akurasi hasil dari analisis statistik, serta dalam mengambil keputusan berdasarkanestimasi tersebut.
Sebuah perusahaan ingin mengestimasi rata-rata waktu yang dihabiskan oleh pelanggan di situs web mereka.Mereka melakukan dua survei dengan ukuran sampel yang berbeda.
-Survei 1: 30 pelanggan, rata-rata waktu = 5 menit, standar deviasi = 2 menit -Survei 2: 100 pelanggan, rata-rata waktu = 5 menit, standar deviasi = 2 menit
# Survei 1
n1 <- 30
mean1 <- 5
sd1 <- 2
alpha <- 0.05
t_value1 <- qt(1 - alpha/2, df = n1-1)
error_margin1 <- t_value1 * sd1 / sqrt(n1)
interval1 <- c(mean1 - error_margin1, mean1 + error_margin1)
interval1
## [1] 4.253188 5.746812
# Survei 2
n2 <- 100
mean2 <- 5
sd2 <- 2
t_value2 <- qt(1 - alpha/2, df = n2-1)
error_margin2 <- t_value2 * sd2 / sqrt(n2)
interval2 <- c(mean2 - error_margin2, mean2 + error_margin2)
interval2
## [1] 4.603157 5.396843
-Survei 1 memiliki interval kepercayaan (4.252, 5.748) menit. -Survei 2 memiliki interval kepercayaan (4.602, 5.398) menit. -Ukuran sampel yang lebih besar (100 vs 30) menghasilkan selang kepercayaan yang lebih sempit,menunjukkan estimasi yang lebih presisi.
Sebuah sekolah ingin mengestimasi rata-rata nilai ujian matematika siswa. Mereka memiliki dua kelas denganvariabilitas nilai yang berbeda.
-Kelas A: 40 siswa, rata-rata nilai = 75, standar deviasi = 10 -Kelas B: 40 siswa, rata-rata nilai = 75, standar deviasi = 20
# Kelas A
nA <- 40
meanA <- 75
sdA <- 10
alpha <- 0.05
t_valueA <- qt(1 - alpha/2, df = nA-1)
error_marginA <- t_valueA * sdA / sqrt(nA)
intervalA <- c(meanA - error_marginA, meanA + error_marginA)
intervalA
## [1] 71.80184 78.19816
# Kelas B
nB <- 40
meanB <- 75
sdB <- 20
t_valueB <- qt(1 - alpha/2, df = nB-1)
error_marginB <- t_valueB * sdB / sqrt(nB)
intervalB <- c(meanB - error_marginB, meanB + error_marginB)
intervalB
## [1] 68.60369 81.39631
-Kelas A memiliki interval kepercayaan (71.784, 78.216). -Kelas B memiliki interval kepercayaan (68.568, 81.432). -Variabilitas data yang lebih tinggi (standar deviasi 20 vs 10) menghasilkan selang kepercayaan yanglebih lebar, menunjukkan estimasi yang kurang presisi.
Sebuah perusahaan ingin mengestimasi rata-rata jumlah produk yang terjual per hari. Mereka menggunakandua tingkat kepercayaan yang berbeda.
-Sampel: 50 hari, rata-rata penjualan = 100 produk, standar deviasi = 15 produk -Tingkat kepercayaan: 90% dan 99%
# Tingkat Kepercayaan 90%
alpha90 <- 0.10
t_value90 <- qt(1 - alpha90/2, df = 49)
error_margin90 <- t_value90 * 15 / sqrt(50)
interval90 <- c(100 - error_margin90, 100 + error_margin90)
interval90
## [1] 96.4435 103.5565
# Tingkat Kepercayaan 99%
alpha99 <- 0.01
t_value99 <- qt(1 - alpha99/2, df = 49)
error_margin99 <- t_value99 * 15 / sqrt(50)
interval99 <- c(100 - error_margin99, 100 + error_margin99)
interval99
## [1] 94.31496 105.68504
-Interval kepercayaan 90% adalah (96.464, 103.536). -Interval kepercayaan 99% adalah (94.394, 105.606). -Tingkat kepercayaan yang lebih tinggi (99% vs 90%) menghasilkan selang kepercayaan yang lebihlebar, menunjukkan rentang yang lebih luas untuk mencakup parameter populasi dengan keyakinanyang lebih tinggi.
Sebuah universitas ingin mengestimasi rata-rata tinggi badan mahasiswa di fakultas teknik. Berdasarkan datahistoris, standar deviasi tinggi badan populasi mahasiswa teknik adalah 5 cm. Sebuah sampel acak dari 36mahasiswa diambil, dan rata-rata tinggi badan sampel adalah 170 cm.
Karena standar deviasi populasi diketahui, kita menggunakan distribusi z.
mean_tinggi <- 170 # dalam cm
sd_tinggi <- 5 # dalam cm (diketahui)
n <- 36
alpha <- 0.05
# Menghitung nilai z untuk tingkat kepercayaan 95%
z_value <- qnorm(1 - alpha/2)
# Menghitung margin of error
error_margin <- z_value * sd_tinggi / sqrt(n)
# Menghitung interval kepercayaan
interval <- c(mean_tinggi - error_margin, mean_tinggi + error_margin)
interval
## [1] 168.3667 171.6333
Interval kepercayaan 95% untuk rata-rata tinggi badan mahasiswa teknik adalah (168.37 cm, 171.63 cm).Artinya, kita dapat yakin 95% bahwa rata-rata tinggi badan seluruh mahasiswa teknik di universitas tersebutberada dalam rentang ini. Karena standar deviasi populasi diketahui, estimasi ini lebih presisi.
Universitas yang sama ingin mengestimasi rata-rata tinggi badan mahasiswa di fakultas seni. Namun, standardeviasi populasi tidak diketahui. Sebuah sampel acak dari 25 mahasiswa diambil, dan hasilnya adalah sebagai berikut (dalam cm):
tinggi_badan <- c(165, 168, 170, 172, 169, 167, 171, 166, 173, 174, 170, 168, 169, 167, 172, 171, 170, 169, 168, 173, 172, 170, 169, 167, 171)
Karena standar deviasi populasi tidak diketahui, kita menggunakan distribusi t.
mean_tinggi <- mean(tinggi_badan)
sd_tinggi <- sd(tinggi_badan)
n <- length(tinggi_badan)
alpha <- 0.05
# Menghitung nilai t untuk tingkat kepercayaan 95% dan df = n-1
t_value <- qt(1 - alpha/2, df = n-1)
# Menghitung margin of error
error_margin <- t_value * sd_tinggi / sqrt(n)
# Menghitung interval kepercayaan
interval <- c(mean_tinggi - error_margin, mean_tinggi + error_margin)
interval
## [1] 168.6802 170.5998
Interval kepercayaan 95% untuk rata-rata tinggi badan mahasiswa seni adalah (168.67 cm, 170.73 cm).Artinya, kita dapat yakin 95% bahwa rata-rata tinggi badan seluruh mahasiswa seni di universitas tersebutberada dalam rentang ini. Karena standar deviasi populasi tidak diketahui, kita menggunakan distribusi t, yangmenghasilkan interval yang sedikit lebih lebar dibandingkan jika standar deviasi populasi diketahui.
Beberapa faktor yang dapat mempengaruhi lebar selang kepercayaan antara lain: 1. Ukuran Sampel: Semakin besar ukuran sampel, semakin sempit selang kepercayaan, karena semakinbanyak informasi yang tersedia untuk mengestimasi parameter populasi. 2. Variabilitas Data: Semakin besar variabilitas data (standar deviasi), semakin lebar selang kepercayaan. Halini karena data yang lebih variabel memerlukan rentang yang lebih luas untuk mencakup parameter populasi. 3. Tingkat Kepercayaan: Tingkat kepercayaan yang lebih tinggi menghasilkan selang kepercayaan yang lebihlebar, karena kita memerlukan rentang yang lebih luas untuk meningkatkan keyakinan bahwa parameterpopulasi tercakup.
Estimasi dalam dan selang kepercayaan adalah konsep penting dalam statistika yang memungkinkan kitauntuk membuat inferensi tentang parameter populasi berdasarkan data sampel. Dengan memahami danmenghitung selang kepercayaan, kita dapat membuat estimasi yang lebih akurat dan dapat diandalkan untukpengambilan keputusan.
Lakukan simulasi untuk mempelajari pengaruh ukuran sampel, variabilitas data (standar deviasi), danpengetahuan tentang standar deviasi populasi (diketahui/tidak diketahui) terhadap lebar interval kepercayaan95%, dengan informasi setiap faktor dan level sebagai berikut: - Faktor 1: Ukuran Sampel (n), Level: 5, 30, 100 - Faktor 2: Variabilitas Data (Standar Deviasi, \(\sigma\) atau s), Level: 10, 50, 90 - Faktor 3: Pengetahuan Standar Deviasi Populasi, Level: Diketahui \((\sigma)\), Tidak Diketahui (s) Interpretasikan hasilnya.
Karena simulasi melibatkan dua kondisi berbeda (standar deviasi populasi diketahui atau tidak diketahui), kita menggunakan pendekatan berikut: 1. Jika standar deviasi populasi diketahui, gunakan distribusiz:\[\bar{X} \pm Z \times \frac{\sigma}{\sqrt{n}}\] 2. Jika standar deviasi populasi tidak diketahui, gunakan distribusi t: \[\bar{X} \pm t \times \frac{s}{\sqrt{n}}\]
# parameter
set.seed(112)
ukuran_sampel <- c(5, 30, 100)
standar_deviasi <- c(10, 50, 90)
populasi_sd_diketahui <- c(TRUE, FALSE)
tingkat_kepercayaan <- 0.95
# Fungsi menghitung lebar interval kepercayaan
hitung_lebar_ci <- function(n, sd, diketahui, alpha = 1 - tingkat_kepercayaan) {
if (diketahui) {
# Jika standar deviasi populasi diketahui (Distribusi Z)
z_score <- qnorm(1 - alpha / 2)
lebar_ci <- 2 * z_score * (sd / sqrt(n))
} else {
# Jika standar deviasi populasi tidak diketahui (Distribusi T)
t_score <- qt(1 - alpha / 2, df = n - 1)
lebar_ci <- 2 * t_score * (sd / sqrt(n))
}
return(lebar_ci)
}
# Membuat data frame untuk menyimpan hasil
hasil <- data.frame(
Ukuran_Sampel = integer(),
Standar_Deviasi = numeric(),
SD_Diketahui = character(),
Lebar_CI = numeric()
)
# Loop untuk setiap kombinasi parameter
for (n in ukuran_sampel) {
for (sd in standar_deviasi) {
for (diketahui in populasi_sd_diketahui) {
lebar_ci <- hitung_lebar_ci(n, sd, diketahui)
hasil <- rbind(hasil, data.frame(
Ukuran_Sampel = n,
Standar_Deviasi = sd,
SD_Diketahui = ifelse(diketahui, "Diketahui", "Tidak Diketahui"),
Lebar_CI = lebar_ci
))
}
}
}
# Menampilkan hasil simulasi
print(hasil)
## Ukuran_Sampel Standar_Deviasi SD_Diketahui Lebar_CI
## 1 5 10 Diketahui 17.530451
## 2 5 10 Tidak Diketahui 24.833280
## 3 5 50 Diketahui 87.652254
## 4 5 50 Tidak Diketahui 124.166400
## 5 5 90 Diketahui 157.774057
## 6 5 90 Tidak Diketahui 223.499520
## 7 30 10 Diketahui 7.156777
## 8 30 10 Tidak Diketahui 7.468123
## 9 30 50 Diketahui 35.783883
## 10 30 50 Tidak Diketahui 37.340614
## 11 30 90 Diketahui 64.410989
## 12 30 90 Tidak Diketahui 67.213105
## 13 100 10 Diketahui 3.919928
## 14 100 10 Tidak Diketahui 3.968434
## 15 100 50 Diketahui 19.599640
## 16 100 50 Tidak Diketahui 19.842170
## 17 100 90 Diketahui 35.279352
## 18 100 90 Tidak Diketahui 35.715905
# Memuat library ggplot2
library(ggplot2)
# Membuat grafik
ggplot(hasil, aes(x = factor(Ukuran_Sampel), y = Lebar_CI, fill = factor(SD_Diketahui))) +
geom_bar(stat = "identity", position = "dodge") +
facet_wrap(~ Standar_Deviasi, scales = "free_y") +
labs(
title = "Lebar Interval Kepercayaan Berdasarkan Ukuran Sampel, Standar Deviasi, dan Kondisi SD",
x = "Ukuran Sampel",
y = "Lebar Interval Kepercayaan",
fill = "Kondisi SD"
) +
theme_minimal()
Hasil simulasi menunjukkan bahwa lebar interval kepercayaan 95% dipengaruhi oleh ukuran sampel, variabilitas data, dan pengetahuan tentang standar deviasi populasi. Ukuran sampel yang lebih besar (n = 100) menghasilkan interval yang lebih sempit dibandingkan sampel kecil (n = 5), karena ketidakpastian estimasi berkurang seiring bertambahnya data. Variabilitas data yang tinggi (standar deviasi = 90) memperluas interval kepercayaan dibandingkan variabilitas rendah (standar deviasi = 10), menunjukkan bahwa data yang lebih bervariasi meningkatkan ketidakpastian estimasi. Ketika standar deviasi populasi diketahui, interval lebih sempit karena menggunakan distribusi Z yang lebih presisi. Sebaliknya, jika standar deviasi tidak diketahui, interval lebih lebar karena distribusi T mempertimbangkan ketidakpastian tambahan, terutama pada ukuran sampel kecil. Secara keseluruhan, kombinasi ukuran sampel besar, variabilitas rendah, dan pengetahuan tentang standar deviasi populasi memberikan estimasi parameter yang lebih presisi dengan interval kepercayaan yang lebih sempit.