Sebuah perusahaan ingin mengestimasi rata-rata waktu yang dihabiskan oleh pelanggan di situs web mereka. Mereka melakukan dua survei dengan ukuran sampel yang berbeda
# Survei 1
n1 <- 30
mean1 <- 5
sd1 <- 2
alpha <- 0.05
t_value1 <- qt(1 - alpha/2, df = n1-1)
error_margin1 <- t_value1 * sd1 / sqrt(n1)
interval1 <- c(mean1 - error_margin1, mean1 + error_margin1)
interval1
## [1] 4.253188 5.746812
# Survei 2
n2 <- 100
mean2 <- 5
sd2 <- 2
t_value2 <- qt(1 - alpha/2, df = n2-1)
error_margin2 <- t_value2 * sd2 / sqrt(n2)
interval2 <- c(mean2 - error_margin2, mean2 + error_margin2)
interval2
## [1] 4.603157 5.396843
Sebuah sekolah ingin mengestimasi rata-rata nilai ujian matematika siswa. Mereka memiliki dua kelas denganvariabilitas nilai yang berbeda.
# Kelas A
nA <- 40
meanA <- 75
sdA <- 10
alpha <- 0.05
t_valueA <- qt(1 - alpha/2, df = nA-1)
error_marginA <- t_valueA * sdA / sqrt(nA)
intervalA <- c(meanA - error_marginA, meanA + error_marginA)
intervalA
## [1] 71.80184 78.19816
# Kelas B
nB <- 40
meanB <- 75
sdB <- 20
t_valueB <- qt(1 - alpha/2, df = nB-1)
error_marginB <- t_valueB * sdB / sqrt(nB)
intervalB <- c(meanB - error_marginB, meanB + error_marginB)
intervalB
## [1] 68.60369 81.39631
Sebuah perusahaan ingin mengestimasi rata-rata jumlah produk yang terjual per hari. Mereka menggunakandua tingkat kepercayaan yang berbeda.
# Tingkat Kepercayaan 90%
alpha90 <- 0.10
t_value90 <- qt(1 - alpha90/2, df = 49)
error_margin90 <- t_value90 * 15 / sqrt(50)
interval90 <- c(100 - error_margin90, 100 + error_margin90)
interval90
## [1] 96.4435 103.5565
# Tingkat Kepercayaan 99%
alpha99 <- 0.01
t_value99 <- qt(1 - alpha99/2, df = 49)
error_margin99 <- t_value99 * 15 / sqrt(50)
interval99 <- c(100 - error_margin99, 100 + error_margin99)
interval99
## [1] 94.31496 105.68504
Sebuah universitas ingin mengestimasi rata-rata tinggi badan mahasiswa di fakultas teknik. Berdasarkan datahistoris, standar deviasi tinggi badan populasi mahasiswa teknik adalah 5 cm. Sebuah sampel acak dari 36mahasiswa diambil, dan rata-rata tinggi badan sampel adalah 170 cm.
Karena standar deviasi populasi diketahui, kita menggunakan distribusi z.
mean_tinggi <- 170 # dalam cm
sd_tinggi <- 5 # dalam cm (diketahui)
n <- 36
alpha <- 0.05
# Menghitung nilai z untuk tingkat kepercayaan 95%
z_value <- qnorm(1 - alpha/2)
# Menghitung margin of error
error_margin <- z_value * sd_tinggi / sqrt(n)
# Menghitung interval kepercayaan
interval <- c(mean_tinggi - error_margin, mean_tinggi + error_margin)
interval
## [1] 168.3667 171.6333
Interval kepercayaan 95% untuk rata-rata tinggi badan mahasiswa teknik adalah (168.37 cm, 171.63 cm).Artinya, kita dapat yakin 95% bahwa rata-rata tinggi badan seluruh mahasiswa teknik di universitas tersebutberada dalam rentang ini. Karena standar deviasi populasi diketahui, estimasi ini lebih presisi.
Universitas yang sama ingin mengestimasi rata-rata tinggi badan mahasiswa di fakultas seni. Namun, standardeviasi populasi tidak diketahui. Sebuah sampel acak dari 25 mahasiswa diambil, dan hasilnya adalah sebagai.
berikut (dalam cm):
tinggi_badan <- c(165, 168, 170, 172, 169, 167, 171, 166, 173, 174, 170, 168, 169, 167, 172, 171, 170, 169, 168, 173, 172, 170, 169, 167, 171)
tinggi_badan
## [1] 165 168 170 172 169 167 171 166 173 174 170 168 169 167 172 171 170 169 168
## [20] 173 172 170 169 167 171
Karena standar deviasi populasi tidak diketahui, kita menggunakan distribusi t.
mean_tinggi <- mean(tinggi_badan)
sd_tinggi <- sd(tinggi_badan)
n <- length(tinggi_badan)
alpha <- 0.05
# Menghitung nilai t untuk tingkat kepercayaan 95% dan df = n-1
t_value <- qt(1 - alpha/2, df = n-1)
# Menghitung margin of error
error_margin <- t_value * sd_tinggi / sqrt(n)
# Menghitung interval kepercayaan
interval <- c(mean_tinggi - error_margin, mean_tinggi + error_margin)
interval
## [1] 168.6802 170.5998
Interval kepercayaan 95% untuk rata-rata tinggi badan mahasiswa seni adalah (168.67 cm, 170.73 cm).Artinya, kita dapat yakin 95% bahwa rata-rata tinggi badan seluruh mahasiswa seni di universitas tersebutberada dalam rentang ini. Karena standar deviasi populasi tidak diketahui, kita menggunakan distribusi t, yangmenghasilkan interval yang sedikit lebih lebar dibandingkan jika standar deviasi populasi diketahui.
Beberapa faktor yang dapat mempengaruhi lebar selang kepercayaan antara lain: 1. Ukuran Sampel: Semakin besar ukuran sampel, semakin sempit selang kepercayaan, karena semakinbanyak informasi yang tersedia untuk mengestimasi parameter populasi. 2. Variabilitas Data: Semakin besar variabilitas data (standar deviasi), semakin lebar selang kepercayaan. Halini karena data yang lebih variabel memerlukan rentang yang lebih luas untuk mencakup parameter populasi.3. Tingkat Kepercayaan: Tingkat kepercayaan yang lebih tinggi menghasilkan selang kepercayaan yang lebihlebar, karena kita memerlukan rentang yang lebih luas untuk meningkatkan keyakinan bahwa parameterpopulasi tercakup.
Estimasi dalam dan selang kepercayaan adalah konsep penting dalam statistika yang memungkinkan kitauntuk membuat inferensi tentang parameter populasi berdasarkan data sampel. Dengan memahami danmenghitung selang kepercayaan, kita dapat membuat estimasi yang lebih akurat dan dapat diandalkan untukpengambilan keputusan.
Lakukan simulasi untuk mempelajari pengaruh ukuran sampel, variabilitas data (standar deviasi), danpengetahuan tentang standar deviasi populasi (diketahui/tidak diketahui) terhadap lebar interval kepercayaan95%, dengan informasi setiap faktor dan level sebagai berikut:
# Mengguanakan set.seed untuk menetapkan hasil tetap konsisten
set.seed(123)
# Definisi parameter
n_values <- c(5, 30, 100)
sigma_values <- c(10, 50, 90)
knowledge_levels <- c("Diketahui", "Tidak Diketahui")
# Simulasi
simulasi_results <- expand.grid(n = n_values, sigma = sigma_values, knowledge = knowledge_levels)
# Kolom untuk menyimpan lebar interval kepercayaan
simulasi_results$CI_Width <- NA
for (i in 1:nrow(simulasi_results)) {
n <- simulasi_results$n[i]
sigma <- simulasi_results$sigma[i]
knowledge <- simulasi_results$knowledge[i]
# Simulasi data dari distribusi normal dengan mean 100
data_sample <- rnorm(n, mean = 100, sd = sigma)
sample_mean <- mean(data_sample)
sample_sd <- sd(data_sample)
# Hitung lebar interval kepercayaan 95%
alpha <- 0.05
if (knowledge == "Diketahui") {
# Z-score untuk 95% CI
z_value <- qnorm(1 - alpha/2)
margin_error <- z_value * (sigma / sqrt(n))
} else {
# t-score untuk 95% CI
t_value <- qt(1 - alpha/2, df = n - 1)
margin_error <- t_value * (sample_sd / sqrt(n))
}
simulasi_results$CI_Width[i] <- 2 * margin_error
}
# Tampilkan hasil simulasi
print(simulasi_results)
## n sigma knowledge CI_Width
## 1 5 10 Diketahui 17.530451
## 2 30 10 Diketahui 7.156777
## 3 100 10 Diketahui 3.919928
## 4 5 50 Diketahui 87.652254
## 5 30 50 Diketahui 35.783883
## 6 100 50 Diketahui 19.599640
## 7 5 90 Diketahui 157.774057
## 8 30 90 Diketahui 64.410989
## 9 100 90 Diketahui 35.279352
## 10 5 10 Tidak Diketahui 22.476857
## 11 30 10 Tidak Diketahui 8.222457
## 12 100 10 Tidak Diketahui 3.635033
## 13 5 50 Tidak Diketahui 106.581970
## 14 30 50 Tidak Diketahui 36.355118
## 15 100 50 Tidak Diketahui 20.327684
## 16 5 90 Tidak Diketahui 110.585449
## 17 30 90 Tidak Diketahui 67.362310
## 18 100 90 Tidak Diketahui 35.749291
# Visualisasi hasil
library(ggplot2)
ggplot(simulasi_results, aes(x = factor(n), y = CI_Width, fill = factor(knowledge))) +
geom_bar(stat = "identity", position = "dodge") +
facet_wrap(~ sigma, scales = "free") +
labs(title = "Pengaruh Ukuran Sampel, Variabilitas, dan Pengetahuan σ terhadap Lebar CI 95%",
x = "Ukuran Sampel (n)", y = "Lebar Interval Kepercayaan",
fill = "Pengetahuan Standar Deviasi") +
theme_minimal()
Ukuran sampel (n) lebih besar. Seiring meningkatnya ukuran sampel dari 5 ke 30 ke 100, rata-rata lebar interval kepercayaan berkurang. Dikarenakan varians sampel berkurang dengan bertambahnya sampel, menghasilkan estimasi yang lebih presisi.
Variabilitas data lebih besar. Standar deviasi yang lebih besar (σ = 90 dibandingkan σ = 10) menyebabkan interval kepercayaan yang lebih lebar. Ini karena data yang lebih bervariasi menghasilkan ketidakpastian yang lebih besar.
Mengetahui σ (standar deviasi populasi) mempersempit interval. Jika σ diketahui, kita menggunakan distribusi normal (Z), yang cenderung menghasilkan interval kepercayaan yang lebih sempit. Jika σ tidak diketahui, kita menggunakan distribusi t-Student, yang memiliki ekor lebih tebal dan menghasilkan interval yang lebih lebar, terutama untuk sampel kecil.
Dengan hasil ini, dapat saya simpulkan bahwa ukuran sampel besar dan mengetahui standar deviasi populasi mempersempit interval kepercayaan, sedangkan variabilitas tinggi memperlebar interval.