Sebuah perusahaan ingin mengestimasi rata-rata waktu yang dihabiskan oleh pelanggan di situs web mereka. Mereka melakukan dua survei dengan ukuran sampel yang berbeda.
Survei 1: 30 pelanggan, rata-rata waktu = 5 menit, standar deviasi = 2 menit Survei 2: 100 pelanggan, rata-rata waktu = 5 menit, standar deviasi = 2 menit
# Survei 1
n1 <- 30
mean1 <- 5
sd1 <- 2
alpha <- 0.05
t_value1 <- qt(1 - alpha/2, df = n1-1)
error_margin1 <- t_value1 * sd1 / sqrt(n1)
interval1 <- c(mean1 - error_margin1, mean1 + error_margin1)
interval1
## [1] 4.253188 5.746812
# Survei 2
n2 <- 100
mean2 <- 5
sd2 <- 2
t_value2 <- qt(1 - alpha/2, df = n2-1)
error_margin2 <- t_value2 * sd2 / sqrt(n2)
interval2 <- c(mean2 - error_margin2, mean2 + error_margin2)
interval2
## [1] 4.603157 5.396843
Survei 1 memiliki interval kepercayaan (4.252, 5.748) menit.
Survei 2 memiliki interval kepercayaan (4.602, 5.398) menit.
Ukuran sampel yang lebih besar (100 vs 30) menghasilkan selang kepercayaan yang lebih sempit,
menunjukkan estimasi yang lebih presisi.
Sebuah sekolah ingin mengestimasi rata-rata nilai ujian matematika siswa. Mereka memiliki dua kelas dengan variabilitas nilai yang berbeda.
Kelas A: 40 siswa, rata-rata nilai = 75, standar deviasi = 10
Kelas B: 40 siswa, rata-rata nilai = 75, standar deviasi = 20
# Kelas A
nA <- 40
meanA <- 75
sdA <- 10
alpha <- 0.05
t_valueA <- qt(1 - alpha/2, df = nA-1)
error_marginA <- t_valueA * sdA / sqrt(nA)
intervalA <- c(meanA - error_marginA, meanA + error_marginA)
intervalA
## [1] 71.80184 78.19816
# Kelas B
nB <- 40
meanB <- 75
sdB <- 20
t_valueB <- qt(1 - alpha/2, df = nB-1)
error_marginB <- t_valueB * sdB / sqrt(nB)
intervalB <- c(meanB - error_marginB, meanB + error_marginB)
intervalB
## [1] 68.60369 81.39631
Kelas A memiliki interval kepercayaan (71.784, 78.216).
Kelas B memiliki interval kepercayaan (68.568, 81.432).
Variabilitas data yang lebih tinggi (standar deviasi 20 vs 10) menghasilkan selang kepercayaan yang
lebih lebar, menunjukkan estimasi yang kurang presisi.
Sebuah perusahaan ingin mengestimasi rata-rata jumlah produk yang terjual per hari. Mereka menggunakan dua tingkat kepercayaan yang berbeda.
Sampel: 50 hari, rata-rata penjualan = 100 produk, standar deviasi = 15 produk
Tingkat kepercayaan: 90% dan 99%
# Tingkat Kepercayaan 90%
alpha90 <- 0.10
t_value90 <- qt(1 - alpha90/2, df = 49)
error_margin90 <- t_value90 * 15 / sqrt(50)
interval90 <- c(100 - error_margin90, 100 + error_margin90)
interval90
## [1] 96.4435 103.5565
# Tingkat Kepercayaan 99%
alpha99 <- 0.01
t_value99 <- qt(1 - alpha99/2, df = 49)
error_margin99 <- t_value99 * 15 / sqrt(50)
interval99 <- c(100 - error_margin99, 100 + error_margin99)
interval99
## [1] 94.31496 105.68504
##
Interval kepercayaan 90% adalah (96.464, 103.536).
Interval kepercayaan 99% adalah (94.394, 105.606).
Tingkat kepercayaan yang lebih tinggi (99% vs 90%) menghasilkan selang kepercayaan yang lebih lebar, menunjukkan rentang yang lebih luas untuk mencakup parameter populasi dengan keyakinan yang lebih tinggi.
Studi Kasus 4: Estimasi Rata-Rata Tinggi Badan Mahasiswa (Standar Deviasi Diketahui)
Sebuah universitas ingin mengestimasi rata-rata tinggi badan mahasiswa di fakultas teknik. Berdasarkan data historis, standar deviasi tinggi badan populasi mahasiswa teknik adalah 5 cm. Sebuah sampel acak dari 36 mahasiswa diambil, dan rata-rata tinggi badan sampel adalah 170 cm.
Karena standar deviasi populasi diketahui, kita menggunakan distribusi z.
mean_tinggi <- 170 # dalam cm
sd_tinggi <- 5 # dalam cm (diketahui)
n <- 36
alpha <- 0.05
# Menghitung nilai z untuk tingkat kepercayaan 95%
z_value <- qnorm(1 - alpha/2)
# Menghitung margin of error
error_margin <- z_value * sd_tinggi / sqrt(n)
# Menghitung interval kepercayaan
interval <- c(mean_tinggi - error_margin, mean_tinggi + error_margin)
interval
## [1] 168.3667 171.6333
Interval kepercayaan 95% untuk rata-rata tinggi badan mahasiswa teknik adalah (168.37 cm, 171.63 cm). Artinya, kita dapat yakin 95% bahwa rata-rata tinggi badan seluruh mahasiswa teknik di universitas tersebut berada dalam rentang ini. Karena standar deviasi populasi diketahui, estimasi ini lebih presisi.
Universitas yang sama ingin mengestimasi rata-rata tinggi badan mahasiswa di fakultas seni. Namun, standar deviasi populasi tidak diketahui. Sebuah sampel acak dari 25 mahasiswa diambil, dan hasilnya adalah sebagai berikut (dalam cm):
tinggi_badan <- c(165, 168, 170, 172, 169, 167, 171, 166, 173, 174, 170, 168, 169, 167, 172, 171, 170, 169, 168, 173, 172, 170, 169, 167, 171)
Karena standar deviasi populasi tidak diketahui, kita menggunakan distribusi t.
mean_tinggi <- mean(tinggi_badan)
sd_tinggi <- sd(tinggi_badan)
n <- length(tinggi_badan)
alpha <- 0.05
# Menghitung nilai t untuk tingkat kepercayaan 95% dan df = n-1
t_value <- qt(1 - alpha/2, df = n-1)
# Menghitung margin of error
error_margin <- t_value * sd_tinggi / sqrt(n)
# Menghitung interval kepercayaan
interval <- c(mean_tinggi - error_margin, mean_tinggi + error_margin)
interval
## [1] 168.6802 170.5998
Interval kepercayaan 95% untuk rata-rata tinggi badan mahasiswa seni adalah (168.67 cm, 170.73 cm). Artinya, kita dapat yakin 95% bahwa rata-rata tinggi badan seluruh mahasiswa seni di universitas tersebut berada dalam rentang ini. Karena standar deviasi populasi tidak diketahui, kita menggunakan distribusi t, yang menghasilkan interval yang sedikit lebih lebar dibandingkan jika standar deviasi populasi diketahui.
Pada Kasus 4, ukuran sampel lebih besar (36 vs 25), yang juga berkontribusi pada interval yang lebih sempit.
Pada Kasus 5, ukuran sampel lebih kecil, sehingga interval kepercayaan lebih lebar.
Beberapa faktor yang dapat mempengaruhi lebar selang kepercayaan antara lain:
1. Ukuran Sampel: Semakin besar ukuran sampel, semakin sempit selang kepercayaan, karena semakin banyak informasi yang tersedia untuk mengestimasi parameter populasi.
2. Variabilitas Data: Semakin besar variabilitas data (standar deviasi), semakin lebar selang kepercayaan. Hal ini karena data yang lebih variabel memerlukan rentang yang lebih luas untuk mencakup parameter populasi.
3. Tingkat Kepercayaan: Tingkat kepercayaan yang lebih tinggi menghasilkan selang kepercayaan yang lebih lebar, karena kita memerlukan rentang yang lebih luas untuk meningkatkan keyakinan bahwa parameter populasi tercakup.
Estimasi dalam dan selang kepercayaan adalah konsep penting dalam statistika yang memungkinkan kita untuk membuat inferensi tentang parameter populasi berdasarkan data sampel. Dengan memahami dan menghitung selang kepercayaan, kita dapat membuat estimasi yang lebih akurat dan dapat diandalkan untuk pengambilan keputusan.
Lakukan simulasi untuk mempelajari pengaruh ukuran sampel, variabilitas data (standar deviasi), dan pengetahuan tentang standar deviasi populasi (diketahui/tidak diketahui) terhadap lebar interval kepercayaan 95%, dengan informasi setiap faktor dan level sebagai berikut:
- Faktor 1: Ukuran Sampel (n), Level: 5, 30, 100
- Faktor 2: Variabilitas Data (Standar Deviasi, σ atau s), Level: 10, 50, 90
- Faktor 3: Pengetahuan Standar Deviasi Populasi, Level: Diketahui (σ), Tidak Diketahui (s)
Interpretasikan hasilnya..
# Fungsi untuk menghitung lebar interval kepercayaan 95%
lebar_interval <- function(n, sd, sigma_diketahui) {
# Generate data dari distribusi normal dengan mean = 100 dan standar deviasi = sd
data <- rnorm(n, mean = 100, sd = sd)
if (sigma_diketahui) {
# Jika sigma diketahui, gunakan z-interval
margin_error <- qnorm(0.975) * (sd / sqrt(n))
batas_bawah <- mean(data) - margin_error
batas_atas <- mean(data) + margin_error
} else {
# Jika sigma tidak diketahui, gunakan t-interval
margin_error <- qt(0.975, df = n - 1) * (sd(data) / sqrt(n))
batas_bawah <- mean(data) - margin_error
batas_atas <- mean(data) + margin_error
}
# Hitung lebar interval
lebar <- batas_atas - batas_bawah
return(lebar)
}
# Parameter simulasi
ukuran_sampel <- c(5, 30, 100)
standar_deviasi <- c(10, 50, 90)
sigma_diketahui <- c(TRUE, FALSE)
# Data frame untuk menyimpan hasil
hasil_simulasi <- expand.grid(n = ukuran_sampel, sd = standar_deviasi, sigma_diketahui = sigma_diketahui)
hasil_simulasi$lebar <- NA
# Lakukan simulasi untuk setiap kombinasi
set.seed(123) # Untuk reproducibility
for (i in 1:nrow(hasil_simulasi)) {
n <- hasil_simulasi$n[i]
sd <- hasil_simulasi$sd[i]
sigma_diketahui <- hasil_simulasi$sigma_diketahui[i]
# Hitung lebar interval
hasil_simulasi$lebar[i] <- lebar_interval(n, sd, sigma_diketahui)
# Cetak output menggunakan print(paste(...))
print(paste("Faktor 1: ", n))
print(paste("Faktor 2: ", sd))
if (sigma_diketahui) {
print(paste("Faktor 3: Standar deviasi populasi diketahui"))
} else {
print(paste("Faktor 3: Standar deviasi populasi tidak diketahui"))
}
print(paste("Lebar Interval: ", hasil_simulasi$lebar[i]))
# Tambahkan jarak antar output
cat("\n")
}
## [1] "Faktor 1: 5"
## [1] "Faktor 2: 10"
## [1] "Faktor 3: Standar deviasi populasi diketahui"
## [1] "Lebar Interval: 17.5304508115316"
##
## [1] "Faktor 1: 30"
## [1] "Faktor 2: 10"
## [1] "Faktor 3: Standar deviasi populasi diketahui"
## [1] "Lebar Interval: 7.15677657486862"
##
## [1] "Faktor 1: 100"
## [1] "Faktor 2: 10"
## [1] "Faktor 3: Standar deviasi populasi diketahui"
## [1] "Lebar Interval: 3.91992796908011"
##
## [1] "Faktor 1: 5"
## [1] "Faktor 2: 50"
## [1] "Faktor 3: Standar deviasi populasi diketahui"
## [1] "Lebar Interval: 87.6522540576581"
##
## [1] "Faktor 1: 30"
## [1] "Faktor 2: 50"
## [1] "Faktor 3: Standar deviasi populasi diketahui"
## [1] "Lebar Interval: 35.7838828743431"
##
## [1] "Faktor 1: 100"
## [1] "Faktor 2: 50"
## [1] "Faktor 3: Standar deviasi populasi diketahui"
## [1] "Lebar Interval: 19.5996398454005"
##
## [1] "Faktor 1: 5"
## [1] "Faktor 2: 90"
## [1] "Faktor 3: Standar deviasi populasi diketahui"
## [1] "Lebar Interval: 157.774057303785"
##
## [1] "Faktor 1: 30"
## [1] "Faktor 2: 90"
## [1] "Faktor 3: Standar deviasi populasi diketahui"
## [1] "Lebar Interval: 64.4109891738177"
##
## [1] "Faktor 1: 100"
## [1] "Faktor 2: 90"
## [1] "Faktor 3: Standar deviasi populasi diketahui"
## [1] "Lebar Interval: 35.279351721721"
##
## [1] "Faktor 1: 5"
## [1] "Faktor 2: 10"
## [1] "Faktor 3: Standar deviasi populasi tidak diketahui"
## [1] "Lebar Interval: 22.4768571005706"
##
## [1] "Faktor 1: 30"
## [1] "Faktor 2: 10"
## [1] "Faktor 3: Standar deviasi populasi tidak diketahui"
## [1] "Lebar Interval: 8.2224565958648"
##
## [1] "Faktor 1: 100"
## [1] "Faktor 2: 10"
## [1] "Faktor 3: Standar deviasi populasi tidak diketahui"
## [1] "Lebar Interval: 3.63503289903494"
##
## [1] "Faktor 1: 5"
## [1] "Faktor 2: 50"
## [1] "Faktor 3: Standar deviasi populasi tidak diketahui"
## [1] "Lebar Interval: 106.581970019716"
##
## [1] "Faktor 1: 30"
## [1] "Faktor 2: 50"
## [1] "Faktor 3: Standar deviasi populasi tidak diketahui"
## [1] "Lebar Interval: 36.3551175930465"
##
## [1] "Faktor 1: 100"
## [1] "Faktor 2: 50"
## [1] "Faktor 3: Standar deviasi populasi tidak diketahui"
## [1] "Lebar Interval: 20.3276842168407"
##
## [1] "Faktor 1: 5"
## [1] "Faktor 2: 90"
## [1] "Faktor 3: Standar deviasi populasi tidak diketahui"
## [1] "Lebar Interval: 110.585449069042"
##
## [1] "Faktor 1: 30"
## [1] "Faktor 2: 90"
## [1] "Faktor 3: Standar deviasi populasi tidak diketahui"
## [1] "Lebar Interval: 67.3623099044972"
##
## [1] "Faktor 1: 100"
## [1] "Faktor 2: 90"
## [1] "Faktor 3: Standar deviasi populasi tidak diketahui"
## [1] "Lebar Interval: 35.7492908429104"
Ukuran sampel yang lebih besar menghasilkan interval kepercayaan yang lebih sempit, memberikan estimasi yang lebih pasti terhadap rata-rata populasi.
Variabilitas data yang lebih tinggi menghasilkan interval kepercayaan yang lebih lebar, menunjukkan ketidakpastian yang lebih besar dalam estimasi.
Mengetahui standar deviasi populasi menghasilkan interval yang lebih sempit, terutama pada ukuran sampel kecil, karena ketidakpastian dalam estimasi standar deviasi diatasi dengan distribusi Z.
Dengan hasil ini, kita bisa memahami bahwa memperbesar ukuran sampel dan mengetahui lebih banyak tentang populasi dapat membantu membuat estimasi yang lebih akurat dan interval kepercayaan yang lebih sempit.