Week 5 - Ketidakpastian Estimasi

ESTIMASI INTERVAL

Estimasi dalam statistika adalah proses untuk menentukan rentang nilai yang mungkin dari parameter populasi berdasarkan data sampel. Estimasi ini memberikan informasi tentang tingkat kepercayaan terhadap parameter tersebut.

Selang kepercayaan (confidence interval) adalah rentang nilai yang digunakan untuk mengestimasi parameter populasi dengan tingkat kepercayaan tertentu. Selang ini memberikan informasi mengenai seberapa percaya diri kita bahwa parameter populasi berada dalam rentang yang telah ditentukan.

Komponen Selang Kepercayaan

Selang kepercayaan dibentuk oleh tiga komponen utama:

Nilai Estimasi (Point Estimate): Ini adalah nilai tengah dari sampel yang digunakan untuk mengestimasi parameter populasi. Contoh umum adalah rata-rata sampel (\(\bar{X}\)).
Tingkat Kepercayaan (Confidence Level): Probabilitas bahwa selang kepercayaan yang dihitung mencakup parameter populasi yang sebenarnya (biasanya 90%, 95%, atau 99%).
Margin of Error: Nilai yang ditambahkan dan dikurangi dari nilai estimasi untuk membentuk selang kepercayaan.

Rumus Estimasi Interval

Untuk menghitung estimasi interval dari rata-rata populasi (\(\mu\)) berdasarkan sampel, digunakan rumus berikut:

Ketika standar deviasi populasi (\(\sigma\)) diketahui: \[\bar{X} \pm Z_{\alpha/2} \times \frac{\sigma}{\sqrt{n}}\]
Ketika standar deviasi populasi (\(\sigma\)) tidak diketahui: \[\bar{X} \pm t_{\alpha/2, df} \times \frac{s}{\sqrt{n}}\]

Studi Kasus 1: Pengaruh Ukuran Sampel

Situasi: Sebuah perusahaan ingin mengestimasi rata-rata waktu yang dihabiskan oleh pelanggan di situs web mereka dengan dua ukuran sampel yang berbeda.

Data:
Survei 1: \(n = 30\), \(\bar{X} = 5\), \(s = 2\)
Survei 2: \(n = 100\), \(\bar{X} = 5\), \(s = 2\)

Soal:
1. Hitung interval kepercayaan 95% untuk kedua survei.
2. Bandingkan lebar interval kepercayaan dari kedua survei.
3. Jelaskan bagaimana ukuran sampel mempengaruhi selang kepercayaan.

# Perhitungan Survei 1
n1 <- 30
mean1 <- 5
sd1 <- 2
alpha <- 0.05

t_value1 <- qt(1 - alpha/2, df = n1 - 1)
error_margin1 <- t_value1 * sd1 / sqrt(n1)
interval1 <- c(mean1 - error_margin1, mean1 + error_margin1)
print(paste("Survei 1 Interval:", round(interval1[1], 3), "-", round(interval1[2], 3)))

## [1] "Survei 1 Interval: 4.253 - 5.747"

# Perhitungan Survei 2
n2 <- 100
mean2 <- 5
sd2 <- 2

t_value2 <- qt(1 - alpha/2, df = n2 - 1)
error_margin2 <- t_value2 * sd2 / sqrt(n2)
interval2 <- c(mean2 - error_margin2, mean2 + error_margin2)
print(paste("Survei 2 Interval:", round(interval2[1], 3), "-", round(interval2[2], 3)))

## [1] "Survei 2 Interval: 4.603 - 5.397"

Interpretasi dan Analisis:

Survei 1 (\(n=30\)): Memiliki interval kepercayaan (4.252, 5.748) menit. Rentang ini relatif lebih lebar karena ukuran sampel yang terbatas.
Survei 2 (\(n=100\)): Memiliki interval kepercayaan (4.602, 5.398) menit. Rentang ini lebih sempit dan memberikan cakupan nilai yang lebih fokus.
Kesimpulan Hubungan: Ukuran sampel yang lebih besar (100 vs 30) secara konsisten menghasilkan selang kepercayaan yang lebih sempit. Hal ini membuktikan bahwa penambahan jumlah data secara signifikan meningkatkan presisi estimasi dan mengurangi tingkat ketidakpastian.

Studi Kasus 2: Pengaruh Variabilitas Data terhadap Selang Kepercayaan

Situasi: Sebuah sekolah ingin mengestimasi rata-rata nilai ujian matematika siswa. Mereka memiliki dua kelas dengan variabilitas nilai yang berbeda (standar deviasi yang berbeda).

Data:
Kelas A: \(n = 40\), \(\bar{X} = 75\), \(s = 10\)
Kelas B: \(n = 40\), \(\bar{X} = 75\), \(s = 20\)

Soal:
1. Hitung interval kepercayaan 95% untuk kedua kelas.
2. Bandingkan lebar interval kepercayaan dari kedua kelas.
3. Jelaskan bagaimana variabilitas data mempengaruhi selang kepercayaan.

# Perhitungan Kelas A
# Kelas A
nA <- 40
meanA <- 75
sdA <- 10
alpha <- 0.05
t_valueA <- qt(1 - alpha/2, df = nA-1)
error_marginA <- t_valueA * sdA / sqrt(nA)
intervalA <- c(meanA - error_marginA, meanA + error_marginA)
intervalA

## [1] 71.80184 78.19816

# Perhitungan Kelas B
nB <- 40
meanB <- 75
sdB <- 20
t_valueB <- qt(1 - alpha/2, df = nB-1)
error_marginB <- t_valueB * sdB / sqrt(nB)
intervalB <- c(meanB - error_marginB, meanB + error_marginB)
intervalB

## [1] 68.60369 81.39631

Interpretasi:
- Kelas A memiliki interval kepercayaan (71.802, 78.198).
- Kelas B memiliki interval kepercayaan (68.604, 81.396).
- Variabilitas data yang lebih tinggi (standar deviasi 20 vs 10) menghasilkan selang kepercayaan yang lebih lebar.
- Hal ini menunjukkan bahwa tingkat variabilitas yang tinggi mengakibatkan estimasi menjadi kurang presisi.

Studi Kasus 3: Pengaruh Tingkat Kepercayaan terhadap Selang Kepercayaan

Situasi:Sebuah perusahaan ingin mengestimasi rata-rata jumlah produk yang terjual per hari. Mereka menggunakan dua tingkat kepercayaan yang berbeda.

Data:
Sampel: 50 hari, rata-rata penjualan = 100 produk, standar deviasi = 15 produk
Tingkat kepercayaan: 90% dan 99%

Soal:
1. Hitung interval kepercayaan untuk kedua tingkat kepercayaan.
2. Bandingkan lebar interval kepercayaan dari kedua tingkat kepercayaan.
3. Jelaskan bagaimana tingkat kepercayaan mempengaruhi selang kepercayaan.

# Tingkat Kepercayaan 90%
alpha90 <- 0.20
t_value90 <- qt(1 - alpha90/2, df = 49)
error_margin90 <- t_value90 * 15 / sqrt(50)
interval90 <- c(100 - error_margin90, 100 + error_margin90)
interval90

## [1]  97.24426 102.75574

# Tingkat Kepercayaan 99%
alpha99 <- 0.01
t_value99 <- qt(1 - alpha99/2, df = 49)
error_margin99 <- t_value99 * 15 / sqrt(50)
interval99 <- c(100 - error_margin99, 100 + error_margin99)
interval99

## [1]  94.31496 105.68504

Interpretasi:
- Interval kepercayaan 90% adalah (96.464, 103.536).
- Interval kepercayaan 99% adalah (94.394, 105.606).
- Tingkat kepercayaan yang lebih tinggi (99% vs 90%) menghasilkan selang kepercayaan yang lebih lebar, menunjukkan rentang yang lebih luas untuk mencakup parameter populasi dengan keyakinan yang lebih tinggi.

Studi Kasus 4: Estimasi Rata-Rata Tinggi Badan Mahasiswa (Standar Deviasi Diketahui)

Situasi:
Sebuah universitas ingin mengestimasi rata-rata tinggi badan mahasiswa di fakultas teknik. Berdasarkan data historis, standar deviasi tinggi badan populasi mahasiswa teknik adalah 5 cm. Sebuah sampel acak dari 36 mahasiswa diambil, dan rata-rata tinggi badan sampel adalah 170 cm.

Soal:
1. Hitung interval kepercayaan 95% untuk rata-rata tinggi badan mahasiswa. 2. Interpretasikan hasilnya.

Penyelesaian:
Karena standar deviasi populasi diketahui, kita menggunakan distribusi z.

mean_tinggi <- 170  # dalam cm
sd_tinggi <- 5      # dalam cm (diketahui)
n <- 36
alpha <- 0.05

# Menghitung nilai z untuk tingkat kepercayaan 95%
z_value <- qnorm(1 - alpha/2)

# Menghitung margin of error
error_margin <- z_value * sd_tinggi / sqrt(n)

# Menghitung interval kepercayaan
interval <- c(mean_tinggi - error_margin, mean_tinggi + error_margin)
interval

## [1] 168.3667 171.6333

Interpretasi:
Interval kepercayaan 95% untuk rata-rata tinggi badan mahasiswa teknik adalah (168.37 cm, 171.63 cm). Artinya, kita dapat yakin 95% bahwa rata-rata tinggi badan seluruh mahasiswa teknik di universitas tersebut berada dalam rentang ini. Karena standar deviasi populasi diketahui, estimasi ini lebih presisi.

Studi Kasus 5: Estimasi Rata-Rata Tinggi Badan Mahasiswa (Standar Deviasi Tidak Diketahui)

Situasi:
Universitas yang sama ingin mengestimasi rata-rata tinggi badan mahasiswa di fakultas seni. Namun, standar deviasi populasi tidak diketahui. Sebuah sampel acak dari 25 mahasiswa diambil, dan hasilnya adalah sebagai berikut (dalam cm):

tinggi_badan <- c(165, 168, 170, 172, 169, 167, 171, 166, 173, 174, 170, 168, 169, 167, 172, 171, 170, 169, 168, 173, 172, 170, 169, 167, 171)

Soal:
1. Hitung interval kepercayaan 95% untuk rata-rata tinggi badan mahasiswa. 2. Interpretasikan hasilnya.

Penyelesaian:
Karena standar deviasi populasi tidak diketahui, kita menggunakan distribusi t.

mean_tinggi <- mean(tinggi_badan)
sd_tinggi <- sd(tinggi_badan)
n <- length(tinggi_badan)
alpha <- 0.05

# Menghitung nilai t untuk tingkat kepercayaan 95% dan df = n-1
t_value <- qt(1 - alpha/2, df = n-1)

# Menghitung margin of error
error_margin <- t_value * sd_tinggi / sqrt(n)

# Menghitung interval kepercayaan
interval <- c(mean_tinggi - error_margin, mean_tinggi + error_margin)
interval

## [1] 168.6802 170.5998

Interpretasi:
Interval kepercayaan 95% untuk rata-rata tinggi badan mahasiswa seni adalah (168.67 cm, 170.73 cm). Artinya, kita dapat yakin 95% bahwa rata-rata tinggi badan seluruh mahasiswa seni di universitas tersebut berada dalam rentang ini. Karena standar deviasi populasi tidak diketahui, kita menggunakan distribusi t, yang menghasilkan interval yang sedikit lebih lebar dibandingkan jika standar deviasi populasi diketahui.

TUGAS SIMULASI

Laporan ini melakukan simulasi untuk mempelajari pengaruh tiga faktor utama terhadap lebar interval kepercayaan 95%:
Faktor 1: Ukuran Sampel (\(n\)) dengan level 5, 30, dan 100.
Faktor 2: Variabilitas Data (\(SD\)) dengan level 10, 50, dan 90.
Faktor 3: Status Standar Deviasi (Diketahui menggunakan Distribusi Z vs Tidak Diketahui menggunakan Distribusi T).

# Inisialisasi Level Faktor 
n_lvls <- c(5, 30, 100) 
sd_lvls <- c(10, 50, 90) 
tipe_sd <- c("Diketahui (Z)", "Tidak Diketahui (T)")

# Membuat Tabel Kombinasi Simulasi

simulasi_tugas <- expand.grid(n = n_lvls, SD = sd_lvls, Status = tipe_sd)

# Fungsi untuk menghitung lebar interval (2 \* Margin of Error)

hitung_lebar <- function(n, sd, status) { 
  if (status == "Diketahui (Z)") { 
    me <- qnorm(1 - 0.05/2) * (sd / sqrt(n)) 
  } else { 
      me <- qt(1 - 0.05/2, df = n - 1) * (sd / sqrt(n)) 
  } 
  return(round(2 * me, 4)) 
  }

# Menerapkan fungsi ke tabel

simulasi_tugas$Lebar_Interval <- mapply(hitung_lebar,
                                        simulasi_tugas$n, simulasi_tugas$SD,
                                        simulasi_tugas$Status)

# Menampilkan tabel hasil simulasi

print(simulasi_tugas)

##      n SD              Status Lebar_Interval
## 1    5 10       Diketahui (Z)        17.5305
## 2   30 10       Diketahui (Z)         7.1568
## 3  100 10       Diketahui (Z)         3.9199
## 4    5 50       Diketahui (Z)        87.6523
## 5   30 50       Diketahui (Z)        35.7839
## 6  100 50       Diketahui (Z)        19.5996
## 7    5 90       Diketahui (Z)       157.7741
## 8   30 90       Diketahui (Z)        64.4110
## 9  100 90       Diketahui (Z)        35.2794
## 10   5 10 Tidak Diketahui (T)        24.8333
## 11  30 10 Tidak Diketahui (T)         7.4681
## 12 100 10 Tidak Diketahui (T)         3.9684
## 13   5 50 Tidak Diketahui (T)       124.1664
## 14  30 50 Tidak Diketahui (T)        37.3406
## 15 100 50 Tidak Diketahui (T)        19.8422
## 16   5 90 Tidak Diketahui (T)       223.4995
## 17  30 90 Tidak Diketahui (T)        67.2131
## 18 100 90 Tidak Diketahui (T)        35.7159

Interpretasi Hasil Simulasi:

Pengaruh Ukuran Sampel (\(n\)):
Berdasarkan tabel di atas, semakin besar ukuran sampel (\(n=100\)), lebar interval kepercayaan menjadi semakin sempit.Hal ini menunjukkan bahwa peningkatan jumlah sampel meningkatkan presisi estimasi.
Pengaruh Variabilitas Data (\(SD\)):
Semakin besar nilai standar deviasi, lebar interval kepercayaan akan semakin luas.Variabilitas yang tinggi mencerminkan data yang lebih tersebar, sehingga rentang ketidakpastian dalam mengestimasi rata-rata menjadi lebih besar.
Pengaruh Pengetahuan Standar Deviasi (Z vs T):
Penggunaan Distribusi T (saat standar deviasi populasi tidak diketahui) menghasilkan interval yang lebih lebar dibandingkan Distribusi Z.Perbedaan ini sangat signifikan pada sampel kecil (\(n=5\)). Hal ini dikarenakan distribusi T memberikan “ruang” tambahan untuk mengompensasi ketidakpastian dari penggunaan standar deviasi sampel (\(s\)).
Kesimpulan Akhir:
Lebar interval kepercayaan dipengaruhi secara berlawanan oleh ukuran sampel dan variabilitas.Untuk mendapatkan estimasi yang paling akurat dan presisi, diperlukan ukuran sampel yang besar dengan variabilitas data yang sekecil mungkin.