Study Cases

Confidence Interval~ Week 13

Safina Zahra (52250033)

Student Majoring in Data Science

R Programming

Data Science

Statistics


Pendahuluan

Interval kepercayaan merupakan salah satu konsep penting dalam statistik inferensial yang digunakan untuk memperkirakan parameter populasi berdasarkan data sampel. Melalui interval kepercayaan, hasil estimasi tidak hanya dinyatakan dalam satu nilai, tetapi dalam bentuk rentang nilai yang mencerminkan tingkat keyakinan tertentu. Konsep ini membantu peneliti memahami ketidakpastian dalam estimasi dan membuat kesimpulan yang lebih andal.

Pada kesempatan ini, saya ingin menyampaikan terima kasih yang tulus kepada Bapak Bakti Siregar, M.Sc., CDS., selaku dosen pengampu mata kuliah Statistika. Atas bimbingan, ilmu, serta dedikasi yang telah Bapak berikan, saya dapat memahami konsep-konsep mendalam ini dengan lebih jelas dan terstruktur. Semoga materi ini dapat saya manfaatkan dengan baik dalam pengembangan kompetensi statistik saya lebih lanjut.

Case Study 1

Interval Kepercayaan untuk Rata-rata, σ Diketahui

Sebuah platform e-commerce ingin memperkirakan rata-rata jumlah transaksi harian per pengguna setelah meluncurkan fitur baru. Berdasarkan data historis skala besar, simpangan baku populasi diketahui.

Diketahui:

  • σ = 3,2 → (simpangan baku populasi)
  • n = 100 → (ukuran sampel)
  • x̄ = 12,6 → (rata-rata sampe

Tugas

  1. Tentukan uji statistik yang tepat dan jelaskan alasan pemilihannya.

  2. Hitung interval kepercayaan untuk tingkat kepercayaan:

    • 90%
    • 95%
    • 99%
  3. Buat visualisasi perbandingan dari ketiga interval kepercayaan tersebut.

  4. Interpretasikan hasilnya dalam konteks analitik bisnis.

1. Uji Statistik

Menggunakan Z-interval (Confidence Interval Mean, σ known)

Karena:

  • σ (simpangan baku populasi) diketahui
  • Tujuan: estimasi rata-rata populasi
  • n = 100 (besar)

2. Hitung Interval Kepercayaan

Data yang Diketahui

  • Simpangan baku populasi:

    \[\sigma\] = 3.2

  • Ukuran sampel:

    n = 100

  • Rata-rata sampel:

    \[\bar{x}\] = 12.6

Karena σ diketahui, maka margin kesalahan ditentukan oleh rumus:

\[\text{Margin of Error} = z_{\alpha/2} \times \frac{\sigma}{\sqrt{n}}\]

Hitung Standard Error

\[\frac{\sigma}{\sqrt{n}} = \frac{3.2}{\sqrt{100}} = \frac{3.2}{10} = 0.32\]

Jadi, standard error = 0.32

Interval Kepercayaan 90%

Menentukan α dan nilai kritis z

Tingkat kepercayaan = 0,90

Maka:

\[\alpha\] = 1 - 0.90 = 0.10

Lalu dibagi 2:

\[\alpha/2\] = 0.05

(Tabel Z Distribusi Normal)

# Set folder tempat gambar disimpan
setwd("C:/Users/Lenovo/Downloads")  # sesuaikan lokasi

# Tampilkan gambar
img <- png::readPNG("C:/Users/Lenovo/Downloads/unnamed.png")       # ganti nama file jika beda
grid::grid.raster(img)

Lihat tabel:

0,05 atau 0,0500

Ada di:

  • Baris −1,6
  • Kolom 0,04

Ketemunya di antara:

  • 0.0505 → z = 1,64
  • 0.0495 → z = 1,65

Karena 0,0500 tepat di tengah, kita ambil rata-rata:

\[z = \frac{1{,}64 + 1{,}65}{2} = 1{,}645\] Nilai Z = −1,645 Karena simetri → z = 1,645

Dari tabel Z distribusi normal standar:

(0.05) = 1.645

Hitung Margin of Error

ME = 1,645 × 0,32 = 0,526

Interval Kepercayaan

\[12.6 \pm 0.526\] * Batas bawah = 12.6 − 0.526 = 12.074 * Batas atas = 12.6 + 0.526 = 13.126

Jadi Cl 90% = (12.07 , 13.13)

Interval Kepercayaan 95%

Menentukan α dan nilai kritis z

Tingkat kepercayaan = 0.95

\[\alpha = 1 - 0.95 = 0.05\]

\[\alpha/2 = 0.025\]

(Tabel Z Distribusi Normal)

# Set folder tempat gambar disimpan
setwd("C:/Users/Lenovo/Downloads")  # sesuaikan lokasi

# Tampilkan gambar
img <- png::readPNG("C:/Users/Lenovo/Downloads/unnamed.png")       # ganti nama file jika beda
grid::grid.raster(img)

Cari 0,0250

Ketemu di:

  • Baris −1,9
  • Kolom 0,06

Nilai Z = −1,96

Karena simetri → z = 1,96

Dari tabel Z:

(0.025) = 1.96

Hitung Margin of Error

\[ME = 1.96 \times 0.32 = 0.627\]

Interval Kepercayaan

\[12.6 \pm 0.627\]

  • Batas bawah = 12.6 - 0.627 = 11.973
  • Batas atas = 12.6 + 0.627 = 13.227

Cl 95% = (11.97 , 13.23)

Interval Kepercayaan 99%

Menentukan α dan nilai kritis z

Tingkat kepercayaan = 0.99

\[\alpha = 1 - 0.99 = 0.01\]

\[\alpha/2 = 0.005\] (Tabel Z Distribusi Normal)

# Set folder tempat gambar disimpan
setwd("C:/Users/Lenovo/Downloads")  # sesuaikan lokasi

# Tampilkan gambar
img <- png::readPNG("C:/Users/Lenovo/Downloads/unnamed.png")       # ganti nama file jika beda
grid::grid.raster(img)

Cari 0,0050 Ketemu di:

  • Baris −2,5
  • Kolom 0,08

Nilai Z = −2,58

Karena simetri → z = 2,58

Dari tabel Z:

(0.005) = 2.58

Hitung Margin of Error

\[ME = 2.578 \times 0.32 = 0.826\]

Interval Kepercayaan

\[12.6 \pm 0.826\]

  • Batas bawah = 12.6 - 0.826 = 11.774
  • Batas atas = 12.6 + 0.826 = 13.426

CI 99% = (11.77 , 13.43)

3. visualisasi perbandingan

# =========================================
# VISUALISASI INTERVAL KEPERCAYAAN + LABEL
# =========================================

# 1. Data interval kepercayaan
confidence_level <- c("90%", "95%", "99%")
lower_bound <- c(12.07, 11.97, 11.77)
upper_bound <- c(13.13, 13.23, 13.43)
mean_value <- 12.6

# 2. Posisi sumbu Y
y_pos <- c(1, 2, 3)

# 3. Membuat plot dasar
plot(
  x = c(11.6, 13.6),
  y = c(0.5, 3.5),
  type = "n",
  xlab = "Rata-rata Jumlah Transaksi Harian",
  ylab = "Tingkat Kepercayaan",
  yaxt = "n",
  main = "Perbandingan Interval Kepercayaan Rata-rata Transaksi"
)

# 4. Sumbu Y
axis(2, at = y_pos, labels = confidence_level)

# 5. Garis interval kepercayaan
segments(lower_bound, y_pos, upper_bound, y_pos, lwd = 3)

# 6. Titik rata-rata sampel
points(rep(mean_value, 3), y_pos, pch = 19)

# 7. Garis vertikal rata-rata
abline(v = mean_value, lty = 2)

# 8. Label angka batas bawah
text(
  x = lower_bound,
  y = y_pos - 0.15,
  labels = lower_bound,
  cex = 0.8
)

# 9. Label angka batas atas
text(
  x = upper_bound,
  y = y_pos - 0.15,
  labels = upper_bound,
  cex = 0.8
)

# 10. Label nilai rata-rata
text(
  x = mean_value,
  y = 3.35,
  labels = paste("Rata-rata =", mean_value),
  pos = 4,
  cex = 0.9
)

4. Interpretasi

Grafik menunjukkan bahwa interval kepercayaan 90% memiliki rentang paling sempit, sedangkan interval kepercayaan 99% memiliki rentang paling lebar. Hal ini menandakan bahwa semakin tinggi tingkat kepercayaan yang digunakan, semakin besar ketidakpastian estimasi rata-rata transaksi harian pengguna. Dalam praktik analitik bisnis, interval kepercayaan 95% sering digunakan karena memberikan keseimbangan antara tingkat keyakinan dan ketepatan estimasi, sehingga cocok sebagai dasar pengambilan keputusan terkait evaluasi fitur baru.

Case Study 2

Interval Kepercayaan untuk Rata-rata, σ Tidak Diketahui

Sebuah tim riset UX menganalisis waktu penyelesaian tugas (dalam menit) untuk sebuah aplikasi mobile baru. Data dikumpulkan dari 12 pengguna:

8.4, 7.9, 9.1, 8.7, 8.2, 9.0, 7.8, 8.5, 8.9, 8.1, 8.6, 8.3

Tugas:

  1. Tentukan uji statistik yang tepat dan jelaskan alasannya.

  2. Hitung interval kepercayaan untuk:

    • 90%
    • 95%
    • 99%
  3. Visualisasikan ketiga interval tersebut dalam satu grafik.

  4. Jelaskan bagaimana ukuran sampel dan tingkat kepercayaan memengaruhi lebar interval.

1. Uji Statistik

Menggunakan interval kepercayaan t

Alasan:

  1. Simpangan baku populasi (σ) tidak diketahui, sehingga harus digantikan oleh simpangan baku sampel (s).
  2. Ukuran sampel kecil (n = 12 < 30).
  3. Diasumsikan data berasal dari populasi yang berdistribusi normal.

2. Hitung Interval Kepercayaan

Dari data yang diberikan diperoleh:

  • Ukuran sampel:

    \[n = 12\]

  • Derajat kebebasan:

    \[df = n - 1 = 11\]

  • Rata-rata sampel:

    \[\bar{x} = 8{,}46\]

  • Simpangan baku sampel:

    \[s = 0{,}40\]

  • Standard error:

    \[SE = \frac{s}{\sqrt{n}} = \frac{0{,}40}{\sqrt{12}} = 0{,}115\]

Interval Kepercayaan 90%

Penentuan Nilai Kritis

Tingkat kepercayaan 90% berarti:

\[\alpha = 1 - 0{,}90 = 0{,}10\]

Karena interval kepercayaan bersifat dua sisi, maka:

\[\alpha/2 = 0{,}05\] Tabel distribusi t

# Set folder tempat gambar disimpan
setwd("C:/Users/Lenovo/Downloads")  # sesuaikan lokasi

# Tampilkan gambar
img <- png::readPNG("C:/Users/Lenovo/Downloads/tt.png")       # ganti nama file jika beda
grid::grid.raster(img)

Berdasarkan tabel t, pada:

  • derajat kebebasan df = 11
  • two-tails = 0,10

diperoleh nilai kritis:

\[t = 1{,}796\]

Hitung Margin of Error

\[ME = t \times SE = 1{,}796 \times 0{,}115 = 0{,}21\]

Interval Kepercayaan

CI 90% = x̄ ± ME

\[= 8{,}46 \pm 0{,}21 \Rightarrow (8{,}25,\ 8{,}67) \]

Interval Kepercayaan 95%

Penentuan Nilai Kritis

\[\alpha = 1 - 0{,}95 = 0{,}05\]

\[\Rightarrow \alpha/2 = 0{,}025\]

Tabel distribusi t

# Set folder tempat gambar disimpan
setwd("C:/Users/Lenovo/Downloads")  # sesuaikan lokasi

# Tampilkan gambar
img <- png::readPNG("C:/Users/Lenovo/Downloads/tt.png")       # ganti nama file jika beda
grid::grid.raster(img)

Berdasarkan tabel t:

  • df = 11
  • two-tails = 0,05

nilai kritis:

\[t = 2{,}201\]

Hitung Margin of Error

\[ME = 2{,}201 \times 0{,}115 = 0{,}25\]

Interval Kepercayaan

\[ CI_{95\%} = 8.46 \pm 0.25 \]

\[\Rightarrow (8{,}21,\ 8{,}71)\]

Interval Kepercayaan 99%

Penentuan Nilai Kritis

\[\alpha = 1 - 0{,}99 = 0{,}01\]

\[\Rightarrow \alpha/2 = 0{,}005\]

Tabel distribusi t

# Set folder tempat gambar disimpan
setwd("C:/Users/Lenovo/Downloads")  # sesuaikan lokasi

# Tampilkan gambar
img <- png::readPNG("C:/Users/Lenovo/Downloads/tt.png")       # ganti nama file jika beda
grid::grid.raster(img)

Dari tabel t:

  • df = 11
  • two-tails = 0,01

nilai kritis:

\[t = 3{,}106\]

Hitung Margin of Error

\[ME = 3{,}106 \times 0{,}115 = 0{,}36\]

Interval Kepercayaan

\[ CI_{99\%} = 8.46 \pm 0.36 \]

\[\Rightarrow (8{,}10,\ 8{,}82)\]

3. visualisasi perbandingan

library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.5.2
# Fungsi untuk menghitung lebar interval
calculate_width <- function(n_sample, confidence = 0.95, s = 0.40) {
  se <- s / sqrt(n_sample)
  df <- n_sample - 1
  t_critical <- qt((1 + confidence)/2, df)
  width <- 2 * t_critical * se
  return(width)
}

# Ukuran sampel yang berbeda
sample_sizes <- c(12, 20, 30, 50, 100)
conf_levels <- c(0.90, 0.95, 0.99)

# Buat dataframe untuk plot
plot_data <- expand.grid(n = sample_sizes, confidence = conf_levels)
plot_data$width <- mapply(calculate_width, plot_data$n, plot_data$confidence)

# Tambahkan label confidence untuk warna
plot_data$CI <- factor(plot_data$confidence, labels = c("90%", "95%", "99%"))

# Plot
ggplot(plot_data, aes(x = n, y = width, color = CI, shape = CI)) +
  geom_point(size = 3) +
  geom_line(size = 1) +
  labs(title = "Pengaruh Ukuran Sampel dan Tingkat Kepercayaan terhadap Lebar Interval",
       x = "Ukuran Sampel (n)",
       y = "Lebar Interval (menit)",
       color = "Tingkat Kepercayaan",
       shape = "Tingkat Kepercayaan") +
  theme_minimal(base_size = 14) +
  scale_x_continuous(breaks = sample_sizes) +
  scale_color_manual(values = c("#1f78b4", "#33a02c", "#e31a1c")) +
  scale_shape_manual(values = c(17, 19, 15)) +
  geom_text(aes(label=round(width,2)), vjust=-0.5, size=3)
## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

4. Interpretasi

  1. Tingkat Kepercayaan (Confidence Level)

    • Dari grafik terlihat bahwa CI 99% paling panjang, diikuti CI 95%, dan CI 90% paling pendek.
    • Artinya, semakin tinggi tingkat kepercayaan, kita ingin lebih yakin bahwa interval mencakup rata-rata populasi, sehingga rentangnya lebih lebar.
    • Sebaliknya, tingkat kepercayaan rendah → interval lebih sempit, tapi kita lebih sedikit yakin.
  2. Ukuran Sampel (Sample Size)

    Walaupun grafik ini menggunakan satu sampel (n = 12), kita bisa bandingkan konsepnya:

    • Jika ukuran sampel lebih besar, standard error (SE) mengecil, sehingga interval menjadi lebih sempit.
    • Jika ukuran sampel kecil, SE lebih besar → interval lebih lebar.

Kesimpulan

  • Lebar interval meningkat ketika kita ingin lebih percaya diri (tingkat kepercayaan tinggi).
  • Lebar interval menurun ketika kita memiliki lebih banyak data (ukuran sampel besar).
  • Dengan kata lain, untuk estimasi yang presisi, kita butuh sampel besar dan tingkat kepercayaan yang sesuai.

Case Study 3

Interval Kepercayaan untuk Proporsi, Pengujian A/B Tim data science menjalankan pengujian A/B pada desain tombol Call-To-Action (CTA) baru. Hasil eksperimen:

\[n = 400 \quad (\text{total pengguna})\]

\[x = 156 \quad (\text{pengguna yang mengklik CTA})\]

Tugas:

  1. Hitung proporsi sampel \[\hat{p}\].

  2. Hitung Interval Kepercayaan untuk proporsi pada:

    • 90%
    • 95%
    • 99%
  3. Visualisasikan dan bandingkan ketiga interval tersebut.

  4. Jelaskan bagaimana tingkat kepercayaan memengaruhi pengambilan keputusan dalam eksperimen produk.

1. Proporsi Sampel

Diketahui:

  • Total pengguna: ( n = 400 )
  • Pengguna klik CTA: ( x = 156 )

Proporsi sampel adalah:

\[\hat{p} = \frac{x}{n}\]

\[\hat{p} = \frac{156}{400} = 0.39\]

Jadi, proporsi pengguna yang mengklik CTA adalah 0,39 (39%).

2. Interval Kepercayaan

Data yang Diketahui

  • Total pengguna: ( n = 400 )
  • Pengguna klik CTA: ( x = 156 )
  • Proporsi sampel:

\[\hat{p} = \frac{x}{n} = \frac{156}{400} = 0.39\]

Rumus Interval Kepercayaan untuk proporsi:

\[CI = \hat{p} \pm z_{\alpha/2} \cdot \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\]

Hitung Standard Error (SE):

\[SE = \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} = \sqrt{\frac{0.39 \cdot 0.61}{400}} = \sqrt{0.00059475} \approx 0.02439\]

Interval Kepercayaan 90%

Menentukan α dan nilai kritis z

Tingkat kepercayaan = 0.90

\[\alpha = 1 - 0.90 = 0.10\]

\[\alpha/2 = 0.05\]

Tabel distribusi z

# Set folder tempat gambar disimpan
setwd("C:/Users/Lenovo/Downloads")  # sesuaikan lokasi

# Tampilkan gambar
img <- png::readPNG("C:/Users/Lenovo/Downloads/tabel-Z.png")       # ganti nama file jika beda
grid::grid.raster(img)

area 0.95 di tabel distribusi normal standar → z ≈ 1,645

Hitung Margin of Error

\[ME = z \cdot SE = 1.645 \cdot 0.02439 \approx 0.0401\] Interval Kepercayaan

\[0.39 \pm 0.0401\]

  • Batas bawah = 0.39 − 0.0401 = 0.3499 = 0.35
  • Batas atas = 0.39 + 0.0401 = 0.4301 = 0.43

CI 90% = (0.35 , 0.43)

Interval Kepercayaan 95%

Menentukan α dan nilai kritis z

Tingkat kepercayaan = 0.95

\[\alpha = 1 - 0.95 = 0.05\]

\[\alpha/2 = 0.025\]

Tabel distribusi z

# Set folder tempat gambar disimpan
setwd("C:/Users/Lenovo/Downloads")  # sesuaikan lokasi

# Tampilkan gambar
img <- png::readPNG("C:/Users/Lenovo/Downloads/tabel-Z.png")       # ganti nama file jika beda
grid::grid.raster(img)

area 0.975 di tabel → z ≈ 1,96

Hitung Margin of Error

\[ME = 1.96 \cdot 0.02439 \approx 0.0478\]

Interval Kepercayaan

\[0.39 \pm 0.0478\]

  • Batas bawah = 0.39 − 0.0478 = 0.3422 = 0.34
  • Batas atas = 0.39 + 0.0478 = 0.4378 = 0.44

CI 95% = (0.34 , 0.44)

Interval Kepercayaan 99%

Menentukan α dan nilai kritis z

Tingkat kepercayaan = 0.99

\[\alpha = 1 - 0.99 = 0.01\]

\[\alpha/2 = 0.005\]

Tabel distribusi z

# Set folder tempat gambar disimpan
setwd("C:/Users/Lenovo/Downloads")  # sesuaikan lokasi

# Tampilkan gambar
img <- png::readPNG("C:/Users/Lenovo/Downloads/tabel-Z.png")       # ganti nama file jika beda
grid::grid.raster(img)

area 0.995 di tabel → z ≈ 2,576

Hitung Margin of Error

\[ME = 2.576 \cdot 0.02439 \approx 0.0628\]

Interval Kepercayaan

\[0.39 \pm 0.0628\]

  • Batas bawah = 0.39 − 0.0628 = 0.3272 = 0.33
  • Batas atas = 0.39 + 0.0628 = 0.4528 = 0.45

CI 99% = (0.33 , 0.45)

3. Visualisasi Perbandingan

# Load library
library(ggplot2)

# Data interval kepercayaan
CI <- data.frame(
  CI = factor(c("90%", "95%", "99%"), levels=c("90%", "95%", "99%")),
  Lower = c(0.35, 0.34, 0.33),
  Upper = c(0.43, 0.44, 0.45)
)

# Buat plot
ggplot(CI, aes(x=CI)) +
  geom_errorbar(aes(ymin=Lower, ymax=Upper), width=0.2, size=1.5, color="#1f78b4") + # interval CI
  geom_point(aes(y=(Lower+Upper)/2), size=4, color="#e31a1c") + # proporsi sampel
  geom_text(aes(y=Upper + 0.005, label=paste0("(",Lower,", ",Upper,")")), size=4, color="black") + # label interval
  ylim(0.32, 0.46) +
  ylab("Proporsi Klik CTA") +
  xlab("Tingkat Interval Kepercayaan") +
  ggtitle("Perbandingan Interval Kepercayaan Proporsi Klik CTA") +
  theme_minimal(base_size = 14) +
  theme(plot.title = element_text(hjust = 0.5, face="bold"))

4. Interpretasi

Pengaruh Tingkat Kepercayaan dalam Eksperimen Produk

  1. Definisi Tingkat Kepercayaan (Confidence Level)

    Tingkat kepercayaan adalah probabilitas bahwa interval kepercayaan yang dibangun dari sampel benar-benar mencakup parameter populasi yang sebenarnya.

Contoh: CI 95% → kita 95% yakin proporsi klik CTA sebenarnya berada dalam interval yang dihitung.

  1. Efek terhadap Lebar Interval

Semakin tinggi tingkat kepercayaan → nilai z kritis lebih besar → margin kesalahan lebih besar → interval kepercayaan lebih lebar. Semakin rendah tingkat kepercayaan → nilai z lebih kecil → interval lebih sempit → risiko kesalahan lebih tinggi.

Ilustrasi dari A/B testing:

Tingkat CI Interval Proporsi Interpretasi
90% 0.35 – 0.43 Interval sempit; lebih “berani” mengambil keputusan, tapi kemungkinan proporsi sebenarnya di luar interval lebih tinggi
95% 0.34 – 0.44 Keseimbangan antara keyakinan dan kemampuan mendeteksi perubahan
99% 0.33 – 0.45 Interval lebar; sangat yakin proporsi sebenarnya ada di dalam interval, tapi perubahan kecil sulit terdeteksi
  1. Implikasi pada Pengambilan Keputusan Produk

CI tinggi (misal 99%):

  • Kita lebih yakin hasilnya bukan kebetulan
  • Cocok untuk keputusan penting, misal meluncurkan fitur baru atau desain tombol baru ke seluruh pengguna
  • Kekurangannya: perubahan kecil mungkin tidak terlihat signifikan

CI rendah (misal 90%):

  • Lebih “sensitif” terhadap perbedaan kecil antara versi A dan B
  • Risiko kesalahan lebih tinggi → bisa salah mengambil keputusan jika hasil sampel tidak representatif

Trade-off:

  • Tingkat kepercayaan tinggi → aman tapi konservatif
  • Tingkat kepercayaan rendah → lebih agresif tapi risiko lebih besar
  1. Kesimpulan untuk A/B Testing

Pilih tingkat kepercayaan sesuai risiko yang bisa diterima dan dampak keputusan.

Contoh praktis:

  • CI 95% biasanya standar untuk eksperimen produk karena keseimbangan antara keyakinan dan kemampuan mendeteksi perubahan.
  • CI 99% cocok jika keputusan sangat strategis atau berisiko tinggi.

Case Study 4

Perbandingan Presisi (Uji-Z vs Uji-t):

Dua tim data mengukur latensi API (dalam milidetik) pada kondisi yang berbeda.

Tim A:

\[n = 36 \quad (\text{ukuran sampel})\]

\[\bar{x} = 210 \quad (\text{rata-rata sampel})\]

\[\sigma = 24 \quad (\text{simpanan baku populasi diketahui})\]

Tim B:

\[n = 36 \quad (\text{ukuran sampel})\]

\[\bar{x} = 210 \quad (\text{rata-rata sampel})\]

\[s = 24 \quad (\text{simpanan baku sampel})\]

Tugas

  1. Identifikasi uji statistik yang digunakan oleh masing-masing tim.
  2. Hitung Interval Kepercayaan untuk 90%, 95%, dan 99%.
  3. Buat visualisasi yang membandingkan semua interval.
  4. Jelaskan mengapa lebar interval berbeda, meskipun datanya serupa.

1. Uji Statistik

Kita menentukan jenis uji berdasarkan informasi tentang standar deviasi (simpangan baku):

Team A: Menggunakan Z-Test (Z-Interval).

Alasan: Nilai standar deviasi populasi diketahui secara pasti \((\sigma = 24)\). Ketika \(\sigma\) diketahui, kita menggunakan distribusi Z.

Team B: Menggunakan t-Test (t-Interval).

Alasan: Standar deviasi populasi tidak diketahui, sehingga mereka menggunakan standar deviasi sampel (s = 24) sebagai estimasi. Ketika hanya s yang tersedia, kita harus menggunakan distribusi t (Student’s t-distribution) untuk mengakomodasi ketidakpastian tambahan.

2. Interval Kepercayaan (CI)

Tentu, ini adalah perhitungan yang sangat rinci (step-by-step) untuk kedua tim. Saya akan menguraikan dari mana setiap angka berasal agar Anda bisa melihat prosesnya dengan jelas.


Langkah Awal: Menghitung Standard Error (SE)

Rumus SE sama untuk kedua kasus karena nilai angkanya kebetulan sama: \[SE = \frac{\text{Standar Deviasi}}{\sqrt{n}}\]\[SE = \frac{24}{\sqrt{36}} = \frac{24}{6} = \mathbf{4}\]

Simpan angka 4 ini untuk mengalikannya dengan nilai Z atau t di langkah selanjutnya.

Perhitungan Team A (Z-Test)

Kondisi: Standar deviasi populasi \((\sigma)\) diketahui.

Rumus: \(\text{Batas Bawah} = \bar{x} - (Z \times SE) dan \text{Batas Atas} = \bar{x} + (Z \times SE)\)

A. Confidence Interval 90%

  • Nilai Z untuk 90% adalah 1.645 (Didapat dari Tabel Z).

  • Margin of Error (MoE): \(1.645 \times 4 = \mathbf{6.58}\)

  • Perhitungan Interval:

    Bawah: 210 - 6.58 = 203.42

    Atas: 210 + 6.58 = 216.58

Hasil: [203.42, 216.58]

B. Confidence Interval 95%

  • Nilai Z untuk 95% adalah 1.960 (Standar statistik).
  • Margin of Error (MoE): \(1.960 \times 4 = \mathbf{7.84}\)
  • Perhitungan Interval:

Bawah: 210 - 7.84 = 202.16

Atas: 210 + 7.84 = 217.84

Hasil: [202.16, 217.84]

C. Confidence Interval 99%

  • Nilai Z untuk 99% adalah 2.576.
  • Margin of Error (MoE):$ 2.576 = (dibulatkan 10.30)$
  • Perhitungan Interval:

Bawah: 210 - 10.30 = 199.70

Atas: 210 + 10.30 = 220.30

Hasil: [199.70, 220.30]

Perhitungan Team B (t-Test)

Kondisi: Standar deviasi populasi tidak diketahui (hanya sampel s).

Degree of Freedom (df): \[n - 1 = 36 - 1 = \mathbf{35}.\]

Rumus: \[\text{Batas Bawah} = \bar{x} - (t \times SE) dan \text{Batas Atas} = \bar{x} + (t \times SE)\]

(Nilai t diambil dari Tabel Distribusi t pada baris df=35)

A. Confidence Interval 90%

Nilai t \[(df=35, \alpha=0.05): 1.690\]

Margin of Error (MoE): \(1.690 \times 4 = \mathbf{6.76}\)

Perhitungan Interval:

  • Bawah: 210 - 6.76 = 203.24
  • Atas: 210 + 6.76 = 216.76

Hasil: [203.24, 216.76]

B. Confidence Interval 95%

Nilai t \((df=35, \alpha=0.025): 2.030\)

Margin of Error (MoE): \[2.030 \times 4 = \mathbf{8.12}\]

Perhitungan Interval:

  • Bawah: 210 - 8.12 = 201.88
  • Atas: 210 + 8.12 = 218.12

Hasil: [201.88, 218.12]

C. Confidence Interval 99%

Nilai t \[(df=35, \alpha=0.005): 2.724\]

Margin of Error (MoE): \[2.724 \times 4 = \mathbf{10.896} (dibulatkan 10.90)\]

Perhitungan Interval: * Bawah: 210 - 10.90 = 199.10 * Atas: 210 + 10.90 = 220.90

Hasil: [199.10, 220.90]

3. Visualisasi Perbandingan

# Memanggil library
library(ggplot2)

# 1. Menyiapkan data hasil perhitungan sebelumnya
data_plot <- data.frame(
  Tim = rep(c("Tim A (Z-Test)", "Tim B (t-Test)"), each = 3),
  Confidence = rep(c("90%", "95%", "99%"), 2),
  Mean = 210,
  Lower = c(203.42, 202.16, 199.70,  # Batas bawah Tim A
            203.24, 201.88, 199.10), # Batas bawah Tim B
  Upper = c(216.58, 217.84, 220.30,  # Batas atas Tim A
            216.76, 218.12, 220.90)  # Batas atas Tim B
)

# 2. Membuat Plot
ggplot(data_plot, aes(x = Confidence, y = Mean, color = Tim)) +
  # Membuat garis interval (error bar)
  geom_errorbar(aes(ymin = Lower, ymax = Upper), 
                width = 0.2, 
                linewidth = 1,
                position = position_dodge(0.4)) +
  # Menambahkan titik rata-rata
  geom_point(position = position_dodge(0.4), size = 3) +
  # Estetika Grafik
  labs(title = "Perbandingan Presisi: Tim A vs Tim B",
       subtitle = "Interval Kepercayaan pada 90%, 95%, dan 99%",
       x = "Tingkat Kepercayaan",
       y = "Latensi API (ms)",
       color = "Metode") +
  theme_minimal() +
  scale_color_manual(values = c("blue", "red"))

Interpretasi

Visualisasi menunjukkan bahwa Tim A menghasilkan estimasi yang lebih efisien (interval lebih sempit) dibandingkan Tim B. Hal ini disebabkan penggunaan distribusi Z pada Tim A yang didasarkan pada parameter populasi yang diketahui, sementara Tim B menggunakan distribusi-t yang harus mengompensasi estimasi sampel dengan menyediakan margin kesalahan yang lebih luas

4. Penjelasan Mengapa Lebar Interval Berbeda

Meskipun datanya serupa \[(\bar{x}=210 dan deviasi=24)\], interval Tim B selalu lebih lebar karena dua alasan utama:

  1. Kepastian Informasi:
  • Tim A (Z-Test): Tahu nilai populasi asli \((\sigma)\). Tidak ada ketidakpastian tambahan, sehingga intervalnya lebih presisi (sempit).
  • Tim B (t-Test): Hanya menebak berdasarkan sampel (s). Karena ada risiko tebakannya salah, statistik memberikan margin keamanan sehingga intervalnya lebih lebar.
  1. Nilai Pengali (Critical Value):
  • Nilai kritis t (Tim B) selalu lebih besar daripada nilai Z (Tim A).
  • Contoh pada 95%: Tim A mengalikan dengan 1.96, sedangkan Tim B mengalikan dengan 2.03. Angka pengali yang lebih besar otomatis menghasilkan rentang yang lebih lebar.

Case Study 5

Interval Kepercayaan Satu Sisi (One-Sided Confidence Interval)

Sebuah perusahaan Software as a Service (SaaS) ingin memastikan bahwa setidaknya 70% pengguna aktif mingguan menggunakan fitur premium.

Dari eksperimen:

\[n = 250 \quad (\text{total pengguna})\]

\[x = 185 \quad (\text{pengguna premium aktif})\]

Manajemen hanya tertarik pada batas bawah dari estimasi.

Tugas:

  1. Identifikasi jenis Interval Kepercayaan dan uji yang tepat.
  2. Hitung Interval Kepercayaan satu sisi (batas bawah) pada:
    • 90%
    • 95%
    • 99%
  3. Visualisasikan batas bawah untuk semua tingkat kepercayaan.
  4. Tentukan apakah target 70% terpenuhi secara statistik.

1. Uji Statistik

Menggunakan Z-interval (Confidence Interval Proporsi – One-Sided / Lower Bound)

Karena:

  • Data berupa proporsi
  • Ukuran sampel besar: ( n = 250 )
  • Estimasi proporsi populasi
  • Manajemen hanya tertarik pada batas bawah

2. Interval Kepercayaan

Data yang Diketahui

  • Jumlah sampel:

    \[n = 250\]

  • Jumlah pengguna premium aktif:

    \[x = 185\]

  • Proporsi sampel:

    \[\hat{p} = \frac{x}{n} = \frac{185}{250} = 0{,}74\]

Rumus Interval Kepercayaan Proporsi (Satu Sisi – Batas Bawah)

\[\text{Lower Bound} = \hat{p} - z_{\alpha} \times \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\]

Hitung Standard Error

\[SE = \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\]

\[SE = \sqrt{\frac{0{,}74(1-0{,}74)}{250}}\]

\[SE = \sqrt{\frac{0{,}74 \times 0{,}26}{250}}\]

\[SE = \sqrt{\frac{0{,}1924}{250}}\]

\[SE = \sqrt{0{,}0007696}\]

\[SE \approx 0{,}0277\]

Interval Kepercayaan 90% (One-Sided)

Menentukan α dan nilai kritis z

Tingkat kepercayaan = 0,90

\[\alpha = 1 - 0{,}90 = 0{,}10\]

Karena satu sisi, tidak dibagi dua

\[z_{\alpha} = z_{0{,}10}\]

(Tabel Z Distribusi Normal)

# Set folder tempat gambar disimpan
setwd("C:/Users/Lenovo/Downloads")  # sesuaikan lokasi

# Tampilkan gambar
img <- png::readPNG("C:/Users/Lenovo/Downloads/unnamed.png")       # ganti nama file jika beda
grid::grid.raster(img)

Dari tabel Z distribusi normal standar:

\[z = 1{,}28\]

Hitung Margin of Error

\[ME = 1{,}28 \times 0{,}0277\]

\[ME \approx 0{,}0355\]

Interval Kepercayaan (Batas Bawah)

\[LB = 0{,}74 - 0{,}0355 = 0{,}7045\]

CI 90% (one-sided):

\[(0{,}7045,;1)\]

Interval Kepercayaan 95% (One-Sided)

Menentukan α dan nilai kritis z

Tingkat kepercayaan = 0,95

\[\alpha = 1 - 0{,}95 = 0{,}05\]

Karena satu sisi:

\[z_{\alpha} = z_{0{,}05}\]

(Tabel Z Distribusi Normal)

# Set folder tempat gambar disimpan
setwd("C:/Users/Lenovo/Downloads")  # sesuaikan lokasi

# Tampilkan gambar
img <- png::readPNG("C:/Users/Lenovo/Downloads/unnamed.png")       # ganti nama file jika beda
grid::grid.raster(img)

Dari tabel Z:

\[z = 1{,}645\]

Hitung Margin of Error

\[ME = 1{,}645 \times 0{,}0277\]

\[ME \approx 0{,}0456\]

Interval Kepercayaan (Batas Bawah)

\[LB = 0{,}74 - 0{,}0456 = 0{,}6944\]

CI 95% (one-sided):

\[(0{,}6944,;1)\]

Interval Kepercayaan 99% (One-Sided)

Menentukan α dan nilai kritis z

Tingkat kepercayaan = 0,99

\[\alpha = 1 - 0{,}99 = 0{,}01\]

(Tabel Z Distribusi Normal)

# Set folder tempat gambar disimpan
setwd("C:/Users/Lenovo/Downloads")  # sesuaikan lokasi

# Tampilkan gambar
img <- png::readPNG("C:/Users/Lenovo/Downloads/unnamed.png")       # ganti nama file jika beda
grid::grid.raster(img)

Dari tabel Z:

\[z = 2{,}33\]

Hitung Margin of Error

\[ME = 2{,}33 \times 0{,}0277\]

\[ME \approx 0{,}0645\]

Interval Kepercayaan (Batas Bawah)

\[LB = 0{,}74 - 0{,}0645 = 0{,}6755\]

CI 99% (one-sided):

\[(0{,}6755,;1)\]

Ringkasan Hasil

Confidence Level Lower Bound
90% 0,7045
95% 0,6944
99% 0,6755

3. Visualisasi Batas Bawah

# Data interval kepercayaan
ci_data <- data.frame(
  Confidence = c(90, 95, 99),
  LowerBound = c(0.7045, 0.6944, 0.6755)
)

# Pastikan ini data frame
print(ci_data)
##   Confidence LowerBound
## 1         90     0.7045
## 2         95     0.6944
## 3         99     0.6755
class(ci_data)
## [1] "data.frame"
# Plot
plot(
  x = ci_data$Confidence,
  y = ci_data$LowerBound,
  type = "b",
  pch = 19,
  lwd = 2,
  xlab = "Confidence Level (%)",
  ylab = "Lower Bound",
  main = "Lower Bound One-Sided Confidence Interval",
  ylim = c(0.65, 0.75)
)

abline(h = 0.70, lty = 2, lwd = 2)
text(95, 0.702, "Target 70%", pos = 3)

Interpretasi

Grafik menunjukkan bahwa semakin tinggi tingkat kepercayaan, batas bawah interval kepercayaan semakin rendah. Target 70% terpenuhi pada CI 90%, tetapi tidak terpenuhi pada CI 95% dan 99%, sehingga kesimpulan sangat bergantung pada tingkat keyakinan yang dipilih.

4. Hasil Evaluasi

Confidence Level Lower Bound Keputusan
90% 0,7045 Terpenuhi
95% 0,6944 Tidak terpenuhi
99% 0,6755 Tidak terpenuhi

Kesimpulan Statistik

Target 70% terpenuhi secara statistik hanya pada tingkat kepercayaan 90%. Pada tingkat kepercayaan 95% dan 99%, batas bawah interval kepercayaan berada di bawah 70%, sehingga tidak terdapat bukti statistik yang cukup kuat untuk menyatakan bahwa proporsi pengguna premium minimal 70%.

Referensi

[1] J. L. Devore, Probability and Statistics for Engineering and the Sciences, 9th ed. Boston: Cengage Learning, 2015.

[2] D. C. Montgomery and G. C. Runger, Applied Statistics and Probability for Engineers, 7th ed. Hoboken, NJ: John Wiley & Sons, 2018.

[3] W. Navidi, Statistics for Engineers and Scientists, 4th ed. New York: McGraw-Hill Education, 2016.

[4] G. Casella and R. L. Berger, Statistical Inference, 2nd ed. Pacific Grove, CA: Duxbury Press, 2002.

[5] J. E. Freund, I. Miller, and M. Miller, Mathematical Statistics with Applications, 8th ed. Upper Saddle River, NJ: Pearson Education, 2014.

[6] D. S. Moore, G. P. McCabe, and B. A. Craig, Introduction to the Practice of Statistics, 9th ed. New York: W. H. Freeman and Company, 2017.

[7] OpenIntro, Introduction to Statistics*, OpenIntro Inc., 2023. [https://bookdown.org/dsciencelabs/intro_statistics/08-Confidence_Interval.html]