Study Cases

Confidence Interval ~ Week 13

Adinda Maiza Ishfahani

Data Science Undergraduate at ITSB


1 Case Study 1

Interval Kepercayaan untuk Rata-rata, σ Diketahui: Sebuah platform e-commerce ingin memperkirakan jumlah rata-rata transaksi harian per pengguna setelah meluncurkan fitur baru. Berdasarkan data historis skala besar, simpangan baku populasi diketahui.

  • \(\sigma = 3.2\) (population standard deviation),
  • \(n = 100\) (sample size),
  • \(\bar{x} = 12.6\) (sample mean)

Tugas

  1. Identifikasi uji statistik yang tepat dan berikan alasan pilihan Anda.

  2. Hitung Interval Kepercayaan (Confidence Intervals) untuk:

  • 90%

  • 95%

  • 99%

  1. Buat visualisasi perbandingan dari ketiga interval kepercayaan tersebut.

  2. Interpretasikan hasilnya dalam konteks analisis bisnis.

1.1 Identifikasi Uji Statistik

Uji yang tepat adalah Z-interval (Confidence Interval untuk mean dengan σ diketahui)

  • Simpangan baku populasi (σ) diketahui

  • Ukuran sampel besar (n ≄ 30)

  • Tujuan analisis adalah mengestimasi rata-rata populasi

1.2 Perhitungan Confidence Interval

Rumus:

\[\bar{x} \pm z_{\alpha/2} \frac{\sigma}{\sqrt{n}}\]

Standard Error (SE) \(\frac{3.2}{\sqrt{100}} = 0.32\)

Confidence.Level Nilai.Z Margin.of.Error Rentang.CI
90% 1.645 526 [12.074, 13.126]
95% 1.960 627 [11.973, 13.227]
99% 2.576 824 [11.776, 13.424]

1.3 Visualisasi

1.4 Interpretasi

Dengan 95% tingkat kepercayaan, rata-rata transaksi harian per pengguna diperkirakan berada antara 11,97 hingga 13,23 transaksi.

Semakin tinggi tingkat kepercayaan (99%), semakin lebar interval, menunjukkan ketidakpastian yang lebih besar.

Hasil ini membantu manajemen dalam:

  • Mengevaluasi dampak fitur baru

  • Memperkirakan kapasitas sistem

  • Mendukung keputusan berbasis data terkait pengembangan produk


2 Case Study 2

Interval Kepercayaan untuk Rata-rata, σ Tidak Diketahui: Sebuah tim Riset UX menganalisis waktu penyelesaian tugas (dalam menit) untuk aplikasi seluler baru. Data dikumpulkan dari 12 pengguna:

\[8.4, 7.9, 9.1, 8.7, 8.2, 9.0, 7.8, 8.5, 8.9, 8.1, 8.6, 8.3\]

Tugas

  1. Identifikasi uji statistik yang tepat dan jelaskan alasannya.

  2. Hitung Interval Kepercayaan untuk:

  • 90%

  • 95%

  • 99%

  1. Visualisasikan ketiga interval tersebut pada satu plot.

  2. Jelaskan bagaimana ukuran sampel dan tingkat kepercayaan memengaruhi lebar interval.

2.1 Identifikasi Uji Statistik

Uji statistik digunakan t-Confidence Interval

  • Simpangan baku populasi (σ) tidak diketahui

  • Ukuran sampel kecil (n = 12 < 30)

  • Data berskala numerik kontinu

  • Asumsi data berasal dari populasi yang mendekati normal

2.2 Perhitungan Confidence Interval

Data: 8.4, 7.9, 9.1, 8.7, 8.2, 9.0, 7.8, 8.5, 8.9, 8.1, 8.6, 8.3

  • Jumlah data (n) = 12

  • Mean (xĢ„) ā‰ˆ 8.46 menit

  • Standard deviation (s) ā‰ˆ 0.42 menit

  • Derajat kebebasan (df) = n āˆ’ 1 = 11

Rumus:

\[ \bar{x} \pm t_{\alpha/2,\,df}\frac{s}{\sqrt{n}} \]
Confidence.Level t.score..df.11. Margin.of.Error Confidence.Interval
90% 1.796 218 [8.24, 8.677]
95% 2.201 267 [8.191, 8.726]
99% 3.106 377 [8.081, 8.836]

2.3 Visualisasi

2.4 Interpretasi

  • Dengan 95% kepercayaan, rata-rata waktu penyelesaian tugas pengguna berada di sekitar 8.2–8.7 menit

  • Interval 99% lebih lebar, cocok untuk keputusan yang berisiko tinggi

  • Pengaruh Tingkat Kepercayaan: Semakin tinggi tingkat kepercayaan, semakin lebar intervalnya

  • Pengaruh Ukuran Sampel (\(n\)): Semakin besar ukuran sampel, semakin sempit intervalnya


3 Case Study 3

Interval Kepercayaan untuk Proporsi, Pengujian A/B: Sebuah tim ilmu data menjalankan pengujian A/B pada desain tombol Ajakan Bertindak (Call-To-Action/CTA) yang baru. Hasil eksperimennya adalah:

  • \(n = 400\) (total users),

  • \(x = 156\) (users who clicked the CTA)

Tugas

  1. Hitung proporsi sampel p^

  2. Hitung Interval Kepercayaan untuk proporsi pada:

  • 90%

  • 95%

  • 99%

  1. Visualisasikan dan bandingkan ketiga interval tersebut.

  2. Jelaskan bagaimana tingkat kepercayaan memengaruhi pengambilan keputusan dalam eksperimen produk.

3.1 Perhitungan Sample Proporsi

  • \(n = 400\) (total users),

  • \(x = 156\) (users who clicked the CTA)

\[\hat{p} = \frac{x}{n} = \frac{156}{400} = 0.39\] Proporsi sampel (CTR) = 0,39 (39%)

3.2 Perhitungan Confidence Interval

\[\hat{p} \pm z \cdot \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\] Di mana Standard Error (\(SE\)) adalah:\[SE = \sqrt{\frac{0,39 \cdot 0,61}{400}} = \sqrt{0,00059475} \approx 0,0244\]

Confidence.Level Z.score..z. Margin.of.Error Confidence.Interval..Batas.Bawah…Atas.
90% 1.645 ±0.0401 [34.99%, 43.01%]
95% 1.960 ±0.0478 [34.22%, 43.78%]
99% 2.576 ±0.0628 [32.72%, 45.28%]

3.3 Visualisasi

3.4 Pengambilan Keputusan

  • Trade-off Presisi vs.Ā Keyakinan: Semakin tinggi tingkat kepercayaan (misal 99%), semakin lebar rentang estimasinya. Rentang yang terlalu lebar terkadang sulit digunakan untuk mengambil keputusan yang pasti karena nilai ā€œasliā€ bisa berada di mana saja dalam rentang tersebut.

  • Manajemen Risiko: Jika risiko kegagalan fitur baru sangat mahal (misal mengubah alur pembayaran), tim biasanya menggunakan 99% untuk meminimalkan kesalahan.

  • Kecepatan Iterasi: Tingkat kepercayaan yang lebih rendah memungkinkan tim mengambil keputusan lebih cepat dengan data yang lebih sedikit, sedangkan tingkat kepercayaan tinggi membutuhkan ukuran sampel (\(n\)) yang jauh lebih besar untuk mendapatkan rentang yang sempit.


4 Case Study 4

Perbandingan Presisi (Uji Z vs Uji t): Dua tim data mengukur latensi API (dalam milidetik) dalam kondisi yang berbeda.

Team A:

\(n = 36\) (ukuran sampel)

\(\bar{x} = 210\) (rata-rata sampel)

\(\sigma = 24\) (standar deviasi populasi diketahui)

Team B:

\(n = 36\) (sample size)

\(\bar{x} = 210\) (sample mean)

\(\sigma = 24\) (standar deviasi sampel)

Tugas

  1. Identifikasi uji statistik yang digunakan oleh setiap tim.

  2. Hitung Interval Kepercayaan untuk 90%, 95%, dan 99%.

  3. Buat visualisasi yang membandingkan semua interval.

  4. Jelaskan mengapa lebar interval berbeda, meskipun dengan data yang serupa.

4.1 Identifikasi Uji Statistik

Team A = Z-Confidence Interval

  • Simpangan baku populasi diketahui (σ)

  • Ukuran sampel cukup besar (n ≄ 30)

Team B = t-Confidence Interval (Student’s t)

  • Simpangan baku populasi tidak diketahui

  • Menggunakan simpangan baku sampel (s)

4.2 Perhitungan Confidence Interval

\(CI = \bar{x} \pm (\text{Critical Value} \times \frac{s \text{ atau } \sigma}{\sqrt{n}})\) Di mana Margin of Error (MoE) adalah \(\text{Critical Value} \times \frac{24}{\sqrt{36}} = \text{Critical Value} \times 4\).

Perbandingan Confidence Interval Team A (Z-Test) vs Team B (t-Test)
Confidence.Level Team.A..Z.critical. Team.A..Interval. Team.B..t.critical..df.35. Team.B..Interval.
90% 1.645 [203.42, 216.58] 1.690 [203.24, 216.76]
95% 1.960 [202.16, 217.84] 2.030 [201.88, 218.12]
99% 2.576 [199.70, 220.30] 2.724 [199.10, 220.90]

4.3 Visualisasi

4.4 Penjelasan Lebar Interval

  • Sumber variasi: Team A menggunakan standar deviasi populasi (σ) yang pasti, sehingga interval lebih sempit. Team B menggunakan estimasi dari sampel (s) yang mengandung ketidakpastian tambahan.

  • Distribusi: Distribusi t memiliki ekor lebih tebal dibandingkan distribusi Z, sehingga nilai kritisnya lebih besar dan interval menjadi lebih lebar.

  • Ukuran sampel: Semakin kecil ukuran sampel, perbedaan lebar interval semakin terasa. Dengan š‘›= 36, perbedaannya ada tetapi tidak terlalu besar.


5 Case Study 5

Interval Kepercayaan Satu Sisi: Sebuah perusahaan Software as a Service (SaaS) ingin memastikan bahwa setidaknya 70% pengguna aktif mingguan menggunakan fitur premium.

Dari eksperimen tersebut:

\[n = 250 \quad \text{(total users)}\] \[x = 185 \quad \text{(active premium users)}\] Manajemen hanya tertarik pada batas bawah estimasi.

Tugas

  1. Identifikasi jenis Interval Kepercayaan dan uji yang sesuai.

  2. Hitung Interval Kepercayaan bawah satu sisi pada:

  • 90%

  • 95%

  • 99%

  1. Visualisasikan batas bawah untuk semua tingkat kepercayaan.

  2. Tentukan apakah target 70% terpenuhi secara statistik.

5.1 Identifikasi Tipe Confidence Interval

Kasus ini menggunakan Confidence Interval satu sisi (one-sided), tepatnya batas bawah (lower bound) untuk proporsi.

karena:

  • Data yang dianalisis berupa proporsi pengguna (jumlah pengguna premium dibanding total pengguna).

  • Ukuran sampel cukup besar (n=250), sehingga pendekatan distribusi normal dapat digunakan.

  • Manajemen hanya tertarik pada batas bawah estimasi, untuk memastikan proporsi pengguna premium minimal 70%.

Confidence Interval proporsi satu sisi berbasis distribusi Z (Z-test untuk proporsi).

5.2 Perhitungan Batas Bawah

tentukan variabel dasarnya:

\(n = 250\)

\(x = 185\)

Proporsi sampel (\(\hat{p}\)) = \(\frac{185}{250} = 0,74\) (atau 74%)

Rumus untuk batas bawah satu sisi adalah:

\[\text{Lower Bound} = \hat{p} - z_{\alpha} \cdot \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\]

Tabel One-Sided Confidence Interval (Batas Bawah)
Confidence.Level Alpha Critical.Value..zα. Perhitungan.Batas.Bawah Hasil.Akhir
90% 0.10 1.282 0,74 āˆ’ 1,282 Ɨ 0,0277 70,45%
95% 0.05 1.645 0,74 āˆ’ 1,645 Ɨ 0,0277 69,44%
99% 0.01 2.326 0,74 āˆ’ 2,326 Ɨ 0,0277 67,56%

5.3 Visualisasi

5.4 Interpretasi

Target manajemen adalah setidaknya 70%.

  • Pada tingkat kepercayaan 90%, target terpenuhi secara statistik karena batas bawah (70,45%) masih di atas 70%.

  • Pada tingkat kepercayaan 95% dan 99%, target tidak terpenuhi secara statistik karena batas bawah (masing-masing 69,44% dan 67,56%) jatuh di bawah angka 70%.

Kesimpulan Akhir: Meskipun proporsi sampel saat ini (74%) terlihat lebih tinggi dari target, kita hanya bisa 90% yakin bahwa proporsi populasi sebenarnya berada di atas 70%. Jika manajemen menuntut tingkat keyakinan yang lebih tinggi (seperti 95%), maka target tersebut belum bisa dikatakan tercapai secara pasti.

Referensi

  • Sievert, C. (2020). Interactive Data Visualization with R, plotly, and shiny. CRC Press. [Online]. Dokumentasi resmi untuk mengubah grafik statis ggplot2 menjadi grafik interaktif menggunakan fungsi ggplotly().

  • Walpole, R. E., Myers, R. H., Myers, S. L., & Ye, K. (2012). Probability & Statistics for Engineers & Scientists. Pearson. (Menjelaskan penggunaan distribusi Z untuk estimasi parameter populasi pada sampel besar).