Study Cases
Confidence Interval ~ Week 13
Adinda Maiza Ishfahani
Data Science Undergraduate at ITSB
1 Case Study 1
Interval Kepercayaan untuk Rata-rata, Ļ Diketahui: Sebuah platform e-commerce ingin memperkirakan jumlah rata-rata transaksi harian per pengguna setelah meluncurkan fitur baru. Berdasarkan data historis skala besar, simpangan baku populasi diketahui.
- \(\sigma = 3.2\) (population
standard deviation),
- \(n = 100\) (sample size),
- \(\bar{x} = 12.6\) (sample mean)
Tugas
Identifikasi uji statistik yang tepat dan berikan alasan pilihan Anda.
Hitung Interval Kepercayaan (Confidence Intervals) untuk:
90%
95%
99%
Buat visualisasi perbandingan dari ketiga interval kepercayaan tersebut.
Interpretasikan hasilnya dalam konteks analisis bisnis.
1.1 Identifikasi Uji Statistik
Uji yang tepat adalah Z-interval (Confidence Interval untuk mean dengan Ļ diketahui)
Simpangan baku populasi (Ļ) diketahui
Ukuran sampel besar (n ā„ 30)
Tujuan analisis adalah mengestimasi rata-rata populasi
1.2 Perhitungan Confidence Interval
Rumus:
\[\bar{x} \pm z_{\alpha/2} \frac{\sigma}{\sqrt{n}}\]
Standard Error (SE) \(\frac{3.2}{\sqrt{100}} = 0.32\)
| Confidence.Level | Nilai.Z | Margin.of.Error | Rentang.CI |
|---|---|---|---|
| 90% | 1.645 | 526 | [12.074, 13.126] |
| 95% | 1.960 | 627 | [11.973, 13.227] |
| 99% | 2.576 | 824 | [11.776, 13.424] |
1.3 Visualisasi
1.4 Interpretasi
Dengan 95% tingkat kepercayaan, rata-rata transaksi harian per pengguna diperkirakan berada antara 11,97 hingga 13,23 transaksi.
Semakin tinggi tingkat kepercayaan (99%), semakin lebar interval, menunjukkan ketidakpastian yang lebih besar.
Hasil ini membantu manajemen dalam:
Mengevaluasi dampak fitur baru
Memperkirakan kapasitas sistem
Mendukung keputusan berbasis data terkait pengembangan produk
2 Case Study 2
Interval Kepercayaan untuk Rata-rata, Ļ Tidak Diketahui: Sebuah tim Riset UX menganalisis waktu penyelesaian tugas (dalam menit) untuk aplikasi seluler baru. Data dikumpulkan dari 12 pengguna:
\[8.4, 7.9, 9.1, 8.7, 8.2, 9.0, 7.8, 8.5, 8.9, 8.1, 8.6, 8.3\]
Tugas
Identifikasi uji statistik yang tepat dan jelaskan alasannya.
Hitung Interval Kepercayaan untuk:
90%
95%
99%
Visualisasikan ketiga interval tersebut pada satu plot.
Jelaskan bagaimana ukuran sampel dan tingkat kepercayaan memengaruhi lebar interval.
2.1 Identifikasi Uji Statistik
Uji statistik digunakan t-Confidence Interval
Simpangan baku populasi (Ļ) tidak diketahui
Ukuran sampel kecil (n = 12 < 30)
Data berskala numerik kontinu
Asumsi data berasal dari populasi yang mendekati normal
2.2 Perhitungan Confidence Interval
Data: 8.4, 7.9, 9.1, 8.7, 8.2, 9.0, 7.8, 8.5, 8.9, 8.1, 8.6, 8.3
Jumlah data (n) = 12
Mean (xĢ) ā 8.46 menit
Standard deviation (s) ā 0.42 menit
Derajat kebebasan (df) = n ā 1 = 11
Rumus:
\[ \bar{x} \pm t_{\alpha/2,\,df}\frac{s}{\sqrt{n}} \]| Confidence.Level | t.score..df.11. | Margin.of.Error | Confidence.Interval |
|---|---|---|---|
| 90% | 1.796 | 218 | [8.24, 8.677] |
| 95% | 2.201 | 267 | [8.191, 8.726] |
| 99% | 3.106 | 377 | [8.081, 8.836] |
2.3 Visualisasi
2.4 Interpretasi
Dengan 95% kepercayaan, rata-rata waktu penyelesaian tugas pengguna berada di sekitar 8.2ā8.7 menit
Interval 99% lebih lebar, cocok untuk keputusan yang berisiko tinggi
Pengaruh Tingkat Kepercayaan: Semakin tinggi tingkat kepercayaan, semakin lebar intervalnya
Pengaruh Ukuran Sampel (\(n\)): Semakin besar ukuran sampel, semakin sempit intervalnya
3 Case Study 3
Interval Kepercayaan untuk Proporsi, Pengujian A/B: Sebuah tim ilmu data menjalankan pengujian A/B pada desain tombol Ajakan Bertindak (Call-To-Action/CTA) yang baru. Hasil eksperimennya adalah:
\(n = 400\) (total users),
\(x = 156\) (users who clicked the CTA)
Tugas
Hitung proporsi sampel p^
Hitung Interval Kepercayaan untuk proporsi pada:
90%
95%
99%
Visualisasikan dan bandingkan ketiga interval tersebut.
Jelaskan bagaimana tingkat kepercayaan memengaruhi pengambilan keputusan dalam eksperimen produk.
3.1 Perhitungan Sample Proporsi
\(n = 400\) (total users),
\(x = 156\) (users who clicked the CTA)
\[\hat{p} = \frac{x}{n} = \frac{156}{400} = 0.39\] Proporsi sampel (CTR) = 0,39 (39%)
3.2 Perhitungan Confidence Interval
\[\hat{p} \pm z \cdot \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\] Di mana Standard Error (\(SE\)) adalah:\[SE = \sqrt{\frac{0,39 \cdot 0,61}{400}} = \sqrt{0,00059475} \approx 0,0244\]
| Confidence.Level | Z.score..z. | Margin.of.Error | Confidence.Interval..Batas.Bawahā¦Atas. |
|---|---|---|---|
| 90% | 1.645 | ±0.0401 | [34.99%, 43.01%] |
| 95% | 1.960 | ±0.0478 | [34.22%, 43.78%] |
| 99% | 2.576 | ±0.0628 | [32.72%, 45.28%] |
3.3 Visualisasi
3.4 Pengambilan Keputusan
Trade-off Presisi vs.Ā Keyakinan: Semakin tinggi tingkat kepercayaan (misal 99%), semakin lebar rentang estimasinya. Rentang yang terlalu lebar terkadang sulit digunakan untuk mengambil keputusan yang pasti karena nilai āasliā bisa berada di mana saja dalam rentang tersebut.
Manajemen Risiko: Jika risiko kegagalan fitur baru sangat mahal (misal mengubah alur pembayaran), tim biasanya menggunakan 99% untuk meminimalkan kesalahan.
Kecepatan Iterasi: Tingkat kepercayaan yang lebih rendah memungkinkan tim mengambil keputusan lebih cepat dengan data yang lebih sedikit, sedangkan tingkat kepercayaan tinggi membutuhkan ukuran sampel (\(n\)) yang jauh lebih besar untuk mendapatkan rentang yang sempit.
4 Case Study 4
Perbandingan Presisi (Uji Z vs Uji t): Dua tim data mengukur latensi API (dalam milidetik) dalam kondisi yang berbeda.
Team A:
\(n = 36\) (ukuran sampel)
\(\bar{x} = 210\) (rata-rata sampel)
\(\sigma = 24\) (standar deviasi populasi diketahui)
Team B:
\(n = 36\) (sample size)
\(\bar{x} = 210\) (sample mean)
\(\sigma = 24\) (standar deviasi sampel)
Tugas
Identifikasi uji statistik yang digunakan oleh setiap tim.
Hitung Interval Kepercayaan untuk 90%, 95%, dan 99%.
Buat visualisasi yang membandingkan semua interval.
Jelaskan mengapa lebar interval berbeda, meskipun dengan data yang serupa.
4.1 Identifikasi Uji Statistik
Team A = Z-Confidence Interval
Simpangan baku populasi diketahui (Ļ)
Ukuran sampel cukup besar (n ā„ 30)
Team B = t-Confidence Interval (Studentās t)
Simpangan baku populasi tidak diketahui
Menggunakan simpangan baku sampel (s)
4.2 Perhitungan Confidence Interval
\(CI = \bar{x} \pm (\text{Critical Value} \times \frac{s \text{ atau } \sigma}{\sqrt{n}})\) Di mana Margin of Error (MoE) adalah \(\text{Critical Value} \times \frac{24}{\sqrt{36}} = \text{Critical Value} \times 4\).
| Confidence.Level | Team.A..Z.critical. | Team.A..Interval. | Team.B..t.critical..df.35. | Team.B..Interval. |
|---|---|---|---|---|
| 90% | 1.645 | [203.42, 216.58] | 1.690 | [203.24, 216.76] |
| 95% | 1.960 | [202.16, 217.84] | 2.030 | [201.88, 218.12] |
| 99% | 2.576 | [199.70, 220.30] | 2.724 | [199.10, 220.90] |
4.3 Visualisasi
4.4 Penjelasan Lebar Interval
Sumber variasi: Team A menggunakan standar deviasi populasi (Ļ) yang pasti, sehingga interval lebih sempit. Team B menggunakan estimasi dari sampel (s) yang mengandung ketidakpastian tambahan.
Distribusi: Distribusi t memiliki ekor lebih tebal dibandingkan distribusi Z, sehingga nilai kritisnya lebih besar dan interval menjadi lebih lebar.
Ukuran sampel: Semakin kecil ukuran sampel, perbedaan lebar interval semakin terasa. Dengan š= 36, perbedaannya ada tetapi tidak terlalu besar.
5 Case Study 5
Interval Kepercayaan Satu Sisi: Sebuah perusahaan Software as a Service (SaaS) ingin memastikan bahwa setidaknya 70% pengguna aktif mingguan menggunakan fitur premium.
Dari eksperimen tersebut:
\[n = 250 \quad \text{(total users)}\] \[x = 185 \quad \text{(active premium users)}\] Manajemen hanya tertarik pada batas bawah estimasi.
Tugas
Identifikasi jenis Interval Kepercayaan dan uji yang sesuai.
Hitung Interval Kepercayaan bawah satu sisi pada:
90%
95%
99%
Visualisasikan batas bawah untuk semua tingkat kepercayaan.
Tentukan apakah target 70% terpenuhi secara statistik.
5.1 Identifikasi Tipe Confidence Interval
Kasus ini menggunakan Confidence Interval satu sisi (one-sided), tepatnya batas bawah (lower bound) untuk proporsi.
karena:
Data yang dianalisis berupa proporsi pengguna (jumlah pengguna premium dibanding total pengguna).
Ukuran sampel cukup besar (n=250), sehingga pendekatan distribusi normal dapat digunakan.
Manajemen hanya tertarik pada batas bawah estimasi, untuk memastikan proporsi pengguna premium minimal 70%.
Confidence Interval proporsi satu sisi berbasis distribusi Z (Z-test untuk proporsi).
5.2 Perhitungan Batas Bawah
tentukan variabel dasarnya:
\(n = 250\)
\(x = 185\)
Proporsi sampel (\(\hat{p}\)) = \(\frac{185}{250} = 0,74\) (atau 74%)
Rumus untuk batas bawah satu sisi adalah:
\[\text{Lower Bound} = \hat{p} - z_{\alpha} \cdot \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\]
| Confidence.Level | Alpha | Critical.Value..zα. | Perhitungan.Batas.Bawah | Hasil.Akhir |
|---|---|---|---|---|
| 90% | 0.10 | 1.282 | 0,74 ā 1,282 Ć 0,0277 | 70,45% |
| 95% | 0.05 | 1.645 | 0,74 ā 1,645 Ć 0,0277 | 69,44% |
| 99% | 0.01 | 2.326 | 0,74 ā 2,326 Ć 0,0277 | 67,56% |
5.3 Visualisasi
5.4 Interpretasi
Target manajemen adalah setidaknya 70%.
Pada tingkat kepercayaan 90%, target terpenuhi secara statistik karena batas bawah (70,45%) masih di atas 70%.
Pada tingkat kepercayaan 95% dan 99%, target tidak terpenuhi secara statistik karena batas bawah (masing-masing 69,44% dan 67,56%) jatuh di bawah angka 70%.
Kesimpulan Akhir: Meskipun proporsi sampel saat ini (74%) terlihat lebih tinggi dari target, kita hanya bisa 90% yakin bahwa proporsi populasi sebenarnya berada di atas 70%. Jika manajemen menuntut tingkat keyakinan yang lebih tinggi (seperti 95%), maka target tersebut belum bisa dikatakan tercapai secara pasti.
Referensi
Sievert, C. (2020). Interactive Data Visualization with R, plotly, and shiny. CRC Press. [Online]. Dokumentasi resmi untuk mengubah grafik statis ggplot2 menjadi grafik interaktif menggunakan fungsi ggplotly().
Walpole, R. E., Myers, R. H., Myers, S. L., & Ye, K. (2012). Probability & Statistics for Engineers & Scientists. Pearson. (Menjelaskan penggunaan distribusi Z untuk estimasi parameter populasi pada sampel besar).