Study Cases
Confidence Interval~ Week 13
Ahmad Rizki Mubarak
Mahasiswa Sains Data ITSB
1.Case Study 1
Confidence Interval for Mean, \(\sigma\) Known: An e-commerce platform wants to estimate the average number of daily transactions per user after launching a new feature. Based on large-scale historical data, the population standard deviation is known.
\[ \begin{eqnarray*} \sigma &=& 3.2 \quad \text{(population standard deviation)} \\ n &=& 100 \quad \text{(sample size)} \\ \bar{x} &=& 12.6 \quad \text{(sample mean)} \end{eqnarray*} \]
Tasks
- Identify the appropriate statistical test and justify your choice.
- Compute the Confidence Intervals for:
- \(90\%\)
- \(95\%\)
- \(99\%\)
- Create a comparison visualization of the three confidence intervals.
- Interpret the results in a business analytics context.
Answer To Case Study 1
1.Identifikasi Uji Statistik yang Tepat
Uji statistik yang tepat untuk kasus ini adalah Confidence Interval menggunakan Z-distribution (Z-test).
Alasan pemilihan:
- Standar deviasi populasi (σ) diketahui, yaitu 3.2.
- Ukuran sampel besar (n = 100 ≥ 30).
- Tujuan analisis adalah mengestimasi rata-rata populasi, bukan menguji hipotesis.
Karena kondisi di atas terpenuhi, maka distribusi normal standar (Z) digunakan, bukan distribusi t.
Asumsi
Analisis ini menggunakan asumsi berikut:
- Data berdistribusi normal atau mendekati normal (terpenuhi karena n ≥ 30 berdasarkan Central Limit Theorem)
- Sampel dipilih secara acak dan independen dari populasi pengguna
- Standar deviasi populasi (σ = 3.2) akurat berdasarkan data historis yang besar
- Tidak ada outlier ekstrem yang mempengaruhi rata-rata
2.Perhitungan Confidence Interval
Rumus Confidence Interval (σ diketahui)
\[ CI = \bar{x} \pm Z_{\alpha/2} \left( \frac{\sigma}{\sqrt{n}} \right) \]
Hitung Standard Error
\[ SE = \frac{\sigma}{\sqrt{n}} = \frac{3.2}{\sqrt{100}} = 0.32 \]
Confidence Interval 90%
Nilai kritis: \(Z_{0.05} = 1.645\)
\[ CI_{90\%} = 12.6 \pm (1.645 \times 0.32) \]
\[ CI_{90\%} = (12.07,\; 13.13) \]
Confidence Interval 95%
Nilai kritis: \(Z_{0.025} = 1.96\)
\[ CI_{95\%} = 12.6 \pm (1.96 \times 0.32) \]
\[ CI_{95\%} = (11.9728,\; 13.2272) \]
Confidence Interval 99%
Nilai kritis: \(Z_{0.005} = 2.576\)
\[ CI_{99\%} = 12.6 \pm (2.576 \times 0.32) \]
\[ CI_{99\%} = (11.78,\; 13.42) \]
3.Visualisasi Perbandingan Confidence Interval
Penjelasan grafik:
- Garis horizontal = Confidence Interval
- Titik hitam = sample mean (12.6)
- CI semakin lebar saat tingkat kepercayaan meningkat
4.Interpretasi dalam Konteks Business Analytics
Berdasarkan hasil analisis:
Dengan 95% tingkat kepercayaan, rata-rata jumlah transaksi harian per pengguna berada di antara 11.97 hingga 13.23 transaksi.
Semakin tinggi tingkat kepercayaan (99%), rentang interval semakin lebar, menunjukkan ketidakpastian yang lebih besar.
Hasil ini memberikan keyakinan kepada manajemen bahwa rata-rata aktivitas transaksi pengguna berada pada level yang konsisten dan stabil di kisaran 12-13 transaksi per hari setelah peluncuran fitur baru.
Informasi ini dapat digunakan untuk:
- Evaluasi performa fitur
- Perencanaan kapasitas sistem
- Dasar pengambilan keputusan bisnis dan pemasaran
Kesimpulan
Confidence Interval memberikan estimasi yang lebih informatif dibandingkan satu nilai rata-rata, karena menunjukkan rentang nilai yang mungkin untuk rata-rata transaksi pengguna, sehingga sangat relevan dalam pengambilan keputusan berbasis data.
2.Case Study 2
Confidence Interval for Mean, \(\sigma\) Unknown: A UX Research team analyzes task completion time (in minutes) for a new mobile application. The data are collected from 12 users:
\[ 8.4,\; 7.9,\; 9.1,\; 8.7,\; 8.2,\; 9.0,\; 7.8,\; 8.5,\; 8.9,\; 8.1,\; 8.6,\; 8.3 \]
Tasks:
- Identify the appropriate statistical test and explain why.
- Compute the Confidence Intervals for:
- \(90\%\)
- \(95\%\)
- \(99\%\)
- Visualize the three intervals on a single plot.
- Explain how sample size and confidence level influence the interval width.
Answer To Case Study 2
1.Identifikasi Uji Statistik yang Tepat
Uji statistik yang tepat adalah Confidence Interval menggunakan distribusi t (Student’s t-distribution).
Alasan:
- Standar deviasi populasi (σ) tidak diketahui.
- Ukuran sampel kecil (n = 12 < 30).
- Data berskala numerik (waktu penyelesaian tugas dalam menit).
- Tujuan analisis adalah mengestimasi rata-rata populasi, bukan uji hipotesis.
Karena σ tidak diketahui dan n kecil, maka distribusi t digunakan, bukan Z.
Asumsi
Analisis ini menggunakan asumsi berikut:
- Data berdistribusi normal (karena sampel kecil n = 12)
- Sampel dipilih secara acak dari populasi pengguna aplikasi
- Observasi independen - waktu penyelesaian satu user tidak mempengaruhi user lain
- Tidak ada learning effect - semua user mengerjakan task dalam kondisi yang sama
- Tidak ada outlier ekstrem yang dapat mendistorsi estimasi
2.Perhitungan Confidence Interval
Data
\[ [ 8.4, 7.9, 9.1, 8.7, 8.2, 9.0, 7.8, 8.5, 8.9, 8.1, 8.6, 8.3 ] \]
Rumus Confidence Interval (σ tidak diketahui)
\[ CI = \bar{x} \pm t_{\alpha/2,n-1} \left(\frac{s}{\sqrt{n}}\right) \]
Statistik Sampel
Dari perhitungan (atau R):
- $n = 12 $
- $ {x} = 8.46 $
- $s = 0.41 %
- Derajat bebas: $ df = n - 1 = 11 $
Standard Error: \[ SE = \frac{s}{\sqrt{n}} = \frac{0.41}{\sqrt{12}} \approx 0.118 \]
Confidence Interval 90%
Nilai kritis: \[ t_{0.05,11} = 1.796 \]
\[ CI_{90\%} = 8.46 \pm (1.796 \times 0.118) \]
\[ CI_{90\%} = (8.25, 8.67) \]
Confidence Interval 95%
Nilai kritis: \[ t_{0.025,11} = 2.201 \]
\[ CI_{95\%} = 8.46 \pm (2.201 \times 0.118) \]
\[ CI_{95\%} = (8.20, 8.72) \]
Confidence Interval 99%
Nilai kritis: \[ t_{0.005,11} = 3.106 \]
\[ CI_{99\%} = 8.46 \pm (3.106 \times 0.118) \]
\[ CI_{99\%} = (8.09, 8.83) \]
3.Visualisasi Confidence Interval (RStudio)
Keterangan:
- Garis horizontal = Confidence Interval
- Titik = rata-rata sampel
- Garis vertikal putus-putus = mean sampel
4.Pengaruh Ukuran Sampel & Tingkat Kepercayaan terhadap Lebar Interval
Pengaruh Ukuran Sampel
- Semakin besar ukuran sampel, nilai $ $ semakin kecil.
- Akibatnya, Confidence Interval semakin sempit.
- Sampel kecil (n = 12) menghasilkan interval yang relatif lebih lebar karena ketidakpastian lebih tinggi.
Pengaruh Tingkat Kepercayaan
Semakin tinggi tingkat kepercayaan, nilai kritis t semakin besar.
Hal ini menyebabkan interval semakin lebar.
Urutan lebar interval:
\[ CI_{99\%} > CI_{95\%} > CI_{90\%} \]
Interpretasi dalam Konteks UX Research
- Dengan tingkat kepercayaan 95%, rata-rata waktu penyelesaian tugas pengguna berada antara 8.20 hingga 8.72 menit.
- Interval ini membantu tim UX memahami konsistensi performa aplikasi.
- Interval yang lebih sempit menunjukkan estimasi yang lebih presisi dan dapat digunakan sebagai dasar evaluasi desain antarmuka.
Kesimpulan
Confidence Interval berbasis distribusi t sangat sesuai untuk analisis UX dengan sampel kecil dan σ tidak diketahui, karena memberikan estimasi rata-rata yang realistis beserta tingkat ketidakpastiannya.
3.Case Study 3
Confidence Interval for a Proportion, A/B Testing: A data science team runs an A/B test on a new Call-To-Action (CTA) button design. The experiment yields:
\[ \begin{eqnarray*} n &=& 400 \quad \text{(total users)} \\ x &=& 156 \quad \text{(users who clicked the CTA)} \end{eqnarray*} \]
Tasks:
- Compute the sample proportion \(\hat{p}\).
- Compute Confidence Intervals for the proportion at:
- \(90\%\)
- \(95\%\)
- \(99\%\)
- Visualize and compare the three intervals.
- Explain how confidence level affects decision-making in product experiments.
Answer Case Study 3
1.Sample Proportion
Diketahui:
- Jumlah pengguna: \(n = 400\)
- Jumlah klik CTA: \(x = 156\)
Sample proportion dihitung dengan:
\[ \hat{p} = \frac{x}{n} \]
\[ \hat{p} = \frac{156}{400} = 0.39 \]
Artinya, 39% pengguna mengklik CTA pada desain baru.
Asumsi
Analisis ini menggunakan asumsi berikut:
- Sampel representatif - 400 pengguna dipilih secara acak dari populasi target
- Kondisi A/B test terkontrol - faktor eksternal diminimalkan
- Independensi observasi - keputusan satu user tidak mempengaruhi user lain
- Syarat normal approximation terpenuhi:
- n × p̂ = 400 × 0.39 = 156 ≥ 10 ✓
- n × (1 - p̂) = 400 × 0.61 = 244 ≥ 10 ✓
- Waktu pengukuran konsisten - semua user diuji dalam periode yang sama
2.Confidence Interval untuk Proporsi
Rumus Confidence Interval Proporsi
\[ CI = \hat{p} \pm Z_{\alpha/2} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \]
Standard Error
\[ SE = \sqrt{\frac{0.39(1-0.39)}{400}} = \sqrt{\frac{0.2379}{400}} = 0.0244 \]
Confidence Interval 90%
Nilai kritis:
\[ Z_{0.05} = 1.645 \]
\[ CI_{90\%} = 0.39 \pm (1.645 \times 0.0244) \]
\[ CI_{90\%} = (0.350, 0.430) \]
Confidence Interval 95%
Nilai kritis:
\[ Z_{0.025} = 1.96 \]
\[ CI_{95\%} = 0.39 \pm (1.96 \times 0.0244) \]
\[ CI_{95\%} = (0.342, 0.438) \]
Confidence Interval 99%
Nilai kritis:
\[ Z_{0.005} = 2.576 \]
\[ CI_{99\%} = 0.39 \pm (2.576 \times 0.0244) \]
\[ CI_{99\%} = (0.327, 0.453) \]
3.Visualisasi Confidence Interval (R Markdown)
Keterangan grafik: - Garis horizontal: Confidence
Interval
- Titik: sample proportion (0.39)
- Garis vertikal putus-putus: estimasi proporsi klik
4.Pengaruh Confidence Level terhadap Keputusan Produk
- Semakin tinggi confidence level, interval menjadi lebih lebar.
- Interval yang lebih lebar menunjukkan ketidakpastian lebih besar, tetapi keyakinan statistik lebih kuat.
- Dalam konteks A/B testing:
- CI 90% cocok untuk eksperimen cepat
- CI 95% adalah standar pengambilan keputusan produk
- CI 99% digunakan jika risiko keputusan sangat tinggi
Manajer produk harus menyeimbangkan kecepatan eksperimen dan tingkat risiko kesalahan keputusan.
Kesimpulan
Dengan tingkat kepercayaan 95%, proporsi pengguna yang mengklik CTA berada antara 34.2% hingga 43.8%. Hasil ini menunjukkan bahwa desain CTA baru memiliki performa yang cukup konsisten dan layak dipertimbangkan untuk implementasi lebih lanjut.
4.Case Study 4
Precision Comparison (Z-Test vs t-Test): Two data teams measure API latency (in milliseconds) under different conditions.
\[\begin{eqnarray*} \text{Team A:} \\ n &=& 36 \quad \text{(sample size)} \\ \bar{x} &=& 210 \quad \text{(sample mean)} \\ \sigma &=& 24 \quad \text{(known population standard deviation)} \\[6pt] \text{Team B:} \\ n &=& 36 \quad \text{(sample size)} \\ \bar{x} &=& 210 \quad \text{(sample mean)} \\ s &=& 24 \quad \text{(sample standard deviation)} \end{eqnarray*}\]
Tasks
- Identify the statistical test used by each team.
- Compute Confidence Intervals for 90%, 95%, and 99%.
- Create a visualization comparing all intervals.
- Explain why the interval widths differ, even with similar data.
Answer Case Study 4
1.Identifikasi Uji Statistik
A.Team A
Team A menggunakan Z-based Confidence Interval.
Alasan:
- Standar deviasi populasi diketahui, yaitu $ = 24 $
- Ukuran sampel cukup besar, $ n = 36 $
Asumsi Umum
Kedua tim menggunakan asumsi dasar yang sama:
- Data latency API berdistribusi normal (terpenuhi karena n = 36 ≥ 30)
- Sampel dipilih secara acak dari populasi request API
- Observasi independen - satu request tidak mempengaruhi request lainnya
- Kondisi pengukuran konsisten - infrastruktur dan beban server stabil
Perbedaan asumsi: - Team A: Mengasumsikan σ populasi diketahui pasti dari data historis jangka panjang - Team B: Menggunakan estimasi standar deviasi dari sampel saat ini (s)
B.Team B
Team B menggunakan t-based Confidence Interval (Student’s t).
Alasan:
- Standar deviasi populasi tidak diketahui
- Standar deviasi dihitung dari sampel, $ s = 24 $
- Ukuran sampel sama, tetapi ketidakpastian lebih tinggi
2.Perhitungan Confidence Interval
Data Umum
- $ {x} = 210 $
- $ n = 36 $
- Standard Error:
\[ SE = \frac{24}{\sqrt{36}} = \frac{24}{6} = 4 \]
A.Confidence Interval – Team A (Z-Test)
Confidence Interval 90%
Nilai kritis:
\[ Z_{0.05} = 1.645 \]
\[ CI_{90\%} = 210 \pm (1.645 \times 4) \]
\[ CI_{90\%} = (203.42, 216.58) \]
Confidence Interval 95%
Nilai kritis:
\[ Z_{0.025} = 1.96 \]
\[ CI_{95\%} = 210 \pm (1.96 \times 4) \]
\[ CI_{95\%} = (202.16, 217.84) \]
Confidence Interval 99%
Nilai kritis:
\[ Z_{0.005} = 2.576 \]
\[ CI_{99\%} = 210 \pm (2.576 \times 4) \]
\[ CI_{99\%} = (199.70, 220.30) \]
B.Confidence Interval – Team B (t-Test)
Derajat bebas:
\[ df = n - 1 = 35 \]
Confidence Interval 90%
Nilai kritis:
\[ t_{0.05,35} = 1.690 \]
\[ CI_{90\%} = 210 \pm (1.690 \times 4) \]
\[ CI_{90\%} = (203.24, 216.76) \]
Confidence Interval 95%
Nilai kritis:
\[ t_{0.025,35} = 2.030 \]
\[ CI_{95\%} = 210 \pm (2.030 \times 4) \]
\[ CI_{95\%} = (201.88, 218.12) \]
Confidence Interval 99%
Nilai kritis:
\[ t_{0.005,35} = 2.724 \]
\[ CI_{99\%} = 210 \pm (2.724 \times 4) \]
\[ CI_{99\%} = (199.10, 220.90) \]
3.Visualisasi Perbandingan Confidence Interval
4.Penjelasan Perbedaan Lebar Interval
Walaupun kedua tim memiliki: - ukuran sampel yang sama, - rata-rata yang sama, - nilai deviasi yang sama,
lebar interval tetap berbeda karena:
- Distribusi t memiliki ekor lebih tebal dibanding distribusi normal.
- Ketika standar deviasi populasi tidak diketahui, terdapat ketidakpastian tambahan.
- Nilai kritis t selalu lebih besar daripada nilai Z pada tingkat kepercayaan yang sama.
- Sebagai contoh, untuk CI 95%:
Z-test: lebar interval = 217.84 - 202.16 = 15.68 ms t-test: lebar interval = 218.12 - 201.88 = 16.24 ms
Selisih 0.56 ms ini menunjukkan cost of uncertainty ketika σ tidak diketahui.
Akibatnya: - Confidence Interval berbasis t-test selalu lebih lebar. - Confidence Interval berbasis Z-test lebih presisi.
Kesimpulan
Dengan data yang identik, penggunaan standar deviasi populasi (Z-test) menghasilkan interval yang lebih sempit dibandingkan penggunaan standar deviasi sampel (t-test). Hal ini menunjukkan bahwa pengetahuan terhadap parameter populasi meningkatkan presisi estimasi.
5.Case Study 5
One-Sided Confidence Interval: A Software as a Service (SaaS) company wants to ensure that at least 70% of weekly active users utilize a premium feature.
From the experiment:
\[ \begin{eqnarray*} n &=& 250 \quad \text{(total users)} \\ x &=& 185 \quad \text{(active premium users)} \end{eqnarray*} \]
Management is only interested in the lower bound of the estimate.
Tasks:
- Identify the type of Confidence Interval and the appropriate test.
- Compute the one-sided lower Confidence Interval at:
- \(90\%\)
- \(95\%\)
- \(99\%\)
- Visualize the lower bounds for all confidence levels.
- Determine whether the 70% target is statistically satisfied.
Answer Case Study 5
1.Identifikasi Jenis Confidence Interval dan Uji Statistik
Kasus ini menggunakan One-Sided (Lower) Confidence Interval untuk Proporsi dengan Z-distribution.
Alasan:
- Parameter yang diestimasi adalah proporsi.
- Ukuran sampel cukup besar, $ n = 250 $.
- Manajemen hanya tertarik pada batas bawah (lower bound).
- Tujuan analisis adalah memastikan proporsi tidak kurang dari nilai target tertentu.
Asumsi
Analisis ini menggunakan asumsi berikut:
- Sampel representatif - 250 pengguna mewakili populasi weekly active users
- Definisi “active premium users” jelas - kriteria penggunaan fitur terdefinisi dengan baik
- Observasi independen - keputusan satu user menggunakan fitur tidak mempengaruhi user lain
- Syarat normal approximation terpenuhi:
- \(n\hat{p} = 250 \times 0.74 = 185 \geq 10\) ✓
- \(n(1-\hat{p}) = 250 \times 0.26 = 65 \geq 10\) ✓
- Periode pengukuran representatif - data diambil dari periode normal (bukan seasonal anomaly)
2.Perhitungan One-Sided Lower Confidence Interval
Sample Proportion
\[ \hat{p} = \frac{x}{n} \]
\[ \hat{p} = \frac{185}{250} = 0.74 \]
Artinya, 74% pengguna aktif menggunakan fitur premium.
Rumus One-Sided Lower Confidence Interval
\[ CI_L = \hat{p} - Z_{\alpha} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \]
Standard Error
\[ SE = \sqrt{\frac{0.74(1-0.74)}{250}} = \sqrt{\frac{0.1924}{250}} = 0.0277 \]
Lower Confidence Interval 90%
Nilai kritis:
\[ Z_{0.10} = 1.282 \]
\[ CI_{L,90\%} = 0.74 - (1.282 \times 0.0277) \]
\[ CI_{L,90\%} = 0.705 \]
Lower Confidence Interval 95%
Nilai kritis:
\[ Z_{0.05} = 1.645 \]
\[ CI_{L,95\%} = 0.74 - (1.645 \times 0.0277) \]
\[ CI_{L,95\%} = 0.694 \]
Lower Confidence Interval 99%
Nilai kritis:
\[ Z_{0.01} = 2.33 \]
\[ CI_{L,99\%} = 0.74 - (2.33 \times 0.0277) \]
\[ CI_{L,99\%} = 0.675 \]
3.Visualisasi Lower Confidence Interval
Keterangan: - Garis horizontal: batas bawah ke estimasi proporsi - Titik: sample proportion (0.74) - Garis vertikal putus-putus: target manajemen (70%)
4.Evaluasi Target 70%
Target perusahaan adalah minimal 70% pengguna aktif.
- Lower CI 90% = 70.5% → memenuhi target
- Lower CI 95% = 69.4% → belum
memenuhi target
- Lower CI 99% = 67.5% → tidak memenuhi target
Keputusan:
- Dengan confidence level 90%, target 70% tercapai secara statistik.
- Dengan confidence level 95% dan 99%, bukti statistik belum cukup kuat.
Kesimpulan
Hasil analisis menunjukkan bahwa klaim “minimal 70% pengguna aktif menggunakan fitur premium” bergantung pada tingkat kepercayaan yang digunakan. Untuk keputusan bisnis dengan risiko sedang, confidence level 90% dapat diterima. Namun, untuk keputusan strategis berisiko tinggi, diperlukan peningkatan performa fitur atau ukuran sampel.
Rekomendasi Bisnis:
Jika target 70% adalah hard requirement, perusahaan sebaiknya:
- Meningkatkan jumlah sampel untuk mengurangi margin of error
- Meningkatkan adoption rate fitur premium melalui user engagement yang lebih baik
- Menggunakan CI 90% sebagai threshold sementara sambil melakukan improvement