Tugas Week 13 ~ Confidence Interval
Data Science Student at ITSB
Lecturer: Bakti Siregar, M.Sc., CDS
R Programming Data Science Statistics
📍 Institut Teknologi Sains Bandung
1 Case Study 1 ~ Confidence Interval of Mean
Konteks Masalah
Sebuah platform e-commerce ingin mengestimasi rata-rata jumlah transaksi harian per pengguna setelah peluncuran fitur baru. Berdasarkan data historis berskala besar, simpangan baku populasi (σ) diketahui, sehingga pendekatan statistik yang tepat dapat digunakan untuk inferensi rata-rata populasi.
Informasi Data
\(\sigma = 3.2 \quad \text{(population standard deviation)}\)
\(n = 100 \quad \text{(sample size)}\)
\(\bar{x} = 12.6 \quad \text{(sample mean)}\)
1.1 Identifikasi dan Justifikasi Uji Statistik yang Tepat
Uji Statistik yang Tepat: Uji Z (Z-test) untuk Mean (Rata-rata)
Justifikasi:
Tujuan: Tujuannya adalah untuk mengestimasi rata-rata populasi (\(\mu\)) menggunakan confidence interval.
Deviasi Standar Populasi (\(\sigma\)): Informasi kunci yang diberikan adalah deviasi standar populasi (\(\sigma\)) diketahui (\(\sigma\) = 3.2).
Ukuran Sampel (n): Ukuran sampel n=100, yang lebih besar dari 30 (n > 30). Karena \(\sigma\) diketahui, dan/atau ukuran sampel besar, kita harus menggunakan nilai Z (Z-score), bukan nilai t (t-score). Formula umum untuk Confidence Interval (CI) adalah:
\(\bar{x} \pm Z_{\alpha/2}\left(\frac{\sigma}{\sqrt{n}}\right)\)
1.2 Perhitungan Confidence Intervals
Langkah Awal: Standard Error
\(SE = \frac{\sigma}{\sqrt{n}} = \frac{3.2}{\sqrt{100}} = 0.32\)
A. Confidence Interval 90%
Untuk CI 90%, tingkat signifikansi \((\alpha)\) adalah 1 - 0.90 = 0.10.
Nilai \(Z_{\alpha/2}\) untuk \(\alpha\)/2 = 0.05 (atau 90% di tengah) adalah \(\mathbf{Z_{0.05} = 1.645}.\)
1. Margin of Error (ME):
\[ME_{90\%} = 1.645\left(\frac{3.2}{\sqrt{100}}\right) = 1.645\left(\frac{3.2}{10}\right) = 1.645 \times 0.32 = 0.5264\]
2. Confidence Interval (Cl):
\[Cl_{90\%} = \bar{x} \pm ME_{90\%} = 12.6 \pm 0.5264\]
-Batas Bawah: 12.6 - 0.5264 = 12.0736
-Batas Atas: 12.6 + 0.5264 = 13.1264
Cl 90% = [12.0736, 13.1264].
B. Confidence Interval 95%
Untuk CI 95%, tingkat signifikansi \((\alpha)\) adalah 1 - 0.95 = 0.05.
Nilai \(Z_{\alpha/2}\) untuk \(\alpha\)/2 = 0.025 (atau 95% di tengah) adalah \(\mathbf{Z_{0.025} = 1.960}.\)
1. Margin of Error(ME):
\[ME_{95\%} = 1.960 \left( \frac{3.2}{10} \right) = 1.960 \times 0.32 = 0.6272\]
2. Confidence Interval (Cl):
\[Cl_{95\%} = \bar{x} \pm ME_{95\%} = 12.6 \pm 0.6272\]
-Batas Bawah: 12.6 - 0.6272 = 11.9728
-Batas Atas: 12.6 + 0.6272 = 13.2272
Cl 95% = [11.9728, 13.2272].
C. Confidence Interval 99%
Untuk CI 99%, tingkat signifikansi \((\alpha)\) adalah 1 - 0.99 = 0.01.
Nilai \(Z_{\alpha/2}\) untuk \(\alpha/2\) = 0.005 (atau 99% di tengah) adalah \(\mathbf{Z_{0.005} = 2.576}.\)
1. Margin of Error (ME):
\[ME_{99\%} = 2.576 \left( \frac{3.2}{10} \right) = 2.576 \times 0.32 = 0.82432\]
2. Confidence Interval (Cl):
\[Cl_{99\%} = \bar{x} \pm ME_{99\%} = 12.6 \pm 0.82432\]
-Batas Bawah: 12.6 - 0.82432 = 11.7757
-Batas Atas: 12.6 + 0.82432 = 13.42432
Cl 99% = [11.77568, 13.4243]| Tingkat.Kepercayaan | Batas.Bawah | Batas.Atas |
|---|---|---|
| 90% | 12.0736 | 13.1264 |
| 95% | 11.9728 | 13.2272 |
| 99% | 11.7757 | 13.4243 |
1.3 Visualisasi Perbandingan Confidence Interval
• Grafik menampilkan perbandingan confidence interval 90%, 95%, dan 99% untuk rata-rata jumlah transaksi harian per pengguna.
• Titik pada setiap garis menunjukkan rata-rata sampel sebesar 12,6 transaksi.
• Garis horizontal berwarna merepresentasikan rentang confidence interval pada masing-masing tingkat kepercayaan.
• Confidence interval 90% memiliki rentang paling sempit, sedangkan confidence interval 99% memiliki rentang paling lebar.
• Semakin tinggi tingkat kepercayaan, semakin lebar interval estimasi, yang menunjukkan meningkatnya tingkat kehati-hatian.
• Visualisasi ini membantu manajemen dalam memahami tingkat ketidakpastian estimasi saat mengevaluasi dampak fitur baru terhadap aktivitas transaksi pengguna.| Tingkat Kepercayaan | Margin of Error (ME) | Batas Bawah | Batas Atas | Lebar Interval |
|---|---|---|---|---|
| 90% | 0.5264 | 12.0736 | 13.1264 | 1.0528 |
| 95% | 0.6272 | 11.9728 | 13.2272 | 1.2544 |
| 99% | 0.8243 | 11.7757 | 13.4243 | 1.6486 |
1.4 Interpretasi Hasil dalam Konteks Bisnis Analitik
• Dengan tingkat kepercayaan 90%, rata-rata transaksi harian per pengguna diperkirakan berada di kisaran 12.07 hingga 13.13 transaksi.
• Pada tingkat kepercayaan yang lebih tinggi (95% dan 99%), interval menjadi lebih lebar, mencerminkan trade-off antara tingkat keyakinan dan presisi estimasi.
Dari sudut pandang bisnis:
• Interval yang lebih sempit mendukung pengambilan keputusan cepat.
• Interval yang lebih lebar memberikan perlindungan risiko yang lebih tinggi dalam perencanaan strategis.
• Rata-rata transaksi yang konsisten di atas 12 menunjukkan bahwa fitur baru memiliki indikasi dampak positif terhadap aktivitas pengguna.
Kesimpulan Akhir
Dengan menggunakan Z-Confidence Interval, dapat disimpulkan bahwa rata-rata jumlah transaksi harian per pengguna setelah peluncuran fitur baru berada di sekitar 12.6 transaksi, dengan tingkat ketidakpastian yang bergantung pada confidence level yang dipilih. Hasil ini memberikan dasar statistik yang kuat bagi manajemen untuk mengevaluasi performa fitur baru.
| Konsep Kunci | Keterangan |
|---|---|
| Trade-off Kritis | Analisis menunjukkan adanya trade-off fundamental: Semakin tinggi Keyakinan (Confidence), semakin rendah Presisi (Interval semakin lebar). |
| Pilihan Optimal | CI 95% adalah standar industri yang menawarkan keseimbangan kuat antara risiko kesalahan (5%) dan interval yang cukup sempit untuk strategi bisnis. |
| Rekomendasi Tindakan | Jika target KPI > 13.5, target tidak mungkin tercapai. Jika target 12.5, semua interval menunjukkan target tersebut sangat mungkin dicapai. |
2 Case Study 2 ~ Confidence Interfal of Mean
Konteks Masalah
membahas analisis waktu penyelesaian tugas pengguna pada sebuah aplikasi mobile baru oleh tim UX Research. Dengan data dari 12 pengguna dan simpangan baku populasi yang tidak diketahui, analisis dilakukan untuk mengestimasi rata-rata waktu penyelesaian tugas menggunakan confidence interval sebagai dasar evaluasi pengalaman pengguna.
Analisis Data Awal
Data waktu penyelesaian tugas (dalam menit) dari 12 pengguna:
8.4, 7.9, 9.1, 8.7, 8.2, 9.0, 7.8, 8.5, 8.9, 8.1, 8.6, 8.3
• Ukuran Sampel (n): 12
• Rata-rata Sampel \((\bar{x}): \frac{\sum x}{n} = \mathbf{8.4583}\)
• Standar Deviasi Sampel (s): \(\mathbf{0.4188}\)
• Derajat Kebebasan (df): n - 1 = \(\mathbf{11}\)
\(SE = \frac{0.4188}{\sqrt{12}} = \frac{0.4188}{3.4641} = \mathbf{0.1209}\)
2.1 Identifikasi Uji Statistik yang Benar
Uji Statistik: One-Sample t-test (Distribusi t-Student)
Justifikasi:
Simpangan baku populasi (σ) tidak diketahui, sehingga estimasi dilakukan menggunakan simpangan baku sampel.
Ukuran sampel kecil (n = 12 < 30), sehingga distribusi t-Student lebih tepat dibanding distribusi normal.
Tujuan analisis adalah estimasi rata-rata populasi, bukan pengujian hipotesis.
Oleh karena itu, rumus yang digunakan:
\(CI = \bar{x} \pm t_{\alpha/2, df} \left( \frac{s}{\sqrt{n}} \right)\)
2.2 Perhitungan Confidence Intervals (Cl)
A. Confidence Interval 90%
\(t_{0.05,11} = 1.796\)
\(ME_{90\%} = 1.796 \times 0.1209 = 0.2171\)
-Batas Bawah: 8.4583 - 0.2171 = 8.2412
-Batas Atas: 8.4583 + 0.2171 = 8.6754
Cl 90%: [8.4583, 8.6754]
B. Confidence Interval 95%
\(t_{0.025,11} = 2.201\)
\(ME_{95\%} = 2.201 \times 0.1209 = 0.2661\)
-Batas Bawah: 8.4583 - 0.2661 = 8.1922
-Batas Atas: 8.4583 + 0.2661 = 8.7244
Cl 95%: [8.1922, 8.7244]
C. Confidence Interval 99%
\(t_{0.005,11} = 3.106\)
\(ME_{99\%} = 3.106 \times 0.1209 = 0.3755\)
-Batas Bawah: 8.4583 - 0.3755 = 8.0828
-Batas Atas: 8.4583 + 0.3755 = 8.8338
Cl 99%: [8.0828, 8.8338]
2.3 Visualisasi Confidence Interval
Secara sederhana, grafik ini memberitahu kita bahwa:
“Meskipun hasil tes kita menunjukkan 8,46 menit, jangan kaget jika di lapangan nanti rata-ratanya bisa sedikit lebih rendah (8,08) atau sedikit lebih tinggi (8,83) menit. Namun, hampir mustahil rata-ratanya akan lari jauh dari angka-angka tersebut.”
• Titik Hitam (Pusat Data):
Ini adalah nilai rata-rata sampel kita, yaitu 8,46 menit. Ini adalah “tebakan terbaik” kita saat ini mengenai waktu penyelesaian tugas oleh pengguna.
• Garis Horizontal (Rentang Keamanan):
Garis-garis berwarna ini menunjukkan rentang di mana rata-rata populasi pengguna yang sebenarnya kemungkinan besar berada. Kita menyebutnya “rentang keamanan” agar kita tidak salah mengambil kesimpulan hanya dari sedikit orang.
• Semakin Tinggi Keyakinan, Semakin Lebar Garisnya:
• Warna Hijau (90%): Garisnya paling pendek. Artinya, kita cukup presisi, tapi ada risiko 10% kalau rata-rata aslinya meleset dari rentang ini.
• Warna Biru (95%): Ini adalah standar emas dalam riset. Rentangnya sedikit lebih lebar untuk memberi kita ruang aman yang lebih besar (hanya risiko 5% untuk meleset).
• Warna Merah (99%): Garisnya paling panjang. Di sini kita sangat berhati-hati. Kita memperlebar rentang agar hampir 100% yakin bahwa rata-rata yang sebenarnya masuk dalam cakupan ini.
Kesimpulan: Jika target performa aplikasi kita adalah waktu di bawah 8 menit, maka hasil ini menunjukkan kita belum mencapai target. Mengapa? Karena bahkan pada tingkat keyakinan paling ketat pun (99%), batas bawah kita masih di angka 8,08 menit. Kita perlu melakukan optimasi lebih lanjut pada desain aplikasi.
| Tingkat Kepercayaan | t-Score (df=11) | Margin of Error | Batas Bawah | Batas Atas |
|---|---|---|---|---|
| 90% | 1.7959 | 0.2182 | 8.2401 | 8.6766 |
| 95% | 2.2010 | 0.2675 | 8.1909 | 8.7258 |
| 99% | 3.1058 | 0.3774 | 8.0809 | 8.8357 |
2.4 Pengaruh Ukuran Sampel dan Tingkat Kepercayaan
A. Pengaruh Ukuran Sampel (Sample Size)
• Sampel kecil (n = 12) → Standard Error relatif besar
• Jika jumlah pengguna ditambah, maka:
• SE menurun
• CI menjadi lebih sempit
• Estimasi rata-rata menjadi lebih presisi
B. Pengaruh Tingkat Kepercayaan (Confidence Level)
• CI 90% → interval paling sempit
• CI 95% → interval lebih lebar
• CI 99% → interval paling lebar
Semakin tinggi tingkat kepercayaan, semakin besar nilai t → margin of error meningkat.
Interpretasi dalam Konteks UX Research
• Rata-rata waktu penyelesaian tugas pengguna diperkirakan sekitar 8.46 menit.
• Dengan tingkat kepercayaan 95%, waktu rata-rata populasi berada antara 8.20 hingga 8.72 menit.
• Interval yang relatif sempit menunjukkan konsistensi pengalaman pengguna.
• Hasil ini dapat digunakan sebagai baseline UX performance untuk membandingkan versi aplikasi selanjutnya.
3 Case Study 3 ~ Confidence Interval for a Proportion (A/B Testing)
Konteks Masalah
Sebuah tim data science melakukan A/B testing pada desain tombol Call-To-Action (CTA) baru. Tujuannya adalah mengukur proporsi pengguna yang mengklik CTA.
Analisis Data Awal
Eksperimen desain tombol Call-To-Action (CTA) menghasilkan data berikut:
• Total pengguna (n): 400
• Pengguna yang mengklik CTA (x): 156
3.1 Penghitungan Proposri Sampel \((\hat{p})\)
Proporsi sampel \((\hat{p})\) dihitung dengan membagi jumlah keberhasilan (klik) dengan total ukuran sampel.
\((\hat{p})\) = \(\frac{x}{n}\) = \(\frac{156}{400}\) = \(\mathbf{0.39}\) (atau 39%)
3.2 Penghitungan Confidence Interval (Cl) untuk Proporsi
Rumus Umum:
\[CI = \hat{p} \pm Z_{\alpha/2} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\]
Langkah Pertama: Hitung Standard Error (SE)
\[SE = \sqrt{\frac{0.39 \times (1-0.39)}{400}} = \sqrt{\frac{0.39 \times 0.61}{400}} = \sqrt{\frac{0.2379}{400}} = \sqrt{0.00059475} = 0.0244\]
Langkah Kedua: Tentukan Margin of Error (ME) untuk setiap tingkat kepercayaan
A. Confidence Interval 90%
\[ z_{0.05} = 1.645 \]
\[ ME = 1.645 \times 0.0244 = 0.0401 \]
\[ CI_{90\%} = (0.39 - 0.0401,\; 0.39 + 0.0401) \]
\[ CI_{90\%} = (0.3499,\; 0.4301) \]
B. Confidence Interval 95%
\[ z_{0.025} = 1.96 \]
\[ ME = 1.96 \times 0.0244 = 0.0478 \]
\[ CI_{95\%} = (0.39 - 0.0478,\; 0.39 + 0.0478) \]
\[ CI_{95\%} = (0.3422,\; 0.4378) \]
C. Confidence Interval 99%
\[ z_{0.005} = 2.576 \]
\[ ME = 2.576 \times 0.0244 = 0.0629 \]
\[ CI_{99\%} = (0.39 - 0.0629,\; 0.39 + 0.0629) \]
\[ CI_{99\%} = (0.3271,\; 0.4529) \]
3.3 Visualisasi dan Perbandingan Interval
• Grafik menampilkan confidence interval 90%, 95%, dan 99% untuk proporsi pengguna yang mengklik tombol CTA.
• Titik pada setiap tingkat kepercayaan menunjukkan estimasi proporsi klik rata-rata sebesar 0,39.
• Garis horizontal merepresentasikan rentang confidence interval pada masing-masing tingkat kepercayaan.
• Confidence interval 90% memiliki rentang paling sempit, sedangkan confidence interval 99% memiliki rentang paling lebar.
• Semakin tinggi tingkat kepercayaan, semakin besar ketidakpastian estimasi yang ditunjukkan oleh lebar interval.
• Visualisasi ini membantu tim produk memahami trade-off antara ketelitian dan tingkat keyakinan dalam pengambilan keputusan A/B testing.
| Tingkat Kepercayaan | Z-Score | Margin of Error (ME) | Batas Bawah | Batas Atas |
|---|---|---|---|---|
| 90% | 1.645 | 4.01% | 34.99% | 43.01% |
| 95% | 1.960 | 4.78% | 34.22% | 43.78% |
| 99% | 2.576 | 6.28% | 32.72% | 45.28% |
3.4 Pengaruh Tingkat Kepercayaan pada Pengambilan Keputusan Produk
Confidence level rendah (90%)
→ Interval lebih sempit
→ Keputusan lebih cepat tetapi risiko kesalahan lebih tinggi
Confidence level menengah (95%)
→ Keseimbangan antara presisi dan kehati-hatian
→ Umum digunakan dalam eksperimen produk
Confidence level tinggi (99%)
→ Interval lebih lebar
→ Keputusan sangat konservatif, cocok untuk perubahan produk berdampak besar
Interpretasi dalam Konteks A/B Testing
• Estimasi proporsi klik CTA berada di sekitar 39%.
• Dengan confidence level 95%, proporsi klik pengguna diperkirakan berada antara 34.22% hingga 43.78%.
• Informasi ini membantu tim produk dalam:
• Menilai efektivitas desain CTA baru
• Membandingkan hasil dengan desain lama
• Mengambil keputusan berbasis risiko dan tingkat keyakinan statistik
4 Case Study 4 ~ Precision Comparison (Z-Test vs t-Test)
Konteks Masalah
Dua tim data mengukur API latency (ms) dengan ukuran sampel yang sama, tetapi informasi standar deviasi berbeda. Tujuannya adalah membandingkan presisi interval kepercayaan yang dihasilkan oleh Z-test dan t-test.
Diketahui
Team A
• Sample size: \(n = 36\)
• Sample mean: \(\bar{x} = 210\)
• Population standard deviation (known): \(\sigma = 24\)
Team B
• Sample size: \(n = 36\)
• Sample mean: \(\bar{x} = 210\)
• Sample standard deviation (unknown population): \(s = 24\)
4.1 Identifikasi Uji Statistik
| Tim | Kondisi | Uji Statistik |
|---|---|---|
| Team A | Standar deviasi populasi diketahui | Z-Test / Z-Interval |
| Team B | Standar deviasi populasi tidak diketahui | t-Test / t-Interval |
Penjelasan
• Z-test digunakan jika o populasi diketahui.
• t-test digunakan jika o tidak diketahui dan diganti dengan s, sehingga memperhitungkan ketidakpastian tambahan.
4.2 Perhitungan Confidence Interval (Cl)
Karena nilai 𝜎 = 𝑠 = 24 σ = s = 24 dan 𝑛= 36 n = 36:
\[ SE = \frac{24}{\sqrt{36}} = \frac{24}{6} = 4 \]
Team A (Z-Test):
\(ME_{90\%} = 1.645 \times 4 = 6.5800\)
\(ME_{95\%} = 1.960 \times 4 = 7.8400\)
\(ME_{99\%} = 2.576 \times 4 = 10.3040\)
Team B (t-Test):
\(ME_{90\%} = 1.690 \times 4 = 6.7600\)
\(ME_{95\%} = 2.030 \times 4 = 8.1200\)
\(ME_{99\%} = 2.724 \times 4 = 10.8960\)
| Tingkat Kepercayaan | Z-Score (Team A) | t-Score (Team B, df=35) | ME Team A (Z-Test) | ME Team B (t-Test) |
|---|---|---|---|---|
| 90% | 1.645 | 1.690 | 6.58 | 6.76 |
| 95% | 1.960 | 2.030 | 7.84 | 8.12 |
| 99% | 2.576 | 2.724 | 10.30 | 10.90 |
1. Perhitungan Team A (Z-Test)
Rata-rata \((\bar{x})\) = 210
Tingkat Kepercayaan 90%
(ME = 6.58):
• Batas Bawah: 210 - 6.58 = 203.42
• Batas Atas: 210 + 6.58 = 216.58
• Hasil: [203.42, 216.58]
Tingkat Kepercayaan 95%
(ME = 7.84):
• Batas Bawah: 210 - 7.84 = 202.16
• Batas Atas: 210 + 7.84 = 217.84
• Hasil: [202.16, 217.84]
Tingkat Kepercayaan 99%
(ME = 10.30):
• Batas Bawah: 210 - 10.30 = 199.70
• Batas Atas: 210 + 10.30 = 220.30
• Hasil: [199.70, 220.30]
2. Perhitungan Team B (t-Test)
Rata-rata \((\bar{x})\) = 210
Tingkat Kepercayaan 90%
(ME = 6.76):
• Batas Bawah: 210 - 6.76 = 203.24
• Batas Atas: 210 + 6.76 = 216.76
• Hasil: [203.24, 216.76]
Tingkat Kepercayaan 95%
(ME = 8.12):
• Batas Bawah: 210 - 8.12 = 201.88
• Batas Atas: 210 + 8.12 = 218.12
• Hasil: [201.88, 218.12]
Tingkat Kepercayaan 99%
(ME = 10.90):
• Batas Bawah: 210 - 10.90 = 199.10
• Batas Atas: 210 + 10.90 = 220.90
• Hasil: [199.10, 220.90]
| Tingkat Kepercayaan | Rentang Team A (Z-Test) | Rentang Team B (t-Test) |
|---|---|---|
| 90% | [203.42, 216.58] | [203.24, 216.76] |
| 95% | [202.16, 217.84] | [201.88, 218.12] |
| 99% | [199.70, 220.30] | [199.10, 220.90] |
4.3 Visualisasi Perbandingan
• Visualisasi membandingkan confidence interval (CI) latensi API antara Tim A (Uji Z) dan Tim B (Uji t) pada tingkat kepercayaan 90%, 95%, dan 99%.
• Titik tengah pada setiap interval menunjukkan rata-rata latensi API sebesar 210 milidetik untuk kedua tim.
• Semakin tinggi tingkat kepercayaan, interval kepercayaan semakin lebar, menandakan ketidakpastian estimasi yang meningkat.
• Uji t (Tim B) menghasilkan interval yang sedikit lebih lebar dibandingkan Uji Z (Tim A) karena simpangan baku populasi tidak diketahui dan diestimasi dari sampel.
• Perbedaan lebar interval menunjukkan bahwa metode statistik yang digunakan memengaruhi presisi estimasi, meskipun ukuran sampel dan rata-rata sama.
• Visualisasi ini membantu menegaskan bahwa Uji Z lebih presisi ketika simpangan baku populasi diketahui, sedangkan Uji t lebih konservatif saat simpangan baku populasi tidak diketahui.
| Aspek Perbandingan | Team A (Z-Distribution) | Team B (t-Distribution) |
|---|---|---|
| Metode Statistik | Z-Test (σ diketahui) | t-Test (σ tidak diketahui) |
| Nilai Kritis (95%) | 1.960 | 2.030 |
| Margin of Error (95%) | 7.84 | 8.12 |
| Rentang Interval (95%) | [202.16, 217.84] | [201.88, 218.12] |
| Presisi | Lebih Tinggi | Lebih Rendah |
4.4 Penjelasan Mengapa Lebar Interval Berbeda
Z-Test:
• Menggunakan standar deviasi populasi
• Ketidakpastian lebih kecil
• Interval lebih presisi (sempit)
t-Test:
• Mengestimasi variasi dari sampel
• Menambahkan ketidakpastian ekstra
• Interval menjadi lebih lebar
• Semakin tinggi confidence level, interval semakin lebar untuk kedua metode
Kesimpulan Utama
• Walaupun rata-rata, ukuran sampel, dan nilai variasi sama, jenis uji statistik memengaruhi lebar confidence interval.
• Z-Test lebih presisi, tetapi hanya valid jika σ diketahui.
• t-Test lebih konservatif, sehingga lebih aman saat σ tidak diketahui.
• Dalam praktik data science, t-test lebih sering digunakan karena kondisi dunia nyata jarang mengetahui σ populasi.
5 Case Study 5 ~ One-Sided Confidence Interval (Population Proportion)
Konteks Masalah
Sebuah perusahaan Software as a Service (SaaS) ingin memastikan bahwa setidaknya 70% pengguna aktif mingguan menggunakan fitur premium. Manajemen hanya tertarik pada batas bawah (lower bound) estimasi proporsi tersebut.
Data Eksperimen
• Total pengguna:
\(n = 250\)
• Pengguna premium aktif:
\(x = 185\)
• Target bisnis:
\(p \ge 0.70\)
5.1 Identifikasi Jenis Confidence Interval dan Uji Statistik
Jenis Confidence Interval
• One-sided (lower) confidence interval
• Untuk proporsi populasi (population proportion)
Uji Statistik yang Tepat
• Z-confidence interval for population proportion
Alasan Pemilihan
Variabel yang diestimasi adalah proporsi, bukan rata-rata.
Ukuran sampel besar:
\(np = 250(0.74) = 185 \ge 5,\quad n(1-p)=65 \ge 5\)
→ Pendekatan distribusi normal (Z) valid.
- Manajemen hanya peduli apakah proporsi minimal telah melampaui 70%.
5.2 Perhitungan One-Sided Lower Confidence Interval
Langkah 1: Estimasi Proporsi Sampel
\(\hat{p} = \frac{x}{n} = \frac{185}{250} = 0.74\)
Langkah 2: Standard Error (SE)
\(SE = \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} = \sqrt{\frac{0.74(0.26)}{250}}\)
\(SE = \sqrt{0.0007696} \approx 0.0277\)
Langkah 3: Rumus Lower One-Sided CI
\(\text{Lower Bound} = \hat{p} - z_\alpha \times SE\)
A. One-Sided CI 90%
\(z_{0.10} = 1.282\)
\(LB_{90\%} = 0.74 - (1.282 \times 0.0277)\)
\(LB_{90\%} = 0.74 - 0.0355 = \boxed{0.7045}\)
B. One-Sided CI 95%
\(z_{0.05} = 1.645\)
\(LB_{95\%} = 0.74 - (1.645 \times 0.0277)\)
\(LB_{95\%} = 0.74 - 0.0456 = \boxed{0.6944}\)
C. One-Sided CI 99%
\(z_{0.01} = 2.33\)
\(LB_{99\%} = 0.74 - (2.33 \times 0.0277)\)
\(LB_{99\%} = 0.74 - 0.0645 = \boxed{0.6755}\)
| Tingkat.Kepercayaan | Batas.Bawah |
|---|---|
| 90% | 0.7045 |
| 95% | 0.6944 |
| 99% | 0.6755 |
5.3 Visualisasi Lower Bounds
• Grafik menampilkan batas bawah (lower bound) one-sided confidence interval proporsi pengguna premium pada tingkat kepercayaan 90%, 95%, dan 99%.
• Titik pada setiap tingkat kepercayaan menunjukkan nilai batas bawah estimasi proporsi pengguna premium.
• Garis vertikal putus-putus merepresentasikan target bisnis sebesar 70%.
• Pada confidence level 90%, batas bawah berada di atas 70%, sehingga target bisnis dapat dinyatakan terpenuhi secara statistik.
• Pada confidence level 95% dan 99%, batas bawah berada di bawah 70%, sehingga target belum dapat dijamin dengan tingkat keyakinan yang lebih tinggi.
• Grafik menunjukkan bahwa semakin tinggi tingkat kepercayaan, estimasi batas bawah menjadi semakin rendah (lebih konservatif).
• Visualisasi ini membantu manajemen dalam menentukan tingkat keyakinan yang sesuai dengan toleransi risiko dalam pengambilan keputusan bisnis.
5.4 Evaluasi Target 70%
Analisis Statistik
• CI 90% → Lower bound = 0.7045 ≥ 0.70 (YA)
• CI 95% → Lower bound = 0.6944 < 0.70 (TIDAK)
• CI 99% → Lower bound = 0.6755 < 0.70 (TIDAK)
Kesimpulan Bisnis (Business Analytics Interpretation)
Dengan tingkat keyakinan 90%, perusahaan dapat menyatakan bahwa setidaknya 70% pengguna aktif menggunakan fitur premium.
Pada tingkat keyakinan yang lebih konservatif (95% dan 99%), data belum cukup kuat untuk menjamin target 70%.
Keputusan manajerial:
• 90% confidence → cukup untuk keputusan operasional
• ≥95% confidence → disarankan menambah data atau meningkatkan adopsi fitur premium
Kesimpulan Akhir
Target 70% hanya terpenuhi secara statistik pada tingkat kepercayaan 90%. Untuk klaim yang lebih kuat, diperlukan sampel tambahan atau peningkatan performa produk.