Assigment ~ week 13
STATISTIKA
SAINS DATA ~ ITSB
1 Studi Kasus 1
Interval Kepercayaan untuk Mean, \(\sigma\) Diketahui: Sebuah platform e-commerce ingin memperkirakan rata-rata jumlah transaksi harian per pengguna setelah meluncurkan fitur baru. Berdasarkan data historis skala besar, standar deviasi populasi telah diketahui.
- \(\sigma\) = 3.2 (Standar deviasi populasi)
- \(n\) = 100 (Ukuran sampel)
- \(\bar{x}\) = 12.6 (Rata-rata sampel)
Tugas
- Identifikasi uji statistik yang tepat dan berikan alasan pilihan Anda.
- Hitung Interval Kepercayaan (Confidence Intervals) untuk:
- \(90\%\)
- \(95\%\)
- \(99\%\)
- Buat visualisasi perbandingan dari ketiga interval kepercayaan tersebut.
- Interpretasikan hasilnya dalam konteks analisis bisnis.
1.1 Identifikasi Uji Statistik
Uji yang paling tepat digunakan adalah One-Sample Z-Test for the Mean (Z-Interval).
Justifikasi:
\(\sigma\) Diketahui: Standar deviasi populasi (\(\sigma = 3.2\)) sudah diketahui dari data historis.
Ukuran Sampel Besar: Sampel (\(n = 100\)) memenuhi kriteria Teorema Limit Pusat (\(n \geq 30\)), sehingga distribusi rata-rata sampel akan mendekati distribusi normal.
1.2 Perhitungan Confidence Interval (CI)
Rumus dasar yang digunakan adalah:\[\text{CI} = \bar{x} \pm z \left( \frac{\sigma}{\sqrt{n}} \right)\]Di mana Standar Error (\(SE\)) adalah \(\frac{3.2}{\sqrt{100}} = 0.32\).
1.3 Visualisasi Perbandingan Interval Kepercayaan
1.4 Interpretasi
Akurasi Estimasi: Kita 95% yakin bahwa rata-rata transaksi harian pengguna yang sebenarnya berada di kisaran 11.97 hingga 13.23. Angka ini memberikan dasar bagi tim produk untuk memvalidasi apakah fitur baru berhasil mencapai target transaksi tertentu.
Trade-off (Pertukaran): Semakin tinggi tingkat kepercayaan (misal 99%), intervalnya semakin lebar. Dalam bisnis, interval yang terlalu lebar kurang informatif, sehingga tingkat 95% biasanya dianggap sebagai keseimbangan terbaik antara kepastian dan presisi.
2 Studi Kasus 2
Interval Kepercayaan untuk Mean, \(\sigma\) Tidak Diketahui: Tim Riset UX (User Experience) menganalisis waktu penyelesaian tugas (dalam menit) untuk aplikasi seluler baru. Data dikumpulkan dari 12 pengguna:
\(8.4, 7.9, 9.1, 8.7, 8.2, 9.0, 7.8, 8.5, 8.9, 8.1, 8.6, 8.3\)
Tugas
- Identifikasi uji statistik yang tepat dan jelaskan alasannya.
- Hitung Interval Kepercayaan untuk:
- \(90\%\)
- \(95\%\)
- \(99\%\)
- Visualisasikan ketiga interval tersebut dalam satu plot.
- Jelaskan bagaimana ukuran sampel dan tingkat kepercayaan memengaruhi lebar interval.
2.1 Identifikasi Uji Statistik
Uji statistik yang tepat adalah One-Sample t-Test (t-distribution).
Alasannya:
Populasi Standar Deviasi (\(\sigma\)) Tidak Diketahui: Kita hanya memiliki data sampel.
Ukuran Sampel Kecil: Jumlah sampel \(n = 12\) (kurang dari 30).
Tujuan: Kita ingin mengestimasi rata-rata populasi berdasarkan rata-rata sampel dengan interval kepercayaan tertentu.
2.2 Perhitungan Confidence Interval (CI)
Langkah Awal: Statistik DeskriptifBerdasarkan data: 8.4, 7.9, 9.1, 8.7, 8.2, 9.0, 7.8, 8.5, 8.9, 8.1, 8.6, 8.3
Rata-rata sampel (\(\bar{x}\)): 8.458
Standar deviasi sampel (\(s\)): 0.408
Ukuran sampel (\(n\)): 12
Derajat kebebasan (\(df\)): \(n - 1 = 11\)
Hasil Interval Kepercayaan
Menggunakan rumus: \(CI = \bar{x} \pm t_{\alpha/2} \cdot (\frac{s}{\sqrt{n}})\)
2.3 Visualisasi Interval Kepercayaan
Pada plot yang ditampilkan:
Setiap garis horizontal merepresentasikan satu interval kepercayaan.
Titik di tengah adalah rata-rata sampel.
Terlihat jelas bahwa interval 99% paling lebar, diikuti 95%, lalu 90%.
2.4 Interpretasi
Akurasi Estimasi: Kita 95% yakin bahwa rata-rata transaksi harian pengguna yang sebenarnya berada di kisaran 11.97 hingga 13.23. Angka ini memberikan dasar bagi tim produk untuk memvalidasi apakah fitur baru berhasil mencapai target transaksi tertentu.
Trade-off (Pertukaran): Semakin tinggi tingkat kepercayaan (misal 99%), intervalnya semakin lebar. Dalam bisnis, interval yang terlalu lebar kurang informatif, sehingga tingkat 95% biasanya dianggap sebagai keseimbangan terbaik antara kepastian dan presisi.
3 Studi Kasus 3
Interval Kepercayaan untuk Proporsi, A/B Testing: Sebuah tim sains data menjalankan uji A/B pada desain tombol Call-To-Action (CTA) yang baru. Eksperimen menghasilkan:
\(n\) = 400 (Total pengguna)
\(x\) = 156 (Pengguna yang mengklik CTA)
Tugas:
- Hitung proporsi sampel \(\hat{p}\).
- Hitung Interval Kepercayaan untuk proporsi pada tingkat:
- \(90\%\)
- \(95\%\)
- \(99\%\)
- Visualisasikan dan bandingkan ketiga interval tersebut.
- Jelaskan bagaimana tingkat kepercayaan memengaruhi pengambilan keputusan dalam eksperimen produk.
3.1 Perhitungan Statistik
Tugas 1: Menghitung Sample Proportion (\(\hat{p}\))
Proporsi sampel adalah jumlah keberhasilan dibagi dengan total sampel.
\[\hat{p} = \frac{x}{n} = \frac{156}{400} = 0.39\] Interpretasi: Sekitar 39% pengguna mengklik tombol CTA tersebut.
Tugas 2: Menghitung Confidence Intervals (CI)
Rumus Interval Kepercayaan untuk proporsi adalah:
\[\hat{p} \pm z \times \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\]
Di mana Standard Error (\(SE\)) adalah \(\sqrt{\frac{0.39 \times 0.61}{400}} \approx 0.0244\).
3.2 Visualisasi dan Perbandingan
Tugas 3:
Perbandingan: Semakin tinggi tingkat kepercayaan, rentang interval semakin lebar. Hal ini terjadi karena untuk mendapatkan kepastian yang lebih tinggi (99%), kita harus memperluas rentang estimasi agar nilai populasi yang sebenarnya tidak “luput”.
3.3 Analisis Pengambilan Keputusan
Tugas 4: Pengaruh Confidence Level pada Keputusan Produk
Dalam eksperimen produk, pemilihan tingkat kepercayaan adalah tentang menyeimbangkan risiko dan kepastian:
1. Trade-off Presisi vs. Kepastian: Jika kita ingin sangat yakin (99%), rentang perkiraan kita menjadi sangat lebar. Ini membuat hasil tes menjadi kurang “sensitif” untuk mendeteksi perubahan kecil.
2. Risiko Bisnis: * Menggunakan 90% mungkin cukup untuk fitur berisiko rendah (misal: ganti warna tombol). Kita berani mengambil risiko 10% salah demi kecepatan eksekusi. Menggunakan 99% diperlukan untuk perubahan besar yang berisiko tinggi (misal: skema harga baru), di mana kesalahan kecil bisa berdampak fatal pada pendapatan.
3. Kesimpulan: Semakin tinggi Confidence Level, semakin kecil kemungkinan kita secara tidak sengaja mengimplementasikan fitur yang sebenarnya tidak efektif (mengurangi False Positive).
4 Studi Kasus 4
Perbandingan Presisi (Uji-Z vs Uji-t): Dua tim data mengukur latensi API (dalam milidetik) di bawah kondisi yang berbeda.
Tim A:
\(n\) = 36 (Ukuran sampel)
\(\bar{x}\)= 210 (Rata-rata sampel)
\(\sigma\) = 24 (Standar deviasi populasi diketahui)
Tim B:
\(n\) = 36 (Ukuran sampel)
\(\bar{x}\) = 210 (Rata-rata sampel)
\(s\) = 24 (Standar deviasi sampel)
Tugas:
- Identifikasi uji statistik yang digunakan oleh masing-masing tim.
- Hitung Interval Kepercayaan untuk
- \(90\%\)
- \(95\%\)
- \(99\%\).
- Buat visualisasi yang membandingkan semua interval tersebut.
- Jelaskan mengapa lebar interval berbeda, meskipun data yang digunakan serupa.
4.1 Identifikasi Uji Statistik
Team A menggunakan Z-Test: Karena nilai standar deviasi populasi (\(\sigma\)) diketahui.
Team B menggunakan t-Test: Karena nilai standar deviasi populasi tidak diketahui, sehingga menggunakan standar deviasi sampel (\(s\)).
4.2 Perhitungan Confidence Interval (CI)
Rumus dasar: \(\text{Mean} \pm (\text{Critical Value} \times \text{Standard Error})\)Diketahui: \(n = 36\), \(\bar{x} = 210\), \(\sigma/s = 24\). Maka \(\text{SE} = \frac{24}{\sqrt{36}} = 4\).
4.3 Visualisasi Perbandingan Semua Variabel
4.4 Penjelasan Perbedaan Lebar Interval
Meskipun data (\(\bar{x}, n, \text{angka deviasi}\)) identik, interval Tim B (Uji-t) selalu lebih lebar daripada Tim A (Uji-Z). Mengapa?
Faktor Ketidakpastian: Tim A menggunakan standar deviasi populasi (\(\sigma\)) yang dianggap sebagai nilai absolut yang pasti. Tim B hanya menggunakan standar deviasi sampel (\(s\)) yang mengandung risiko kesalahan karena hanya berasal dari 36 data.
Karakteristik Distribusi-t: Distribusi-t memiliki “ekor” yang lebih tebal (heavier tails) dibandingkan distribusi normal (Z). Ini adalah cara statistik memberikan “penalti” atau kompensasi atas ketidaktahuan kita terhadap parameter populasi asli.
Nilai Kritis: Nilai kritis \(t\) selalu lebih besar daripada nilai \(z\) untuk tingkat kepercayaan yang sama. Contohnya pada 95%, \(t=2.030\) sedangkan \(z=1.96\). Angka pengali yang lebih besar inilah yang membuat interval Tim B lebih lebar (kurang presisi dibandingkan Tim A).
Kesimpulan untuk Keputusan: Tim A memiliki presisi yang lebih tinggi karena informasi yang mereka miliki lebih lengkap (tahu data populasi). Tim B harus menerima rentang yang lebih lebar sebagai konsekuensi dari penggunaan data sampel.
5 Studi Kasus 5
Interval Kepercayaan Satu Sisi (One-Sided): Sebuah perusahaan SaaS (Software as a Service) ingin memastikan bahwa setidaknya 70% dari pengguna aktif mingguan menggunakan fitur premium.
Dari eksperimen:
\(n\) = 250 (Total pengguna)
\(x\) = 185 (Pengguna premium aktif)
Manajemen hanya tertarik pada batas bawah (lower bound) dari estimasi tersebut.
Tugas:
- Identifikasi jenis Interval Kepercayaan dan uji yang tepat.
- Hitung Interval Kepercayaan satu sisi (batas bawah) pada tingkat:
- \(90\%\)
- \(95\%\)
- \(99\%\)
- Visualisasikan batas bawah untuk semua tingkat kepercayaan.
- Tentukan apakah target 70% tersebut terpenuhi secara statistik.
5.1 Identifikasi Tipe Confidence Interval (CI)
Tipe CI: One-Sided (Satu Sisi) Lower Confidence Interval. Kita hanya peduli pada batas bawah karena perusahaan ingin memastikan proporsi setidaknya (minimal) 70%.
Uji Statistik: One-Sample Z-Test for Proportions. Kita menggunakan distribusi Z karena ukuran sampel cukup besar (\(n = 250\)).
5.2 Perhitungan Batas Bawah (Lower Bound)
Diketahui:
\(n = 250\)
\(x = 185\)
Proporsi sampel (\(\hat{p}\)) = \(\frac{185}{250} = 0.74\) (74%)
Rumus Batas Bawah CI Satu Sisi:
\[LB = \hat{p} - z_{\alpha} \cdot \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\]
5.3 Visualisasi Batas Bawah
5.4 Kesimpulan
Apakah Target 70% Terpenuhi?Penentuan terpenuhinya target tergantung pada tingkat kepercayaan yang dipilih oleh manajemen:
Pada Tingkat Kepercayaan 90%: Target Terpenuhi. Batas bawah (70.45%) masih berada di atas target 70%. Kita yakin 90% bahwa setidaknya 70.45% pengguna adalah premium.
Pada Tingkat Kepercayaan 95%: Target Tidak Terpenuhi secara statistik. Batas bawah (69.44%) sedikit di bawah 70%. Walaupun rata-rata sampel kita 74%, ada kemungkinan kecil proporsi asli populasi turun hingga 69.44%.
Pada Tingkat Kepercayaan 99%: Target Tidak Terpenuhi. Batas bawah (67.56%) berada cukup jauh di bawah target.
6 Referensi
Black, K. (2019). Business Statistics: For Contemporary Decision Making. John Wiley & Sons. (Membahas penerapan Z-test dalam konteks industri).
Walpole, R. E., et al. (2012). Probability & Statistics for Engineers & Scientists. Pearson. (Referensi standar untuk Teorema Limit Pusat dan estimasi interval).
Agresti, A. (2018). Statistical Methods for the Social Sciences. Pearson.
Student (William Sealy Gosset). (1908). The Probable Error of a Mean. Biometrika.
Agresti, A. (2018). An Introduction to Categorical Data Analysis. Wiley