Assigment ~ week 13

STATISTIKA

Refantanur_Sains Data

SAINS DATA ~ ITSB


1 Studi Kasus 1

Interval Kepercayaan untuk Mean, \(\sigma\) Diketahui: Sebuah platform e-commerce ingin memperkirakan rata-rata jumlah transaksi harian per pengguna setelah meluncurkan fitur baru. Berdasarkan data historis skala besar, standar deviasi populasi telah diketahui.

  • \(\sigma\) = 3.2 (Standar deviasi populasi)
  • \(n\) = 100 (Ukuran sampel)
  • \(\bar{x}\) = 12.6 (Rata-rata sampel)

Tugas

  1. Identifikasi uji statistik yang tepat dan berikan alasan pilihan Anda.
  2. Hitung Interval Kepercayaan (Confidence Intervals) untuk:
    • \(90\%\)
    • \(95\%\)
    • \(99\%\)
  3. Buat visualisasi perbandingan dari ketiga interval kepercayaan tersebut.
  4. Interpretasikan hasilnya dalam konteks analisis bisnis.

1.1 Identifikasi Uji Statistik

Uji yang paling tepat digunakan adalah One-Sample Z-Test for the Mean (Z-Interval).

Justifikasi:

  • \(\sigma\) Diketahui: Standar deviasi populasi (\(\sigma = 3.2\)) sudah diketahui dari data historis.

  • Ukuran Sampel Besar: Sampel (\(n = 100\)) memenuhi kriteria Teorema Limit Pusat (\(n \geq 30\)), sehingga distribusi rata-rata sampel akan mendekati distribusi normal.

1.2 Perhitungan Confidence Interval (CI)

Rumus dasar yang digunakan adalah:\[\text{CI} = \bar{x} \pm z \left( \frac{\sigma}{\sqrt{n}} \right)\]Di mana Standar Error (\(SE\)) adalah \(\frac{3.2}{\sqrt{100}} = 0.32\).

1.3 Visualisasi Perbandingan Interval Kepercayaan

1.4 Interpretasi

Akurasi Estimasi: Kita 95% yakin bahwa rata-rata transaksi harian pengguna yang sebenarnya berada di kisaran 11.97 hingga 13.23. Angka ini memberikan dasar bagi tim produk untuk memvalidasi apakah fitur baru berhasil mencapai target transaksi tertentu.

Trade-off (Pertukaran): Semakin tinggi tingkat kepercayaan (misal 99%), intervalnya semakin lebar. Dalam bisnis, interval yang terlalu lebar kurang informatif, sehingga tingkat 95% biasanya dianggap sebagai keseimbangan terbaik antara kepastian dan presisi.


2 Studi Kasus 2

Interval Kepercayaan untuk Mean, \(\sigma\) Tidak Diketahui: Tim Riset UX (User Experience) menganalisis waktu penyelesaian tugas (dalam menit) untuk aplikasi seluler baru. Data dikumpulkan dari 12 pengguna:

\(8.4, 7.9, 9.1, 8.7, 8.2, 9.0, 7.8, 8.5, 8.9, 8.1, 8.6, 8.3\)

Tugas

  1. Identifikasi uji statistik yang tepat dan jelaskan alasannya.
  2. Hitung Interval Kepercayaan untuk:
    • \(90\%\)
    • \(95\%\)
    • \(99\%\)
  3. Visualisasikan ketiga interval tersebut dalam satu plot.
  4. Jelaskan bagaimana ukuran sampel dan tingkat kepercayaan memengaruhi lebar interval.

2.1 Identifikasi Uji Statistik

Uji statistik yang tepat adalah One-Sample t-Test (t-distribution).

Alasannya:

  • Populasi Standar Deviasi (\(\sigma\)) Tidak Diketahui: Kita hanya memiliki data sampel.

  • Ukuran Sampel Kecil: Jumlah sampel \(n = 12\) (kurang dari 30).

  • Tujuan: Kita ingin mengestimasi rata-rata populasi berdasarkan rata-rata sampel dengan interval kepercayaan tertentu.

2.2 Perhitungan Confidence Interval (CI)

Langkah Awal: Statistik DeskriptifBerdasarkan data: 8.4, 7.9, 9.1, 8.7, 8.2, 9.0, 7.8, 8.5, 8.9, 8.1, 8.6, 8.3

  • Rata-rata sampel (\(\bar{x}\)): 8.458

  • Standar deviasi sampel (\(s\)): 0.408

  • Ukuran sampel (\(n\)): 12

  • Derajat kebebasan (\(df\)): \(n - 1 = 11\)

Hasil Interval Kepercayaan

Menggunakan rumus: \(CI = \bar{x} \pm t_{\alpha/2} \cdot (\frac{s}{\sqrt{n}})\)

2.3 Visualisasi Interval Kepercayaan

Pada plot yang ditampilkan:

  • Setiap garis horizontal merepresentasikan satu interval kepercayaan.

  • Titik di tengah adalah rata-rata sampel.

  • Terlihat jelas bahwa interval 99% paling lebar, diikuti 95%, lalu 90%.

2.4 Interpretasi

Akurasi Estimasi: Kita 95% yakin bahwa rata-rata transaksi harian pengguna yang sebenarnya berada di kisaran 11.97 hingga 13.23. Angka ini memberikan dasar bagi tim produk untuk memvalidasi apakah fitur baru berhasil mencapai target transaksi tertentu.

Trade-off (Pertukaran): Semakin tinggi tingkat kepercayaan (misal 99%), intervalnya semakin lebar. Dalam bisnis, interval yang terlalu lebar kurang informatif, sehingga tingkat 95% biasanya dianggap sebagai keseimbangan terbaik antara kepastian dan presisi.


3 Studi Kasus 3

Interval Kepercayaan untuk Proporsi, A/B Testing: Sebuah tim sains data menjalankan uji A/B pada desain tombol Call-To-Action (CTA) yang baru. Eksperimen menghasilkan:

\(n\) = 400 (Total pengguna)

\(x\) = 156 (Pengguna yang mengklik CTA)

Tugas:

  1. Hitung proporsi sampel \(\hat{p}\).
  2. Hitung Interval Kepercayaan untuk proporsi pada tingkat:
    • \(90\%\)
    • \(95\%\)
    • \(99\%\)
  3. Visualisasikan dan bandingkan ketiga interval tersebut.
  4. Jelaskan bagaimana tingkat kepercayaan memengaruhi pengambilan keputusan dalam eksperimen produk.

3.1 Perhitungan Statistik

Tugas 1: Menghitung Sample Proportion (\(\hat{p}\))

Proporsi sampel adalah jumlah keberhasilan dibagi dengan total sampel.

\[\hat{p} = \frac{x}{n} = \frac{156}{400} = 0.39\] Interpretasi: Sekitar 39% pengguna mengklik tombol CTA tersebut.

Tugas 2: Menghitung Confidence Intervals (CI)

Rumus Interval Kepercayaan untuk proporsi adalah:

\[\hat{p} \pm z \times \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\]

Di mana Standard Error (\(SE\)) adalah \(\sqrt{\frac{0.39 \times 0.61}{400}} \approx 0.0244\).

3.2 Visualisasi dan Perbandingan

Tugas 3:

Perbandingan: Semakin tinggi tingkat kepercayaan, rentang interval semakin lebar. Hal ini terjadi karena untuk mendapatkan kepastian yang lebih tinggi (99%), kita harus memperluas rentang estimasi agar nilai populasi yang sebenarnya tidak “luput”.

3.3 Analisis Pengambilan Keputusan

Tugas 4: Pengaruh Confidence Level pada Keputusan Produk

Dalam eksperimen produk, pemilihan tingkat kepercayaan adalah tentang menyeimbangkan risiko dan kepastian:

1. Trade-off Presisi vs. Kepastian: Jika kita ingin sangat yakin (99%), rentang perkiraan kita menjadi sangat lebar. Ini membuat hasil tes menjadi kurang “sensitif” untuk mendeteksi perubahan kecil.

2. Risiko Bisnis: * Menggunakan 90% mungkin cukup untuk fitur berisiko rendah (misal: ganti warna tombol). Kita berani mengambil risiko 10% salah demi kecepatan eksekusi. Menggunakan 99% diperlukan untuk perubahan besar yang berisiko tinggi (misal: skema harga baru), di mana kesalahan kecil bisa berdampak fatal pada pendapatan.

3. Kesimpulan: Semakin tinggi Confidence Level, semakin kecil kemungkinan kita secara tidak sengaja mengimplementasikan fitur yang sebenarnya tidak efektif (mengurangi False Positive).


4 Studi Kasus 4

Perbandingan Presisi (Uji-Z vs Uji-t): Dua tim data mengukur latensi API (dalam milidetik) di bawah kondisi yang berbeda.

Tim A:

\(n\) = 36 (Ukuran sampel)

\(\bar{x}\)= 210 (Rata-rata sampel)

\(\sigma\) = 24 (Standar deviasi populasi diketahui)

Tim B:

\(n\) = 36 (Ukuran sampel)

\(\bar{x}\) = 210 (Rata-rata sampel)

\(s\) = 24 (Standar deviasi sampel)

Tugas:

  1. Identifikasi uji statistik yang digunakan oleh masing-masing tim.
  2. Hitung Interval Kepercayaan untuk
    • \(90\%\)
    • \(95\%\)
    • \(99\%\).
  3. Buat visualisasi yang membandingkan semua interval tersebut.
  4. Jelaskan mengapa lebar interval berbeda, meskipun data yang digunakan serupa.

4.1 Identifikasi Uji Statistik

Team A menggunakan Z-Test: Karena nilai standar deviasi populasi (\(\sigma\)) diketahui.

Team B menggunakan t-Test: Karena nilai standar deviasi populasi tidak diketahui, sehingga menggunakan standar deviasi sampel (\(s\)).

4.2 Perhitungan Confidence Interval (CI)

Rumus dasar: \(\text{Mean} \pm (\text{Critical Value} \times \text{Standard Error})\)Diketahui: \(n = 36\), \(\bar{x} = 210\), \(\sigma/s = 24\). Maka \(\text{SE} = \frac{24}{\sqrt{36}} = 4\).

4.3 Visualisasi Perbandingan Semua Variabel

4.4 Penjelasan Perbedaan Lebar Interval

Meskipun data (\(\bar{x}, n, \text{angka deviasi}\)) identik, interval Tim B (Uji-t) selalu lebih lebar daripada Tim A (Uji-Z). Mengapa?

  • Faktor Ketidakpastian: Tim A menggunakan standar deviasi populasi (\(\sigma\)) yang dianggap sebagai nilai absolut yang pasti. Tim B hanya menggunakan standar deviasi sampel (\(s\)) yang mengandung risiko kesalahan karena hanya berasal dari 36 data.

  • Karakteristik Distribusi-t: Distribusi-t memiliki “ekor” yang lebih tebal (heavier tails) dibandingkan distribusi normal (Z). Ini adalah cara statistik memberikan “penalti” atau kompensasi atas ketidaktahuan kita terhadap parameter populasi asli.

  • Nilai Kritis: Nilai kritis \(t\) selalu lebih besar daripada nilai \(z\) untuk tingkat kepercayaan yang sama. Contohnya pada 95%, \(t=2.030\) sedangkan \(z=1.96\). Angka pengali yang lebih besar inilah yang membuat interval Tim B lebih lebar (kurang presisi dibandingkan Tim A).

Kesimpulan untuk Keputusan: Tim A memiliki presisi yang lebih tinggi karena informasi yang mereka miliki lebih lengkap (tahu data populasi). Tim B harus menerima rentang yang lebih lebar sebagai konsekuensi dari penggunaan data sampel.


5 Studi Kasus 5

Interval Kepercayaan Satu Sisi (One-Sided): Sebuah perusahaan SaaS (Software as a Service) ingin memastikan bahwa setidaknya 70% dari pengguna aktif mingguan menggunakan fitur premium.

Dari eksperimen:

\(n\) = 250 (Total pengguna)

\(x\) = 185 (Pengguna premium aktif)

Manajemen hanya tertarik pada batas bawah (lower bound) dari estimasi tersebut.

Tugas:

  1. Identifikasi jenis Interval Kepercayaan dan uji yang tepat.
  2. Hitung Interval Kepercayaan satu sisi (batas bawah) pada tingkat:
    • \(90\%\)
    • \(95\%\)
    • \(99\%\)
  3. Visualisasikan batas bawah untuk semua tingkat kepercayaan.
  4. Tentukan apakah target 70% tersebut terpenuhi secara statistik.

5.1 Identifikasi Tipe Confidence Interval (CI)

  • Tipe CI: One-Sided (Satu Sisi) Lower Confidence Interval. Kita hanya peduli pada batas bawah karena perusahaan ingin memastikan proporsi setidaknya (minimal) 70%.

  • Uji Statistik: One-Sample Z-Test for Proportions. Kita menggunakan distribusi Z karena ukuran sampel cukup besar (\(n = 250\)).

5.2 Perhitungan Batas Bawah (Lower Bound)

Diketahui:

  • \(n = 250\)

  • \(x = 185\)

  • Proporsi sampel (\(\hat{p}\)) = \(\frac{185}{250} = 0.74\) (74%)

Rumus Batas Bawah CI Satu Sisi:

\[LB = \hat{p} - z_{\alpha} \cdot \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\]

5.3 Visualisasi Batas Bawah

5.4 Kesimpulan

Apakah Target 70% Terpenuhi?Penentuan terpenuhinya target tergantung pada tingkat kepercayaan yang dipilih oleh manajemen:

  • Pada Tingkat Kepercayaan 90%: Target Terpenuhi. Batas bawah (70.45%) masih berada di atas target 70%. Kita yakin 90% bahwa setidaknya 70.45% pengguna adalah premium.

  • Pada Tingkat Kepercayaan 95%: Target Tidak Terpenuhi secara statistik. Batas bawah (69.44%) sedikit di bawah 70%. Walaupun rata-rata sampel kita 74%, ada kemungkinan kecil proporsi asli populasi turun hingga 69.44%.

  • Pada Tingkat Kepercayaan 99%: Target Tidak Terpenuhi. Batas bawah (67.56%) berada cukup jauh di bawah target.


6 Referensi

  • Black, K. (2019). Business Statistics: For Contemporary Decision Making. John Wiley & Sons. (Membahas penerapan Z-test dalam konteks industri).

  • Walpole, R. E., et al. (2012). Probability & Statistics for Engineers & Scientists. Pearson. (Referensi standar untuk Teorema Limit Pusat dan estimasi interval).

  • Agresti, A. (2018). Statistical Methods for the Social Sciences. Pearson.

  • Student (William Sealy Gosset). (1908). The Probable Error of a Mean. Biometrika.

  • Agresti, A. (2018). An Introduction to Categorical Data Analysis. Wiley