Study Cases
Statistical Inferences~ Week 14
Ahmad Rizki Mubarak
Mahasiswa Sains Data ITSB
Case Study 1
One-Sample Z-Test (Statistical Hypotheses)
A digital learning platform claims that the average daily study time of its users is 120 minutes. Based on historical records, the population standard deviation is known to be 15 minutes.
A random sample of 64 users shows an average study time of 116 minutes.
\[ \begin{eqnarray*} \mu_0 &=& 120 \\ \sigma &=& 15 \\ n &=& 64 \\ \bar{x} &=& 116 \end{eqnarray*} \]
Tasks
- Formulate the Null Hypothesis (H₀) and Alternative Hypothesis (H₁).
- Identify the appropriate statistical test and justify your choice.
- Compute the test statistic and p-value using \(\alpha = 0.05\).
- State the statistical decision.
- Interpret the result in a business analytics context.
Answer To Task Study 1
Pendahuluan
Platform pembelajaran digital mengklaim bahwa rata-rata waktu belajar harian penggunanya adalah 120 menit. Berdasarkan catatan historis, standar deviasi populasi diketahui sebesar 15 menit.
Sebuah sampel acak dari 64 pengguna menunjukkan rata-rata waktu belajar 116 menit.
Data yang Diketahui
| Parameter | Nilai | Satuan |
|---|---|---|
| μ₀ (Rata-rata Populasi) | 120 | menit |
| σ (Standar Deviasi Populasi) | 15 | menit |
| n (Ukuran Sampel) | 64 | pengguna |
| x̄ (Rata-rata Sampel) | 116 | menit |
1. Perumusan Hipotesis
Hipotesis Nol (H₀): Rata-rata waktu belajar harian pengguna platform adalah 120 menit. \[H_0: \mu = 120\]
Hipotesis Alternatif (H₁): Rata-rata waktu belajar harian pengguna platform tidak sama dengan 120 menit. \[H_1: \mu \neq 120\]
Catatan: Ini adalah uji dua sisi (two-tailed test) karena kita ingin mengetahui apakah rata-rata berbeda dari 120 menit, baik lebih tinggi maupun lebih rendah.
2. Identifikasi Uji Statistik
Uji yang Dipilih: One-Sample Z-Test
Justifikasi Pemilihan Uji:
| Kriteria | Kondisi | Kesimpulan |
|---|---|---|
| Standar Deviasi Populasi | Diketahui (σ = 15) | Memenuhi syarat Z-test |
| Ukuran Sampel | Besar (n = 64 > 30) | Memenuhi syarat Z-test |
| Distribusi Data | Dapat diasumsikan normal (n besar) | Teorema Limit Pusat berlaku |
| Tujuan Pengujian | Membandingkan rata-rata sampel dengan nilai populasi | Sesuai dengan One-Sample Z-test |
Kesimpulan: One-Sample Z-Test adalah uji yang tepat karena standar deviasi populasi diketahui dan ukuran sampel cukup besar.
3. Perhitungan Test Statistic dan P-Value
Rumus Test Statistic (Z-score):
\(Z = \frac{\bar{x} - \mu_0}{\sigma / \sqrt{n}}\)
Langkah Perhitungan:
Step 1: Hitung Standard Error (SE)
\(SE = \frac{\sigma}{\sqrt{n}} = \frac{15}{\sqrt{64}} = \frac{15}{8} = 1.875\)
Step 2: Hitung Z-statistic
\(Z = \frac{\bar{x} - \mu_0}{SE} = \frac{116 - 120}{1.875} = \frac{-4}{1.875} = -2.133\)
Step 3: Cari P-value untuk two-tailed test
Karena ini two-tailed test, kita hitung:
\(P\text{-value} = 2 \times P(Z < -2.133) = 2 \times 0.0165 = 0.0330\)
Step 4: Tentukan Critical Values dengan α = 0.05
\(Z_{\alpha/2} = \pm 1.96\)
Hasil Perhitungan:
| Komponen | Nilai |
|---|---|
| Standard Error (SE) | 1.8750 |
| Z-statistic | -2.1333 |
| P-value | 0.0329 |
| Tingkat Signifikansi (α) | 0.0500 |
| Z-critical (batas bawah) | -1.9600 |
| Z-critical (batas atas) | 1.9600 |
Visualisasi Distribusi Normal dan Test Statistic
4. Keputusan Statistik
Kriteria Keputusan:
- Jika p-value < α (0.05), maka TOLAK H₀
- Jika p-value ≥ α (0.05), maka GAGAL TOLAK H₀
Hasil:
P-value = 0.0329
α = 0.05
Keputusan: TOLAK H₀
Karena p-value < α, kita menolak hipotesis nol.
| Aspek | Hasil |
|---|---|
| Z-statistic | -2.1333 |
| P-value | 0.0329 |
| Tingkat Signifikansi (α) | 0.05 |
| Keputusan | TOLAK H₀ |
5. Interpretasi dalam Konteks Business Analytics
Kesimpulan Statistik:
Berdasarkan hasil uji Z dengan tingkat signifikansi 5%, terdapat bukti statistik yang cukup kuat bahwa rata-rata waktu belajar harian pengguna platform berbeda secara signifikan dari 120 menit yang diklaim.
Rata-rata sampel sebesar 116 menit menunjukkan bahwa waktu belajar aktual cenderung lebih rendah 4 menit dari klaim platform.
Implikasi Bisnis:
Klaim Marketing:
Klaim rata-rata 120 menit perlu direvisi atau dikaji ulang untuk menghindari misrepresentasi.
Engagement Pengguna:
Pengguna aktual menghabiskan waktu lebih sedikit dari ekspektasi, mengindikasikan potensi penurunan engagement atau efektivitas konten.
Rekomendasi Strategis:
- Evaluasi kualitas konten pembelajaran
- Tingkatkan fitur interaktif untuk meningkatkan durasi belajar
- Lakukan survei kepuasan pengguna
- Optimalkan UX/UI platform
Risiko jika tidak ditangani:
- Penurunan retention rate
- Reputasi platform menurun
- Revenue dari subscription terpengaruh
Peluang Perbaikan:
- Meningkatkan user engagement
- Memperbaiki learning outcomes
- Meningkatkan customer lifetime value
Rekomendasi Action Items:
- Investigasi Lanjutan:
- Analisis segmentasi pengguna berdasarkan waktu belajar
- Identifikasi konten dengan engagement rendah
- Survey alasan pengguna belajar lebih singkat
- Perbaikan Product:
- Enhance interaktivitas konten
- Implementasi gamification untuk meningkatkan motivasi
- Personalisasi learning path
- Komunikasi Marketing:
- Update klaim berdasarkan data aktual
- Fokus pada kualitas pembelajaran, bukan hanya durasi
- Transparansi dalam komunikasi metrik
- Monitoring Berkelanjutan:
- Setup dashboard real-time untuk tracking study time
- Implementasi A/B testing untuk fitur baru
- Regular statistical analysis untuk tren
Kesimpulan Akhir
Analisis statistik dengan One-Sample Z-Test menunjukkan bahwa klaim platform pembelajaran digital tentang rata-rata waktu belajar 120 menit tidak didukung oleh data empiris. Hasil ini memberikan insight penting untuk perbaikan strategi bisnis dan peningkatan performa platform.
Case Study 2
One-Sample T-Test (σ Unknown, Small Sample)
A UX Research Team investigates whether the average task completion time of a new application differs from 10 minutes.
The following data are collected from 10 users:
\[ 9.2,\; 10.5,\; 9.8,\; 10.1,\; 9.6,\; 10.3,\; 9.9,\; 9.7,\; 10.0,\; 9.5 \]
Tasks
- Define H₀ and H₁ (two-tailed).
- Determine the appropriate hypothesis test.
- Calculate the t-statistic and p-value at \(\alpha = 0.05\).
- Make a statistical decision.
- Explain how sample size affects inferential reliability.
Answer To Case Study 2
Pendahuluan
Tim UX Research melakukan investigasi untuk mengetahui apakah rata-rata waktu penyelesaian tugas (task completion time) dari sebuah aplikasi baru berbeda dari 10 menit.
Data dikumpulkan dari 10 pengguna sebagai berikut:
Data yang Diketahui
| Pengguna | Waktu Penyelesaian (menit) |
|---|---|
| User 1 | 9.2 |
| User 2 | 10.5 |
| User 3 | 9.8 |
| User 4 | 10.1 |
| User 5 | 9.6 |
| User 6 | 10.3 |
| User 7 | 9.9 |
| User 8 | 9.7 |
| User 9 | 10.0 |
| User 10 | 9.5 |
Statistik Deskriptif
| Parameter | Nilai | Satuan |
|---|---|---|
| μ₀ (Nilai yang dibandingkan) | 10.0000 | menit |
| n (Ukuran Sampel) | 10.0000 | pengguna |
| x̄ (Rata-rata Sampel) | 9.8600 | menit |
| s (Standar Deviasi Sampel) | 0.3864 | menit |
| Tingkat Signifikansi (α) | 0.0500 | - |
Visualisasi Data
1. Perumusan Hipotesis (H₀ dan H₁)
Hipotesis Nol (H₀): Rata-rata waktu penyelesaian tugas pada aplikasi baru adalah 10 menit.
\[H_0: \mu = 10\]
Hipotesis Alternatif (H₁): Rata-rata waktu penyelesaian tugas pada aplikasi baru tidak sama dengan 10 menit (berbeda dari 10 menit).
\[H_1: \mu \neq 10\]
Catatan: Ini adalah uji dua sisi (two-tailed test) karena kita ingin mengetahui apakah rata-rata berbeda dari 10 menit, baik lebih cepat maupun lebih lambat.
2. Penentuan Uji Hipotesis yang Tepat
Uji yang Dipilih: One-Sample T-Test
Justifikasi Pemilihan Uji:
Alasan memilih T-Test:
- Standar Deviasi Populasi (σ) Tidak Diketahui
- Kita tidak memiliki informasi tentang standar deviasi populasi
- Hanya memiliki data sampel untuk menghitung standar deviasi sampel (s)
- Ukuran Sampel Kecil (n < 30)
- n = 10 pengguna (sampel kecil)
- Untuk sampel kecil dengan σ tidak diketahui, T-test lebih tepat daripada Z-test
- Asumsi Normalitas
- Dengan sampel kecil, kita mengasumsikan data berasal dari populasi yang berdistribusi normal
- Dari histogram dan boxplot, data tidak menunjukkan outlier ekstrem
- Tujuan Pengujian
- Membandingkan rata-rata sampel dengan nilai tertentu (μ₀ = 10)
- Sesuai dengan karakteristik One-Sample T-test
Perbandingan dengan Z-Test:
| Kriteria | Z_Test | T_Test |
|---|---|---|
| Standar Deviasi Populasi | Harus diketahui (σ) | Tidak perlu (gunakan s) |
| Ukuran Sampel | Biasanya n ≥ 30 | Bisa n < 30 |
| Distribusi Sampling | Normal (Z-distribution) | T-distribution (df = n-1) |
| Keputusan | Tidak memenuhi | Memenuhi semua syarat |
Kesimpulan: One-Sample T-Test adalah uji yang tepat karena standar deviasi populasi tidak diketahui dan ukuran sampel kecil (n = 10).
3. Perhitungan T-Statistic dan P-Value
Rumus Test Statistic (T-score):
\[t = \frac{\bar{x} - \mu_0}{s / \sqrt{n}}\]
dimana: - \(\bar{x}\) = rata-rata sampel - \(\mu_0\) = nilai yang dibandingkan (10 menit) - \(s\) = standar deviasi sampel - \(n\) = ukuran sampel - \(df = n - 1\) = derajat kebebasan
Langkah Perhitungan Manual:
Step 1: Hitung Rata-rata Sampel (x̄)
\[\bar{x} = \frac{\sum x_i}{n} = \frac{9.2 + 10.5 + 9.8 + 10.1 + 9.6 + 10.3 + 9.9 + 9.7 + 10.0 + 9.5}{10}\] \[\bar{x} = \frac{98.6}{10} = 9.86 \text{ menit}\]
Step 2: Hitung Standar Deviasi Sampel (s)
Perhitungan Standar Deviasi:
| xᵢ | xᵢ - x̄ | (xᵢ - x̄)² |
|---|---|---|
| 9.2 | -0.66 | 0.4356 |
| 10.5 | 0.64 | 0.4096 |
| 9.8 | -0.06 | 0.0036 |
| 10.1 | 0.24 | 0.0576 |
| 9.6 | -0.26 | 0.0676 |
| 10.3 | 0.44 | 0.1936 |
| 9.9 | 0.04 | 0.0016 |
| 9.7 | -0.16 | 0.0256 |
| 10.0 | 0.14 | 0.0196 |
| 9.5 | -0.36 | 0.1296 |
- Σ(xᵢ - x̄)² = 1.3440
- s² = 1.3440 / 9 = 0.1493
- s = √0.1493 = 0.3864
\[s = \sqrt{\frac{\sum(x_i - \bar{x})^2}{n-1}} = \sqrt{\frac{1.324}{9}} = \sqrt{0.1471} = 0.3840 \text{ menit}\]
Step 3: Hitung Standard Error (SE) \[SE = \frac{s}{\sqrt{n}} = \frac{0.3840}{\sqrt{10}} = \frac{0.3840}{3.1623} = 0.1215\]
Step 4: Hitung T-statistic \[t = \frac{\bar{x} - \mu_0}{SE} = \frac{9.86 - 10}{0.1215} = \frac{-0.14}{0.1215} = -1.1527\]
Step 5: Tentukan Derajat Kebebasan (df) \[df = n - 1 = 10 - 1 = 9\]
Step 6: Hitung P-value (Two-tailed test)
Untuk t = -1.1456 dengan df = 9:
- P(T < -1.1456) = 0.1407 (dari tabel t atau fungsi R)
- P-value = 2 × 0.1407 = 0.2815 (two-tailed)
Untuk two-tailed test dengan t = -1.1527 dan df = 9:
\[P\text{-value} = 2 \times P(T < -1.1527) \approx 2 \times 0.1393 = 0.2786\]
Hasil Perhitungan:
| Komponen | Nilai |
|---|---|
| Rata-rata Sampel (x̄) | 9.8600 |
| Standar Deviasi Sampel (s) | 0.3864 |
| Standard Error (SE) | 0.1222 |
| T-statistic | -1.1456 |
| Derajat Kebebasan (df) | 9.0000 |
| P-value | 0.2815 |
| Tingkat Signifikansi (α) | 0.0500 |
| T-critical (±) | 2.2622 |
Confidence Interval (95%):
95% Confidence Interval untuk μ:
[9.5836, 10.1364] menit
Interpretasi:
Kita 95% yakin bahwa rata-rata waktu penyelesaian tugas populasi berada di antara 9.58 dan 10.14 menit.
Perhatikan bahwa nilai μ₀ = 10 menit BERADA DALAM interval ini, yang konsisten dengan keputusan gagal menolak H₀.
Visualisasi Distribusi T dan Test Statistic
4. Keputusan Statistik
Kriteria Keputusan:
Metode 1: P-value Approach - Jika p-value < α (0.05), maka TOLAK H₀ - Jika p-value ≥ α (0.05), maka GAGAL TOLAK H₀
Metode 2: Critical Value Approach - Jika |t-statistic| > t-critical, maka TOLAK H₀ - Jika |t-statistic| ≤ t-critical, maka GAGAL TOLAK H₀
Hasil Keputusan:
| Metode | Hasil |
|---|---|
| P-value Approach | p-value (0.2815) ≥ α (0.05) |
| Critical Value Approach | |t| (1.1456) ≤ t-critical (2.2622) |
| Keputusan Akhir | GAGAL TOLAK H₀ |
Interpretasi Keputusan:
KESIMPULAN
Dengan tingkat signifikansi α = 0.05, kita GAGAL MENOLAK hipotesis nol.
Artinya:
TIDAK CUKUP bukti statistik untuk menyatakan bahwa rata-rata waktu penyelesaian tugas berbeda dari 10 menit.
Data sampel TIDAK menunjukkan perbedaan yang signifikan secara statistik dari nilai 10 menit.
Perbedaan yang teramati (9.86 menit vs 10 menit) dapat dijelaskan sebagai variasi sampling yang wajar (random chance).
Aplikasi baru dapat dikatakan memiliki waktu penyelesaian tugas yang tidak berbeda secara signifikan dari standar 10 menit.
5. Pengaruh Ukuran Sampel terhadap Reliabilitas Inferensi
Konsep Ukuran Sampel dan Reliabilitas
Ukuran sampel (n) memiliki pengaruh yang sangat penting terhadap reliabilitas inferensi statistik. Berikut adalah penjelasan lengkapnya:
A. Pengaruh terhadap Standard Error (SE)
Hubungan Matematis: \[SE = \frac{s}{\sqrt{n}}\]
Standard Error berbanding terbalik dengan akar kuadrat ukuran sampel.
Interpretasi:
- Semakin BESAR ukuran sampel (n ↑) → Standard Error semakin KECIL (SE ↓)
- SE yang lebih kecil = estimasi yang lebih presisi
- Hubungan: Jika n diperbesar 4x, SE akan mengecil menjadi 1/2 (karena √4 = 2)
Contoh dari data kita:
| n | SE | Perubahan |
|---|---|---|
| 10 | 0.1222 | Baseline |
| 20 | 0.0864 | ↓ 29% |
| 40 | 0.0611 | ↓ 50% |
| 100 | 0.0386 | ↓ 68% |
B. Pengaruh terhadap Confidence Interval
| Ukuran Sampel (n) | Batas Bawah | Batas Atas | Lebar CI (menit) |
|---|---|---|---|
| 10 | 9.584 | 10.136 | 0.553 |
| 20 | 9.679 | 10.041 | 0.362 |
| 30 | 9.716 | 10.004 | 0.289 |
| 50 | 9.750 | 9.970 | 0.220 |
| 100 | 9.783 | 9.937 | 0.153 |
Kesimpulan:
- Sampel lebih BESAR → CI lebih SEMPIT → Estimasi lebih PRESISI
- Sampel lebih KECIL → CI lebih LEBAR → Estimasi kurang presisi
- Dengan n=10, CI kita cukup lebar (0.275 menit), menunjukkan ketidakpastian yang cukup besar
C. Pengaruh terhadap Statistical Power
Statistical Power = Probabilitas mendeteksi efek yang benar-benar ada (menolak H₀ ketika H₀ memang salah)
Interpretasi:
- Power saat ini (n=10): 0.177 atau 17.7%
- Artinya: Hanya ada 17.7% peluang untuk mendeteksi perbedaan yang benar-benar ada
- Standar minimum power yang baik: 0.80 (80%)
- Untuk mencapai power 0.80 dengan effect size ini, kita butuh sampel lebih besar
| Ukuran Sampel | Power | Status |
|---|---|---|
| 10 | 0.177 | Kurang |
| 20 | 0.337 | Kurang |
| 30 | 0.483 | Kurang |
| 40 | 0.608 | Kurang |
| 50 | 0.709 | Kurang |
D. Ringkasan Pengaruh Ukuran Sampel
Dampak Sampel Kecil (n = 10 dalam kasus ini)
Kelemahan:
- Standard Error lebih besar → estimasi kurang presisi
- Confidence Interval lebih lebar → rentang estimasi terlalu luas
- Statistical Power rendah → sulit mendeteksi efek yang ada
- Lebih sensitif terhadap outlier
- Asumsi normalitas lebih kritis
- Estimasi standar deviasi kurang stabil
- Nilai t-critical lebih besar → lebih sulit menolak H₀
Kelebihan:
Lebih cepat dan murah untuk mengumpulkan data
Cocok untuk studi eksplorasi awal atau pilot test
Fleksibel untuk situasi dengan keterbatasan resources
Dampak Sampel Besar (n ≥ 30):
Kelebihan:
- Standard Error lebih kecil (lebih presisi)
- Confidence Interval lebih sempit (estimasi lebih akurat)
- Statistical Power lebih tinggi (lebih sensitif mendeteksi efek)
- Lebih robust terhadap pelanggaran asumsi normalitas
- Estimasi parameter lebih stabil dan reliable
Kekurangan:
- Membutuhkan biaya dan waktu lebih banyak
- Bisa mendeteksi perbedaan yang secara praktis tidak bermakna
E. Rekomendasi untuk UX Research
Untuk Kasus Saat Ini (n = 10):
- Hasil tidak signifikan mungkin karena sampel terlalu kecil, bukan karena tidak ada perbedaan
- Tingkatkan sampel menjadi minimal 30-50 pengguna untuk reliabilitas lebih baik
- Gunakan hasil ini sebagai studi pilot untuk merencanakan penelitian lebih besar
Best Practices Ukuran Sampel:
- 5-10 pengguna: Studi eksplorasi, pilot test (Power < 50%)
- 15-30 pengguna: Usability testing standar (Power 50-70%)
- 30-50 pengguna: A/B testing, comparative studies (Power 70-85%)
- 50+ pengguna: Large-scale validation, benchmarking (Power > 85%)
Kesimpulan Akhir
Ringkasan Hasil
- Ukuran sampel: 10 pengguna
- Rata-rata: 9.86 menit (SD = 0.38)
- T-statistic: -1.1527, P-value: 0.2786
- 95% CI: [9.58, 10.14]
- Keputusan: GAGAL TOLAK H₀
Tidak ada bukti statistik yang cukup untuk menyatakan bahwa rata-rata waktu penyelesaian tugas berbeda dari 10 menit.
Interpretasi Praktis
Aplikasi memenuhi target 10 menit, namun perlu diingat bahwa dengan sampel kecil (n=10), statistical power rendah sehingga kemungkinan kita tidak dapat mendeteksi perbedaan kecil yang mungkin ada.
User experience tampak konsisten dengan standar deviasi yang relatif kecil (0.38 menit), menunjukkan pengalaman yang cukup konsisten antar pengguna.
Rekomendasi
Jangka Pendek:
- Lanjutkan aplikasi ke tahap berikutnya (tidak ada indikasi masalah serius)
- Monitor waktu penyelesaian tugas pada deployment yang lebih luas
- Kumpulkan feedback kualitatif dari pengguna untuk insight tambahan
Jangka Menengah:
- Lakukan testing dengan sampel lebih besar (30-50 pengguna) untuk validasi lebih kuat
- Analisis segmentasi berdasarkan user types atau expertise levels
- Identifikasi bottlenecks atau friction points dalam task flow
Jangka Panjang:
- Setup continuous monitoring melalui analytics
- A/B testing untuk optimisasi lebih lanjut
- Benchmark dengan kompetitor atau industry standards
Key Takeaways
- Sample size matters: Hasil berdasarkan sampel kecil (n=10) dengan power terbatas
- Tidak ada evidence of problem, tapi juga belum conclusive evidence of excellence
- Statistical non-significance bukan bukti bahwa tidak ada efek
- Context matters: 10 menit mungkin acceptable, tapi apakah optimal?
Next Steps
- Collect more data dengan sample size lebih besar untuk confidence lebih tinggi
- Qualitative research untuk memahami “why” di balik angka
- Task analysis untuk identifikasi optimization opportunities
- Competitive benchmarking untuk context yang lebih luas
- Setup continuous UX metrics monitoring untuk improvement berkelanjutan
Case Study 3
Two-Sample T-Test (A/B Testing)
A product analytics team conducts an A/B test to compare the average session duration (minutes) between two versions of a landing page.
| Version | Sample Size (n) | Mean | Standard Deviation |
|---|---|---|---|
| A | 25 | 4.8 | 1.2 |
| B | 25 | 5.4 | 1.4 |
Tasks
- Formulate the null and alternative hypotheses.
- Identify the type of t-test required.
- Compute the test statistic and p-value.
- Draw a statistical conclusion at \(\alpha = 0.05\).
- Interpret the result for product decision-making.
Answer To Case Study 3
Pendahuluan
Tim Product Analytics melakukan A/B test untuk membandingkan rata-rata durasi sesi (session duration) dalam satuan menit antara dua versi landing page.
Data yang Diketahui
| Versi | Ukuran Sampel (n) | Rata-rata (menit) | Standar Deviasi |
|---|---|---|---|
| A (Control) | 25 | 4.8 | 1.2 |
| B (Treatment) | 25 | 5.4 | 1.4 |
Visualisasi Perbandingan
1. Perumusan Hipotesis
Hipotesis Nol (H₀):
Tidak ada perbedaan rata-rata durasi sesi antara Versi A dan Versi B.
\[H_0: \mu_A = \mu_B\]
atau dapat ditulis sebagai:
\[H_0: \mu_A - \mu_B = 0\]
Hipotesis Alternatif (H₁):
Ada perbedaan rata-rata durasi sesi antara Versi A dan Versi B.
\[H_1: \mu_A \neq \mu_B\]
atau dapat ditulis sebagai:
\[H_1: \mu_A - \mu_B \neq 0\]
Catatan: Ini adalah two-tailed test karena kita ingin mengetahui apakah ada perbedaan (baik lebih tinggi atau lebih rendah), bukan menguji apakah satu versi lebih baik secara spesifik.
2. Identifikasi Jenis T-Test
Jenis T-Test yang Digunakan: Independent Two-Sample T-Test (Equal Variance Assumed)
Justifikasi Pemilihan:
1. Dua Kelompok Independen
Versi A dan Versi B adalah dua kelompok yang berbeda dan independen
Pengguna yang melihat Versi A berbeda dengan pengguna yang melihat Versi B
Tidak ada pengukuran berulang (paired) pada subjek yang sama
2. Standar Deviasi Populasi Tidak Diketahui
Kita hanya memiliki standar deviasi sampel (s_A = 1.2, s_B = 1.4)
Standar deviasi populasi (σ) tidak diketahui
Oleh karena itu, kita menggunakan T-test bukan Z-test
3. Ukuran Sampel Relatif Kecil
n_A = 25 dan n_B = 25 (keduanya < 30)
Untuk sampel kecil dengan σ tidak diketahui, T-test adalah pilihan yang tepat
4. Asumsi Equal Variance (Homogeneity of Variance)
Standar deviasi kedua kelompok cukup mirip (1.2 vs 1.4)
Rasio varians: (1.4)²/(1.2)² = 1.96/1.44 = 1.36 (< 2, dapat dianggap equal)
Kita menggunakan pooled variance untuk perhitungan
| Aspek | Nilai |
|---|---|
| Standar Deviasi A | 1.2 |
| Standar Deviasi B | 1.4 |
| Varians A (s²_A) | 1.44 |
| Varians B (s²_B) | 1.96 |
| Rasio Varians (s²_B / s²_A) | 1.36 |
| Kesimpulan | Equal variance dapat diasumsikan |
Alternatif Jenis T-Test:
| Jenis_Test | Kondisi | Sesuai_Kasus |
|---|---|---|
| Independent T-Test (Equal Var) | Dua kelompok independen, σ tidak diketahui, varians sama | YA |
| Independent T-Test (Unequal Var / Welch) | Dua kelompok independen, σ tidak diketahui, varians berbeda | Tidak (varians cukup sama) |
| Paired T-Test | Pengukuran berulang pada subjek yang sama | Tidak (kelompok berbeda) |
| One-Sample T-Test | Satu kelompok dibandingkan dengan nilai tertentu | Tidak (ada dua kelompok) |
Kesimpulan: Independent Two-Sample T-Test dengan asumsi equal variance adalah uji yang paling tepat untuk kasus A/B testing ini.
3. Perhitungan Test Statistic dan P-Value
Langkah Perhitungan Manual:
Step 1: Hitung Pooled Standard Deviation (s_p)
Karena kita mengasumsikan equal variance, kita menggabungkan estimasi varians dari kedua kelompok:
\[s_p = \sqrt{\frac{(n_A - 1)s_A^2 + (n_B - 1)s_B^2}{n_A + n_B - 2}}\]
Substitusi nilai:
\[s_p = \sqrt{\frac{(25 - 1)(1.2)^2 + (25 - 1)(1.4)^2}{25 + 25 - 2}}\]
\[s_p = \sqrt{\frac{24 \times 1.44 + 24 \times 1.96}{48}}\]
\[s_p = \sqrt{\frac{34.56 + 47.04}{48}}\]
\[s_p = \sqrt{\frac{81.6}{48}} = \sqrt{1.7} = 1.304\]
Step 2: Hitung Standard Error (SE)
\[SE = s_p \times \sqrt{\frac{1}{n_A} + \frac{1}{n_B}}\]
\[SE = 1.304 \times \sqrt{\frac{1}{25} + \frac{1}{25}}\]
\[SE = 1.304 \times \sqrt{0.04 + 0.04}\]
\[SE = 1.304 \times \sqrt{0.08} = 1.304 \times 0.283 = 0.369\]
Step 3: Hitung T-statistic
\[t = \frac{(\bar{x}_B - \bar{x}_A)}{SE} = \frac{\text{Mean}_B - \text{Mean}_A}{SE}\]
\[t = \frac{5.4 - 4.8}{0.369} = \frac{0.6}{0.369} = 1.626\]
Step 4: Tentukan Derajat Kebebasan (df)
\[df = n_A + n_B - 2 = 25 + 25 - 2 = 48\]
Step 5: Cari Critical Value
Untuk two-tailed test dengan α = 0.05 dan df = 48, dari tabel t atau menggunakan R:
\[t_{critical} = t_{0.025, 48} = \pm 2.011\]
Step 6: Hitung P-value
Untuk two-tailed test dengan t = 1.626 dan df = 48:
Menggunakan tabel t atau fungsi R, kita dapatkan:
P(T > 1.626) ≈ 0.0552
P-value = 2 × 0.0552 = 0.1104 (two-tailed)
Ringkasan Hasil Perhitungan:
| Komponen | Nilai |
|---|---|
| Selisih Rata-rata (x̄_B - x̄_A) | 0.6 menit |
| Pooled Std. Deviation (s_p) | 1.3038 |
| Standard Error (SE) | 0.3688 |
| T-statistic | 1.6270 |
| Derajat Kebebasan (df) | 48 |
| T-critical (±) | 2.0106 |
| P-value | 0.1103 |
| Tingkat Signifikansi (α) | 0.05 |
Confidence Interval untuk Selisih Rata-rata:
Confidence Interval 95% untuk (μ_B - μ_A):
\[CI = (\bar{x}_B - \bar{x}_A) \pm t_{critical} \times SE\]
\[CI = 0.6 \pm 2.011 \times 0.369\]
\[CI = 0.6 \pm 0.742\]
\[CI = [-0.142, 1.342]\]
Interpretasi CI: Dengan tingkat kepercayaan 95%, selisih rata-rata durasi sesi antara Versi B dan A berada di antara -0.142 menit hingga 1.342 menit. Perhatikan bahwa interval ini mencakup nilai 0, yang mengindikasikan tidak ada perbedaan yang signifikan.
Visualisasi Distribusi T dan Test Statistic
4. Kesimpulan Statistik
Kriteria Keputusan:
Ada dua metode untuk membuat keputusan statistik:
Metode 1: P-value Approach
Jika p-value < α (0.05) → TOLAK H₀
Jika p-value ≥ α (0.05) → GAGAL TOLAK H₀
Metode 2: Critical Value Approach
Jika |t-statistic| > t-critical → TOLAK H₀
Jika |t-statistic| ≤ t-critical → GAGAL TOLAK H₀
Evaluasi Hasil:
| Metode | Kriteria | Hasil | Keputusan |
|---|---|---|---|
| P-value Approach | p-value (0.1103) vs α (0.05) | 0.1103 ≥ 0.05 | Gagal Tolak H₀ |
| Critical Value Approach | |t| (1.6270) vs t-crit (2.0106) | 1.6270 < 2.0106 | Gagal Tolak H₀ |
| Confidence Interval | Apakah CI mencakup 0? | Ya, [−0.142, 1.342] mencakup 0 | Gagal Tolak H₀ |
Keputusan Akhir:
GAGAL MENOLAK H₀
Berdasarkan hasil analisis dengan tingkat signifikansi α = 0.05:
- P-value (0.1104) > α (0.05) → Gagal menolak H₀
- |t-statistic| (1.626) < t-critical (2.011) → Gagal menolak H₀
- Confidence Interval mencakup 0 → Tidak ada perbedaan signifikan
Interpretasi Statistik:
Dengan tingkat signifikansi 5%, TIDAK ada bukti statistik yang cukup untuk menyatakan bahwa ada perbedaan rata-rata durasi sesi antara Versi A dan Versi B.
Penjelasan Detail:
Walaupun Versi B memiliki rata-rata durasi sesi yang lebih tinggi (5.4 menit) dibandingkan Versi A (4.8 menit), selisih sebesar 0.6 menit ini tidak cukup signifikan secara statistik.
Perbedaan yang teramati dapat dijelaskan sebagai variasi sampling yang wajar (random variation) dan bukan karena efek nyata dari perubahan versi landing page.
P-value sebesar 0.1104 berarti ada sekitar 11% probabilitas untuk mendapatkan perbedaan seextrem ini (atau lebih) jika sebenarnya tidak ada perbedaan nyata antara kedua versi.
5. Interpretasi untuk Product Decision-Making
Konteks Bisnis dan Keputusan Produk
Hasil analisis statistik ini memiliki implikasi penting untuk pengambilan keputusan produk dalam konteks A/B testing landing page.
A. Temuan Utama
Hasil Statistik:
Selisih rata-rata: \[+0.6 menit (12.5\% peningkatan)\]
P-value: \[0.1104 (tidak signifikan pada α = 0.05)\]
Confidence Interval: \[[-0.142, 1.342] menit\]
Interpretasi Bisnis:
Meskipun Versi B menunjukkan durasi sesi yang lebih tinggi secara numerik, hasil ini tidak signifikan secara statistik. Artinya, kita tidak dapat dengan yakin mengatakan bahwa Versi B benar-benar lebih baik dari Versi A.
B. Implikasi untuk Keputusan Produk
1. Rekomendasi Jangka Pendek:
TIDAK Disarankan untuk Deploy Versi B Saat Ini
Alasan:
Tidak ada bukti statistik yang kuat bahwa Versi B lebih baik
Risiko: Mengimplementasikan perubahan yang mungkin tidak memberikan dampak nyata
Cost vs Benefit: Biaya implementasi mungkin tidak sebanding dengan hasil yang tidak terbukti
2. Analisis Lebih Lanjut Diperlukan:
A. Pertimbangan Ukuran Sampel (Statistical Power)
| Aspek | Nilai |
|---|---|
| Effect Size (Cohen’s d) | 0.460 |
| Interpretasi Effect Size | Small to Medium effect |
| Power Estimasi (n=25 per grup) | ~50-60% |
| Sampel yang Dibutuhkan (Power 80%) | ~50-60 per grup |
Rekomendasi:
Tingkatkan ukuran sampel menjadi minimal 50-60 pengguna per versi
Dengan sampel lebih besar, kita akan memiliki power yang cukup untuk mendeteksi perbedaan jika memang ada
B. Pertimbangan Practical Significance
| Metrik | Versi_A | Versi_B | Selisih |
|---|---|---|---|
| Peningkatan Absolut | 4.8 menit | 5.4 menit | +0.6 menit |
| Peningkatan Relatif | Baseline (100%) | 112.5% | +12.5% |
| Dampak per 1000 users | 4,800 menit total | 5,400 menit total | +600 menit |
| Nilai Bisnis Potensial | Baseline | +600 menit (12.5%) | Perlu evaluasi ROI |
Pertanyaan Kunci:
Apakah peningkatan 0.6 menit (atau 36 detik) bermakna untuk bisnis?
Apakah biaya implementasi Versi B sepadan dengan peningkatan engagement ini?
Apa tujuan bisnis utama: engagement, konversi, atau revenue?
C. Rekomendasi Strategis
Opsi 1: Lanjutkan Testing dengan Sampel Lebih Besar
Action Items:
Perbesar ukuran sampel menjadi 50-60 pengguna per versi
Lanjutkan A/B test selama periode yang lebih panjang
Monitor metrik tambahan (bounce rate, conversion rate, revenue)
Keuntungan:
Statistical power yang lebih baik
Kesimpulan yang lebih reliable
Dapat mendeteksi efek yang lebih kecil
Opsi 2: Analisis Segmentasi
Action Items:
Analisis performance per segmen user (new vs returning, device type, traffic source)
Mungkin Versi B lebih baik untuk segmen tertentu
Implementasi personalisasi berdasarkan segmen
Contoh Hipotesis:
Versi B mungkin lebih baik untuk mobile users
Versi B mungkin lebih baik untuk new visitors
Versi B mungkin lebih efektif untuk traffic dari social media
Opsi 3: Test Variasi Lain
Action Items:
Jika perbedaan tidak signifikan, pertimbangkan untuk test variasi yang lebih bold
Kombinasikan elemen terbaik dari A dan B
Coba pendekatan yang berbeda secara fundamental
Opsi 4: Ship Anyway dengan Monitoring Ketat
Kondisi:
Jika biaya implementasi sangat rendah dan tren menunjukkan improvement:
Action Items:
- Deploy Versi B dengan monitoring real-time
- Siapkan rollback plan
- Monitor metrik bisnis utama (conversion, revenue)
- Evaluasi setelah 2-4 minggu
Risk Mitigation:
Gradual rollout (10% → 25% → 50% → 100%)
Monitor negative metrics (error rate, page load time)
Ready to rollback jika ada indikasi negatif
D. Metrik Tambahan yang Perlu Dipertimbangkan
Durasi sesi bukan satu-satunya metrik sukses. Pertimbangkan:
| Kategori_Metrik | Metrik | Mengapa_Penting |
|---|---|---|
| Engagement | Bounce Rate | Durasi tinggi bisa karena user bingung |
| Engagement | Pages per Session | Engagement yang lebih komprehensif |
| Business | Conversion Rate | Tujuan bisnis utama |
| Business | Revenue per User | ROI langsung dari perubahan |
| Technical | Page Load Time | Performance impact dari perubahan |
| User Experience | User Satisfaction Score | Kepuasan user secara keseluruhan |
E. Checklist Keputusan Akhir
Sebelum memutuskan, pastikan sudah menjawab pertanyaan berikut:
Aspek Statistik:
Apakah ukuran sampel sudah cukup? (Saat ini: Belum optimal)
Apakah asumsi statistik terpenuhi? (Ya)
Apakah ada confounding factors? (Perlu dicek)
Aspek Bisnis:
Berapa biaya implementasi Versi B?
Berapa estimasi value dari 0.6 menit tambahan?
Apakah ada trade-off (e.g., conversion rate turun)?
Apakah selaras dengan strategi produk jangka panjang?
Aspek Teknis:
Apakah Versi B mempengaruhi performance?
Apakah ada technical debt yang ditimbulkan?
Seberapa mudah untuk rollback?
Aspek User:
Apa feedback kualitatif dari user?
Apakah ada segmen yang dirugikan?
Apakah improvement konsisten across devices?
F. Kesimpulan dan Rekomendasi Akhir
Rekomendasi Utama:
Berdasarkan hasil analisis statistik (p-value = 0.1104 > 0.05), TIDAK disarankan untuk langsung mengimplementasikan Versi B tanpa pengujian lebih lanjut.
Langkah Selanjutnya:
Tingkatkan Ukuran Sampel → Target 50-60 users per versi untuk power analysis yang lebih baik
Perpanjang Durasi Test → Jalankan test minimal 2-3 minggu untuk menangkap variasi temporal
Tambahkan Metrik Sekunder → Monitor conversion rate, bounce rate, dan revenue impact
Lakukan Analisis Segmentasi → Identifikasi apakah ada segmen tertentu yang benefit dari Versi B
Evaluasi ROI → Hitung apakah improvement 12.5% sebanding dengan biaya implementasi
Warning:
Jangan terjebak dalam “ship it because numbers look better”. Statistical significance exists untuk alasan yang baik - untuk melindungi kita dari keputusan berdasarkan random noise.
Perspektif Bisnis:
Dalam A/B testing, failure is not a failure. Hasil “tidak signifikan” adalah insight yang berharga:
- Perubahan yang ditest mungkin tidak cukup impactful
- Bisa fokus resources ke eksperimen lain yang lebih promising
- Learn dan iterate untuk versi berikutnya
Ringkasan Hasil Analisis
Hasil Two-Sample T-Test
Data:
Versi A (n=25): Mean = 4.8 menit, SD = 1.2
Versi B (n=25): Mean = 5.4 menit, SD = 1.4
Selisih rata-rata: 0.6 menit (12.5% peningkatan)
Statistik:
T-statistic: 1.626
Degrees of freedom: 48
P-value: 0.1104
95% CI untuk selisih: [-0.142, 1.342]
Tingkat signifikansi: 0.05
Keputusan: GAGAL TOLAK H₀ - Tidak ada bukti statistik yang cukup untuk menyatakan bahwa Versi B berbeda secara signifikan dari Versi A.
Interpretasi Bisnis Final
Kesimpulan Utama:
Meskipun Versi B menunjukkan peningkatan durasi sesi sebesar 12.5% (dari 4.8 ke 5.4 menit), peningkatan ini tidak signifikan secara statistik (p = 0.1104 > 0.05).
Rekomendasi:
- JANGAN deploy Versi B saat ini tanpa pengujian lebih lanjut
- Tingkatkan ukuran sampel menjadi 50-60 pengguna per versi
- Perpanjang durasi test untuk mendapatkan data lebih banyak
- Monitor metrik tambahan (conversion rate, bounce rate, revenue)
- Lakukan analisis segmentasi untuk identifikasi subgroup yang benefit
Next Steps:
Design ulang test dengan power analysis yang proper
Pertimbangkan A/B/n testing dengan multiple variants
Evaluate apakah 0.6 menit improvement worth the investment
Consider testing more dramatic changes jika current approach tidak conclusive
Lessons Learned:
Sample size matters - n=25 terlalu kecil untuk detect small effects
Statistical significance ≠ practical significance
Business context harus guide statistical decisions
Negative results are still valuable insights
Case Study 4
Chi-Square Test of Independence
An e-commerce company examines whether device type is associated with payment method preference.
| Device / Payment | E-Wallet | Credit Card | Cash on Delivery |
|---|---|---|---|
| Mobile | 120 | 80 | 50 |
| Desktop | 60 | 90 | 40 |
Tasks
- State the Null Hypothesis (H₀) and Alternative Hypothesis (H₁).
- Identify the appropriate statistical test.
- Compute the Chi-Square statistic (χ²).
- Determine the p-value at \(\alpha = 0.05\).
- Interpret the results in terms of digital payment strategy.
Answer To Case Study 4
Pendahuluan
Sebuah perusahaan e-commerce melakukan analisis untuk mengetahui apakah ada hubungan (asosiasi) antara tipe perangkat (device type) yang digunakan pelanggan dengan preferensi metode pembayaran mereka.
Data yang Diketahui
Tabel Kontingensi (Contingency Table)
| E-Wallet | Credit Card | Cash on Delivery | Sum | |
|---|---|---|---|---|
| Mobile | 120 | 80 | 50 | 250 |
| Desktop | 60 | 90 | 40 | 190 |
| Sum | 180 | 170 | 90 | 440 |
Keterangan: - Baris: Tipe Perangkat (Mobile, Desktop) - Kolom: Metode Pembayaran (E-Wallet, Credit Card, Cash on Delivery) - Sel: Jumlah transaksi untuk kombinasi device dan payment method
Statistik Deskriptif
| Kategori | Jumlah | Persentase |
|---|---|---|
| Total Transaksi | 440 | 100% |
| Transaksi Mobile | 250 | 56.8% |
| Transaksi Desktop | 190 | 43.2% |
| Pembayaran E-Wallet | 180 | 40.9% |
| Pembayaran Credit Card | 170 | 38.6% |
| Pembayaran Cash on Delivery | 90 | 20.5% |
Visualisasi Data
1. Perumusan Hipotesis
Hipotesis Nol (H₀):
Tidak ada hubungan (asosiasi) antara tipe perangkat (device type) dengan metode pembayaran yang dipilih. Kedua variabel adalah independen.
\[H_0: \text{Device Type dan Payment Method adalah independen}\]
Atau secara matematis:
\[H_0: P(Payment | Mobile) = P(Payment | Desktop)\]
Artinya: Proporsi penggunaan setiap metode pembayaran adalah sama, tidak peduli apakah transaksi dilakukan dari Mobile atau Desktop.
Hipotesis Alternatif (H₁):
Ada hubungan (asosiasi) antara tipe perangkat dengan metode pembayaran yang dipilih. Kedua variabel tidak independen (ada ketergantungan).
\[H_1: \text{Device Type dan Payment Method TIDAK independen}\]
Atau:
\[H_1: P(Payment | Mobile) \neq P(Payment | Desktop)\]
Artinya: Proporsi penggunaan metode pembayaran berbeda antara pengguna Mobile dan Desktop.
2. Identifikasi Uji Statistik yang Tepat
Jenis Uji yang Digunakan: Chi-Square Test of Independence (χ² Test)
Justifikasi Pemilihan:
1. Tipe Data: Categorical (Nominal)
Kedua variabel dalam analisis ini adalah data kategorikal:
Device Type: Mobile, Desktop (2 kategori)
Payment Method: E-Wallet, Credit Card, Cash on Delivery (3 kategori)
2. Tujuan Analisis: Menguji Independensi
Kita ingin mengetahui apakah ada hubungan/asosiasi antara dua variabel kategorikal. Chi-Square Test of Independence dirancang khusus untuk tujuan ini.
3. Data dalam Bentuk Tabel Kontingensi
Data disajikan dalam bentuk tabel kontingensi (cross-tabulation) yang menunjukkan frekuensi observasi untuk setiap kombinasi kategori.
4. Asumsi Chi-Square Test:
| Asumsi | Status |
|---|---|
| Data adalah frekuensi/count | Terpenuhi (data count transaksi) |
| Observasi independen | Terpenuhi (setiap transaksi independen) |
| Expected frequency ≥ 5 | Terpenuhi (min expected = 38.86) |
| Ukuran sampel cukup besar | Terpenuhi (n = 440) |
Expected Frequencies (Frekuensi yang Diharapkan)
Jika kedua variabel independen, frekuensi yang diharapkan dihitung sebagai:
\[E_{ij} = \frac{(\text{Total Baris}_i) \times (\text{Total Kolom}_j)}{\text{Total Keseluruhan}}\]
| E-Wallet | Credit Card | Cash on Delivery | Sum | |
|---|---|---|---|---|
| Mobile | 102.27 | 96.59 | 51.14 | 250 |
| Desktop | 77.73 | 73.41 | 38.86 | 190 |
| Sum | 180.00 | 170.00 | 90.00 | 440 |
Perbandingan Observed vs Expected
| Kategori | Observed | Expected | Difference |
|---|---|---|---|
| Mobile + E-Wallet | 120 | 102.27 | 17.73 |
| Mobile + Credit Card | 80 | 96.59 | -16.59 |
| Mobile + COD | 50 | 51.14 | -1.14 |
| Desktop + E-Wallet | 60 | 77.73 | -17.73 |
| Desktop + Credit Card | 90 | 73.41 | 16.59 |
| Desktop + COD | 40 | 38.86 | 1.14 |
3. Perhitungan Chi-Square Statistic (χ²)
Rumus Chi-Square Statistic:
\[\chi^2 = \sum_{i=1}^{r} \sum_{j=1}^{c} \frac{(O_{ij} - E_{ij})^2}{E_{ij}}\]
dimana:
\(O_{ij}\) = Observed frequency (frekuensi observasi) pada sel (i,j)
\(E_{ij}\) = Expected frequency (frekuensi yang diharapkan) pada sel (i,j)
\(r\) = jumlah baris (2 device types)
\(c\) = jumlah kolom (3 payment methods)
Langkah Perhitungan Manual:
Step 1: Hitung Expected Frequency untuk setiap sel
Untuk Mobile + E-Wallet: \[E_{11} = \frac{250 \times 180}{440} = \frac{45000}{440} = 102.27\]
Untuk Mobile + Credit Card: \[E_{12} = \frac{250 \times 170}{440} = \frac{42500}{440} = 96.59\]
Untuk Mobile + Cash on Delivery: \[E_{13} = \frac{250 \times 90}{440} = \frac{22500}{440} = 51.14\]
Untuk Desktop + E-Wallet: \[E_{21} = \frac{190 \times 180}{440} = \frac{34200}{440} = 77.73\]
Untuk Desktop + Credit Card: \[E_{22} = \frac{190 \times 170}{440} = \frac{32300}{440} = 73.41\]
Untuk Desktop + Cash on Delivery: \[E_{23} = \frac{190 \times 90}{440} = \frac{17100}{440} = 38.86\]
Step 2: Hitung kontribusi Chi-Square untuk setiap sel
\[\frac{(O_{ij} - E_{ij})^2}{E_{ij}}\]
Untuk Mobile + E-Wallet: \[\frac{(120 - 102.27)^2}{102.27} = \frac{(17.73)^2}{102.27} = \frac{314.35}{102.27} = 3.074\]
Untuk Mobile + Credit Card: \[\frac{(80 - 96.59)^2}{96.59} = \frac{(-16.59)^2}{96.59} = \frac{275.23}{96.59} = 2.849\]
Untuk Mobile + Cash on Delivery: \[\frac{(50 - 51.14)^2}{51.14} = \frac{(-1.14)^2}{51.14} = \frac{1.30}{51.14} = 0.025\]
Untuk Desktop + E-Wallet: \[\frac{(60 - 77.73)^2}{77.73} = \frac{(-17.73)^2}{77.73} = \frac{314.35}{77.73} = 4.044\]
Untuk Desktop + Credit Card: \[\frac{(90 - 73.41)^2}{73.41} = \frac{(16.59)^2}{73.41} = \frac{275.23}{73.41} = 3.749\]
Untuk Desktop + Cash on Delivery: \[\frac{(40 - 38.86)^2}{38.86} = \frac{(1.14)^2}{38.86} = \frac{1.30}{38.86} = 0.033\]
Step 3: Jumlahkan semua kontribusi
\[\chi^2 = 3.074 + 2.849 + 0.025 + 4.044 + 3.749 + 0.033 = 13.774\]
Tabel Kontribusi Chi-Square per Sel
| Kategori | Observed | Expected | Contribution |
|---|---|---|---|
| Mobile + E-Wallet | 120 | 102.27 | 3.073 |
| Mobile + Credit Card | 80 | 96.59 | 2.850 |
| Mobile + COD | 50 | 51.14 | 0.025 |
| Desktop + E-Wallet | 60 | 77.73 | 4.043 |
| Desktop + Credit Card | 90 | 73.41 | 3.750 |
| Desktop + COD | 40 | 38.86 | 0.033 |
Derajat Kebebasan (Degrees of Freedom):
\[df = (r - 1) \times (c - 1) = (2 - 1) \times (3 - 1) = 1 \times 2 = 2\]
dimana:
r = jumlah baris = 2
c = jumlah kolom = 3
Hasil Perhitungan Chi-Square:
| Komponen | Nilai |
|---|---|
| Chi-Square Statistic (χ²) | 13.7736 |
| Derajat Kebebasan (df) | 2 |
| Chi-Square Critical (α = 0.05) | 5.9915 |
| Tingkat Signifikansi (α) | 0.05 |
4. Penentuan P-Value
Perhitungan P-Value:
P-value adalah probabilitas mendapatkan nilai Chi-Square sebesar atau lebih ekstrem dari yang diamati, dengan asumsi H₀ benar.
Dengan χ² = 13.774 dan df = 2, menggunakan distribusi Chi-Square:
P-value = P(χ² ≥ 13.774 | df = 2)
Dari tabel Chi-Square atau fungsi R:
P-value = 0.0010
Interpretasi P-Value:
P-value sebesar 0.0010 berarti:
Hanya ada 0.1% probabilitas (1 dalam 1000) untuk mendapatkan perbedaan seextrem ini atau lebih, jika sebenarnya tidak ada hubungan antara device type dan payment method.
Ini adalah probabilitas yang sangat kecil, mengindikasikan bahwa hasil yang kita amati kemungkinan besar bukan karena kebetulan.
Kriteria Keputusan:
Metode 1: P-value Approach
Jika p-value < α (0.05) → TOLAK H₀
Jika p-value ≥ α (0.05) → GAGAL TOLAK H₀
Metode 2: Critical Value Approach
Jika χ² > χ²_critical → TOLAK H₀
Jika χ² ≤ χ²_critical → GAGAL TOLAK H₀
Evaluasi Hasil:
| Metode | Kriteria | Hasil | Keputusan |
|---|---|---|---|
| P-value Approach | p-value (0.0010) vs α (0.05) | 0.0010 < 0.05 | TOLAK H₀ |
| Critical Value Approach | χ² (13.7736) vs χ²_crit (5.9915) | 13.7736 > 5.9915 | TOLAK H₀ |
Visualisasi Distribusi Chi-Square
Kesimpulan Statistik:
TOLAK H₀
Dengan tingkat signifikansi α = 0.05:
- P-value (0.0010) < α (0.05) → Sangat signifikan
- χ² (13.774) > χ²_critical (5.991) → Jatuh di area penolakan
Interpretasi:
Ada bukti statistik yang sangat kuat bahwa tipe perangkat (device type) dan metode pembayaran TIDAK independen. Artinya, ada hubungan yang signifikan antara perangkat yang digunakan dengan metode pembayaran yang dipilih oleh pelanggan.
5. Interpretasi untuk Digital Payment Strategy
Konteks Bisnis dan Strategi Pembayaran Digital
Hasil Chi-Square Test menunjukkan adanya asosiasi signifikan antara device type dan payment preference. Mari kita analisis lebih dalam untuk implikasi strategi bisnis.
A. Analisis Pola Pembayaran
1. Analisis Proporsi per Device
| Payment_Method | Mobile | Desktop | Selisih |
|---|---|---|---|
| E-Wallet | 48.0% | 31.6% | 16.4% |
| Credit Card | 32.0% | 47.4% | -15.4% |
| Cash on Delivery | 20.0% | 21.1% | -1.1% |
Temuan Kunci:
Mobile Users:
- E-Wallet dominan (48%) - hampir setengah pengguna mobile memilih e-wallet
- Credit Card (32%) - posisi kedua
- Cash on Delivery (20%) - paling sedikit
Desktop Users:
- Credit Card dominan (47.4%) - hampir setengah pengguna desktop memilih credit card
- E-Wallet (31.6%) - posisi kedua
- Cash on Delivery (21.1%) - paling sedikit
2. Standardized Residuals Analysis
Standardized residuals menunjukkan seberapa jauh observed frequency dari expected frequency dalam unit standar deviasi.
| Kombinasi | Std_Residuals | Interpretasi |
|---|---|---|
| Mobile + E-Wallet | 1.753 | Tidak signifikan |
| Mobile + Credit Card | -1.688 | Tidak signifikan |
| Mobile + COD | -0.159 | Tidak signifikan |
| Desktop + E-Wallet | -2.011 | Signifikan negatif |
| Desktop + Credit Card | 1.936 | Tidak signifikan |
| Desktop + COD | 0.182 | Tidak signifikan |
Insight dari Residuals:
Standardized residuals > +2 atau < -2 mengindikasikan perbedaan yang signifikan dari yang diharapkan:
Positif: Frekuensi lebih tinggi dari yang diharapkan (preferensi kuat)
Negatif: Frekuensi lebih rendah dari yang diharapkan (preferensi lemah)
B. Implikasi untuk Strategi Digital Payment
1. Device-Specific Payment Optimization
Untuk Platform Mobile:
Prioritaskan E-Wallet Integration
E-Wallet adalah metode pembayaran paling populer di mobile (48%)
Overperformance signifikan dibanding expected frequency
User mobile lebih nyaman dengan pembayaran cepat dan seamless
Action Items:
Letakkan opsi E-Wallet di posisi teratas dalam payment selection
Optimalkan UI/UX untuk e-wallet checkout (one-tap payment)
Integrasi dengan e-wallet populer (GoPay, OVO, Dana, ShopeePay)
Berikan incentive khusus untuk pembayaran via e-wallet di mobile
Untuk Platform Desktop:
Optimalkan Credit Card Processing
Credit Card adalah metode dominan di desktop (47.4%)
Pengguna desktop lebih nyaman memasukkan detail kartu kredit
Layar lebih besar, lebih mudah untuk form filling
Action Items:
Simplify credit card input form
Implementasi autofill dan card scanning (jika applicable)
Tampilkan badge keamanan (SSL, PCI-DSS certified)
Tawarkan installment/cicilan untuk transaksi besar
2. User Experience Enhancement
| Device | Payment_Method | Priority | Rekomendasi_UX |
|---|---|---|---|
| Mobile | E-Wallet | High | One-tap payment, quick checkout, minimal steps |
| Mobile | Credit Card | Medium | Auto-fill, saved cards, biometric authentication |
| Mobile | COD | Low | Clear delivery info, address verification |
| Desktop | Credit Card | High | Secure badge, installment options, saved cards |
| Desktop | E-Wallet | Medium | QR code integration, link to mobile app |
| Desktop | COD | Low | Transparent delivery timeline, real-time tracking |
3. Marketing dan Promotional Strategy
Mobile Campaign:
Push notification untuk promo e-wallet
Cashback/discount khusus untuk pembayaran e-wallet di mobile app
Gamification (collect points dengan e-wallet payment)
Desktop Campaign:
Email marketing dengan promo credit card installment
Banner untuk benefit credit card (reward points, miles)
Partnership dengan bank untuk exclusive discount
4. Cash on Delivery (COD) Strategy
Meskipun COD proporsinya paling kecil di kedua device (~20%), ini tetap segment penting:
Karakteristik COD Users:
Mungkin tidak memiliki akses ke digital payment
Concern terhadap keamanan online payment
Prefer “lihat barang dulu, baru bayar”
Demographic tertentu (older generation, rural areas)
Rekomendasi COD:
- Tetap support COD untuk market penetration
- Edukasi tentang keamanan digital payment
- Incentivize untuk switch ke digital payment (discount untuk non-COD)
- Improve tracking dan transparency untuk COD orders
C. Strategi Implementasi
Phase 1: Quick Wins (1-2 bulan)
Reorder payment options berdasarkan device
- Mobile: E-Wallet → Credit Card → COD
- Desktop: Credit Card → E-Wallet → COD
A/B test untuk validate impact
Monitor conversion rate dan payment success rate
Phase 2: Enhancement (3-6 bulan)
- Personalisasi payment options berdasarkan user history
- One-click payment untuk returning customers
- Saved payment methods dengan biometric auth (mobile)
Phase 3: Ecosystem Development (6-12 bulan)
- Partnership dengan e-wallet providers untuk exclusive promo
- Credit card installment program dengan banks
- Loyalty program tied to preferred payment methods
D. Key Performance Indicators (KPIs)
| KPI | Target_Mobile | Target_Desktop |
|---|---|---|
| Payment Success Rate | > 95% | > 95% |
| Payment Method Distribution | E-Wallet > 50% | Credit Card > 50% |
| Conversion Rate by Payment Method | Track per method | Track per method |
| Average Transaction Value by Method | Monitor trends | Monitor trends |
| Payment Processing Time | < 30 seconds | < 45 seconds |
| Customer Satisfaction Score | > 4.5/5 | > 4.5/5 |
E. Kesimpulan dan Rekomendasi Akhir
Kesimpulan Utama:
Device type dan payment method memiliki hubungan yang signifikan (p = 0.0010)
Mobile users strongly prefer E-Wallet (48% vs 31.6% expected)
Desktop users strongly prefer Credit Card (47.4% vs 38.6% expected)
COD relatif konsisten di kedua platform (~20%)
Rekomendasi Strategis:
Jangka Pendek (0-3 bulan):
- Implement device-specific payment ordering
- Optimize UX untuk metode payment yang paling relevan per device
- Quick wins dengan low implementation cost
Jangka Menengah (3-6 bulan):
- Develop personalization engine untuk payment recommendations
- Partnership development dengan payment providers
- Enhanced security dan convenience features
Jangka Panjang (6-12 bulan):
- Build comprehensive digital payment ecosystem
- Loyalty program integration
- Advanced fraud detection per payment method
Expected Impact:
- Increase payment success rate: 3-5%
- Reduce cart abandonment: 2-3%
- Improve customer satisfaction: 10-15%
- Potential revenue uplift: 5-8%
Critical Success Factors:
- Continuous monitoring dan iterasi
- User feedback loop
- Cross-functional collaboration (Product, Tech, Business)
- Data-driven decision making
Ringkasan Hasil Analisis
Hasil Chi-Square Test
- Chi-Square Statistic: 13.7736
- Degrees of Freedom: 2
- P-value: 0.0010
- Tingkat Signifikansi: 0.05
- Keputusan: TOLAK H₀
Interpretasi Bisnis
Ada hubungan yang sangat signifikan antara tipe perangkat dan preferensi metode pembayaran. Mobile users cenderung prefer E-Wallet, sementara Desktop users prefer Credit Card. Strategi digital payment harus disesuaikan berdasarkan device type untuk optimize conversion dan user experience.
Case Study 5
Type I and Type II Errors (Conceptual)
A fintech startup tests whether a new fraud detection algorithm reduces fraudulent transactions.
- H₀: The new algorithm does not reduce fraud.
- H₁: The new algorithm reduces fraud.
Tasks
- Explain a Type I Error (α) in this context.
- Explain a Type II Error (β) in this context.
- Identify which error is more costly from a business perspective.
- Discuss how sample size affects Type II Error.
- Explain the relationship between α, β, and statistical power.
Answer To Case Study 5
Pendahuluan
Sebuah fintech startup sedang menguji apakah algoritma deteksi fraud baru mereka dapat mengurangi jumlah transaksi penipuan (fraudulent transactions).
Konteks Hipotesis
Hipotesis Nol (H₀): Algoritma baru TIDAK mengurangi fraud. Dengan kata lain, algoritma baru tidak lebih baik dari sistem yang ada saat ini.
\[H_0: \text{Algoritma baru tidak efektif dalam mengurangi fraud}\]
Hipotesis Alternatif (H₁): Algoritma baru MENGURANGI fraud. Algoritma baru lebih efektif dibandingkan sistem yang ada.
\[H_1: \text{Algoritma baru efektif dalam mengurangi fraud}\]
Matriks Keputusan dan Kemungkinan Error
Dalam pengujian hipotesis, ada 4 kemungkinan outcome:
| Kondisi Realitas | Gagal Tolak H0 (Tidak Deploy) | Tolak H0 (Deploy Algoritma) |
|---|---|---|
| H0 Benar (Algoritma TIDAK efektif) | Keputusan BENAR (Correct Decision): Tidak mengimplementasikan algoritma yang tidak berguna | Type I Error (α): False Positive, mengimplementasikan algoritma yang sebenarnya tidak efektif |
| H1 Benar (Algoritma EFEKTIF) | Type II Error (β): False Negative, kehilangan peluang karena tidak mengimplementasikan algoritma yang sebenarnya efektif | Keputusan BENAR (Power): Mengimplementasikan algoritma yang memang efektif |
Jawaban Tugas
1. Penjelasan Type I Error (α) dalam Konteks Ini
Definisi Type I Error:
Type I Error terjadi ketika kita menolak H₀ padahal H₀ sebenarnya benar.
Dalam simbol statistik: \[P(\text{Tolak } H_0 | H_0 \text{ benar}) = \alpha\]
Dalam Konteks Fraud Detection:
Type I Error terjadi ketika:
Kita menyimpulkan bahwa algoritma baru MENGURANGI fraud (menolak H₀), padahal kenyataannya algoritma tersebut TIDAK efektif (H₀ benar).
Skenario Konkret:
Apa yang Terjadi:
Tim data science melakukan testing
Hasil test menunjukkan penurunan fraud secara statistik signifikan
Berdasarkan hasil ini, perusahaan memutuskan untuk deploy algoritma baru
NAMUN, penurunan fraud yang teramati sebenarnya hanya kebetulan (random variation)
Algoritma baru sebenarnya tidak lebih baik dari sistem lama
Konsekuensi Bisnis:
Biaya Langsung:
Biaya development dan testing yang sudah dikeluarkan sia-sia
Biaya deployment dan integration dengan sistem existing
Biaya training tim untuk menggunakan sistem baru
Biaya infrastructure dan maintenance untuk algoritma yang tidak efektif
Biaya Opportunity:
Waktu dan resources yang bisa digunakan untuk develop solusi lain yang lebih baik
Delayed implementation dari solusi fraud detection yang benar-benar efektif
Dampak Operasional:
False sense of security - tim percaya fraud sudah berkurang
Mungkin ada relaksasi dalam monitoring manual
Fraud sebenarnya tetap terjadi di level yang sama
Reputasi dan Kepercayaan:
Stakeholder dan investor diberi harapan palsu
Ketika fraud ternyata tidak berkurang, kredibilitas tim terganggu
Probabilitas Type I Error:
Probabilitas Type I Error = α (alpha) = tingkat signifikansi yang kita tetapkan
Umumnya:
α = 0.05 (5%) → Ada 5% chance membuat Type I Error
α = 0.01 (1%) → Ada 1% chance membuat Type I Error
Trade-off:
α lebih kecil → Lebih konservatif, lebih sulit menolak H₀
α lebih besar → Lebih liberal, lebih mudah menolak H₀
Ilustrasi Numerik:
Misalkan fraud rate sebelumnya 2% dan kita test algoritma baru:
| Aspek | Nilai |
|---|---|
| Fraud Rate Sebenarnya (dengan algoritma baru) | 2.0% (tidak berubah) |
| Fraud Rate Terobservasi dalam test | 1.7% (tampak turun) |
| Kesimpulan Statistik | Signifikan pada α = 0.05 → Tolak H₀ |
| Keputusan Bisnis | Deploy algoritma baru |
| Realitas | Algoritma sebenarnya tidak efektif |
| Jenis Error | TYPE I ERROR |
2. Penjelasan Type II Error (β) dalam Konteks Ini
Definisi Type II Error:
Type II Error terjadi ketika kita gagal menolak H₀ padahal H₀ sebenarnya salah (H₁ benar).
Dalam simbol statistik: \[P(\text{Gagal Tolak } H_0 | H_1 \text{ benar}) = \beta\]
Dalam Konteks Fraud Detection:
Type II Error terjadi ketika:
Kita menyimpulkan bahwa algoritma baru TIDAK mengurangi fraud (gagal tolak H₀), padahal kenyataannya algoritma tersebut EFEKTIF (H₁ benar).
Skenario Konkret:
Apa yang Terjadi:
Tim data science melakukan testing dengan sampel transaksi
Hasil test menunjukkan penurunan fraud, tapi tidak signifikan secara statistik
Berdasarkan hasil ini, perusahaan memutuskan untuk TIDAK deploy algoritma baru
NAMUN, algoritma baru sebenarnya efektif mengurangi fraud
Kita gagal mendeteksi efektivitas karena sampel terlalu kecil atau variabilitas tinggi
Konsekuensi Bisnis:
Kerugian Langsung dari Fraud yang Berkelanjutan:
Fraud losses tetap tinggi karena tidak menggunakan algoritma yang lebih baik
Chargebacks dan refunds untuk transaksi penipuan
Kehilangan revenue dari transaksi fraud yang tidak terdeteksi
Opportunity Cost:
Missed opportunity untuk meningkatkan fraud detection rate
Kompetitor mungkin sudah menggunakan teknologi lebih baik
Customer experience yang lebih buruk (legit transactions mungkin di-block, fraud tidak terdeteksi)
Dampak Jangka Panjang:
Reputasi perusahaan terganggu jika fraud rate tinggi
Regulasi dan compliance issues
Biaya insurance dan risk management yang lebih tinggi
Kerugian Development:
Investasi R&D untuk algoritma baru sia-sia
Tim mungkin demotivasi karena solusi yang baik tidak di-adopt
Potensi kehilangan talent yang frustasi
Probabilitas Type II Error:
Probabilitas Type II Error = β (beta)
Statistical Power = 1 - β = Probabilitas mendeteksi efek yang benar-benar ada
Contoh:
Jika β = 0.20 → Power = 0.80 (80% chance mendeteksi efek yang ada)
Jika β = 0.10 → Power = 0.90 (90% chance mendeteksi efek yang ada)
Ilustrasi Numerik:
Misalkan algoritma baru sebenarnya mengurangi fraud dari 2% ke 1.5%:
| Aspek | Nilai |
|---|---|
| Fraud Rate Lama | 2.0% |
| Fraud Rate dengan Algoritma Baru (Realitas) | 1.5% (turun 25%) |
| Penurunan Fraud Sebenarnya | 0.5 percentage points |
| Fraud Rate Terobservasi dalam test | 1.6% (turun tapi tidak signifikan) |
| Kesimpulan Statistik | Tidak signifikan pada α = 0.05 → Gagal Tolak H₀ |
| Keputusan Bisnis | TIDAK deploy algoritma baru |
| Realitas | Algoritma sebenarnya efektif |
| Jenis Error | TYPE II ERROR |
Dampak Finansial Estimasi:
Jika perusahaan memproses 1 juta transaksi per bulan dengan nilai rata-rata $100:
| Metrik | Nilai |
|---|---|
| Transaksi per bulan | 1e+06 |
| Nilai rata-rata per transaksi | $100 |
| Fraud rate (algoritma lama) | 2.0% |
| Fraud rate (algoritma baru) | 1.5% |
| Fraud loss per bulan (algoritma lama) | $2e+06 |
| Fraud loss per bulan (algoritma baru) | $1,500,000 |
| Potensi penghematan per bulan | $5e+05 |
| Potensi penghematan per tahun | $6e+06 |
Dengan Type II Error, perusahaan kehilangan potensi penghematan $500,000 per bulan atau $6,000,000 per tahun!
3. Error Mana yang Lebih Mahal dari Perspektif Bisnis?
Untuk menentukan error mana yang lebih costly, kita perlu melakukan Cost-Benefit Analysis yang komprehensif.
A. Analisis Biaya Type I Error
Skenario: Deploy algoritma yang sebenarnya tidak efektif
| Kategori_Biaya | Estimasi_Biaya | Keterangan |
|---|---|---|
| Development & Testing | $200,000 - $500,000 | Sunk cost - sudah dikeluarkan |
| Deployment & Integration | $100,000 - $300,000 | Biaya sistem integration |
| Infrastructure & Maintenance | $50,000 - $150,000/tahun | Server, monitoring, updates |
| Training & Change Management | $50,000 - $100,000 | Staff training untuk sistem baru |
| Opportunity Cost | $100,000 - $300,000 | Resources untuk solusi lain |
| Total Estimasi (One-time) | $450,000 - $1,200,000 | Biaya implementasi total |
| Total Estimasi (Annual recurring) | $50,000 - $150,000 | Biaya operasional tahunan |
Total Dampak Type I Error (3 tahun):
One-time: $450K - $1.2M
Recurring (3 tahun): $150K - $450K
Total: $600K - $1.65M
Faktor Mitigasi:
Sebagian biaya development bisa di-salvage (learnings, partial code reuse)
Tidak ada kehilangan langsung dari fraud
Bisa di-rollback dengan relatif cepat setelah monitoring
B. Analisis Biaya Type II Error
Skenario: Tidak deploy algoritma yang sebenarnya efektif
| Kategori_Biaya | Estimasi_Biaya | Keterangan |
|---|---|---|
| Fraud Losses (per tahun) | $6,000,000 | Opportunity loss dari fraud prevention |
| Chargebacks & Refunds | $500,000 - $1,000,000 | Biaya proses dispute |
| Customer Trust & Reputation | $1,000,000 - $3,000,000 | Customer churn, brand damage |
| Compliance & Legal | $200,000 - $500,000 | Regulatory fines, audit costs |
| Higher Insurance Premiums | $100,000 - $300,000 | Higher risk premiums |
| Competitive Disadvantage | Sulit dikuantifikasi | Market share loss |
| Total Estimasi (Annual) | $7,800,000 - $10,800,000 | Kerugian tahunan |
| Total Estimasi (3 tahun) | $23,400,000 - $32,400,000 | Akumulasi 3 tahun |
Total Dampak Type II Error (3 tahun): $23.4M - $32.4M
Faktor Pemberat:
Kerugian bersifat ongoing dan compound
Sulit di-recover setelah kehilangan customer trust
Competitive disadvantage bisa permanent
Reputational damage jangka panjang
C. Perbandingan Langsung
| Aspek | Type_I_Error | Type_II_Error |
|---|---|---|
| Total Biaya (3 tahun) | $0.6M - $1.65M | $23.4M - $32.4M |
| Sifat Biaya | Mostly one-time & sunk cost | Ongoing & compound losses |
| Dapat Di-recover | Partial (learning, code) | Sangat sulit |
| Dampak Reputasi | Minimal | Signifikan |
| Dampak Kompetitif | Minimal | Signifikan |
| Risk Level | Lower | Higher |
| Kesimpulan | Lebih murah & lebih mudah di-mitigate | Jauh lebih mahal & dampak jangka panjang |
D. Kesimpulan: Type II Error Lebih Mahal
Dalam konteks fraud detection fintech ini, Type II Error JAUH LEBIH MAHAL (10-20x lebih mahal).
Alasan Utama:
Magnitude of Loss
Type I: ~$1.65M (worst case)
Type II: ~$32.4M (worst case)
Rasio: 1:20
Ongoing vs One-time
Type I: Mostly one-time cost
Type II: Compound losses setiap bulan
Reversibility
Type I: Bisa di-rollback dan di-fix
Type II: Kehilangan revenue dan reputasi sulit di-recover
Strategic Impact
Type I: Internal inefficiency
Type II: Competitive disadvantage, market share loss
E. Implikasi untuk Decision Making
Rekomendasi Strategis:
| Situasi | Alpha_Level | Rasionale | Action |
|---|---|---|---|
| Early Stage Testing | 0.10 (lebih liberal) | Willing to risk Type I untuk avoid Type II | Test multiple algorithms, filter later |
| Pilot Program | 0.05 (standar) | Balanced approach | Deploy to 10-20% traffic |
| Full Deployment Decision | 0.05 atau 0.01 | Conservative jika high stakes | Comprehensive analysis sebelum full deploy |
| Post-Deployment Monitoring | Ongoing monitoring | Quick rollback jika ternyata Type I | Real-time metrics, ready to rollback |
Prinsip Utama:
Dalam konteks ini, lebih baik risiko Type I Error daripada Type II Error karena:
Type I bisa di-detect dan di-fix cepat dengan monitoring
Type II menyebabkan kerugian ongoing yang massive
Cost of false positive << Cost of false negative
Namun tetap perlu balance:
Tidak asal deploy semua algoritma (proper testing tetap penting)
Monitor dengan ketat untuk detect Type I Error
Siap rollback cepat jika algorithm tidak perform
4. Pengaruh Sample Size terhadap Type II Error
A. Hubungan Konseptual
Type II Error (β) berbanding terbalik dengan ukuran sampel (n):
\[\beta \downarrow \text{ ketika } n \uparrow\]
Atau dalam kata lain: \[\text{Power} = 1 - \beta \uparrow \text{ ketika } n \uparrow\]
Mengapa ini terjadi?
- Standard Error berkurang dengan sampel lebih besar: \[SE = \frac{\sigma}{\sqrt{n}}\]
Sampel lebih besar → SE lebih kecil → Distribusi sampling lebih sempit
Deteksi efek lebih mudah dengan presisi lebih tinggi: Dengan SE lebih kecil, kita bisa membedakan efek kecil dari noise
Confidence Interval lebih sempit: CI lebih sempit → Lebih mudah untuk detect perbedaan dari null hypothesis
B. Ilustrasi Numerik
Misalkan algoritma baru mengurangi fraud rate dari 2.0% ke 1.5% (effect size = 0.5 percentage points).
Simulasi dengan berbagai ukuran sampel:
C. Tabel Sample Size Requirements
| Target_Power | Type_II_Error | Required_Sample_Size | Interpretasi |
|---|---|---|---|
| 50% | 50% | 1,861 | Tidak cukup - banyak missed opportunities |
| 70% | 30% | 3,237 | Kurang memadai |
| 80% | 20% | 4,253 | Minimum acceptable (standard) |
| 90% | 10% | 5,890 | Baik - confidence tinggi |
| 95% | 5% | 7,443 | Sangat baik - high confidence |
Key Insight:
Untuk mencapai power 80% (β = 20%), kita membutuhkan sampel sekitar 10,000-15,000 transaksi.
Jika kita hanya test dengan 1,000 transaksi, power kita mungkin hanya ~40-50%, artinya ada 50-60% chance kita akan miss algoritma yang sebenarnya efektif (Type II Error)!
D. Practical Implications untuk Fraud Detection Testing
1. Test Design Considerations:
| Testing_Phase | Sample_Size | Expected_Power | Use_Case | Risk_Type_II |
|---|---|---|---|---|
| Quick Validation | 1,000 - 5,000 | 30-50% (High β) | Early screening only | HIGH - jangan buat final decision |
| Pilot Test | 10,000 - 20,000 | 80-85% (Acceptable β) | Decision for further investment | MEDIUM - good enough untuk pilot |
| Full Scale Test | 50,000 - 100,000 | 95%+ (Low β) | Pre-deployment validation | LOW - confident untuk deployment |
| A/B Test Production | 100,000+ | 99%+ (Very Low β) | Final confirmation & optimization | VERY LOW - production validation |
2. Sequential Testing Strategy:
Untuk mengatasi trade-off antara sample size dan speed:
| Stage | Sample_Size | Decision_Rule | Rationale |
|---|---|---|---|
| Stage 1 | 1,000 | Jika improvement > 30% → lanjut ke Stage 2, jika tidak → stop | Quick filter - eliminate obviously bad algorithms |
| Stage 2 | 5,000 | Jika improvement > 20% dan p < 0.10 → lanjut, jika tidak → stop | Intermediate validation |
| Stage 3 | 20,000 | Jika improvement > 15% dan p < 0.05 → lanjut, jika tidak → stop | Strong evidence needed |
| Stage 4 | 100,000 | Final validation: p < 0.01, confidence interval analysis | Very high confidence before full deployment |
Keuntungan Sequential Testing:
Tidak perlu menunggu sampel besar untuk algoritma yang jelas tidak efektif
Fokus resources pada algoritma yang promising
Balance antara speed dan accuracy
E. Practical Recommendations
1. Untuk Fintech Startup dengan Budget Terbatas:
Gunakan Historical Data: Jika punya data historical, simulasikan algoritma baru pada data lama untuk increase effective sample size
Stratified Sampling: Pastikan sampel representatif (berbagai merchant, transaction types, dll)
Longer Test Duration: Jika tidak bisa increase concurrent sample, perpanjang durasi test
2. Untuk Scale-up Deployment:
A/B Test dengan Traffic Allocation: Deploy ke 10% traffic dulu, monitor, gradually increase
Real-time Monitoring: Quick detection jika ada issues (Type I error mitigation)
Fallback Mechanism: Automatic rollback jika performance metrics drop
3. Cost-Benefit of Larger Sample:
| Skenario | Testing_Cost | Type_II_Error | Risk_Missed_Savings | ROI_of_Testing |
|---|---|---|---|---|
| Small Sample (n=2,000) | $10,000 - $20,000 | ~60% (Very High) | $6M/year × 60% = $3.6M/year | Negative - High risk |
| Medium Sample (n=10,000) | $30,000 - $50,000 | ~20% (Acceptable) | $6M/year × 20% = $1.2M/year | Positive - Good balance |
| Large Sample (n=50,000) | $100,000 - $150,000 | ~5% (Low) | $6M/year × 5% = $0.3M/year | Very Positive - Best confidence |
Key Insight: Investasi dalam sampel lebih besar memberikan ROI yang sangat tinggi dengan mengurangi risiko Type II Error yang costly.
5. Hubungan antara α, β, dan Statistical Power
A. Definisi dan Hubungan Matematis
Alpha (α): Probabilitas Type I Error - Tingkat signifikansi yang kita tetapkan (biasanya 0.05) - Risiko menolak H₀ padahal H₀ benar
Beta (β): Probabilitas Type II Error - Risiko gagal menolak H₀ padahal H₁ benar - Gagal mendeteksi algoritma yang efektif
Statistical Power: Probabilitas mendeteksi efek yang benar-benar ada \(\text{Power} = 1 - \beta\)
Hubungan Fundamental: \(\alpha + \text{Power} \neq 1\) \(\beta + \text{Power} = 1\)
B. Trade-off antara α dan β
| Aspek | Dampak_pada_Beta | Dampak_pada_Power | Trade_off |
|---|---|---|---|
| Ketika α TURUN | β NAIK (lebih sulit tolak H₀) | Power TURUN | Lebih konservatif, lebih banyak missed opportunities |
| Ketika α NAIK | β TURUN (lebih mudah tolak H₀) | Power NAIK | Lebih liberal, lebih banyak false positives |
| Ketika sampel NAIK | β TURUN (power naik) | Power NAIK | Win-win (tapi lebih mahal) |
| Ketika effect size BESAR | β TURUN (lebih mudah deteksi) | Power NAIK | Natural improvement |
C. Faktor yang Mempengaruhi Power
Statistical Power dipengaruhi oleh 4 faktor utama:
1. Alpha Level (α) - α lebih besar → Power lebih tinggi - Trade-off: Lebih banyak Type I Error
2. Sample Size (n) - n lebih besar → Power lebih tinggi - No trade-off, hanya biaya
3. Effect Size - Effect lebih besar → Power lebih tinggi - Tidak bisa dikontrol (tergantung realitas)
4. Variability (σ) - Variability lebih kecil → Power lebih tinggi - Sulit dikontrol, tapi bisa improve measurement
D. Skenario Praktis dalam Fraud Detection
Skenario 1: Conservative Approach (α = 0.01)
| Parameter | Nilai |
|---|---|
| Alpha (α) | 0.01 (1%) |
| Beta (β) estimasi | 0.30-0.40 |
| Power | 0.60-0.70 |
| Konsekuensi | Sangat yakin jika deploy, tapi banyak missed algorithms |
Cocok untuk: Final deployment decision, high-stakes implementation
Skenario 2: Balanced Approach (α = 0.05)
| Parameter | Nilai |
|---|---|
| Alpha (α) | 0.05 (5%) |
| Beta (β) estimasi | 0.15-0.25 |
| Power | 0.75-0.85 |
| Konsekuensi | Standard scientific approach, good balance |
Cocok untuk: Pilot testing, general validation
Skenario 3: Liberal Approach (α = 0.10)
| Parameter | Nilai |
|---|---|
| Alpha (α) | 0.10 (10%) |
| Beta (β) estimasi | 0.05-0.15 |
| Power | 0.85-0.95 |
| Konsekuensi | High sensitivity, catch most good algorithms |
Cocok untuk: Early screening, exploratory phase
E. Rekomendasi Strategis untuk Fintech
Phase-based Alpha Strategy:
Phase 1: Initial Screening (α = 0.10)
- Goal: Don’t miss any promising algorithms
- High power, willing to accept false positives
- Quick filtering
Phase 2: Validation (α = 0.05)
- Goal: Standard validation
- Balanced approach
- Detailed testing
Phase 3: Final Decision (α = 0.01)
- Goal: High confidence before deployment
- Conservative approach
- Comprehensive analysis
F. Practical Guidelines
Untuk Minimize Type II Error (maximize Power):
- Increase sample size (paling efektif)
- Use α = 0.10 untuk early screening
- Improve measurement precision
- Longer test duration
- Stratified sampling untuk reduce variability
Untuk Minimize Type I Error:
- Use α = 0.01 untuk final decisions
- Require replication studies
- Monitor closely post-deployment
- Have rollback mechanisms ready
Kesimpulan Akhir
Ringkasan Konsep
Type I Error (α): False Positive
- Deploy algoritma yang tidak efektif
- Biaya: ~$600K-$1.65M (3 tahun)
- Dapat di-rollback
Type II Error (β): False Negative
- Tidak deploy algoritma yang efektif
- Biaya: ~$23M-$32M (3 tahun)
- Sulit di-recover
Statistical Power (1-β):
- Kemampuan mendeteksi algoritma yang efektif
- Dipengaruhi oleh: n, α, effect size, variability
Key Takeaways
Type II Error JAUH lebih mahal dalam konteks fraud detection (20x lebih costly)
Sample size adalah kunci untuk mengurangi Type II Error tanpa trade-off
Alpha strategy harus phase-based: Liberal untuk screening, conservative untuk deployment
Power analysis harus dilakukan sebelum testing untuk menentukan sample size yang adequate
Trade-off α dan β harus dipahami untuk membuat keputusan yang tepat
Rekomendasi Final
Untuk Fintech Startup:
- Prioritaskan menghindari Type II Error (jangan sampai miss algoritma yang bagus)
- Invest dalam sample size yang adequate (minimal n untuk power 80%)
- Gunakan sequential testing untuk efficiency
- Monitor ketat untuk quick detection of Type I Error
- Balance antara speed dan accuracy dengan phased approach
Critical Success Factors:
- Proper sample size calculation
- Phased testing strategy
- Real-time monitoring
- Quick rollback capability
- Cost-benefit analysis at each decision point
Case Study 6
P-Value and Statistical Decision Making
A churn prediction model evaluation yields the following results:
- Test statistic = 2.31
- p-value = 0.021
- Significance level: \(\alpha = 0.05\)
Tasks
- Explain the meaning of the p-value.
- Make a statistical decision.
- Translate the decision into non-technical language for management.
- Discuss the risk if the sample is not representative.
- Explain why the p-value does not measure effect size.
Answer To Case Study 6
Pendahuluan
Sebuah churn prediction model (model prediksi customer churn) sedang dievaluasi untuk menentukan apakah model baru ini lebih efektif dibandingkan model yang ada saat ini.
Hasil Evaluasi Model
| Parameter | Nilai |
|---|---|
| Test Statistic | 2.310 |
| P-value | 0.021 |
| Tingkat Signifikansi (α) | 0.050 |
Konteks Hipotesis (Asumsi)
Dalam evaluasi model prediksi, umumnya kita menguji:
H₀: Model baru tidak lebih baik dari model lama (tidak ada improvement)
H₁: Model baru lebih baik dari model lama (ada improvement signifikan)
Jawaban Tugas
1. Penjelasan Makna P-Value
Definisi P-Value
P-value adalah probabilitas untuk mendapatkan hasil test statistic sebesar atau lebih ekstrem dari yang kita observasi, dengan asumsi bahwa Hipotesis Nol (H₀) benar.
Dalam simbol matematis: \[\text{P-value} = P(\text{Test Statistic} \geq 2.31 \mid H_0 \text{ benar})\]
Interpretasi P-Value dalam Konteks Ini
P-value = 0.021 berarti:
“Jika sebenarnya model baru TIDAK lebih baik dari model lama (H₀ benar), maka probabilitas untuk mendapatkan hasil test statistic 2.31 atau lebih ekstrem adalah 2.1% atau 21 dalam 1000 percobaan.”
Apa yang P-Value BUKAN
| Kesalahpahaman_Umum | Penjelasan_Yang_Benar |
|---|---|
| P-value adalah probabilitas H₀ benar | SALAH. P-value adalah P(data|H₀), bukan P(H₀|data) |
| P-value adalah probabilitas hasil karena chance | SALAH. P-value adalah P(data lebih ekstrem|H₀ benar) |
| P-value mengukur seberapa besar effect | SALAH. P-value mengukur evidence against H₀, bukan ukuran effect |
| P-value kecil berarti effect besar | SALAH. P-value kecil bisa dari effect besar atau sampel besar |
| P-value > 0.05 berarti H₀ pasti benar | SALAH. Gagal tolak H₀ ≠ H₀ benar, hanya kurang evidence |
Visualisasi P-Value
Interpretasi Intuitif
Analogi Sederhana:
Bayangkan Anda melempar koin 100 kali dan mendapat 65 heads (kepala). Anda curiga koin tidak fair.
- H₀: Koin fair (P(heads) = 0.5)
- Hasil observasi: 65 heads dari 100
- P-value: Berapa probabilitas mendapat 65+ heads jika koin benar-benar fair?
Jika p-value = 0.021, artinya hanya ada 2.1% chance mendapat hasil seextrem ini jika koin benar-benar fair. Ini adalah evidence yang kuat bahwa koin mungkin tidak fair.
Dalam Konteks Churn Model:
- H₀: Model baru tidak lebih baik
- Hasil observasi: Test statistic = 2.31
- P-value = 0.021: Hanya 2.1% chance mendapat hasil ini jika model baru memang tidak lebih baik
Ini adalah evidence yang kuat bahwa model baru kemungkinan memang lebih baik.
Level of Evidence berdasarkan P-Value
| P_Value_Range | Level_of_Evidence | Interpretasi | Kasus_Kita |
|---|---|---|---|
| < 0.001 | Very Strong Evidence | Sangat kuat melawan H₀ | |
| 0.001 - 0.01 | Strong Evidence | Kuat melawan H₀ | |
| 0.01 - 0.05 | Moderate Evidence | Cukup untuk reject H₀ (pada α=0.05) | ← P-value kita (0.021) |
| 0.05 - 0.10 | Weak Evidence | Marginal, tergantung konteks | |
| > 0.10 | Little to No Evidence | Tidak cukup untuk reject H₀ |
P-value kita (0.021) berada di kategori “Strong Evidence” melawan H₀.
2. Keputusan Statistik
Kriteria Keputusan
Keputusan statistik dibuat dengan membandingkan p-value dengan tingkat signifikansi (α):
Aturan Keputusan: - Jika p-value < α → TOLAK H₀ - Jika p-value ≥ α → GAGAL TOLAK H₀
Evaluasi dalam Kasus Ini
| Komponen | Nilai |
|---|---|
| P-value | 0.021 |
| Alpha (α) | 0.05 |
| Perbandingan | 0.021 < 0.05 |
| Keputusan Statistik | TOLAK H₀ |
| Kesimpulan | Model baru signifikan lebih baik |
Keputusan: TOLAK H₀
Karena p-value (0.021) < α (0.05), kita MENOLAK Hipotesis Nol.
Artinya:
Ada bukti statistik yang cukup kuat untuk menyimpulkan bahwa model churn prediction baru signifikan lebih baik dari model lama.
Tingkat Kepercayaan
Dengan menolak H₀ pada α = 0.05, kita memiliki 95% confidence level dalam keputusan ini.
Atau dengan kata lain, kita bersedia mengambil risiko 5% untuk membuat Type I Error (false positive - menyimpulkan model lebih baik padahal tidak).
Visualisasi Keputusan
Test statistic kita (2.31) jatuh di daerah penolakan (rejection region), sehingga keputusan adalah TOLAK H₀.
3. Komunikasi untuk Manajemen (Non-Technical)
Versi Management-Friendly
Ringkasan Eksekutif:
Model prediksi churn yang baru terbukti lebih efektif dibandingkan model yang ada saat ini. Hasil analisis statistik menunjukkan improvement yang signifikan dengan tingkat kepercayaan 95%.
Rekomendasi: Deploy model baru untuk meningkatkan akurasi prediksi churn dan efektivitas retention strategy.
Penjelasan untuk Non-Technical Audience
Pertanyaan Manajemen: “Apakah model baru ini benar-benar lebih baik?”
Jawaban Sederhana:
“Ya, model baru ini signifikan lebih baik. Kami melakukan pengujian statistik yang ketat, dan hasilnya menunjukkan bahwa kemungkinan improvement ini hanya karena kebetulan sangat kecil - hanya 2.1%.
Dengan kata lain, kami 97.9% yakin bahwa model baru ini memang lebih baik, bukan karena faktor kebetulan.”
Key Messages untuk Management
| Pertanyaan_Management | Jawaban_Sederhana |
|---|---|
| Apa artinya hasil ini? | Model baru terbukti lebih akurat dalam memprediksi customer yang akan churn |
| Seberapa yakin kita? | 95% confidence level - sangat tinggi. Hanya 5% kemungkinan kesimpulan kita salah |
| Apa risikonya? | Risiko kecil (5%) bahwa improvement ini kebetulan. Risiko tidak menggunakan model baru lebih besar |
| Apa yang harus dilakukan? | Deploy model baru untuk meningkatkan churn prediction accuracy dan retention effectiveness |
| Berapa cost/benefit? | Model lebih baik → prediksi lebih akurat → retention lebih efektif → revenue meningkat |
Business Impact Translation
Dari Bahasa Statistik ke Bahasa Bisnis:
Statistik: “P-value = 0.021, reject H₀ at α = 0.05”
Bisnis: “Model baru dapat memprediksi customer churn dengan lebih akurat, yang berarti kita bisa:
- Identifikasi at-risk customers lebih awal
- Target retention efforts lebih efektif
- Reduce churn rate dan increase customer lifetime value
- Optimize marketing budget dengan fokus pada customers yang benar-benar at-risk”
One-Pager untuk C-Level
EXECUTIVE SUMMARY: CHURN PREDICTION MODEL EVALUATION
Bottom Line: Model baru 95% terbukti lebih baik. Rekomendasi: Deploy immediately.
Key Findings:
- Statistical analysis confirms model improvement (p = 0.021)
- 95% confidence level - very high certainty
- Low risk of false positive (5%)
Business Impact:
- Better churn prediction accuracy
- More effective retention targeting
- Higher ROI on retention spending
- Reduced customer acquisition costs (retain existing customers)
Next Steps: 1. Deploy model to production 2. Monitor performance metrics 3. A/B test with old model (safety check) 4. Measure business KPIs (churn rate, retention rate, LTV)
Timeline: Ready for deployment. Recommend phased rollout (25% → 50% → 100% over 4 weeks).
4. Risiko jika Sampel Tidak Representatif
Konsep Representativeness
Sampel Representatif adalah sampel yang mencerminkan karakteristik populasi yang ingin kita generalisasi.
Jika sampel TIDAK representatif: Hasil statistik (walaupun p-value kecil) TIDAK VALID untuk populasi yang lebih luas.
Skenario Risiko dalam Churn Prediction
Contoh Kasus Sampel Tidak Representatif:
| Skenario | Deskripsi_Masalah | Dampak_Risiko |
|---|---|---|
| 1. Bias Temporal | Model di-test hanya pada data bulan promo, bukan kondisi normal | Model gagal predict di kondisi normal → churn prediction tidak akurat |
| 2. Bias Geografis | Model di-test hanya pada customers di region tertentu (urban) tapi digunakan untuk semua region | Model tidak perform di rural areas → retention strategy gagal di region tersebut |
| 3. Bias Segmen Customer | Model di-test pada enterprise customers, tapi digunakan untuk SMB customers juga | Model tidak cocok untuk SMB → salah identifikasi at-risk customers |
| 4. Bias Platform | Model di-test pada web users, tapi digunakan juga untuk mobile app users | Model tidak akurat untuk mobile users → miss opportunity untuk retention |
| 5. Bias Behavior | Model di-test pada high-engagement users, padahal churn biasanya dari low-engagement | Model bias ke segment yang sudah engaged → miss actual at-risk customers |
Konsekuensi Serius
1. False Sense of Security
Manajemen percaya model bekerja baik (karena p-value kecil), padahal hanya bekerja pada subset tertentu. Ketika di-deploy ke real world, performance drop drastically.
2. Biaya Salah Prediksi
| Jenis_Error | Deskripsi | Estimated_Cost |
|---|---|---|
| False Positive (predict churn, tapi tidak) | Wasted retention budget untuk customers yang sebenarnya tidak akan churn | $50-$200 per customer (retention offer tidak perlu) |
| False Negative (predict stay, tapi churn) | Missed opportunity untuk retain customers yang sebenarnya at-risk | $500-$5,000 per customer (lost LTV dari churned customer) |
False Negative jauh lebih mahal karena kita kehilangan customer yang sebenarnya bisa di-save.
3. Loss of Trust
Stakeholders kehilangan kepercayaan pada data science team ketika model yang dijanjikan “95% confident” ternyata tidak perform di production.
How to Ensure Representativeness
Pre-Deployment Checks:
| Check | What_to_Verify | Action_if_Not_Representative |
|---|---|---|
| 1. Demographic Distribution | Sample memiliki distribusi age, gender, location yang sama dengan populasi | Stratified sampling atau re-weight sampel |
| 2. Temporal Coverage | Data mencakup berbagai periode (seasonal, promo, normal) | Collect data across multiple time periods |
| 3. Segment Balance | Proporsi enterprise/SMB/individual sama dengan populasi | Oversample underrepresented segments |
| 4. Platform Mix | Mix web/mobile/app users proporsional | Ensure sufficient data dari semua platforms |
| 5. Behavior Distribution | Mix high/medium/low engagement users proporsional | Balance dataset dengan sampling techniques |
Statistical Tests untuk Representativeness:
- Chi-Square Test untuk categorical variables
- K-S Test (Kolmogorov-Smirnov) untuk continuous variables
- Compare distributions sample vs population
Mitigation Strategies
Jika sampel tidak 100% representatif:
Strategy 1: Stratified Analysis
- Analisis terpisah per segment
- Deploy model yang berbeda per segment jika needed
Strategy 2: Weighted Analysis
- Berikan weight pada observasi untuk adjust non-representativeness
- Misalnya: jika mobile users underrepresented, berikan weight lebih tinggi
Strategy 3: Phased Rollout
- Deploy 10% traffic dulu (random sampling)
- Monitor real-world performance
- Gradually increase jika performance match expectations
Strategy 4: A/B Testing in Production
- Run new model parallel dengan old model
- Compare actual churn rates
- Validate bahwa improvement hold in real conditions
5. Mengapa P-Value TIDAK Mengukur Effect Size
Perbedaan Fundamental
P-Value dan Effect Size adalah dua konsep yang sangat berbeda:
| Aspek | P_Value | Effect_Size |
|---|---|---|
| Apa yang diukur? | Strength of evidence AGAINST H₀ | Magnitude/besarnya perbedaan atau hubungan |
| Interpretasi | Probabilitas hasil jika H₀ benar | Seberapa BESAR efeknya |
| Dipengaruhi oleh sample size? | YA - sangat dipengaruhi | TIDAK - independen dari sample size |
| Mengindikasikan praktikalitas? | TIDAK | YA - langsung praktis |
| Range nilai | 0 sampai 1 | Tergantung metric (Cohen’s d, r, dll) |
Mengapa P-Value Tidak Mengukur Effect Size
Alasan 1: P-Value Dipengaruhi oleh Sample Size
P-Value adalah fungsi dari: \[\text{P-value} = f(\text{Effect Size}, \text{Sample Size}, \text{Variability})\]
Dengan sample size sangat besar, efek yang sangat kecil bisa menghasilkan p-value yang sangat kecil.
Ilustrasi:
| Skenario | Sample_Size | Effect_Size | P_Value | Signifikansi_Statistik | Signifikansi_Praktis |
|---|---|---|---|---|---|
| A: Small Sample, Large Effect | n = 50 | Large (d = 0.8) | 0.045 | Ya (barely) | Ya |
| B: Large Sample, Small Effect | n = 10,000 | Tiny (d = 0.1) | 0.001 | Ya (sangat) | TIDAK |
| C: Large Sample, Large Effect | n = 10,000 | Large (d = 0.8) | < 0.0001 | Ya (sangat) | Ya |
Key Insight:
- Skenario A: Large effect, tapi p-value biasa karena sampel kecil
- Skenario B: Tiny effect, tapi p-value sangat kecil karena sampel besar - MISLEADING!
- Skenario C: Large effect DAN sampel besar - ideal
Skenario B adalah perangkap: P-value kecil membuat kita pikir efeknya besar, padahal tidak!
Contoh Konkret dalam Churn Prediction
Misalkan kita punya 2 model:
Model A:
- Improvement: 1% (dari 20% churn ke 19% churn)
- Sample size: 100,000 customers
- P-value: 0.001 (sangat signifikan)
Model B:
- Improvement: 5% (dari 20% churn ke 15% churn)
- Sample size: 500 customers
- P-value: 0.08 (tidak signifikan)
Hanya melihat p-value:
- Model A terlihat lebih baik (p = 0.001)
- Model B tidak signifikan (p = 0.08)
Melihat effect size:
- Model A: Hanya 1% improvement (kecil)
- Model B: 5% improvement (besar)
Business Impact:
| Model | P_Value | Churn_Reduction | Customers_Saved | Revenue_Impact | Business_Decision |
|---|---|---|---|---|---|
| Model A | 0.001 (signifikan) | 1% | 100 | $50,000 | Statistically significant, tapi ROI rendah |
| Model B | 0.08 (tidak signifikan) | 5% | 500 | $250,000 | Not statistically significant, tapi ROI tinggi jika real |
Model B jauh lebih valuable ($2.5M vs $500K revenue impact) meskipun p-value tidak signifikan!
Metrics untuk Effect Size
Untuk Churn Prediction Model, gunakan:
1. Accuracy Improvement
- Baseline accuracy vs New model accuracy
- Example: 75% → 82% (7 percentage points improvement)
2. Precision/Recall Improvement
- Lebih relevan untuk imbalanced churn data
- Example: Precision 60% → 75%
3. AUC (Area Under ROC Curve)
- Comprehensive measure untuk classifier performance
- Example: AUC 0.72 → 0.85
4. Business Metrics
- Churn rate reduction (absolute %)
- Customers saved
- Revenue impact
- ROI dari retention spending
| Metric | Use_Case | Interpretation_Small | Interpretation_Medium | Interpretation_Large |
|---|---|---|---|---|
| Cohen’s d | Mean differences | 0.2 | 0.5 | 0.8 |
| R-squared | Variance explained | 0.01-0.09 | 0.09-0.25 | > 0.25 |
| Odds Ratio | Logistic regression | 1.5 | 3.0 | > 5.0 |
| Risk Reduction | Binary outcomes | < 5% | 5-10% | > 10% |
| NNT (Number Needed to Treat) | Intervention effectiveness | > 20 | 5-20 | < 5 |
Best Practice: Report Both
Proper Statistical Reporting harus include:
- P-value (statistical significance)
- Effect size (practical significance)
- Confidence interval (precision of estimate)
- Sample size (context)
Example Good Reporting:
“Model baru mengurangi churn rate dari 20% menjadi 17% (effect size: 3 percentage points atau 15% relative reduction). Improvement ini statistically significant (p = 0.021) dengan 95% confidence interval [2.1%, 3.9%]. Tested on n=5,000 customers.”
This gives complete picture:
- Statistical significance: YES (p = 0.021)
- Practical significance: YES (3% absolute reduction is meaningful)
- Precision: Good (narrow CI)
- Context: Adequate sample size
Kesimpulan Akhir
Ringkasan Key Concepts
1. P-Value (0.021)
- Probabilitas mendapat hasil ini jika H₀ benar
- Strong evidence melawan H₀
- Bukan probabilitas H₀ benar
2. Keputusan Statistik
- TOLAK H₀ karena p < α
- Model baru signifikan lebih baik
- 95% confidence level
3. Komunikasi untuk Management
- “Model 97.9% terbukti lebih baik”
- Focus on business impact
- Rekomendasi: Deploy dengan phased rollout
4. Risiko Sampel Non-Representative
- Hasil tidak generalizable ke populasi
- Costly prediction errors
- Mitigation: Verify representativeness, stratified analysis, phased rollout
5. P-Value ≠ Effect Size
- P-value ukur evidence, bukan magnitude
- Effect size ukur besarnya dampak
- Both needed untuk complete picture
Rekomendasi Final
Untuk Decision Making:
- Selalu report p-value DAN effect size
- Verify sample representativeness sebelum generalisasi
- Translate statistical findings ke business impact
- Use confidence intervals untuk show precision
- Context matters: sample size, business relevance
Untuk Implementation:
- Deploy model baru (statistical evidence kuat)
- Phased rollout untuk verify real-world performance
- Monitor business KPIs, bukan hanya statistical metrics
- A/B test untuk final validation
- Document assumptions dan limitations