Study Cases

Statistical Inferences~ Week 14

Ahmad Rizki Mubarak

Mahasiswa Sains Data ITSB


Case Study 1

One-Sample Z-Test (Statistical Hypotheses)

A digital learning platform claims that the average daily study time of its users is 120 minutes. Based on historical records, the population standard deviation is known to be 15 minutes.

A random sample of 64 users shows an average study time of 116 minutes.

\[ \begin{eqnarray*} \mu_0 &=& 120 \\ \sigma &=& 15 \\ n &=& 64 \\ \bar{x} &=& 116 \end{eqnarray*} \]

Tasks

  1. Formulate the Null Hypothesis (H₀) and Alternative Hypothesis (H₁).
  2. Identify the appropriate statistical test and justify your choice.
  3. Compute the test statistic and p-value using \(\alpha = 0.05\).
  4. State the statistical decision.
  5. Interpret the result in a business analytics context.

Answer To Task Study 1

Pendahuluan

Platform pembelajaran digital mengklaim bahwa rata-rata waktu belajar harian penggunanya adalah 120 menit. Berdasarkan catatan historis, standar deviasi populasi diketahui sebesar 15 menit.

Sebuah sampel acak dari 64 pengguna menunjukkan rata-rata waktu belajar 116 menit.

Data yang Diketahui

Informasi Data
Parameter Nilai Satuan
μ₀ (Rata-rata Populasi) 120 menit
σ (Standar Deviasi Populasi) 15 menit
n (Ukuran Sampel) 64 pengguna
x̄ (Rata-rata Sampel) 116 menit

1. Perumusan Hipotesis

Hipotesis Nol (H₀): Rata-rata waktu belajar harian pengguna platform adalah 120 menit. \[H_0: \mu = 120\]

Hipotesis Alternatif (H₁): Rata-rata waktu belajar harian pengguna platform tidak sama dengan 120 menit. \[H_1: \mu \neq 120\]

Catatan: Ini adalah uji dua sisi (two-tailed test) karena kita ingin mengetahui apakah rata-rata berbeda dari 120 menit, baik lebih tinggi maupun lebih rendah.


2. Identifikasi Uji Statistik

Uji yang Dipilih: One-Sample Z-Test

Justifikasi Pemilihan Uji:

Justifikasi Pemilihan One-Sample Z-Test
Kriteria Kondisi Kesimpulan
Standar Deviasi Populasi Diketahui (σ = 15) Memenuhi syarat Z-test
Ukuran Sampel Besar (n = 64 > 30) Memenuhi syarat Z-test
Distribusi Data Dapat diasumsikan normal (n besar) Teorema Limit Pusat berlaku
Tujuan Pengujian Membandingkan rata-rata sampel dengan nilai populasi Sesuai dengan One-Sample Z-test

Kesimpulan: One-Sample Z-Test adalah uji yang tepat karena standar deviasi populasi diketahui dan ukuran sampel cukup besar.


3. Perhitungan Test Statistic dan P-Value

Rumus Test Statistic (Z-score):

\(Z = \frac{\bar{x} - \mu_0}{\sigma / \sqrt{n}}\)

Langkah Perhitungan:

Step 1: Hitung Standard Error (SE)

\(SE = \frac{\sigma}{\sqrt{n}} = \frac{15}{\sqrt{64}} = \frac{15}{8} = 1.875\)

Step 2: Hitung Z-statistic

\(Z = \frac{\bar{x} - \mu_0}{SE} = \frac{116 - 120}{1.875} = \frac{-4}{1.875} = -2.133\)

Step 3: Cari P-value untuk two-tailed test

Karena ini two-tailed test, kita hitung:

\(P\text{-value} = 2 \times P(Z < -2.133) = 2 \times 0.0165 = 0.0330\)

Step 4: Tentukan Critical Values dengan α = 0.05

\(Z_{\alpha/2} = \pm 1.96\)

Hasil Perhitungan:

Hasil Perhitungan Uji Z
Komponen Nilai
Standard Error (SE) 1.8750
Z-statistic -2.1333
P-value 0.0329
Tingkat Signifikansi (α) 0.0500
Z-critical (batas bawah) -1.9600
Z-critical (batas atas) 1.9600

Visualisasi Distribusi Normal dan Test Statistic


4. Keputusan Statistik

Kriteria Keputusan:

  • Jika p-value < α (0.05), maka TOLAK H₀
  • Jika p-value ≥ α (0.05), maka GAGAL TOLAK H₀

Hasil:

P-value = 0.0329

α = 0.05

Keputusan: TOLAK H₀

Karena p-value < α, kita menolak hipotesis nol.

Ringkasan Keputusan Statistik
Aspek Hasil
Z-statistic -2.1333
P-value 0.0329
Tingkat Signifikansi (α) 0.05
Keputusan TOLAK H₀

5. Interpretasi dalam Konteks Business Analytics

Kesimpulan Statistik:

Berdasarkan hasil uji Z dengan tingkat signifikansi 5%, terdapat bukti statistik yang cukup kuat bahwa rata-rata waktu belajar harian pengguna platform berbeda secara signifikan dari 120 menit yang diklaim.

Rata-rata sampel sebesar 116 menit menunjukkan bahwa waktu belajar aktual cenderung lebih rendah 4 menit dari klaim platform.

Implikasi Bisnis:

Klaim Marketing:

Klaim rata-rata 120 menit perlu direvisi atau dikaji ulang untuk menghindari misrepresentasi.

Engagement Pengguna:

Pengguna aktual menghabiskan waktu lebih sedikit dari ekspektasi, mengindikasikan potensi penurunan engagement atau efektivitas konten.

Rekomendasi Strategis:

  1. Evaluasi kualitas konten pembelajaran
  2. Tingkatkan fitur interaktif untuk meningkatkan durasi belajar
  3. Lakukan survei kepuasan pengguna
  4. Optimalkan UX/UI platform

Risiko jika tidak ditangani:

  • Penurunan retention rate
  • Reputasi platform menurun
  • Revenue dari subscription terpengaruh

Peluang Perbaikan:

  • Meningkatkan user engagement
  • Memperbaiki learning outcomes
  • Meningkatkan customer lifetime value

Rekomendasi Action Items:

  1. Investigasi Lanjutan:
    • Analisis segmentasi pengguna berdasarkan waktu belajar
    • Identifikasi konten dengan engagement rendah
    • Survey alasan pengguna belajar lebih singkat
  2. Perbaikan Product:
    • Enhance interaktivitas konten
    • Implementasi gamification untuk meningkatkan motivasi
    • Personalisasi learning path
  3. Komunikasi Marketing:
    • Update klaim berdasarkan data aktual
    • Fokus pada kualitas pembelajaran, bukan hanya durasi
    • Transparansi dalam komunikasi metrik
  4. Monitoring Berkelanjutan:
    • Setup dashboard real-time untuk tracking study time
    • Implementasi A/B testing untuk fitur baru
    • Regular statistical analysis untuk tren

Kesimpulan Akhir

Analisis statistik dengan One-Sample Z-Test menunjukkan bahwa klaim platform pembelajaran digital tentang rata-rata waktu belajar 120 menit tidak didukung oleh data empiris. Hasil ini memberikan insight penting untuk perbaikan strategi bisnis dan peningkatan performa platform.


Case Study 2

One-Sample T-Test (σ Unknown, Small Sample)

A UX Research Team investigates whether the average task completion time of a new application differs from 10 minutes.

The following data are collected from 10 users:

\[ 9.2,\; 10.5,\; 9.8,\; 10.1,\; 9.6,\; 10.3,\; 9.9,\; 9.7,\; 10.0,\; 9.5 \]

Tasks

  1. Define H₀ and H₁ (two-tailed).
  2. Determine the appropriate hypothesis test.
  3. Calculate the t-statistic and p-value at \(\alpha = 0.05\).
  4. Make a statistical decision.
  5. Explain how sample size affects inferential reliability.

Answer To Case Study 2

Pendahuluan

Tim UX Research melakukan investigasi untuk mengetahui apakah rata-rata waktu penyelesaian tugas (task completion time) dari sebuah aplikasi baru berbeda dari 10 menit.

Data dikumpulkan dari 10 pengguna sebagai berikut:

Data yang Diketahui

Data Waktu Penyelesaian Tugas
Pengguna Waktu Penyelesaian (menit)
User 1 9.2
User 2 10.5
User 3 9.8
User 4 10.1
User 5 9.6
User 6 10.3
User 7 9.9
User 8 9.7
User 9 10.0
User 10 9.5

Statistik Deskriptif

Informasi Data dan Statistik Deskriptif
Parameter Nilai Satuan
μ₀ (Nilai yang dibandingkan) 10.0000 menit
n (Ukuran Sampel) 10.0000 pengguna
x̄ (Rata-rata Sampel) 9.8600 menit
s (Standar Deviasi Sampel) 0.3864 menit
Tingkat Signifikansi (α) 0.0500 -

Visualisasi Data


1. Perumusan Hipotesis (H₀ dan H₁)

Hipotesis Nol (H₀): Rata-rata waktu penyelesaian tugas pada aplikasi baru adalah 10 menit.

\[H_0: \mu = 10\]

Hipotesis Alternatif (H₁): Rata-rata waktu penyelesaian tugas pada aplikasi baru tidak sama dengan 10 menit (berbeda dari 10 menit).

\[H_1: \mu \neq 10\]

Catatan: Ini adalah uji dua sisi (two-tailed test) karena kita ingin mengetahui apakah rata-rata berbeda dari 10 menit, baik lebih cepat maupun lebih lambat.


2. Penentuan Uji Hipotesis yang Tepat

Uji yang Dipilih: One-Sample T-Test

Justifikasi Pemilihan Uji:

Alasan memilih T-Test:

  1. Standar Deviasi Populasi (σ) Tidak Diketahui
    • Kita tidak memiliki informasi tentang standar deviasi populasi
    • Hanya memiliki data sampel untuk menghitung standar deviasi sampel (s)
  2. Ukuran Sampel Kecil (n < 30)
    • n = 10 pengguna (sampel kecil)
    • Untuk sampel kecil dengan σ tidak diketahui, T-test lebih tepat daripada Z-test
  3. Asumsi Normalitas
    • Dengan sampel kecil, kita mengasumsikan data berasal dari populasi yang berdistribusi normal
    • Dari histogram dan boxplot, data tidak menunjukkan outlier ekstrem
  4. Tujuan Pengujian
    • Membandingkan rata-rata sampel dengan nilai tertentu (μ₀ = 10)
    • Sesuai dengan karakteristik One-Sample T-test

Perbandingan dengan Z-Test:

Perbandingan Z-Test vs T-Test
Kriteria Z_Test T_Test
Standar Deviasi Populasi Harus diketahui (σ) Tidak perlu (gunakan s)
Ukuran Sampel Biasanya n ≥ 30 Bisa n < 30
Distribusi Sampling Normal (Z-distribution) T-distribution (df = n-1)
Keputusan Tidak memenuhi Memenuhi semua syarat

Kesimpulan: One-Sample T-Test adalah uji yang tepat karena standar deviasi populasi tidak diketahui dan ukuran sampel kecil (n = 10).


3. Perhitungan T-Statistic dan P-Value

Rumus Test Statistic (T-score):

\[t = \frac{\bar{x} - \mu_0}{s / \sqrt{n}}\]

dimana: - \(\bar{x}\) = rata-rata sampel - \(\mu_0\) = nilai yang dibandingkan (10 menit) - \(s\) = standar deviasi sampel - \(n\) = ukuran sampel - \(df = n - 1\) = derajat kebebasan

Langkah Perhitungan Manual:

Step 1: Hitung Rata-rata Sampel (x̄)

\[\bar{x} = \frac{\sum x_i}{n} = \frac{9.2 + 10.5 + 9.8 + 10.1 + 9.6 + 10.3 + 9.9 + 9.7 + 10.0 + 9.5}{10}\] \[\bar{x} = \frac{98.6}{10} = 9.86 \text{ menit}\]

Step 2: Hitung Standar Deviasi Sampel (s)

Perhitungan Standar Deviasi:

Perhitungan Detail Standar Deviasi
xᵢ xᵢ - x̄ (xᵢ - x̄)²
9.2 -0.66 0.4356
10.5 0.64 0.4096
9.8 -0.06 0.0036
10.1 0.24 0.0576
9.6 -0.26 0.0676
10.3 0.44 0.1936
9.9 0.04 0.0016
9.7 -0.16 0.0256
10.0 0.14 0.0196
9.5 -0.36 0.1296
  • Σ(xᵢ - x̄)² = 1.3440
  • s² = 1.3440 / 9 = 0.1493
  • s = √0.1493 = 0.3864

\[s = \sqrt{\frac{\sum(x_i - \bar{x})^2}{n-1}} = \sqrt{\frac{1.324}{9}} = \sqrt{0.1471} = 0.3840 \text{ menit}\]

Step 3: Hitung Standard Error (SE) \[SE = \frac{s}{\sqrt{n}} = \frac{0.3840}{\sqrt{10}} = \frac{0.3840}{3.1623} = 0.1215\]

Step 4: Hitung T-statistic \[t = \frac{\bar{x} - \mu_0}{SE} = \frac{9.86 - 10}{0.1215} = \frac{-0.14}{0.1215} = -1.1527\]

Step 5: Tentukan Derajat Kebebasan (df) \[df = n - 1 = 10 - 1 = 9\]

Step 6: Hitung P-value (Two-tailed test)

Untuk t = -1.1456 dengan df = 9:

  • P(T < -1.1456) = 0.1407 (dari tabel t atau fungsi R)
  • P-value = 2 × 0.1407 = 0.2815 (two-tailed)

Untuk two-tailed test dengan t = -1.1527 dan df = 9:

\[P\text{-value} = 2 \times P(T < -1.1527) \approx 2 \times 0.1393 = 0.2786\]

Hasil Perhitungan:

Hasil Perhitungan One-Sample T-Test
Komponen Nilai
Rata-rata Sampel (x̄) 9.8600
Standar Deviasi Sampel (s) 0.3864
Standard Error (SE) 0.1222
T-statistic -1.1456
Derajat Kebebasan (df) 9.0000
P-value 0.2815
Tingkat Signifikansi (α) 0.0500
T-critical (±) 2.2622

Confidence Interval (95%):

95% Confidence Interval untuk μ:

[9.5836, 10.1364] menit

Interpretasi:

Kita 95% yakin bahwa rata-rata waktu penyelesaian tugas populasi berada di antara 9.58 dan 10.14 menit.

Perhatikan bahwa nilai μ₀ = 10 menit BERADA DALAM interval ini, yang konsisten dengan keputusan gagal menolak H₀.

Visualisasi Distribusi T dan Test Statistic


4. Keputusan Statistik

Kriteria Keputusan:

Metode 1: P-value Approach - Jika p-value < α (0.05), maka TOLAK H₀ - Jika p-value ≥ α (0.05), maka GAGAL TOLAK H₀

Metode 2: Critical Value Approach - Jika |t-statistic| > t-critical, maka TOLAK H₀ - Jika |t-statistic| ≤ t-critical, maka GAGAL TOLAK H₀

Hasil Keputusan:

Ringkasan Keputusan Statistik
Metode Hasil
P-value Approach p-value (0.2815) ≥ α (0.05)
Critical Value Approach |t| (1.1456) ≤ t-critical (2.2622)
Keputusan Akhir GAGAL TOLAK H₀

Interpretasi Keputusan:

KESIMPULAN

Dengan tingkat signifikansi α = 0.05, kita GAGAL MENOLAK hipotesis nol.

Artinya:

  • TIDAK CUKUP bukti statistik untuk menyatakan bahwa rata-rata waktu penyelesaian tugas berbeda dari 10 menit.

  • Data sampel TIDAK menunjukkan perbedaan yang signifikan secara statistik dari nilai 10 menit.

  • Perbedaan yang teramati (9.86 menit vs 10 menit) dapat dijelaskan sebagai variasi sampling yang wajar (random chance).

  • Aplikasi baru dapat dikatakan memiliki waktu penyelesaian tugas yang tidak berbeda secara signifikan dari standar 10 menit.


5. Pengaruh Ukuran Sampel terhadap Reliabilitas Inferensi

Konsep Ukuran Sampel dan Reliabilitas

Ukuran sampel (n) memiliki pengaruh yang sangat penting terhadap reliabilitas inferensi statistik. Berikut adalah penjelasan lengkapnya:

A. Pengaruh terhadap Standard Error (SE)

Hubungan Matematis: \[SE = \frac{s}{\sqrt{n}}\]

Standard Error berbanding terbalik dengan akar kuadrat ukuran sampel.

Interpretasi:

  • Semakin BESAR ukuran sampel (n ↑) → Standard Error semakin KECIL (SE ↓)
  • SE yang lebih kecil = estimasi yang lebih presisi
  • Hubungan: Jika n diperbesar 4x, SE akan mengecil menjadi 1/2 (karena √4 = 2)

Contoh dari data kita:

Perbandingan SE untuk Berbagai Ukuran Sampel
n SE Perubahan
10 0.1222 Baseline
20 0.0864 ↓ 29%
40 0.0611 ↓ 50%
100 0.0386 ↓ 68%

B. Pengaruh terhadap Confidence Interval

Perbandingan Confidence Interval untuk Berbagai Ukuran Sampel
Ukuran Sampel (n) Batas Bawah Batas Atas Lebar CI (menit)
10 9.584 10.136 0.553
20 9.679 10.041 0.362
30 9.716 10.004 0.289
50 9.750 9.970 0.220
100 9.783 9.937 0.153

Kesimpulan:

  • Sampel lebih BESARCI lebih SEMPITEstimasi lebih PRESISI
  • Sampel lebih KECILCI lebih LEBAREstimasi kurang presisi
  • Dengan n=10, CI kita cukup lebar (0.275 menit), menunjukkan ketidakpastian yang cukup besar

C. Pengaruh terhadap Statistical Power

Statistical Power = Probabilitas mendeteksi efek yang benar-benar ada (menolak H₀ ketika H₀ memang salah)

Interpretasi:

  • Power saat ini (n=10): 0.177 atau 17.7%
  • Artinya: Hanya ada 17.7% peluang untuk mendeteksi perbedaan yang benar-benar ada
  • Standar minimum power yang baik: 0.80 (80%)
  • Untuk mencapai power 0.80 dengan effect size ini, kita butuh sampel lebih besar
Statistical Power untuk Berbagai Ukuran Sampel
Ukuran Sampel Power Status
10 0.177 Kurang
20 0.337 Kurang
30 0.483 Kurang
40 0.608 Kurang
50 0.709 Kurang

D. Ringkasan Pengaruh Ukuran Sampel

Dampak Sampel Kecil (n = 10 dalam kasus ini)

Kelemahan:

  • Standard Error lebih besar → estimasi kurang presisi
  • Confidence Interval lebih lebar → rentang estimasi terlalu luas
  • Statistical Power rendah → sulit mendeteksi efek yang ada
  • Lebih sensitif terhadap outlier
  • Asumsi normalitas lebih kritis
  • Estimasi standar deviasi kurang stabil
  • Nilai t-critical lebih besar → lebih sulit menolak H₀

Kelebihan:

  • Lebih cepat dan murah untuk mengumpulkan data

  • Cocok untuk studi eksplorasi awal atau pilot test

  • Fleksibel untuk situasi dengan keterbatasan resources

Dampak Sampel Besar (n ≥ 30):

Kelebihan:

  • Standard Error lebih kecil (lebih presisi)
  • Confidence Interval lebih sempit (estimasi lebih akurat)
  • Statistical Power lebih tinggi (lebih sensitif mendeteksi efek)
  • Lebih robust terhadap pelanggaran asumsi normalitas
  • Estimasi parameter lebih stabil dan reliable

Kekurangan:

  • Membutuhkan biaya dan waktu lebih banyak
  • Bisa mendeteksi perbedaan yang secara praktis tidak bermakna

E. Rekomendasi untuk UX Research

Untuk Kasus Saat Ini (n = 10):

  1. Hasil tidak signifikan mungkin karena sampel terlalu kecil, bukan karena tidak ada perbedaan
  2. Tingkatkan sampel menjadi minimal 30-50 pengguna untuk reliabilitas lebih baik
  3. Gunakan hasil ini sebagai studi pilot untuk merencanakan penelitian lebih besar

Best Practices Ukuran Sampel:

  • 5-10 pengguna: Studi eksplorasi, pilot test (Power < 50%)
  • 15-30 pengguna: Usability testing standar (Power 50-70%)
  • 30-50 pengguna: A/B testing, comparative studies (Power 70-85%)
  • 50+ pengguna: Large-scale validation, benchmarking (Power > 85%)

Kesimpulan Akhir

Ringkasan Hasil

  • Ukuran sampel: 10 pengguna
  • Rata-rata: 9.86 menit (SD = 0.38)
  • T-statistic: -1.1527, P-value: 0.2786
  • 95% CI: [9.58, 10.14]
  • Keputusan: GAGAL TOLAK H₀

Tidak ada bukti statistik yang cukup untuk menyatakan bahwa rata-rata waktu penyelesaian tugas berbeda dari 10 menit.

Interpretasi Praktis

Aplikasi memenuhi target 10 menit, namun perlu diingat bahwa dengan sampel kecil (n=10), statistical power rendah sehingga kemungkinan kita tidak dapat mendeteksi perbedaan kecil yang mungkin ada.

User experience tampak konsisten dengan standar deviasi yang relatif kecil (0.38 menit), menunjukkan pengalaman yang cukup konsisten antar pengguna.

Rekomendasi

Jangka Pendek:

  • Lanjutkan aplikasi ke tahap berikutnya (tidak ada indikasi masalah serius)
  • Monitor waktu penyelesaian tugas pada deployment yang lebih luas
  • Kumpulkan feedback kualitatif dari pengguna untuk insight tambahan

Jangka Menengah:

  • Lakukan testing dengan sampel lebih besar (30-50 pengguna) untuk validasi lebih kuat
  • Analisis segmentasi berdasarkan user types atau expertise levels
  • Identifikasi bottlenecks atau friction points dalam task flow

Jangka Panjang:

  • Setup continuous monitoring melalui analytics
  • A/B testing untuk optimisasi lebih lanjut
  • Benchmark dengan kompetitor atau industry standards

Key Takeaways

  • Sample size matters: Hasil berdasarkan sampel kecil (n=10) dengan power terbatas
  • Tidak ada evidence of problem, tapi juga belum conclusive evidence of excellence
  • Statistical non-significance bukan bukti bahwa tidak ada efek
  • Context matters: 10 menit mungkin acceptable, tapi apakah optimal?

Next Steps

  1. Collect more data dengan sample size lebih besar untuk confidence lebih tinggi
  2. Qualitative research untuk memahami “why” di balik angka
  3. Task analysis untuk identifikasi optimization opportunities
  4. Competitive benchmarking untuk context yang lebih luas
  5. Setup continuous UX metrics monitoring untuk improvement berkelanjutan

Case Study 3

Two-Sample T-Test (A/B Testing)

A product analytics team conducts an A/B test to compare the average session duration (minutes) between two versions of a landing page.

Version Sample Size (n) Mean Standard Deviation
A 25 4.8 1.2
B 25 5.4 1.4

Tasks

  1. Formulate the null and alternative hypotheses.
  2. Identify the type of t-test required.
  3. Compute the test statistic and p-value.
  4. Draw a statistical conclusion at \(\alpha = 0.05\).
  5. Interpret the result for product decision-making.

Answer To Case Study 3

Pendahuluan

Tim Product Analytics melakukan A/B test untuk membandingkan rata-rata durasi sesi (session duration) dalam satuan menit antara dua versi landing page.

Data yang Diketahui

Ringkasan Data A/B Test Landing Page
Versi Ukuran Sampel (n) Rata-rata (menit) Standar Deviasi
A (Control) 25 4.8 1.2
B (Treatment) 25 5.4 1.4

Visualisasi Perbandingan


1. Perumusan Hipotesis

Hipotesis Nol (H₀):

Tidak ada perbedaan rata-rata durasi sesi antara Versi A dan Versi B.

\[H_0: \mu_A = \mu_B\]

atau dapat ditulis sebagai:

\[H_0: \mu_A - \mu_B = 0\]

Hipotesis Alternatif (H₁):

Ada perbedaan rata-rata durasi sesi antara Versi A dan Versi B.

\[H_1: \mu_A \neq \mu_B\]

atau dapat ditulis sebagai:

\[H_1: \mu_A - \mu_B \neq 0\]

Catatan: Ini adalah two-tailed test karena kita ingin mengetahui apakah ada perbedaan (baik lebih tinggi atau lebih rendah), bukan menguji apakah satu versi lebih baik secara spesifik.


2. Identifikasi Jenis T-Test

Jenis T-Test yang Digunakan: Independent Two-Sample T-Test (Equal Variance Assumed)

Justifikasi Pemilihan:

1. Dua Kelompok Independen

  • Versi A dan Versi B adalah dua kelompok yang berbeda dan independen

  • Pengguna yang melihat Versi A berbeda dengan pengguna yang melihat Versi B

  • Tidak ada pengukuran berulang (paired) pada subjek yang sama

2. Standar Deviasi Populasi Tidak Diketahui

  • Kita hanya memiliki standar deviasi sampel (s_A = 1.2, s_B = 1.4)

  • Standar deviasi populasi (σ) tidak diketahui

  • Oleh karena itu, kita menggunakan T-test bukan Z-test

3. Ukuran Sampel Relatif Kecil

  • n_A = 25 dan n_B = 25 (keduanya < 30)

  • Untuk sampel kecil dengan σ tidak diketahui, T-test adalah pilihan yang tepat

4. Asumsi Equal Variance (Homogeneity of Variance)

  • Standar deviasi kedua kelompok cukup mirip (1.2 vs 1.4)

  • Rasio varians: (1.4)²/(1.2)² = 1.96/1.44 = 1.36 (< 2, dapat dianggap equal)

  • Kita menggunakan pooled variance untuk perhitungan

Pemeriksaan Asumsi Equal Variance
Aspek Nilai
Standar Deviasi A 1.2
Standar Deviasi B 1.4
Varians A (s²_A) 1.44
Varians B (s²_B) 1.96
Rasio Varians (s²_B / s²_A) 1.36
Kesimpulan Equal variance dapat diasumsikan

Alternatif Jenis T-Test:

Perbandingan Jenis T-Test
Jenis_Test Kondisi Sesuai_Kasus
Independent T-Test (Equal Var) Dua kelompok independen, σ tidak diketahui, varians sama YA
Independent T-Test (Unequal Var / Welch) Dua kelompok independen, σ tidak diketahui, varians berbeda Tidak (varians cukup sama)
Paired T-Test Pengukuran berulang pada subjek yang sama Tidak (kelompok berbeda)
One-Sample T-Test Satu kelompok dibandingkan dengan nilai tertentu Tidak (ada dua kelompok)

Kesimpulan: Independent Two-Sample T-Test dengan asumsi equal variance adalah uji yang paling tepat untuk kasus A/B testing ini.


3. Perhitungan Test Statistic dan P-Value

Langkah Perhitungan Manual:

Step 1: Hitung Pooled Standard Deviation (s_p)

Karena kita mengasumsikan equal variance, kita menggabungkan estimasi varians dari kedua kelompok:

\[s_p = \sqrt{\frac{(n_A - 1)s_A^2 + (n_B - 1)s_B^2}{n_A + n_B - 2}}\]

Substitusi nilai:

\[s_p = \sqrt{\frac{(25 - 1)(1.2)^2 + (25 - 1)(1.4)^2}{25 + 25 - 2}}\]

\[s_p = \sqrt{\frac{24 \times 1.44 + 24 \times 1.96}{48}}\]

\[s_p = \sqrt{\frac{34.56 + 47.04}{48}}\]

\[s_p = \sqrt{\frac{81.6}{48}} = \sqrt{1.7} = 1.304\]

Step 2: Hitung Standard Error (SE)

\[SE = s_p \times \sqrt{\frac{1}{n_A} + \frac{1}{n_B}}\]

\[SE = 1.304 \times \sqrt{\frac{1}{25} + \frac{1}{25}}\]

\[SE = 1.304 \times \sqrt{0.04 + 0.04}\]

\[SE = 1.304 \times \sqrt{0.08} = 1.304 \times 0.283 = 0.369\]

Step 3: Hitung T-statistic

\[t = \frac{(\bar{x}_B - \bar{x}_A)}{SE} = \frac{\text{Mean}_B - \text{Mean}_A}{SE}\]

\[t = \frac{5.4 - 4.8}{0.369} = \frac{0.6}{0.369} = 1.626\]

Step 4: Tentukan Derajat Kebebasan (df)

\[df = n_A + n_B - 2 = 25 + 25 - 2 = 48\]

Step 5: Cari Critical Value

Untuk two-tailed test dengan α = 0.05 dan df = 48, dari tabel t atau menggunakan R:

\[t_{critical} = t_{0.025, 48} = \pm 2.011\]

Step 6: Hitung P-value

Untuk two-tailed test dengan t = 1.626 dan df = 48:

Menggunakan tabel t atau fungsi R, kita dapatkan:

  • P(T > 1.626) ≈ 0.0552

  • P-value = 2 × 0.0552 = 0.1104 (two-tailed)

Ringkasan Hasil Perhitungan:

Hasil Perhitungan Two-Sample T-Test
Komponen Nilai
Selisih Rata-rata (x̄_B - x̄_A) 0.6 menit
Pooled Std. Deviation (s_p) 1.3038
Standard Error (SE) 0.3688
T-statistic 1.6270
Derajat Kebebasan (df) 48
T-critical (±) 2.0106
P-value 0.1103
Tingkat Signifikansi (α) 0.05

Confidence Interval untuk Selisih Rata-rata:

Confidence Interval 95% untuk (μ_B - μ_A):

\[CI = (\bar{x}_B - \bar{x}_A) \pm t_{critical} \times SE\]

\[CI = 0.6 \pm 2.011 \times 0.369\]

\[CI = 0.6 \pm 0.742\]

\[CI = [-0.142, 1.342]\]

Interpretasi CI: Dengan tingkat kepercayaan 95%, selisih rata-rata durasi sesi antara Versi B dan A berada di antara -0.142 menit hingga 1.342 menit. Perhatikan bahwa interval ini mencakup nilai 0, yang mengindikasikan tidak ada perbedaan yang signifikan.

Visualisasi Distribusi T dan Test Statistic


4. Kesimpulan Statistik

Kriteria Keputusan:

Ada dua metode untuk membuat keputusan statistik:

Metode 1: P-value Approach

  • Jika p-value < α (0.05)TOLAK H₀

  • Jika p-value ≥ α (0.05)GAGAL TOLAK H₀

Metode 2: Critical Value Approach

  • Jika |t-statistic| > t-criticalTOLAK H₀

  • Jika |t-statistic| ≤ t-criticalGAGAL TOLAK H₀

Evaluasi Hasil:

Evaluasi Keputusan dari Berbagai Metode
Metode Kriteria Hasil Keputusan
P-value Approach p-value (0.1103) vs α (0.05) 0.1103 ≥ 0.05 Gagal Tolak H₀
Critical Value Approach |t| (1.6270) vs t-crit (2.0106) 1.6270 < 2.0106 Gagal Tolak H₀
Confidence Interval Apakah CI mencakup 0? Ya, [−0.142, 1.342] mencakup 0 Gagal Tolak H₀

Keputusan Akhir:

GAGAL MENOLAK H₀

Berdasarkan hasil analisis dengan tingkat signifikansi α = 0.05:

  1. P-value (0.1104) > α (0.05) → Gagal menolak H₀
  2. |t-statistic| (1.626) < t-critical (2.011) → Gagal menolak H₀
  3. Confidence Interval mencakup 0 → Tidak ada perbedaan signifikan

Interpretasi Statistik:

Dengan tingkat signifikansi 5%, TIDAK ada bukti statistik yang cukup untuk menyatakan bahwa ada perbedaan rata-rata durasi sesi antara Versi A dan Versi B.

Penjelasan Detail:

  • Walaupun Versi B memiliki rata-rata durasi sesi yang lebih tinggi (5.4 menit) dibandingkan Versi A (4.8 menit), selisih sebesar 0.6 menit ini tidak cukup signifikan secara statistik.

  • Perbedaan yang teramati dapat dijelaskan sebagai variasi sampling yang wajar (random variation) dan bukan karena efek nyata dari perubahan versi landing page.

  • P-value sebesar 0.1104 berarti ada sekitar 11% probabilitas untuk mendapatkan perbedaan seextrem ini (atau lebih) jika sebenarnya tidak ada perbedaan nyata antara kedua versi.


5. Interpretasi untuk Product Decision-Making

Konteks Bisnis dan Keputusan Produk

Hasil analisis statistik ini memiliki implikasi penting untuk pengambilan keputusan produk dalam konteks A/B testing landing page.

A. Temuan Utama

Hasil Statistik:

  • Selisih rata-rata: \[+0.6 menit (12.5\% peningkatan)\]

  • P-value: \[0.1104 (tidak signifikan pada α = 0.05)\]

  • Confidence Interval: \[[-0.142, 1.342] menit\]

Interpretasi Bisnis:

Meskipun Versi B menunjukkan durasi sesi yang lebih tinggi secara numerik, hasil ini tidak signifikan secara statistik. Artinya, kita tidak dapat dengan yakin mengatakan bahwa Versi B benar-benar lebih baik dari Versi A.

B. Implikasi untuk Keputusan Produk

1. Rekomendasi Jangka Pendek:

TIDAK Disarankan untuk Deploy Versi B Saat Ini

Alasan:

  • Tidak ada bukti statistik yang kuat bahwa Versi B lebih baik

  • Risiko: Mengimplementasikan perubahan yang mungkin tidak memberikan dampak nyata

  • Cost vs Benefit: Biaya implementasi mungkin tidak sebanding dengan hasil yang tidak terbukti

2. Analisis Lebih Lanjut Diperlukan:

A. Pertimbangan Ukuran Sampel (Statistical Power)

Analisis Statistical Power
Aspek Nilai
Effect Size (Cohen’s d) 0.460
Interpretasi Effect Size Small to Medium effect
Power Estimasi (n=25 per grup) ~50-60%
Sampel yang Dibutuhkan (Power 80%) ~50-60 per grup

Rekomendasi:

  • Tingkatkan ukuran sampel menjadi minimal 50-60 pengguna per versi

  • Dengan sampel lebih besar, kita akan memiliki power yang cukup untuk mendeteksi perbedaan jika memang ada

B. Pertimbangan Practical Significance

Analisis Practical Significance
Metrik Versi_A Versi_B Selisih
Peningkatan Absolut 4.8 menit 5.4 menit +0.6 menit
Peningkatan Relatif Baseline (100%) 112.5% +12.5%
Dampak per 1000 users 4,800 menit total 5,400 menit total +600 menit
Nilai Bisnis Potensial Baseline +600 menit (12.5%) Perlu evaluasi ROI

Pertanyaan Kunci:

  • Apakah peningkatan 0.6 menit (atau 36 detik) bermakna untuk bisnis?

  • Apakah biaya implementasi Versi B sepadan dengan peningkatan engagement ini?

  • Apa tujuan bisnis utama: engagement, konversi, atau revenue?

C. Rekomendasi Strategis

Opsi 1: Lanjutkan Testing dengan Sampel Lebih Besar

Action Items:

  1. Perbesar ukuran sampel menjadi 50-60 pengguna per versi

  2. Lanjutkan A/B test selama periode yang lebih panjang

  3. Monitor metrik tambahan (bounce rate, conversion rate, revenue)

Keuntungan:

  • Statistical power yang lebih baik

  • Kesimpulan yang lebih reliable

  • Dapat mendeteksi efek yang lebih kecil

Opsi 2: Analisis Segmentasi

Action Items:

  1. Analisis performance per segmen user (new vs returning, device type, traffic source)

  2. Mungkin Versi B lebih baik untuk segmen tertentu

  3. Implementasi personalisasi berdasarkan segmen

Contoh Hipotesis:

  • Versi B mungkin lebih baik untuk mobile users

  • Versi B mungkin lebih baik untuk new visitors

  • Versi B mungkin lebih efektif untuk traffic dari social media

Opsi 3: Test Variasi Lain

Action Items:

  1. Jika perbedaan tidak signifikan, pertimbangkan untuk test variasi yang lebih bold

  2. Kombinasikan elemen terbaik dari A dan B

  3. Coba pendekatan yang berbeda secara fundamental

Opsi 4: Ship Anyway dengan Monitoring Ketat

Kondisi:

Jika biaya implementasi sangat rendah dan tren menunjukkan improvement:

Action Items:

  1. Deploy Versi B dengan monitoring real-time
  2. Siapkan rollback plan
  3. Monitor metrik bisnis utama (conversion, revenue)
  4. Evaluasi setelah 2-4 minggu

Risk Mitigation:

  • Gradual rollout (10% → 25% → 50% → 100%)

  • Monitor negative metrics (error rate, page load time)

  • Ready to rollback jika ada indikasi negatif

D. Metrik Tambahan yang Perlu Dipertimbangkan

Durasi sesi bukan satu-satunya metrik sukses. Pertimbangkan:

Metrik Tambahan untuk Evaluasi Komprehensif
Kategori_Metrik Metrik Mengapa_Penting
Engagement Bounce Rate Durasi tinggi bisa karena user bingung
Engagement Pages per Session Engagement yang lebih komprehensif
Business Conversion Rate Tujuan bisnis utama
Business Revenue per User ROI langsung dari perubahan
Technical Page Load Time Performance impact dari perubahan
User Experience User Satisfaction Score Kepuasan user secara keseluruhan

E. Checklist Keputusan Akhir

Sebelum memutuskan, pastikan sudah menjawab pertanyaan berikut:

Aspek Statistik:

  • Apakah ukuran sampel sudah cukup? (Saat ini: Belum optimal)

  • Apakah asumsi statistik terpenuhi? (Ya)

  • Apakah ada confounding factors? (Perlu dicek)

Aspek Bisnis:

  • Berapa biaya implementasi Versi B?

  • Berapa estimasi value dari 0.6 menit tambahan?

  • Apakah ada trade-off (e.g., conversion rate turun)?

  • Apakah selaras dengan strategi produk jangka panjang?

Aspek Teknis:

  • Apakah Versi B mempengaruhi performance?

  • Apakah ada technical debt yang ditimbulkan?

  • Seberapa mudah untuk rollback?

Aspek User:

  • Apa feedback kualitatif dari user?

  • Apakah ada segmen yang dirugikan?

  • Apakah improvement konsisten across devices?

F. Kesimpulan dan Rekomendasi Akhir

Rekomendasi Utama:

Berdasarkan hasil analisis statistik (p-value = 0.1104 > 0.05), TIDAK disarankan untuk langsung mengimplementasikan Versi B tanpa pengujian lebih lanjut.

Langkah Selanjutnya:

  1. Tingkatkan Ukuran Sampel → Target 50-60 users per versi untuk power analysis yang lebih baik

  2. Perpanjang Durasi Test → Jalankan test minimal 2-3 minggu untuk menangkap variasi temporal

  3. Tambahkan Metrik Sekunder → Monitor conversion rate, bounce rate, dan revenue impact

  4. Lakukan Analisis Segmentasi → Identifikasi apakah ada segmen tertentu yang benefit dari Versi B

  5. Evaluasi ROI → Hitung apakah improvement 12.5% sebanding dengan biaya implementasi

Warning:

Jangan terjebak dalam “ship it because numbers look better”. Statistical significance exists untuk alasan yang baik - untuk melindungi kita dari keputusan berdasarkan random noise.

Perspektif Bisnis:

Dalam A/B testing, failure is not a failure. Hasil “tidak signifikan” adalah insight yang berharga:

  • Perubahan yang ditest mungkin tidak cukup impactful
  • Bisa fokus resources ke eksperimen lain yang lebih promising
  • Learn dan iterate untuk versi berikutnya

Ringkasan Hasil Analisis

Hasil Two-Sample T-Test

Data:

  • Versi A (n=25): Mean = 4.8 menit, SD = 1.2

  • Versi B (n=25): Mean = 5.4 menit, SD = 1.4

  • Selisih rata-rata: 0.6 menit (12.5% peningkatan)

Statistik:

  • T-statistic: 1.626

  • Degrees of freedom: 48

  • P-value: 0.1104

  • 95% CI untuk selisih: [-0.142, 1.342]

  • Tingkat signifikansi: 0.05

Keputusan: GAGAL TOLAK H₀ - Tidak ada bukti statistik yang cukup untuk menyatakan bahwa Versi B berbeda secara signifikan dari Versi A.

Interpretasi Bisnis Final

Kesimpulan Utama:

Meskipun Versi B menunjukkan peningkatan durasi sesi sebesar 12.5% (dari 4.8 ke 5.4 menit), peningkatan ini tidak signifikan secara statistik (p = 0.1104 > 0.05).

Rekomendasi:

  1. JANGAN deploy Versi B saat ini tanpa pengujian lebih lanjut
  2. Tingkatkan ukuran sampel menjadi 50-60 pengguna per versi
  3. Perpanjang durasi test untuk mendapatkan data lebih banyak
  4. Monitor metrik tambahan (conversion rate, bounce rate, revenue)
  5. Lakukan analisis segmentasi untuk identifikasi subgroup yang benefit

Next Steps:

  • Design ulang test dengan power analysis yang proper

  • Pertimbangkan A/B/n testing dengan multiple variants

  • Evaluate apakah 0.6 menit improvement worth the investment

  • Consider testing more dramatic changes jika current approach tidak conclusive

Lessons Learned:

  • Sample size matters - n=25 terlalu kecil untuk detect small effects

  • Statistical significance ≠ practical significance

  • Business context harus guide statistical decisions

  • Negative results are still valuable insights


Case Study 4

Chi-Square Test of Independence

An e-commerce company examines whether device type is associated with payment method preference.

Device / Payment E-Wallet Credit Card Cash on Delivery
Mobile 120 80 50
Desktop 60 90 40

Tasks

  1. State the Null Hypothesis (H₀) and Alternative Hypothesis (H₁).
  2. Identify the appropriate statistical test.
  3. Compute the Chi-Square statistic (χ²).
  4. Determine the p-value at \(\alpha = 0.05\).
  5. Interpret the results in terms of digital payment strategy.

Answer To Case Study 4

Pendahuluan

Sebuah perusahaan e-commerce melakukan analisis untuk mengetahui apakah ada hubungan (asosiasi) antara tipe perangkat (device type) yang digunakan pelanggan dengan preferensi metode pembayaran mereka.

Data yang Diketahui

Tabel Kontingensi (Contingency Table)

Tabel Kontingensi: Device Type vs Payment Method
E-Wallet Credit Card Cash on Delivery Sum
Mobile 120 80 50 250
Desktop 60 90 40 190
Sum 180 170 90 440

Keterangan: - Baris: Tipe Perangkat (Mobile, Desktop) - Kolom: Metode Pembayaran (E-Wallet, Credit Card, Cash on Delivery) - Sel: Jumlah transaksi untuk kombinasi device dan payment method

Statistik Deskriptif

Statistik Deskriptif
Kategori Jumlah Persentase
Total Transaksi 440 100%
Transaksi Mobile 250 56.8%
Transaksi Desktop 190 43.2%
Pembayaran E-Wallet 180 40.9%
Pembayaran Credit Card 170 38.6%
Pembayaran Cash on Delivery 90 20.5%

Visualisasi Data


1. Perumusan Hipotesis

Hipotesis Nol (H₀):

Tidak ada hubungan (asosiasi) antara tipe perangkat (device type) dengan metode pembayaran yang dipilih. Kedua variabel adalah independen.

\[H_0: \text{Device Type dan Payment Method adalah independen}\]

Atau secara matematis:

\[H_0: P(Payment | Mobile) = P(Payment | Desktop)\]

Artinya: Proporsi penggunaan setiap metode pembayaran adalah sama, tidak peduli apakah transaksi dilakukan dari Mobile atau Desktop.

Hipotesis Alternatif (H₁):

Ada hubungan (asosiasi) antara tipe perangkat dengan metode pembayaran yang dipilih. Kedua variabel tidak independen (ada ketergantungan).

\[H_1: \text{Device Type dan Payment Method TIDAK independen}\]

Atau:

\[H_1: P(Payment | Mobile) \neq P(Payment | Desktop)\]

Artinya: Proporsi penggunaan metode pembayaran berbeda antara pengguna Mobile dan Desktop.


2. Identifikasi Uji Statistik yang Tepat

Jenis Uji yang Digunakan: Chi-Square Test of Independence (χ² Test)

Justifikasi Pemilihan:

1. Tipe Data: Categorical (Nominal)

Kedua variabel dalam analisis ini adalah data kategorikal:

  • Device Type: Mobile, Desktop (2 kategori)

  • Payment Method: E-Wallet, Credit Card, Cash on Delivery (3 kategori)

2. Tujuan Analisis: Menguji Independensi

Kita ingin mengetahui apakah ada hubungan/asosiasi antara dua variabel kategorikal. Chi-Square Test of Independence dirancang khusus untuk tujuan ini.

3. Data dalam Bentuk Tabel Kontingensi

Data disajikan dalam bentuk tabel kontingensi (cross-tabulation) yang menunjukkan frekuensi observasi untuk setiap kombinasi kategori.

4. Asumsi Chi-Square Test:

Pemeriksaan Asumsi Chi-Square Test
Asumsi Status
Data adalah frekuensi/count Terpenuhi (data count transaksi)
Observasi independen Terpenuhi (setiap transaksi independen)
Expected frequency ≥ 5 Terpenuhi (min expected = 38.86)
Ukuran sampel cukup besar Terpenuhi (n = 440)

Expected Frequencies (Frekuensi yang Diharapkan)

Jika kedua variabel independen, frekuensi yang diharapkan dihitung sebagai:

\[E_{ij} = \frac{(\text{Total Baris}_i) \times (\text{Total Kolom}_j)}{\text{Total Keseluruhan}}\]

Tabel Frekuensi yang Diharapkan (Expected Frequencies)
E-Wallet Credit Card Cash on Delivery Sum
Mobile 102.27 96.59 51.14 250
Desktop 77.73 73.41 38.86 190
Sum 180.00 170.00 90.00 440

Perbandingan Observed vs Expected

Perbandingan Observed vs Expected Frequencies
Kategori Observed Expected Difference
Mobile + E-Wallet 120 102.27 17.73
Mobile + Credit Card 80 96.59 -16.59
Mobile + COD 50 51.14 -1.14
Desktop + E-Wallet 60 77.73 -17.73
Desktop + Credit Card 90 73.41 16.59
Desktop + COD 40 38.86 1.14

3. Perhitungan Chi-Square Statistic (χ²)

Rumus Chi-Square Statistic:

\[\chi^2 = \sum_{i=1}^{r} \sum_{j=1}^{c} \frac{(O_{ij} - E_{ij})^2}{E_{ij}}\]

dimana:

  • \(O_{ij}\) = Observed frequency (frekuensi observasi) pada sel (i,j)

  • \(E_{ij}\) = Expected frequency (frekuensi yang diharapkan) pada sel (i,j)

  • \(r\) = jumlah baris (2 device types)

  • \(c\) = jumlah kolom (3 payment methods)

Langkah Perhitungan Manual:

Step 1: Hitung Expected Frequency untuk setiap sel

Untuk Mobile + E-Wallet: \[E_{11} = \frac{250 \times 180}{440} = \frac{45000}{440} = 102.27\]

Untuk Mobile + Credit Card: \[E_{12} = \frac{250 \times 170}{440} = \frac{42500}{440} = 96.59\]

Untuk Mobile + Cash on Delivery: \[E_{13} = \frac{250 \times 90}{440} = \frac{22500}{440} = 51.14\]

Untuk Desktop + E-Wallet: \[E_{21} = \frac{190 \times 180}{440} = \frac{34200}{440} = 77.73\]

Untuk Desktop + Credit Card: \[E_{22} = \frac{190 \times 170}{440} = \frac{32300}{440} = 73.41\]

Untuk Desktop + Cash on Delivery: \[E_{23} = \frac{190 \times 90}{440} = \frac{17100}{440} = 38.86\]

Step 2: Hitung kontribusi Chi-Square untuk setiap sel

\[\frac{(O_{ij} - E_{ij})^2}{E_{ij}}\]

Untuk Mobile + E-Wallet: \[\frac{(120 - 102.27)^2}{102.27} = \frac{(17.73)^2}{102.27} = \frac{314.35}{102.27} = 3.074\]

Untuk Mobile + Credit Card: \[\frac{(80 - 96.59)^2}{96.59} = \frac{(-16.59)^2}{96.59} = \frac{275.23}{96.59} = 2.849\]

Untuk Mobile + Cash on Delivery: \[\frac{(50 - 51.14)^2}{51.14} = \frac{(-1.14)^2}{51.14} = \frac{1.30}{51.14} = 0.025\]

Untuk Desktop + E-Wallet: \[\frac{(60 - 77.73)^2}{77.73} = \frac{(-17.73)^2}{77.73} = \frac{314.35}{77.73} = 4.044\]

Untuk Desktop + Credit Card: \[\frac{(90 - 73.41)^2}{73.41} = \frac{(16.59)^2}{73.41} = \frac{275.23}{73.41} = 3.749\]

Untuk Desktop + Cash on Delivery: \[\frac{(40 - 38.86)^2}{38.86} = \frac{(1.14)^2}{38.86} = \frac{1.30}{38.86} = 0.033\]

Step 3: Jumlahkan semua kontribusi

\[\chi^2 = 3.074 + 2.849 + 0.025 + 4.044 + 3.749 + 0.033 = 13.774\]

Tabel Kontribusi Chi-Square per Sel

Kontribusi Chi-Square per Sel
Kategori Observed Expected Contribution
Mobile + E-Wallet 120 102.27 3.073
Mobile + Credit Card 80 96.59 2.850
Mobile + COD 50 51.14 0.025
Desktop + E-Wallet 60 77.73 4.043
Desktop + Credit Card 90 73.41 3.750
Desktop + COD 40 38.86 0.033

Derajat Kebebasan (Degrees of Freedom):

\[df = (r - 1) \times (c - 1) = (2 - 1) \times (3 - 1) = 1 \times 2 = 2\]

dimana:

  • r = jumlah baris = 2

  • c = jumlah kolom = 3

Hasil Perhitungan Chi-Square:

Hasil Perhitungan Chi-Square Test
Komponen Nilai
Chi-Square Statistic (χ²) 13.7736
Derajat Kebebasan (df) 2
Chi-Square Critical (α = 0.05) 5.9915
Tingkat Signifikansi (α) 0.05

4. Penentuan P-Value

Perhitungan P-Value:

P-value adalah probabilitas mendapatkan nilai Chi-Square sebesar atau lebih ekstrem dari yang diamati, dengan asumsi H₀ benar.

Dengan χ² = 13.774 dan df = 2, menggunakan distribusi Chi-Square:

P-value = P(χ² ≥ 13.774 | df = 2)

Dari tabel Chi-Square atau fungsi R:

P-value = 0.0010

Interpretasi P-Value:

P-value sebesar 0.0010 berarti:

  • Hanya ada 0.1% probabilitas (1 dalam 1000) untuk mendapatkan perbedaan seextrem ini atau lebih, jika sebenarnya tidak ada hubungan antara device type dan payment method.

  • Ini adalah probabilitas yang sangat kecil, mengindikasikan bahwa hasil yang kita amati kemungkinan besar bukan karena kebetulan.

Kriteria Keputusan:

Metode 1: P-value Approach

  • Jika p-value < α (0.05)TOLAK H₀

  • Jika p-value ≥ α (0.05)GAGAL TOLAK H₀

Metode 2: Critical Value Approach

  • Jika χ² > χ²_criticalTOLAK H₀

  • Jika χ² ≤ χ²_criticalGAGAL TOLAK H₀

Evaluasi Hasil:

Evaluasi Keputusan Statistik
Metode Kriteria Hasil Keputusan
P-value Approach p-value (0.0010) vs α (0.05) 0.0010 < 0.05 TOLAK H₀
Critical Value Approach χ² (13.7736) vs χ²_crit (5.9915) 13.7736 > 5.9915 TOLAK H₀

Visualisasi Distribusi Chi-Square

Kesimpulan Statistik:

TOLAK H₀

Dengan tingkat signifikansi α = 0.05:

  1. P-value (0.0010) < α (0.05) → Sangat signifikan
  2. χ² (13.774) > χ²_critical (5.991) → Jatuh di area penolakan

Interpretasi:

Ada bukti statistik yang sangat kuat bahwa tipe perangkat (device type) dan metode pembayaran TIDAK independen. Artinya, ada hubungan yang signifikan antara perangkat yang digunakan dengan metode pembayaran yang dipilih oleh pelanggan.


5. Interpretasi untuk Digital Payment Strategy

Konteks Bisnis dan Strategi Pembayaran Digital

Hasil Chi-Square Test menunjukkan adanya asosiasi signifikan antara device type dan payment preference. Mari kita analisis lebih dalam untuk implikasi strategi bisnis.

A. Analisis Pola Pembayaran

1. Analisis Proporsi per Device

Proporsi Metode Pembayaran per Device Type
Payment_Method Mobile Desktop Selisih
E-Wallet 48.0% 31.6% 16.4%
Credit Card 32.0% 47.4% -15.4%
Cash on Delivery 20.0% 21.1% -1.1%

Temuan Kunci:

Mobile Users:

  • E-Wallet dominan (48%) - hampir setengah pengguna mobile memilih e-wallet
  • Credit Card (32%) - posisi kedua
  • Cash on Delivery (20%) - paling sedikit

Desktop Users:

  • Credit Card dominan (47.4%) - hampir setengah pengguna desktop memilih credit card
  • E-Wallet (31.6%) - posisi kedua
  • Cash on Delivery (21.1%) - paling sedikit

2. Standardized Residuals Analysis

Standardized residuals menunjukkan seberapa jauh observed frequency dari expected frequency dalam unit standar deviasi.

Standardized Residuals Analysis (|residual| > 2 = signifikan)
Kombinasi Std_Residuals Interpretasi
Mobile + E-Wallet 1.753 Tidak signifikan
Mobile + Credit Card -1.688 Tidak signifikan
Mobile + COD -0.159 Tidak signifikan
Desktop + E-Wallet -2.011 Signifikan negatif
Desktop + Credit Card 1.936 Tidak signifikan
Desktop + COD 0.182 Tidak signifikan

Insight dari Residuals:

Standardized residuals > +2 atau < -2 mengindikasikan perbedaan yang signifikan dari yang diharapkan:

  • Positif: Frekuensi lebih tinggi dari yang diharapkan (preferensi kuat)

  • Negatif: Frekuensi lebih rendah dari yang diharapkan (preferensi lemah)

B. Implikasi untuk Strategi Digital Payment

1. Device-Specific Payment Optimization

Untuk Platform Mobile:

Prioritaskan E-Wallet Integration

  • E-Wallet adalah metode pembayaran paling populer di mobile (48%)

  • Overperformance signifikan dibanding expected frequency

  • User mobile lebih nyaman dengan pembayaran cepat dan seamless

Action Items:

  • Letakkan opsi E-Wallet di posisi teratas dalam payment selection

  • Optimalkan UI/UX untuk e-wallet checkout (one-tap payment)

  • Integrasi dengan e-wallet populer (GoPay, OVO, Dana, ShopeePay)

  • Berikan incentive khusus untuk pembayaran via e-wallet di mobile

Untuk Platform Desktop:

Optimalkan Credit Card Processing

  • Credit Card adalah metode dominan di desktop (47.4%)

  • Pengguna desktop lebih nyaman memasukkan detail kartu kredit

  • Layar lebih besar, lebih mudah untuk form filling

Action Items:

  • Simplify credit card input form

  • Implementasi autofill dan card scanning (jika applicable)

  • Tampilkan badge keamanan (SSL, PCI-DSS certified)

  • Tawarkan installment/cicilan untuk transaksi besar

2. User Experience Enhancement

Rekomendasi User Experience per Device & Payment Method
Device Payment_Method Priority Rekomendasi_UX
Mobile E-Wallet High One-tap payment, quick checkout, minimal steps
Mobile Credit Card Medium Auto-fill, saved cards, biometric authentication
Mobile COD Low Clear delivery info, address verification
Desktop Credit Card High Secure badge, installment options, saved cards
Desktop E-Wallet Medium QR code integration, link to mobile app
Desktop COD Low Transparent delivery timeline, real-time tracking

3. Marketing dan Promotional Strategy

Mobile Campaign:

  • Push notification untuk promo e-wallet

  • Cashback/discount khusus untuk pembayaran e-wallet di mobile app

  • Gamification (collect points dengan e-wallet payment)

Desktop Campaign:

  • Email marketing dengan promo credit card installment

  • Banner untuk benefit credit card (reward points, miles)

  • Partnership dengan bank untuk exclusive discount

4. Cash on Delivery (COD) Strategy

Meskipun COD proporsinya paling kecil di kedua device (~20%), ini tetap segment penting:

Karakteristik COD Users:

  • Mungkin tidak memiliki akses ke digital payment

  • Concern terhadap keamanan online payment

  • Prefer “lihat barang dulu, baru bayar”

  • Demographic tertentu (older generation, rural areas)

Rekomendasi COD:

  • Tetap support COD untuk market penetration
  • Edukasi tentang keamanan digital payment
  • Incentivize untuk switch ke digital payment (discount untuk non-COD)
  • Improve tracking dan transparency untuk COD orders

C. Strategi Implementasi

Phase 1: Quick Wins (1-2 bulan)

  1. Reorder payment options berdasarkan device

    • Mobile: E-Wallet → Credit Card → COD
    • Desktop: Credit Card → E-Wallet → COD
  2. A/B test untuk validate impact

  3. Monitor conversion rate dan payment success rate

Phase 2: Enhancement (3-6 bulan)

  1. Personalisasi payment options berdasarkan user history
  2. One-click payment untuk returning customers
  3. Saved payment methods dengan biometric auth (mobile)

Phase 3: Ecosystem Development (6-12 bulan)

  1. Partnership dengan e-wallet providers untuk exclusive promo
  2. Credit card installment program dengan banks
  3. Loyalty program tied to preferred payment methods

D. Key Performance Indicators (KPIs)

KPIs untuk Payment Strategy Monitoring
KPI Target_Mobile Target_Desktop
Payment Success Rate > 95% > 95%
Payment Method Distribution E-Wallet > 50% Credit Card > 50%
Conversion Rate by Payment Method Track per method Track per method
Average Transaction Value by Method Monitor trends Monitor trends
Payment Processing Time < 30 seconds < 45 seconds
Customer Satisfaction Score > 4.5/5 > 4.5/5

E. Kesimpulan dan Rekomendasi Akhir

Kesimpulan Utama:

  1. Device type dan payment method memiliki hubungan yang signifikan (p = 0.0010)

  2. Mobile users strongly prefer E-Wallet (48% vs 31.6% expected)

  3. Desktop users strongly prefer Credit Card (47.4% vs 38.6% expected)

  4. COD relatif konsisten di kedua platform (~20%)

Rekomendasi Strategis:

Jangka Pendek (0-3 bulan):

  • Implement device-specific payment ordering
  • Optimize UX untuk metode payment yang paling relevan per device
  • Quick wins dengan low implementation cost

Jangka Menengah (3-6 bulan):

  • Develop personalization engine untuk payment recommendations
  • Partnership development dengan payment providers
  • Enhanced security dan convenience features

Jangka Panjang (6-12 bulan):

  • Build comprehensive digital payment ecosystem
  • Loyalty program integration
  • Advanced fraud detection per payment method

Expected Impact:

  • Increase payment success rate: 3-5%
  • Reduce cart abandonment: 2-3%
  • Improve customer satisfaction: 10-15%
  • Potential revenue uplift: 5-8%

Critical Success Factors:

  • Continuous monitoring dan iterasi
  • User feedback loop
  • Cross-functional collaboration (Product, Tech, Business)
  • Data-driven decision making

Ringkasan Hasil Analisis

Hasil Chi-Square Test

  • Chi-Square Statistic: 13.7736
  • Degrees of Freedom: 2
  • P-value: 0.0010
  • Tingkat Signifikansi: 0.05
  • Keputusan: TOLAK H₀

Interpretasi Bisnis

Ada hubungan yang sangat signifikan antara tipe perangkat dan preferensi metode pembayaran. Mobile users cenderung prefer E-Wallet, sementara Desktop users prefer Credit Card. Strategi digital payment harus disesuaikan berdasarkan device type untuk optimize conversion dan user experience.


Case Study 5

Type I and Type II Errors (Conceptual)

A fintech startup tests whether a new fraud detection algorithm reduces fraudulent transactions.

  • H₀: The new algorithm does not reduce fraud.
  • H₁: The new algorithm reduces fraud.

Tasks

  1. Explain a Type I Error (α) in this context.
  2. Explain a Type II Error (β) in this context.
  3. Identify which error is more costly from a business perspective.
  4. Discuss how sample size affects Type II Error.
  5. Explain the relationship between α, β, and statistical power.

Answer To Case Study 5

Pendahuluan

Sebuah fintech startup sedang menguji apakah algoritma deteksi fraud baru mereka dapat mengurangi jumlah transaksi penipuan (fraudulent transactions).

Konteks Hipotesis

Hipotesis Nol (H₀): Algoritma baru TIDAK mengurangi fraud. Dengan kata lain, algoritma baru tidak lebih baik dari sistem yang ada saat ini.

\[H_0: \text{Algoritma baru tidak efektif dalam mengurangi fraud}\]

Hipotesis Alternatif (H₁): Algoritma baru MENGURANGI fraud. Algoritma baru lebih efektif dibandingkan sistem yang ada.

\[H_1: \text{Algoritma baru efektif dalam mengurangi fraud}\]

Matriks Keputusan dan Kemungkinan Error

Dalam pengujian hipotesis, ada 4 kemungkinan outcome:

Matriks Keputusan Pengujian Hipotesis: Type I dan Type II Error
Kondisi Realitas Gagal Tolak H0 (Tidak Deploy) Tolak H0 (Deploy Algoritma)
H0 Benar (Algoritma TIDAK efektif) Keputusan BENAR (Correct Decision): Tidak mengimplementasikan algoritma yang tidak berguna Type I Error (α): False Positive, mengimplementasikan algoritma yang sebenarnya tidak efektif
H1 Benar (Algoritma EFEKTIF) Type II Error (β): False Negative, kehilangan peluang karena tidak mengimplementasikan algoritma yang sebenarnya efektif Keputusan BENAR (Power): Mengimplementasikan algoritma yang memang efektif

Jawaban Tugas

1. Penjelasan Type I Error (α) dalam Konteks Ini

Definisi Type I Error:

Type I Error terjadi ketika kita menolak H₀ padahal H₀ sebenarnya benar.

Dalam simbol statistik: \[P(\text{Tolak } H_0 | H_0 \text{ benar}) = \alpha\]

Dalam Konteks Fraud Detection:

Type I Error terjadi ketika:

Kita menyimpulkan bahwa algoritma baru MENGURANGI fraud (menolak H₀), padahal kenyataannya algoritma tersebut TIDAK efektif (H₀ benar).

Skenario Konkret:

  1. Apa yang Terjadi:

    • Tim data science melakukan testing

    • Hasil test menunjukkan penurunan fraud secara statistik signifikan

    • Berdasarkan hasil ini, perusahaan memutuskan untuk deploy algoritma baru

    • NAMUN, penurunan fraud yang teramati sebenarnya hanya kebetulan (random variation)

    • Algoritma baru sebenarnya tidak lebih baik dari sistem lama

  2. Konsekuensi Bisnis:

Biaya Langsung:

  • Biaya development dan testing yang sudah dikeluarkan sia-sia

  • Biaya deployment dan integration dengan sistem existing

  • Biaya training tim untuk menggunakan sistem baru

  • Biaya infrastructure dan maintenance untuk algoritma yang tidak efektif

Biaya Opportunity:

  • Waktu dan resources yang bisa digunakan untuk develop solusi lain yang lebih baik

  • Delayed implementation dari solusi fraud detection yang benar-benar efektif

Dampak Operasional:

  • False sense of security - tim percaya fraud sudah berkurang

  • Mungkin ada relaksasi dalam monitoring manual

  • Fraud sebenarnya tetap terjadi di level yang sama

Reputasi dan Kepercayaan:

  • Stakeholder dan investor diberi harapan palsu

  • Ketika fraud ternyata tidak berkurang, kredibilitas tim terganggu

Probabilitas Type I Error:

Probabilitas Type I Error = α (alpha) = tingkat signifikansi yang kita tetapkan

Umumnya:

  • α = 0.05 (5%) → Ada 5% chance membuat Type I Error

  • α = 0.01 (1%) → Ada 1% chance membuat Type I Error

Trade-off:

  • α lebih kecil → Lebih konservatif, lebih sulit menolak H₀

  • α lebih besar → Lebih liberal, lebih mudah menolak H₀

Ilustrasi Numerik:

Misalkan fraud rate sebelumnya 2% dan kita test algoritma baru:

Contoh Skenario Type I Error
Aspek Nilai
Fraud Rate Sebenarnya (dengan algoritma baru) 2.0% (tidak berubah)
Fraud Rate Terobservasi dalam test 1.7% (tampak turun)
Kesimpulan Statistik Signifikan pada α = 0.05 → Tolak H₀
Keputusan Bisnis Deploy algoritma baru
Realitas Algoritma sebenarnya tidak efektif
Jenis Error TYPE I ERROR

2. Penjelasan Type II Error (β) dalam Konteks Ini

Definisi Type II Error:

Type II Error terjadi ketika kita gagal menolak H₀ padahal H₀ sebenarnya salah (H₁ benar).

Dalam simbol statistik: \[P(\text{Gagal Tolak } H_0 | H_1 \text{ benar}) = \beta\]

Dalam Konteks Fraud Detection:

Type II Error terjadi ketika:

Kita menyimpulkan bahwa algoritma baru TIDAK mengurangi fraud (gagal tolak H₀), padahal kenyataannya algoritma tersebut EFEKTIF (H₁ benar).

Skenario Konkret:

  1. Apa yang Terjadi:

    • Tim data science melakukan testing dengan sampel transaksi

    • Hasil test menunjukkan penurunan fraud, tapi tidak signifikan secara statistik

    • Berdasarkan hasil ini, perusahaan memutuskan untuk TIDAK deploy algoritma baru

    • NAMUN, algoritma baru sebenarnya efektif mengurangi fraud

    • Kita gagal mendeteksi efektivitas karena sampel terlalu kecil atau variabilitas tinggi

  2. Konsekuensi Bisnis:

Kerugian Langsung dari Fraud yang Berkelanjutan:

  • Fraud losses tetap tinggi karena tidak menggunakan algoritma yang lebih baik

  • Chargebacks dan refunds untuk transaksi penipuan

  • Kehilangan revenue dari transaksi fraud yang tidak terdeteksi

Opportunity Cost:

  • Missed opportunity untuk meningkatkan fraud detection rate

  • Kompetitor mungkin sudah menggunakan teknologi lebih baik

  • Customer experience yang lebih buruk (legit transactions mungkin di-block, fraud tidak terdeteksi)

Dampak Jangka Panjang:

  • Reputasi perusahaan terganggu jika fraud rate tinggi

  • Regulasi dan compliance issues

  • Biaya insurance dan risk management yang lebih tinggi

Kerugian Development:

  • Investasi R&D untuk algoritma baru sia-sia

  • Tim mungkin demotivasi karena solusi yang baik tidak di-adopt

  • Potensi kehilangan talent yang frustasi

Probabilitas Type II Error:

Probabilitas Type II Error = β (beta)

Statistical Power = 1 - β = Probabilitas mendeteksi efek yang benar-benar ada

Contoh:

  • Jika β = 0.20 → Power = 0.80 (80% chance mendeteksi efek yang ada)

  • Jika β = 0.10 → Power = 0.90 (90% chance mendeteksi efek yang ada)

Ilustrasi Numerik:

Misalkan algoritma baru sebenarnya mengurangi fraud dari 2% ke 1.5%:

Contoh Skenario Type II Error
Aspek Nilai
Fraud Rate Lama 2.0%
Fraud Rate dengan Algoritma Baru (Realitas) 1.5% (turun 25%)
Penurunan Fraud Sebenarnya 0.5 percentage points
Fraud Rate Terobservasi dalam test 1.6% (turun tapi tidak signifikan)
Kesimpulan Statistik Tidak signifikan pada α = 0.05 → Gagal Tolak H₀
Keputusan Bisnis TIDAK deploy algoritma baru
Realitas Algoritma sebenarnya efektif
Jenis Error TYPE II ERROR

Dampak Finansial Estimasi:

Jika perusahaan memproses 1 juta transaksi per bulan dengan nilai rata-rata $100:

Estimasi Dampak Finansial Type II Error
Metrik Nilai
Transaksi per bulan 1e+06
Nilai rata-rata per transaksi $100
Fraud rate (algoritma lama) 2.0%
Fraud rate (algoritma baru) 1.5%
Fraud loss per bulan (algoritma lama) $2e+06
Fraud loss per bulan (algoritma baru) $1,500,000
Potensi penghematan per bulan $5e+05
Potensi penghematan per tahun $6e+06

Dengan Type II Error, perusahaan kehilangan potensi penghematan $500,000 per bulan atau $6,000,000 per tahun!


3. Error Mana yang Lebih Mahal dari Perspektif Bisnis?

Untuk menentukan error mana yang lebih costly, kita perlu melakukan Cost-Benefit Analysis yang komprehensif.

A. Analisis Biaya Type I Error

Skenario: Deploy algoritma yang sebenarnya tidak efektif

Analisis Biaya Type I Error
Kategori_Biaya Estimasi_Biaya Keterangan
Development & Testing $200,000 - $500,000 Sunk cost - sudah dikeluarkan
Deployment & Integration $100,000 - $300,000 Biaya sistem integration
Infrastructure & Maintenance $50,000 - $150,000/tahun Server, monitoring, updates
Training & Change Management $50,000 - $100,000 Staff training untuk sistem baru
Opportunity Cost $100,000 - $300,000 Resources untuk solusi lain
Total Estimasi (One-time) $450,000 - $1,200,000 Biaya implementasi total
Total Estimasi (Annual recurring) $50,000 - $150,000 Biaya operasional tahunan

Total Dampak Type I Error (3 tahun):

  • One-time: $450K - $1.2M

  • Recurring (3 tahun): $150K - $450K

  • Total: $600K - $1.65M

Faktor Mitigasi:

  • Sebagian biaya development bisa di-salvage (learnings, partial code reuse)

  • Tidak ada kehilangan langsung dari fraud

  • Bisa di-rollback dengan relatif cepat setelah monitoring

B. Analisis Biaya Type II Error

Skenario: Tidak deploy algoritma yang sebenarnya efektif

Analisis Biaya Type II Error
Kategori_Biaya Estimasi_Biaya Keterangan
Fraud Losses (per tahun) $6,000,000 Opportunity loss dari fraud prevention
Chargebacks & Refunds $500,000 - $1,000,000 Biaya proses dispute
Customer Trust & Reputation $1,000,000 - $3,000,000 Customer churn, brand damage
Compliance & Legal $200,000 - $500,000 Regulatory fines, audit costs
Higher Insurance Premiums $100,000 - $300,000 Higher risk premiums
Competitive Disadvantage Sulit dikuantifikasi Market share loss
Total Estimasi (Annual) $7,800,000 - $10,800,000 Kerugian tahunan
Total Estimasi (3 tahun) $23,400,000 - $32,400,000 Akumulasi 3 tahun

Total Dampak Type II Error (3 tahun): $23.4M - $32.4M

Faktor Pemberat:

  • Kerugian bersifat ongoing dan compound

  • Sulit di-recover setelah kehilangan customer trust

  • Competitive disadvantage bisa permanent

  • Reputational damage jangka panjang

C. Perbandingan Langsung

Perbandingan Type I vs Type II Error
Aspek Type_I_Error Type_II_Error
Total Biaya (3 tahun) $0.6M - $1.65M $23.4M - $32.4M
Sifat Biaya Mostly one-time & sunk cost Ongoing & compound losses
Dapat Di-recover Partial (learning, code) Sangat sulit
Dampak Reputasi Minimal Signifikan
Dampak Kompetitif Minimal Signifikan
Risk Level Lower Higher
Kesimpulan Lebih murah & lebih mudah di-mitigate Jauh lebih mahal & dampak jangka panjang

D. Kesimpulan: Type II Error Lebih Mahal

Dalam konteks fraud detection fintech ini, Type II Error JAUH LEBIH MAHAL (10-20x lebih mahal).

Alasan Utama:

  1. Magnitude of Loss

    • Type I: ~$1.65M (worst case)

    • Type II: ~$32.4M (worst case)

    • Rasio: 1:20

  2. Ongoing vs One-time

    • Type I: Mostly one-time cost

    • Type II: Compound losses setiap bulan

  3. Reversibility

    • Type I: Bisa di-rollback dan di-fix

    • Type II: Kehilangan revenue dan reputasi sulit di-recover

  4. Strategic Impact

    • Type I: Internal inefficiency

    • Type II: Competitive disadvantage, market share loss

E. Implikasi untuk Decision Making

Rekomendasi Strategis:

Strategic Recommendations berdasarkan Cost Analysis
Situasi Alpha_Level Rasionale Action
Early Stage Testing 0.10 (lebih liberal) Willing to risk Type I untuk avoid Type II Test multiple algorithms, filter later
Pilot Program 0.05 (standar) Balanced approach Deploy to 10-20% traffic
Full Deployment Decision 0.05 atau 0.01 Conservative jika high stakes Comprehensive analysis sebelum full deploy
Post-Deployment Monitoring Ongoing monitoring Quick rollback jika ternyata Type I Real-time metrics, ready to rollback

Prinsip Utama:

Dalam konteks ini, lebih baik risiko Type I Error daripada Type II Error karena:

  • Type I bisa di-detect dan di-fix cepat dengan monitoring

  • Type II menyebabkan kerugian ongoing yang massive

  • Cost of false positive << Cost of false negative

Namun tetap perlu balance:

  • Tidak asal deploy semua algoritma (proper testing tetap penting)

  • Monitor dengan ketat untuk detect Type I Error

  • Siap rollback cepat jika algorithm tidak perform


4. Pengaruh Sample Size terhadap Type II Error

A. Hubungan Konseptual

Type II Error (β) berbanding terbalik dengan ukuran sampel (n):

\[\beta \downarrow \text{ ketika } n \uparrow\]

Atau dalam kata lain: \[\text{Power} = 1 - \beta \uparrow \text{ ketika } n \uparrow\]

Mengapa ini terjadi?

  1. Standard Error berkurang dengan sampel lebih besar: \[SE = \frac{\sigma}{\sqrt{n}}\]

Sampel lebih besar → SE lebih kecil → Distribusi sampling lebih sempit

  1. Deteksi efek lebih mudah dengan presisi lebih tinggi: Dengan SE lebih kecil, kita bisa membedakan efek kecil dari noise

  2. Confidence Interval lebih sempit: CI lebih sempit → Lebih mudah untuk detect perbedaan dari null hypothesis

B. Ilustrasi Numerik

Misalkan algoritma baru mengurangi fraud rate dari 2.0% ke 1.5% (effect size = 0.5 percentage points).

Simulasi dengan berbagai ukuran sampel:

C. Tabel Sample Size Requirements

Ukuran Sampel yang Dibutuhkan untuk Berbagai Target Power
Target_Power Type_II_Error Required_Sample_Size Interpretasi
50% 50% 1,861 Tidak cukup - banyak missed opportunities
70% 30% 3,237 Kurang memadai
80% 20% 4,253 Minimum acceptable (standard)
90% 10% 5,890 Baik - confidence tinggi
95% 5% 7,443 Sangat baik - high confidence

Key Insight:

Untuk mencapai power 80% (β = 20%), kita membutuhkan sampel sekitar 10,000-15,000 transaksi.

Jika kita hanya test dengan 1,000 transaksi, power kita mungkin hanya ~40-50%, artinya ada 50-60% chance kita akan miss algoritma yang sebenarnya efektif (Type II Error)!

D. Practical Implications untuk Fraud Detection Testing

1. Test Design Considerations:

Rekomendasi Sample Size per Testing Phase
Testing_Phase Sample_Size Expected_Power Use_Case Risk_Type_II
Quick Validation 1,000 - 5,000 30-50% (High β) Early screening only HIGH - jangan buat final decision
Pilot Test 10,000 - 20,000 80-85% (Acceptable β) Decision for further investment MEDIUM - good enough untuk pilot
Full Scale Test 50,000 - 100,000 95%+ (Low β) Pre-deployment validation LOW - confident untuk deployment
A/B Test Production 100,000+ 99%+ (Very Low β) Final confirmation & optimization VERY LOW - production validation

2. Sequential Testing Strategy:

Untuk mengatasi trade-off antara sample size dan speed:

Sequential Testing Strategy untuk Minimize Type II Error
Stage Sample_Size Decision_Rule Rationale
Stage 1 1,000 Jika improvement > 30% → lanjut ke Stage 2, jika tidak → stop Quick filter - eliminate obviously bad algorithms
Stage 2 5,000 Jika improvement > 20% dan p < 0.10 → lanjut, jika tidak → stop Intermediate validation
Stage 3 20,000 Jika improvement > 15% dan p < 0.05 → lanjut, jika tidak → stop Strong evidence needed
Stage 4 100,000 Final validation: p < 0.01, confidence interval analysis Very high confidence before full deployment

Keuntungan Sequential Testing:

  • Tidak perlu menunggu sampel besar untuk algoritma yang jelas tidak efektif

  • Fokus resources pada algoritma yang promising

  • Balance antara speed dan accuracy

E. Practical Recommendations

1. Untuk Fintech Startup dengan Budget Terbatas:

  • Gunakan Historical Data: Jika punya data historical, simulasikan algoritma baru pada data lama untuk increase effective sample size

  • Stratified Sampling: Pastikan sampel representatif (berbagai merchant, transaction types, dll)

  • Longer Test Duration: Jika tidak bisa increase concurrent sample, perpanjang durasi test

2. Untuk Scale-up Deployment:

  • A/B Test dengan Traffic Allocation: Deploy ke 10% traffic dulu, monitor, gradually increase

  • Real-time Monitoring: Quick detection jika ada issues (Type I error mitigation)

  • Fallback Mechanism: Automatic rollback jika performance metrics drop

3. Cost-Benefit of Larger Sample:

Analisis Cost-Benefit Berdasarkan Ukuran Sampel
Skenario Testing_Cost Type_II_Error Risk_Missed_Savings ROI_of_Testing
Small Sample (n=2,000) $10,000 - $20,000 ~60% (Very High) $6M/year × 60% = $3.6M/year Negative - High risk
Medium Sample (n=10,000) $30,000 - $50,000 ~20% (Acceptable) $6M/year × 20% = $1.2M/year Positive - Good balance
Large Sample (n=50,000) $100,000 - $150,000 ~5% (Low) $6M/year × 5% = $0.3M/year Very Positive - Best confidence

Key Insight: Investasi dalam sampel lebih besar memberikan ROI yang sangat tinggi dengan mengurangi risiko Type II Error yang costly.


5. Hubungan antara α, β, dan Statistical Power

A. Definisi dan Hubungan Matematis

Alpha (α): Probabilitas Type I Error - Tingkat signifikansi yang kita tetapkan (biasanya 0.05) - Risiko menolak H₀ padahal H₀ benar

Beta (β): Probabilitas Type II Error - Risiko gagal menolak H₀ padahal H₁ benar - Gagal mendeteksi algoritma yang efektif

Statistical Power: Probabilitas mendeteksi efek yang benar-benar ada \(\text{Power} = 1 - \beta\)

Hubungan Fundamental: \(\alpha + \text{Power} \neq 1\) \(\beta + \text{Power} = 1\)

B. Trade-off antara α dan β

Trade-off antara α, β, dan Power
Aspek Dampak_pada_Beta Dampak_pada_Power Trade_off
Ketika α TURUN β NAIK (lebih sulit tolak H₀) Power TURUN Lebih konservatif, lebih banyak missed opportunities
Ketika α NAIK β TURUN (lebih mudah tolak H₀) Power NAIK Lebih liberal, lebih banyak false positives
Ketika sampel NAIK β TURUN (power naik) Power NAIK Win-win (tapi lebih mahal)
Ketika effect size BESAR β TURUN (lebih mudah deteksi) Power NAIK Natural improvement

C. Faktor yang Mempengaruhi Power

Statistical Power dipengaruhi oleh 4 faktor utama:

1. Alpha Level (α) - α lebih besar → Power lebih tinggi - Trade-off: Lebih banyak Type I Error

2. Sample Size (n) - n lebih besar → Power lebih tinggi - No trade-off, hanya biaya

3. Effect Size - Effect lebih besar → Power lebih tinggi - Tidak bisa dikontrol (tergantung realitas)

4. Variability (σ) - Variability lebih kecil → Power lebih tinggi - Sulit dikontrol, tapi bisa improve measurement

D. Skenario Praktis dalam Fraud Detection

Skenario 1: Conservative Approach (α = 0.01)

Skenario 1: Very Conservative
Parameter Nilai
Alpha (α) 0.01 (1%)
Beta (β) estimasi 0.30-0.40
Power 0.60-0.70
Konsekuensi Sangat yakin jika deploy, tapi banyak missed algorithms

Cocok untuk: Final deployment decision, high-stakes implementation

Skenario 2: Balanced Approach (α = 0.05)

Skenario 2: Balanced (Recommended)
Parameter Nilai
Alpha (α) 0.05 (5%)
Beta (β) estimasi 0.15-0.25
Power 0.75-0.85
Konsekuensi Standard scientific approach, good balance

Cocok untuk: Pilot testing, general validation

Skenario 3: Liberal Approach (α = 0.10)

Skenario 3: Liberal (Exploratory)
Parameter Nilai
Alpha (α) 0.10 (10%)
Beta (β) estimasi 0.05-0.15
Power 0.85-0.95
Konsekuensi High sensitivity, catch most good algorithms

Cocok untuk: Early screening, exploratory phase

E. Rekomendasi Strategis untuk Fintech

Phase-based Alpha Strategy:

Phase 1: Initial Screening (α = 0.10)

  • Goal: Don’t miss any promising algorithms
  • High power, willing to accept false positives
  • Quick filtering

Phase 2: Validation (α = 0.05)

  • Goal: Standard validation
  • Balanced approach
  • Detailed testing

Phase 3: Final Decision (α = 0.01)

  • Goal: High confidence before deployment
  • Conservative approach
  • Comprehensive analysis

F. Practical Guidelines

Untuk Minimize Type II Error (maximize Power):

  1. Increase sample size (paling efektif)
  2. Use α = 0.10 untuk early screening
  3. Improve measurement precision
  4. Longer test duration
  5. Stratified sampling untuk reduce variability

Untuk Minimize Type I Error:

  1. Use α = 0.01 untuk final decisions
  2. Require replication studies
  3. Monitor closely post-deployment
  4. Have rollback mechanisms ready

Kesimpulan Akhir

Ringkasan Konsep

Type I Error (α): False Positive

  • Deploy algoritma yang tidak efektif
  • Biaya: ~$600K-$1.65M (3 tahun)
  • Dapat di-rollback

Type II Error (β): False Negative

  • Tidak deploy algoritma yang efektif
  • Biaya: ~$23M-$32M (3 tahun)
  • Sulit di-recover

Statistical Power (1-β):

  • Kemampuan mendeteksi algoritma yang efektif
  • Dipengaruhi oleh: n, α, effect size, variability

Key Takeaways

  1. Type II Error JAUH lebih mahal dalam konteks fraud detection (20x lebih costly)

  2. Sample size adalah kunci untuk mengurangi Type II Error tanpa trade-off

  3. Alpha strategy harus phase-based: Liberal untuk screening, conservative untuk deployment

  4. Power analysis harus dilakukan sebelum testing untuk menentukan sample size yang adequate

  5. Trade-off α dan β harus dipahami untuk membuat keputusan yang tepat

Rekomendasi Final

Untuk Fintech Startup:

  • Prioritaskan menghindari Type II Error (jangan sampai miss algoritma yang bagus)
  • Invest dalam sample size yang adequate (minimal n untuk power 80%)
  • Gunakan sequential testing untuk efficiency
  • Monitor ketat untuk quick detection of Type I Error
  • Balance antara speed dan accuracy dengan phased approach

Critical Success Factors:

  • Proper sample size calculation
  • Phased testing strategy
  • Real-time monitoring
  • Quick rollback capability
  • Cost-benefit analysis at each decision point

Case Study 6

P-Value and Statistical Decision Making

A churn prediction model evaluation yields the following results:

  • Test statistic = 2.31
  • p-value = 0.021
  • Significance level: \(\alpha = 0.05\)

Tasks

  1. Explain the meaning of the p-value.
  2. Make a statistical decision.
  3. Translate the decision into non-technical language for management.
  4. Discuss the risk if the sample is not representative.
  5. Explain why the p-value does not measure effect size.

Answer To Case Study 6


Pendahuluan

Sebuah churn prediction model (model prediksi customer churn) sedang dievaluasi untuk menentukan apakah model baru ini lebih efektif dibandingkan model yang ada saat ini.

Hasil Evaluasi Model

Hasil Evaluasi Churn Prediction Model
Parameter Nilai
Test Statistic 2.310
P-value 0.021
Tingkat Signifikansi (α) 0.050

Konteks Hipotesis (Asumsi)

Dalam evaluasi model prediksi, umumnya kita menguji:

H₀: Model baru tidak lebih baik dari model lama (tidak ada improvement)

H₁: Model baru lebih baik dari model lama (ada improvement signifikan)


Jawaban Tugas

1. Penjelasan Makna P-Value

Definisi P-Value

P-value adalah probabilitas untuk mendapatkan hasil test statistic sebesar atau lebih ekstrem dari yang kita observasi, dengan asumsi bahwa Hipotesis Nol (H₀) benar.

Dalam simbol matematis: \[\text{P-value} = P(\text{Test Statistic} \geq 2.31 \mid H_0 \text{ benar})\]

Interpretasi P-Value dalam Konteks Ini

P-value = 0.021 berarti:

“Jika sebenarnya model baru TIDAK lebih baik dari model lama (H₀ benar), maka probabilitas untuk mendapatkan hasil test statistic 2.31 atau lebih ekstrem adalah 2.1% atau 21 dalam 1000 percobaan.”

Apa yang P-Value BUKAN

Kesalahpahaman Umum tentang P-Value
Kesalahpahaman_Umum Penjelasan_Yang_Benar
P-value adalah probabilitas H₀ benar SALAH. P-value adalah P(data|H₀), bukan P(H₀|data)
P-value adalah probabilitas hasil karena chance SALAH. P-value adalah P(data lebih ekstrem|H₀ benar)
P-value mengukur seberapa besar effect SALAH. P-value mengukur evidence against H₀, bukan ukuran effect
P-value kecil berarti effect besar SALAH. P-value kecil bisa dari effect besar atau sampel besar
P-value > 0.05 berarti H₀ pasti benar SALAH. Gagal tolak H₀ ≠ H₀ benar, hanya kurang evidence

Visualisasi P-Value

Interpretasi Intuitif

Analogi Sederhana:

Bayangkan Anda melempar koin 100 kali dan mendapat 65 heads (kepala). Anda curiga koin tidak fair.

  • H₀: Koin fair (P(heads) = 0.5)
  • Hasil observasi: 65 heads dari 100
  • P-value: Berapa probabilitas mendapat 65+ heads jika koin benar-benar fair?

Jika p-value = 0.021, artinya hanya ada 2.1% chance mendapat hasil seextrem ini jika koin benar-benar fair. Ini adalah evidence yang kuat bahwa koin mungkin tidak fair.

Dalam Konteks Churn Model:

  • H₀: Model baru tidak lebih baik
  • Hasil observasi: Test statistic = 2.31
  • P-value = 0.021: Hanya 2.1% chance mendapat hasil ini jika model baru memang tidak lebih baik

Ini adalah evidence yang kuat bahwa model baru kemungkinan memang lebih baik.

Level of Evidence berdasarkan P-Value

Level of Evidence berdasarkan P-Value
P_Value_Range Level_of_Evidence Interpretasi Kasus_Kita
< 0.001 Very Strong Evidence Sangat kuat melawan H₀
0.001 - 0.01 Strong Evidence Kuat melawan H₀
0.01 - 0.05 Moderate Evidence Cukup untuk reject H₀ (pada α=0.05) ← P-value kita (0.021)
0.05 - 0.10 Weak Evidence Marginal, tergantung konteks
> 0.10 Little to No Evidence Tidak cukup untuk reject H₀

P-value kita (0.021) berada di kategori “Strong Evidence” melawan H₀.


2. Keputusan Statistik

Kriteria Keputusan

Keputusan statistik dibuat dengan membandingkan p-value dengan tingkat signifikansi (α):

Aturan Keputusan: - Jika p-value < αTOLAK H₀ - Jika p-value ≥ αGAGAL TOLAK H₀

Evaluasi dalam Kasus Ini

Evaluasi Keputusan Statistik
Komponen Nilai
P-value 0.021
Alpha (α) 0.05
Perbandingan 0.021 < 0.05
Keputusan Statistik TOLAK H₀
Kesimpulan Model baru signifikan lebih baik

Keputusan: TOLAK H₀

Karena p-value (0.021) < α (0.05), kita MENOLAK Hipotesis Nol.

Artinya:

Ada bukti statistik yang cukup kuat untuk menyimpulkan bahwa model churn prediction baru signifikan lebih baik dari model lama.

Tingkat Kepercayaan

Dengan menolak H₀ pada α = 0.05, kita memiliki 95% confidence level dalam keputusan ini.

Atau dengan kata lain, kita bersedia mengambil risiko 5% untuk membuat Type I Error (false positive - menyimpulkan model lebih baik padahal tidak).

Visualisasi Keputusan

Test statistic kita (2.31) jatuh di daerah penolakan (rejection region), sehingga keputusan adalah TOLAK H₀.


3. Komunikasi untuk Manajemen (Non-Technical)

Versi Management-Friendly

Ringkasan Eksekutif:

Model prediksi churn yang baru terbukti lebih efektif dibandingkan model yang ada saat ini. Hasil analisis statistik menunjukkan improvement yang signifikan dengan tingkat kepercayaan 95%.

Rekomendasi: Deploy model baru untuk meningkatkan akurasi prediksi churn dan efektivitas retention strategy.

Penjelasan untuk Non-Technical Audience

Pertanyaan Manajemen: “Apakah model baru ini benar-benar lebih baik?”

Jawaban Sederhana:

“Ya, model baru ini signifikan lebih baik. Kami melakukan pengujian statistik yang ketat, dan hasilnya menunjukkan bahwa kemungkinan improvement ini hanya karena kebetulan sangat kecil - hanya 2.1%.

Dengan kata lain, kami 97.9% yakin bahwa model baru ini memang lebih baik, bukan karena faktor kebetulan.”

Key Messages untuk Management

Key Messages untuk Management
Pertanyaan_Management Jawaban_Sederhana
Apa artinya hasil ini? Model baru terbukti lebih akurat dalam memprediksi customer yang akan churn
Seberapa yakin kita? 95% confidence level - sangat tinggi. Hanya 5% kemungkinan kesimpulan kita salah
Apa risikonya? Risiko kecil (5%) bahwa improvement ini kebetulan. Risiko tidak menggunakan model baru lebih besar
Apa yang harus dilakukan? Deploy model baru untuk meningkatkan churn prediction accuracy dan retention effectiveness
Berapa cost/benefit? Model lebih baik → prediksi lebih akurat → retention lebih efektif → revenue meningkat

Business Impact Translation

Dari Bahasa Statistik ke Bahasa Bisnis:

Statistik: “P-value = 0.021, reject H₀ at α = 0.05”

Bisnis: “Model baru dapat memprediksi customer churn dengan lebih akurat, yang berarti kita bisa:

  • Identifikasi at-risk customers lebih awal
  • Target retention efforts lebih efektif
  • Reduce churn rate dan increase customer lifetime value
  • Optimize marketing budget dengan fokus pada customers yang benar-benar at-risk”

One-Pager untuk C-Level

EXECUTIVE SUMMARY: CHURN PREDICTION MODEL EVALUATION

Bottom Line: Model baru 95% terbukti lebih baik. Rekomendasi: Deploy immediately.

Key Findings:

  • Statistical analysis confirms model improvement (p = 0.021)
  • 95% confidence level - very high certainty
  • Low risk of false positive (5%)

Business Impact:

  • Better churn prediction accuracy
  • More effective retention targeting
  • Higher ROI on retention spending
  • Reduced customer acquisition costs (retain existing customers)

Next Steps: 1. Deploy model to production 2. Monitor performance metrics 3. A/B test with old model (safety check) 4. Measure business KPIs (churn rate, retention rate, LTV)

Timeline: Ready for deployment. Recommend phased rollout (25% → 50% → 100% over 4 weeks).


4. Risiko jika Sampel Tidak Representatif

Konsep Representativeness

Sampel Representatif adalah sampel yang mencerminkan karakteristik populasi yang ingin kita generalisasi.

Jika sampel TIDAK representatif: Hasil statistik (walaupun p-value kecil) TIDAK VALID untuk populasi yang lebih luas.

Skenario Risiko dalam Churn Prediction

Contoh Kasus Sampel Tidak Representatif:

Skenario Sampel Tidak Representatif dan Risikonya
Skenario Deskripsi_Masalah Dampak_Risiko
1. Bias Temporal Model di-test hanya pada data bulan promo, bukan kondisi normal Model gagal predict di kondisi normal → churn prediction tidak akurat
2. Bias Geografis Model di-test hanya pada customers di region tertentu (urban) tapi digunakan untuk semua region Model tidak perform di rural areas → retention strategy gagal di region tersebut
3. Bias Segmen Customer Model di-test pada enterprise customers, tapi digunakan untuk SMB customers juga Model tidak cocok untuk SMB → salah identifikasi at-risk customers
4. Bias Platform Model di-test pada web users, tapi digunakan juga untuk mobile app users Model tidak akurat untuk mobile users → miss opportunity untuk retention
5. Bias Behavior Model di-test pada high-engagement users, padahal churn biasanya dari low-engagement Model bias ke segment yang sudah engaged → miss actual at-risk customers

Konsekuensi Serius

1. False Sense of Security

Manajemen percaya model bekerja baik (karena p-value kecil), padahal hanya bekerja pada subset tertentu. Ketika di-deploy ke real world, performance drop drastically.

2. Biaya Salah Prediksi

Biaya dari Prediksi yang Salah
Jenis_Error Deskripsi Estimated_Cost
False Positive (predict churn, tapi tidak) Wasted retention budget untuk customers yang sebenarnya tidak akan churn $50-$200 per customer (retention offer tidak perlu)
False Negative (predict stay, tapi churn) Missed opportunity untuk retain customers yang sebenarnya at-risk $500-$5,000 per customer (lost LTV dari churned customer)

False Negative jauh lebih mahal karena kita kehilangan customer yang sebenarnya bisa di-save.

3. Loss of Trust

Stakeholders kehilangan kepercayaan pada data science team ketika model yang dijanjikan “95% confident” ternyata tidak perform di production.

How to Ensure Representativeness

Pre-Deployment Checks:

Checklist untuk Memastikan Representativeness
Check What_to_Verify Action_if_Not_Representative
1. Demographic Distribution Sample memiliki distribusi age, gender, location yang sama dengan populasi Stratified sampling atau re-weight sampel
2. Temporal Coverage Data mencakup berbagai periode (seasonal, promo, normal) Collect data across multiple time periods
3. Segment Balance Proporsi enterprise/SMB/individual sama dengan populasi Oversample underrepresented segments
4. Platform Mix Mix web/mobile/app users proporsional Ensure sufficient data dari semua platforms
5. Behavior Distribution Mix high/medium/low engagement users proporsional Balance dataset dengan sampling techniques

Statistical Tests untuk Representativeness:

  1. Chi-Square Test untuk categorical variables
  2. K-S Test (Kolmogorov-Smirnov) untuk continuous variables
  3. Compare distributions sample vs population

Mitigation Strategies

Jika sampel tidak 100% representatif:

Strategy 1: Stratified Analysis

  • Analisis terpisah per segment
  • Deploy model yang berbeda per segment jika needed

Strategy 2: Weighted Analysis

  • Berikan weight pada observasi untuk adjust non-representativeness
  • Misalnya: jika mobile users underrepresented, berikan weight lebih tinggi

Strategy 3: Phased Rollout

  • Deploy 10% traffic dulu (random sampling)
  • Monitor real-world performance
  • Gradually increase jika performance match expectations

Strategy 4: A/B Testing in Production

  • Run new model parallel dengan old model
  • Compare actual churn rates
  • Validate bahwa improvement hold in real conditions

5. Mengapa P-Value TIDAK Mengukur Effect Size

Perbedaan Fundamental

P-Value dan Effect Size adalah dua konsep yang sangat berbeda:

P-Value vs Effect Size: Perbedaan Fundamental
Aspek P_Value Effect_Size
Apa yang diukur? Strength of evidence AGAINST H₀ Magnitude/besarnya perbedaan atau hubungan
Interpretasi Probabilitas hasil jika H₀ benar Seberapa BESAR efeknya
Dipengaruhi oleh sample size? YA - sangat dipengaruhi TIDAK - independen dari sample size
Mengindikasikan praktikalitas? TIDAK YA - langsung praktis
Range nilai 0 sampai 1 Tergantung metric (Cohen’s d, r, dll)

Mengapa P-Value Tidak Mengukur Effect Size

Alasan 1: P-Value Dipengaruhi oleh Sample Size

P-Value adalah fungsi dari: \[\text{P-value} = f(\text{Effect Size}, \text{Sample Size}, \text{Variability})\]

Dengan sample size sangat besar, efek yang sangat kecil bisa menghasilkan p-value yang sangat kecil.

Ilustrasi:

Ilustrasi: P-Value ≠ Effect Size
Skenario Sample_Size Effect_Size P_Value Signifikansi_Statistik Signifikansi_Praktis
A: Small Sample, Large Effect n = 50 Large (d = 0.8) 0.045 Ya (barely) Ya
B: Large Sample, Small Effect n = 10,000 Tiny (d = 0.1) 0.001 Ya (sangat) TIDAK
C: Large Sample, Large Effect n = 10,000 Large (d = 0.8) < 0.0001 Ya (sangat) Ya

Key Insight:

  • Skenario A: Large effect, tapi p-value biasa karena sampel kecil
  • Skenario B: Tiny effect, tapi p-value sangat kecil karena sampel besar - MISLEADING!
  • Skenario C: Large effect DAN sampel besar - ideal

Skenario B adalah perangkap: P-value kecil membuat kita pikir efeknya besar, padahal tidak!

Contoh Konkret dalam Churn Prediction

Misalkan kita punya 2 model:

Model A:

  • Improvement: 1% (dari 20% churn ke 19% churn)
  • Sample size: 100,000 customers
  • P-value: 0.001 (sangat signifikan)

Model B:

  • Improvement: 5% (dari 20% churn ke 15% churn)
  • Sample size: 500 customers
  • P-value: 0.08 (tidak signifikan)

Hanya melihat p-value:

  • Model A terlihat lebih baik (p = 0.001)
  • Model B tidak signifikan (p = 0.08)

Melihat effect size:

  • Model A: Hanya 1% improvement (kecil)
  • Model B: 5% improvement (besar)

Business Impact:

Business Impact: P-Value vs Effect Size
Model P_Value Churn_Reduction Customers_Saved Revenue_Impact Business_Decision
Model A 0.001 (signifikan) 1% 100 $50,000 Statistically significant, tapi ROI rendah
Model B 0.08 (tidak signifikan) 5% 500 $250,000 Not statistically significant, tapi ROI tinggi jika real

Model B jauh lebih valuable ($2.5M vs $500K revenue impact) meskipun p-value tidak signifikan!

Metrics untuk Effect Size

Untuk Churn Prediction Model, gunakan:

1. Accuracy Improvement

  • Baseline accuracy vs New model accuracy
  • Example: 75% → 82% (7 percentage points improvement)

2. Precision/Recall Improvement

  • Lebih relevan untuk imbalanced churn data
  • Example: Precision 60% → 75%

3. AUC (Area Under ROC Curve)

  • Comprehensive measure untuk classifier performance
  • Example: AUC 0.72 → 0.85

4. Business Metrics

  • Churn rate reduction (absolute %)
  • Customers saved
  • Revenue impact
  • ROI dari retention spending
Common Effect Size Metrics
Metric Use_Case Interpretation_Small Interpretation_Medium Interpretation_Large
Cohen’s d Mean differences 0.2 0.5 0.8
R-squared Variance explained 0.01-0.09 0.09-0.25 > 0.25
Odds Ratio Logistic regression 1.5 3.0 > 5.0
Risk Reduction Binary outcomes < 5% 5-10% > 10%
NNT (Number Needed to Treat) Intervention effectiveness > 20 5-20 < 5

Best Practice: Report Both

Proper Statistical Reporting harus include:

  1. P-value (statistical significance)
  2. Effect size (practical significance)
  3. Confidence interval (precision of estimate)
  4. Sample size (context)

Example Good Reporting:

“Model baru mengurangi churn rate dari 20% menjadi 17% (effect size: 3 percentage points atau 15% relative reduction). Improvement ini statistically significant (p = 0.021) dengan 95% confidence interval [2.1%, 3.9%]. Tested on n=5,000 customers.”

This gives complete picture:

  • Statistical significance: YES (p = 0.021)
  • Practical significance: YES (3% absolute reduction is meaningful)
  • Precision: Good (narrow CI)
  • Context: Adequate sample size

Kesimpulan Akhir

Ringkasan Key Concepts

1. P-Value (0.021)

  • Probabilitas mendapat hasil ini jika H₀ benar
  • Strong evidence melawan H₀
  • Bukan probabilitas H₀ benar

2. Keputusan Statistik

  • TOLAK H₀ karena p < α
  • Model baru signifikan lebih baik
  • 95% confidence level

3. Komunikasi untuk Management

  • “Model 97.9% terbukti lebih baik”
  • Focus on business impact
  • Rekomendasi: Deploy dengan phased rollout

4. Risiko Sampel Non-Representative

  • Hasil tidak generalizable ke populasi
  • Costly prediction errors
  • Mitigation: Verify representativeness, stratified analysis, phased rollout

5. P-Value ≠ Effect Size

  • P-value ukur evidence, bukan magnitude
  • Effect size ukur besarnya dampak
  • Both needed untuk complete picture

Rekomendasi Final

Untuk Decision Making:

  1. Selalu report p-value DAN effect size
  2. Verify sample representativeness sebelum generalisasi
  3. Translate statistical findings ke business impact
  4. Use confidence intervals untuk show precision
  5. Context matters: sample size, business relevance

Untuk Implementation:

  1. Deploy model baru (statistical evidence kuat)
  2. Phased rollout untuk verify real-world performance
  3. Monitor business KPIs, bukan hanya statistical metrics
  4. A/B test untuk final validation
  5. Document assumptions dan limitations