Study Cases

Statistical Inferences~ Week 14

Ahmad Rizki Mubarak

Mahasiswa Sains Data ITSB

Case Study 1

One-Sample Z-Test (Statistical Hypotheses)

A digital learning platform claims that the average daily study time of its users is 120 minutes. Based on historical records, the population standard deviation is known to be 15 minutes.

A random sample of 64 users shows an average study time of 116 minutes.

\[ \begin{eqnarray*} \mu_0 &=& 120 \\ \sigma &=& 15 \\ n &=& 64 \\ \bar{x} &=& 116 \end{eqnarray*} \]

Tasks

Formulate the Null Hypothesis (H₀) and Alternative Hypothesis (H₁).
Identify the appropriate statistical test and justify your choice.
Compute the test statistic and p-value using $\alpha = 0.05$.
State the statistical decision.
Interpret the result in a business analytics context.

Answer To Task Study 1

Pendahuluan

Platform pembelajaran digital mengklaim bahwa rata-rata waktu belajar harian penggunanya adalah 120 menit. Berdasarkan catatan historis, standar deviasi populasi diketahui sebesar 15 menit.

Sebuah sampel acak dari 64 pengguna menunjukkan rata-rata waktu belajar 116 menit.

Data yang Diketahui

Informasi Data
Parameter	Nilai	Satuan
μ₀ (Rata-rata Populasi)	120	menit
σ (Standar Deviasi Populasi)	15	menit
n (Ukuran Sampel)	64	pengguna
x̄ (Rata-rata Sampel)	116	menit

1. Perumusan Hipotesis

Hipotesis Nol (H₀): Rata-rata waktu belajar harian pengguna platform adalah 120 menit. \[H_0: \mu = 120\]

Hipotesis Alternatif (H₁): Rata-rata waktu belajar harian pengguna platform tidak sama dengan 120 menit. \[H_1: \mu \neq 120\]

Catatan: Ini adalah uji dua sisi (two-tailed test) karena kita ingin mengetahui apakah rata-rata berbeda dari 120 menit, baik lebih tinggi maupun lebih rendah.

2. Identifikasi Uji Statistik

Uji yang Dipilih: One-Sample Z-Test

Justifikasi Pemilihan Uji:

Justifikasi Pemilihan One-Sample Z-Test
Kriteria	Kondisi	Kesimpulan
Standar Deviasi Populasi	Diketahui (σ = 15)	Memenuhi syarat Z-test
Ukuran Sampel	Besar (n = 64 > 30)	Memenuhi syarat Z-test
Distribusi Data	Dapat diasumsikan normal (n besar)	Teorema Limit Pusat berlaku
Tujuan Pengujian	Membandingkan rata-rata sampel dengan nilai populasi	Sesuai dengan One-Sample Z-test

Kesimpulan: One-Sample Z-Test adalah uji yang tepat karena standar deviasi populasi diketahui dan ukuran sampel cukup besar.

3. Perhitungan Test Statistic dan P-Value

Rumus Test Statistic (Z-score):

$Z = \frac{\bar{x} - \mu_0}{\sigma / \sqrt{n}}$

Langkah Perhitungan:

Step 1: Hitung Standard Error (SE)

$SE = \frac{\sigma}{\sqrt{n}} = \frac{15}{\sqrt{64}} = \frac{15}{8} = 1.875$

Step 2: Hitung Z-statistic

$Z = \frac{\bar{x} - \mu_0}{SE} = \frac{116 - 120}{1.875} = \frac{-4}{1.875} = -2.133$

Step 3: Cari P-value untuk two-tailed test

Karena ini two-tailed test, kita hitung:

$P\text{-value} = 2 \times P(Z < -2.133) = 2 \times 0.0165 = 0.0330$

Step 4: Tentukan Critical Values dengan α = 0.05

$Z_{\alpha/2} = \pm 1.96$

Hasil Perhitungan:

Hasil Perhitungan Uji Z
Komponen	Nilai
Standard Error (SE)	1.8750
Z-statistic	-2.1333
P-value	0.0329
Tingkat Signifikansi (α)	0.0500
Z-critical (batas bawah)	-1.9600
Z-critical (batas atas)	1.9600

Visualisasi Distribusi Normal dan Test Statistic

4. Keputusan Statistik

Kriteria Keputusan:

Jika p-value < α (0.05), maka TOLAK H₀
Jika p-value ≥ α (0.05), maka GAGAL TOLAK H₀

Hasil:

P-value = 0.0329

α = 0.05

Keputusan: TOLAK H₀

Karena p-value < α, kita menolak hipotesis nol.

Ringkasan Keputusan Statistik
Aspek	Hasil
Z-statistic	-2.1333
P-value	0.0329
Tingkat Signifikansi (α)	0.05
Keputusan	TOLAK H₀

5. Interpretasi dalam Konteks Business Analytics

Kesimpulan Statistik:

Berdasarkan hasil uji Z dengan tingkat signifikansi 5%, terdapat bukti statistik yang cukup kuat bahwa rata-rata waktu belajar harian pengguna platform berbeda secara signifikan dari 120 menit yang diklaim.

Rata-rata sampel sebesar 116 menit menunjukkan bahwa waktu belajar aktual cenderung lebih rendah 4 menit dari klaim platform.

Implikasi Bisnis:

Klaim Marketing:

Klaim rata-rata 120 menit perlu direvisi atau dikaji ulang untuk menghindari misrepresentasi.

Engagement Pengguna:

Pengguna aktual menghabiskan waktu lebih sedikit dari ekspektasi, mengindikasikan potensi penurunan engagement atau efektivitas konten.

Rekomendasi Strategis:

Evaluasi kualitas konten pembelajaran
Tingkatkan fitur interaktif untuk meningkatkan durasi belajar
Lakukan survei kepuasan pengguna
Optimalkan UX/UI platform

Risiko jika tidak ditangani:

Penurunan retention rate
Reputasi platform menurun
Revenue dari subscription terpengaruh

Peluang Perbaikan:

Meningkatkan user engagement
Memperbaiki learning outcomes
Meningkatkan customer lifetime value

Rekomendasi Action Items:

Investigasi Lanjutan:
- Analisis segmentasi pengguna berdasarkan waktu belajar
- Identifikasi konten dengan engagement rendah
- Survey alasan pengguna belajar lebih singkat
Perbaikan Product:
- Enhance interaktivitas konten
- Implementasi gamification untuk meningkatkan motivasi
- Personalisasi learning path
Komunikasi Marketing:
- Update klaim berdasarkan data aktual
- Fokus pada kualitas pembelajaran, bukan hanya durasi
- Transparansi dalam komunikasi metrik
Monitoring Berkelanjutan:
- Setup dashboard real-time untuk tracking study time
- Implementasi A/B testing untuk fitur baru
- Regular statistical analysis untuk tren

Kesimpulan Akhir

Analisis statistik dengan One-Sample Z-Test menunjukkan bahwa klaim platform pembelajaran digital tentang rata-rata waktu belajar 120 menit tidak didukung oleh data empiris. Hasil ini memberikan insight penting untuk perbaikan strategi bisnis dan peningkatan performa platform.

Case Study 2

One-Sample T-Test (σ Unknown, Small Sample)

A UX Research Team investigates whether the average task completion time of a new application differs from 10 minutes.

The following data are collected from 10 users:

\[ 9.2,\; 10.5,\; 9.8,\; 10.1,\; 9.6,\; 10.3,\; 9.9,\; 9.7,\; 10.0,\; 9.5 \]

Tasks

Define H₀ and H₁ (two-tailed).
Determine the appropriate hypothesis test.
Calculate the t-statistic and p-value at $\alpha = 0.05$.
Make a statistical decision.
Explain how sample size affects inferential reliability.

Answer To Case Study 2

Pendahuluan

Tim UX Research melakukan investigasi untuk mengetahui apakah rata-rata waktu penyelesaian tugas (task completion time) dari sebuah aplikasi baru berbeda dari 10 menit.

Data dikumpulkan dari 10 pengguna sebagai berikut:

Data yang Diketahui

Data Waktu Penyelesaian Tugas
Pengguna	Waktu Penyelesaian (menit)
User 1	9.2
User 2	10.5
User 3	9.8
User 4	10.1
User 5	9.6
User 6	10.3
User 7	9.9
User 8	9.7
User 9	10.0
User 10	9.5

Statistik Deskriptif

Informasi Data dan Statistik Deskriptif
Parameter	Nilai	Satuan
μ₀ (Nilai yang dibandingkan)	10.0000	menit
n (Ukuran Sampel)	10.0000	pengguna
x̄ (Rata-rata Sampel)	9.8600	menit
s (Standar Deviasi Sampel)	0.3864	menit
Tingkat Signifikansi (α)	0.0500	-

Visualisasi Data

1. Perumusan Hipotesis (H₀ dan H₁)

Hipotesis Nol (H₀): Rata-rata waktu penyelesaian tugas pada aplikasi baru adalah 10 menit.

\[H_0: \mu = 10\]

Hipotesis Alternatif (H₁): Rata-rata waktu penyelesaian tugas pada aplikasi baru tidak sama dengan 10 menit (berbeda dari 10 menit).

\[H_1: \mu \neq 10\]

Catatan: Ini adalah uji dua sisi (two-tailed test) karena kita ingin mengetahui apakah rata-rata berbeda dari 10 menit, baik lebih cepat maupun lebih lambat.

2. Penentuan Uji Hipotesis yang Tepat

Uji yang Dipilih: One-Sample T-Test

Justifikasi Pemilihan Uji:

Alasan memilih T-Test:

Standar Deviasi Populasi (σ) Tidak Diketahui
- Kita tidak memiliki informasi tentang standar deviasi populasi
- Hanya memiliki data sampel untuk menghitung standar deviasi sampel (s)
Ukuran Sampel Kecil (n < 30)
- n = 10 pengguna (sampel kecil)
- Untuk sampel kecil dengan σ tidak diketahui, T-test lebih tepat daripada Z-test
Asumsi Normalitas
- Dengan sampel kecil, kita mengasumsikan data berasal dari populasi yang berdistribusi normal
- Dari histogram dan boxplot, data tidak menunjukkan outlier ekstrem
Tujuan Pengujian
- Membandingkan rata-rata sampel dengan nilai tertentu (μ₀ = 10)
- Sesuai dengan karakteristik One-Sample T-test

Perbandingan dengan Z-Test:

Perbandingan Z-Test vs T-Test
Kriteria	Z_Test	T_Test
Standar Deviasi Populasi	Harus diketahui (σ)	Tidak perlu (gunakan s)
Ukuran Sampel	Biasanya n ≥ 30	Bisa n < 30
Distribusi Sampling	Normal (Z-distribution)	T-distribution (df = n-1)
Keputusan	Tidak memenuhi	Memenuhi semua syarat

Kesimpulan: One-Sample T-Test adalah uji yang tepat karena standar deviasi populasi tidak diketahui dan ukuran sampel kecil (n = 10).

3. Perhitungan T-Statistic dan P-Value

Rumus Test Statistic (T-score):

\[t = \frac{\bar{x} - \mu_0}{s / \sqrt{n}}\]

dimana: - $\bar{x}$ = rata-rata sampel - $\mu_0$ = nilai yang dibandingkan (10 menit) - $s$ = standar deviasi sampel - $n$ = ukuran sampel - $df = n - 1$ = derajat kebebasan

Langkah Perhitungan Manual:

Step 1: Hitung Rata-rata Sampel (x̄)

\[\bar{x} = \frac{\sum x_i}{n} = \frac{9.2 + 10.5 + 9.8 + 10.1 + 9.6 + 10.3 + 9.9 + 9.7 + 10.0 + 9.5}{10}\] \[\bar{x} = \frac{98.6}{10} = 9.86 \text{ menit}\]

Step 2: Hitung Standar Deviasi Sampel (s)

Perhitungan Standar Deviasi:

Perhitungan Detail Standar Deviasi
xᵢ	xᵢ - x̄	(xᵢ - x̄)²
9.2	-0.66	0.4356
10.5	0.64	0.4096
9.8	-0.06	0.0036
10.1	0.24	0.0576
9.6	-0.26	0.0676
10.3	0.44	0.1936
9.9	0.04	0.0016
9.7	-0.16	0.0256
10.0	0.14	0.0196
9.5	-0.36	0.1296

Σ(xᵢ - x̄)² = 1.3440
s² = 1.3440 / 9 = 0.1493
s = √0.1493 = 0.3864

\[s = \sqrt{\frac{\sum(x_i - \bar{x})^2}{n-1}} = \sqrt{\frac{1.324}{9}} = \sqrt{0.1471} = 0.3840 \text{ menit}\]

Step 3: Hitung Standard Error (SE) \[SE = \frac{s}{\sqrt{n}} = \frac{0.3840}{\sqrt{10}} = \frac{0.3840}{3.1623} = 0.1215\]

Step 4: Hitung T-statistic \[t = \frac{\bar{x} - \mu_0}{SE} = \frac{9.86 - 10}{0.1215} = \frac{-0.14}{0.1215} = -1.1527\]

Step 5: Tentukan Derajat Kebebasan (df) \[df = n - 1 = 10 - 1 = 9\]

Step 6: Hitung P-value (Two-tailed test)

Untuk t = -1.1456 dengan df = 9:

P(T < -1.1456) = 0.1407 (dari tabel t atau fungsi R)
P-value = 2 × 0.1407 = 0.2815 (two-tailed)

Untuk two-tailed test dengan t = -1.1527 dan df = 9:

\[P\text{-value} = 2 \times P(T < -1.1527) \approx 2 \times 0.1393 = 0.2786\]

Hasil Perhitungan:

Hasil Perhitungan One-Sample T-Test
Komponen	Nilai
Rata-rata Sampel (x̄)	9.8600
Standar Deviasi Sampel (s)	0.3864
Standard Error (SE)	0.1222
T-statistic	-1.1456
Derajat Kebebasan (df)	9.0000
P-value	0.2815
Tingkat Signifikansi (α)	0.0500
T-critical (±)	2.2622

Confidence Interval (95%):

95% Confidence Interval untuk μ:

[9.5836, 10.1364] menit

Interpretasi:

Kita 95% yakin bahwa rata-rata waktu penyelesaian tugas populasi berada di antara 9.58 dan 10.14 menit.

Perhatikan bahwa nilai μ₀ = 10 menit BERADA DALAM interval ini, yang konsisten dengan keputusan gagal menolak H₀.

Visualisasi Distribusi T dan Test Statistic

4. Keputusan Statistik

Kriteria Keputusan:

Metode 1: P-value Approach - Jika p-value < α (0.05), maka TOLAK H₀ - Jika p-value ≥ α (0.05), maka GAGAL TOLAK H₀

Metode 2: Critical Value Approach - Jika |t-statistic| > t-critical, maka TOLAK H₀ - Jika |t-statistic| ≤ t-critical, maka GAGAL TOLAK H₀

Hasil Keputusan:

Ringkasan Keputusan Statistik
Metode	Hasil
P-value Approach	p-value (0.2815) ≥ α (0.05)
Critical Value Approach	\|t\| (1.1456) ≤ t-critical (2.2622)
Keputusan Akhir	GAGAL TOLAK H₀

Interpretasi Keputusan:

KESIMPULAN

Dengan tingkat signifikansi α = 0.05, kita GAGAL MENOLAK hipotesis nol.

Artinya:

TIDAK CUKUP bukti statistik untuk menyatakan bahwa rata-rata waktu penyelesaian tugas berbeda dari 10 menit.
Data sampel TIDAK menunjukkan perbedaan yang signifikan secara statistik dari nilai 10 menit.
Perbedaan yang teramati (9.86 menit vs 10 menit) dapat dijelaskan sebagai variasi sampling yang wajar (random chance).
Aplikasi baru dapat dikatakan memiliki waktu penyelesaian tugas yang tidak berbeda secara signifikan dari standar 10 menit.

5. Pengaruh Ukuran Sampel terhadap Reliabilitas Inferensi

Konsep Ukuran Sampel dan Reliabilitas

Ukuran sampel (n) memiliki pengaruh yang sangat penting terhadap reliabilitas inferensi statistik. Berikut adalah penjelasan lengkapnya:

A. Pengaruh terhadap Standard Error (SE)

Hubungan Matematis: \[SE = \frac{s}{\sqrt{n}}\]

Standard Error berbanding terbalik dengan akar kuadrat ukuran sampel.

Interpretasi:

Semakin BESAR ukuran sampel (n ↑) → Standard Error semakin KECIL (SE ↓)
SE yang lebih kecil = estimasi yang lebih presisi
Hubungan: Jika n diperbesar 4x, SE akan mengecil menjadi 1/2 (karena √4 = 2)

Contoh dari data kita:

Perbandingan SE untuk Berbagai Ukuran Sampel
n	SE	Perubahan
10	0.1222	Baseline
20	0.0864	↓ 29%
40	0.0611	↓ 50%
100	0.0386	↓ 68%

B. Pengaruh terhadap Confidence Interval

Perbandingan Confidence Interval untuk Berbagai Ukuran Sampel
Ukuran Sampel (n)	Batas Bawah	Batas Atas	Lebar CI (menit)
10	9.584	10.136	0.553
20	9.679	10.041	0.362
30	9.716	10.004	0.289
50	9.750	9.970	0.220
100	9.783	9.937	0.153

Kesimpulan:

Sampel lebih BESAR → CI lebih SEMPIT → Estimasi lebih PRESISI
Sampel lebih KECIL → CI lebih LEBAR → Estimasi kurang presisi
Dengan n=10, CI kita cukup lebar (0.275 menit), menunjukkan ketidakpastian yang cukup besar

C. Pengaruh terhadap Statistical Power

Statistical Power = Probabilitas mendeteksi efek yang benar-benar ada (menolak H₀ ketika H₀ memang salah)

Interpretasi:

Power saat ini (n=10): 0.177 atau 17.7%
Artinya: Hanya ada 17.7% peluang untuk mendeteksi perbedaan yang benar-benar ada
Standar minimum power yang baik: 0.80 (80%)
Untuk mencapai power 0.80 dengan effect size ini, kita butuh sampel lebih besar

Statistical Power untuk Berbagai Ukuran Sampel
Ukuran Sampel	Power	Status
10	0.177	Kurang
20	0.337	Kurang
30	0.483	Kurang
40	0.608	Kurang
50	0.709	Kurang

D. Ringkasan Pengaruh Ukuran Sampel

Dampak Sampel Kecil (n = 10 dalam kasus ini)

Kelemahan:

Standard Error lebih besar → estimasi kurang presisi
Confidence Interval lebih lebar → rentang estimasi terlalu luas
Statistical Power rendah → sulit mendeteksi efek yang ada
Lebih sensitif terhadap outlier
Asumsi normalitas lebih kritis
Estimasi standar deviasi kurang stabil
Nilai t-critical lebih besar → lebih sulit menolak H₀

Kelebihan:

Lebih cepat dan murah untuk mengumpulkan data
Cocok untuk studi eksplorasi awal atau pilot test
Fleksibel untuk situasi dengan keterbatasan resources

Dampak Sampel Besar (n ≥ 30):

Kelebihan:

Standard Error lebih kecil (lebih presisi)
Confidence Interval lebih sempit (estimasi lebih akurat)
Statistical Power lebih tinggi (lebih sensitif mendeteksi efek)
Lebih robust terhadap pelanggaran asumsi normalitas
Estimasi parameter lebih stabil dan reliable

Kekurangan:

Membutuhkan biaya dan waktu lebih banyak
Bisa mendeteksi perbedaan yang secara praktis tidak bermakna

E. Rekomendasi untuk UX Research

Untuk Kasus Saat Ini (n = 10):

Hasil tidak signifikan mungkin karena sampel terlalu kecil, bukan karena tidak ada perbedaan
Tingkatkan sampel menjadi minimal 30-50 pengguna untuk reliabilitas lebih baik
Gunakan hasil ini sebagai studi pilot untuk merencanakan penelitian lebih besar

Best Practices Ukuran Sampel:

5-10 pengguna: Studi eksplorasi, pilot test (Power < 50%)
15-30 pengguna: Usability testing standar (Power 50-70%)
30-50 pengguna: A/B testing, comparative studies (Power 70-85%)
50+ pengguna: Large-scale validation, benchmarking (Power > 85%)

Kesimpulan Akhir

Ringkasan Hasil

Ukuran sampel: 10 pengguna
Rata-rata: 9.86 menit (SD = 0.38)
T-statistic: -1.1527, P-value: 0.2786
95% CI: [9.58, 10.14]
Keputusan: GAGAL TOLAK H₀

Tidak ada bukti statistik yang cukup untuk menyatakan bahwa rata-rata waktu penyelesaian tugas berbeda dari 10 menit.

Interpretasi Praktis

Aplikasi memenuhi target 10 menit, namun perlu diingat bahwa dengan sampel kecil (n=10), statistical power rendah sehingga kemungkinan kita tidak dapat mendeteksi perbedaan kecil yang mungkin ada.

User experience tampak konsisten dengan standar deviasi yang relatif kecil (0.38 menit), menunjukkan pengalaman yang cukup konsisten antar pengguna.

Rekomendasi

Jangka Pendek:

Lanjutkan aplikasi ke tahap berikutnya (tidak ada indikasi masalah serius)
Monitor waktu penyelesaian tugas pada deployment yang lebih luas
Kumpulkan feedback kualitatif dari pengguna untuk insight tambahan

Jangka Menengah:

Lakukan testing dengan sampel lebih besar (30-50 pengguna) untuk validasi lebih kuat
Analisis segmentasi berdasarkan user types atau expertise levels
Identifikasi bottlenecks atau friction points dalam task flow

Jangka Panjang:

Setup continuous monitoring melalui analytics
A/B testing untuk optimisasi lebih lanjut
Benchmark dengan kompetitor atau industry standards

Key Takeaways

Sample size matters: Hasil berdasarkan sampel kecil (n=10) dengan power terbatas
Tidak ada evidence of problem, tapi juga belum conclusive evidence of excellence
Statistical non-significance bukan bukti bahwa tidak ada efek
Context matters: 10 menit mungkin acceptable, tapi apakah optimal?

Next Steps

Collect more data dengan sample size lebih besar untuk confidence lebih tinggi
Qualitative research untuk memahami “why” di balik angka
Task analysis untuk identifikasi optimization opportunities
Competitive benchmarking untuk context yang lebih luas
Setup continuous UX metrics monitoring untuk improvement berkelanjutan

Case Study 3

Two-Sample T-Test (A/B Testing)

A product analytics team conducts an A/B test to compare the average session duration (minutes) between two versions of a landing page.

Version	Sample Size (n)	Mean	Standard Deviation
A	25	4.8	1.2
B	25	5.4	1.4

Tasks

Formulate the null and alternative hypotheses.
Identify the type of t-test required.
Compute the test statistic and p-value.
Draw a statistical conclusion at $\alpha = 0.05$.
Interpret the result for product decision-making.

Answer To Case Study 3

Pendahuluan

Tim Product Analytics melakukan A/B test untuk membandingkan rata-rata durasi sesi (session duration) dalam satuan menit antara dua versi landing page.

Data yang Diketahui

Ringkasan Data A/B Test Landing Page
Versi	Ukuran Sampel (n)	Rata-rata (menit)	Standar Deviasi
A (Control)	25	4.8	1.2
B (Treatment)	25	5.4	1.4

Visualisasi Perbandingan

1. Perumusan Hipotesis

Hipotesis Nol (H₀):

Tidak ada perbedaan rata-rata durasi sesi antara Versi A dan Versi B.

\[H_0: \mu_A = \mu_B\]

atau dapat ditulis sebagai:

\[H_0: \mu_A - \mu_B = 0\]

Hipotesis Alternatif (H₁):

Ada perbedaan rata-rata durasi sesi antara Versi A dan Versi B.

\[H_1: \mu_A \neq \mu_B\]

atau dapat ditulis sebagai:

\[H_1: \mu_A - \mu_B \neq 0\]

Catatan: Ini adalah two-tailed test karena kita ingin mengetahui apakah ada perbedaan (baik lebih tinggi atau lebih rendah), bukan menguji apakah satu versi lebih baik secara spesifik.

2. Identifikasi Jenis T-Test

Jenis T-Test yang Digunakan: Independent Two-Sample T-Test (Equal Variance Assumed)

Justifikasi Pemilihan:

1. Dua Kelompok Independen

Versi A dan Versi B adalah dua kelompok yang berbeda dan independen
Pengguna yang melihat Versi A berbeda dengan pengguna yang melihat Versi B
Tidak ada pengukuran berulang (paired) pada subjek yang sama

2. Standar Deviasi Populasi Tidak Diketahui

Kita hanya memiliki standar deviasi sampel (s_A = 1.2, s_B = 1.4)
Standar deviasi populasi (σ) tidak diketahui
Oleh karena itu, kita menggunakan T-test bukan Z-test

3. Ukuran Sampel Relatif Kecil

n_A = 25 dan n_B = 25 (keduanya < 30)
Untuk sampel kecil dengan σ tidak diketahui, T-test adalah pilihan yang tepat

4. Asumsi Equal Variance (Homogeneity of Variance)

Standar deviasi kedua kelompok cukup mirip (1.2 vs 1.4)
Rasio varians: (1.4)²/(1.2)² = 1.96/1.44 = 1.36 (< 2, dapat dianggap equal)
Kita menggunakan pooled variance untuk perhitungan

Pemeriksaan Asumsi Equal Variance
Aspek	Nilai
Standar Deviasi A	1.2
Standar Deviasi B	1.4
Varians A (s²_A)	1.44
Varians B (s²_B)	1.96
Rasio Varians (s²_B / s²_A)	1.36
Kesimpulan	Equal variance dapat diasumsikan

Alternatif Jenis T-Test:

Perbandingan Jenis T-Test
Jenis_Test	Kondisi	Sesuai_Kasus
Independent T-Test (Equal Var)	Dua kelompok independen, σ tidak diketahui, varians sama	YA
Independent T-Test (Unequal Var / Welch)	Dua kelompok independen, σ tidak diketahui, varians berbeda	Tidak (varians cukup sama)
Paired T-Test	Pengukuran berulang pada subjek yang sama	Tidak (kelompok berbeda)
One-Sample T-Test	Satu kelompok dibandingkan dengan nilai tertentu	Tidak (ada dua kelompok)

Kesimpulan: Independent Two-Sample T-Test dengan asumsi equal variance adalah uji yang paling tepat untuk kasus A/B testing ini.

3. Perhitungan Test Statistic dan P-Value

Langkah Perhitungan Manual:

Step 1: Hitung Pooled Standard Deviation (s_p)

Karena kita mengasumsikan equal variance, kita menggabungkan estimasi varians dari kedua kelompok:

\[s_p = \sqrt{\frac{(n_A - 1)s_A^2 + (n_B - 1)s_B^2}{n_A + n_B - 2}}\]

Substitusi nilai:

\[s_p = \sqrt{\frac{(25 - 1)(1.2)^2 + (25 - 1)(1.4)^2}{25 + 25 - 2}}\]

\[s_p = \sqrt{\frac{24 \times 1.44 + 24 \times 1.96}{48}}\]

\[s_p = \sqrt{\frac{34.56 + 47.04}{48}}\]

\[s_p = \sqrt{\frac{81.6}{48}} = \sqrt{1.7} = 1.304\]

Step 2: Hitung Standard Error (SE)

\[SE = s_p \times \sqrt{\frac{1}{n_A} + \frac{1}{n_B}}\]

\[SE = 1.304 \times \sqrt{\frac{1}{25} + \frac{1}{25}}\]

\[SE = 1.304 \times \sqrt{0.04 + 0.04}\]

\[SE = 1.304 \times \sqrt{0.08} = 1.304 \times 0.283 = 0.369\]

Step 3: Hitung T-statistic

\[t = \frac{(\bar{x}_B - \bar{x}_A)}{SE} = \frac{\text{Mean}_B - \text{Mean}_A}{SE}\]

\[t = \frac{5.4 - 4.8}{0.369} = \frac{0.6}{0.369} = 1.626\]

Step 4: Tentukan Derajat Kebebasan (df)

\[df = n_A + n_B - 2 = 25 + 25 - 2 = 48\]

Step 5: Cari Critical Value

Untuk two-tailed test dengan α = 0.05 dan df = 48, dari tabel t atau menggunakan R:

\[t_{critical} = t_{0.025, 48} = \pm 2.011\]

Step 6: Hitung P-value

Untuk two-tailed test dengan t = 1.626 dan df = 48:

Menggunakan tabel t atau fungsi R, kita dapatkan:

P(T > 1.626) ≈ 0.0552
P-value = 2 × 0.0552 = 0.1104 (two-tailed)

Ringkasan Hasil Perhitungan:

Hasil Perhitungan Two-Sample T-Test
Komponen	Nilai
Selisih Rata-rata (x̄_B - x̄_A)	0.6 menit
Pooled Std. Deviation (s_p)	1.3038
Standard Error (SE)	0.3688
T-statistic	1.6270
Derajat Kebebasan (df)	48
T-critical (±)	2.0106
P-value	0.1103
Tingkat Signifikansi (α)	0.05

Confidence Interval untuk Selisih Rata-rata:

Confidence Interval 95% untuk (μ_B - μ_A):

\[CI = (\bar{x}_B - \bar{x}_A) \pm t_{critical} \times SE\]

\[CI = 0.6 \pm 2.011 \times 0.369\]

\[CI = 0.6 \pm 0.742\]

\[CI = [-0.142, 1.342]\]

Interpretasi CI: Dengan tingkat kepercayaan 95%, selisih rata-rata durasi sesi antara Versi B dan A berada di antara -0.142 menit hingga 1.342 menit. Perhatikan bahwa interval ini mencakup nilai 0, yang mengindikasikan tidak ada perbedaan yang signifikan.

Visualisasi Distribusi T dan Test Statistic

4. Kesimpulan Statistik

Kriteria Keputusan:

Ada dua metode untuk membuat keputusan statistik:

Metode 1: P-value Approach

Jika p-value < α (0.05) → TOLAK H₀
Jika p-value ≥ α (0.05) → GAGAL TOLAK H₀

Metode 2: Critical Value Approach

Jika |t-statistic| > t-critical → TOLAK H₀
Jika |t-statistic| ≤ t-critical → GAGAL TOLAK H₀

Evaluasi Hasil:

Evaluasi Keputusan dari Berbagai Metode
Metode	Kriteria	Hasil	Keputusan
P-value Approach	p-value (0.1103) vs α (0.05)	0.1103 ≥ 0.05	Gagal Tolak H₀
Critical Value Approach	\|t\| (1.6270) vs t-crit (2.0106)	1.6270 < 2.0106	Gagal Tolak H₀
Confidence Interval	Apakah CI mencakup 0?	Ya, [−0.142, 1.342] mencakup 0	Gagal Tolak H₀

Keputusan Akhir:

GAGAL MENOLAK H₀

Berdasarkan hasil analisis dengan tingkat signifikansi α = 0.05:

P-value (0.1104) > α (0.05) → Gagal menolak H₀
|t-statistic| (1.626) < t-critical (2.011) → Gagal menolak H₀
Confidence Interval mencakup 0 → Tidak ada perbedaan signifikan

Interpretasi Statistik:

Dengan tingkat signifikansi 5%, TIDAK ada bukti statistik yang cukup untuk menyatakan bahwa ada perbedaan rata-rata durasi sesi antara Versi A dan Versi B.

Penjelasan Detail:

Walaupun Versi B memiliki rata-rata durasi sesi yang lebih tinggi (5.4 menit) dibandingkan Versi A (4.8 menit), selisih sebesar 0.6 menit ini tidak cukup signifikan secara statistik.
Perbedaan yang teramati dapat dijelaskan sebagai variasi sampling yang wajar (random variation) dan bukan karena efek nyata dari perubahan versi landing page.
P-value sebesar 0.1104 berarti ada sekitar 11% probabilitas untuk mendapatkan perbedaan seextrem ini (atau lebih) jika sebenarnya tidak ada perbedaan nyata antara kedua versi.

5. Interpretasi untuk Product Decision-Making

Konteks Bisnis dan Keputusan Produk

Hasil analisis statistik ini memiliki implikasi penting untuk pengambilan keputusan produk dalam konteks A/B testing landing page.

A. Temuan Utama

Hasil Statistik:

Selisih rata-rata: \[+0.6 menit (12.5\% peningkatan)\]
P-value: \[0.1104 (tidak signifikan pada α = 0.05)\]
Confidence Interval: \[[-0.142, 1.342] menit\]

Interpretasi Bisnis:

Meskipun Versi B menunjukkan durasi sesi yang lebih tinggi secara numerik, hasil ini tidak signifikan secara statistik. Artinya, kita tidak dapat dengan yakin mengatakan bahwa Versi B benar-benar lebih baik dari Versi A.

B. Implikasi untuk Keputusan Produk

1. Rekomendasi Jangka Pendek:

TIDAK Disarankan untuk Deploy Versi B Saat Ini

Alasan:

Tidak ada bukti statistik yang kuat bahwa Versi B lebih baik
Risiko: Mengimplementasikan perubahan yang mungkin tidak memberikan dampak nyata
Cost vs Benefit: Biaya implementasi mungkin tidak sebanding dengan hasil yang tidak terbukti

2. Analisis Lebih Lanjut Diperlukan:

A. Pertimbangan Ukuran Sampel (Statistical Power)

Analisis Statistical Power
Aspek	Nilai
Effect Size (Cohen’s d)	0.460
Interpretasi Effect Size	Small to Medium effect
Power Estimasi (n=25 per grup)	~50-60%
Sampel yang Dibutuhkan (Power 80%)	~50-60 per grup

Rekomendasi:

Tingkatkan ukuran sampel menjadi minimal 50-60 pengguna per versi
Dengan sampel lebih besar, kita akan memiliki power yang cukup untuk mendeteksi perbedaan jika memang ada

B. Pertimbangan Practical Significance

Analisis Practical Significance
Metrik	Versi_A	Versi_B	Selisih
Peningkatan Absolut	4.8 menit	5.4 menit	+0.6 menit
Peningkatan Relatif	Baseline (100%)	112.5%	+12.5%
Dampak per 1000 users	4,800 menit total	5,400 menit total	+600 menit
Nilai Bisnis Potensial	Baseline	+600 menit (12.5%)	Perlu evaluasi ROI

Pertanyaan Kunci:

Apakah peningkatan 0.6 menit (atau 36 detik) bermakna untuk bisnis?
Apakah biaya implementasi Versi B sepadan dengan peningkatan engagement ini?
Apa tujuan bisnis utama: engagement, konversi, atau revenue?

C. Rekomendasi Strategis

Opsi 1: Lanjutkan Testing dengan Sampel Lebih Besar

Action Items:

Perbesar ukuran sampel menjadi 50-60 pengguna per versi
Lanjutkan A/B test selama periode yang lebih panjang
Monitor metrik tambahan (bounce rate, conversion rate, revenue)

Keuntungan:

Statistical power yang lebih baik
Kesimpulan yang lebih reliable
Dapat mendeteksi efek yang lebih kecil

Opsi 2: Analisis Segmentasi

Action Items:

Analisis performance per segmen user (new vs returning, device type, traffic source)
Mungkin Versi B lebih baik untuk segmen tertentu
Implementasi personalisasi berdasarkan segmen

Contoh Hipotesis:

Versi B mungkin lebih baik untuk mobile users
Versi B mungkin lebih baik untuk new visitors
Versi B mungkin lebih efektif untuk traffic dari social media

Opsi 3: Test Variasi Lain

Action Items:

Jika perbedaan tidak signifikan, pertimbangkan untuk test variasi yang lebih bold
Kombinasikan elemen terbaik dari A dan B
Coba pendekatan yang berbeda secara fundamental

Opsi 4: Ship Anyway dengan Monitoring Ketat

Kondisi:

Jika biaya implementasi sangat rendah dan tren menunjukkan improvement:

Action Items:

Deploy Versi B dengan monitoring real-time
Siapkan rollback plan
Monitor metrik bisnis utama (conversion, revenue)
Evaluasi setelah 2-4 minggu

Risk Mitigation:

Gradual rollout (10% → 25% → 50% → 100%)
Monitor negative metrics (error rate, page load time)
Ready to rollback jika ada indikasi negatif

D. Metrik Tambahan yang Perlu Dipertimbangkan

Durasi sesi bukan satu-satunya metrik sukses. Pertimbangkan:

Metrik Tambahan untuk Evaluasi Komprehensif
Kategori_Metrik	Metrik	Mengapa_Penting
Engagement	Bounce Rate	Durasi tinggi bisa karena user bingung
Engagement	Pages per Session	Engagement yang lebih komprehensif
Business	Conversion Rate	Tujuan bisnis utama
Business	Revenue per User	ROI langsung dari perubahan
Technical	Page Load Time	Performance impact dari perubahan
User Experience	User Satisfaction Score	Kepuasan user secara keseluruhan

E. Checklist Keputusan Akhir

Sebelum memutuskan, pastikan sudah menjawab pertanyaan berikut:

Aspek Statistik:

Apakah ukuran sampel sudah cukup? (Saat ini: Belum optimal)
Apakah asumsi statistik terpenuhi? (Ya)
Apakah ada confounding factors? (Perlu dicek)

Aspek Bisnis:

Berapa biaya implementasi Versi B?
Berapa estimasi value dari 0.6 menit tambahan?
Apakah ada trade-off (e.g., conversion rate turun)?
Apakah selaras dengan strategi produk jangka panjang?

Aspek Teknis:

Apakah Versi B mempengaruhi performance?
Apakah ada technical debt yang ditimbulkan?
Seberapa mudah untuk rollback?

Aspek User:

Apa feedback kualitatif dari user?
Apakah ada segmen yang dirugikan?
Apakah improvement konsisten across devices?

F. Kesimpulan dan Rekomendasi Akhir

Rekomendasi Utama:

Berdasarkan hasil analisis statistik (p-value = 0.1104 > 0.05), TIDAK disarankan untuk langsung mengimplementasikan Versi B tanpa pengujian lebih lanjut.

Langkah Selanjutnya:

Tingkatkan Ukuran Sampel → Target 50-60 users per versi untuk power analysis yang lebih baik
Perpanjang Durasi Test → Jalankan test minimal 2-3 minggu untuk menangkap variasi temporal
Tambahkan Metrik Sekunder → Monitor conversion rate, bounce rate, dan revenue impact
Lakukan Analisis Segmentasi → Identifikasi apakah ada segmen tertentu yang benefit dari Versi B
Evaluasi ROI → Hitung apakah improvement 12.5% sebanding dengan biaya implementasi

Warning:

Jangan terjebak dalam “ship it because numbers look better”. Statistical significance exists untuk alasan yang baik - untuk melindungi kita dari keputusan berdasarkan random noise.

Perspektif Bisnis:

Dalam A/B testing, failure is not a failure. Hasil “tidak signifikan” adalah insight yang berharga:

Perubahan yang ditest mungkin tidak cukup impactful
Bisa fokus resources ke eksperimen lain yang lebih promising
Learn dan iterate untuk versi berikutnya

Ringkasan Hasil Analisis

Hasil Two-Sample T-Test

Data:

Versi A (n=25): Mean = 4.8 menit, SD = 1.2
Versi B (n=25): Mean = 5.4 menit, SD = 1.4
Selisih rata-rata: 0.6 menit (12.5% peningkatan)

Statistik:

T-statistic: 1.626
Degrees of freedom: 48
P-value: 0.1104
95% CI untuk selisih: [-0.142, 1.342]
Tingkat signifikansi: 0.05

Keputusan: GAGAL TOLAK H₀ - Tidak ada bukti statistik yang cukup untuk menyatakan bahwa Versi B berbeda secara signifikan dari Versi A.

Interpretasi Bisnis Final

Kesimpulan Utama:

Meskipun Versi B menunjukkan peningkatan durasi sesi sebesar 12.5% (dari 4.8 ke 5.4 menit), peningkatan ini tidak signifikan secara statistik (p = 0.1104 > 0.05).

Rekomendasi:

JANGAN deploy Versi B saat ini tanpa pengujian lebih lanjut
Tingkatkan ukuran sampel menjadi 50-60 pengguna per versi
Perpanjang durasi test untuk mendapatkan data lebih banyak
Monitor metrik tambahan (conversion rate, bounce rate, revenue)
Lakukan analisis segmentasi untuk identifikasi subgroup yang benefit

Next Steps:

Design ulang test dengan power analysis yang proper
Pertimbangkan A/B/n testing dengan multiple variants
Evaluate apakah 0.6 menit improvement worth the investment
Consider testing more dramatic changes jika current approach tidak conclusive

Lessons Learned:

Sample size matters - n=25 terlalu kecil untuk detect small effects
Statistical significance ≠ practical significance
Business context harus guide statistical decisions
Negative results are still valuable insights

Case Study 4

Chi-Square Test of Independence

An e-commerce company examines whether device type is associated with payment method preference.

Device / Payment	E-Wallet	Credit Card	Cash on Delivery
Mobile	120	80	50
Desktop	60	90	40

Tasks

State the Null Hypothesis (H₀) and Alternative Hypothesis (H₁).
Identify the appropriate statistical test.
Compute the Chi-Square statistic (χ²).
Determine the p-value at $\alpha = 0.05$.
Interpret the results in terms of digital payment strategy.

Answer To Case Study 4

Pendahuluan

Sebuah perusahaan e-commerce melakukan analisis untuk mengetahui apakah ada hubungan (asosiasi) antara tipe perangkat (device type) yang digunakan pelanggan dengan preferensi metode pembayaran mereka.

Data yang Diketahui

Tabel Kontingensi (Contingency Table)

Tabel Kontingensi: Device Type vs Payment Method
	E-Wallet	Credit Card	Cash on Delivery	Sum
Mobile	120	80	50	250
Desktop	60	90	40	190
Sum	180	170	90	440

Keterangan: - Baris: Tipe Perangkat (Mobile, Desktop) - Kolom: Metode Pembayaran (E-Wallet, Credit Card, Cash on Delivery) - Sel: Jumlah transaksi untuk kombinasi device dan payment method

Statistik Deskriptif

Statistik Deskriptif
Kategori	Jumlah	Persentase
Total Transaksi	440	100%
Transaksi Mobile	250	56.8%
Transaksi Desktop	190	43.2%
Pembayaran E-Wallet	180	40.9%
Pembayaran Credit Card	170	38.6%
Pembayaran Cash on Delivery	90	20.5%

Visualisasi Data

1. Perumusan Hipotesis

Hipotesis Nol (H₀):

Tidak ada hubungan (asosiasi) antara tipe perangkat (device type) dengan metode pembayaran yang dipilih. Kedua variabel adalah independen.

\[H_0: \text{Device Type dan Payment Method adalah independen}\]

Atau secara matematis:

\[H_0: P(Payment | Mobile) = P(Payment | Desktop)\]

Artinya: Proporsi penggunaan setiap metode pembayaran adalah sama, tidak peduli apakah transaksi dilakukan dari Mobile atau Desktop.

Hipotesis Alternatif (H₁):

Ada hubungan (asosiasi) antara tipe perangkat dengan metode pembayaran yang dipilih. Kedua variabel tidak independen (ada ketergantungan).

\[H_1: \text{Device Type dan Payment Method TIDAK independen}\]

Atau:

\[H_1: P(Payment | Mobile) \neq P(Payment | Desktop)\]

Artinya: Proporsi penggunaan metode pembayaran berbeda antara pengguna Mobile dan Desktop.

2. Identifikasi Uji Statistik yang Tepat

Jenis Uji yang Digunakan: Chi-Square Test of Independence (χ² Test)

Justifikasi Pemilihan:

1. Tipe Data: Categorical (Nominal)

Kedua variabel dalam analisis ini adalah data kategorikal:

Device Type: Mobile, Desktop (2 kategori)
Payment Method: E-Wallet, Credit Card, Cash on Delivery (3 kategori)

2. Tujuan Analisis: Menguji Independensi

Kita ingin mengetahui apakah ada hubungan/asosiasi antara dua variabel kategorikal. Chi-Square Test of Independence dirancang khusus untuk tujuan ini.

3. Data dalam Bentuk Tabel Kontingensi

Data disajikan dalam bentuk tabel kontingensi (cross-tabulation) yang menunjukkan frekuensi observasi untuk setiap kombinasi kategori.

4. Asumsi Chi-Square Test:

Pemeriksaan Asumsi Chi-Square Test
Asumsi	Status
Data adalah frekuensi/count	Terpenuhi (data count transaksi)
Observasi independen	Terpenuhi (setiap transaksi independen)
Expected frequency ≥ 5	Terpenuhi (min expected = 38.86)
Ukuran sampel cukup besar	Terpenuhi (n = 440)

Expected Frequencies (Frekuensi yang Diharapkan)

Jika kedua variabel independen, frekuensi yang diharapkan dihitung sebagai:

\[E_{ij} = \frac{(\text{Total Baris}_i) \times (\text{Total Kolom}_j)}{\text{Total Keseluruhan}}\]

Tabel Frekuensi yang Diharapkan (Expected Frequencies)
	E-Wallet	Credit Card	Cash on Delivery	Sum
Mobile	102.27	96.59	51.14	250
Desktop	77.73	73.41	38.86	190
Sum	180.00	170.00	90.00	440

Perbandingan Observed vs Expected

Perbandingan Observed vs Expected Frequencies
Kategori	Observed	Expected	Difference
Mobile + E-Wallet	120	102.27	17.73
Mobile + Credit Card	80	96.59	-16.59
Mobile + COD	50	51.14	-1.14
Desktop + E-Wallet	60	77.73	-17.73
Desktop + Credit Card	90	73.41	16.59
Desktop + COD	40	38.86	1.14

3. Perhitungan Chi-Square Statistic (χ²)

Rumus Chi-Square Statistic:

\[\chi^2 = \sum_{i=1}^{r} \sum_{j=1}^{c} \frac{(O_{ij} - E_{ij})^2}{E_{ij}}\]

dimana:

$O_{ij}$ = Observed frequency (frekuensi observasi) pada sel (i,j)
$E_{ij}$ = Expected frequency (frekuensi yang diharapkan) pada sel (i,j)
$r$ = jumlah baris (2 device types)
$c$ = jumlah kolom (3 payment methods)

Langkah Perhitungan Manual:

Step 1: Hitung Expected Frequency untuk setiap sel

Untuk Mobile + E-Wallet: \[E_{11} = \frac{250 \times 180}{440} = \frac{45000}{440} = 102.27\]

Untuk Mobile + Credit Card: \[E_{12} = \frac{250 \times 170}{440} = \frac{42500}{440} = 96.59\]

Untuk Mobile + Cash on Delivery: \[E_{13} = \frac{250 \times 90}{440} = \frac{22500}{440} = 51.14\]

Untuk Desktop + E-Wallet: \[E_{21} = \frac{190 \times 180}{440} = \frac{34200}{440} = 77.73\]

Untuk Desktop + Credit Card: \[E_{22} = \frac{190 \times 170}{440} = \frac{32300}{440} = 73.41\]

Untuk Desktop + Cash on Delivery: \[E_{23} = \frac{190 \times 90}{440} = \frac{17100}{440} = 38.86\]

Step 2: Hitung kontribusi Chi-Square untuk setiap sel

\[\frac{(O_{ij} - E_{ij})^2}{E_{ij}}\]

Untuk Mobile + E-Wallet: \[\frac{(120 - 102.27)^2}{102.27} = \frac{(17.73)^2}{102.27} = \frac{314.35}{102.27} = 3.074\]

Untuk Mobile + Credit Card: \[\frac{(80 - 96.59)^2}{96.59} = \frac{(-16.59)^2}{96.59} = \frac{275.23}{96.59} = 2.849\]

Untuk Mobile + Cash on Delivery: \[\frac{(50 - 51.14)^2}{51.14} = \frac{(-1.14)^2}{51.14} = \frac{1.30}{51.14} = 0.025\]

Untuk Desktop + E-Wallet: \[\frac{(60 - 77.73)^2}{77.73} = \frac{(-17.73)^2}{77.73} = \frac{314.35}{77.73} = 4.044\]

Untuk Desktop + Credit Card: \[\frac{(90 - 73.41)^2}{73.41} = \frac{(16.59)^2}{73.41} = \frac{275.23}{73.41} = 3.749\]

Untuk Desktop + Cash on Delivery: \[\frac{(40 - 38.86)^2}{38.86} = \frac{(1.14)^2}{38.86} = \frac{1.30}{38.86} = 0.033\]

Step 3: Jumlahkan semua kontribusi

\[\chi^2 = 3.074 + 2.849 + 0.025 + 4.044 + 3.749 + 0.033 = 13.774\]

Tabel Kontribusi Chi-Square per Sel

Kontribusi Chi-Square per Sel
Kategori	Observed	Expected	Contribution
Mobile + E-Wallet	120	102.27	3.073
Mobile + Credit Card	80	96.59	2.850
Mobile + COD	50	51.14	0.025
Desktop + E-Wallet	60	77.73	4.043
Desktop + Credit Card	90	73.41	3.750
Desktop + COD	40	38.86	0.033

Derajat Kebebasan (Degrees of Freedom):

\[df = (r - 1) \times (c - 1) = (2 - 1) \times (3 - 1) = 1 \times 2 = 2\]

dimana:

r = jumlah baris = 2
c = jumlah kolom = 3

Hasil Perhitungan Chi-Square:

Hasil Perhitungan Chi-Square Test
Komponen	Nilai
Chi-Square Statistic (χ²)	13.7736
Derajat Kebebasan (df)	2
Chi-Square Critical (α = 0.05)	5.9915
Tingkat Signifikansi (α)	0.05

4. Penentuan P-Value

Perhitungan P-Value:

P-value adalah probabilitas mendapatkan nilai Chi-Square sebesar atau lebih ekstrem dari yang diamati, dengan asumsi H₀ benar.

Dengan χ² = 13.774 dan df = 2, menggunakan distribusi Chi-Square:

P-value = P(χ² ≥ 13.774 | df = 2)

Dari tabel Chi-Square atau fungsi R:

P-value = 0.0010

Interpretasi P-Value:

P-value sebesar 0.0010 berarti:

Hanya ada 0.1% probabilitas (1 dalam 1000) untuk mendapatkan perbedaan seextrem ini atau lebih, jika sebenarnya tidak ada hubungan antara device type dan payment method.
Ini adalah probabilitas yang sangat kecil, mengindikasikan bahwa hasil yang kita amati kemungkinan besar bukan karena kebetulan.

Kriteria Keputusan:

Metode 1: P-value Approach

Jika p-value < α (0.05) → TOLAK H₀
Jika p-value ≥ α (0.05) → GAGAL TOLAK H₀

Metode 2: Critical Value Approach

Jika χ² > χ²_critical → TOLAK H₀
Jika χ² ≤ χ²_critical → GAGAL TOLAK H₀

Evaluasi Hasil:

Evaluasi Keputusan Statistik
Metode	Kriteria	Hasil	Keputusan
P-value Approach	p-value (0.0010) vs α (0.05)	0.0010 < 0.05	TOLAK H₀
Critical Value Approach	χ² (13.7736) vs χ²_crit (5.9915)	13.7736 > 5.9915	TOLAK H₀

Visualisasi Distribusi Chi-Square

Kesimpulan Statistik:

TOLAK H₀

Dengan tingkat signifikansi α = 0.05:

P-value (0.0010) < α (0.05) → Sangat signifikan
χ² (13.774) > χ²_critical (5.991) → Jatuh di area penolakan

Interpretasi:

Ada bukti statistik yang sangat kuat bahwa tipe perangkat (device type) dan metode pembayaran TIDAK independen. Artinya, ada hubungan yang signifikan antara perangkat yang digunakan dengan metode pembayaran yang dipilih oleh pelanggan.

5. Interpretasi untuk Digital Payment Strategy

Konteks Bisnis dan Strategi Pembayaran Digital

Hasil Chi-Square Test menunjukkan adanya asosiasi signifikan antara device type dan payment preference. Mari kita analisis lebih dalam untuk implikasi strategi bisnis.

A. Analisis Pola Pembayaran

1. Analisis Proporsi per Device

Proporsi Metode Pembayaran per Device Type
Payment_Method	Mobile	Desktop	Selisih
E-Wallet	48.0%	31.6%	16.4%
Credit Card	32.0%	47.4%	-15.4%
Cash on Delivery	20.0%	21.1%	-1.1%

Temuan Kunci:

Mobile Users:

E-Wallet dominan (48%) - hampir setengah pengguna mobile memilih e-wallet
Credit Card (32%) - posisi kedua
Cash on Delivery (20%) - paling sedikit

Desktop Users:

Credit Card dominan (47.4%) - hampir setengah pengguna desktop memilih credit card
E-Wallet (31.6%) - posisi kedua
Cash on Delivery (21.1%) - paling sedikit

2. Standardized Residuals Analysis

Standardized residuals menunjukkan seberapa jauh observed frequency dari expected frequency dalam unit standar deviasi.

Standardized Residuals Analysis (|residual| > 2 = signifikan)
Kombinasi	Std_Residuals	Interpretasi
Mobile + E-Wallet	1.753	Tidak signifikan
Mobile + Credit Card	-1.688	Tidak signifikan
Mobile + COD	-0.159	Tidak signifikan
Desktop + E-Wallet	-2.011	Signifikan negatif
Desktop + Credit Card	1.936	Tidak signifikan
Desktop + COD	0.182	Tidak signifikan

Insight dari Residuals:

Standardized residuals > +2 atau < -2 mengindikasikan perbedaan yang signifikan dari yang diharapkan:

Positif: Frekuensi lebih tinggi dari yang diharapkan (preferensi kuat)
Negatif: Frekuensi lebih rendah dari yang diharapkan (preferensi lemah)

B. Implikasi untuk Strategi Digital Payment

1. Device-Specific Payment Optimization

Untuk Platform Mobile:

Prioritaskan E-Wallet Integration

E-Wallet adalah metode pembayaran paling populer di mobile (48%)
Overperformance signifikan dibanding expected frequency
User mobile lebih nyaman dengan pembayaran cepat dan seamless

Action Items:

Letakkan opsi E-Wallet di posisi teratas dalam payment selection
Optimalkan UI/UX untuk e-wallet checkout (one-tap payment)
Integrasi dengan e-wallet populer (GoPay, OVO, Dana, ShopeePay)
Berikan incentive khusus untuk pembayaran via e-wallet di mobile

Untuk Platform Desktop:

Optimalkan Credit Card Processing

Credit Card adalah metode dominan di desktop (47.4%)
Pengguna desktop lebih nyaman memasukkan detail kartu kredit
Layar lebih besar, lebih mudah untuk form filling

Action Items:

Simplify credit card input form
Implementasi autofill dan card scanning (jika applicable)
Tampilkan badge keamanan (SSL, PCI-DSS certified)
Tawarkan installment/cicilan untuk transaksi besar

2. User Experience Enhancement

Rekomendasi User Experience per Device & Payment Method
Device	Payment_Method	Priority	Rekomendasi_UX
Mobile	E-Wallet	High	One-tap payment, quick checkout, minimal steps
Mobile	Credit Card	Medium	Auto-fill, saved cards, biometric authentication
Mobile	COD	Low	Clear delivery info, address verification
Desktop	Credit Card	High	Secure badge, installment options, saved cards
Desktop	E-Wallet	Medium	QR code integration, link to mobile app
Desktop	COD	Low	Transparent delivery timeline, real-time tracking

3. Marketing dan Promotional Strategy

Mobile Campaign:

Push notification untuk promo e-wallet
Cashback/discount khusus untuk pembayaran e-wallet di mobile app
Gamification (collect points dengan e-wallet payment)

Desktop Campaign:

Email marketing dengan promo credit card installment
Banner untuk benefit credit card (reward points, miles)
Partnership dengan bank untuk exclusive discount

4. Cash on Delivery (COD) Strategy

Meskipun COD proporsinya paling kecil di kedua device (~20%), ini tetap segment penting:

Karakteristik COD Users:

Mungkin tidak memiliki akses ke digital payment
Concern terhadap keamanan online payment
Prefer “lihat barang dulu, baru bayar”
Demographic tertentu (older generation, rural areas)

Rekomendasi COD:

Tetap support COD untuk market penetration
Edukasi tentang keamanan digital payment
Incentivize untuk switch ke digital payment (discount untuk non-COD)
Improve tracking dan transparency untuk COD orders

C. Strategi Implementasi

Phase 1: Quick Wins (1-2 bulan)

Reorder payment options berdasarkan device
- Mobile: E-Wallet → Credit Card → COD
- Desktop: Credit Card → E-Wallet → COD
A/B test untuk validate impact
Monitor conversion rate dan payment success rate

Phase 2: Enhancement (3-6 bulan)

Personalisasi payment options berdasarkan user history
One-click payment untuk returning customers
Saved payment methods dengan biometric auth (mobile)

Phase 3: Ecosystem Development (6-12 bulan)

Partnership dengan e-wallet providers untuk exclusive promo
Credit card installment program dengan banks
Loyalty program tied to preferred payment methods

D. Key Performance Indicators (KPIs)

KPIs untuk Payment Strategy Monitoring
KPI	Target_Mobile	Target_Desktop
Payment Success Rate	> 95%	> 95%
Payment Method Distribution	E-Wallet > 50%	Credit Card > 50%
Conversion Rate by Payment Method	Track per method	Track per method
Average Transaction Value by Method	Monitor trends	Monitor trends
Payment Processing Time	< 30 seconds	< 45 seconds
Customer Satisfaction Score	> 4.5/5	> 4.5/5

E. Kesimpulan dan Rekomendasi Akhir

Kesimpulan Utama:

Device type dan payment method memiliki hubungan yang signifikan (p = 0.0010)
Mobile users strongly prefer E-Wallet (48% vs 31.6% expected)
Desktop users strongly prefer Credit Card (47.4% vs 38.6% expected)
COD relatif konsisten di kedua platform (~20%)

Rekomendasi Strategis:

Jangka Pendek (0-3 bulan):

Implement device-specific payment ordering
Optimize UX untuk metode payment yang paling relevan per device
Quick wins dengan low implementation cost

Jangka Menengah (3-6 bulan):

Develop personalization engine untuk payment recommendations
Partnership development dengan payment providers
Enhanced security dan convenience features

Jangka Panjang (6-12 bulan):

Build comprehensive digital payment ecosystem
Loyalty program integration
Advanced fraud detection per payment method

Expected Impact:

Increase payment success rate: 3-5%
Reduce cart abandonment: 2-3%
Improve customer satisfaction: 10-15%
Potential revenue uplift: 5-8%

Critical Success Factors:

Continuous monitoring dan iterasi
User feedback loop
Cross-functional collaboration (Product, Tech, Business)
Data-driven decision making

Ringkasan Hasil Analisis

Hasil Chi-Square Test

Chi-Square Statistic: 13.7736
Degrees of Freedom: 2
P-value: 0.0010
Tingkat Signifikansi: 0.05
Keputusan: TOLAK H₀

Interpretasi Bisnis

Ada hubungan yang sangat signifikan antara tipe perangkat dan preferensi metode pembayaran. Mobile users cenderung prefer E-Wallet, sementara Desktop users prefer Credit Card. Strategi digital payment harus disesuaikan berdasarkan device type untuk optimize conversion dan user experience.

Case Study 5

Type I and Type II Errors (Conceptual)

A fintech startup tests whether a new fraud detection algorithm reduces fraudulent transactions.

H₀: The new algorithm does not reduce fraud.
H₁: The new algorithm reduces fraud.

Tasks

Explain a Type I Error (α) in this context.
Explain a Type II Error (β) in this context.
Identify which error is more costly from a business perspective.
Discuss how sample size affects Type II Error.
Explain the relationship between α, β, and statistical power.

Answer To Case Study 5

Pendahuluan

Sebuah fintech startup sedang menguji apakah algoritma deteksi fraud baru mereka dapat mengurangi jumlah transaksi penipuan (fraudulent transactions).

Konteks Hipotesis

Hipotesis Nol (H₀): Algoritma baru TIDAK mengurangi fraud. Dengan kata lain, algoritma baru tidak lebih baik dari sistem yang ada saat ini.

\[H_0: \text{Algoritma baru tidak efektif dalam mengurangi fraud}\]

Hipotesis Alternatif (H₁): Algoritma baru MENGURANGI fraud. Algoritma baru lebih efektif dibandingkan sistem yang ada.

\[H_1: \text{Algoritma baru efektif dalam mengurangi fraud}\]

Matriks Keputusan dan Kemungkinan Error

Dalam pengujian hipotesis, ada 4 kemungkinan outcome:

Matriks Keputusan Pengujian Hipotesis: Type I dan Type II Error
Kondisi Realitas	Gagal Tolak H0 (Tidak Deploy)	Tolak H0 (Deploy Algoritma)
H0 Benar (Algoritma TIDAK efektif)	Keputusan BENAR (Correct Decision): Tidak mengimplementasikan algoritma yang tidak berguna	Type I Error (α): False Positive, mengimplementasikan algoritma yang sebenarnya tidak efektif
H1 Benar (Algoritma EFEKTIF)	Type II Error (β): False Negative, kehilangan peluang karena tidak mengimplementasikan algoritma yang sebenarnya efektif	Keputusan BENAR (Power): Mengimplementasikan algoritma yang memang efektif

Jawaban Tugas

1. Penjelasan Type I Error (α) dalam Konteks Ini

Definisi Type I Error:

Type I Error terjadi ketika kita menolak H₀ padahal H₀ sebenarnya benar.

Dalam simbol statistik: \[P(\text{Tolak } H_0 | H_0 \text{ benar}) = \alpha\]

Dalam Konteks Fraud Detection:

Type I Error terjadi ketika:

Kita menyimpulkan bahwa algoritma baru MENGURANGI fraud (menolak H₀), padahal kenyataannya algoritma tersebut TIDAK efektif (H₀ benar).

Skenario Konkret:

Apa yang Terjadi:
- Tim data science melakukan testing
- Hasil test menunjukkan penurunan fraud secara statistik signifikan
- Berdasarkan hasil ini, perusahaan memutuskan untuk deploy algoritma baru
- NAMUN, penurunan fraud yang teramati sebenarnya hanya kebetulan (random variation)
- Algoritma baru sebenarnya tidak lebih baik dari sistem lama
Konsekuensi Bisnis:

Biaya Langsung:

Biaya development dan testing yang sudah dikeluarkan sia-sia
Biaya deployment dan integration dengan sistem existing
Biaya training tim untuk menggunakan sistem baru
Biaya infrastructure dan maintenance untuk algoritma yang tidak efektif

Biaya Opportunity:

Waktu dan resources yang bisa digunakan untuk develop solusi lain yang lebih baik
Delayed implementation dari solusi fraud detection yang benar-benar efektif

Dampak Operasional:

False sense of security - tim percaya fraud sudah berkurang
Mungkin ada relaksasi dalam monitoring manual
Fraud sebenarnya tetap terjadi di level yang sama

Reputasi dan Kepercayaan:

Stakeholder dan investor diberi harapan palsu
Ketika fraud ternyata tidak berkurang, kredibilitas tim terganggu

Probabilitas Type I Error:

Probabilitas Type I Error = α (alpha) = tingkat signifikansi yang kita tetapkan

Umumnya:

α = 0.05 (5%) → Ada 5% chance membuat Type I Error
α = 0.01 (1%) → Ada 1% chance membuat Type I Error

Trade-off:

α lebih kecil → Lebih konservatif, lebih sulit menolak H₀
α lebih besar → Lebih liberal, lebih mudah menolak H₀

Ilustrasi Numerik:

Misalkan fraud rate sebelumnya 2% dan kita test algoritma baru:

Contoh Skenario Type I Error
Aspek	Nilai
Fraud Rate Sebenarnya (dengan algoritma baru)	2.0% (tidak berubah)
Fraud Rate Terobservasi dalam test	1.7% (tampak turun)
Kesimpulan Statistik	Signifikan pada α = 0.05 → Tolak H₀
Keputusan Bisnis	Deploy algoritma baru
Realitas	Algoritma sebenarnya tidak efektif
Jenis Error	TYPE I ERROR

2. Penjelasan Type II Error (β) dalam Konteks Ini

Definisi Type II Error:

Type II Error terjadi ketika kita gagal menolak H₀ padahal H₀ sebenarnya salah (H₁ benar).

Dalam simbol statistik: \[P(\text{Gagal Tolak } H_0 | H_1 \text{ benar}) = \beta\]

Dalam Konteks Fraud Detection:

Type II Error terjadi ketika:

Kita menyimpulkan bahwa algoritma baru TIDAK mengurangi fraud (gagal tolak H₀), padahal kenyataannya algoritma tersebut EFEKTIF (H₁ benar).

Skenario Konkret:

Apa yang Terjadi:
- Tim data science melakukan testing dengan sampel transaksi
- Hasil test menunjukkan penurunan fraud, tapi tidak signifikan secara statistik
- Berdasarkan hasil ini, perusahaan memutuskan untuk TIDAK deploy algoritma baru
- NAMUN, algoritma baru sebenarnya efektif mengurangi fraud
- Kita gagal mendeteksi efektivitas karena sampel terlalu kecil atau variabilitas tinggi
Konsekuensi Bisnis:

Kerugian Langsung dari Fraud yang Berkelanjutan:

Fraud losses tetap tinggi karena tidak menggunakan algoritma yang lebih baik
Chargebacks dan refunds untuk transaksi penipuan
Kehilangan revenue dari transaksi fraud yang tidak terdeteksi

Opportunity Cost:

Missed opportunity untuk meningkatkan fraud detection rate
Kompetitor mungkin sudah menggunakan teknologi lebih baik
Customer experience yang lebih buruk (legit transactions mungkin di-block, fraud tidak terdeteksi)

Dampak Jangka Panjang:

Reputasi perusahaan terganggu jika fraud rate tinggi
Regulasi dan compliance issues
Biaya insurance dan risk management yang lebih tinggi

Kerugian Development:

Investasi R&D untuk algoritma baru sia-sia
Tim mungkin demotivasi karena solusi yang baik tidak di-adopt
Potensi kehilangan talent yang frustasi

Probabilitas Type II Error:

Probabilitas Type II Error = β (beta)

Statistical Power = 1 - β = Probabilitas mendeteksi efek yang benar-benar ada

Contoh:

Jika β = 0.20 → Power = 0.80 (80% chance mendeteksi efek yang ada)
Jika β = 0.10 → Power = 0.90 (90% chance mendeteksi efek yang ada)

Ilustrasi Numerik:

Misalkan algoritma baru sebenarnya mengurangi fraud dari 2% ke 1.5%:

Contoh Skenario Type II Error
Aspek	Nilai
Fraud Rate Lama	2.0%
Fraud Rate dengan Algoritma Baru (Realitas)	1.5% (turun 25%)
Penurunan Fraud Sebenarnya	0.5 percentage points
Fraud Rate Terobservasi dalam test	1.6% (turun tapi tidak signifikan)
Kesimpulan Statistik	Tidak signifikan pada α = 0.05 → Gagal Tolak H₀
Keputusan Bisnis	TIDAK deploy algoritma baru
Realitas	Algoritma sebenarnya efektif
Jenis Error	TYPE II ERROR

Dampak Finansial Estimasi:

Jika perusahaan memproses 1 juta transaksi per bulan dengan nilai rata-rata $100:

Estimasi Dampak Finansial Type II Error
Metrik	Nilai
Transaksi per bulan	1e+06
Nilai rata-rata per transaksi	$100
Fraud rate (algoritma lama)	2.0%
Fraud rate (algoritma baru)	1.5%
Fraud loss per bulan (algoritma lama)	$2e+06
Fraud loss per bulan (algoritma baru)	$1,500,000
Potensi penghematan per bulan	$5e+05
Potensi penghematan per tahun	$6e+06

Dengan Type II Error, perusahaan kehilangan potensi penghematan $500,000 per bulan atau $6,000,000 per tahun!

3. Error Mana yang Lebih Mahal dari Perspektif Bisnis?

Untuk menentukan error mana yang lebih costly, kita perlu melakukan Cost-Benefit Analysis yang komprehensif.

A. Analisis Biaya Type I Error

Skenario: Deploy algoritma yang sebenarnya tidak efektif

Analisis Biaya Type I Error
Kategori_Biaya	Estimasi_Biaya	Keterangan
Development & Testing	$200,000 - $500,000	Sunk cost - sudah dikeluarkan
Deployment & Integration	$100,000 - $300,000	Biaya sistem integration
Infrastructure & Maintenance	$50,000 - $150,000/tahun	Server, monitoring, updates
Training & Change Management	$50,000 - $100,000	Staff training untuk sistem baru
Opportunity Cost	$100,000 - $300,000	Resources untuk solusi lain
Total Estimasi (One-time)	$450,000 - $1,200,000	Biaya implementasi total
Total Estimasi (Annual recurring)	$50,000 - $150,000	Biaya operasional tahunan

Total Dampak Type I Error (3 tahun):

One-time: $450K - $1.2M
Recurring (3 tahun): $150K - $450K
Total: $600K - $1.65M

Faktor Mitigasi:

Sebagian biaya development bisa di-salvage (learnings, partial code reuse)
Tidak ada kehilangan langsung dari fraud
Bisa di-rollback dengan relatif cepat setelah monitoring

B. Analisis Biaya Type II Error

Skenario: Tidak deploy algoritma yang sebenarnya efektif

Analisis Biaya Type II Error
Kategori_Biaya	Estimasi_Biaya	Keterangan
Fraud Losses (per tahun)	$6,000,000	Opportunity loss dari fraud prevention
Chargebacks & Refunds	$500,000 - $1,000,000	Biaya proses dispute
Customer Trust & Reputation	$1,000,000 - $3,000,000	Customer churn, brand damage
Compliance & Legal	$200,000 - $500,000	Regulatory fines, audit costs
Higher Insurance Premiums	$100,000 - $300,000	Higher risk premiums
Competitive Disadvantage	Sulit dikuantifikasi	Market share loss
Total Estimasi (Annual)	$7,800,000 - $10,800,000	Kerugian tahunan
Total Estimasi (3 tahun)	$23,400,000 - $32,400,000	Akumulasi 3 tahun

Total Dampak Type II Error (3 tahun): $23.4M - $32.4M

Faktor Pemberat:

Kerugian bersifat ongoing dan compound
Sulit di-recover setelah kehilangan customer trust
Competitive disadvantage bisa permanent
Reputational damage jangka panjang

C. Perbandingan Langsung

Perbandingan Type I vs Type II Error
Aspek	Type_I_Error	Type_II_Error
Total Biaya (3 tahun)	$0.6M - $1.65M	$23.4M - $32.4M
Sifat Biaya	Mostly one-time & sunk cost	Ongoing & compound losses
Dapat Di-recover	Partial (learning, code)	Sangat sulit
Dampak Reputasi	Minimal	Signifikan
Dampak Kompetitif	Minimal	Signifikan
Risk Level	Lower	Higher
Kesimpulan	Lebih murah & lebih mudah di-mitigate	Jauh lebih mahal & dampak jangka panjang

D. Kesimpulan: Type II Error Lebih Mahal

Dalam konteks fraud detection fintech ini, Type II Error JAUH LEBIH MAHAL (10-20x lebih mahal).

Alasan Utama:

Magnitude of Loss
- Type I: ~$1.65M (worst case)
- Type II: ~$32.4M (worst case)
- Rasio: 1:20
Ongoing vs One-time
- Type I: Mostly one-time cost
- Type II: Compound losses setiap bulan
Reversibility
- Type I: Bisa di-rollback dan di-fix
- Type II: Kehilangan revenue dan reputasi sulit di-recover
Strategic Impact
- Type I: Internal inefficiency
- Type II: Competitive disadvantage, market share loss

E. Implikasi untuk Decision Making

Rekomendasi Strategis:

Strategic Recommendations berdasarkan Cost Analysis
Situasi	Alpha_Level	Rasionale	Action
Early Stage Testing	0.10 (lebih liberal)	Willing to risk Type I untuk avoid Type II	Test multiple algorithms, filter later
Pilot Program	0.05 (standar)	Balanced approach	Deploy to 10-20% traffic
Full Deployment Decision	0.05 atau 0.01	Conservative jika high stakes	Comprehensive analysis sebelum full deploy
Post-Deployment Monitoring	Ongoing monitoring	Quick rollback jika ternyata Type I	Real-time metrics, ready to rollback

Prinsip Utama:

Dalam konteks ini, lebih baik risiko Type I Error daripada Type II Error karena:

Type I bisa di-detect dan di-fix cepat dengan monitoring
Type II menyebabkan kerugian ongoing yang massive
Cost of false positive << Cost of false negative

Namun tetap perlu balance:

Tidak asal deploy semua algoritma (proper testing tetap penting)
Monitor dengan ketat untuk detect Type I Error
Siap rollback cepat jika algorithm tidak perform

4. Pengaruh Sample Size terhadap Type II Error

A. Hubungan Konseptual

Type II Error (β) berbanding terbalik dengan ukuran sampel (n):

\[\beta \downarrow \text{ ketika } n \uparrow\]

Atau dalam kata lain: \[\text{Power} = 1 - \beta \uparrow \text{ ketika } n \uparrow\]

Mengapa ini terjadi?

Standard Error berkurang dengan sampel lebih besar: \[SE = \frac{\sigma}{\sqrt{n}}\]

Sampel lebih besar → SE lebih kecil → Distribusi sampling lebih sempit

Deteksi efek lebih mudah dengan presisi lebih tinggi: Dengan SE lebih kecil, kita bisa membedakan efek kecil dari noise
Confidence Interval lebih sempit: CI lebih sempit → Lebih mudah untuk detect perbedaan dari null hypothesis

B. Ilustrasi Numerik

Misalkan algoritma baru mengurangi fraud rate dari 2.0% ke 1.5% (effect size = 0.5 percentage points).

Simulasi dengan berbagai ukuran sampel:

C. Tabel Sample Size Requirements

Ukuran Sampel yang Dibutuhkan untuk Berbagai Target Power
Target_Power	Type_II_Error	Required_Sample_Size	Interpretasi
50%	50%	1,861	Tidak cukup - banyak missed opportunities
70%	30%	3,237	Kurang memadai
80%	20%	4,253	Minimum acceptable (standard)
90%	10%	5,890	Baik - confidence tinggi
95%	5%	7,443	Sangat baik - high confidence

Key Insight:

Untuk mencapai power 80% (β = 20%), kita membutuhkan sampel sekitar 10,000-15,000 transaksi.

Jika kita hanya test dengan 1,000 transaksi, power kita mungkin hanya ~40-50%, artinya ada 50-60% chance kita akan miss algoritma yang sebenarnya efektif (Type II Error)!

D. Practical Implications untuk Fraud Detection Testing

1. Test Design Considerations:

Rekomendasi Sample Size per Testing Phase
Testing_Phase	Sample_Size	Expected_Power	Use_Case	Risk_Type_II
Quick Validation	1,000 - 5,000	30-50% (High β)	Early screening only	HIGH - jangan buat final decision
Pilot Test	10,000 - 20,000	80-85% (Acceptable β)	Decision for further investment	MEDIUM - good enough untuk pilot
Full Scale Test	50,000 - 100,000	95%+ (Low β)	Pre-deployment validation	LOW - confident untuk deployment
A/B Test Production	100,000+	99%+ (Very Low β)	Final confirmation & optimization	VERY LOW - production validation

2. Sequential Testing Strategy:

Untuk mengatasi trade-off antara sample size dan speed:

Sequential Testing Strategy untuk Minimize Type II Error
Stage	Sample_Size	Decision_Rule	Rationale
Stage 1	1,000	Jika improvement > 30% → lanjut ke Stage 2, jika tidak → stop	Quick filter - eliminate obviously bad algorithms
Stage 2	5,000	Jika improvement > 20% dan p < 0.10 → lanjut, jika tidak → stop	Intermediate validation
Stage 3	20,000	Jika improvement > 15% dan p < 0.05 → lanjut, jika tidak → stop	Strong evidence needed
Stage 4	100,000	Final validation: p < 0.01, confidence interval analysis	Very high confidence before full deployment

Keuntungan Sequential Testing:

Tidak perlu menunggu sampel besar untuk algoritma yang jelas tidak efektif
Fokus resources pada algoritma yang promising
Balance antara speed dan accuracy

E. Practical Recommendations

1. Untuk Fintech Startup dengan Budget Terbatas:

Gunakan Historical Data: Jika punya data historical, simulasikan algoritma baru pada data lama untuk increase effective sample size
Stratified Sampling: Pastikan sampel representatif (berbagai merchant, transaction types, dll)
Longer Test Duration: Jika tidak bisa increase concurrent sample, perpanjang durasi test

2. Untuk Scale-up Deployment:

A/B Test dengan Traffic Allocation: Deploy ke 10% traffic dulu, monitor, gradually increase
Real-time Monitoring: Quick detection jika ada issues (Type I error mitigation)
Fallback Mechanism: Automatic rollback jika performance metrics drop

3. Cost-Benefit of Larger Sample:

Analisis Cost-Benefit Berdasarkan Ukuran Sampel
Skenario	Testing_Cost	Type_II_Error	Risk_Missed_Savings	ROI_of_Testing
Small Sample (n=2,000)	$10,000 - $20,000	~60% (Very High)	$6M/year × 60% = $3.6M/year	Negative - High risk
Medium Sample (n=10,000)	$30,000 - $50,000	~20% (Acceptable)	$6M/year × 20% = $1.2M/year	Positive - Good balance
Large Sample (n=50,000)	$100,000 - $150,000	~5% (Low)	$6M/year × 5% = $0.3M/year	Very Positive - Best confidence

Key Insight: Investasi dalam sampel lebih besar memberikan ROI yang sangat tinggi dengan mengurangi risiko Type II Error yang costly.

5. Hubungan antara α, β, dan Statistical Power

A. Definisi dan Hubungan Matematis

Alpha (α): Probabilitas Type I Error - Tingkat signifikansi yang kita tetapkan (biasanya 0.05) - Risiko menolak H₀ padahal H₀ benar

Beta (β): Probabilitas Type II Error - Risiko gagal menolak H₀ padahal H₁ benar - Gagal mendeteksi algoritma yang efektif

Statistical Power: Probabilitas mendeteksi efek yang benar-benar ada $\text{Power} = 1 - \beta$

Hubungan Fundamental: $\alpha + \text{Power} \neq 1$ $\beta + \text{Power} = 1$

B. Trade-off antara α dan β

Trade-off antara α, β, dan Power
Aspek	Dampak_pada_Beta	Dampak_pada_Power	Trade_off
Ketika α TURUN	β NAIK (lebih sulit tolak H₀)	Power TURUN	Lebih konservatif, lebih banyak missed opportunities
Ketika α NAIK	β TURUN (lebih mudah tolak H₀)	Power NAIK	Lebih liberal, lebih banyak false positives
Ketika sampel NAIK	β TURUN (power naik)	Power NAIK	Win-win (tapi lebih mahal)
Ketika effect size BESAR	β TURUN (lebih mudah deteksi)	Power NAIK	Natural improvement

C. Faktor yang Mempengaruhi Power

Statistical Power dipengaruhi oleh 4 faktor utama:

1. Alpha Level (α) - α lebih besar → Power lebih tinggi - Trade-off: Lebih banyak Type I Error

2. Sample Size (n) - n lebih besar → Power lebih tinggi - No trade-off, hanya biaya

3. Effect Size - Effect lebih besar → Power lebih tinggi - Tidak bisa dikontrol (tergantung realitas)

4. Variability (σ) - Variability lebih kecil → Power lebih tinggi - Sulit dikontrol, tapi bisa improve measurement

D. Skenario Praktis dalam Fraud Detection

Skenario 1: Conservative Approach (α = 0.01)

Skenario 1: Very Conservative
Parameter	Nilai
Alpha (α)	0.01 (1%)
Beta (β) estimasi	0.30-0.40
Power	0.60-0.70
Konsekuensi	Sangat yakin jika deploy, tapi banyak missed algorithms

Cocok untuk: Final deployment decision, high-stakes implementation

Skenario 2: Balanced Approach (α = 0.05)

Skenario 2: Balanced (Recommended)
Parameter	Nilai
Alpha (α)	0.05 (5%)
Beta (β) estimasi	0.15-0.25
Power	0.75-0.85
Konsekuensi	Standard scientific approach, good balance

Cocok untuk: Pilot testing, general validation

Skenario 3: Liberal Approach (α = 0.10)

Skenario 3: Liberal (Exploratory)
Parameter	Nilai
Alpha (α)	0.10 (10%)
Beta (β) estimasi	0.05-0.15
Power	0.85-0.95
Konsekuensi	High sensitivity, catch most good algorithms

Cocok untuk: Early screening, exploratory phase

E. Rekomendasi Strategis untuk Fintech

Phase-based Alpha Strategy:

Phase 1: Initial Screening (α = 0.10)

Goal: Don’t miss any promising algorithms
High power, willing to accept false positives
Quick filtering

Phase 2: Validation (α = 0.05)

Goal: Standard validation
Balanced approach
Detailed testing

Phase 3: Final Decision (α = 0.01)

Goal: High confidence before deployment
Conservative approach
Comprehensive analysis

F. Practical Guidelines

Untuk Minimize Type II Error (maximize Power):

Increase sample size (paling efektif)
Use α = 0.10 untuk early screening
Improve measurement precision
Longer test duration
Stratified sampling untuk reduce variability

Untuk Minimize Type I Error:

Use α = 0.01 untuk final decisions
Require replication studies
Monitor closely post-deployment
Have rollback mechanisms ready

Kesimpulan Akhir

Ringkasan Konsep

Type I Error (α): False Positive

Deploy algoritma yang tidak efektif
Biaya: ~$600K-$1.65M (3 tahun)
Dapat di-rollback

Type II Error (β): False Negative

Tidak deploy algoritma yang efektif
Biaya: ~$23M-$32M (3 tahun)
Sulit di-recover

Statistical Power (1-β):

Kemampuan mendeteksi algoritma yang efektif
Dipengaruhi oleh: n, α, effect size, variability

Key Takeaways

Type II Error JAUH lebih mahal dalam konteks fraud detection (20x lebih costly)
Sample size adalah kunci untuk mengurangi Type II Error tanpa trade-off
Alpha strategy harus phase-based: Liberal untuk screening, conservative untuk deployment
Power analysis harus dilakukan sebelum testing untuk menentukan sample size yang adequate
Trade-off α dan β harus dipahami untuk membuat keputusan yang tepat

Rekomendasi Final

Untuk Fintech Startup:

Prioritaskan menghindari Type II Error (jangan sampai miss algoritma yang bagus)
Invest dalam sample size yang adequate (minimal n untuk power 80%)
Gunakan sequential testing untuk efficiency
Monitor ketat untuk quick detection of Type I Error
Balance antara speed dan accuracy dengan phased approach

Critical Success Factors:

Proper sample size calculation
Phased testing strategy
Real-time monitoring
Quick rollback capability
Cost-benefit analysis at each decision point

Case Study 6

P-Value and Statistical Decision Making

A churn prediction model evaluation yields the following results:

Test statistic = 2.31
p-value = 0.021
Significance level: $\alpha = 0.05$

Tasks

Explain the meaning of the p-value.
Make a statistical decision.
Translate the decision into non-technical language for management.
Discuss the risk if the sample is not representative.
Explain why the p-value does not measure effect size.

Answer To Case Study 6

Pendahuluan

Sebuah churn prediction model (model prediksi customer churn) sedang dievaluasi untuk menentukan apakah model baru ini lebih efektif dibandingkan model yang ada saat ini.

Hasil Evaluasi Model

Hasil Evaluasi Churn Prediction Model
Parameter	Nilai
Test Statistic	2.310
P-value	0.021
Tingkat Signifikansi (α)	0.050

Konteks Hipotesis (Asumsi)

Dalam evaluasi model prediksi, umumnya kita menguji:

H₀: Model baru tidak lebih baik dari model lama (tidak ada improvement)

H₁: Model baru lebih baik dari model lama (ada improvement signifikan)

Jawaban Tugas

1. Penjelasan Makna P-Value

Definisi P-Value

P-value adalah probabilitas untuk mendapatkan hasil test statistic sebesar atau lebih ekstrem dari yang kita observasi, dengan asumsi bahwa Hipotesis Nol (H₀) benar.

Dalam simbol matematis: \[\text{P-value} = P(\text{Test Statistic} \geq 2.31 \mid H_0 \text{ benar})\]

Interpretasi P-Value dalam Konteks Ini

P-value = 0.021 berarti:

“Jika sebenarnya model baru TIDAK lebih baik dari model lama (H₀ benar), maka probabilitas untuk mendapatkan hasil test statistic 2.31 atau lebih ekstrem adalah 2.1% atau 21 dalam 1000 percobaan.”

Apa yang P-Value BUKAN

Kesalahpahaman Umum tentang P-Value
Kesalahpahaman_Umum	Penjelasan_Yang_Benar
P-value adalah probabilitas H₀ benar	SALAH. P-value adalah P(data\|H₀), bukan P(H₀\|data)
P-value adalah probabilitas hasil karena chance	SALAH. P-value adalah P(data lebih ekstrem\|H₀ benar)
P-value mengukur seberapa besar effect	SALAH. P-value mengukur evidence against H₀, bukan ukuran effect
P-value kecil berarti effect besar	SALAH. P-value kecil bisa dari effect besar atau sampel besar
P-value > 0.05 berarti H₀ pasti benar	SALAH. Gagal tolak H₀ ≠ H₀ benar, hanya kurang evidence

Visualisasi P-Value

Interpretasi Intuitif

Analogi Sederhana:

Bayangkan Anda melempar koin 100 kali dan mendapat 65 heads (kepala). Anda curiga koin tidak fair.

H₀: Koin fair (P(heads) = 0.5)
Hasil observasi: 65 heads dari 100
P-value: Berapa probabilitas mendapat 65+ heads jika koin benar-benar fair?

Jika p-value = 0.021, artinya hanya ada 2.1% chance mendapat hasil seextrem ini jika koin benar-benar fair. Ini adalah evidence yang kuat bahwa koin mungkin tidak fair.

Dalam Konteks Churn Model:

H₀: Model baru tidak lebih baik
Hasil observasi: Test statistic = 2.31
P-value = 0.021: Hanya 2.1% chance mendapat hasil ini jika model baru memang tidak lebih baik

Ini adalah evidence yang kuat bahwa model baru kemungkinan memang lebih baik.

Level of Evidence berdasarkan P-Value

Level of Evidence berdasarkan P-Value
P_Value_Range	Level_of_Evidence	Interpretasi	Kasus_Kita
< 0.001	Very Strong Evidence	Sangat kuat melawan H₀
0.001 - 0.01	Strong Evidence	Kuat melawan H₀
0.01 - 0.05	Moderate Evidence	Cukup untuk reject H₀ (pada α=0.05)	← P-value kita (0.021)
0.05 - 0.10	Weak Evidence	Marginal, tergantung konteks
> 0.10	Little to No Evidence	Tidak cukup untuk reject H₀

P-value kita (0.021) berada di kategori “Strong Evidence” melawan H₀.

2. Keputusan Statistik

Kriteria Keputusan

Keputusan statistik dibuat dengan membandingkan p-value dengan tingkat signifikansi (α):

Aturan Keputusan: - Jika p-value < α → TOLAK H₀ - Jika p-value ≥ α → GAGAL TOLAK H₀

Evaluasi dalam Kasus Ini

Evaluasi Keputusan Statistik
Komponen	Nilai
P-value	0.021
Alpha (α)	0.05
Perbandingan	0.021 < 0.05
Keputusan Statistik	TOLAK H₀
Kesimpulan	Model baru signifikan lebih baik

Keputusan: TOLAK H₀

Karena p-value (0.021) < α (0.05), kita MENOLAK Hipotesis Nol.

Artinya:

Ada bukti statistik yang cukup kuat untuk menyimpulkan bahwa model churn prediction baru signifikan lebih baik dari model lama.

Tingkat Kepercayaan

Dengan menolak H₀ pada α = 0.05, kita memiliki 95% confidence level dalam keputusan ini.

Atau dengan kata lain, kita bersedia mengambil risiko 5% untuk membuat Type I Error (false positive - menyimpulkan model lebih baik padahal tidak).

Visualisasi Keputusan

Test statistic kita (2.31) jatuh di daerah penolakan (rejection region), sehingga keputusan adalah TOLAK H₀.

3. Komunikasi untuk Manajemen (Non-Technical)

Versi Management-Friendly

Ringkasan Eksekutif:

Model prediksi churn yang baru terbukti lebih efektif dibandingkan model yang ada saat ini. Hasil analisis statistik menunjukkan improvement yang signifikan dengan tingkat kepercayaan 95%.

Rekomendasi: Deploy model baru untuk meningkatkan akurasi prediksi churn dan efektivitas retention strategy.

Penjelasan untuk Non-Technical Audience

Pertanyaan Manajemen: “Apakah model baru ini benar-benar lebih baik?”

Jawaban Sederhana:

“Ya, model baru ini signifikan lebih baik. Kami melakukan pengujian statistik yang ketat, dan hasilnya menunjukkan bahwa kemungkinan improvement ini hanya karena kebetulan sangat kecil - hanya 2.1%.

Dengan kata lain, kami 97.9% yakin bahwa model baru ini memang lebih baik, bukan karena faktor kebetulan.”

Key Messages untuk Management

Key Messages untuk Management
Pertanyaan_Management	Jawaban_Sederhana
Apa artinya hasil ini?	Model baru terbukti lebih akurat dalam memprediksi customer yang akan churn
Seberapa yakin kita?	95% confidence level - sangat tinggi. Hanya 5% kemungkinan kesimpulan kita salah
Apa risikonya?	Risiko kecil (5%) bahwa improvement ini kebetulan. Risiko tidak menggunakan model baru lebih besar
Apa yang harus dilakukan?	Deploy model baru untuk meningkatkan churn prediction accuracy dan retention effectiveness
Berapa cost/benefit?	Model lebih baik → prediksi lebih akurat → retention lebih efektif → revenue meningkat

Business Impact Translation

Dari Bahasa Statistik ke Bahasa Bisnis:

Statistik: “P-value = 0.021, reject H₀ at α = 0.05”

Bisnis: “Model baru dapat memprediksi customer churn dengan lebih akurat, yang berarti kita bisa:

Identifikasi at-risk customers lebih awal
Target retention efforts lebih efektif
Reduce churn rate dan increase customer lifetime value
Optimize marketing budget dengan fokus pada customers yang benar-benar at-risk”

4. Risiko jika Sampel Tidak Representatif

Konsep Representativeness

Sampel Representatif adalah sampel yang mencerminkan karakteristik populasi yang ingin kita generalisasi.

Jika sampel TIDAK representatif: Hasil statistik (walaupun p-value kecil) TIDAK VALID untuk populasi yang lebih luas.

Skenario Risiko dalam Churn Prediction

Contoh Kasus Sampel Tidak Representatif:

Skenario Sampel Tidak Representatif dan Risikonya
Skenario	Deskripsi_Masalah	Dampak_Risiko
1. Bias Temporal	Model di-test hanya pada data bulan promo, bukan kondisi normal	Model gagal predict di kondisi normal → churn prediction tidak akurat
2. Bias Geografis	Model di-test hanya pada customers di region tertentu (urban) tapi digunakan untuk semua region	Model tidak perform di rural areas → retention strategy gagal di region tersebut
3. Bias Segmen Customer	Model di-test pada enterprise customers, tapi digunakan untuk SMB customers juga	Model tidak cocok untuk SMB → salah identifikasi at-risk customers
4. Bias Platform	Model di-test pada web users, tapi digunakan juga untuk mobile app users	Model tidak akurat untuk mobile users → miss opportunity untuk retention
5. Bias Behavior	Model di-test pada high-engagement users, padahal churn biasanya dari low-engagement	Model bias ke segment yang sudah engaged → miss actual at-risk customers

Konsekuensi Serius

1. False Sense of Security

Manajemen percaya model bekerja baik (karena p-value kecil), padahal hanya bekerja pada subset tertentu. Ketika di-deploy ke real world, performance drop drastically.

2. Biaya Salah Prediksi

Biaya dari Prediksi yang Salah
Jenis_Error	Deskripsi	Estimated_Cost
False Positive (predict churn, tapi tidak)	Wasted retention budget untuk customers yang sebenarnya tidak akan churn	$50-$200 per customer (retention offer tidak perlu)
False Negative (predict stay, tapi churn)	Missed opportunity untuk retain customers yang sebenarnya at-risk	$500-$5,000 per customer (lost LTV dari churned customer)

False Negative jauh lebih mahal karena kita kehilangan customer yang sebenarnya bisa di-save.

3. Loss of Trust

Stakeholders kehilangan kepercayaan pada data science team ketika model yang dijanjikan “95% confident” ternyata tidak perform di production.

How to Ensure Representativeness

Pre-Deployment Checks:

Checklist untuk Memastikan Representativeness
Check	What_to_Verify	Action_if_Not_Representative
1. Demographic Distribution	Sample memiliki distribusi age, gender, location yang sama dengan populasi	Stratified sampling atau re-weight sampel
2. Temporal Coverage	Data mencakup berbagai periode (seasonal, promo, normal)	Collect data across multiple time periods
3. Segment Balance	Proporsi enterprise/SMB/individual sama dengan populasi	Oversample underrepresented segments
4. Platform Mix	Mix web/mobile/app users proporsional	Ensure sufficient data dari semua platforms
5. Behavior Distribution	Mix high/medium/low engagement users proporsional	Balance dataset dengan sampling techniques

Statistical Tests untuk Representativeness:

Chi-Square Test untuk categorical variables
K-S Test (Kolmogorov-Smirnov) untuk continuous variables
Compare distributions sample vs population

Mitigation Strategies

Jika sampel tidak 100% representatif:

Strategy 1: Stratified Analysis

Analisis terpisah per segment
Deploy model yang berbeda per segment jika needed

Strategy 2: Weighted Analysis

Berikan weight pada observasi untuk adjust non-representativeness
Misalnya: jika mobile users underrepresented, berikan weight lebih tinggi

Strategy 3: Phased Rollout

Deploy 10% traffic dulu (random sampling)
Monitor real-world performance
Gradually increase jika performance match expectations

Strategy 4: A/B Testing in Production

Run new model parallel dengan old model
Compare actual churn rates
Validate bahwa improvement hold in real conditions

5. Mengapa P-Value TIDAK Mengukur Effect Size

Perbedaan Fundamental

P-Value dan Effect Size adalah dua konsep yang sangat berbeda:

P-Value vs Effect Size: Perbedaan Fundamental
Aspek	P_Value	Effect_Size
Apa yang diukur?	Strength of evidence AGAINST H₀	Magnitude/besarnya perbedaan atau hubungan
Interpretasi	Probabilitas hasil jika H₀ benar	Seberapa BESAR efeknya
Dipengaruhi oleh sample size?	YA - sangat dipengaruhi	TIDAK - independen dari sample size
Mengindikasikan praktikalitas?	TIDAK	YA - langsung praktis
Range nilai	0 sampai 1	Tergantung metric (Cohen’s d, r, dll)

Mengapa P-Value Tidak Mengukur Effect Size

Alasan 1: P-Value Dipengaruhi oleh Sample Size

P-Value adalah fungsi dari: \[\text{P-value} = f(\text{Effect Size}, \text{Sample Size}, \text{Variability})\]

Dengan sample size sangat besar, efek yang sangat kecil bisa menghasilkan p-value yang sangat kecil.

Ilustrasi:

Ilustrasi: P-Value ≠ Effect Size
Skenario	Sample_Size	Effect_Size	P_Value	Signifikansi_Statistik	Signifikansi_Praktis
A: Small Sample, Large Effect	n = 50	Large (d = 0.8)	0.045	Ya (barely)	Ya
B: Large Sample, Small Effect	n = 10,000	Tiny (d = 0.1)	0.001	Ya (sangat)	TIDAK
C: Large Sample, Large Effect	n = 10,000	Large (d = 0.8)	< 0.0001	Ya (sangat)	Ya

Key Insight:

Skenario A: Large effect, tapi p-value biasa karena sampel kecil
Skenario B: Tiny effect, tapi p-value sangat kecil karena sampel besar - MISLEADING!
Skenario C: Large effect DAN sampel besar - ideal

Skenario B adalah perangkap: P-value kecil membuat kita pikir efeknya besar, padahal tidak!

Contoh Konkret dalam Churn Prediction

Misalkan kita punya 2 model:

Model A:

Improvement: 1% (dari 20% churn ke 19% churn)
Sample size: 100,000 customers
P-value: 0.001 (sangat signifikan)

Model B:

Improvement: 5% (dari 20% churn ke 15% churn)
Sample size: 500 customers
P-value: 0.08 (tidak signifikan)

Hanya melihat p-value:

Model A terlihat lebih baik (p = 0.001)
Model B tidak signifikan (p = 0.08)

Melihat effect size:

Model A: Hanya 1% improvement (kecil)
Model B: 5% improvement (besar)

Business Impact:

Business Impact: P-Value vs Effect Size
Model	P_Value	Churn_Reduction	Customers_Saved	Revenue_Impact	Business_Decision
Model A	0.001 (signifikan)	1%	100	$50,000	Statistically significant, tapi ROI rendah
Model B	0.08 (tidak signifikan)	5%	500	$250,000	Not statistically significant, tapi ROI tinggi jika real

Model B jauh lebih valuable ($2.5M vs $500K revenue impact) meskipun p-value tidak signifikan!

Metrics untuk Effect Size

Untuk Churn Prediction Model, gunakan:

1. Accuracy Improvement

Baseline accuracy vs New model accuracy
Example: 75% → 82% (7 percentage points improvement)

2. Precision/Recall Improvement

Lebih relevan untuk imbalanced churn data
Example: Precision 60% → 75%

3. AUC (Area Under ROC Curve)

Comprehensive measure untuk classifier performance
Example: AUC 0.72 → 0.85

4. Business Metrics

Churn rate reduction (absolute %)
Customers saved
Revenue impact
ROI dari retention spending

Common Effect Size Metrics
Metric	Use_Case	Interpretation_Small	Interpretation_Medium	Interpretation_Large
Cohen’s d	Mean differences	0.2	0.5	0.8
R-squared	Variance explained	0.01-0.09	0.09-0.25	> 0.25
Odds Ratio	Logistic regression	1.5	3.0	> 5.0
Risk Reduction	Binary outcomes	< 5%	5-10%	> 10%
NNT (Number Needed to Treat)	Intervention effectiveness	> 20	5-20	< 5

Best Practice: Report Both

Proper Statistical Reporting harus include:

P-value (statistical significance)
Effect size (practical significance)
Confidence interval (precision of estimate)
Sample size (context)

Example Good Reporting:

“Model baru mengurangi churn rate dari 20% menjadi 17% (effect size: 3 percentage points atau 15% relative reduction). Improvement ini statistically significant (p = 0.021) dengan 95% confidence interval [2.1%, 3.9%]. Tested on n=5,000 customers.”

This gives complete picture:

Statistical significance: YES (p = 0.021)
Practical significance: YES (3% absolute reduction is meaningful)
Precision: Good (narrow CI)
Context: Adequate sample size

Kesimpulan Akhir

Ringkasan Key Concepts

1. P-Value (0.021)

Probabilitas mendapat hasil ini jika H₀ benar
Strong evidence melawan H₀
Bukan probabilitas H₀ benar

2. Keputusan Statistik

TOLAK H₀ karena p < α
Model baru signifikan lebih baik
95% confidence level

3. Komunikasi untuk Management

“Model 97.9% terbukti lebih baik”
Focus on business impact
Rekomendasi: Deploy dengan phased rollout

4. Risiko Sampel Non-Representative

Hasil tidak generalizable ke populasi
Costly prediction errors
Mitigation: Verify representativeness, stratified analysis, phased rollout

5. P-Value ≠ Effect Size

P-value ukur evidence, bukan magnitude
Effect size ukur besarnya dampak
Both needed untuk complete picture

Rekomendasi Final

Untuk Decision Making:

Selalu report p-value DAN effect size
Verify sample representativeness sebelum generalisasi
Translate statistical findings ke business impact
Use confidence intervals untuk show precision
Context matters: sample size, business relevance

Untuk Implementation:

Deploy model baru (statistical evidence kuat)
Phased rollout untuk verify real-world performance
Monitor business KPIs, bukan hanya statistical metrics
A/B test untuk final validation
Document assumptions dan limitations