Study Cases Statistical Inference ~ Assignment week 14
Cloise Shafira
Data Science Undergraduate at ITSB
1 Latar Belakang
Dalam era data-driven decision making, analisis statistik inferensial menjadi fondasi utama untuk menguji klaim bisnis, mengoptimalkan produk, dan meminimalkan risiko keputusan. Seri studi kasus ini mengaplikasikan metode hipotesis testing (Z-test, T-test, Chi-square) pada konteks nyata seperti platform pembelajaran digital, UX research, A/B testing, analisis pembayaran e-commerce, fraud detection, dan model prediksi churn.
2 CASE STUDY 1: One-Sample Z-Test
2.1 Uji Z Satu Sampel (Hipotesis Statistik)
Sebuah platform pembelajaran digital mengklaim bahwa rata-rata waktu belajar harian pengguna adalah 120 menit. Berdasarkan catatan historis, standar deviasi populasi diketahui sebesar 15 menit.
Sampel acak dari 64 pengguna menunjukkan rata-rata waktu belajar 116 menit.
\[μ₀ = 120\] \[σ = 15\] \[n = 64\] \[x̄ = 116\]
2.2 Tugas
- Rumuskan Hipotesis Nol (H₀) dan Hipotesis Alternatif (H₁).
- Identifikasi uji statistik yang tepat dan jelaskan alasan pemilihan Anda.
- Hitung statistik uji dan nilai p menggunakan α = 0,05.
- Nyatakan keputusan statistik.
- Interpretasikan hasil dalam konteks analisis bisnis.
2.3 Data
\(μ₀ = 120\)
\(σ = 15\)
\(n = 64\)
\(x̄ = 116\)
\(α = 0.0\)
2.4 Jawaban
1. Hipotesis
\(H₀: μ = 120\)
\(H₁: μ ≠ 120\)
Two-tailed test
2. Pilih Test: One-Sample Z-Test
- \(σ\) diketahui dan \(n ≥ 30\)
3. Perhitungan
2.4.1 Perhitungan Z-Test
2.4.1.1 Rumus:
\[Z = \frac{\bar{x} - \mu_0}{\frac{\sigma}{\sqrt{n}}}\]
2.4.1.2 Substitusi Nilai:
\[Z = \frac{116-120}{\frac{15}{\sqrt{64}}}\]
1. Hitung penyebut: \(\frac{15}{\sqrt{64}} = \frac{15}{8} = 1.875\)
2. Hitung pembilang: \(116-120 = -4\)
3. Hitung Z-score: \(Z = \frac{-4}{1.875} = -2.133\)
4. Hitung P-value (two-tailed): \(2 \times P(Z < -2.133) = 2 \times 0.0165 = 0.0329\)
| Parameter | Value |
|---|---|
| Sample Mean (x̄) | 116.0000 |
| Population Mean (μ₀) | 120.0000 |
| Population SD (σ) | 15.0000 |
| Sample Size (n) | 64.0000 |
| Z-score | -2.1333 |
| P-value (two-tailed) | 0.0329 |
4. Keputusan
\[P-value (0.033) < α (0.05)\]
\[Tolak \; H₀\]
5. Interpretasi
Rata-rata waktu belajar (116 menit) berbeda signifikan dari klaim 120 menit. Perusahaan harus mengevaluasi klaim marketing dan mencari penyebab mengapa engagement lebih rendah dari target.
3 CASE STUDY 2: One-Sample T-Test
3.1 Uji T Satu Sampel (\(σ\) Tidak Diketahui, Sampel Kecil)
Tim Riset UX menyelidiki apakah rata-rata waktu penyelesaian tugas pada aplikasi baru berbeda dari 10 menit.
Data berikut dikumpulkan dari 10 pengguna:
9,2; 10,5; 9,8; 10,1; 9,6; 10,3; 9,9; 9,7; 10,0; 9,5
3.2 Tugas
- Tentukan H₀ dan H₁ (dua arah).
- Tentukan uji hipotesis yang tepat.
- Hitung statistik t dan nilai p pada α = 0,05.
- Buat keputusan statistik.
- Jelaskan bagaimana ukuran sampel memengaruhi keandalan inferensi.
3.3 Data
9.2, 10.5, 9.8, 10.1, 9.6, 10.3, 9.9, 9.7, 10.0, 9.5
- \(H₀: μ = 10\)
- \(H₁: μ ≠ 10\)
3.4 Jawaban
1. Hipotesis
- \[H₀: μ = 10\]
- \[H₁: μ ≠ 10\]
- Two-tailed test
2. Pilih Test: One-Sample T-Test
- \(σ\) tidak diketahui, \(n\) kecil \((n = 10)\)
3. Perhitungan
| Parameter | Value |
|---|---|
| Sample Mean (x̄) | 9.8600 |
| Sample SD (s) | 0.3864 |
| Standard Error | 0.1222 |
| t-statistic | -1.1456 |
| Degrees of freedom | 9.0000 |
| P-value | 0.2815 |
4. Keputusan
- \[P-value (0.280) > α (0.05)\]
- \[Gagal \; tolak \; H₀\]
5. Sample Size dan Reliability - Dengan n = 10, SE = 0.122 (cukup besar) - Power rendah (~35-50%), risiko Type II Error tinggi - Jika n = 100, SE = 0.0386 (3x lebih kecil), power meningkat - Rekomendasi: Tambah sampel ke 30-50 untuk keputusan yang lebih reliable
4 CASE STUDY 3: Two-Sample T-Test (A/B Testing)
4.1 Uji T Dua Sampel (Pengujian A/B)
Tim analisis produk melakukan pengujian A/B untuk membandingkan rata-rata durasi sesi (menit) antara dua versi halaman landing.
4.2 Data
| Version | n | Mean | SD |
|---|---|---|---|
| A | 25 | 4.8 | 1.2 |
| B | 25 | 5.4 | 1.4 |
4.3 Tugas
- Rumuskan hipotesis nol dan alternatif.
- Identifikasi jenis uji t yang diperlukan.
- Hitung statistik uji dan nilai p.
- Tarik kesimpulan statistik pada α = 0,05.
- Interpretasikan hasil untuk pengambilan keputusan produk.
4.4 Jawaban
1. Hipotesis
- \(H₀: μ_A = μ_B\)
- \(H₁: μ_A ≠ μ_B\)
- Two-tailed test
2. Pilih Test: Independent Two-Sample T-Test
- Dua kelompok independen, σ tidak diketahui
3. Perhitungan
Perhitungan Two-Sample T-Test
Rumus: \[t = \frac{\bar{x}_1 - \bar{x}_2}{s_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}}\] \[s_p^2 = \frac{(n_1-1)s_1^2 + (n_2-1)s_2^2}{n_1 + n_2 - 2}\]
4.5 Perhitungan:
1. Hitung varians gabungan (pooled variance): \[s_p^2 = \frac{(25-1)(1.2)^2 + (25-1)(1.4)^2}{25 + 25 - 2} = 1.7\]
2. Hitung standar deviasi gabungan: \[s_p = \sqrt{1.7} = 1.3038\]
3. Hitung standard error: \[SE = 1.3038 \times \sqrt{\frac{1}{25} + \frac{1}{25}} = 0.3688\]
4. Hitung t-statistik: \[t = \frac{4.8-5.4}{0.3688} = -1.627\]
5. Hitung P-value (two-tailed) dengan df = 48: \[P = 2 \times P(T > 1.627) = 0.1103\]
| Parameter | Value |
|---|---|
| Sample 1 Mean | 4.8000 |
| Sample 2 Mean | 5.4000 |
| Sample 1 SD | 1.2000 |
| Sample 2 SD | 1.4000 |
| Sample 1 Size | 25.0000 |
| Sample 2 Size | 25.0000 |
| Degrees of Freedom | 48.0000 |
| t-statistic | -1.6270 |
| P-value (two-tailed) | 0.1103 |
4. Keputusan
\[P-value (0.111) > α (0.05)\]
\[Gagal \; tolak \; H₀\]
5. Product Decision
- Tidak ada perbedaan signifikan secara statistik
- Tapi perbedaan 12.5% (0.6 menit) bisa material untuk bisnis
- Power ≈ 40-50% (underpowered)
- Opsi: Lanjutkan test ke n = 100-200 atau deploy Versi B dengan monitoring ketat
5 CASE STUDY 4: Chi-Square Test
5.1 Uji Chi-Kuadrat Kemerdekaan
Sebuah perusahaan e-commerce memeriksa apakah jenis perangkat terkait dengan preferensi metode pembayaran.
5.2 Data Contingency Table
| Device/Payment | E-Wallet | Credit Card | COD | Total |
|---|---|---|---|---|
| Mobile | 120 | 80 | 50 | 250 |
| Desktop | 60 | 90 | 40 | 190 |
| Total | 180 | 170 | 90 | 440 |
5.3 Tugas
- Nyatakan Hipotesis Nol (H₀) dan Hipotesis Alternatif (H₁).
- Identifikasi uji statistik yang tepat.
- Hitung statistik Chi-Kuadrat (χ²).
- Tentukan nilai p pada α = 0,05.
- Interpretasikan hasil dalam strategi pembayaran digital.
5.4 Jawaban
1. Hipotesis
- \(H₀\): Device type dan payment method independen
- \(H₁\): Device type dan payment method tidak independen (ada hubungan)
2. Pilih Test: Chi-Square Test of Independence
- Data kategorikal, 2×3 contingency table
3. Perhitungan Expected Frequencies
| Device/Payment | E-Wallet | Credit Card | COD | Total |
|---|---|---|---|---|
| Mobile | 102 | 97 | 51 | 250 |
| Desktop | 78 | 73 | 39 | 190 |
| Total | 180 | 170 | 90 | 440 |
Semua E > 5 ✓
5.4.1 Perhitungan Chi-Square
\[\chi^2 = \sum \frac{(O - E)^2}{E} = 3.074 + 2.849 + 0.025 + 4.044 + 3.749 + 0.033 = 13.774\]
\[\text{df} = (r-1)(c-1) = (2-1)(3-1) = 2\]
\[\text{P-value} = P(\chi^2_{2} \geq 13.774) = 0.00102\]
| Komponen | Nilai | df | P-value |
|---|---|---|---|
| Sel 1 | 3.074 | ||
| Sel 2 | 2.849 | ||
| Sel 3 | 0.025 | ||
| Sel 4 | 4.044 | ||
| Sel 5 | 3.749 | ||
| Sel 6 | 0.033 | ||
| Total | 13.774 | 2 | 0.00102 |
4. Keputusan
- \[χ² (13.774) > {χ^2 critical} \; (5.991)\]
- \[Tolak \; H₀\]
5. Strategi Pembayaran
- Mobile users prefer E-Wallet (48% vs 31.6% desktop)
- Desktop users prefer Credit Card (47.4% vs 32% mobile)
- Strategi: Urutkan E-Wallet di atas untuk mobile, Credit Card di atas untuk desktop
- Estimasi ROI: +Rp 125-250 juta/bulan dengan optimization
- Implementasi: Fase 1 reorder payment options (1-2 bulan), Fase 2 adaptive UI (3-6 bulan)
6 CASE STUDY 5: Type I dan Type II Errors
6.1 Kesalahan Tipe I dan Tipe II (Konseptual)
Sebuah startup fintech menguji apakah algoritma deteksi penipuan baru mengurangi transaksi penipuan.
- \(H₀\): Algoritma baru tidak mengurangi penipuan.
- \(H₁\): Algoritma baru mengurangi penipuan.
6.2 Tugas
- Jelaskan Kesalahan Tipe I (α) dalam konteks ini.
- Jelaskan Kesalahan Tipe II (β) dalam konteks ini.
- Identifikasi kesalahan mana yang lebih mahal dari perspektif bisnis.
- Diskusikan bagaimana ukuran sampel memengaruhi Kesalahan Tipe II.
- Jelaskan hubungan antara α, β, dan daya statistik.
6.3 Konteks
H₀: Algoritma fraud baru tidak mengurangi fraud H₁: Algoritma fraud baru mengurangi fraud
6.4 Jawaban
1. Type I Error (α) - False Positive
- Kesalahan: Tolak H₀ padahal H₀ benar
- Artinya: Deploy algoritma tapi sebenarnya tidak efektif
- Contoh: Klaim algoritma menurunkan fraud 0.5%, tapi sebenarnya kebetulan atau seasonal
- Biaya: Rp 500M - 2B (one-time investment yang terbuang)
- Probabilitas: α = 0.05 (biasanya diterima dalam bisnis)
2. Type II Error (β) - False Negative
- Kesalahan: Gagal tolak H₀ padahal H₁ benar
- Artinya: Tidak deploy algoritma padahal sebenarnya efektif
- Contoh: Algoritma bisa turunkan fraud 0.3%, tapi sampel kecil jadi tidak terdeteksi
- Biaya: Rp 800M/bulan = Rp 9.6B/tahun (ongoing fraud losses)
- Probabilitas: β = 0.20 (dengan n kecil, bisa >0.5)
3. Error Mana Lebih Costly?
- Type II Error JAUH LEBIH COSTLY
- Type I: Rp 2B satu kali
- Type II: Rp 9.6B per tahun (terus-terusan)
- Dalam 3 bulan, Type II cost sudah exceed Type I total
4. Pengaruh Sample Size pada β
- \(SE = σ / √n\) → lebih besar n, SE lebih kecil
- \(n = 50\): Power \(≈ 35\%,\) \(β = 65\%\) (sangat tinggi)
- \(n = 500\): Power $≈ 92%, \(β = 8\%\) (acceptable)
- \(n = 1000\): Power $≈ 98%, \(β = 2\%\)
- Rekomendasi: Minimum n = 500-1000 untuk fraud detection
5. Hubungan \(α\), \(β\), dan Power
| α | β | Power | |
|---|---|---|---|
| α = 0.05 | 0.05 | 0.2 | 0.8 |
| α = 0.10 | 0.10 | 0.1 | 0.9 |
7 CASE STUDY 6: P-Value dan Decision Making
7.1 Nilai p dan Pengambilan Keputusan Statistik
Evaluasi model prediksi churn menghasilkan hasil berikut:
- Statistik uji = 2,31
- Nilai p = 0,021
- Tingkat signifikansi: α = 0,05
7.2 Tugas
- Jelaskan arti nilai p.
- Buat keputusan statistik.
- Terjemahkan keputusan ke dalam bahasa non-teknis untuk manajemen.
- Diskusikan risiko jika sampel tidak representatif.
- Jelaskan mengapa nilai p tidak mengukur ukuran efek.
7.3 Data
- Test statistic = 2.31
- P-value = 0.021
- \(α\) = 0.05
7.4 Jawaban
1. Arti P-Value
P-value = 0.021 artinya: “Jika model sebenarnya tidak efektif (H₀ benar), hanya 2.1% chance kita mendapat hasil seterbaik ini atau lebih baik”
Bukan:
- Probabilitas H₀ benar
- Probabilitas hasil karena kebetulan
- Ukuran effect size
- Probabilitas kita salah
2. Keputusan Statistik
- \[P-value (0.021) < α (0.05)\]
- \[Tolak \; H₀\]
- Model significantly lebih baik dari baseline
- Confidence \(95\%\)
3. Komunikasi ke Management
Model churn prediction terbukti efektif dan siap deploy.
- Confidence level: 95%
- Risk: 5% (terkontrol)
- Expected revenue protection: Rp 33.6B/tahun
- ROI: 3,140%
- Payback period: < 2 minggu
Rekomendasi: Pilot deployment 20-30% customer base selama 1-2 bulan dengan monitoring ketat.
4. Risiko Non-Representative Sample
Contoh: Model trained dari urban areas (80% sample) saja
- Testing: p-value = 0.021, accuracy 85% ✓
- Production: Deployed ke rural areas
- Hasil: Churn reduction hanya 20% dari proyeksi
Penyebab: Churn pattern rural vs urban berbeda
- Urban: churn karena kompetitor pricing
- Rural: churn karena network quality
Mitigation:
- Stratified sampling (urban/rural proporsional)
- Validate di berbagai segmen
- Production A/B test sebelum full rollout
- Monitor performance per segment
5. P-Value ≠ Effect Size
Contoh sama p-value (0.021), effect size berbeda:
Scenario A: Churn 10% → 5% (50% reduction) - n = 200, p = 0.021 - Effect size BESAR → Deploy
Scenario B: Churn 5% → 4.5% (10% reduction)
- n = 10,000, p = 0.021
- Effect size KECIL → Pertimbangkan ROI dulu
Key: Always report BOTH p-value dan effect size
- P-value: Apakah ada effect?
- Effect size: Seberapa besar effect?
- Confidence interval: Seberapa precise estimate?
- ROI: Apakah worth implementing?
8 References
Devore, J. L. (2015). Probability and Statistics for Engineering and the Sciences (9th Edition). Cengage Learning. (Emphasizes inference procedures, including t-tests, ANOVA, and nonparametric methods, with strong engineering examples.)
Hogg, R. V., McKean, J. W., & Craig, A. T. (2019). Introduction to Mathematical Statistics (8th Edition). Pearson. (Detailed coverage of statistical inference, Bayesian methods, and decision theory for technical audiences.)
Casella, G., & Berger, R. L. (2021). Statistical Inference (2nd Edition). Cengage Learning. (Advanced treatment of sufficiency, likelihood, and asymptotic inference, ideal for engineering grad students.)