Study Cases Statistical Inference ~ Assignment week 14
Cloise Shafira
Data Science Undergraduate at ITSB
1 Latar Belakang
Dalam era data-driven decision making, analisis statistik inferensial menjadi fondasi utama untuk menguji klaim bisnis, mengoptimalkan produk, dan meminimalkan risiko keputusan. Seri studi kasus ini mengaplikasikan metode hipotesis testing (Z-test, T-test, Chi-square) pada konteks nyata seperti platform pembelajaran digital, UX research, A/B testing, analisis pembayaran e-commerce, fraud detection, dan model prediksi churn.
2 CASE STUDY 1: One-Sample Z-Test
2.1 Uji Z Satu Sampel (Hipotesis Statistik)
Sebuah platform pembelajaran digital mengklaim bahwa rata-rata waktu belajar harian pengguna adalah 120 menit. Berdasarkan catatan historis, standar deviasi populasi diketahui sebesar 15 menit.
Sampel acak dari 64 pengguna menunjukkan rata-rata waktu belajar 116 menit.
μ₀ = 120 σ = 15 n = 64 x̄ = 116
2.2 Tugas
- Rumuskan Hipotesis Nol (H₀) dan Hipotesis Alternatif (H₁).
- Identifikasi uji statistik yang tepat dan jelaskan alasan pemilihan Anda.
- Hitung statistik uji dan nilai p menggunakan α = 0,05.
- Nyatakan keputusan statistik.
- Interpretasikan hasil dalam konteks analisis bisnis.
2.3 Data
μ₀ = 120, σ = 15, n = 64, x̄ = 116, α = 0.05
2.4 Jawaban
1. Hipotesis - H₀: μ = 120 - H₁: μ ≠ 120 - Two-tailed test
2. Pilih Test: One-Sample Z-Test - σ diketahui dan n ≥ 30
3. Perhitungan
2.4.1 Perhitungan Z-Test
2.4.1.1 Rumus:
\[Z = \frac{\bar{x} - \mu_0}{\frac{\sigma}{\sqrt{n}}}\]
2.4.1.2 Substitusi Nilai:
\[Z = \frac{116-120}{\frac{15}{\sqrt{64}}}\]
Perhitungan: 1. Hitung penyebut: \(\frac{15}{\sqrt{64}} = \frac{15}{8} = 1.875\)
Hitung pembilang: \(116-120 = -4\)
Hitung Z-score: \(Z = \frac{-4}{1.875} = -2.133\)
Hitung P-value (two-tailed): \(2 \times P(Z < -2.133) = 2 \times 0.0165 = 0.0329\)
| Parameter | Value |
|---|---|
| Sample Mean (x̄) | 116.0000 |
| Population Mean (μ₀) | 120.0000 |
| Population SD (σ) | 15.0000 |
| Sample Size (n) | 64.0000 |
| Z-score | -2.1333 |
| P-value (two-tailed) | 0.0329 |
4. Keputusan - P-value (0.033) < α (0.05) - Tolak H₀
5. Interpretasi Rata-rata waktu belajar (116 menit) berbeda signifikan dari klaim 120 menit. Perusahaan harus mengevaluasi klaim marketing dan mencari penyebab mengapa engagement lebih rendah dari target.
3 CASE STUDY 2: One-Sample T-Test
3.1 Uji T Satu Sampel (σ Tidak Diketahui, Sampel Kecil)
Tim Riset UX menyelidiki apakah rata-rata waktu penyelesaian tugas pada aplikasi baru berbeda dari 10 menit.
Data berikut dikumpulkan dari 10 pengguna:
9,2; 10,5; 9,8; 10,1; 9,6; 10,3; 9,9; 9,7; 10,0; 9,5
3.2 Tugas
- Tentukan H₀ dan H₁ (dua arah).
- Tentukan uji hipotesis yang tepat.
- Hitung statistik t dan nilai p pada α = 0,05.
- Buat keputusan statistik.
- Jelaskan bagaimana ukuran sampel memengaruhi keandalan inferensi.
3.3 Data
9.2, 10.5, 9.8, 10.1, 9.6, 10.3, 9.9, 9.7, 10.0, 9.5 H₀: μ = 10, H₁: μ ≠ 10
3.4 Jawaban
1. Hipotesis - H₀: μ = 10 - H₁: μ ≠ 10 - Two-tailed test
2. Pilih Test: One-Sample T-Test - σ tidak diketahui, n kecil (n = 10)
3. Perhitungan
| Parameter | Value |
|---|---|
| Sample Mean (x̄) | 9.8600 |
| Sample SD (s) | 0.3864 |
| Standard Error | 0.1222 |
| t-statistic | -1.1456 |
| Degrees of freedom | 9.0000 |
| P-value | 0.2815 |
4. Keputusan - P-value (0.280) > α (0.05) - Gagal tolak H₀
5. Sample Size dan Reliability - Dengan n = 10, SE = 0.122 (cukup besar) - Power rendah (~35-50%), risiko Type II Error tinggi - Jika n = 100, SE = 0.0386 (3x lebih kecil), power meningkat - Rekomendasi: Tambah sampel ke 30-50 untuk keputusan yang lebih reliable
4 CASE STUDY 3: Two-Sample T-Test (A/B Testing)
4.1 Uji T Dua Sampel (Pengujian A/B)
Tim analisis produk melakukan pengujian A/B untuk membandingkan rata-rata durasi sesi (menit) antara dua versi halaman landing.
4.2 Data
| Version | n | Mean | SD |
|---|---|---|---|
| A | 25 | 4.8 | 1.2 |
| B | 25 | 5.4 | 1.4 |
4.3 Tugas
- Rumuskan hipotesis nol dan alternatif.
- Identifikasi jenis uji t yang diperlukan.
- Hitung statistik uji dan nilai p.
- Tarik kesimpulan statistik pada α = 0,05.
- Interpretasikan hasil untuk pengambilan keputusan produk.
4.4 Jawaban
1. Hipotesis - H₀: μ_A = μ_B - H₁: μ_A ≠ μ_B - Two-tailed test
2. Pilih Test: Independent Two-Sample T-Test - Dua kelompok independen, σ tidak diketahui
3. Perhitungan ### Perhitungan Two-Sample T-Test
4.4.0.1 Rumus:
\[t = \frac{\bar{x}_1 - \bar{x}_2}{s_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}}\] \[s_p^2 = \frac{(n_1-1)s_1^2 + (n_2-1)s_2^2}{n_1 + n_2 - 2}\]
4.4.0.2 Perhitungan:
Hitung varians gabungan (pooled variance): \[s_p^2 = \frac{(25-1)(1.2)^2 + (25-1)(1.4)^2}{25 + 25 - 2} = 1.7\]
Hitung standar deviasi gabungan: \[s_p = \sqrt{1.7} = 1.3038\]
Hitung standard error: \[SE = 1.3038 \times \sqrt{\frac{1}{25} + \frac{1}{25}} = 0.3688\]
Hitung t-statistik: \[t = \frac{4.8-5.4}{0.3688} = -1.627\]
Hitung P-value (two-tailed) dengan df = 48: \[P = 2 \times P(T > 1.627) = 0.1103\]
| Parameter | Value |
|---|---|
| Sample 1 Mean | 4.8000 |
| Sample 2 Mean | 5.4000 |
| Sample 1 SD | 1.2000 |
| Sample 2 SD | 1.4000 |
| Sample 1 Size | 25.0000 |
| Sample 2 Size | 25.0000 |
| Degrees of Freedom | 48.0000 |
| t-statistic | -1.6270 |
| P-value (two-tailed) | 0.1103 |
4. Keputusan - P-value (0.111) > α (0.05) - Gagal tolak H₀
5. Product Decision - Tidak ada perbedaan signifikan secara statistik - Tapi perbedaan 12.5% (0.6 menit) bisa material untuk bisnis - Power ≈ 40-50% (underpowered) - Opsi: Lanjutkan test ke n = 100-200 atau deploy Versi B dengan monitoring ketat
5 CASE STUDY 4: Chi-Square Test
5.1 Uji Chi-Kuadrat Kemerdekaan
Sebuah perusahaan e-commerce memeriksa apakah jenis perangkat terkait dengan preferensi metode pembayaran.
5.2 Data Contingency Table
| Device/Payment | E-Wallet | Credit Card | COD | Total |
|---|---|---|---|---|
| Mobile | 120 | 80 | 50 | 250 |
| Desktop | 60 | 90 | 40 | 190 |
| Total | 180 | 170 | 90 | 440 |
5.3 Tugas
- Nyatakan Hipotesis Nol (H₀) dan Hipotesis Alternatif (H₁).
- Identifikasi uji statistik yang tepat.
- Hitung statistik Chi-Kuadrat (χ²).
- Tentukan nilai p pada α = 0,05.
- Interpretasikan hasil dalam strategi pembayaran digital.
5.4 Jawaban
1. Hipotesis - H₀: Device type dan payment method independen - H₁: Device type dan payment method tidak independen (ada hubungan)
2. Pilih Test: Chi-Square Test of Independence - Data kategorikal, 2×3 contingency table
3. Perhitungan Expected Frequencies
| Device/Payment | E-Wallet | Credit Card | COD | Total |
|---|---|---|---|---|
| Mobile | 102 | 97 | 51 | 250 |
| Desktop | 78 | 73 | 39 | 190 |
| Total | 180 | 170 | 90 | 440 |
Semua E > 5 ✓
5.4.1 Perhitungan Chi-Square
\[\chi^2 = \sum \frac{(O - E)^2}{E} = 3.074 + 2.849 + 0.025 + 4.044 + 3.749 + 0.033 = 13.774\]
\[\text{df} = (r-1)(c-1) = (2-1)(3-1) = 2\]
\[\text{P-value} = P(\chi^2_{2} \geq 13.774) = 0.00102\]
| Komponen | Nilai | df | P-value |
|---|---|---|---|
| Sel 1 | 3.074 | ||
| Sel 2 | 2.849 | ||
| Sel 3 | 0.025 | ||
| Sel 4 | 4.044 | ||
| Sel 5 | 3.749 | ||
| Sel 6 | 0.033 | ||
| Total | 13.774 | 2 | 0.00102 |
4. Keputusan - χ² (13.774) > χ²_critical (5.991) - Tolak H₀
5. Strategi Pembayaran - Mobile users prefer E-Wallet (48% vs 31.6% desktop) - Desktop users prefer Credit Card (47.4% vs 32% mobile) - Strategi: Urutkan E-Wallet di atas untuk mobile, Credit Card di atas untuk desktop - Estimasi ROI: +Rp 125-250 juta/bulan dengan optimization - Implementasi: Fase 1 reorder payment options (1-2 bulan), Fase 2 adaptive UI (3-6 bulan)
6 CASE STUDY 5: Type I dan Type II Errors
6.1 Kesalahan Tipe I dan Tipe II (Konseptual)
Sebuah startup fintech menguji apakah algoritma deteksi penipuan baru mengurangi transaksi penipuan.
- H₀: Algoritma baru tidak mengurangi penipuan.
- H₁: Algoritma baru mengurangi penipuan.
6.2 Tugas
- Jelaskan Kesalahan Tipe I (α) dalam konteks ini.
- Jelaskan Kesalahan Tipe II (β) dalam konteks ini.
- Identifikasi kesalahan mana yang lebih mahal dari perspektif bisnis.
- Diskusikan bagaimana ukuran sampel memengaruhi Kesalahan Tipe II.
- Jelaskan hubungan antara α, β, dan daya statistik.
6.3 Konteks
H₀: Algoritma fraud baru tidak mengurangi fraud H₁: Algoritma fraud baru mengurangi fraud
6.4 Jawaban
1. Type I Error (α) - False Positive - Kesalahan: Tolak H₀ padahal H₀ benar - Artinya: Deploy algoritma tapi sebenarnya tidak efektif - Contoh: Klaim algoritma menurunkan fraud 0.5%, tapi sebenarnya kebetulan atau seasonal - Biaya: Rp 500M - 2B (one-time investment yang terbuang) - Probabilitas: α = 0.05 (biasanya diterima dalam bisnis)
2. Type II Error (β) - False Negative - Kesalahan: Gagal tolak H₀ padahal H₁ benar - Artinya: Tidak deploy algoritma padahal sebenarnya efektif - Contoh: Algoritma bisa turunkan fraud 0.3%, tapi sampel kecil jadi tidak terdeteksi - Biaya: Rp 800M/bulan = Rp 9.6B/tahun (ongoing fraud losses) - Probabilitas: β = 0.20 (dengan n kecil, bisa >0.5)
3. Error Mana Lebih Costly? - Type II Error JAUH LEBIH COSTLY - Type I: Rp 2B satu kali - Type II: Rp 9.6B per tahun (terus-terusan) - Dalam 3 bulan, Type II cost sudah exceed Type I total
4. Pengaruh Sample Size pada β - SE = σ / √n → lebih besar n, SE lebih kecil - n = 50: Power ≈ 35%, β = 65% (sangat tinggi) - n = 500: Power ≈ 92%, β = 8% (acceptable) - n = 1000: Power ≈ 98%, β = 2% - Rekomendasi: Minimum n = 500-1000 untuk fraud detection
5. Hubungan α, β, dan Power
| α | β | Power | |
|---|---|---|---|
| α = 0.05 | 0.05 | 0.2 | 0.8 |
| α = 0.10 | 0.10 | 0.1 | 0.9 |
7 CASE STUDY 6: P-Value dan Decision Making
7.1 Nilai p dan Pengambilan Keputusan Statistik
Evaluasi model prediksi churn menghasilkan hasil berikut:
- Statistik uji = 2,31
- Nilai p = 0,021
- Tingkat signifikansi: α = 0,05
7.2 Tugas
- Jelaskan arti nilai p.
- Buat keputusan statistik.
- Terjemahkan keputusan ke dalam bahasa non-teknis untuk manajemen.
- Diskusikan risiko jika sampel tidak representatif.
- Jelaskan mengapa nilai p tidak mengukur ukuran efek.
7.3 Data
- Test statistic = 2.31
- P-value = 0.021
- α = 0.05
7.4 Jawaban
1. Arti P-Value
P-value = 0.021 artinya: “Jika model sebenarnya tidak efektif (H₀ benar), hanya 2.1% chance kita mendapat hasil seterbaik ini atau lebih baik”
Bukan: - Probabilitas H₀ benar - Probabilitas hasil karena kebetulan - Ukuran effect size - Probabilitas kita salah
2. Keputusan Statistik - P-value (0.021) < α (0.05) - Tolak H₀ - Model significantly lebih baik dari baseline - Confidence 95%
3. Komunikasi ke Management Model churn prediction terbukti efektif dan siap deploy. - Confidence level: 95% - Risk: 5% (terkontrol) - Expected revenue protection: Rp 33.6B/tahun - ROI: 3,140% - Payback period: < 2 minggu
Rekomendasi: Pilot deployment 20-30% customer base selama 1-2 bulan dengan monitoring ketat.
4. Risiko Non-Representative Sample
Contoh: Model trained dari urban areas (80% sample) saja - Testing: p-value = 0.021, accuracy 85% ✓ - Production: Deployed ke rural areas - Hasil: Churn reduction hanya 20% dari proyeksi
Penyebab: Churn pattern rural vs urban berbeda - Urban: churn karena kompetitor pricing - Rural: churn karena network quality
Mitigation: - Stratified sampling (urban/rural proporsional) - Validate di berbagai segmen - Production A/B test sebelum full rollout - Monitor performance per segment
5. P-Value ≠ Effect Size
Contoh sama p-value (0.021), effect size berbeda:
Scenario A: Churn 10% → 5% (50% reduction) - n = 200, p = 0.021 - Effect size BESAR → Deploy
Scenario B: Churn 5% → 4.5% (10% reduction) - n = 10,000, p = 0.021 - Effect size KECIL → Pertimbangkan ROI dulu
Key: Always report BOTH p-value dan effect size - P-value: Apakah ada effect? - Effect size: Seberapa besar effect? - Confidence interval: Seberapa precise estimate? - ROI: Apakah worth implementing?
8 References
Devore, J. L. (2015). Probability and Statistics for Engineering and the Sciences (9th Edition). Cengage Learning. (Emphasizes inference procedures, including t-tests, ANOVA, and nonparametric methods, with strong engineering examples.)
Hogg, R. V., McKean, J. W., & Craig, A. T. (2019). Introduction to Mathematical Statistics (8th Edition). Pearson. (Detailed coverage of statistical inference, Bayesian methods, and decision theory for technical audiences.)
Casella, G., & Berger, R. L. (2021). Statistical Inference (2nd Edition). Cengage Learning. (Advanced treatment of sufficiency, likelihood, and asymptotic inference, ideal for engineering grad students.)