Study Cases Statistical Inference ~ Assignment week 14

Cloise Shafira

Data Science Undergraduate at ITSB

1 Latar Belakang

Dalam era data-driven decision making, analisis statistik inferensial menjadi fondasi utama untuk menguji klaim bisnis, mengoptimalkan produk, dan meminimalkan risiko keputusan. Seri studi kasus ini mengaplikasikan metode hipotesis testing (Z-test, T-test, Chi-square) pada konteks nyata seperti platform pembelajaran digital, UX research, A/B testing, analisis pembayaran e-commerce, fraud detection, dan model prediksi churn.

2 CASE STUDY 1: One-Sample Z-Test

2.1 Uji Z Satu Sampel (Hipotesis Statistik)

Sebuah platform pembelajaran digital mengklaim bahwa rata-rata waktu belajar harian pengguna adalah 120 menit. Berdasarkan catatan historis, standar deviasi populasi diketahui sebesar 15 menit.

Sampel acak dari 64 pengguna menunjukkan rata-rata waktu belajar 116 menit.

\[μ₀ = 120\] \[σ = 15\] \[n = 64\] \[x̄ = 116\]

2.2 Tugas

  1. Rumuskan Hipotesis Nol (H₀) dan Hipotesis Alternatif (H₁).
  2. Identifikasi uji statistik yang tepat dan jelaskan alasan pemilihan Anda.
  3. Hitung statistik uji dan nilai p menggunakan α = 0,05.
  4. Nyatakan keputusan statistik.
  5. Interpretasikan hasil dalam konteks analisis bisnis.

2.3 Data

  • \(μ₀ = 120\)

  • \(σ = 15\)

  • \(n = 64\)

  • \(x̄ = 116\)

  • \(α = 0.0\)

2.4 Jawaban

1. Hipotesis

  • \(H₀: μ = 120\)

  • \(H₁: μ ≠ 120\)

  • Two-tailed test

2. Pilih Test: One-Sample Z-Test

  • \(σ\) diketahui dan \(n ≥ 30\)

3. Perhitungan

2.4.1 Perhitungan Z-Test

2.4.1.1 Rumus:

\[Z = \frac{\bar{x} - \mu_0}{\frac{\sigma}{\sqrt{n}}}\]

2.4.1.2 Substitusi Nilai:

\[Z = \frac{116-120}{\frac{15}{\sqrt{64}}}\]

1. Hitung penyebut: \(\frac{15}{\sqrt{64}} = \frac{15}{8} = 1.875\)

2. Hitung pembilang: \(116-120 = -4\)

3. Hitung Z-score: \(Z = \frac{-4}{1.875} = -2.133\)

4. Hitung P-value (two-tailed): \(2 \times P(Z < -2.133) = 2 \times 0.0165 = 0.0329\)

Z-Test Results
Parameter Value
Sample Mean (x̄) 116.0000
Population Mean (μ₀) 120.0000
Population SD (σ) 15.0000
Sample Size (n) 64.0000
Z-score -2.1333
P-value (two-tailed) 0.0329

4. Keputusan

  • \[P-value (0.033) < α (0.05)\]

  • \[Tolak \; H₀\]

5. Interpretasi

Rata-rata waktu belajar (116 menit) berbeda signifikan dari klaim 120 menit. Perusahaan harus mengevaluasi klaim marketing dan mencari penyebab mengapa engagement lebih rendah dari target.

3 CASE STUDY 2: One-Sample T-Test

3.1 Uji T Satu Sampel (\(σ\) Tidak Diketahui, Sampel Kecil)

Tim Riset UX menyelidiki apakah rata-rata waktu penyelesaian tugas pada aplikasi baru berbeda dari 10 menit.

Data berikut dikumpulkan dari 10 pengguna:

9,2; 10,5; 9,8; 10,1; 9,6; 10,3; 9,9; 9,7; 10,0; 9,5

3.2 Tugas

  1. Tentukan H₀ dan H₁ (dua arah).
  2. Tentukan uji hipotesis yang tepat.
  3. Hitung statistik t dan nilai p pada α = 0,05.
  4. Buat keputusan statistik.
  5. Jelaskan bagaimana ukuran sampel memengaruhi keandalan inferensi.

3.3 Data

9.2, 10.5, 9.8, 10.1, 9.6, 10.3, 9.9, 9.7, 10.0, 9.5

  • \(H₀: μ = 10\)
  • \(H₁: μ ≠ 10\)

3.4 Jawaban

1. Hipotesis

  • \[H₀: μ = 10\]
  • \[H₁: μ ≠ 10\]
  • Two-tailed test

2. Pilih Test: One-Sample T-Test

  • \(σ\) tidak diketahui, \(n\) kecil \((n = 10)\)

3. Perhitungan

T-Test Results for A/B Testing
Parameter Value
Sample Mean (x̄) 9.8600
Sample SD (s) 0.3864
Standard Error 0.1222
t-statistic -1.1456
Degrees of freedom 9.0000
P-value 0.2815

4. Keputusan

  • \[P-value (0.280) > α (0.05)\]
  • \[Gagal \; tolak \; H₀\]

5. Sample Size dan Reliability - Dengan n = 10, SE = 0.122 (cukup besar) - Power rendah (~35-50%), risiko Type II Error tinggi - Jika n = 100, SE = 0.0386 (3x lebih kecil), power meningkat - Rekomendasi: Tambah sampel ke 30-50 untuk keputusan yang lebih reliable


4 CASE STUDY 3: Two-Sample T-Test (A/B Testing)

4.1 Uji T Dua Sampel (Pengujian A/B)

Tim analisis produk melakukan pengujian A/B untuk membandingkan rata-rata durasi sesi (menit) antara dua versi halaman landing.

4.2 Data

Version n Mean SD
A 25 4.8 1.2
B 25 5.4 1.4

4.3 Tugas

  1. Rumuskan hipotesis nol dan alternatif.
  2. Identifikasi jenis uji t yang diperlukan.
  3. Hitung statistik uji dan nilai p.
  4. Tarik kesimpulan statistik pada α = 0,05.
  5. Interpretasikan hasil untuk pengambilan keputusan produk.

4.4 Jawaban

1. Hipotesis

  • \(H₀: μ_A = μ_B\)
  • \(H₁: μ_A ≠ μ_B\)
  • Two-tailed test

2. Pilih Test: Independent Two-Sample T-Test

  • Dua kelompok independen, σ tidak diketahui

3. Perhitungan

Perhitungan Two-Sample T-Test

Rumus: \[t = \frac{\bar{x}_1 - \bar{x}_2}{s_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}}\] \[s_p^2 = \frac{(n_1-1)s_1^2 + (n_2-1)s_2^2}{n_1 + n_2 - 2}\]

4.5 Perhitungan:

1. Hitung varians gabungan (pooled variance): \[s_p^2 = \frac{(25-1)(1.2)^2 + (25-1)(1.4)^2}{25 + 25 - 2} = 1.7\]

2. Hitung standar deviasi gabungan: \[s_p = \sqrt{1.7} = 1.3038\]

3. Hitung standard error: \[SE = 1.3038 \times \sqrt{\frac{1}{25} + \frac{1}{25}} = 0.3688\]

4. Hitung t-statistik: \[t = \frac{4.8-5.4}{0.3688} = -1.627\]

5. Hitung P-value (two-tailed) dengan df = 48: \[P = 2 \times P(T > 1.627) = 0.1103\]

Two-Sample T-Test Results
Parameter Value
Sample 1 Mean 4.8000
Sample 2 Mean 5.4000
Sample 1 SD 1.2000
Sample 2 SD 1.4000
Sample 1 Size 25.0000
Sample 2 Size 25.0000
Degrees of Freedom 48.0000
t-statistic -1.6270
P-value (two-tailed) 0.1103

4. Keputusan

  • \[P-value (0.111) > α (0.05)\]

  • \[Gagal \; tolak \; H₀\]

5. Product Decision

  • Tidak ada perbedaan signifikan secara statistik
  • Tapi perbedaan 12.5% (0.6 menit) bisa material untuk bisnis
  • Power ≈ 40-50% (underpowered)
  • Opsi: Lanjutkan test ke n = 100-200 atau deploy Versi B dengan monitoring ketat

5 CASE STUDY 4: Chi-Square Test

5.1 Uji Chi-Kuadrat Kemerdekaan

Sebuah perusahaan e-commerce memeriksa apakah jenis perangkat terkait dengan preferensi metode pembayaran.

5.2 Data Contingency Table

Device/Payment E-Wallet Credit Card COD Total
Mobile 120 80 50 250
Desktop 60 90 40 190
Total 180 170 90 440

5.3 Tugas

  1. Nyatakan Hipotesis Nol (H₀) dan Hipotesis Alternatif (H₁).
  2. Identifikasi uji statistik yang tepat.
  3. Hitung statistik Chi-Kuadrat (χ²).
  4. Tentukan nilai p pada α = 0,05.
  5. Interpretasikan hasil dalam strategi pembayaran digital.

5.4 Jawaban

1. Hipotesis

  • \(H₀\): Device type dan payment method independen
  • \(H₁\): Device type dan payment method tidak independen (ada hubungan)

2. Pilih Test: Chi-Square Test of Independence

  • Data kategorikal, 2×3 contingency table

3. Perhitungan Expected Frequencies

Device/Payment E-Wallet Credit Card COD Total
Mobile 102 97 51 250
Desktop 78 73 39 190
Total 180 170 90 440

Semua E > 5 ✓

5.4.1 Perhitungan Chi-Square

\[\chi^2 = \sum \frac{(O - E)^2}{E} = 3.074 + 2.849 + 0.025 + 4.044 + 3.749 + 0.033 = 13.774\]

\[\text{df} = (r-1)(c-1) = (2-1)(3-1) = 2\]

\[\text{P-value} = P(\chi^2_{2} \geq 13.774) = 0.00102\]

Hasil Perhitungan Chi-Square
Komponen Nilai df P-value
Sel 1 3.074
Sel 2 2.849
Sel 3 0.025
Sel 4 4.044
Sel 5 3.749
Sel 6 0.033
Total 13.774 2 0.00102

4. Keputusan

  • \[χ² (13.774) > {χ^2 critical} \; (5.991)\]
  • \[Tolak \; H₀\]

5. Strategi Pembayaran

  • Mobile users prefer E-Wallet (48% vs 31.6% desktop)
  • Desktop users prefer Credit Card (47.4% vs 32% mobile)
  • Strategi: Urutkan E-Wallet di atas untuk mobile, Credit Card di atas untuk desktop
  • Estimasi ROI: +Rp 125-250 juta/bulan dengan optimization
  • Implementasi: Fase 1 reorder payment options (1-2 bulan), Fase 2 adaptive UI (3-6 bulan)

6 CASE STUDY 5: Type I dan Type II Errors

6.1 Kesalahan Tipe I dan Tipe II (Konseptual)

Sebuah startup fintech menguji apakah algoritma deteksi penipuan baru mengurangi transaksi penipuan.

  • \(H₀\): Algoritma baru tidak mengurangi penipuan.
  • \(H₁\): Algoritma baru mengurangi penipuan.

6.2 Tugas

  1. Jelaskan Kesalahan Tipe I (α) dalam konteks ini.
  2. Jelaskan Kesalahan Tipe II (β) dalam konteks ini.
  3. Identifikasi kesalahan mana yang lebih mahal dari perspektif bisnis.
  4. Diskusikan bagaimana ukuran sampel memengaruhi Kesalahan Tipe II.
  5. Jelaskan hubungan antara α, β, dan daya statistik.

6.3 Konteks

H₀: Algoritma fraud baru tidak mengurangi fraud H₁: Algoritma fraud baru mengurangi fraud

6.4 Jawaban

1. Type I Error (α) - False Positive

  • Kesalahan: Tolak H₀ padahal H₀ benar
  • Artinya: Deploy algoritma tapi sebenarnya tidak efektif
  • Contoh: Klaim algoritma menurunkan fraud 0.5%, tapi sebenarnya kebetulan atau seasonal
  • Biaya: Rp 500M - 2B (one-time investment yang terbuang)
  • Probabilitas: α = 0.05 (biasanya diterima dalam bisnis)

2. Type II Error (β) - False Negative

  • Kesalahan: Gagal tolak H₀ padahal H₁ benar
  • Artinya: Tidak deploy algoritma padahal sebenarnya efektif
  • Contoh: Algoritma bisa turunkan fraud 0.3%, tapi sampel kecil jadi tidak terdeteksi
  • Biaya: Rp 800M/bulan = Rp 9.6B/tahun (ongoing fraud losses)
  • Probabilitas: β = 0.20 (dengan n kecil, bisa >0.5)

3. Error Mana Lebih Costly?

  • Type II Error JAUH LEBIH COSTLY
  • Type I: Rp 2B satu kali
  • Type II: Rp 9.6B per tahun (terus-terusan)
  • Dalam 3 bulan, Type II cost sudah exceed Type I total

4. Pengaruh Sample Size pada β

  • \(SE = σ / √n\) → lebih besar n, SE lebih kecil
  • \(n = 50\): Power \(≈ 35\%,\) \(β = 65\%\) (sangat tinggi)
  • \(n = 500\): Power $≈ 92%, \(β = 8\%\) (acceptable)
  • \(n = 1000\): Power $≈ 98%, \(β = 2\%\)
  • Rekomendasi: Minimum n = 500-1000 untuk fraud detection

5. Hubungan \(α\), \(β\), dan Power

Hubungan α, β, dan Power
α β Power
α = 0.05 0.05 0.2 0.8
α = 0.10 0.10 0.1 0.9

7 CASE STUDY 6: P-Value dan Decision Making

7.1 Nilai p dan Pengambilan Keputusan Statistik

Evaluasi model prediksi churn menghasilkan hasil berikut:

  • Statistik uji = 2,31
  • Nilai p = 0,021
  • Tingkat signifikansi: α = 0,05

7.2 Tugas

  1. Jelaskan arti nilai p.
  2. Buat keputusan statistik.
  3. Terjemahkan keputusan ke dalam bahasa non-teknis untuk manajemen.
  4. Diskusikan risiko jika sampel tidak representatif.
  5. Jelaskan mengapa nilai p tidak mengukur ukuran efek.

7.3 Data

  • Test statistic = 2.31
  • P-value = 0.021
  • \(α\) = 0.05

7.4 Jawaban

1. Arti P-Value

P-value = 0.021 artinya: “Jika model sebenarnya tidak efektif (H₀ benar), hanya 2.1% chance kita mendapat hasil seterbaik ini atau lebih baik”

Bukan:

  • Probabilitas H₀ benar
  • Probabilitas hasil karena kebetulan
  • Ukuran effect size
  • Probabilitas kita salah

2. Keputusan Statistik

  • \[P-value (0.021) < α (0.05)\]
  • \[Tolak \; H₀\]
  • Model significantly lebih baik dari baseline
  • Confidence \(95\%\)

3. Komunikasi ke Management

Model churn prediction terbukti efektif dan siap deploy.

  • Confidence level: 95%
  • Risk: 5% (terkontrol)
  • Expected revenue protection: Rp 33.6B/tahun
  • ROI: 3,140%
  • Payback period: < 2 minggu

Rekomendasi: Pilot deployment 20-30% customer base selama 1-2 bulan dengan monitoring ketat.

4. Risiko Non-Representative Sample

Contoh: Model trained dari urban areas (80% sample) saja

  • Testing: p-value = 0.021, accuracy 85% ✓
  • Production: Deployed ke rural areas
  • Hasil: Churn reduction hanya 20% dari proyeksi

Penyebab: Churn pattern rural vs urban berbeda

  • Urban: churn karena kompetitor pricing
  • Rural: churn karena network quality

Mitigation:

  • Stratified sampling (urban/rural proporsional)
  • Validate di berbagai segmen
  • Production A/B test sebelum full rollout
  • Monitor performance per segment

5. P-Value ≠ Effect Size

Contoh sama p-value (0.021), effect size berbeda:

Scenario A: Churn 10% → 5% (50% reduction) - n = 200, p = 0.021 - Effect size BESAR → Deploy

Scenario B: Churn 5% → 4.5% (10% reduction)

  • n = 10,000, p = 0.021
  • Effect size KECIL → Pertimbangkan ROI dulu

Key: Always report BOTH p-value dan effect size

  • P-value: Apakah ada effect?
  • Effect size: Seberapa besar effect?
  • Confidence interval: Seberapa precise estimate?
  • ROI: Apakah worth implementing?

8 References

  1. Devore, J. L. (2015). Probability and Statistics for Engineering and the Sciences (9th Edition). Cengage Learning. (Emphasizes inference procedures, including t-tests, ANOVA, and nonparametric methods, with strong engineering examples.)

  2. Hogg, R. V., McKean, J. W., & Craig, A. T. (2019). Introduction to Mathematical Statistics (8th Edition). Pearson. (Detailed coverage of statistical inference, Bayesian methods, and decision theory for technical audiences.)

  3. Casella, G., & Berger, R. L. (2021). Statistical Inference (2nd Edition). Cengage Learning. (Advanced treatment of sufficiency, likelihood, and asymptotic inference, ideal for engineering grad students.)