Study Cases
Statistical Inferences ~ Week 14 ~
R Programming Data Science Statistics
1 Studi Kasus 1
1.1 One-Sample Z-Test
Diketahui:
- Rata-rata klaim populasi (μ₀) = 120 menit
- Simpangan baku populasi (σ) = 15 menit
- Ukuran sampel (n) = 64 pengguna
- Rata-rata sampel (x̄) = 116 menit
- Taraf signifikansi (α) = 0.05
1.2 Formulasi Hipotesis
Karena platform mengklaim rata-rata = 120 menit dan kita ingin mengecek apakah data berbeda dari klaim tersebut, maka digunakan uji dua arah.
H₀ (Hipotesis Nol):
\[𝐻₀:𝜇=120\]
H₁ (Hipotesis Alternatif):
\[ H_1: \mu \neq 120\]
1.3 Identifikasi Uji Statistik dan Justifikasi
Uji statistik yang digunakan adalah One-Sample Z-Test, karena:
- Simpangan baku populasi (σ) diketahui
- Ukuran sampel cukup besar (n = 64 ≥ 30)
- Tujuan pengujian adalah membandingkan rata-rata sampel dengan rata-rata populasi
1.4 Menghitung Statistik Uji dan p-value*
Rumus statistik uji Z:
\[Z = \frac{\bar{x} - \mu_0}{\sigma /
\sqrt{n}}\]
Substitusi nilai:
\[Z = \frac{116 - 120}{15 /
\sqrt{64}}\]
\[Z = \frac{-4}{15/8} = \frac{-4}{1.875} = -2.13\]
Nilai statistik uji:
\[Z = -2.13\] p-value (uji dua
arah):
\[p\text{-value} = 2 \times P(Z < -2.13)
\approx 2 \times 0.0165 = 0.033\]
1.5 Keputusan Statistik
- p-value = 0.033
- α = 0.05
Karena:
p-value<α
keputusan:
Tolak H₀
1.6 Interpretasi dalam Konteks Business Analytics
Secara statistik, terdapat bukti yang cukup bahwa rata-rata waktu belajar harian pengguna berbeda secara signifikan dari klaim platform sebesar 120 menit.
Dalam konteks bisnis:
- Pengguna belajar lebih sedikit dari yang diklaim
- Klaim pemasaran platform perlu dievaluasi ulang
- Perusahaan dapat mempertimbangkan:
• Peningkatan fitur engagement
• Strategi untuk meningkatkan durasi belajar pengguna
• Penyesuaian ekspektasi dalam laporan performa
2 Studi Kasus 2
2.1 One-Sample T-Test (σ Unknown, Small Sample)
Diketahui:
- Klaim rata-rata (μ₀) = 10 menit
- Ukuran sampel (n) = 10
- Data waktu (menit):9.2, 10.5, 9.8, 10.1, 9.6, 10.3, 9.9, 9.7, 10.0,
9.5
- Taraf signifikansi (α) = 0.05
2.2 Hipotesis (Two-Tailed)
H₀ (Hipotesis Nol):
\[H₀: μ = 10 menit\]
H₁ (Hipotesis Alternatif): \[H₁: μ ≠ 10
menit\]
2.3 Uji Statistik
One-Sample t-Test
Alasan:
- Simpangan baku populasi (σ) tidak diketahui
- Ukuran sampel kecil (n= 10 < 30)
- Menguji rata-rata satu sampel terhadap nilai tertentu
2.4 Menghitung Statistik Uji dan p-value
Dari data sampel diperoleh nilai:
Rata-rata sampel (x̄) = 9.86 menit
Simpangan baku sampel (s) ≈ 0.39 menit
Rumus statistik uji t: \[t = \frac{\bar{x} - \mu_0}{s / \sqrt{n}}\] Substitusi nilai: \[t = \frac{9.86 - 10}{0.39 / \sqrt{10}}\] \[t \approx -1.15\] Nilai statistik uji: \[t=−1.15\] Dengan derajat kebebasan (df) = 9, diperoleh p-value (uji dua arah) sekitar 0.28.
2.5 Keputusan Statistik
p-value = 0.28
α = 0.05
Karena:
\[p\text{-value} > \alpha\]
Keputusan:
Gagal menolak H₀
2.6 Interpretasi dan Pengaruh Ukuran Sampel
Secara statistik, tidak terdapat bukti yang cukup untuk menyatakan bahwa rata-rata waktu penyelesaian tugas pada aplikasi baru berbeda dari 10 menit. Perbedaan yang terlihat kemungkinan disebabkan oleh variasi sampel.
Ukuran sampel yang kecil dapat memengaruhi keandalan inferensi statistik karena variabilitas data menjadi lebih besar dan kekuatan uji menjadi lebih rendah. Dengan ukuran sampel yang lebih besar, hasil pengujian statistik cenderung lebih stabil dan kesimpulan yang diambil menjadi lebih andal.
3 Studi Kasus 3
3.1 Two-Sample T-Test (A/B Testing)
Sebuah tim product analytics melakukan A/B testing untuk membandingkan rata-rata durasi sesi (dalam menit) antara dua versi landing page.
| Versi | Ukuran Sampel (n) | Rata-rata (menit) | Simpangan Baku |
|---|---|---|---|
| A | 25 | 4.8 | 1.2 |
| B | 25 | 5.4 | 1.4 |
Tujuan analisis adalah menentukan apakah terdapat perbedaan rata-rata durasi sesi antara kedua versi halaman.
3.2 Formulasi Hipotesis
Karena ingin mengetahui apakah terdapat perbedaan rata-rata antara dua versi landing page, maka digunakan uji dua arah.
H₀ (Hipotesis Nol): \[H_0: \mu_A = \mu_B\] H₁ (Hipotesis Alternatif): \[H_1: \mu_A \neq \mu_B\]
3.3 Identifikasi Jenis Uji t
Uji statistik yang digunakan adalah Two-Sample t-Test (Welch’s t-test), karena:
- Dua sampel bersifat independen
- Simpangan baku populasi tidak diketahui
- Simpangan baku kedua kelompok tidak diasumsikan sama
3.4 Menghitung Statistik Uji dan p-value
Rumus statistik uji t (Welch): \[t =
\frac{\bar{x}_A - \bar{x}_B}{\sqrt{\frac{s_A^2}{n_A} +
\frac{s_B^2}{n_B}}}\] Substitusi nilai: \[t = \frac{4.8 - 5.4}{\sqrt{\frac{1.2^2}{25} +
\frac{1.4^2}{25}}}\]
\[t = \frac{-0.6}{\sqrt{0.0576 +
0.0784}}\] \[t = \frac{-0.6}{0.369}
\approx -1.63\] Nilai statistik uji: \[t \approx -1.63\] Derajat kebebasan (Welch
approximation) ≈ 47.
Dengan uji dua arah, diperoleh p-value ≈ 0.11.
3.5 Keputusan Statistik (α = 0.05)
- p-value = 0.11
- α = 0.05
Karena:
p-value>α
keputusan:
Gagal menolak H₀
3.6 nterpretasi untuk Pengambilan Keputusan Produk
Secara statistik, tidak terdapat bukti yang cukup untuk menyatakan bahwa rata-rata durasi sesi pengguna pada versi B berbeda secara signifikan dari versi A.
Dalam konteks pengambilan keputusan produk:
- Versi B memiliki rata-rata durasi sesi yang lebih tinggi secara
numerik
- Namun perbedaan tersebut belum signifikan secara statistik
- Tim produk disarankan untuk:
• Mengumpulkan data tambahan
• Menguji metrik lain (misalnya conversion rate atau bounce rate)
• Tidak membuat keputusan final hanya berdasarkan hasil ini
4 Studi kasus 4
4.1 Chi-Square Test of Independence
Sebuah perusahaan e-commerce ingin mengetahui apakah jenis perangkat yang digunakan pelanggan (Mobile atau Desktop) berhubungan dengan preferensi metode pembayaran (E-Wallet, Kartu Kredit, Cash on Delivery).
| Perangkat | E-Wallet | Kartu Kredit | Cash on Delivery |
|---|---|---|---|
| Mobile | 120 | 80 | 50 |
| Desktop | 60 | 90 | 40 |
4.2 Formulasi Hipotesis
Karena ingin mengetahui apakah terdapat hubungan antara dua variabel kategorik, maka hipotesis dirumuskan sebagai berikut:
H₀ (Hipotesis Nol):
Tidak terdapat hubungan antara jenis perangkat dan preferensi metode pembayaran.
𝐻0:Jenis perangkat dan metode pembayaran saling independenH₁ (Hipotesis Alternatif):
Terdapat hubungan antara jenis perangkat dan preferensi metode pembayaran.
𝐻1:Jenis perangkat dan metode pembayaran tidak independen
4.3 identifikasi Uji Statistik
Uji statistik yang digunakan adalah Chi-Square Test of Independence, karena:
- Kedua variabel bersifat kategorik
- Data disajikan dalam bentuk tabel kontingensi
- Tujuan pengujian adalah melihat hubungan/ketergantungan antar variabel
4.4 Menghitung Statistik Chi-Square (χ²)
Langkah pertama adalah menghitung frekuensi harapan untuk setiap sel,
kemudian menggunakan rumus:
\[\chi^2 = \sum \frac{(O -
E)^2}{E}\]
Berdasarkan perhitungan, diperoleh nilai statistik uji:
\[\chi^2 \approx 14.87\]
Derajat kebebasan (df):
\[df = (r - 1)(c - 1) = (2 - 1)(3 - 1) =
2\]
4.5 p-value dan Keputusan Statistik (α = 0.05)
Dengan χ² ≈ 14.87 dan df = 2, diperoleh:
\[p-value≈0.0006\]
Karena:
\[p-value<α\] Keputusan:
Tolak H₀
4.6 Interpretasi dalam Konteks Strategi Pembayaran Digital
Hasil pengujian menunjukkan bahwa jenis perangkat berhubungan secara
signifikan dengan preferensi metode pembayaran.
Dalam konteks strategi bisnis digital:
- Pengguna mobile cenderung lebih sering menggunakan E-Wallet
- Pengguna desktop lebih banyak menggunakan kartu kredit
- Perusahaan dapat:
• Mengoptimalkan tampilan dan promosi E-Wallet di aplikasi mobile
• Menyederhanakan pembayaran kartu kredit di versi desktop
• Menyesuaikan strategi pembayaran berdasarkan perilaku pengguna
• Pendekatan ini dapat meningkatkan kenyamanan pengguna dan tingkat konversi transaksi.
5 Studi Kasus 5
5.1 Type I and Type II Errors (Conceptual)
Sebuah startup fintech menguji apakah algoritma deteksi penipuan (fraud detection) yang baru mampu mengurangi transaksi fraud.
Hipotesis yang diuji adalah:
H₀: Algoritma baru tidak mengurangi fraud
H₁: Algoritma baru mengurangi fraud
5.2 Penjelasan Type I Error (α)
Type I Error terjadi ketika hipotesis nol ditolak padahal hipotesis
nol sebenarnya benar.
Dalam konteks ini, Type I Error berarti:
- Perusahaan menyimpulkan bahwa algoritma baru berhasil mengurangi
fraud
- Padahal pada kenyataannya algoritma tersebut tidak benar-benar efektif
Dampak bisnisnya:
- Perusahaan terlalu percaya diri pada sistem yang tidak bekerja
- Risiko fraud tetap tinggi
- Potensi kerugian finansial dan reputasi meningkat
5.3 Error yang Lebih Mahal dari Perspektif Bisnis
Dalam kasus deteksi fraud, Type I Error umumnya lebih mahal dari sisi bisnis, karena:
- Fraud tetap terjadi tanpa terdeteksi
- Kerugian finansial bisa besar
- Risiko hukum dan kepercayaan pengguna meningkat
Namun, tingkat keparahan masing-masing error dapat berbeda tergantung pada:
- Skala transaksi
- Biaya implementasi sistem
- Risiko reputasi perusahaan
5.4 Pengaruh Ukuran Sampel terhadap Type II Error
Ukuran sampel memiliki pengaruh langsung terhadap Type II Error (β):
- Sampel kecil → β besar (lebih sulit mendeteksi efek yang
nyata)
- Sampel besar → β lebih kecil (lebih mudah mendeteksi pengurangan fraud)
Dengan ukuran sampel yang lebih besar:
- Estimasi menjadi lebih akurat
- Kemungkinan gagal mendeteksi algoritma yang efektif menjadi lebih kecil
5.5 Hubungan antara α, β, dan Statistical Power
Hubungan antara ketiganya dapat dijelaskan sebagai berikut:
- α (significance level) adalah probabilitas melakukan Type I
Error
- β adalah probabilitas melakukan Type II Error
- Statistical Power = 1 − β, yaitu kemampuan uji statistik untuk mendeteksi efek yang benar-benar ada
Secara umum:
- Menurunkan α cenderung meningkatkan β (trade-off)
- Meningkatkan ukuran sampel dapat menurunkan β tanpa harus menaikkan
α
- Power yang tinggi berarti peluang lebih besar untuk mendeteksi
algoritma yang benar-benar efektif
6 Studi Kasus 6
6.1 P-Value and Statistical Decision Making
Sebuah model prediksi churn dievaluasi dan menghasilkan nilai statistik uji sebesar 2.31 dengan p-value = 0.021. Pengujian dilakukan pada taraf signifikansi α = 0.05.
6.2 Makna p-value
p-value sebesar 0.021 menunjukkan probabilitas untuk memperoleh hasil pengujian setidaknya se-ekstrem ini, dengan asumsi bahwa hipotesis nol (H₀) benar.
Dengan kata lain, jika sebenarnya tidak ada efek atau perbedaan nyata, maka peluang mendapatkan hasil seperti ini hanyalah sekitar 2.1%.
6.3 Keputusan Statistik
Karena: \[p-value=0.021<α=0.05\]
maka keputusan statistiknya adalah:
Tolak hipotesis nol (H₀)
Artinya, terdapat bukti statistik yang cukup untuk menyatakan bahwa hasil evaluasi model adalah signifikan secara statistik.
6.4 Penjelasan Non-Teknis untuk Manajemen
Dalam bahasa non-teknis, hasil ini dapat dijelaskan sebagai
berikut:
Berdasarkan data yang dianalisis, kecil kemungkinan bahwa hasil model
ini terjadi secara kebetulan. Oleh karena itu, kita memiliki cukup
alasan untuk percaya bahwa model prediksi churn ini benar-benar
memberikan informasi yang bermakna dan layak untuk dipertimbangkan dalam
pengambilan keputusan bisnis.
6.5 Risiko Jika Sampel Tidak Representatif
Jika data sampel tidak mewakili populasi pelanggan secara keseluruhan, maka kesimpulan yang diambil bisa menjadi menyesatkan, meskipun p-value menunjukkan hasil yang signifikan.
Risiko yang dapat terjadi antara lain:
- Model terlihat efektif di data uji, tetapi gagal saat diterapkan ke
seluruh pelanggan
- Keputusan bisnis yang diambil menjadi tidak tepat sasaran
- Strategi retensi pelanggan menjadi kurang efektif
Dengan demikian, representativitas sampel sangat penting untuk memastikan bahwa hasil statistik dapat digeneralisasi.
6.6 Mengapa p-value Tidak Mengukur Effect Size
p-value tidak mengukur seberapa besar atau penting suatu efek, melainkan hanya menunjukkan apakah efek tersebut cukup kuat secara statistik untuk menolak H₀.
Hal penting yang perlu dipahami:
- p-value kecil ≠ efek besar
- Efek kecil dengan sampel besar bisa menghasilkan p-value kecil
- Efek besar dengan sampel kecil bisa menghasilkan p-value besar
Untuk mengetahui besarnya dampak, diperlukan ukuran lain seperti:
- effect size
- perbedaan rata-rata
- koefisien model
6.7 Kesimpulan Singkat
Hasil evaluasi model prediksi churn menunjukkan signifikansi statistik pada α = 0.05. Namun, keputusan bisnis tetap perlu mempertimbangkan representativitas data dan besarnya dampak model, bukan hanya p-value semata.
7 Referensi
- Montgomery, D. C., & Runger, G. C. (2014).
- Walpole, R. E., Myers, R. H., Myers, S. L., & Ye, K. (2012).
- Devore, J. L. (2016).
- James, G., Witten, D., Hastie, T., & Tibshirani, R. (2021).
- Casella, G., & Berger, R. L. (2002).