Study Cases
<div class="logo-inner">
<img src="C:/Users/Nurul Iffah/Downloads/fotoku.jpg" alt="Nurul Iffah">
</div>
NURUL IFFAH
Program Studi
Sains Data
Universitas
INSTITUT TEKNOLOGI SAINS BANDUNG
Dosen Pengampu
Bakti Siregar, M Sc., CSD
1 Case Study 1
1.1 One-Sample Z-Test (Statistical Hypotheses)
A digital learning platform claims that the average daily study time of its users is 120 minutes. Based on historical records, the population standard deviation is known to be 15 minutes.
A random sample of 64 users shows an average study time of 116 minutes.
\[ \begin{eqnarray*} \mu_0 &=& 120 \\ \sigma &=& 15 \\ n &=& 64 \\ \bar{x} &=& 116 \end{eqnarray*} \]
1.1.1 Formulate the Null Hypothesis (H₀) and Alternative Hypothesis (H₁).
Karena platform mengklaim rata-rata = 120,
maka:
Hipotesis Nol (H): \[ H_0 : \mu = 120 \] Artinya: “Rata-rata waktu belajar harian pengguna memang 120 menit.”
Hipotesis Alternatif (H):
Soal cuma bilang “menguji klaim”, tidak menyebut arah spesifik, maka yang paling aman adalah dua arah: \[ H_1 : \mu \neq 120 \] Artinya: “Rata-rata waktu belajar harian pengguna sebenarnya tidak 120 menit (bisa lebih kecil atau lebih besar).”
1.1.2 Identify the appropriate statistical test and justify your choice.
Uji yang tepat adalah:
One-Sample Z-Test (untuk mean/rata-rata)
ALASAN:
- Yang diuji adalah rata-rata populasi (\(\mu\)).
- Kita diberi simpangan baku populasi (\(\sigma = 15\)) dan itu “kunci”
Z-test.
Kalau \(\sigma\) tidak diketahui, biasanya kita pakai t-test. - Ukuran sampel cukup besar (\(n = 64\)), sehingga distribusi rata-rata sampel mendekati normal (aman dipakai).
Jadi karena \(\sigma\) diketahui, maka adalah yang paling sesuai.
1.1.3 Compute the test statistic and p-value using \(\alpha = 0.05\).
- Standard Error (SE)
SE = perkiraan seberapa besar rata-rata sampel bisa naik-turun, kalau kita ambil sampel berulang.
\[ SE = \frac{\sigma}{\sqrt{n}} = \frac{15}{\sqrt{64}} = \frac{15}{8} = 1.875 \]
- Nilai \(z\)
\[ z = \frac{\bar{x} - \mu_0}{SE} = \frac{116 - 120}{1.875} = \frac{-4}{1.875} \approx -2.1333 \]
\(z =
-2.13\):
rata-rata sampel (116) itu berada sekitar 2.13 “langkah standar” di
bawah klaim 120. Itu cukup jauh.
- p-value
Karena kita pakai uji dua arah (\(\mu \neq 120\)):
\[ p = 2 \cdot P\bigl(Z \le -|z|\bigr) \approx 2 \cdot P(Z \le -2.1333) \approx 0.0329 \]
Jadi p-value \(\approx 0.033\).
Singkatnya: Kalau klaim 120 menit itu benar, maka peluang kita dapat hasil sampel “se-ekstrem ini” (beda sebesar ini atau lebih) cuma sekitar 3.3%. Itu kecil.
1.1.4 State the statistical decision.
Menurut aturan simpel:
\[ \text{Jika } p \le \alpha \Rightarrow \text{Tolak } H_0 \]
\[ \text{Jika } p > \alpha \Rightarrow \text{Gagal menolak } H_0 \]
Diketahui:
\(p \approx 0.0329\)
\(\alpha = 0.05\)
Karena:
\[ 0.0329 < 0.05 \]
Maka keputusannya: Tolak \(H_0\).
Kalimat keputusan yang rapi:
“Pada tingkat signifikansi 5%, terdapat bukti statistik yang cukup untuk menolak hipotesis nol bahwa rata-rata waktu belajar harian pengguna adalah 120 menit.”
“Tolak \(H_0\)” bukan berarti kita , tapi artinya datanya cukup kuat untuk bilang klaim 120 itu tidak sesuai.
1.1.5 Interpret the result in a business analytics context.
Interpretasi
Dari sampel 64 pengguna, rata-rata waktu belajar yang teramati adalah 116 menit, lebih rendah dari klaim 120 menit.
Hasil uji menunjukkan bahwa selisih ini kemungkinan besar bukan kebetulan (\(p \approx 0.033\)).
Kesimpulan
Klaim “rata-rata pengguna belajar 120 menit/hari” tidak didukung oleh data sampel pada tingkat keyakinan 95% (\(\alpha = 0.05\)).
Secara praktis, data mengarah bahwa rata-rata waktu belajar mungkin lebih rendah dari 120 menit.
Dampak dan tindakan yang bisa dilakukan
1. Evaluasi klaim dan pelaporan KPI
- Jika platform memakai angka 120 menit untuk laporan/marketing, perlu dicek ulang agar tidak misleading.
2. Analisis engagement
- Penurunan rata-rata bisa berarti masalah retensi: pengguna berhenti lebih cepat, bosan, dll.
3. Langkah lanjutan yang disarankan:
Lakukan segmentasi: apakah pengguna baru vs lama beda?
Lihat faktor penyebab: jam akses, jenis konten, fitur premium, notifikasi, gamification.
Ambil sampel lebih besar untuk estimasi lebih stabil.
“Dengan data yang ada, kita punya cukup bukti untuk menyatakan bahwa rata-rata waktu belajar harian pengguna tidak sama dengan 120 menit, dan karena rata-rata sampel lebih rendah, platform sebaiknya menginvestigasi faktor engagement yang membuat durasi belajar cenderung turun.”
2 Case Study 2
2.1 One-Sample T-Test (σ Unknown, Small Sample)
A UX Research Team investigates whether the average task completion time of a new application differs from 10 minutes.
The following data are collected from 10 users:
\[ 9.2,\; 10.5,\; 9.8,\; 10.1,\; 9.6,\; 10.3,\; 9.9,\; 9.7,\; 10.0,\; 9.5 \]
2.1.1 Define H₀ and H₁ (two-tailed).
\[ H_0 : \mu = 10 \]
Artinya: rata-rata waktu penyelesaian tugas sama dengan 10 menit.
\[ H_1 : \mu \neq 10 \]
Artinya: rata-rata waktu penyelesaian tugas berbeda dari 10 menit (bisa lebih cepat atau lebih lama).
2.1.2 Determine the appropriate hypothesis test.
Uji yang tepat adalah:
One-Sample t-test (dua arah)
Kenapa t-test (bukan z-test)?
Kita menguji rata-rata (mean) dari 1 sampel dibanding angka patokan (10 menit).
\(\sigma\) populasi tidak diketahui (di soal nggak ada simpangan baku populasi).
Sampelnya kecil: \(n = 10\), jadi pakai distribusi t (lebih cocok untuk sampel kecil dan \(\sigma\) tidak diketahui).
2.1.3 Calculate the t-statistic and p-value at \(\alpha = 0.05\).
Data ringkas:
\(n = 10\)
Rata-rata sampel:
\[ \bar{x} = \frac{\text{jumlah data}}{n} = 9.86 \text{ menit} \]
- Simpangan baku sampel (dari data):
\[ s \approx 0.386 \text{ menit} \]
1. Standard Error (SE) = “rata-rata sampel yang biasanya goyang”:
\[ SE = \frac{s}{\sqrt{n}} = \frac{0.386}{\sqrt{10}} \approx \frac{0.386}{3.162} \approx 0.122 \]
2. t-statistic:
\[ t = \frac{\bar{x} - \mu_0}{SE} = \frac{9.86 - 10}{0.122} = \frac{-0.14}{0.122} \approx -1.146 \]
- Derajat bebas (df):
\[ df = n - 1 = 9 \]
3. p-value (two-tailed) dari \(t = -1.146\) dengan \(df = 9\):
\[p \approx 0.281\]
Artinya:
Selisih rata-rata sampel dari 10 menit itu cuma 0.14 menit (≈ 8.4 detik). Dengan variasi data yang ada, selisih sekecil itu masih sangat mungkin terjadi “cuma karena sampel kebetulan”.
2.1.4 Make a statistical decision.
Ambil keputusan pakai aturan:
\[ \text{Jika } p \le 0.05 \Rightarrow \text{ tolak } H_0 \]
\[ \text{Jika } p > 0.05 \Rightarrow \text{ gagal menolak } H_0 \]
Karena: \[ p = 0.281 > 0.05 \]
Maka keputusannya: Gagal tolak \(H_0\).
Penjelasan Pada tingkat signifikansi 5%, tidak ada bukti statistik yang cukup untuk menyatakan bahwa rata-rata waktu penyelesaian tugas berbeda dari 10 menit.
Penting: “gagal menolak \(H_0\)” bukan berarti pasti sama dengan 10 menit. Artinya data 10 orang ini belum cukup kuat untuk membuktikan ada perbedaan.
NOTE: 95% CI untuk mean kira-kira dari 9.58 sampai 10.14 menit dan angka 10 ada di dalamnya, makanya hasil uji tidak signifikan.
2.1.5 Explain how sample size affects inferential reliability.
Kalau sampel kecil (seperti n=10):
- Rata-rata lebih “gampang kebetulan”
Karena cuma 10 orang, 1–2 orang yang sangat cepat/lambat bisa ngubah rata-rata.
- Ketidakpastian lebih besar (SE lebih besar)
SE itu ukur “ketelitian estimasi mean”. Makin kecil n → SE makin besar → hasil uji jadi kurang sensitif untuk menangkap perbedaan kecil.
- Power lebih rendah (lebih mudah gagal mendeteksi perbedaan)
Walaupun perbedaan sebenarnya ada, sampel kecil bikin kita lebih sering “nggak nemu bukti cukup”.
- Lebih bergantung pada asumsi normalitas
t-test untuk sampel kecil lebih sensitif kalau datanya ternyata tidak normal / banyak outlier.
Kalau sampel diperbesar (misal 30, 50, 100):
SE mengecil → estimasi mean lebih stabil
uji lebih kuat (power naik)
lebih mudah membedakan “beda beneran” vs “kebetulan”
Kesimpulan: Dengan 10 pengguna, hasilnya bilang: belum ada bukti kuat bahwa aplikasi baru ini membuat waktu selesai tugas berubah dari 10 menit. Kalau tim butuh keputusan lebih yakin, sebaiknya tambah partisipan.
3 Case Study 3
3.1 Two-Sample T-Test (A/B Testing)
A product analytics team conducts an A/B test to compare the average session duration (minutes) between two versions of a landing page.
| Version | Sample Size (n) | Mean | Standard Deviation |
|---|---|---|---|
| A | 25 | 4.8 | 1.2 |
| B | 25 | 5.4 | 1.4 |
3.1.1 Formulate the null and alternative hypotheses.
Secara angka, B lebih tinggi dari A, tapi secara statistik (\(\alpha = 0.05\)) kita belum bisa bilang beda itu beneran nyata.
Rinciannya gini:
Mean A = 4.8 menit
Mean B = 5.4 menit
Selisih (B − A) = \(+0.6\) menit (\(\approx 36\) detik)
Uji yang dipakai: two-sample t-test (independent), dua arah.
Hasil hitung:
\(t \approx -1.63\) (kalau pakai A − B), \(df \approx 47\)
p-value \(\approx 0.11\)
Karena p-value 0.11 \(> 0.05\), maka keputusan statistiknya:
Gagal menolak \(H_0\)
Artinya: belum ada bukti cukup bahwa rata-rata durasi sesi A dan B berbeda pada level 5%.
Jadi: Versi B kelihatan lebih lama rata-ratanya, tapi dengan sampel 25 vs 25 dan variasi yang ada, perbedaannya belum signifikan. jadi, kita belum bisa klaim B lebih baik secara statistik.
3.1.2 Identify the type of t-test required.
Uji yang tepat adalah: Two-Sample t-test (independent samples)
Kenapa “independent”?
Karena A/B test biasanya: user A dan user B itu orang yang berbeda (tidak mengukur orang yang sama dua kali).
Kalau orang yang sama coba A lalu B, itu namanya paired t-test (t berpasangan) tapi bukan kasus A/B biasa.
Kita bisa pakai Welch’s t-test (lebih aman saat varians beda) atau pooled t-test (jika asumsi varians sama). Dengan data ini, hasilnya hampir sama dan kesimpulannya juga sama.
3.1.3 Compute the test statistic and p-value.
1. Selisih rata-rata:
\[ \bar{x}_A - \bar{x}_B = 4.8 - 5.4 = -0.6 \]
Artinya: versi B rata-ratanya lebih tinggi 0.6 menit (≈ 36 detik) daripada A.
2. Standard Error (SE) untuk dua sampel:
\[ SE = \sqrt{\frac{s_A^2}{n_A} + \frac{s_B^2}{n_B}} = \sqrt{\frac{1.2^2}{25} + \frac{1.4^2}{25}} = \sqrt{\frac{1.44}{25} + \frac{1.96}{25}} = \sqrt{0.136} \approx 0.3688 \]
3. t-statistic:
\[ t = \frac{\bar{x}_A - \bar{x}_B}{SE} = \frac{-0.6}{0.3688} \approx -1.627 \]
4. Derajat bebas (Welch, pendekatan):
\[ df \approx 46.9 \ (\text{sekitar } 47) \]
5. p-value (dua arah):
\[ p \approx 0.110 \]
Makna p-value: Kalau sebenarnya A dan B tidak berbeda, maka melihat perbedaan “sekitar ini atau lebih ekstrem” masih mungkin terjadi sekitar 11%. Itu tidak kecil.
3.1.4 Draw a statistical conclusion at \(\alpha = 0.05\).
Ambil keputusan pakai aturan:
\[ \text{Jika } p \le 0.05 \Rightarrow \text{ tolak } H_0 \]
\[ \text{Jika } p > 0.05 \Rightarrow \text{ gagal menolak } H_0 \]
Karena: \[ p = 0.110 > 0.05 \]
Maka keputusannya: Gagal tolak \(H_0\).
“Pada tingkat signifikansi 5%, tidak ada bukti statistik yang cukup untuk menyatakan bahwa rata-rata durasi sesi versi A dan B berbeda.”
Karena, CL: 95% CI untuk selisih \((\mu_B - \mu_A)\) kira-kira:
\[ 0.6 \pm (2.01)(0.3688) \approx 0.6 \pm 0.74 \Rightarrow (-0.14,\; 1.34) \]
Karena rentangnya masih memuat 0, berarti perbedaan “bisa saja 0” \(\rightarrow\) tidak signifikan.
3.1.5 Interpret the result for product decision-making.
Interpretasi (product/UX)
Secara angka, versi B terlihat lebih baik (mean 5.4 menit vs 4.8 menit). Bedanya 0.6 menit (\(\sim 36\) detik).
Tapi secara statistik pada \(\alpha = 0.05\), hasil ini belum cukup kuat untuk bilang “B benar-benar meningkatkan durasi sesi” — bisa jadi bedanya muncul karena variasi acak sampel.
Apa yang sebaiknya dilakukan tim produk?
Jangan langsung rollout B full hanya dari hasil ini (karena belum signifikan).
Perbesar sampel / lanjutkan eksperimen supaya lebih yakin (n lebih besar \(\rightarrow\) error mengecil \(\rightarrow\) lebih gampang deteksi efek).
Cek juga metrik lain (misal conversion, bounce rate, CTR) karena durasi sesi saja belum tentu tujuan utama.
Kesimpulan: Versi B menunjukkan peningkatan rata-rata durasi sesi sebesar 0.6 menit, namun peningkatan tersebut belum terbukti signifikan secara statistik pada \(\alpha = 0.05\). Disarankan untuk memperbesar ukuran sampel atau menjalankan eksperimen lebih lama sebelum mengambil keputusan rollout.
4 Case Study 4
4.1 Chi-Square Test of Independence
An e-commerce company examines whether device type is associated with payment method preference.
| Device / Payment | E-Wallet | Credit Card | Cash on Delivery |
|---|---|---|---|
| Mobile | 120 | 80 | 50 |
| Desktop | 60 | 90 | 40 |
4.1.1 State the Null Hypothesis (H₀) and Alternative Hypothesis (H₁).
- Hipotesis nol (H tidak ada hubungan / independen):
\[ H_0: \text{Tipe device dan metode pembayaran saling independen (tidak terkait).} \]
Artinya: pengguna mobile dan desktop punya pola pilihan pembayaran yang sama.
- Hipotesis alternatif (H ada hubungan / terkait):
\[ H_1: \text{Tipe device dan metode pembayaran tidak independen (ada asosiasi).} \]
Artinya: pengguna mobile vs desktop punya pola pilihan pembayaran yang berbeda.
4.1.2 Identify the appropriate statistical test.
Uji yang tepat adalah:
Chi-Square Test of Independence (Uji Chi-Kuadrat untuk Independensi)
Alasannya:
Datanya berupa kategori (Mobile/Desktop) dan (E-Wallet/Credit/COD).
Angkanya adalah jumlah/frekuensi orang di tiap kategori.
Kita mau lihat apakah dua kategori ini saling berhubungan atau tidak.
4.1.3 Compute the Chi-Square statistic (χ²).
Total baris & kolom:
Total Mobile = 120 + 80 + 50 = 250
Total Desktop = 60 + 90 + 40 = 190
Total keseluruhan \(N = 440\)
Total per metode:
E-Wallet: \(120 + 60 = 180\)
Credit Card: \(80 + 90 = 170\)
COD: \(50 + 40 = 90\)
Rumus expected (harapan kalau tidak ada hubungan):
\[ E_{ij} = \frac{(\text{total baris}) \times (\text{total kolom})}{N} \]
Expected counts (yang “seharusnya” terjadi kalau device tidak ngaruh):*
Mobile–E-Wallet: \(E_{\text{Mobile, E-Wallet}} = \frac{250 \times 180}{440} = 102.27\)
Mobile–Credit: \(E_{\text{Mobile, Credit}} = \frac{250 \times 170}{440} = 96.59\)
Mobile–COD: \(E_{\text{Mobile, COD}} = \frac{250 \times 90}{440} = 51.14\)
Desktop–E-Wallet: \(E_{\text{Desktop, E-Wallet}} = \frac{190 \times 180}{440} = 77.73\)
Desktop–Credit: \(E_{\text{Desktop, Credit}} = \frac{190 \times 170}{440} = 73.41\)
Desktop–COD: \(E_{\text{Desktop, COD}} = \frac{190 \times 90}{440} = 38.86\)
Rumus chi-square:
\[ \chi^2 = \sum \frac{(O - E)^2}{E} \]
Hasil perhitungan:
\[ \chi^2 \approx 13.77 \]
Derajat bebas:
\[ df = (r - 1)(c - 1) = (2 - 1)(3 - 1) = 2 \]
4.1.4 Determine the p-value at \(\alpha = 0.05\).
Dengan \(\chi^2 = 13.77\) dan \(df = 2\):
\[ p \approx 0.0010 \]
Karena:
\[ p = 0.0010 < 0.05 \]
Maka keputusannya: Tolak \(H_0\).
Kesimpulan:
Pada tingkat signifikansi 5%, terdapat bukti statistik yang kuat untuk menolak hipotesis nol bahwa tipe device dan metode pembayaran saling independen. Artinya, tipe device (Mobile vs Desktop) dan metode pembayaran memiliki asosiasi: pola metode pembayaran berbeda antara pengguna mobile dan desktop.”
4.1.5 Interpret the results in terms of digital payment strategy.
Interpretasi
Karena \(H_0\) ditolak, berarti:
Tipe device memang berasosiasi dengan metode pembayaran yang dipilih. Pengguna mobile dan desktop punya kecenderungan pembayaran yang berbeda.
Dari polanya (yang paling keliatan):
Mobile lebih condong ke E-Wallet (120) dibanding yang “diperkirakan” kalau netral (≈102).
Desktop lebih condong ke Credit Card (90) dibanding perkiraan netral (≈73).
COD relatif mirip (tidak terlalu beda dari expected).
Implikasi strategi pembayaran
- Optimalkan E-Wallet di Mobile
taruh e-wallet paling atas, tombol lebih besar, promo cashback khusus mobile.
- Optimalkan Credit Card di Desktop
highlight kartu kredit di desktop (misal cicilan, diskon bank), form card dibuat lebih nyaman di layar besar.
- COD tetap ada tapi bukan pembeda utama
karena polanya tidak terlalu “spesial” antar device, COD bisa diposisikan sebagai opsi tambahan.
Ksimpulan
Hasil uji chi-square menunjukkan terdapat hubungan signifikan antara device type dan payment method preference (χ²=13.77, df=2, p≈0.001). Dengan demikian, strategi pembayaran sebaiknya disesuaikan berdasarkan device: promosi e-wallet lebih agresif di mobile dan penawaran kartu kredit lebih ditonjolkan di desktop.
5 Case Study 5
5.1 Type I and Type II Errors (Conceptual)
A fintech startup tests whether a new fraud detection algorithm reduces fraudulent transactions.
- H₀: The new algorithm does not reduce fraud.
- H₁: The new algorithm reduces fraud.
5.1.1 Explain a Type I Error (α) in this context.
Type I Error (α) terjadi saat kita menolak H0 padahal H0 benar.
Dalam konteks ini artinya:
Kita menyimpulkan “algoritma baru mengurangi fraud” (menganggap berhasil), padahal kenyataannya algoritma baru sebenarnya tidak mengurangi fraud.
Gampangnya: false alarm keberhasilan → kita merasa algoritma efektif padahal tidak.
Contoh dampak nyata:
perusahaan rollout algoritma baru,
tapi fraud tetap tinggi,
tim merasa aman padahal sistem sebenarnya tidak membaik.
5.1.2 Explain a Type II Error (β) in this context.
Type II Error (β) terjadi saat kita gagal menolak H0 padahal H0 salah.
Dalam konteks ini artinya:
Kita menyimpulkan “algoritma baru tidak mengurangi fraud” (menganggap gagal), padahal kenyataannya algoritma baru sebenarnya mengurangi fraud.
Gampangnya: gagal melihat keberhasilan → algoritma bagus tapi kita buang.
Dampak nyata:
perusahaan tidak jadi memakai algoritma yang sebenarnya membantu,
fraud yang bisa ditekan malah tetap terjadi,
kesempatan efisiensi hilang.
5.1.3 Identify which error is more costly from a business perspective.
Umumnya untuk fraud detection, Type I Error sering lebih mahal
karena:
kita mengira algoritma baru berhasil → kita percaya diri → rollout
padahal fraud tetap tinggi → kerugian finansial & reputasi bisa besar
bisa terjadi loss langsung (chargeback, refund, pencurian) + trust user turun
Catatan penting:
Kalau algoritma baru terlalu agresif dan bikin banyak transaksi valid jadi terganggu, cost-nya juga besar (karena pengalaman user jelek).
Namun, dalam framing soal ini (“reduces fraudulent transactions”), Type I tetap biasanya lebih berbahaya karena kita merasa fraud turun padahal tidak.
Kesimpulan
Dalam konteks fintech dan fraud, Type I error cenderung lebih costly karena menyebabkan perusahaan mengadopsi sistem yang dianggap efektif padahal tidak, sehingga kerugian fraud tetap berlangsung dan risiko reputasi meningkat.
5.1.4 Discuss how sample size affects Type II Error.
Semakin besar ukuran sampel (n), biasanya Type II Error (β) makin kecil.
Kenapa?
Sampel besar membuat hasil lebih stabil (lebih sedikit “kebetulan”).
Uji statistik jadi lebih sensitif untuk menangkap perbedaan kecil.
Jadi kalau algoritma memang mengurangi fraud, sampel besar membantu kita lebih mudah mendeteksinya.
Kesimpulan:
n kecil → β besar → gampang “kecolongan” (ngira tidak efektif padahal efektif)
n besar → β turun → lebih percaya diri menyimpulkan ada efek
“Meningkatkan sample size menurunkan standard error, meningkatkan kemampuan deteksi efek, sehingga mengurangi Type II error (β).”
5.1.5 Explain the relationship between α, β, and statistical power.
Power adalah peluang kita berhasil mendeteksi efek yang benar-benar ada, yaitu menolak H0 ketika H0 salah.
Rumus:
\[ \text{Power} = 1 - \beta \]
Jadi:
- Kalau β besar → power kecil (lemah mendeteksi efek)
Kalau β kecil → power besar (lebih kuat mendeteksi efek)
Hubungan α dan β (trade-off):
Kalau kamu bikin α lebih kecil (lebih ketat menolak H0), biasanya jadi lebih susah menolak H0 → β bisa naik (lebih sering gagal mendeteksi efek).
Untuk menjaga α kecil tapi power tetap tinggi, solusi paling umum adalah: perbesar sample size.
Ringkasannya:
\(\alpha = \text{risiko “false success”}\)
\(\beta = \text{risiko “missed success”}\)
\(\text{power } (1 - \beta) = \text{kemampuan mendeteksi keberhasilan yang nyata}\)
6 Case Study 6
6.1 P-Value and Statistical Decision Making
A churn prediction model evaluation yields the following results:
- Test statistic = 2.31
- p-value = 0.021
- Significance level: \(\alpha = 0.05\)
6.1.1 Explain the meaning of the p-value.
jika, \(p\text{-value} = 0.021\)
artinya:
Kalau sebenarnya tidak ada efek / tidak ada perbedaan (artinya \(H_0\) benar), maka peluang kita melihat hasil yang se-ekstrem ini atau lebih ekstrem cuma sekitar \(2.1\%\).
Dengan kata lain:
\(2.1\%\) itu kecil, jadi hasil seperti ini jarang terjadi kalau memang “tidak ada apa-apa”.
Makanya \(p\)-value kecil biasanya jadi alasan untuk meragukan \(H_0\).
Penting:
\(p\)-value “peluang \(H_0\) benar”.
\(p\)-value cuma menjawab:
\[ \text{“Seberapa aneh hasil data ini kalau } H_0 \text{ benar?”} \]
6.1.2 Make a statistical decision.
Pakai aturan:
\(\text{Jika } p \le \alpha \;\Rightarrow\; \text{tolak } H_0\)
\(\text{Jika } p > \alpha \;\Rightarrow\; \text{gagal menolak } H_0\)
Karena:
\[ p = 0.021 < 0.05 = \alpha \]
Keputusan statistik: \(H_0\)
Artinya:
Ada bukti statistik pada level 5% bahwa hasil ini signifikan (bukan sekadar kebetulan sampel).
6.1.3 Translate the decision into non-technical language for management.
Dengan standar evaluasi 5%, hasil ini signifikan. Artinya, model menunjukkan performa/efek yang nyata dan layak dipertimbangkan untuk pengambilan keputusan, dengan catatan validitas tetap bergantung pada kualitas data sampel.
6.1.4 Discuss the risk if the sample is not representative.
Kalau sampel tidak representatif, hasil signifikan bisa menyesatkan, karena model yang diuji itu tidak mencerminkan kondisi user sebenarnya.
Contoh risiko nyata:
Sampel terlalu banyak dari user promo → pola churn beda dari user reguler.
Sampel cuma dari wilayah tertentu → padahal user nasional/internasional.
Sampel cuma dari pengguna baru → padahal churn utama mungkin dari pengguna lama.
Data historis ada bias (misal cuma yang sempat dihubungi CS).
Akibatnya:
Model terlihat “bagus” di sampel, tapi ketika dipakai beneran hasilnya drop (performance real-world jelek).
Keputusan bisnis bisa salah: salah target retention, salah budget, salah strategi.
Kesimpulan:
Jika sampel bias/tidak representatif, maka kesimpulan statistik (meskipun p-value kecil) bisa tidak berlaku untuk populasi sebenarnya, sehingga keputusan deployment model berisiko tidak efektif.
6.1.5 Explain why the p-value does not measure effect size.
p-value tidak mengukur besar efek, karena p-value dipengaruhi oleh:
- Ukuran sampel (n)
Dengan n sangat besar, efek kecil pun bisa jadi signifikan (p kecil).
- Variabilitas data
Data yang lebih “berisik” bisa bikin p lebih besar walau efek lumayan.
Jadi p-value hanya menjawab:
“Efek ini cukup meyakinkan secara statistik atau tidak?”
Bukan menjawab:
Efeknya besar atau kecil”
Karena, untuk mengukur besar efek, kita butuh:
effect size (misal Cohen’s d, odds ratio, lift, difference in means, AUC improvement)
Confidence interval untuk melihat rentang efek yang mungkin.