Case Study 1
One-Sample Z-Test (Statistical Hypotheses)
A digital learning platform claims that the average daily study time of its users is 120 minutes. Based on historical records, the population standard deviation is known to be 15 minutes.
A random sample of 64 users shows an average study time of 116 minutes.
\[ \begin{eqnarray*} \mu_0 &=& 120 \\ \sigma &=& 15 \\ n &=& 64 \\ \bar{x} &=& 116 \end{eqnarray*} \]
Tasks
- Formulate the Null Hypothesis (H₀) and Alternative Hypothesis (H₁).
- Identify the appropriate statistical test and justify your choice.
- Compute the test statistic and p-value using α=0.05.
- State the statistical decision.
- Interpret the result in a business analytics context.
Answer
1. Hipotesis Statistik
Hipotesis Nol (\(H_0\)): \(\mu = 120\) (Rata-rata waktu belajar harian adalah 120 menit).
Hipotesis Alternatif (\(H_1\)): \(\mu \neq 120\) (Rata-rata waktu belajar harian bukan 120 menit). Catatan: Ini adalah uji dua sisi.
2. Uji Statistik yang Tepat
Uji yang tepat adalah Uji Z Satu Sampel. Justifikasi:
– Ukuran sampel besar (\(n = 64 > 30\)).
– Deviasi standar populasi (\(\sigma\)) diketahui.
3. Menghitung Statistik Uji dan Nilai P
Statistik Uji (Z):
\[Z = \frac{\bar{x} - \mu_0}{\sigma / \sqrt{n}} = \frac{116 - 120}{15 / \sqrt{64}} = \frac{-4}{1.875} = -2.133\]Nilai P: Karena ini adalah uji dua sisi, \(P\text{-value} = 2 \times P(Z < -2.133)\). Dengan menggunakan tabel distribusi Z, \(P(Z < -2.133) \approx 0.0165\).\(P\text{-value} \approx 0.033\).
4. Keputusan Statistik
Bandingkan nilai \(P\text{-value}\) dengan \(\alpha\):
\(P\text{-value} (0,033) < \alpha (0,05)\).
Keputusan: Tolak \(H_0\).
5. Interpretasi Analisis Bisnis
Terdapat bukti statistik yang cukup pada tingkat kepercayaan 95% untuk menyimpulkan bahwa rata-rata waktu belajar harian pengguna platform berbeda secara signifikan dari 120 menit yang diklaim oleh perusahaan. Secara spesifik, data menunjukkan bahwa pengguna belajar kurang dari rata-rata yang diklaim.
Case Study 2
One-Sample T-Test (σ Unknown, Small Sample)
A UX Research Team investigates whether the average task completion time of a new application differs from 10 minutes.
The following data are collected from 10 users:
\(9.2,\; 10.5,\; 9.8,\; 10.1,\; 9.6,\; 10.3,\; 9.9,\; 9.7,\; 10.0,\; 9.5\)
Tasks
- Define H₀ and H₁ (two-tailed).
- Determine the appropriate hypothesis test.
- Calculate the t-statistic and p-value at \(\alpha = 0.05\).
- Make a statistical decision.
- Explain how sample size affects inferential reliability.
Answer
1. Definisikan \(H_0\) dan \(H_1\) (Dua Arah)
Karena kita menguji perbedaan signifikan (lebih tinggi atau lebih rendah) dari target:
\(H_0\) (Hipotesis Nol): \(\mu = 10\). Waktu penyelesaian tugas rata-rata sama dengan 10 menit.
\(H_1\) (Hipotesis Alternatif): \(\mu \neq 10\). Waktu penyelesaian tugas rata-rata tidak sama dengan 10 menit.
2. Uji Hipotesis yang Tepat
Uji yang tepat adalah Uji T Satu Sampel. Alasannya:
Hanya ada satu kelompok sampel yang dibandingkan dengan rata-rata yang diketahui.
Deviasi standar populasi (\(\sigma\)) tidak diketahui.
Ukuran sampel kecil (\(n = 10\)).
3. Hitung Statistik T dan Nilai P (\(\alpha = 0,05\))
Data: 9,2, 10,5, 9,8, 10,1, 9,6, 10,3, 9,9, 9,7, 10,0, 9,5.
Rata-rata Sampel (\(\bar{x}\)): 9,89
Deviasi Standar Sampel (\(s\)): 0,387
Ukuran Sampel (\(n\)): 10
Derajat Kebebasan (\(df\)): \(n - 1 = 9\)
Perhitungan Statistik T: \[t = \frac{\bar{x} - \mu_0}{s / \sqrt{n}} = \frac{9,89 - 10}{0,387 / \sqrt{10}} \approx -0,899\] Nilai P: Dengan menggunakan tabel distribusi T dengan \(df = 9\) dan \(t = -0,899\), nilai p kira-kira 0,392 (dua sisi).
4. Keputusan Statistik
– Tingkat Signifikansi (\(\alpha\)): 0,05.
– Aturan Keputusan: Jika nilai p > α, kita gagal menolak H₀.
– Keputusan: Karena 0,392 > 0,05, kita gagal menolak H₀.
Kesimpulan: Tidak ada bukti yang signifikan secara statistik yang menunjukkan bahwa waktu penyelesaian tugas rata-rata berbeda dari 10 menit pada tingkat kepercayaan 95%.
5. Pengaruh Ukuran Sampel terhadap Keandalan Inferensi
Ukuran sampel (n) sangat penting untuk keandalan inferensi statistik:
– Presisi: Sampel yang lebih besar mengurangi kesalahan standar, sehingga menghasilkan estimasi rata-rata populasi yang lebih tepat.
– Kekuatan Statistik: Sampel kecil (seperti n=10) memiliki kekuatan yang lebih rendah, artinya kemungkinan mendeteksi perbedaan yang sebenarnya jika memang ada lebih kecil.
– Stabilitas: Sampel yang lebih besar meminimalkan dampak outlier dan noise acak, sehingga hasilnya lebih konsisten dan andal.
Case Study 3
Two-Sample T-Test (A/B Testing)
A product analytics team conducts an A/B test to compare the average session duration (minutes) between two versions of a landing page.
| Version | Sample Size (n) | Mean | Standard Deviation |
|---|---|---|---|
| A | 25 | 4.8 | 1.2 |
| B | 25 | 5.4 | 1.4 |
Tasks
- Formulate the null and alternative hypotheses.
- Identify the type of t-test required.
- Compute the test statistic and p-value.
- Draw a statistical conclusion at \(\alpha = 0.05\).
- Interpret the result for product decision-making.
Answer
1. Formulate the Null and Alternative Hypotheses
– Hipotesis Nol (\(H_0\)): \(\mu_A = \mu_B\). Tidak ada perbedaan signifikan dalam durasi sesi rata-rata antara Versi A dan Versi B.
– Hipotesis Alternatif (\(H_1\)): \(\mu_A \neq \mu_B\). Terdapat perbedaan signifikan dalam durasi sesi rata-rata antara Versi A dan Versi B.
2. Identifikasi Jenis Uji T yang Diperlukan
Uji yang diperlukan adalah Uji T Dua Sampel Independen.
Alasan: Kita membandingkan rata-rata dari dua kelompok yang berbeda dan independen (Versi A dan Versi B) untuk menentukan apakah ada perbedaan statistik di antara keduanya.
3. Hitung Statistik Uji dan Nilai P
– Deviasi Standar Gabungan (\(s_p\)): \(s_p = \sqrt{\frac{(n_A-1)s_A^2 + (n_B-1)s_B^2}{n_A + n_B - 2}} = \sqrt{\frac{24(1.2^2) + 24(1.4^2)}{48}} \approx 1.304\)
– Statistik T (\(t\)):$t = = $
– Nilai P: Untuk \(df = 48\) dan uji dua arah, nilai p kira-kira 0,110.
4. Menarik Kesimpulan Statistik pada \(\alpha = 0,05\)
– Perbandingan: Nilai p (\(0,110\)) lebih besar dari tingkat signifikansi \(\alpha\) (\(0,05\)).
– Keputusan: Gagal menolak hipotesis nol (\(H_0\)).
– Kesimpulan: Tidak ada bukti yang signifikan secara statistik untuk menyimpulkan bahwa durasi sesi berbeda antara kedua versi landing page.
5. Menginterpretasikan Hasil untuk Pengambilan Keputusan Produk
– Wawasan: Meskipun Versi B menunjukkan rata-rata numerik yang lebih tinggi (\(5,4\) vs \(4,8\)), perbedaan ini tidak signifikan secara statistik dan mungkin disebabkan oleh kebetulan.
– Rekomendasi: Tim tidak boleh terburu-buru menerapkan Versi B hanya berdasarkan hasil ini. Disarankan untuk meningkatkan ukuran sampel guna memperoleh kekuatan statistik yang lebih besar atau menyelidiki faktor pengalaman pengguna kualitatif lainnya sebelum melakukan perubahan permanen.
Case Study 4
Chi-Square Test of Independence
An e-commerce company examines whether device type is associated with payment method preference.
| Device / Payment | E-Wallet | Credit Card | Cash on Delivery |
|---|---|---|---|
| Mobile | 120 | 80 | 50 |
| Desktop | 60 | 90 | 40 |
Tasks
- State the Null Hypothesis (H₀) and Alternative Hypothesis (H₁).
- Identify the appropriate statistical test.
- Compute the Chi-Square statistic (χ²).
- Determine the p-value at \(\alpha = 0.05\).
- Interpret the results in terms of digital payment strategy.
Answer
1. Nyatakan Hipotesis Nol (\(H_0\)) dan Hipotesis Alternatif (\(H_1\))
Hipotesis Nol (\(H_0\)): Jenis perangkat dan preferensi metode pembayaran bersifat independen (tidak ada hubungan antara keduanya).
Hipotesis Alternatif (\(H_1\)): Jenis perangkat dan preferensi metode pembayaran saling terkait (terdapat hubungan yang signifikan antara keduanya).
2. Identifikasi Uji Statistik yang Tepat
Uji yang tepat adalah Uji Chi-Square Independensi.
Alasan: Uji ini digunakan untuk menentukan apakah terdapat hubungan yang signifikan antara dua variabel kategorikal (Jenis Perangkat dan Metode Pembayaran) dari populasi yang sama.
3. Menghitung Statistik Chi-Kuadrat (\(\chi^2\))
Untuk menghitung \(\chi^2\), pertama-tama kita tentukan Frekuensi yang Diharapkan (\(E\)) untuk setiap sel menggunakan rumus: \(E = \frac{(\text{Jumlah Baris} \times \text{Jumlah Kolom})}{\text{Jumlah Keseluruhan}}\).
Nilai yang Diharapkan:
Ponsel & Dompet Elektronik: \((250 \times 180) / 440 = 102,27\)
Ponsel & Kartu Kredit: \((250 \times 170) / 440 = 96,59\)
Ponsel & COD: \((250 \times 90) / 440 = 51,14\)
Desktop & Dompet Elektronik: \((190 \times 180) / 440 = 77,73\)
Desktop & Kartu Kredit: \((190 \times 170) / 440 = 73,41\)
Desktop & COD: \((190 \times 90) / 440 = 38,86\)
Perhitungan Chi-Square:\[\chi^2 = \sum \frac{(O - $\chi^2 = \frac{(120-102.27)^2}{102.27} + \frac{(80-96.59)^2}{96.59} + \dots + \frac{(40-38.86)^2}{38.86}\]\(\chi^2 \approx 13.52\)
4. Tentukan nilai p pada \(\alpha = 0.05\)
Derajat Kebebasan (\(df\)): \((r-1) \times (c-1) = (2-1) \times (3-1) = 2\).
Menggunakan tabel distribusi Chi-Square dengan \(df = 2\) dan \(\chi^2 = 13.52\), nilai p \(\approx 0.0012\).
Keputusan Statistik:
- Karena nilai p (\(0,0012\)) kurang dari \(\alpha\) (\(0,05\)), kami menolak \(H_0\).
5. Menginterpretasikan Hasil dalam Hal Strategi Pembayaran Digital
Hasil menunjukkan hubungan yang signifikan antara jenis perangkat dan preferensi pembayaran:
Strategi Seluler: Pengguna seluler secara signifikan lebih cenderung menggunakan E-Wallet daripada yang diperkirakan (120 yang diamati vs 102,27 yang diperkirakan). Perusahaan harus memprioritaskan pengoptimalan alur pembayaran E-Wallet pada aplikasi seluler.
Strategi Desktop: Pengguna desktop menunjukkan preferensi yang lebih tinggi untuk Kartu Kredit (90 yang diamati vs 73,41 yang diperkirakan). Strategi pemasaran untuk desktop dapat fokus pada penyorotan fitur keamanan kartu kredit atau rencana pembayaran cicilan untuk mendorong konversi.
Case Study 5
Type I and Type II Errors (Conceptual)
A fintech startup tests whether a new fraud detection algorithm reduces fraudulent transactions.
- H₀: The new algorithm does not reduce fraud.
- H₁: The new algorithm reduces fraud.
Tasks
- Explain a Type I Error (α) in this context.
- Explain a Type II Error (β) in this context.
- Identify which error is more costly from a business perspective.
- Discuss how sample size affects Type II Error.
- Explain the relationship between α, β, and statistical power.
Answer
1. Jelaskan Kesalahan Tipe I (\(\alpha\)) dalam konteks ini
Kesalahan Tipe I terjadi ketika hipotesis nol (\(H_0\)) ditolak padahal sebenarnya benar (sebuah “Positif Palsu”).
Dalam konteks ini: Perusahaan rintisan menyimpulkan bahwa algoritma baru tersebut efektif dalam mengurangi kecurangan, padahal kenyataannya tidak berpengaruh.
Konsekuensi: Perusahaan membuang sumber daya (uang, waktu, dan upaya) untuk mengimplementasikan sistem yang tidak memberikan manfaat apa pun.
2. Jelaskan Kesalahan Tipe II (\(\beta\)) dalam konteks ini
Kesalahan Tipe II terjadi ketika pengujian gagal menolak hipotesis nol (\(H_0\)) padahal hipotesis alternatif (\(H_1\)) sebenarnya benar (sebuah “Negatif Palsu”).
Dalam konteks ini: Perusahaan rintisan menyimpulkan bahwa algoritma tersebut tidak efektif dan memutuskan untuk tidak menggunakannya, meskipun sebenarnya akan mengurangi kecurangan.
Konsekuensi: Perusahaan kehilangan kesempatan untuk menghemat uang dan mencegah transaksi curang yang seharusnya dapat dihentikan oleh algoritma.
3. Identifikasi kesalahan mana yang lebih merugikan dari perspektif bisnis
Dari perspektif bisnis fintech, Kesalahan Tipe II kemungkinan lebih merugikan.
- Alasan: Gagal mendeteksi algoritma yang berfungsi (Tipe II) berarti perusahaan terus menderita kerugian finansial besar-besaran akibat penipuan. Sementara kesalahan Tipe I melibatkan biaya tetap satu kali untuk implementasi, kesalahan Tipe II mengakibatkan kerugian operasional yang berkelanjutan.
4. Diskusikan bagaimana ukuran sampel memengaruhi Kesalahan Tipe II
Hubungan: Seiring bertambahnya ukuran sampel, probabilitas melakukan Kesalahan Tipe II (\(\beta\)) menurun.
Penjelasan: Ukuran sampel yang lebih besar memberikan lebih banyak data dan mengurangi noise statistik, sehingga pengujian menjadi lebih sensitif dalam mendeteksi efek sebenarnya (yaitu, pengurangan penipuan) jika memang ada.
5. Jelaskan hubungan antara \(\alpha\), \(\beta\), dan kekuatan statistik
Ketiga elemen ini pada dasarnya terkait dalam pengujian hipotesis:
Pertukaran \(\alpha\) dan \(\beta\): Terdapat hubungan terbalik antara \(\alpha\) dan \(\beta\). Jika Anda mengurangi risiko Kesalahan Tipe I (dengan memperkecil \(\alpha\)), risiko Kesalahan Tipe II (\(\beta\)) biasanya meningkat, kecuali jika ukuran sampel juga ditingkatkan.
Kekuatan Statistik (\(1 - \beta\)): Kekuatan statistik adalah probabilitas untuk menolak hipotesis nol dengan benar ketika hipotesis tersebut salah.
Hubungan: Menurunkan \(\beta\) (Kesalahan Tipe II) secara langsung meningkatkan Kekuatan Statistik. Meningkatkan ukuran sampel adalah cara paling efektif untuk mengurangi \(\beta\) dan meningkatkan kekuatan tanpa perlu meningkatkan \(\alpha\).
Case Study 6
P-Value and Statistical Decision Making
A churn prediction model evaluation yields the following results:
- Test statistic = 2.31
- p-value = 0.021
- Significance level: \(\alpha = 0.05\)
Tasks
- Explain the meaning of the p-value.
- Make a statistical decision.
- Translate the decision into non-technical language for management.
- Discuss the risk if the sample is not representative.
- Explain why the p-value does not measure effect size.
Answer
1. Jelaskan arti nilai p
Nilai p mewakili probabilitas memperoleh hasil pengujian setidaknya sama ekstremnya dengan hasil yang sebenarnya diamati, dengan asumsi bahwa hipotesis nol (\(H_0\)) benar.
- Dalam kasus ini, nilai p 0,021 berarti ada kemungkinan 2,1% bahwa hasil ini terjadi secara kebetulan jika model tersebut sebenarnya tidak memiliki daya prediksi.
2. Buat keputusan statistik
Untuk membuat keputusan, kita membandingkan nilai p dengan tingkat signifikansi \(\alpha\):
Kondisi: Jika nilai p \(\leq \alpha\), kita menolak \(H_0\).
Analisis: \(0,021 \leq 0,05\).
Keputusan: Tolak Hipotesis Nol (\(H_0\)). Hasilnya signifikan secara statistik pada tingkat kepercayaan 95%.
3. Terjemahkan keputusan ke dalam bahasa non-teknis untuk manajemen
“Evaluasi kami menunjukkan bahwa model prediksi churn baru efektif. Kami sangat yakin bahwa kinerjanya bukan karena keberuntungan. Model ini berhasil mengidentifikasi pelanggan yang berisiko meninggalkan perusahaan, memungkinkan kami untuk mengambil langkah-langkah retensi proaktif.”
4. Diskusikan risiko jika sampel tidak representatif
Jika sampel yang digunakan untuk evaluasi tidak secara akurat mewakili seluruh basis pelanggan, hal itu menimbulkan Bias Seleksi:
Generalisasi Palsu: Model mungkin tampak akurat pada data uji tetapi gagal ketika diterapkan pada pelanggan dunia nyata dengan karakteristik yang berbeda.
Investasi yang Salah Arah: Manajemen mungkin berinvestasi besar-besaran pada model yang tidak valid untuk pasar yang lebih luas, yang menyebabkan pemborosan anggaran dan target retensi yang tidak tercapai.
5. Jelaskan mengapa nilai p tidak mengukur ukuran efek
Nilai p hanya memberi tahu kita apakah suatu efek ada (bahwa kemungkinan besar bukan kebetulan), tetapi tidak memberi tahu kita seberapa besar efek tersebut.
Ketergantungan Ukuran Sampel: Sampel besar dapat menghasilkan nilai p yang sangat kecil (signifikan) meskipun peningkatan sebenarnya sangat kecil.
Signifikansi Statistik vs. Signifikansi Praktis: Sebuah model dapat memiliki nilai p < 0,05 tetapi hanya meningkatkan akurasi sebesar 0,1%. Meskipun signifikan secara statistik, hal itu mungkin tidak bermanfaat secara praktis bagi bisnis.
Refrensi
Spiegelhalter, D. (2019). The Art of Statistics: How to Learn from Data. Basic Books. (Fokus: Memahami risiko, ketidakpastian, dan interpretasi hasil statistik).
Wasserman, L. (2004). All of Statistics: A Concise Course in Statistical Inference. Springer. (Fokus: Hubungan antara statistika inferensial dengan Machine Learning).
Casella, G., & Berger, R. L. (2002). Statistical Inference. Duxbury Resource Center. (Fokus: Teori matematis mendalam, standar utama untuk tingkat pascasarjana).