Study Cases
Statistical Inferences~ Week 14
M.Fitrah Aidil Harahap
Student Majoring in Data Science
1 Case Study 1
1.1 One-Sample Z-Test (Statistical Hypotheses)
A digital learning platform claims that the average daily study time of its users is 120 minutes. Based on historical records, the population standard deviation is known to be 15 minutes.
A random sample of 64 users shows an average study time of 116 minutes.
\[ \begin{eqnarray*} \mu_0 &=& 120 \\ \sigma &=& 15 \\ n &=& 64 \\ \bar{x} &=& 116 \end{eqnarray*} \]
1.2 Tasks
- Formulate the Null Hypothesis (H₀) and Alternative Hypothesis (H₁).
- Identify the appropriate statistical test and justify your choice.
- Compute the test statistic and p-value using \(\alpha = 0.05\).
- State the statistical decision.
- Interpret the result in a business analytics context.
JAWAB:
1.2.1 Formulasi Hipotesis
Hipotesis Nol (\(H_0\)): \(\mu = 120\) (Rata-rata waktu belajar harian pengguna adalah 120 menit)
Hipotesis Alternatif (\(H_1\)): \(\mu \neq 120\) (Rata-rata waktu belajar harian pengguna tidak sama dengan 120 menit)
1.2.2 Identifikasi Uji Statistik dan Justifikasi
Uji statistik yang paling tepat adalah One-Sample Z-Test. Justifikasinya adalah:
Standar deviasi populasi (\(\sigma\)) diketahui, yaitu 15 menit.
Ukuran sampel (\(n\)) cukup besar (\(n = 64\)), yang memenuhi syarat Teorema Limit Pusat (\(n \ge 30\)).
1.2.3 Perhitungan Test Statistic dan P-Value (\(\alpha = 0.05\))
Langkah A: Hitung Standard Error (\(SE\))\[SE = \frac{\sigma}{\sqrt{n}} = \frac{15}{\sqrt{64}} = \frac{15}{8} = 1.875\]
Langkah B: Hitung Z-Score \[Z = \frac{\bar{x} - \mu_0}{SE} = \frac{116 - 120}{1.875} = \frac{-4}{1.875} \approx -2.133\]
Langkah C: Hitung P-Value (Two-Tailed)
Karena ini adalah uji dua arah (two-tailed), kita mencari \(P(|Z| > 2.133)\):
\(P(Z < -2.133) \approx 0.0165\)
\(P\text{-value} = 0.0165 \times 2 = \mathbf{0.033}\)
1.2.4 Keputusan Statistik
Bandingkan P-value dengan \(\alpha\): \(0.033 < 0.05\).
Keputusan: Tolak \(H_0\) (Reject the Null Hypothesis).
1.2.5 Interpretasi dalam Konteks Business Analytics
Secara statistik, terdapat bukti yang cukup kuat pada tingkat signifikansi 5% untuk menyatakan bahwa rata-rata waktu belajar harian pengguna berbeda secara signifikan dari klaim platform sebesar 120 menit.
Dalam konteks bisnis, ini menunjukkan bahwa klaim performa platform tersebut mungkin terlalu tinggi (overstated), karena data sampel menunjukkan rata-rata yang lebih rendah (116 menit). Tim produk atau pemasaran mungkin perlu mengevaluasi kembali keterlibatan pengguna (user engagement) atau menyesuaikan strategi pemasaran mereka agar sesuai dengan kenyataan perilaku pengguna di lapangan.
2 Case Study 2
2.1 One-Sample T-Test (σ Unknown, Small Sample)
A UX Research Team investigates whether the average task completion time of a new application differs from 10 minutes.
The following data are collected from 10 users:
\[ 9.2,\; 10.5,\; 9.8,\; 10.1,\; 9.6,\; 10.3,\; 9.9,\; 9.7,\; 10.0,\; 9.5 \]
2.2 Tasks
- Define H₀ and H₁ (two-tailed).
- Determine the appropriate hypothesis test.
- Calculate the t-statistic and p-value at \(\alpha = 0.05\).
- Make a statistical decision.
- Explain how sample size affects inferential reliability.
JAWAB:
2.2.1 Definisi Hipotesis (Two-Tailed)
Karena tim ingin mengetahui apakah waktu penyelesaian berbeda dari 10 menit (bisa lebih cepat atau lebih lambat), maka:
Hipotesis Nol (\(H_0\)): \(\mu = 10\) (Rata-rata waktu penyelesaian sama dengan 10 menit).
Hipotesis Alternatif (\(H_1\)): \(\mu \neq 10\) (Rata-rata waktu penyelesaian tidak sama dengan 10 menit).
2.2.2 Uji Hipotesis yang Tepat
Uji yang digunakan adalah One-Sample T-Test. Alasannya:
Hanya ada satu kelompok sampel.
Standar deviasi populasi (\(\sigma\)) tidak diketahui.
Ukuran sampel kecil (\(n < 30\)), yaitu \(n = 10\).
2.2.3 Perhitungan Statistik (\(\alpha = 0.05\))
Data: 9.2, 10.5, 9.8, 10.1, 9.6, 10.3, 9.9, 9.7, 10.0, 9.5
- Rata-rata Sampel (\(\bar{x}\)): \(9.86\)
- Standar Deviasi Sampel (\(s\)): \(\approx 0.386\)
- Ukuran Sampel (\(n\)): \(10\)
- Derajat Kebebasan (\(df\)): \(n - 1 = 9\)
Rumus T-Statistic: \[t = \frac{\bar{x} - \mu_0}{s / \sqrt{n}} = \frac{9.86 - 10}{0.386 / \sqrt{10}} = \frac{-0.14}{0.122} \approx -1.147\] P-Value:Menggunakan tabel distribusi-t dengan \(df = 9\) dan \(t = -1.147\), nilai p-value (dua sisi) adalah sekitar 0.281.
2.2.4 Keputusan Statistik
Bandingkan P-value dengan \(\alpha\): \(0.281 > 0.05\).
Bandingkan \(t_{hitung}\) dengan \(t_{tabel}\): Nilai kritis \(t\) untuk \(df=9\) dan \(\alpha=0.05\) adalah \(\pm 2.262\). Karena \(|-1.147| < 2.262\), kita gagal menolak \(H_0\).
Kesimpulan: Tidak ada bukti statistik yang cukup kuat untuk menyatakan bahwa rata-rata waktu penyelesaian aplikasi baru tersebut berbeda secara signifikan dari 10 menit.
2.2.5 Pengaruh Ukuran Sampel terhadap Reliabilitas Inferensial
Ukuran sampel sangat mempengaruhi keandalan hasil riset:
1. Margin of Error: Semakin besar sampel, semakin kecil standar error (\(s / \sqrt{n}\)), yang membuat estimasi rata-rata menjadi lebih presisi.
2. Kekuatan Statistik (Power): Sampel yang kecil (seperti \(n=10\)) memiliki risiko tinggi terjadi Error Tipe II (gagal mendeteksi perbedaan yang sebenarnya ada).
3. Representasi: Sampel yang lebih besar cenderung lebih mencerminkan variasi populasi pengguna yang sebenarnya dibandingkan sampel kecil yang rentan terhadap outlier.
3 Case Study 3
3.1 Two-Sample T-Test (A/B Testing)
A product analytics team conducts an A/B test to compare the average session duration (minutes) between two versions of a landing page.
| Version | Sample Size (n) | Mean | Standard Deviation |
|---|---|---|---|
| A | 25 | 4.8 | 1.2 |
| B | 25 | 5.4 | 1.4 |
3.2 Tasks
- Formulate the null and alternative hypotheses.
- Identify the type of t-test required.
- Compute the test statistic and p-value.
- Draw a statistical conclusion at \(\alpha = 0.05\).
- Interpret the result for product decision-making.
JAWAB:
3.2.1 Formulasi Hipotesis
Berdasarkan tujuan untuk membandingkan rata-rata durasi sesi antara dua versi:
Hipotesis Nol (\(H_0\)): \(\mu_A = \mu_B\) (Tidak ada perbedaan signifikan antara rata-rata durasi sesi Versi A dan Versi B).
Hipotesis Alternatif (\(H_1\)): \(\mu_A \neq \mu_B\) (Terdapat perbedaan signifikan antara rata-rata durasi sesi Versi A dan Versi B).
3.2.2 Jenis T-Test yang Digunakan
Jenis uji yang tepat adalah Independent Samples T-Test (Uji-t dua sampel independen). Alasannya: Kita membandingkan rata-rata dari dua kelompok subjek yang berbeda (pengguna Versi A dan pengguna Versi B).
3.2.3 Perhitungan Statistik (\(\alpha = 0.05\))
Data Input:
Versi A: \(n_1 = 25, \bar{x}_1 = 4.8, s_1 = 1.2\)
Versi B: \(n_2 = 25, \bar{x}_2 = 5.4, s_2 = 1.4\)
Langkah Perhitungan:
1. Pooled Standard Deviation (\(s_p\)): \[s_p = \sqrt{\frac{(25-1)1.2^2 + (25-1)1.4^2}{25+25-2}} = \sqrt{\frac{34.56 + 47.04}{48}} \approx 1.304\] 2. T-Statistic (\(t\)): \[t = \frac{\bar{x}_1 - \bar{x}_2}{s_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} = \frac{4.8 - 5.4}{1.304 \sqrt{\frac{1}{25} + \frac{1}{25}}} = \frac{-0.6}{0.3688} \approx -1.627\] 3. P-Value: Dengan \(df = 48\) dan \(t = -1.627\), nilai p-value (dua sisi) adalah sekitar 0.110
3.2.4 Kesimpulan Statistik
Kriteria: Jika p-value < \(\alpha\), tolak \(H_0\).
Hasil: \(0.110 > 0.05\).
Keputusan: Gagal menolak \(H_0\). Secara statistik, perbedaan antara 4.8 menit dan 5.4 menit tidak cukup signifikan pada tingkat kepercayaan 95% untuk menyatakan salah satu versi lebih baik.
3.2.5 Interpretasi untuk Pengambilan Keputusan Produk
Bagi tim produk, hasil ini memberikan beberapa masukan penting:
Jangan Terburu-buru Mengganti: Meskipun Versi B memiliki angka rata-rata yang lebih tinggi secara nominal (5.4 vs 4.8), perbedaan ini bisa jadi hanya karena faktor kebetulan (random chance).
Tingkatkan Ukuran Sampel: Dengan \(n=25\) per kelompok, uji ini mungkin kekurangan daya (statistical power) untuk mendeteksi perbedaan yang sebenarnya ada. Disarankan untuk menjalankan tes lebih lama guna mendapatkan sampel yang lebih besar.
Evaluasi Metrik Lain: Jika durasi sesi tidak menunjukkan perbedaan signifikan, tim sebaiknya melihat metrik lain seperti conversion rate atau bounce rate untuk memutuskan versi mana yang lebih unggul.
4 Case Study 4
4.1 Chi-Square Test of Independence
An e-commerce company examines whether device type is associated with payment method preference.
| Device / Payment | E-Wallet | Credit Card | Cash on Delivery |
|---|---|---|---|
| Mobile | 120 | 80 | 50 |
| Desktop | 60 | 90 | 40 |
4.2 Tasks
- State the Null Hypothesis (H₀) and Alternative Hypothesis (H₁).
- Identify the appropriate statistical test.
- Compute the Chi-Square statistic (χ²).
- Determine the p-value at \(\alpha = 0.05\).
- Interpret the results in terms of digital payment strategy.
4.2.1 Bagian 3: Analisis A/B Test (Rata-rata Durasi Sesi)
1. Formulasi Hipotesis
Hipotesis Nol (\(H_0\)): \(\mu_A = \mu_B\) (Tidak ada perbedaan signifikan antara rata-rata durasi sesi Versi A dan Versi B).
Hipotesis Alternatif (\(H_1\)): \(\mu_A \neq \mu_B\) (Terdapat perbedaan signifikan antara rata-rata durasi sesi Versi A dan Versi B).
2. Jenis T-Test yang Digunakan
Uji yang tepat adalah Independent Samples T-Test. Hal ini dikarenakan kita membandingkan rata-rata dari dua kelompok pengguna yang berbeda (independen).
3. Perhitungan Statistik (\(\alpha = 0.05\))
Berdasarkan data: Versi A (\(\bar{x}=4.8, s=1.2, n=25\)) dan Versi B (\(\bar{x}=5.4, s=1.4, n=25\)).
- T-Statistic (\(t\)): \(\approx -1.627\).
- P-Value: \(\approx 0.110\).
4. Kesimpulan Statistik
Karena p-value (0.110) > 0.05, maka keputusannya adalah Gagal Menolak \(H_0\). Perbedaan durasi antara kedua landing page tidak signifikan secara statistik pada tingkat kepercayaan 95%.
5. Interpretasi untuk Keputusan Produk
Meskipun Versi B memiliki rata-rata lebih tinggi (5.4 menit), data menunjukkan perbedaan ini bisa terjadi karena faktor kebetulan. Tim produk disarankan untuk tidak langsung mengganti desain, melainkan mempertimbangkan untuk menambah jumlah sampel agar hasil lebih meyakinkan.
4.2.2 Bagian 4: Analisis E-Commerce (Uji Hubungan Perangkat)
1. Formulasi Hipotesis
Hipotesis Nol (\(H_0\)): Jenis perangkat dan preferensi metode pembayaran saling independen (tidak ada hubungan).
Hipotesis Alternatif (\(H_1\)): Jenis perangkat dan preferensi metode pembayaran saling berhubungan (dependen).
2. Uji Statistik yang Tepat
Uji yang digunakan adalah Chi-Square Test of Independence karena data berupa frekuensi dari dua variabel kategorikal.
3. Perhitungan Chi-Square (\(\chi^2\))
Dengan total sampel \(N = 440\) dan distribusi data pada tabel:
- Nilai \(\chi^2\) Hitung: \(\approx 18.23\).(Perhitungan didasarkan pada selisih antara frekuensi observasi (\(O\)) dan harapan (\(E\)) di setiap kategori pembayaran).
4. Penentuan P-Value
Derajat Kebebasan (\(df\)): \((2-1) \times (3-1) = 2\).
Pada \(\alpha = 0.05\) dan \(df = 2\), nilai p-value yang dihasilkan adalah < 0.001.
5. Interpretasi Strategi Pembayaran Digital Karena p-value < 0.05, kita Menolak \(H_0\).
Insight Utama: Pengguna Mobile sangat dominan menggunakan E-Wallet (120 vs 60 di Desktop).
Strategi: Perusahaan harus memastikan proses checkout E-wallet di aplikasi mobile sangat mulus dan mungkin memberikan promo khusus kartu kredit bagi pengguna desktop untuk menyeimbangkan konversi.
5 Case Study 5
5.1 Type I and Type II Errors (Conceptual)
A fintech startup tests whether a new fraud detection algorithm reduces fraudulent transactions.
- H₀: The new algorithm does not reduce fraud.
- H₁: The new algorithm reduces fraud.
5.2 Tasks
- Explain a Type I Error (α) in this context.
- Explain a Type II Error (β) in this context.
- Identify which error is more costly from a business perspective.
- Discuss how sample size affects Type II Error.
- Explain the relationship between α, β, and statistical power.
JAWAB:
5.2.1 Bagian 3: Analisis A/B Test (Landing Page)
1. Formulasi Hipotesis
Hipotesis Nol (\(H_0\)): \(\mu_A = \mu_B\) (Tidak ada perbedaan rata-rata durasi sesi antara Versi A dan Versi B).
Hipotesis Alternatif (\(H_1\)): \(\mu_A \neq \mu_B\) (Terdapat perbedaan rata-rata durasi sesi antara Versi A dan Versi B).
2. Jenis T-Test
Independent Samples T-Test. Digunakan karena kita membandingkan rata-rata dari dua kelompok pengguna yang berbeda dan saling bebas (Versi A vs Versi B).
3. Cara Menghitung Statistik Uji (\(\alpha = 0.05\))
Data: Versi A (\(n_1=25, \bar{x}_1=4.8, s_1=1.2\)) dan Versi B (\(n_2=25, \bar{x}_2=5.4, s_2=1.4\)).
Langkah 1 (Pooled Variance): \(s_p^2 = \frac{(n_1-1)s_1^2 + (n_2-1)s_2^2}{n_1+n_2-2} = \frac{(24 \times 1.44) + (24 \times 1.96)}{48} = 1.7\).
Langkah 2 (T-Statistic): \(t = \frac{\bar{x}_1 - \bar{x}_2}{\sqrt{s_p^2(\frac{1}{n_1} + \frac{1}{n_2})}} = \frac{4.8 - 5.4}{\sqrt{1.7(\frac{2}{25})}} = \frac{-0.6}{0.3688} \approx -1.627\).
Langkah 3 (P-Value): Untuk \(df = 48\), p-value (dua sisi) \(\approx 0.110\).
4. Kesimpulan Statistik Karena p-value (0.110) > 0.05, maka Gagal Menolak \(H_0\). Secara statistik, perbedaan durasi sesi antara kedua landing page tidak signifikan.
5. Interpretasi Produk Tim produk tidak memiliki bukti kuat bahwa Versi B lebih baik. Disarankan untuk menjalankan tes lebih lama atau mencari variabel lain yang mempengaruhi keterlibatan pengguna.
5.2.2 Bagian 4: Analisis E-Commerce (Chi-Square)
1. Formulasi Hipotesis
- \(H_0\): Jenis perangkat dan preferensi pembayaran bersifat independen (tidak berhubungan).
- \(H_1\): Jenis perangkat dan preferensi pembayaran bersifat dependen (berhubungan).
2. Uji Statistik
Chi-Square Test of Independence. Digunakan untuk menguji hubungan antara dua variabel kategorikal (Perangkat dan Metode Pembayaran).
3. Cara Menghitung Chi-Square (\(\chi^2\))
Langkah 1 (Frekuensi Harapan): Hitung \(E = \frac{(\text{Total Baris} \times \text{Total Kolom})}{\text{Total Grand}}\).
- Contoh Mobile/E-Wallet: \(E = \frac{250 \times 180}{440} = 102.27\).
Langkah 2 (Rumus \(\chi^2\)): \(\chi^2 = \sum \frac{(O-E)^2}{E}\) untuk semua sel.
Hasil: \(\chi^2 \approx 18.23\).
4. P-Value (\(\alpha = 0.05\))
Dengan \(df = (2-1) \times (3-1) = 2\), nilai \(\chi^2\) sebesar 18.23 menghasilkan p-value < 0.001.
5. Strategi Pembayaran Digital
Karena p-value < 0.05, kita Menolak \(H_0\). Terdapat hubungan signifikan di mana pengguna Mobile lebih menyukai E-Wallet. Strategi perusahaan sebaiknya memprioritaskan optimasi UX E-Wallet pada perangkat mobile.
5.2.3 Bagian 5: Kesalahan Tipe I & II (Fraud Algorithm)
1. Penjelasan Error
Type I Error (\(\alpha\)): Menyimpulkan algoritma baru mengurangi fraud, padahal kenyataannya tidak. (Positif palsu).
Type II Error (\(\beta\)): Menyimpulkan algoritma tidak efektif, padahal kenyataannya algoritma tersebut berhasil mengurangi fraud. (Negatif palsu).
2. Biaya Bisnis
Dalam konteks fintech, Type II Error seringkali lebih mahal karena membiarkan transaksi fraud terus terjadi akibat menolak sistem keamanan yang sebenarnya berfungsi baik.
3. Pengaruh Ukuran Sampel
Semakin besar ukuran sampel, maka nilai Type II Error (\(\beta\)) akan menurun. Sampel besar meningkatkan kemampuan uji untuk mendeteksi perubahan kecil yang nyata.
4. Hubungan \(\alpha\), \(\beta\), dan Power
Statistical Power (\(1 - \beta\)): Peluang untuk menolak \(H_0\) saat \(H_0\) memang salah.
Terdapat hubungan terbalik: Jika Anda memperketat \(\alpha\) (membuatnya lebih kecil), maka peluang \(\beta\) akan meningkat, yang mengakibatkan Statistical Power menurun.
6 Case Study 6
6.1 P-Value and Statistical Decision Making
A churn prediction model evaluation yields the following results:
- Test statistic = 2.31
- p-value = 0.021
- Significance level: \(\alpha = 0.05\)
6.2 Tasks
- Explain the meaning of the p-value.
- Make a statistical decision.
- Translate the decision into non-technical language for management.
- Discuss the risk if the sample is not representative.
- Explain why the p-value does not measure effect size.
JAWAB:
6.2.1 Arti dari p-value
Secara teknis, p-value adalah probabilitas mendapatkan hasil observasi (atau yang lebih ekstrem) dengan asumsi bahwa hipotesis nol (\(H_0\)) adalah benar.
- Dalam konteks ini, \(p = 0.021\) berarti ada peluang sebesar 2,1% bahwa hasil yang kita lihat hanyalah kebetulan belaka (variasi acak), padahal sebenarnya model tersebut tidak memiliki kemampuan prediksi yang nyata.
6.2.2 Keputusan Statistik
Untuk mengambil keputusan, kita membandingkan p-value dengan tingkat signifikansi (\(\alpha\)):
Data: \(p\text{-value} = 0.021\) dan \(\alpha = 0.05\).
Perbandingan: Karena \(0.021 < 0.05\), maka kita Tolak Hipotesis Nol (\(H_0\)).
Kesimpulan: Hasil evaluasi ini dinyatakan signifikan secara statistik.
6.2.3 Bahasa Non-Teknis untuk Manajemen
“Berdasarkan pengujian kami, model prediksi churn ini bekerja dengan sangat baik dan bukan sekadar faktor keberuntungan. Kami memiliki tingkat kepercayaan yang tinggi (di atas 95%) bahwa pola yang ditemukan model ini nyata, sehingga model ini layak dipertimbangkan untuk membantu kita mengidentifikasi pelanggan yang berisiko berhenti menggunakan layanan.”
6.2.4 Risiko jika Sampel Tidak Representatif
Jika data yang digunakan untuk evaluasi tidak mewakili populasi pelanggan yang sebenarnya (misalnya hanya mengambil data pelanggan lama), maka muncul risiko Bias Seleksi:
Generalisasi yang Salah: Model mungkin terlihat akurat pada data tes, tetapi akan gagal total saat diterapkan pada pelanggan baru di dunia nyata.
Keputusan Bisnis yang Keliru: Perusahaan mungkin membuang anggaran pemasaran untuk strategi pencegahan churn yang ditargetkan pada orang yang salah.
6.2.5 Mengapa p-value Tidak Mengukur Effect Size
Penting untuk diingat bahwa p-value hanya memberitahu kita apakah ada efek, bukan seberapa besar efek tersebut.
p-value sangat dipengaruhi oleh ukuran sampel. Sampel yang sangat besar dapat menghasilkan p-value yang kecil (signifikan) bahkan jika perbedaan performanya sangat tipis dan tidak berguna secara bisnis.
Contoh: Sebuah model bisa saja memiliki \(p < 0.05\) (signifikan), tetapi hanya mampu memprediksi churn 1% lebih baik daripada tebakan acak. Secara statistik itu nyata, tetapi secara bisnis (efeknya) mungkin tidak berarti.