Exercise Week 11
Probability Distribution
Nadia Apriani
Student Major in Data Science
Lecturer: Bakti Siregar M.Sc., CDS
1 Case Study 1
1.1 One-Sample Z-Test (Statistical Hypotheses)
A digital learning platform claims that the average daily study time of its users is 120 minutes. Based on historical records, the population standard deviation is known to be 15 minutes.
A random sample of 64 users shows an average study time of 116 minutes.
\[ \begin{eqnarray*} \mu_0 &=& 120 \\ \sigma &=& 15 \\ n &=& 64 \\ \bar{x} &=& 116 \end{eqnarray*} \]
1.2 Formulate the Null Hypothesis (H₀) and Alternative Hypothesis (H₁).
Platform pembelajaran digital mengklaim bahwa rata-rata waktu belajar harian pengguna adalah 120 menit. Klaim ini akan diuji menggunakan data sampel.
- Hipotesis Nol \((H_0)\) \[H_0:\ \mu = 120 \text{ menit}\]
- Hipotesis Alternatif \((H_1)\) \[H_1:\ \mu \neq 120 \text{ menit}\]
Hipotesis alternatif bersifat dua arah (two-tailed) karena perusahaan ingin mengetahui apakah rata-rata aktual lebih rendah atau lebih tinggi, bukan hanya satu arah saja.
1.3 Identify the appropriate statistical test and justify your choice
Uji statistik yang digunakan adalah uji Z satu sampel (One-Sample Z-Test).
alasan:
- Standar deviasi populasi diketahui, yaitu \(\sigma = 15 \text{ menit}\)
- Ukuran sampel cukup besar, \(n = 64 \; (\ge 30)\)
- Tujuan analisis adalah menguji rata-rata populasi \(\mu\)
Karena seluruh syarat tersebut terpenuhi, maka uji Z merupakan metode yang paling tepat.
1.4 Compute the test statistic and p-value using 𝛼=0.05
Diketahui:
- \(\mu_0 = 120 \text{ menit}\)
- \(\bar{x} = 116 \text{ menit}\)
- \(\sigma = 15 \text{ menit}\)
- \(n = 64\)
- \(\alpha = 0.05\)
Langkah 1: Hitung Standard Error (SE) \[ SE = \frac{\sigma}{\sqrt{n}} = \frac{15}{\sqrt{64}} = \frac{15}{8} = 1.875 \] Langkah 2: Hitung Statistik Uji Z \[ Z = \frac{\bar{x} - \mu_0}{SE} = \frac{116 - 120}{1.875} = \frac{-4}{1.875} \approx -2.13 \]
Langkah 3: Tentukan p-value
Nilai Z = −2,13 pada uji dua arah menghasilkan: \[\text{p-value} \approx 0.033\]
1.4.1 visualisasi
Interpretasi
Dari kurva normal, dapat dilihat bahwa nilai di sekitar rata-rata hipotesis (120 menit) berada di pusat distribusi dan memiliki probabilitas paling tinggi di bawah hipotesis nol. Semakin menjauh dari nilai pusat tersebut, probabilitas terjadinya nilai tersebut menurut hipotesis nol semakin kecil.
Nilai ekstrem yang berada di bagian ekor distribusi (daerah penolakan), seperti nilai sampel 116 menit pada contoh ini, memiliki probabilitas yang sangat rendah jika hipotesis nol benar, sehingga menjadi dasar penolakan hipotesis nol.
1.5 State the statistical decision
- \(\text{p-value} = 0.033\)
- \(\alpha = 0.05\) Karena p-value < α, maka:
Hipotesis nol (H₀) ditolak
Artinya, terdapat bukti statistik yang cukup untuk menyatakan bahwa rata-rata waktu belajar harian pengguna tidak sama dengan 120 menit.
1.6 Interpret the result in a business analytics context
Interpretasi: Berdasarkan analisis di atas, kita menemukan bahwa rata-rata waktu belajar pengguna platform digital ini secara signifikan berbeda dari 120 menit. Hal ini menunjukkan bahwa pengguna menghabiskan waktu belajar yang lebih sedikit, yaitu rata-rata 116 menit per hari.
Implikasi Bisnis: Temuan ini penting untuk pengelola platform belajar. Mereka perlu menyelidiki lebih lanjut mengapa pengguna tidak belajar selama 120 menit yang diharapkan. Mungkin ada masalah dengan konten, keterlibatan pengguna, atau faktor lain yang mempengaruhi waktu belajar. Mengetahui alasan di balik penurunan ini bisa membantu meningkatkan pengalaman pengguna dan efektivitas platform.
2 Case Study 2
2.1 One-Sample T-Test (σ Unknown, Small Sample)
A UX Research Team investigates whether the average task completion time of a new application differs from 10 minutes.
The following data are collected from 10 users:
\[ 9.2,\; 10.5,\; 9.8,\; 10.1,\; 9.6,\; 10.3,\; 9.9,\; 9.7,\; 10.0,\; 9.5 \]
2.2 Define \(H_0\) and \(H_1\) (two-tailed).
Penelitian ini bertujuan untuk mengetahui apakah rata-rata waktu penyelesaian tugas pengguna berbeda dari 10 menit, sehingga digunakan hipotesis dua arah.
- Hipotesis nol \((H_0)\)
Rata-rata waktu penyelesaian tugas pengguna sama dengan 10 menit. \[H_0:\ \mu = 10 \text{ menit}\] - Hipotesis alternatif \((H_1)\)
Rata-rata waktu penyelesaian tugas pengguna berbeda dari 10 menit. \[H_1:\ \mu \neq 10 \text{ menit}\]
2.3 Determine the appropriate hypothesis test
Uji statistik yang digunakan adalah One-Sample t-Test, dengan alasan sebagai berikut:
- Ukuran sampel kecil (n = 10).
- Simpangan baku populasi \((\sigma)\) tidak diketahui, sehingga harus diestimasi dari sampel.
- Tujuan analisis adalah membandingkan rata-rata sampel dengan satu nilai acuan (10 menit).
Dengan kondisi tersebut, distribusi t-Student adalah pendekatan yang paling tepat.
2.4 Calculate the t-statistic and p-value at \(\alpha = 0.05\).
Statistik Deskriptif Sampel
Data waktu penyelesaian (menit):
9.2, 10.5, 9.8, 10.1, 9.6, 10.3, 9.9, 9.7, 10.0, 9.5
- Rata-rata sampel: \[\bar{x} = 9.86\]
- Simpangan baku sampel: \[s \approx 0.387\]
- Standard Error (SE): \[SE = \frac{s}{\sqrt{n}} = \frac{0.387}{\sqrt{10}} \approx 0.122\]
Nilai Statistik t \[ t = \frac{\bar{x} - \mu_0}{SE} = \frac{9.86 - 10}{0.122} \approx -1.15 \] Derajat kebebasan (df) = n − 1 = 9
Nilai p-value
Untuk uji dua arah dengan:
- \(|t| = 1.15\)
- df = 9
Diperoleh: \[\text{p-value} \approx 0.28\]
2.4.1 Visualisasi
Interpretasi
Berdasarkan visual uji t, nilai t hitung (-1,15) berada di dalam daerah penerimaan (antara ±2,262) dengan p=0,28 > 0,05. Artinya, tidak cukup bukti untuk menolak H₀. Rata-rata populasi tidak berbeda signifikan dari 10 menit.
Dari kurva t-Student (df=9):
- Sempit: di puncak sekitar t=0, nilai yang paling mendukung H₀.
- Sedang: di area mendekati batas kritis ±2,262.
- Lebar: di ekor distribusi (daerah penolakan), tempat nilai ekstrem yang akan menolak H₀.
2.5 Make a statistical decision
Karena: \[\text{p-value} (0.28) > \alpha (0.05)\] Maka keputusan statistiknya adalah:
Gagal menolak hipotesis nol (H₀).
Secara statistik, tidak terdapat bukti yang cukup untuk menyatakan bahwa rata-rata waktu penyelesaian tugas pengguna berbeda dari 10 menit. Perbedaan yang terlihat pada rata-rata sampel (9.86 menit) masih dapat dijelaskan oleh variasi acak dalam sampel kecil.
2.6 Explain how sample size affects inferential reliability
Ukuran sampel memiliki pengaruh besar terhadap keandalan hasil analisis kita:
- Keandalan Hasil: Semakin besar ukuran sampel, semakin akurat estimasi kita terhadap rata-rata populasi. Ini karena ukuran sampel yang lebih besar mengurangi variasi dan memberikan gambaran yang lebih baik tentang populasi.
- Tingkat Ketidakpastian: Dengan sampel kecil, seperti yang kita gunakan di sini (n = 10), ada lebih banyak ketidakpastian dalam hasil. Hasil dari sampel kecil mungkin tidak mewakili populasi secara akurat, sehingga kita harus berhati-hati dalam menarik kesimpulan.
3 Case Study 3
3.1 Two-Sample T-Test (A/B Testing)
A product analytics team conducts an A/B test to compare the average session duration (minutes) between two versions of a landing page.
| Version | Sample Size (n) | Mean | Standard Deviation |
|---|---|---|---|
| A | 25 | 4.8 | 1.2 |
| B | 25 | 5.4 | 1.4 |
3.2 Formulate the null and alternative hypotheses
Pada A/B testing ini, fokusnya adalah membandingkan rata-rata durasi sesi dari dua versi landing page, tanpa menganggap salah satu versi pasti lebih unggul. Oleh karena itu, pengujian dilakukan dengan hipotesis dua arah.
- Hipotesis nol \((H_0)\):
Tidak terdapat perbedaan rata-rata durasi sesi antara pengguna versi A dan versi B. \[H_0:\ \mu_A = \mu_B\] - Hipotesis alternatif \((H_1)\):
Terdapat perbedaan rata-rata durasi sesi antara pengguna versi A dan versi B. \[H_1:\ \mu_A \ne \mu_B\] Artinya, pengujian ini ingin melihat apakah perubahan desain landing page benar-benar memengaruhi perilaku pengguna, tanpa asumsi awal apakah durasi sesi meningkat atau menurun.
3.3 Identify the type of t-test required
Uji statistik yang tepat adalah Two-Sample t-Test (independent samples), karena:
- Data berasal dari dua kelompok pengguna yang berbeda (versi A dan versi B)
- Ukuran sampel relatif kecil (masing-masing 25 pengguna)
- Simpangan baku populasi tidak diketahui
- Data diasumsikan berdistribusi normal
Untuk praktik analisis produk, pendekatan yang aman adalah Welch’s t-test, karena tidak mengharuskan varians kedua kelompok sama.
3.4 Compute the test statistic and p-value.
Selisih rata-rata \[\bar{x}_B - \bar{x}_A = 5.4 - 4.8 = 0.6\] Standard Error (SE) \[ SE = \sqrt{\frac{s_A^2}{n_A} + \frac{s_B^2}{n_B}} = \sqrt{\frac{1.2^2}{25} + \frac{1.4^2}{25}} \] \[ SE = \sqrt{\frac{1.44}{25} + \frac{1.96}{25}} = \sqrt{0.136} \approx 0.369 \]
Nilai statistik t \[t = \frac{0.6}{0.369} \approx 1.63\] p-value
Dengan derajat kebebasan sekitar 47 (Welch approximation), diperoleh:
- \(p\text{-value} \approx 0.11 \text {(dua arah)}\)
3.4.1 Visualisasi
Interpretassi
Berdasarkan grafik, versi B memiliki durasi sesi rata-rata yang lebih tinggi (5,4 menit) dibandingkan versi A (4,8 menit). Namun, nilai p sebesar 0,11 (p > 0,05) menunjukkan bahwa perbedaan tersebut tidak signifikan secara statistik. Hal ini mengindikasikan bahwa selisih rata-rata sebesar 0,6 menit kemungkinan besar disebabkan oleh variasi acak, bukan oleh perbedaan desain landing page.
- Error bar pada grafik menunjukkan tingkat variabilitas dalam masing-masing kelompok relatif kecil.
- Berdasarkan hasil uji t dua sampel, interval kepercayaan 95% untuk selisih rata-rata (B − A) mencakup nilai nol, yang mengonfirmasi bahwa perbedaan rata-rata tidak signifikan secara statistik.
- Oleh karena itu, tidak terdapat bukti yang cukup untuk menyatakan bahwa Versi B secara signifikan lebih baik dibandingkan Versi A.
3.5 Draw a statistical conclusion at \(\alpha = 0.05\).
Karena: \[p\text{-value} > \alpha = 0.05\] maka gagal menolak hipotesis nol.
Artinya, secara statistik tidak terdapat bukti yang cukup untuk menyatakan bahwa rata-rata durasi sesi pengguna pada versi A dan versi B berbeda secara signifikan.
3.6 Interpret the result for product decision-making
Meskipun secara deskriptif versi B memiliki rata-rata durasi sesi yang lebih tinggi (5,4 menit dibanding 4,8 menit), perbedaan tersebut belum cukup kuat secara statistik untuk disimpulkan sebagai dampak nyata dari perubahan landing page.
Implikasi bisnisnya:
- Tim produk belum dapat memastikan bahwa versi B benar-benar meningkatkan engagement pengguna.
- Perbedaan yang terlihat bisa saja disebabkan oleh variasi alami antar pengguna, bukan efek desain.
- Disarankan untuk:
- Menambah ukuran sampel
- Menguji metrik tambahan (misalnya bounce rate, conversion rate)
- Mengombinasikan dengan analisis kualitatif (misalnya usability testing)
Dengan pendekatan ini, keputusan produk menjadi lebih berbasis data dan mengurangi risiko melakukan perubahan besar tanpa bukti yang kuat.
4 Case study 4
4.1 Chi-Square Test of Independence
An e-commerce company examines whether device type is associated with payment method preference.
| Device / Payment | E-Wallet | Credit Card | Cash on Delivery |
|---|---|---|---|
| Mobile | 120 | 80 | 50 |
| Desktop | 60 | 90 | 40 |
4.2 State the Null Hypothesis (H₀) and Alternative Hypothesis (H₁).
\(H_0\) (Null Hypothesis):
Tidak terdapat hubungan antara jenis perangkat (mobile atau desktop) dengan preferensi metode pembayaran\(H_1\) (Alternative Hypothesis):
Terdapat hubungan antara jenis perangkat yang digunakan dengan preferensi metode pembayaran.
4.3 Identify the appropriate statistical test
Data yang dianalisis berupa data kategorik dalam bentuk tabel kontingensi (jenis perangkat × metode pembayaran). Tujuan analisis adalah menguji hubungan antar dua variabel kategorik.
Oleh karena itu, uji statistik yang tepat adalah:
Chi-Square Test of Independence (Uji Chi-Square Independensi) Uji ini digunakan untuk mengetahui apakah dua variabel kategorik saling berhubungan atau tidak.
4.4 Compute the Chi-Square statistic (χ²)
A. Tabel Data Observasi
| Perangkat | E-Wallet | Kartu Kredit | COD | Total |
|---|---|---|---|---|
| Mobile | 120 | 80 | 50 | 250 |
| Desktop | 60 | 90 | 40 | 190 |
| Total | 180 | 170 | 90 | 440 |
B. Perhitungan Frekuensi Harapan
Rumus frekuensi harapan: \[E_{ij} = \frac{(\text{Total baris}) \times (\text{Total kolom})}{\text{Total keseluruhan}}\] Total keseluruhan = 440
Mobile – E-Wallet \[E_{11} = \frac{250 \times 180}{440} = \frac{45000}{440} = 102.27\] Mobile – Kartu Kredit \[E_{12} = \frac{250 \times 170}{440} = \frac{42500}{440} = 96.59\] Mobile – COD \[E_{13} = \frac{250 \times 90}{440} = \frac{22500}{440} = 51.14\] Desktop – E-Wallet \[E_{21} = \frac{190 \times 180}{440} = \frac{34200}{440} = 77.73\] Desktop – Kartu Kredit \[E_{22} = \frac{190 \times 170}{440} = \frac{32300}{440} = 73.41\] Desktop – COD \[E_{23} = \frac{190 \times 90}{440} = \frac{17100}{440} = 38.86\]
| Perangkat | E-Wallet | Kartu Kredit | COD |
|---|---|---|---|
| Mobile | 102.27 | 96.59 | 51.14 |
| Desktop | 77.73 | 73.41 | 38.86 |
C. Perhitungan Nilai \(X^2\)
Rumus Chi-Square: \[\chi^2 = \sum \frac{(O - E)^2}{E}\] dengan:
- \(O\) = frekuensi observasi
- \(E\) = frekuensi harapan
Setelah menghitung seluruh sel, diperoleh: \[\chi^2 \approx 14.78\]
4.4.1 Visualisasi
Interpretasi
Interpretasi chi-square: Total 14,78 menunjukkan hubungan antara perangkat dan metode pembayaran. Empat kombinasi utama (Desktop/Mobile dengan E-Wallet/Kartu Kredit) menyumbang >90%, jadi hubungan ini terutama didorong oleh perbedaan penggunaan metode pembayaran modern.
Angka kontribusi (contoh: 4,04) hanya menunjukkan besarnya penyimpangan, bukan arahnya (lebih banyak/sedikit). Cash on Delivery konsisten di semua perangkat (kontribusi sangat kecil).
4.5 Determine the p-value at \(\alpha = 0.05\).
Derajat Kebebasan (df)
\[\text{df} = (r - 1)(c - 1) = (2 - 1)(3 - 1) = 2\]
Tingkat Signifikansi
\[\alpha = 0.05\]
Keputusan
Nilai kritis χ² pada:
- df = 2
- α = 0.05
adalah 5.991
Karena:
\[\chi^2_{\text{hitung}} = 14.78 > 5.991\]
atau secara ekuivalen:
- p-value < 0.05
Keputusan: Hipotesis nol \((H_0)\) ditolak
4.6 Interpret the results in terms of digital payment strategy
- Hasil uji menunjukkan adanya hubungan yang signifikan antara jenis perangkat dan preferensi metode pembayaran.
- Pengguna mobile cenderung lebih sering menggunakan E-Wallet karena lebih praktis dan terintegrasi dengan perangkat seluler.
- Pengguna desktop lebih banyak memilih kartu kredit, yang umumnya lebih nyaman digunakan pada layar yang lebih besar.
- Metode Cash on Delivery (COD) digunakan pada kedua perangkat, namun bukan pilihan yang dominan.
Implikasi Strategis bagi Perusahaan E-Commerce
- Tampilan dan promosi E-Wallet sebaiknya diprioritaskan pada pengguna mobile.
- Fitur pembayaran kartu kredit dapat diperkuat pada pengalaman pengguna desktop.
- Penyesuaian metode pembayaran berdasarkan perangkat dapat membantu meningkatkan conversion rate dan user experience.
5 Case Study 5
5.1 Type I and Type II Errors (Conceptual)
A fintech startup tests whether a new fraud detection algorithm reduces fraudulent transactions.
- \(H_0\): The new algorithm does not reduce fraud.
- \(H_1\): The new algorithm reduces fraud.
5.2 Explain a Type I Error (α) in this context.
Type I Error terjadi ketika perusahaan menyimpulkan bahwa algoritma baru berhasil mengurangi fraud, padahal sebenarnya algoritma tersebut tidak memberikan perbaikan nyata.
Dalam konteks hipotesis:
- \(H_0\): Algoritma baru tidak mengurangi fraud
- Type I Error: \(H_0\) ditolak padahal \(H_0\) benar
Contoh nyata di bisnis:
Perusahaan fintech mengimplementasikan algoritma baru karena hasil uji statistik menunjukkan penurunan fraud. Namun, pada kenyataannya penurunan tersebut hanya kebetulan dari data sampel, bukan karena algoritma memang lebih baik.
Dampak bisnis:
- Investasi biaya dan waktu pada sistem yang tidak efektif
- Potensi peningkatan keluhan pengguna akibat false positive
- Risiko reputasi karena fraud sebenarnya tidak berkurang
5.3 Explain a Type II Error (β) in this context
Type II Error terjadi ketika perusahaan menyimpulkan bahwa algoritma baru tidak efektif, padahal sebenarnya algoritma tersebut mampu mengurangi fraud.
Dalam konteks hipotesis:
- \(H_1\): Algoritma baru mengurangi fraud Type II Error: Gagal menolak H₀ padahal \(H_1\) benar
Contoh nyata di bisnis:
Algoritma baru sebenarnya lebih akurat dalam mendeteksi transaksi fraud, tetapi karena data uji terlalu sedikit atau variasinya tinggi, hasil uji statistik tidak menunjukkan perbedaan yang signifikan. Akibatnya, perusahaan menolak menggunakan algoritma tersebut.
Dampak bisnis:
- Kehilangan peluang mengurangi kerugian akibat fraud
- Tetap menggunakan sistem lama yang kurang optimal
- Potensi kerugian finansial jangka panjang
5.4 Identify which error is more costly from a business perspective
Dalam konteks fraud detection, Type II Error umumnya lebih mahal bagi bisnis.
Alasannya:
- Fraud yang tidak terdeteksi berarti kerugian finansial langsung
- Potensi pelanggaran keamanan dan kepercayaan pengguna
- Dampak jangka panjang terhadap reputasi perusahaan
Namun, penting dicatat bahwa:
- Jika Type I Error menyebabkan terlalu banyak transaksi sah ditandai sebagai fraud, maka pengalaman pengguna bisa sangat terganggu
- Oleh karena itu, perusahaan perlu menyeimbangkan risiko kedua jenis kesalahan, bukan hanya meminimalkan salah satunya
5.5 Discuss how sample size affects Type II Error.
Ukuran sampel memiliki pengaruh sangat besar terhadap Type II Error (β).
Penjelasan sederhananya:
- Sampel kecil → Sulit mendeteksi perbedaan nyata → β tinggi
- Sampel besar → Sinyal lebih jelas → β menurun
Dengan data yang lebih banyak:
- Variasi acak dapat ditekan
- Perbedaan kinerja algoritma lebih mudah terdeteksi
- Keputusan menjadi lebih andal secara statistik
Implikasi praktis:
Fintech sebaiknya menguji algoritma pada volume transaksi yang cukup besar agar tidak salah menolak solusi yang sebenarnya efektif.
5.6 Explain the relationship between α, β, and statistical power
Ketiga konsep ini saling berkaitan erat:
- α (Type I Error)
Probabilitas menyatakan algoritma efektif padahal sebenarnya tidak - β (Type II Error)
Probabilitas menyatakan algoritma tidak efektif padahal sebenarnya efektif - Statistical Power (1 − β)
Probabilitas berhasil mendeteksi bahwa algoritma memang efektif jika benar-benar efektif
Hubungan utamanya:
- Semakin kecil β, semakin besar power
- Jika α diperkecil tanpa menambah ukuran sampel, maka β cenderung meningkat
- Untuk menekan α dan β secara bersamaan, solusi terbaik adalah meningkatkan ukuran sampel
Dalam konteks bisnis:
Power yang tinggi berarti perusahaan memiliki peluang besar untuk menemukan inovasi yang benar-benar berdampak, tanpa terjebak pada kesimpulan yang menyesatkan.
6 Case Study 6
6.1 P-Value and Statistical Decision Making
A churn prediction model evaluation yields the following results:
- Test statistic = 2.31
- p-value = 0.021
- Significance level: \(\alpha = 0.05\)
6.2 Explain the meaning of the p-value
p-value sebesar 0,021 menunjukkan bahwa hanya ada sekitar 2,1% kemungkinan untuk memperoleh hasil uji statistik seperti ini jika sebenarnya model churn tidak memberikan perbedaan atau peningkatan apa pun. Nilai ini menggambarkan seberapa kuat bukti dari data terhadap hipotesis nol.
Semakin kecil p-value, semakin kecil pula kemungkinan bahwa hasil yang diperoleh hanyalah akibat kebetulan. Dalam evaluasi model churn ini, p-value yang rendah mengindikasikan bahwa perbedaan performa yang muncul kemungkinan besar memang nyata, bukan sekadar fluktuasi acak pada data.
6.3 Make a statistical decision
Karena p-value (0,021) lebih kecil dari tingkat signifikansi α = 0,05, maka keputusan statistik yang diambil adalah:
Menolak hipotesis nol (H₀).
Artinya, terdapat bukti statistik yang cukup kuat untuk menyatakan bahwa performa model churn berbeda secara signifikan dibandingkan kondisi acuan atau model pembanding.
6.4 Translate the decision into non-technical language for management.
Jika dijelaskan tanpa istilah statistik, hasil ini dapat diartikan bahwa model churn yang diuji memang menunjukkan kinerja yang lebih baik, dan kecil kemungkinan hasil tersebut muncul hanya karena kebetulan. Oleh karena itu, model ini layak untuk dipertimbangkan dalam proses pengambilan keputusan bisnis atau untuk tahap pengujian lanjutan.
6.5 Discuss the risk if the sample is not representative
Meskipun hasil uji statistik menunjukkan signifikansi, hasil tersebut bisa menyesatkan jika data sampel tidak mewakili kondisi sebenarnya.
Beberapa risiko yang dapat terjadi antara lain:
- Model terlihat sangat baik di data uji, tetapi gagal saat diterapkan ke seluruh pelanggan.
- Sampel hanya merepresentasikan segmen pelanggan tertentu, misalnya pelanggan aktif saja, sehingga prediksi churn menjadi bias.
- Keputusan bisnis yang diambil berdasarkan hasil ini dapat tidak efektif atau bahkan merugikan, karena asumsi perilaku pelanggan tidak sesuai dengan realita pasar.
Oleh karena itu, validitas hasil statistik sangat bergantung pada kualitas dan representativitas data yang digunakan.
6.6 Explain why the p-value does not measure effect size
p-value hanya mengukur kekuatan bukti terhadap hipotesis nol, bukan seberapa besar dampak atau manfaat model secara praktis.
Beberapa alasan utama:
- p-value dapat menjadi kecil hanya karena ukuran sampel sangat besar, meskipun peningkatan performa model sebenarnya sangat kecil.
- p-value tidak memberi informasi tentang seberapa besar penurunan churn atau seberapa signifikan dampaknya terhadap pendapatan.
- Dua model bisa memiliki p-value yang sama, tetapi perbedaan dampak bisnisnya bisa sangat jauh.
Untuk memahami nilai bisnis secara utuh, p-value perlu dilengkapi dengan ukuran efek (effect size), seperti peningkatan akurasi, AUC, lift, atau estimasi dampak finansial.
7 Reference
Bakti Siregar, M.Sc., CDS. (2024). Introduction to Statistics.
https://bookdown.org/dsciencelabs/intro_statistics/09-Statistical_Inference.html?authuser=0
Montgomery, D. C., & Runger, G. C. (2018). Applied Statistics and Probability for Engineers (7th ed.). John
Wiley & Sons. Retrieved from
https://www.wiley.com/en-us/Applied+Statistics+and+Probability+for+Engineers%2C+7th+Edition-p-9781119400363
Wasserman, L. (2004). All of statistics: A concise course in statistical inference. Springer.
Retrieved from
https://link.springer.com/book/10.1007/978-0-387-21736-9