Assignment Week 14
Statistical Inferences
|
|
Wulan Gustika Antasya TumanggorPerguruan Tinggi: Insitut Teknologi Sains Bandung NIM: 52250010 Prodi: Sains Data Dosen: Bakti Siregar, M.Sc., CDS |
1 Case Study 1
1.1 One-Sample Z-Test (Statistical Hypotheses)
A digital learning platform claims that the average daily study time of its users is 120 minutes. Based on historical records, the population standard deviation is known to be 15 minutes.
A random sample of 64 users shows an average study time of 116 minutes.
\[ \begin{eqnarray*} \mu_0 &=& 120 \\ \sigma &=& 15 \\ n &=& 64 \\ \bar{x} &=& 116 \end{eqnarray*} \]
1.2 Tasks
1.2.1 Task 1
1. Formulate the Null Hypothesis (H₀) and Alternative Hypothesis (H₁).
\[ H_0: \mu = 120 \text{ menit} \quad \text{(Klaim platform benar)} \]
\[ H_1: \mu \neq 120 \text{ menit} \quad \text{(Klaim platform tidak benar)} \]
1.2.2 Task 2
2. Identify the appropriate statistical test and justify your choice.
Uji yang dipilih: One-Sample Z-Test
Alasan:
- Parameter populasi \(\sigma\) diketahui (\(\sigma = 15\) menit)
- Ukuran sampel besar (\(n = 64 > 30\))
- Berdasarkan Central Limit Theorem, distribusi sampling mean akan mendekati normal
- Menguji satu nilai mean populasi
1.2.3 Task 3
3. Compute the test statistic and p-value using \(\alpha = 0.05\).
\[\alpha = 0.05\]
1. Menghitung Standard Error
\[ SE = \frac{\sigma}{\sqrt{n}} = \frac{15}{\sqrt{64}} = \frac{15}{8} = 1.875 \]
2. Menghitung Statistik Uji Z
\[ z = \frac{\bar{x} - \mu_0}{SE} = \frac{116 - 120}{1.875} = \frac{-4}{1.875} = -2.1333 \]
3. Menghitung P-value (Two-Tailed)
\[ p\text{-value} = 2 \times P(Z \geq |z|) \]
\[ = 2 \times P(Z \geq 2.1333) \]
\[ = 2 \times 0.0165 \quad \text{(dari tabel Z)} \]
\[ = 0.0330 \]
4. Nilai Kritis Z
Untuk \(\alpha = 0.05\) (dua arah):
\[ z_{\alpha/2} = \pm 1.96 \]
5. Visualisasi
1.2.4 Task 4
4. State the statistical decision.
Berdasarkan P-value:
\[ p\text{-value} = 0.0330 < \alpha = 0.05 \]
→ Tolak \(H_0\)
Berdasarkan Nilai Kritis:
\[ |z| = 2.1333 > z_{\alpha/2} = 1.96 \]
→ Tolak \(H_0\)
1.2.5 Task 5
5. Interpret the result in a business analytics context.
Dalam konteks bisnis, hasil ini menunjukkan bahwa klaim platform digital tersebut bahwa rata-rata waktu belajar adalah 120 menit tidak didukung oleh data sampel.
Secara statistik, terdapat bukti yang cukup kuat pada tingkat kepercayaan 95% untuk menyatakan bahwa rata-rata waktu belajar pengguna sebenarnya berbeda (lebih rendah) dari 120 menit. Bagi tim analis bisnis, temuan ini bisa menjadi indikasi untuk:
- Mengevaluasi kembali strategi engagement pengguna.
- Meninjau apakah ada penurunan minat atau kesulitan teknis yang menyebabkan durasi belajar berkurang.
- Memperbarui materi pemasaran agar klaim durasi belajar lebih akurat sesuai data terbaru.
2 Case Study 2
2.1 One-Sample T-Test (σ Unknown, Small Sample)
A UX Research Team investigates whether the average task completion time of a new application differs from 10 minutes.
The following data are collected from 10 users:
\[ 9.2,\; 10.5,\; 9.8,\; 10.1,\; 9.6,\; 10.3,\; 9.9,\; 9.7,\; 10.0,\; 9.5 \]
2.2 Tasks
2.2.1 Task 1
1. Define H₀ and H₁ (two-tailed).
\[ H_0: \mu = 10 \text{ menit} \quad \text{(Rata-rata waktu penyelesaian tugas sama dengan 10 menit)} \]
\[ H_1: \mu \neq 10 \text{ menit} \quad \text{(Rata-rata waktu penyelesaian tugas berbeda dari 10 menit)} \]
2.2.2 Task 2
2. Determine the appropriate hypothesis test.
Uji yang dipilih: One-Sample T-Test
Alasan:
- Standar deviasi populasi tidak diketahui: σ tidak diberikan dan harus diestimasi dari sampel
- Ukuran sampel kecil: \(n = 10\) (< 30), sehingga tidak dapat mengandalkan Central Limit Theorem
- Asumsi distribusi normal: Data waktu penyelesaian tugas diasumsikan terdistribusi normal atau mendekati normal
- Sampel acak: Data dikumpulkan dari 10 pengguna yang dipilih secara acak
2.2.3 Task 3
3. Calculate the t-statistic and p-value at \(\alpha = 0.05\).
\[\alpha = 0.05\]
1. Data dan Statistik Deskriptif
Data: 9.2, 10.5, 9.8, 10.1, 9.6, 10.3, 9.9, 9.7, 10.0, 9.5
Perhitungan:
a. Rata-rata sampel (\(\bar{x}\)):
\[ \bar{x} = \frac{\sum x_i}{n} = \frac{9.2+10.5+9.8+10.1+9.6+10.3+9.9+9.7+10.0+9.5}{10} \] \[=\frac{98.6}{10} = 9.86\]
b. Standar deviasi sampel (\(s\)):
\[s = \sqrt{\frac{\sum (x_i - \bar{x})^2}{n-1}}\] \[ s = \sqrt{\frac{1.344}{9}} = \sqrt{0.1493} = 0.3865 \]
2. Menghitung Standard Error
\[ SE = \frac{s}{\sqrt{n}} = \frac{0.3865}{\sqrt{10}} = \frac{0.3865}{3.1623} = 0.1222 \]
3. Menghitung Statistik Uji t
\[ t = \frac{\bar{x} - \mu_0}{SE} = \frac{9.86 - 10}{0.1222} = \frac{-0.14}{0.1222} = -1.146 \]
4. Derajat Kebebasan (df)
\[ df = n - 1 = 10 - 1 = 9 \]
5. Menghitung P-value (Two-Tailed)
- Untuk \(t = -1.146\) dengan \(df = 9\):
- Menggunakan tabel t-distribution atau software statistik
- \(p\)-value ≈ \(2 \times P(t_{9} \geq 1.146)\)
- Dari tabel t: \(t_{0.20, 9} = 1.383\), \(t_{0.25, 9} = 1.100\)
- \(p\)-value berada antara 0.20 dan 0.30 (lebih tepatnya ≈ 0.281)
6. Nilai Kritis t
Untuk \(\alpha = 0.05\) (dua arah) dengan \(df = 9\):
\[ t_{\alpha/2, df=9} = \pm 2.262 \]
7. Visualisasi
2.2.4 Task 4
4. Make a statistical decision.
Berdasarkan P-value:
\[ p\text{-value} \approx 0.281 > \alpha = 0.05 \]
→ Gagal Tolak \(H_0\)
Berdasarkan Nilai Kritis:
\[ |t| = 1.146 < t_{\alpha/2} = 2.262 \] → Gagal Tolak \(H_0\)
2.2.5 Task 5
5. Explain how sample size affects inferential reliability.
Ukuran sampel (\(n\)) memiliki peran krusial dalam reliabilitas (keandalan) hasil statistik:
- Margin of Error: Semakin kecil sampel, semakin besar standar error-nya (\(s / \sqrt{n}\)). Ini membuat interval kepercayaan menjadi sangat lebar dan estimasi kurang presisi.
- Kekuatan Statistik (Statistical Power): Sampel kecil (seperti \(n=10\)) memiliki risiko tinggi terjadi Error Tipe II (gagal mendeteksi perbedaan yang sebenarnya ada). Jika perbedaan aslinya kecil, sampel kecil mungkin tidak cukup kuat untuk menangkap perbedaan tersebut.
- Sensitivitas terhadap Outlier: Pada sampel kecil, satu data ekstrem (misal pengguna yang sangat lambat) akan menggeser rata-rata secara signifikan, sehingga merusak representasi populasi.
3 Case Study 3
3.1 Two-Sample T-Test (A/B Testing)
A product analytics team conducts an A/B test to compare the average session duration (minutes) between two versions of a landing page.
| Version | Sample Size (n) | Mean | Standard Deviation |
|---|---|---|---|
| A | 25 | 4.8 | 1.2 |
| B | 25 | 5.4 | 1.4 |
3.2 Tasks
3.2.1 Task 1
1. Formulate the null and alternative hypotheses.
\[ H_0: \mu_A = \mu_B \quad \text{(Tidak ada perbedaan rata-rata durasi sesi antara versi A dan B)} \]
\[ H_1: \mu_A \neq \mu_B \quad \text{(Ada perbedaan rata-rata durasi sesi antara versi A dan B)} \]
3.2.2 Task 2
2. Identify the type of t-test required.
Uji yang dipilih: Two-Sample Independent T-Test dengan Equal Variance Assumption
Alasan pemilihan:
- Dua sampel independen: Pengguna versi A dan B berbeda (independent groups)
- Ukuran sampel sama: \(n_A = n_B = 25\)
- Asumsi equal variance: Meskipun standar deviasi berbeda (1.2 vs 1.4), kita dapat mengasumsikan varian sama karena perbedaannya tidak terlalu besar
- Data kuantitatif: Durasi sesi dalam menit (data kontinu)
- Distribusi mendekati normal: Dengan \(n = 25\) per grup, distribusi sampel mean mendekati normal berdasarkan CLT
3.2.3 Task 3
3. Compute the test statistic and p-value.
1. Data Ringkasan
\[ \text{Version A: } n_A = 25, \quad \bar{x}_A = 4.8, \quad s_A = 1.2 \]
\[ \text{Version B: } n_B = 25, \quad \bar{x}_B = 5.4, \quad s_B = 1.4 \]
2. Menghitung Pooled Variance
\[ s_p^2 = \frac{(n_A-1)s_A^2 + (n_B-1)s_B^2}{n_A + n_B - 2} \]
\[ = \frac{(25-1)(1.2)^2 + (25-1)(1.4)^2}{25+25-2} \]
\[ = \frac{24 \times 1.44 + 24 \times 1.96}{48} \]
\[ = \frac{34.56 + 47.04}{48} \]
\[ = \frac{81.6}{48} \]
\[ = 1.7 \]
\[ s_p = \sqrt{1.7} = 1.3038 \]
3. Menghitung Standard Error
\[ SE = s_p \times \sqrt{\frac{1}{n_A} + \frac{1}{n_B}} \]
\[ = 1.3038 \times \sqrt{\frac{1}{25} + \frac{1}{25}} \]
\[ = 1.3038 \times \sqrt{0.08} \]
\[ = 1.3038 \times 0.2828 \]
\[ = 0.3687 \]
4. Menghitung Statistik Uji t
\[ t = \frac{\bar{x}_B - \bar{x}_A}{SE} = \frac{5.4 - 4.8}{0.3687} = \frac{0.6}{0.3687} = 1.627 \]
5. Derajat Kebebasan (df)
\[ df = n_A + n_B - 2 = 25 + 25 - 2 = 48 \]
6. Menghitung P-value (Two-Tailed)
Untuk \(t = 1.627\) dengan \(df = 48\):
- Dari tabel t-distribution
- \(t_{0.10, 48} = 1.677\), \(t_{0.05, 48} = 2.011\)
- Karena \(1.627 < 1.677\), maka \(p\)-value > 0.10 untuk one-tailed
- Untuk two-tailed: \(p\)-value ≈ \(2 \times 0.055 = 0.110\) (estimasi)
Perhitungan lebih tepat:
\[ p\text{-value} = 2 \times P(t_{48} \geq 1.627) \approx 0.110 \]
7. Nilai Kritis t
Untuk \(\alpha = 0.05\) (dua arah) dengan \(df = 48\):
\[ t_{\alpha/2, df=48} = \pm 2.011 \]
8. Visualisasi
3.2.4 Task 4
4. Draw a statistical conclusion at \(\alpha = 0.05\).
Berdasarkan P-value:
\[ p\text{-value} \approx 0.110 > \alpha = 0.05 \]
→ Gagal Tolak \(H_0\)
Berdasarkan Nilai Kritis:
\[ |t| = 1.627 < t_{\alpha/2} = 2.011 \]
→ Gagal Tolak \(H_0\)
3.2.5 Task 5
5. Interpret the result for product decision-making.
Dari perspektif Product Decision-Making, hasil ini memberikan wawasan berikut:
- Jangan Terburu-buru Mengganti: Meskipun Versi B terlihat memiliki rata-rata lebih tinggi (5.4 vs 4.8), data belum memberikan bukti kuat bahwa desain B benar-benar lebih unggul secara universal.
- Perlu Sampel Lebih Besar: Nilai \(P\) sebesar 0.11 cukup dekat dengan ambang batas 0.05. Ada kemungkinan ada “efek” yang nyata namun sampel \(n=25\) terlalu kecil untuk mencapai kekuatan statistik (statistical power) yang memadai.
- Pertimbangan Biaya: Jika biaya untuk menerapkan Versi B sangat mahal, maka berdasarkan data ini, investasi tersebut belum tentu sepadan. Tim sebaiknya menjalankan tes lebih lama atau mengumpulkan lebih banyak data sebelum mengambil keputusan final.
4 Case Study 4
4.1 Chi-Square Test of Independence
An e-commerce company examines whether device type is associated with payment method preference.
| Device / Payment | E-Wallet | Credit Card | Cash on Delivery |
|---|---|---|---|
| Mobile | 120 | 80 | 50 |
| Desktop | 60 | 90 | 40 |
4.2 Tasks
4.2.1 Task 1
1. State the Null Hypothesis (H₀) and Alternative Hypothesis (H₁).
\[ H_0: \text{Device type dan payment method preference saling independen} \]
\[ \text{(Tidak ada hubungan antara jenis perangkat dan preferensi metode pembayaran)} \]
\[ H_1: \text{Device type dan payment method preference tidak independen} \]
\[ \text{(Ada hubungan antara jenis perangkat dan preferensi metode pembayaran)} \]
4.2.2 Task 2
2. Identify the appropriate statistical test.
Uji yang dipilih: Chi-Square Test of Independence
Alasan pemilihan:
Variabel kategorikal:
- Variabel 1: Device Type (Mobile vs Desktop) → nominal dengan 2 kategori
- Variabel 2: Payment Method (E-Wallet, Credit Card, Cash on Delivery) → nominal dengan 3 kategori
Data frekuensi: Data dalam bentuk tabel kontingensi (cross-tabulation)
Sampel independen: Setiap observasi independen
Ukuran sampel memadai: Semua expected frequencies > 5 (akan diperiksa)
4.2.3 Task 3
3. Compute the Chi-Square statistic (χ²).
1. Menghitung Expected Frequencies (E)
\[ E_{ij} = \frac{(\text{Row Total}_i \times \text{Column Total}_j)}{\text{Grand Total}} \]
a. Mobile & E-Wallet:
\[ E_{11} = \frac{250 \times 180}{440} = \frac{45000}{440} = 102.27 \]
b. Mobile & Credit Card:
\[ E_{12} = \frac{250 \times 170}{440} = \frac{42500}{440} = 96.59 \]
c. Mobile & Cash on Delivery:
\[ E_{13} = \frac{250 \times 90}{440} = \frac{22500}{440} = 51.14 \]
d. Desktop & E-Wallet:
\[ E_{21} = \frac{190 \times 180}{440} = \frac{34200}{440} = 77.73 \]
e. Desktop & Credit Card:
\[ E_{23} = \frac{190 \times 90}{440} = \frac{17100}{440} = 38.86 \]
f. Desktop & Cash on Delivery:
\[ E_{23} = \frac{190 \times 90}{440} = \frac{17100}{440} = 38.86 \]
2. Menghitung Statistik Chi-Square
\[ \chi^2 = \sum \frac{(O_{ij} - E_{ij})^2}{E_{ij}} \]
a. Mobile & E-Wallet:
\[ \frac{(120-102.27)^2}{102.27} = \frac{17.73^2}{102.27} = \frac{314.35}{102.27} = 3.07 \]
b. Mobile & Credit Card:
\[ \frac{(80-96.59)^2}{96.59} = \frac{(-16.59)^2}{96.59} = \frac{275.23}{96.59} = 2.85 \]
c. Mobile & Cash on Delivery:
\[ \frac{(50-51.14)^2}{51.14} = \frac{(-1.14)^2}{51.14} = \frac{1.30}{51.14} = 0.03 \]
d. Desktop & E-Wallet:
\[ \frac{(60-77.73)^2}{77.73} = \frac{(-17.73)^2}{77.73} = \frac{314.35}{77.73} = 4.04 \]
e. Desktop & Credit Card:
\[ \frac{(90-73.41)^2}{73.41} = \frac{16.59^2}{73.41} = \frac{275.23}{73.41} = 3.75 \]
f. Desktop & Cash on Delivery:
\[ \frac{(40-38.86)^2}{38.86} = \frac{1.14^2}{38.86} = \frac{1.30}{38.86} = 0.03 \]
Total Chi-Square:
\[ \chi^2 = 3.07 + 2.85 + 0.03 + 4.04 + 3.75 + 0.03 = 13.77 \]
3. Derajat Kebebasan (df)
\[ df = (r-1)(c-1) = (2-1)(3-1) = 1 \times 2 = 2 \]
4. Nilai Kritis Chi-Square
Untuk \(\alpha = 0.05\) dengan \(df = 2\):
\[ \chi^2_{\text{kritis}} = 5.991 \]
5. Menghitung P-value
Untuk \(\chi^2 = 13.77\) dengan \(df = 2\):
- \(\chi^2_{0.05, 2} = 5.991\)
- \(\chi^2_{0.01, 2} = 9.210\)
- \(\chi^2_{0.001, 2} = 13.815\)
Karena \(13.77 > 13.815\) (hampir sama), maka:
\[ p\text{-value} < 0.001 \]
6. Visualisasi
4.2.4 Task 4
4. Determine the p-value at \(\alpha = 0.05\).
Berdasarkan P-value:
\[ p\text{-value} \approx 0.0010 < \alpha = 0.05 \]
→ Tolak \(H_0\)
Berdasarkan Nilai Kritis:
\[ \chi^2 = 13.77 > \chi^2_{\text{kritis}} = 5.991 \]
→ Tolak \(H_0\)
4.2.5 Task 5
5. Interpret the results in terms of digital payment strategy.
Hasil ini sangat penting bagi strategi bisnis e-commerce:
- Optimasi Mobile: Pengguna mobile jauh lebih condong menggunakan E-Wallet dibandingkan desktop. Perusahaan harus memastikan proses checkout E-Wallet di aplikasi mobile sangat mulus (seamless).
- Promosi Kartu Kredit di Desktop: Pengguna desktop lebih memilih kartu kredit. Tim pemasaran bisa memberikan promo khusus kartu kredit atau cicilan 0% yang lebih ditonjolkan pada tampilan web desktop.
- Segmentasi Pengguna: Perusahaan tidak bisa menggunakan strategi “satu ukuran untuk semua”. Strategi pembayaran harus dipersonalisasi berdasarkan perangkat yang digunakan pelanggan untuk meningkatkan tingkat konversi (conversion rate).
5 Case Study 5
5.1 Type I and Type II Errors (Conceptual)
A fintech startup tests whether a new fraud detection algorithm reduces fraudulent transactions.
- H₀: The new algorithm does not reduce fraud.
- H₁: The new algorithm reduces fraud.
5.2 Tasks
5.2.1 Task 1
1. Explain a Type I Error (α) in this context.
a. Definisi Konseptual:
Type I Error (α) adalah kesalahan menolak \(H_0\) padahal \(H_0\) benar.
b. Dalam Konteks Fraud Detection:
\[ \text{Type I Error} = \text{Menyimpulkan algoritma mengurangi fraud} \]
\[ \text{padahal sebenarnya tidak mengurangi fraud} \]
c. Interpretasi Praktis:
- False Positive dalam konteks pengujian algoritma
- “False Alarm” - mengira ada improvement padahal tidak ada
- “Over-optimism” terhadap performa algoritma baru
d. Contoh Scenario:
Algoritma sebenarnya tidak lebih baik dari sistem lama, tetapi hasil tes menunjukkan signifikan secara statistik karena:
- Random variation dalam data
- Sampling error
- Temporary pattern dalam data tes
e. Probabilitas (α):
Biasanya ditetapkan sebagai \(\alpha = 0.05\), artinya:
- 5% kemungkinan menolak \(H_0\) padahal benar
- 95% confidence level
5.2.2 Task 2
2. Explain a Type II Error (β) in this context.
a. 1 Definisi Konseptual:
Type II Error (β) adalah kesalahan gagal menolak \(H_0\) padahal \(H_0\) salah (dan \(H_1\) benar).
b. Dalam Konteks Fraud Detection:
\[ \text{Type II Error} = \text{Menyimpulkan algoritma tidak mengurangi fraud} \]
\[ \text{padahal sebenarnya mengurangi fraud} \]
c. Interpretasi Praktis:
- False Negative dalam konteks pengujian algoritma
- “Missed Opportunity” - gagal mendeteksi improvement yang sebenarnya ada
- “Underestimating” kemampuan algoritma baru
d. Contoh Scenario:
Algoritma sebenarnya lebih baik mengurangi fraud, tetapi hasil tes tidak signifikan karena:
- Ukuran sampel terlalu kecil
- Effect size terlalu kecil untuk dideteksi
- Variabilitas data terlalu tinggi
e. Probabilitas (β):
Tidak ditetapkan seperti α, tetapi dihitung berdasarkan:
- Ukuran sampel (n)
- Effect size (d)
- Tingkat signifikansi (α)
- Variabilitas data
5.2.3 Task 3
3. Identify which error is more costly from a business perspective.
Dalam dunia fintech, Error Tipe II biasanya jauh lebih merugikan.
- Dampak Error Tipe I: Perusahaan membuang biaya untuk implementasi algoritma yang tidak efektif. Ini adalah kerugian biaya operasional dan waktu.
- Dampak Error Tipe II: Perusahaan tetap menggunakan sistem lama yang lemah, sehingga membiarkan transaksi penipuan terus terjadi. Hal ini mengakibatkan kerugian finansial langsung (pencurian uang), rusaknya reputasi perusahaan, dan potensi tuntutan hukum dari nasabah.
5.2.4 Task 4
4. Discuss how sample size affects Type II Error.
Ukuran sampel (\(n\)) berbanding terbalik dengan peluang terjadinya Error Tipe II (\(\beta\)).
- Semakin besar sampel, semakin kecil kemungkinan kita melewatkan efek yang sebenarnya ada. Dengan kata lain, sampel yang besar meningkatkan sensitivitas tes untuk mendeteksi pengurangan penipuan yang sekecil apa pun.
- Jika sampel terlalu kecil, variansi data akan tinggi, sehingga algoritma yang sebenarnya bagus mungkin terlihat tidak efektif hanya karena data yang diambil tidak cukup representatif.
5.2.5 Task 5
5. Explain the relationship between α, β, and statistical power.
Ketiga elemen ini saling terkait dalam sebuah keseimbangan (trade-off):
- Hubungan \(\alpha\) dan \(\beta\): Jika kita memperketat \(\alpha\) (misal dari 0.05 ke 0.01) untuk menghindari salah tuduh, maka risiko \(\beta\) akan meningkat. Kita menjadi sangat hati-hati sehingga sering kali gagal mendeteksi perubahan yang nyata.
- Statistical Power (\(1 - \beta\)): Power adalah kemampuan tes untuk mendeteksi efek yang benar-benar ada (menolak \(H_0\) saat \(H_1\) benar).
- Keseimbangan Ideal: Untuk meningkatkan Power tanpa menaikkan \(\alpha\), satu-satunya cara adalah dengan meningkatkan ukuran sampel (\(n\)) atau mengurangi variansi dalam data.
6 Case Study 6
6.1 P-Value and Statistical Decision Making
A churn prediction model evaluation yields the following results:
- Test statistic = 2.31
- p-value = 0.021
- Significance level: \(\alpha = 0.05\)
6.2 Tasks
6.2.1 Task 1
1. Explain the meaning of the p-value.
Definisi Formal:
P-value adalah probabilitas mendapatkan hasil tes statistik setidaknya sama ekstremnya dengan yang diamati, dengan asumsi bahwa hipotesis nol (\(H_0\)) benar.
Dalam notasi matematis:
\[ p\text{-value} = P(\text{Data yang diamati atau lebih ekstrem} \mid H_0 \text{ benar}) \]
b. Interpretasi untuk Kasus Ini:
\[ p\text{-value} = 0.021 \]
Artinya:
Jika model prediksi churn sebenarnya tidak efektif (\(H_0\) benar), maka probabilitas mendapatkan hasil tes se-ekstrem atau lebih ekstrem dari yang diamati (test statistic = 2.31) adalah 2.1%.
c. Breakdown Interpretasi:
- Kondisi “dengan asumsi \(H_0\) benar”:
- Kita berasumsi model tidak efektif (null hypothesis)
- Lalu menghitung seberapa mungkin mendapatkan hasil yang kita amati
- “Data yang diamati atau lebih ekstrem”:
- Nilai test statistic yang diamati: 2.31
- Nilai yang lebih ekstrem: > 2.31 atau < -2.31 (tergantung uji satu/dua arah)
- Probabilitas 0.021 (2.1%):
- Sangat kecil, artinya hasil yang diamati tidak mungkin terjadi jika \(H_0\) benar
- Evidence terhadap \(H_0\)
6.2.2 Task 2
2. Make a statistical decision.
a. Rule untuk Decision Making:
\[ \text{Jika } p\text{-value} < \alpha \quad \rightarrow \quad \text{Tolak } H_0 \]
\[ \text{Jika } p\text{-value} \geq \alpha \quad \rightarrow \quad \text{Gagal Tolak } H_0 \]
b. Penerapan pada Kasus:
\[ p\text{-value} = 0.021 < \alpha = 0.05 \]
Keputusan: Tolak \(H_0\)
c. Interpretasi dalam Konteks Hipotesis:
Asumsi Hipotesis Umum:
\[ H_0: \text{Model prediksi churn tidak efektif} \]
\[ \text{(tidak lebih baik dari random guess)} \]
\[ H_1: \text{Model prediksi churn efektif} \]
\[ \text{(lebih baik dari random guess)} \]
Implikasi Penolakan \(H_0\):
- Ada evidence statistik yang cukup untuk menyatakan model prediksi churn efektif
- Hasil tidak konsisten dengan asumsi model tidak efektif
- Dapat melanjutkan dengan implementasi model (dengan pertimbangan lain).
d. Confidence Level:
Dengan \(\alpha = 0.05\), confidence level = \(1 - \alpha = 95%\)
Interpretasi: Kita 95% confident bahwa penolakan \(H_0\) adalah keputusan yang benar (dalam kerangka frequentist).
e. Visualisasi
6.2.3 Task 3
3. Translate the decision into non-technical language for management.
“Berdasarkan hasil pengujian data, kami yakin (dengan tingkat kepastian di atas 95%) bahwa model prediksi churn yang baru ini benar-benar berfungsi dan bukan sekadar faktor kebetulan. Hasil yang diberikan model ini memiliki pola yang konsisten untuk mendeteksi pelanggan yang akan berhenti, sehingga layak untuk digunakan dalam strategi retensi pelanggan kita.”
6.2.4 Task 4
4. Discuss the risk if the sample is not representative.
Jika sampel yang digunakan untuk evaluasi tidak representatif (bias), maka validitas hasil statistik ini akan runtuh:
- Generalisasi yang Salah: Model mungkin terlihat sangat akurat pada data uji, tetapi gagal total saat diterapkan pada pelanggan asli di dunia nyata.
- Kesimpulan Menyesatkan: P-value yang kecil (signifikan) menjadi tidak berarti jika datanya hanya diambil dari satu segmen pelanggan saja (misalnya hanya pelanggan di kota besar), sementara perilaku pelanggan di daerah lain mungkin berbeda.
- Kerugian Finansial: Perusahaan mungkin menghabiskan anggaran promosi retensi pada orang yang salah atau melewatkan pelanggan yang benar-benar akan churn.
6.2.5 Task 5
5. Explain why the p-value does not measure effect size.
Ini adalah kesalahpahaman umum. P-value hanya memberi tahu kita apakah ada efek yang nyata (bukan kebetulan), tetapi tidak memberi tahu kita seberapa besar efek tersebut.
- P-value: Menjawab pertanyaan “Apakah ada perbedaan?”
- Effect Size: Menjawab pertanyaan “Seberapa besar perbedaan tersebut dalam praktik bisnis?”
Contoh: Sebuah model bisa memiliki p-value yang sangat kecil (0.0001) karena ukuran sampel yang masif, namun ternyata hanya mampu mengurangi churn sebesar 0.01%. Secara statistik itu signifikan, namun secara bisnis efeknya mungkin terlalu kecil untuk dianggap berharga.
7 Reference
[1] Bakti Siregar, M.Sc., CDS. (2024). Introduction to Statistics. https://bookdown.org/dsciencelabs/intro_statistics/09-Statistical_Inference.html?authuser=0