Tugas Week 14 ~ Statistical Inferences
Vanessa Ziba Ardelia
Data Science 25 – ITSB
Dosen Pengampu: Bakti Siregar, M.Sc., CDS.
Mata
Kuliah: Statistika Dasar
R Programming Data Science Statistics
1 Case Study 1
1.1 One-Sample Z-Test (Statistical Hypotheses)
A digital learning platform claims that the average daily study time of its users is 120 minutes. Based on historical records, the population standard deviation is known to be 15 minutes.
A random sample of 64 users shows an average study time of 116 minutes.
\[ \begin{eqnarray*} \mu_0 &=& 120 \\ \sigma &=& 15 \\ n &=& 64 \\ \bar{x} &=& 116 \end{eqnarray*} \]
1.2 Tasks
- Formulate the Null Hypothesis (H₀) and Alternative Hypothesis (H₁).
- Identify the appropriate statistical test and justify your choice.
- Compute the test statistic and p-value using \(\alpha = 0.05\).
- State the statistical decision.
- Interpret the result in a business analytics context.
1.3 Penyelesaian Soal
1.3.1 Perumusan Hipotesis
Karena klaim menyebutkan rata-rata sama dengan 120 menit, maka digunakan uji dua arah. \[ \begin{aligned} H_0 &: \mu = 120 \\ H_1 &: \mu \neq 120 \end{aligned} \]
1.3.2 Identifikasi Uji Statistik
Uji yang tepat adalah One-Sample Z-Test, karena:
- Simpangan baku populasi \((\sigma)\) diketahui
- Ukuran sampel cukup besar \((n = 64 ≥ 30)\)
- Tujuan untuk menguji rata-rata populasi
1.3.3 Perhitungan Statistik Uji
Rumus statistik uji Z:
\[ Z = \frac{\bar{x} - \mu_0}{\sigma / \sqrt{n}} \] Subtitusi Nilai:
\[ Z = \frac{116 - 120}{15 / \sqrt{64}} = \frac{-4}{15/8} = \frac{-4}{1.875} = -2.13 \]
P-value (α = 0.05)
Karena uji dua arah:
\[ p\text{-value} = 2 \times P(Z \le -2.13) \] Dari Tabel Z:
\[ P(Z \le -2.13) \approx 0.0166 \]
\[ p\text{-value} = 2 \times 0.0166 = 0.0332 \]
1.3.4 Keputusan Statistik
\[ p\text{-value} = 0.0332 < \alpha = 0.05 \]
1.3.5 Interpretasi (Business Analytics Context)
Secara statistik, terdapat bukti yang cukup bahwa rata-rata waktu belajar harian pengguna berbeda dari 120 menit.
Dalam konteks bisnis:
- Klaim platform bahwa pengguna belajar rata-rata 120 menit tidak didukung oleh data
- Rata-rata aktual cenderung lebih rendah (sekitar 116 menit)
Platform perlu mengevaluasi:
- efektivitas konten
- engagement pengguna
- strategi peningkatan waktu belajar
2 Case Study 2
2.1 One-Sample T-Test (σ Unknown, Small Sample)
A UX Research Team investigates whether the average task completion time of a new application differs from 10 minutes.
The following data are collected from 10 users:
\[ 9.2,\; 10.5,\; 9.8,\; 10.1,\; 9.6,\; 10.3,\; 9.9,\; 9.7,\; 10.0,\; 9.5 \]
2.2 Tasks
- Define H₀ and H₁ (two-tailed).
- Determine the appropriate hypothesis test.
- Calculate the t-statistic and p-value at \(\alpha = 0.05\).
- Make a statistical decision.
- Explain how sample size affects inferential reliability.
2.3 Penyelesaian Soal
2.3.1 Perumusan Hipotesis
Karena ingin menguji apakah rata-rata berbeda dari 10 menit, maka: \[ \begin{aligned} H_0 &: \mu = 120 \\ H_1 &: \mu \neq 120 \end{aligned} \]
2.3.2 Identifikasi Uji Statistik
Uji yang tepat adalah One-Sample t-Test, karena:
- Simpangan baku populasi \((\sigma)\) tidak diketahui
- Ukuran sampel kecil \((n=10<30)\)
- Data berskala numerik dan menguji rata-rata
2.3.3 Perhitungan Statistik Uji
\((a)\) Rata-rata Sampel
\[ \bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i= \frac{98.6}{10}= 9.86 \]
\((b)\) Simpangan Baku Sampel
\[ s = \sqrt{\frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n - 1}} \]
Hasil : \(s \approx 0.39\)
\((c)\) Statistik Uji t
Rumus t-statistic:
\[ t = \frac{\bar{x} - \mu_0}{s / \sqrt{n}} \]
Substitusi nilai:
\[ t = \frac{9.86 - 10}{0.39 / \sqrt{10}}= \frac{-0.14}{0.123}= -1.14 \]
P-value (α = 0.05)
Derajat kebebasan:
\[ df=n−1=9 \]
Karena uji dua arah:
\[ p\text{-value} = 2 \times P(T_{9} \le -1.14) \] Dari tabel distribusi t:
\[ p\text{-value} \approx 0.283 \]
2.3.4 Keputusan Statistik
\[ p\text{-value} = 0.283 > \alpha = 0.05 \]
\[ \text{Gagal menolak } H_0 \]
2.3.5 Pengaruh Ukuran Sampel terhadap Inferensi Statistik
Ukuran sampel yang kecil menyebabkan:
- Variabilitas estimasi lebih tinggi
- Standard error lebih besar
- Kekuatan uji (power) lebih rendah
Akibatnya:
- Sulit mendeteksi perbedaan kecil meskipun perbedaan tersebut nyata
- Inferensi statistik menjadi kurang stabil
Menambah ukuran sampel akan meningkatkan reliabilitas inferensi dan kemampuan mendeteksi perbedaan rata-rata yang signifikan.
3 Case Study 3
3.1 Two-Sample T-Test (A/B Testing)
A product analytics team conducts an A/B test to compare the average session duration (minutes) between two versions of a landing page.
| Version | Sample Size (n) | Mean | Standard Deviation |
|---|---|---|---|
| A | 25 | 4.8 | 1.2 |
| B | 25 | 5.4 | 1.4 |
3.2 Tasks
- Formulate the null and alternative hypotheses.
- Identify the type of t-test required.
- Compute the test statistic and p-value.
- Draw a statistical conclusion at \(\alpha = 0.05\).
- Interpret the result for product decision-making.
3.3 Penyelesaian Soal
3.3.1 Perumusan Hipotesis
Karena ingin membandingkan dua rata-rata dan tidak disebutkan arah, digunakan uji dua arah:
\[ H_0: \mu_A = \mu_B \qquad H_1: \mu_A \neq \mu_B \]
3.3.2 Jenis Uji Statistik
Digunakan Two-Sample t-Test (Independent Samples) karena:
- Dua kelompok independen (Versi A dan B)
- Simpangan baku populasi tidak diketahui
- Ukuran sampel relatif kecil dan sebanding Data numerik (durasi waktu) Diasumsikan varians tidak sama → Welch’s t-test (aman secara statistik).
3.3.3 Perhitungan Statistik Uji
\((a)\) Statistik uji t (Welch)
\[ t = \frac{\bar{x}_A - \bar{x}_B} {\sqrt{\frac{s_A^2}{n_A} + \frac{s_B^2}{n_B}}} \]
Substitusi nilai:
\[ t = \frac{4.8 - 5.4} {\sqrt{\frac{1.2^2}{25} + \frac{1.4^2}{25}}} = \frac{-0.6}{\sqrt{0.0576 + 0.0784}} = \frac{-0.6}{0.369} = -1.63 \]
\((b)\) Derajat kebebasan (Welch–Satterthwaite)
\[ df = \frac{ \left(\frac{s_A^2}{n_A} + \frac{s_B^2}{n_B}\right)^2 }{ \frac{\left(\frac{s_A^2}{n_A}\right)^2}{n_A - 1} + \frac{\left(\frac{s_B^2}{n_B}\right)^2}{n_B - 1} } \]
Hasil aproksimasi:
\[ df≈47 \]
P-value
Uji dua arah:
\[ p\text{-value} = 2 \times P(T_{df} \le |t|) \]
Dari tabel / software statistik:
\[ p-value≈0.109 \]
3.3.4 Keputusan Statistik
\[ p\text{-value} = 0.109 > \alpha = 0.05 \;\Rightarrow\; \text{Gagal menolak } H_0 \]
3.3.5 Interpretasi (Product Decision-Making)
Secara statistik, tidak terdapat bukti yang cukup bahwa rata-rata durasi sesi pengguna berbeda secara signifikan antara versi A dan versi B.
Implikasi bisnis:
- Versi B memiliki rata-rata lebih tinggi, tetapi belum signifikan
- Perbedaan yang terlihat bisa disebabkan oleh variabilitas data Disarankan: menambah ukuran sampel atau menguji metrik lain (conversion rate, bounce rate)
4 Case Study 4
4.1 Chi-Square Test of Independence
An e-commerce company examines whether device type is associated with payment method preference.
| Device / Payment | E-Wallet | Credit Card | Cash on Delivery |
|---|---|---|---|
| Mobile | 120 | 80 | 50 |
| Desktop | 60 | 90 | 40 |
4.2 Tasks
- State the Null Hypothesis (H₀) and Alternative Hypothesis (H₁).
- Identify the appropriate statistical test.
- Compute the Chi-Square statistic (χ²).
- Determine the p-value at \(\alpha = 0.05\).
- Interpret the results in terms of digital payment strategy.
4.3 Penyelesaian Soal
4.3.1 Hipotesis
\(H_0\):Jenis perangkat dan metode pembayaran saling independen
\(H_1\):Jenis perangkat dan metode pembayaran tidak independen
4.3.2 Uji Statistik
Digunakan Chi-Square Test of Independence, karena:
- Kedua variabel bersifat kategorik
- Data berbentuk frekuensi
- Tujuannya menguji hubungan/asosiasi
4.3.3 Perhitungan Statistik Chi-Square
\((a)\) Total Baris, Kolom, dan Grand Total
- Total Mobile = 250
- Total Desktop = 190
- Total E-Wallet = 180
- Total Credit Card = 170
- Total COD = 90
- Grand Total = 440
\((b)\) Frekuensi Harapan
Rumus frekuensi harapan:
\[ E_{ij} = \frac{(\text{Total Baris}_i)(\text{Total Kolom}_j)}{\text{Grand Total}} \]
Hasil:
| Perangkat | E-Wallet | Credit Card | Cash on Delivery |
|---|---|---|---|
| Mobile | 102.27 | 96.59 | 51.14 |
| Desktop | 77.73 | 73.41 | 38.86 |
\((c)\) Statistik Chi-Square
\[ \chi^2 = \sum \frac{(O_{ij} - E_{ij})^2}{E_{ij}} \]
Derajat Kebebasan dan p-value
Derajat kebebasan:
\[ df=(r−1)(c−1)=(2−1)(3−1)=2 \]
Karena:
\[ \chi^2 = 13.78 > \chi^2_{0.05,\,2} = 5.99 \;\Rightarrow\; \text{Tolak } H_0 \]
maka:
\[ p-value<0.01 \]
4.3.4 Keputusan Statistik
\[ p\text{-value} < \alpha = 0.05 \;\Rightarrow\; \text{Tolak } H_0 \]
4.3.5 Interpretasi (Digital Payment Strategy)
Terdapat hubungan yang signifikan antara jenis perangkat dan preferensi metode pembayaran.
Implikasi bisnis:
- Pengguna mobile lebih dominan menggunakan e-wallet
- Pengguna desktop relatif lebih sering menggunakan kartu kredit Strategi pembayaran dapat dioptimalkan dengan: promosi e-wallet untuk pengguna mobile dan penawaran kartu kredit untuk pengguna desktop
5 Case Study 5
5.1 Type I and Type II Errors (Conceptual)
A fintech startup tests whether a new fraud detection algorithm reduces fraudulent transactions.
- H₀: The new algorithm does not reduce fraud.
- H₁: The new algorithm reduces fraud.
5.2 Tasks
- Explain a Type I Error (α) in this context.
- Explain a Type II Error (β) in this context.
- Identify which error is more costly from a business perspective.
- Discuss how sample size affects Type II Error.
- Explain the relationship between α, β, and statistical power.
5.3 Penyelesaian Soal
5.3.1 Type I Error (α)
Type I Error terjadi ketika H₀ ditolak padahal H₀ benar.
Dalam konteks ini: Perusahaan menyimpulkan bahwa algoritma baru mengurangi fraud, padahal sebenarnya algoritma tersebut tidak efektif.
Dampak bisnis: - Implementasi algoritma mahal yang tidak bekerja - False sense of security terhadap sistem fraud - Potensi kerugian finansial dan reputasi
5.3.2 Type II Error (β)
Type II Error terjadi ketika H₀ gagal ditolak padahal H₁ benar.
Dalam konteks ini: Perusahaan menyimpulkan bahwa algoritma baru tidak efektif, padahal sebenarnya algoritma tersebut berhasil mengurangi fraud.
Dampak bisnis:
- Kehilangan kesempatan mengurangi fraud
- Fraud tetap terjadi dalam skala besar
- Kompetitor bisa lebih unggul
5.3.3 Kesalahan yang Lebih Mahal (Business Perspective)
Type II Error (β) biasanya lebih mahal dalam konteks fintech fraud, karena:
- Fraud yang tidak terdeteksi menyebabkan kerugian langsung
- Kehilangan kepercayaan pengguna
- Risiko regulasi dan kepatuhan
Namun, jika biaya implementasi algoritma sangat besar, Type I Error juga signifikan. Dalam praktik, perlu trade-off yang seimbang.
5.3.4 Pengaruh Ukuran Sampel terhadap Type II Error
- Ukuran sampel lebih besar → estimasi lebih akurat
- Standard error lebih kecil
- Probabilitas gagal mendeteksi efek nyata menurun
Dengan kata lain:
- n meningkat → β menurun
- Power meningkat
5.3.5 Hubungan antara α, β, dan Statistical Power
- α (alpha): probabilitas Type I Error
- β (beta): probabilitas Type II Error
- Power: probabilitas menolak H₀ ketika H₁ benar
Hubungan penting:
- Jika α diturunkan, biasanya β meningkat (dengan n tetap)
- Power = 1 − β
- Menambah ukuran sampel dapat meningkatkan power tanpa menaikkan α
6 Case Study 6
6.1 P-Value and Statistical Decision Making
A churn prediction model evaluation yields the following results:
- Test statistic = 2.31
- p-value = 0.021
- Significance level: \(\alpha = 0.05\)
6.2 Tasks
- Explain the meaning of the p-value.
- Make a statistical decision.
- Translate the decision into non-technical language for management.
- Discuss the risk if the sample is not representative.
- Explain why the p-value does not measure effect size.
6.3 Penyelesaian Soal
6.3.1 Makna p-value
p-value adalah probabilitas memperoleh hasil uji setidaknya se-ekstrem yang diamati, dengan asumsi hipotesis nol \(H_0\) benar.
Dalam konteks ini:
- Jika model sebenarnya tidak efektif, peluang mendapatkan statistik uji sebesar 2.31 atau lebih ekstrem hanyalah 2.1%.
6.3.2 Keputusan Statistik
Karena:
\[ p-value=0.021<α=0.05 \]
Artinya, hasil evaluasi model signifikan secara statistik.
6.3.3 Penjelasan Non-Teknis untuk Manajemen
Hasil pengujian menunjukkan bahwa performa model churn sangat kecil kemungkinannya terjadi secara kebetulan. Ini memberi kita kepercayaan yang kuat bahwa model benar-benar memberikan perbedaan yang nyata, sehingga layak dipertimbangkan untuk digunakan.
6.3.4 Risiko Jika Sampel Tidak Representatif
Jika sampel tidak mewakili populasi pengguna secara keseluruhan:
- p-value bisa menyesatkan
- Keputusan bisnis berpotensi tidak berlaku di dunia nyata
- Model mungkin terlihat bagus di data uji, tetapi gagal saat diimplementasikan
Representativitas data sama pentingnya dengan signifikansi statistik.
6.3.5 Mengapa p-value Tidak Mengukur Effect Size
- p-value hanya menunjukkan signifikansi, bukan besar dampak
- Dengan sampel besar, efek kecil bisa menghasilkan p-value kecil
- Dengan sampel kecil, efek besar bisa tidak signifikan ➡ Untuk menilai dampak nyata, perlu metrik lain seperti:
- effect size (Cohen’s d)
- lift
- reduction rate
- business impact
7 Referensi
[1] Navarro, D. (2022). Statistics LibreTexts: The one-sample z-test. Statistik LibreTexts. https://stats.libretexts.org
[2] Wikipedia contributors. (2025, February 15). Student’s t-test. In Wikipedia, The Free Encyclopedia. https://en.wikipedia.org/wiki/student%27s_t-test
[3] Penn State University. (2025). Two sample t test for means. https://online.stat.psu.edu/stat500/lesson/10
[4] Laerd Statistics. (2025). Chi-Square Test for Association. https://statistics.laerd.com/statistical-guides/chi-square-test-for-association.php
[5] Laerd Statistics. (2025). Types of error in hypothesis testing (α & β). https://statistics.laerd.com/statistical-guides/types-of-error-in-hypothesis-testing.php
[6] Penn State University. (2025). Interpreting p-values and hypothesis tests. https://online.stat.psu.edu/stat500/lesson/6/6.2