Study Cases
Statistical Inferences ~ Week 14
Risky Nurhidayah
Aspiring Data Scientist and undergraduate at ITSB. Focused on statistical analysis, data science, and R programming.
1 Case Study 1
1.1 One-Sample Z-Test (Statistical Hypotheses)
A digital learning platform claims that the average daily study time of its users is 120 minutes. Based on historical records, the population standard deviation is known to be 15 minutes.
A random sample of 64 users shows an average study time of 116 minutes.
\[ \begin{aligned} \mu_0 &= 120 \\ \sigma &= 15 \\ n &= 64 \\ \bar{x} &= 116 \end{aligned} \]
1.2 Tasks
1.2.1 Formulate the Null and Alternative Hypotheses
Pertanyaan
Formulate the Null Hypothesis (\(H_0\)) and Alternative Hypothesis (\(H_1\)).
Jawaban
\[ \begin{aligned} H_0 &: \mu = 120 \\ H_1 &: \mu \neq 120 \end{aligned} \]
Kesimpulan
Berdasarkan perumusan hipotesis, hipotesis nol (\(H_0\)) menyatakan bahwa rata-rata waktu belajar harian pengguna platform digital learning adalah 120 menit, sesuai dengan klaim perusahaan. Sementara itu, hipotesis alternatif (\(H_1\)) menyatakan bahwa rata-rata waktu belajar harian pengguna berbeda dari 120 menit, sehingga klaim tersebut perlu diuji kebenarannya menggunakan data sampel.
1.2.2 Identify the Appropriate Statistical Test
Pertanyaan
Identify the appropriate statistical test and justify your choice.
Jawaban
Uji yang digunakan adalah One-Sample Z-Test
Alasannya
Tujuan dari Case Study 1 yaitu untuk membandingkan rata-rata sampel dengan rata-rata populasi yang diklaim.
Simpangan baku populasi (\(\sigma\)) diketahui, yaitu 15 menit.
Ukuran sampel cukup besar (\(n = 64\)), sehingga memenuhi syarat penggunaan uji Z.
Data yang dianalisis berupa data numerik (waktu belajar dalam menit).
1.2.3 Compute the Test Statistic and p-value
Pertanyaan
Compute the test statistic and p-value using \(\alpha = 0.05\).
Jawaban
Karena simpangan baku populasi diketahui dan ukuran sampel cukup besar, maka digunakan uji Z satu sampel.
Statistik uji Z dihitung dengan rumus
\[ Z = \dfrac{\bar{x} - \mu_0}{\sigma / \sqrt{n}} \]
Dengan mensubstitusikan nilai yang diketahui: \[ Z = \dfrac{116 - 120}{\dfrac{15}{\sqrt{64}}} \]
Karena \(\sqrt{64} = 8\), maka:
\[ Z = \dfrac{-4}{\dfrac{15}{8}} \]
\[ Z = \dfrac{-4}{1.875} \]
Sehingga diperoleh nilai statistik uji:
\[ Z = -2.13 \] Untuk rumus p-value (uji dua arah):
\[ p\text{-value} = 2 \times P(Z \le -2.13) \]
\[ p\text{-value} = 2 \times 0.0166 \] \[ p\text{-value} = 0.0332 \] Kesimpulan
Berdasarkan perhitungan statistik uji, diperoleh nilai statistik uji sebesar:
\[ Z = -2.13 \] Dengan tingkat signifikansi yang digunakan yaitu \(\alpha = 0.05\), nilai p-value yang diperoleh adalah:
\[ p\text{-value} = 0.0332 \] Karena nilai p-value lebih kecil dari tingkat signifikansi (\(0.0332 < 0.05\)), maka hipotesis nol (\(H_0\)) ditolak.
Penolakan hipotesis nol menunjukkan bahwa rata-rata waktu belajar harian pengguna berbeda secara signifikan dari 120 menit dan cenderung lebih rendah berdasarkan rata-rata sampel. Selisih antara rata-rata sampel (116 menit) dan klaim platform bukan terjadi karena variasi acak semata, tetapi mencerminkan perbedaan yang signifikan secara statistik.
Dengan demikian, klaim platform bahwa pengguna belajar rata-rata 120 menit per hari tidak sesuai dengan kondisi aktual berdasarkan data sampel. Hasil ini mengindikasikan bahwa target waktu belajar yang diklaim belum tercapai oleh mayoritas pengguna.
Dalam konteks bisnis, temuan ini berarti platform berpotensi melebihkan tingkat keterlibatan pengguna, sehingga perlu dilakukan peninjauan ulang terhadap metrik performa, desain fitur pembelajaran, atau strategi peningkatan durasi belajar pengguna.
1.2.4 Statistical Decision
Pertanyaan
State the statistical decision.
Jawaban
Karena nilai p-value lebih kecil dari 0.05, maka hipotesis nol (\(H_0\)) ditolak, yang berarti rata-rata waktu belajar harian pengguna berbeda secara signifikan dari klaim 120 menit. Dengan demikian, klaim platform tersebut tidak didukung oleh data sampel yang dianalisis.
1.2.5 Business Analytics Interpretation
Pertanyaan
Interpret the result in a business analytics context.
Jawaban
Hasil analisis menunjukkan bahwa rata-rata waktu belajar harian pengguna berbeda secara signifikan dari klaim platform sebesar 120 menit. Hal ini dapat menjadi dasar bagi manajemen untuk mengevaluasi kembali strategi engagement pengguna.
2 Case Study 2
2.1 One-Sample T-Test (\(\sigma\) Unknown, Small Sample)
A UX Research Team investigates whether the average task completion time of a new application differs from 10 minutes.
The following data are collected from 10 users:
\[ \ 9.2,\ 10.5,\ 9.8,\ 10.1,\ 9.6,\ 10.3,\ 9.9,\ 9.7,\ 10.0,\ 9.5\ \]
2.2 Tasks
2.2.1 Define the Null and Alternative Hypotheses (Two-Tailed)
Pertanyaan
Define (\(H_0\)) and (\(H_1\)) (two-tailed).
Jawaban:
\[ \begin{aligned} H_0 &: \mu = 10 \\ H_1 &: \mu \neq 10 \end{aligned} \]
Kesimpulan
Pengujian ini bertujuan untuk mengetahui apakah rata-rata waktu penyelesaian tugas pengguna berbeda secara signifikan dari 10 menit.
2.2.2 Determine the Appropriate Hypothesis Test
Pertanyaan
Determine the appropriate hypothesis test.
Jawaban
Uji statistik yang tepat adalah One-Sample t-Test, karena standar deviasi populasi tidak diketahui dan ukuran sampel kecil (\(n = 10\)).
2.2.3 Calculate the t-statistic and p-value
Pertanyaan
Calculate the t-statistic and p-value at \(\alpha = 0.05\).
Jawaban
Rumus statistik uji
\[ t = \dfrac{\bar{x} - \mu_0}{\dfrac{s}{\sqrt{n}}} \]
Nilai rata-rata sampel adalah \(\bar{x} = 9.86\) dan standar deviasi sampel sebesar \(s = 0.387\), yang diperoleh dari perhitungan data 10 pengguna.
Substitusi Nilai
\[ t = \dfrac{9.86 - 10}{\dfrac{0.387}{\sqrt{10}}} \]
\[ t = -1.15 \]
Derajat Kebebasan
\[ df = n - 1 = 9 \] Nilai p-value Karena pengujian bersifat dua arah diperoleh
\[ p\text{-value} \approx 0.28 \]
Kesimpulan
Jadi hasil uji menunjukkan bahwa perbedaan antara rata-rata waktu penyelesaian tugas sampel (9.86 menit) dan nilai 10 menit tidak signifikan secara statistik. Dengan demikian, tidak terdapat bukti yang cukup untuk menyatakan bahwa rata-rata waktu penyelesaian tugas pengguna berbeda dari 10 menit.
2.2.4 Make a Statistical Decision
Pertanyaan
Make a statistical decision.
Jawaban
Kesimpulan Statistik
\[ p\text{-value} > \alpha \; (0.28 > 0.05) \]
Karena nilai p-value lebih besar dari tingkat signifikansi maka hipotesis nol (\(H_0\)) gagal ditolak.
2.2.5 Explanation (Effect of Sample Size)
Pertanyaan
Explain how sample size affects inferential reliability.
Jawaban
Ukuran sampel yang kecil menyebabkan variabilitas estimasi menjadi lebih besar, sehingga kemampuan uji statistik untuk mendeteksi perbedaan nyata menjadi lebih rendah. Oleh karena itu, meskipun terdapat perbedaan antara rata-rata sampel dan nilai hipotesis, perbedaan tersebut belum cukup kuat secara statistik.
2.2.6 Kesimpulan Case Study 2
Berdasarkan hasil uji t, tidak terdapat bukti statistik yang cukup untuk menyatakan bahwa rata-rata waktu penyelesaian tugas berbeda dari 10 menit.
3 Case Study 3
3.1 Two-Sample T-Test (A/B Testing)
A product analytics team conducts an A/B test to compare the average session duration (minutes) between two versions of a landing page.
| Versi | Ukuran Sampel (n) | Rata-rata | Standar Deviasi |
|---|---|---|---|
| A | 25 | 4.8 | 1.2 |
| B | 25 | 5.4 | 1.4 |
3.2 Tasks
3.2.1 Null and Alternative Hypotheses
Pertanyaan
Formulate the null and alternative hypotheses.
Jawaban Karena yang dibandingkan adalah rata-rata dua versi dan tidak disebutkan arah tertentu, maka dua arah (two-tailed).
\[ H_0:\ \mu_A = \mu_B \]
\[ H_1:\ \mu_A \neq \mu_B \]
Kesimpulan
Tidak ada perbedaan rata-rata durasi sesi antara versi A dan B (H₀), versus ada perbedaan (H₁).
3.2.2 type of Statistical Test
Pertanyaan
Identify the type of t-test required.
Jawaban
\[ \text{Two-Sample T-Test (Independent Samples)} \] Alasan
Membandingkan dua kelompok berbeda (A dan B)
Data berbentuk rata-rata
Standar deviasi populasi tidak diketahui
Ukuran sampel terbatas
3.2.3 Test Statistics and p-value
Pertanyaan
Compute the test statistic and p-value.
Jawaban
Rumus statistik uji
\[ t = \frac{\bar{x}_A - \bar{x}_B}{\sqrt{\frac{s_A^2}{n_A} + \frac{s_B^2}{n_B}}} \]
Pengujian ini mengasumsikan bahwa kedua sampel bersifat independen dan memiliki varians yang relatif sebanding.
Substitusi nilai
\[ t = \frac{4.8 - 5.4}{\sqrt{\frac{1.2^2}{25} + \frac{1.4^2}{25}}} \]
\[ t = \frac{-0.6}{\sqrt{0.0576 + 0.0784}} \]
\[ t = \frac{-0.6}{0.369} \]
\[ t = -1.63 \]
Derajat kebebasan (aproksimasi)
\[ df \approx 48 \]
p-value (dua arah)
\[ p\text{-value} \approx 0.11 \]
3.2.4 Statistical Decisions
Pertanyaan Draw a statistical conclusion at \(\alpha = 0.05\).
Jawaban
\[ p\text{-value} > \alpha \; (0.11 > 0.05) \]
\[ H_0 \text{ gagal ditolak} \]
3.2.5 Interpretation for Product Decisions
Pertanyaan
Interpret the result for product decision-making.
Jawaban
Secara statistik, tidak terdapat perbedaan yang signifikan pada rata-rata durasi sesi antara landing page versi A dan B. Artinya, perubahan desain pada versi B belum terbukti meningkatkan engagement pengguna secara signifikan berdasarkan data yang ada.
4 Case Study 4
4.1 Chi-Square Test of Independence
An e-commerce company examines whether device type is associated with payment method preference.
| Perangkat / Pembayaran | E-Wallet | Kartu Kredit | Bayar di Tempat |
|---|---|---|---|
| Ponsel | 120 | 80 | 50 |
| Desktop | 60 | 90 | 40 |
4.2 Tasks
4.2.1 Null and Alternative Hypotheses
Pertanyaan
State the Null Hypothesis (\(H_0\)) and Alternative Hypothesis (\(H_1\)).
Jawaban
Karena ingin melihat hubungan antara dua variabel kategorik (jenis device dan metode pembayaran), maka hipotesisnya adalah:
\[ H_0:\ \text{Jenis perangkat dan metode pembayaran saling independen} \]
\[ H_1:\ \text{Jenis perangkat dan metode pembayaran tidak independen} \]
4.2.2 Statistical Tests Used
Pertanyaan
Identify the appropriate statistical test.
Jawaban
Uji yang tepat adalah Chi-Square Test of Independence, karena:
Data berbentuk frekuensi atau kategori
Ingin menguji hubungan antara dua variabel kategorik
Tidak membandingkan rata-rata
4.2.3 Test Statistics (Chi-Square)
Pertanyaan
Compute the Chi-Square statistic \((\chi^2)\).
Jawaban
Rumus statistik uji
\[ \chi^2 = \sum \frac{(O - E)^2}{E} \]
Derajat kebebasan
\[ df = (r-1)(c-1) = (2-1)(3-1) = 2 \]
Hasil hasil perhitungan diperoleh
\[ \chi^2 = 13.77 \]
Visualization of Payment Method Proportions by Device
data <- data.frame(
Perangkat = rep(c("Ponsel", "Desktop"), each = 3),
Pembayaran = rep(c("E-Wallet", "Kartu Kredit", "Bayar di Tempat"), times = 2),
Jumlah = c(120, 80, 50,
60, 90, 40)
)
# Menghitung proporsi per perangkat
data$Proporsi <- ave(
data$Jumlah,
data$Perangkat,
FUN = function(x) x / sum(x)
)
library(ggplot2)
ggplot(data, aes(x = Pembayaran, y = Proporsi, fill = Perangkat)) +
geom_bar(stat = "identity", position = "dodge") +
labs(
title = "Proporsi Metode Pembayaran berdasarkan Perangkat",
y = "Proporsi",
x = ""
) +
theme_minimal(base_size = 14)Ponsel: proporsi E-Wallet paling tinggi, lalu kartu kredit, terakhir bayar di tempat.
Desktop: proporsi kartu kredit paling dominan, E-Wallet lebih rendah, COD relatif mirip.
Visualisasi proporsi ini menunjukkan bahwa pengguna ponsel cenderung memilih E-Wallet, sedangkan pengguna desktop lebih sering menggunakan kartu kredit. Pola ini memperkuat hasil uji Chi-Square bahwa preferensi metode pembayaran berbeda berdasarkan jenis perangkat.
4.2.4 P-value \(\alpha = 0.05\)
Pertanyaan
Determine the p-value at \(\alpha = 0.05\).
Jawaban
Berdasarkan hasil uji Chi-Square dengan statistik uji
\[ \chi^2 = 13.77 \]
dan derajat kebebasan
\[ df = 2 \]
maka nilai p-value yang diperoleh adalah
\[ p\text{-value} \approx 0.001 \]
Nilai p-value ini jauh lebih kecil dibandingkan tingkat signifikansi yang digunakan (\(\alpha = 0.05\)), sehingga hasil pengujian menunjukkan adanya bukti statistik yang kuat terhadap hipotesis nol.
4.2.5 Statistical Conclusions
Pertanyaan
Interpret the results in terms of digital payment strategy.
Jawaban
\[ p\text{-value} < \alpha \ (0.001 < 0.05) \] Maka hipotesis nol (\(H_0\)) ditolak. Perlu diingat bahwa uji Chi-Square hanya menguji keberadaan hubungan antara variabel, dan tidak mengukur kekuatan hubungan tersebut.
Kesimpulan
Terdapat hubungan yang signifikan antara jenis perangkat dan preferensi metode pembayaran.
Artinya, strategi pembayaran digital sebaiknya disesuaikan dengan device pengguna, misalnya mengoptimalkan E-Wallet pada pengguna mobile.
5 Case Study 5
5.1 Type I and Type II Errors (Conceptual)
A fintech startup tests whether a new fraud detection algorithm reduces fraudulent transactions.
\[ \begin{aligned} H_0 &: \text{The new algorithm does not reduce fraud} \\ H_1 &: \text{The new algorithm reduces fraud} \end{aligned} \]
5.2 Tasks
5.2.1 Type I Error (\(\alpha\))
Pertanyaan
Explain a Type I Error (\(\alpha\)) in this context.
Jawaban
\[ \text{Type I Error }(\alpha) \]
Type I Error terjadi ketika perusahaan menyimpulkan algoritma baru efektif, padahal sebenarnya tidak mengurangi fraud.
Dampaknya
perusahaan bisa salah percaya, mengandalkan sistem yang ternyata tidak bekerja, sehingga risiko fraud tetap tinggi.
5.2.2 Type II Error (\(\beta\))
Pertanyaan
Explain a Type II Error (\(\beta\)) in this context.
Jawaban
\[ \text{Type II Error }(\beta) \]
Type II Error terjadi ketika perusahaan menyimpulkan algoritma tidak efektif, padahal sebenarnya algoritma tersebut berhasil mengurangi fraud.
Dampaknya
perusahaan kehilangan peluang, karena solusi yang sebenarnya bagus malah tidak dipakai.
5.2.3 Which error is more detrimental to business?
Pertanyaan
Identify which error is more costly from a business perspective.
Jawaban
Type I Error lebih berbahaya.
Alasannya
Fraud tetap lolos
Kerugian finansial berlanjut
Kepercayaan pengguna bisa turun
Type II Error masih bisa diperbaiki lewat evaluasi ulang, tapi Type I Error bisa langsung menyebabkan kerugian nyata.
5.2.4 The effect of sample size on Type II Error
Pertanyaan
Discuss how sample size affects Type II Error.
Jawaban
Semakin besar ukuran sampel, maka:
estimasi semakin akurat
\(\beta\) menurun
peluang mendeteksi efek nyata semakin besar
Sebaliknya, sampel kecil membuat algoritma yang sebenarnya efektif terlihat tidak signifikan.
5.2.5 Relationship between \(\alpha\), \(\beta\), and power
Pertanyaan
Explain the relationship between \(\alpha\),\(\beta\) and statistical power.
Jawaban
\[ \text{Power} = 1 - \beta \] Penjelasan singkat:
\(\alpha\) = risiko salah menyatakan ada efek
\(\beta\) = risiko gagal mendeteksi efek
Power = kemampuan tes mendeteksi efek yang benar-benar ada
Jadi jika \(\beta\) kecil maka power akan besar dan keputusan lebih andal.
5.2.6 Kesimpulan Case Study 5
Dalam pengujian algoritma deteksi fraud, Type I Error (\(\alpha\)) terjadi ketika perusahaan menyimpulkan algoritma baru efektif padahal sebenarnya tidak, sedangkan Type II Error (\(\beta\)) terjadi ketika perusahaan gagal mengenali bahwa algoritma baru sebenarnya berhasil mengurangi fraud. Dari perspektif bisnis, Type I Error lebih berisiko karena dapat menyebabkan kerugian finansial berkelanjutan akibat fraud yang tetap lolos. Ukuran sampel yang lebih besar membantu menurunkan Type II Error dan meningkatkan power pengujian (\(1-\beta\)), sehingga keputusan yang diambil menjadi lebih akurat dan dapat diandalkan.
6 Case Study 6
6.1 P-Value and Statistical Decision Making
A churn prediction model evaluation yields the following results:
- Test statistic = 2.31
- p-value = 0.021
- Significance level: \(\alpha=0.05\)
6.2 Tasks
6.2.1 Meaning of p-value
Pertanyaan
Explain the meaning of the p-value.
Jawaban
Nilai p-value sebesar
\[ p\text{-value} = 0.021 \] menunjukkan probabilitas memperoleh hasil pengujian yang sama ekstrem atau lebih ekstrem dari data yang diamati, dengan asumsi bahwa hipotesis nol (\(H_0\)) benar.
Dengan kata lain, jika model churn prediction sebenarnya tidak memiliki perbedaan performa, maka kemungkinan mendapatkan hasil seperti ini hanyalah sekitar 2.1%, yang tergolong kecil.
Hal ini mengindikasikan bahwa hasil pengujian tidak semata-mata disebabkan oleh variasi acak, melainkan terdapat indikasi adanya perbedaan performa model yang nyata secara statistik.
6.2.2 Statistical Decisions
Pertanyaan
Make a statistical decision.
Jawaban
Keputusan statistik ditentukan dengan membandingkan p-value dan tingkat signifikansi:
\[ p\text{-value} < \alpha \; (0.021 < 0.05) \] Karena p-value lebih kecil dari tingkat signifikansi, maka hipotesis nol (\(H_0\)) ditolak.
Penolakan \(H_0\) menunjukkan bahwa hasil evaluasi model churn prediction signifikan secara statistik pada tingkat kepercayaan 95%.
6.2.3 Non-Technical Explanation
Pertanyaan
Translate the decision into non-technical language for management.
Jawaban
Hasil analisis menunjukkan bahwa perbedaan performa model churn prediction cukup kuat dan konsisten, sehingga kecil kemungkinan hasil tersebut terjadi hanya karena kebetulan data.
Model yang diuji juga menunjukkan performa yang benar-benar berbeda, sehingga dapat dipertimbangkan sebagai dasar dalam pengambilan keputusan bisnis.
6.2.4 Risk of Non-Representative Sample
Pertanyaan
Discuss the risk if the sample is not representative.
Jawaban
Jika sampel yang digunakan tidak mewakili populasi pelanggan secara keseluruhan, maka hasil pengujian statistik dapat menjadi bias.
Akibatnya, keputusan yang diambil berdasarkan hasil tersebut berisiko tidak berlaku ketika model diterapkan pada kondisi nyata, misalnya pada segmen pelanggan yang berbeda atau periode waktu yang lain.
6.2.5 p-value and effect size
Pertanyaan
Explain why the p-value does not measure effect size.
Jawaban
p-value hanya menunjukkan apakah suatu hasil signifikan secara statistik, bukan seberapa besar dampak atau pengaruh dari model tersebut.
Nilai p-value yang kecil tidak selalu berarti efeknya besar, karena signifikansi juga dipengaruhi oleh ukuran sampel. Oleh karena itu, untuk memahami kekuatan dampak model churn prediction secara lebih komprehensif, diperlukan metrik tambahan seperti effect size atau ukuran performa model lainnya.
7 References
[1] Jim Frost, Chi-Square Test of Independence, 2023, Available. https://statisticsbyjim.com/hypothesis-testing/chi-square-test-of-independence/
[2] Khan Academy, Chi-square test for independence, 2023, Available. https://www.khanacademy.org/math/statistics-probability/significance-tests/chi-square-tests
[3] UCLA Institute for Digital Research and Education, Chi-Square Test, 2023, Available. https://stats.oarc.ucla.edu/stat/stata/whatstat/what-is-the-chi-square-test/