## Warning: package 'htmltools' was built under R version 4.5.2
M.Fitrah Aidil Harahap
Student Majoring in Data Science
R Programming
Data Science
Statistics
Case Study 1
Confidence Interval for Mean, \(\sigma\) Known: An
e-commerce platform wants to estimate the
average number of daily transactions per user after
launching a new feature. Based on large-scale historical data, the
population standard deviation is known.
\[
\begin{eqnarray*}
\sigma &=& 3.2 \quad \text{(population standard deviation)} \\
n &=& 100 \quad \text{(sample size)} \\
\bar{x} &=& 12.6 \quad \text{(sample mean)}
\end{eqnarray*}
\]
Tasks
Identify the appropriate statistical test and
justify your choice.
Compute the Confidence Intervals for:
\(90\%\)
\(95\%\)
\(99\%\)
Create a comparison visualization of the three
confidence intervals.
Interpret the results in a business analytics context.
JAWAB :
Uji statistik yang
tepat untuk digunakan adalah Z-Test (Z-Interval) untuk rata-rata
populasi.
Standar Deviasi Populasi (\(\sigma\) ) Diketahui: Soal secara
eksplisit menyebutkan \(\sigma = 3.2\) .
Jika \(\sigma\) tidak diketahui, kita
akan menggunakan t-test.
Ukuran Sampel Besar: Sampel (\(n = 100\) ) jauh lebih besar dari 30 (\(n > 30\) ), sehingga menurut Teorema
Limit Pusat, distribusi rata-rata sampel akan mendekati distribusi
normal.
Perhitungan
Confidence Intervals (CI)
Rumus umum Confidence Interval adalah: \[\bar{x} \pm z \cdot \left(
\frac{\sigma}{\sqrt{n}} \right)\] Di mana Standard Error (\(SE\) ) adalah: \(SE = \frac{3.2}{\sqrt{100}} = 0.32\) .
Data Distribusi Z
90%
1.645
0.526
12.074
13.126
95%
1.960
0.627
11.973
13.227
99%
2.576
0.824
11.776
13.424
Visualisasi
Perbandingan
Interpretasi dalam
Konteks Business Analytics
Kepastian Presisi: Semakin tinggi tingkat
kepercayaan (99%), semakin lebar rentangnya. Secara bisnis, jika kita
ingin sangat yakin (99%) bahwa prediksi kita benar, kita harus menerima
rentang yang lebih luas (11.78 hingga 13.42 transaksi). Sebaliknya, pada
90%, rentangnya lebih sempit (presisi lebih tinggi), namun risiko
melesetnya lebih besar.
Efektivitas Fitur Baru: Manajemen e-commerce
dapat menyimpulkan dengan keyakinan 95% bahwa rata-rata transaksi harian
per user setelah peluncuran fitur baru berada di antara 11.97 hingga
13.23. Angka ini bisa dibandingkan dengan data historis sebelum fitur
diluncurkan untuk mengukur kesuksesan KPI.
Pengambilan Keputusan: Rentang ini memberikan
“batas aman” bagi tim operasional untuk memproyeksikan beban server atau
pendapatan harian tanpa hanya mengandalkan satu angka rata-rata tunggal
yang mungkin fluktuatif.
Case Study 2
Confidence Interval for Mean, \(\sigma\) Unknown: A UX
Research team analyzes task completion time (in
minutes) for a new mobile application. The data are collected
from 12 users :
\[
8.4,\; 7.9,\; 9.1,\; 8.7,\; 8.2,\; 9.0,\;
7.8,\; 8.5,\; 8.9,\; 8.1,\; 8.6,\; 8.3
\]
Tasks:
Identify the appropriate statistical test and
explain why.
Compute the Confidence Intervals for:
\(90\%\)
\(95\%\)
\(99\%\)
Visualize the three intervals on a single plot.
Explain how sample size and confidence level
influence the interval width.
JAWAB :
Identifikasi Uji
Statistik
Uji statistik yang tepat adalah One-Sample t-test (t-interval).
Standar Deviasi Populasi (\(\sigma\) ) Tidak Diketahui: Kita
hanya memiliki data sampel, sehingga harus menggunakan standar deviasi
sampel (\(s\) ).
Ukuran Sampel Kecil: Jumlah sampel hanya \(n = 12\) (\(n
< 30\) ). Dalam kondisi ini, distribusi-\(t\) lebih akurat daripada distribusi-\(z\) untuk mengakomodasi ketidakpastian
ekstra dari sampel kecil.
Perhitungan
Confidence Intervals Data:
\(8.4, 7.9, 9.1, 8.7, 8.2, 9.0, 7.8, 8.5,
8.9, 8.1, 8.6, 8.3\)
Mean Sampel (\(\bar{x}\) ): \(8.458\)
Standar Deviasi Sampel (\(s\) ): \(0.412\)
Degrees of Freedom (\(df\) ): \(n - 1 = 11\)
Hasil Estimasi Distribusi T
90%
1.796
0.214
8.244
8.672
95%
2.201
0.262
8.196
8.196
99%
3.106
0.369
8.089
8.827
Visualisasi
Perbandingan
Pengaruh Ukuran
Sampel dan Confidence Level
Confidence Level: Semakin tinggi tingkat
kepercayaan (misal dari 90% ke 99%), semakin lebar intervalnya. Hal ini
karena kita membutuhkan rentang yang lebih luas agar lebih yakin bahwa
parameter populasi benar-benar ada di dalamnya.
Sample Size (\(n\) ): Semakin besar ukuran sampel,
semakin sempit intervalnya. Secara matematis, \(n\) berada di penyebut dalam rumus Standard
Error (\(s/\sqrt{n}\) ). Sampel yang
lebih besar mengurangi variabilitas estimasi, sehingga menghasilkan
presisi yang lebih tinggi.
Case Study 3
Confidence Interval for a Proportion, A/B Testing: A
data science team runs an A/B test on a new
Call-To-Action (CTA) button design. The experiment yields:
\[
\begin{eqnarray*}
n &=& 400 \quad \text{(total users)} \\
x &=& 156 \quad \text{(users who clicked the CTA)}
\end{eqnarray*}
\]
Tasks:
Compute the sample proportion \(\hat{p}\) .
Compute Confidence Intervals for the proportion at:
\(90\%\)
\(95\%\)
\(99\%\)
Visualize and compare the three intervals.
Explain how confidence level affects decision-making in product
experiments.
JAWAB :
Hitung Proporsi
Sampel(\(\hat{p}\) )
Berdasarkan data eksperimen:
Total pengguna (\(n\) ) = 400
Pengguna yang mengklik CTA (\(x\) )
= 156
\[\hat{p} = \frac{x}{n} = \frac{156}{400}
= 0.39\] Jadi, proporsi sampelnya adalah 0.39 atau 39%.
Hitung Confidence
Intervals untuk Proporsi
Rumus yang digunakan adalah: \(\hat{p} \pm
z \cdot \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\) Di mana Standard
Error (\(SE\) ) adalah: \(\sqrt{\frac{0.39 \cdot 0.61}{400}} \approx
0.02439\)
Tabel Interval Kepercayaan
Confidence.Level
Nilai.Kritis..z.
Margin.of.Error
Lower.Bound
Upper.Bound
90%
1.645
0.0401
0.3499
0.4301
95%
1.960
0.0478
0.3422
0.4378
99%
2.576
0.0628
0.3272
0.4528*
Visualisasi
Perbandingan
Pengaruh Confidence
Level dalam Pengambilan Keputusan Produk
Dalam konteks eksperimen produk (A/B Testing), tingkat kepercayaan
sangat mempengaruhi keputusan:
Toleransi Risiko: Tingkat kepercayaan 95% adalah
standar industri. Jika kita menggunakan 99%, kita menjadi sangat
konservatif—kita butuh bukti yang sangat kuat sebelum menyatakan suatu
desain CTA lebih baik. Ini mengurangi risiko False Positive (menyatakan
ada efek padahal tidak ada).
Kecepatan vs Kepastian: Tingkat kepercayaan 90%
menghasilkan interval yang lebih sempit, yang memungkinkan pengambilan
keputusan lebih cepat dengan data yang lebih sedikit, namun dengan
risiko kesalahan yang lebih tinggi (10%).
Aplikasi Praktis: Jika interval kepercayaan
untuk desain baru tidak tumpang tindih (overlap) dengan performa desain
lama, tim produk dapat dengan percaya diri meluncurkan fitur tersebut.
Semakin tinggi tingkat kepercayaan, semakin besar keyakinan bisnis bahwa
peningkatan metrik bukan terjadi karena kebetulan.
Case Study 4
Precision Comparison (Z-Test vs t-Test): Two data
teams measure API latency (in milliseconds) under
different conditions.
\[\begin{eqnarray*}
\text{Team A:} \\
n &=& 36 \quad \text{(sample size)} \\
\bar{x} &=& 210 \quad \text{(sample mean)} \\
\sigma &=& 24 \quad \text{(known population standard deviation)}
\\[6pt]
\text{Team B:} \\
n &=& 36 \quad \text{(sample size)} \\
\bar{x} &=& 210 \quad \text{(sample mean)} \\
s &=& 24 \quad \text{(sample standard deviation)}
\end{eqnarray*}\]
Tasks
Identify the statistical test used by each team.
Compute Confidence Intervals for 90%, 95%, and
99% .
Create a visualization comparing all intervals.
Explain why the interval widths differ , even with
similar data.
JAWAB:
Identifikasi Uji
Statistik
Kedua tim memiliki ukuran sampel yang sama (\(n = 36\) ), namun perbedaan terletak pada
informasi standar deviasi yang tersedia:
Team A (Z-Test): Menggunakan Z-Test karena
standar deviasi populasi (\(\sigma\) )
diketahui.
Team B (t-Test): Menggunakan t-Test karena
standar deviasi populasi tidak diketahui, sehingga menggunakan standar
deviasi sampel (\(s\) ).
Perhitungan
Confidence Interval (CI)
Rumus umum: \(\bar{x} \pm (\text{Critical
Value} \times \frac{\text{std dev}}{\sqrt{n}})\) Dengan Standard
Error (\(SE\) ) = \(\frac{24}{\sqrt{36}} = 4\) .
Tabel Interval Kepercayaan Team A
Confidence.Level
Nilai.Kritis..z..
Perhitungan..z..x.4.
Lower.Bound..ms.
Upper.Bound..ms.
90%
1.645
6.58
203.42
216.58
95%
1.960
7.84
202.16
217.84
99%
2.576
10.30
199.70
220.30
Tabel Interval Kepercayaan Team B
Confidence Level
t-score (t*)
Perhitungan
Lower Bound
Upper Bound
90%
1.689
210 ± 6.76
203.24
216.76
95%
2.030
210 ± 8.12
201.88
218.12
99%
2.724
210 ± 10.90
199.10
220.90
Visualisasi
Perbandingan
Analisis Perbedaan
Lebar Interval
Meskipun nilai \(\bar{x}\) , \(n\) , dan angka standar deviasinya sama
(24), interval Team B lebih lebar karena alasan berikut:
1. Ketidakpastian Tambahan: Team B menggunakan
standar deviasi sampel (\(s\) ), yang
merupakan estimasi. Distribusi-t memiliki “ekor yang lebih tebal”
(heavier tails) untuk mengompensasi ketidakpastian estimasi
tersebut.
2. Nilai Kritis: Nilai kritis \(t\) selalu lebih besar daripada nilai
kritis \(z\) untuk ukuran sampel yang
sama (\(t^ > z^\) ).
3. Konservatisme: Pendekatan t-test lebih
konservatif (menghasilkan margin of error lebih besar) untuk memastikan
bahwa parameter populasi benar-benar tercakup dalam interval ketika
informasi populasi tidak lengkap.
Case Study 5
One-Sided Confidence Interval: A Software as
a Service (SaaS) company wants to ensure that at least
70% of weekly active users utilize a premium feature.
From the experiment:
\[
\begin{eqnarray*}
n &=& 250 \quad \text{(total users)} \\
x &=& 185 \quad \text{(active premium users)}
\end{eqnarray*}
\]
Management is only interested in the lower bound of
the estimate.
Tasks:
Identify the type of Confidence Interval and the
appropriate test.
Compute the one-sided lower Confidence Interval at:
\(90\%\)
\(95\%\)
\(99\%\)
Visualize the lower bounds for all confidence levels.
Determine whether the 70% target is statistically
satisfied.
JAWAB:
Identifikasi Tipe
Confidence Interval dan Uji yang Tepat
Tipe Confidence Interval: Menggunakan One-Sided
Lower Confidence Interval karena manajemen hanya tertarik pada batas
bawah (lower bound) untuk memastikan proporsi pengguna minimal mencapai
target tertentu.
Uji Statistik: Menggunakan Z-test untuk Proporsi
(Z-test for a single proportion) karena data berupa proporsi binominal
(aktif/tidak aktif) dengan ukuran sampel yang besar (\(n=250\) ).
Perhitungan One-Sided
Lower Confidence Interval
Diketahui :
\(n = 250\) \(x = 185\)
Proporsi sampel (\(\hat{p}\) ) =
\(\frac{185}{250} = 0.74\)
(74%)
Standard Error (\(SE\) ) = \(\sqrt{\frac{\hat{p}(1-\hat{p})}{n}} =
\sqrt{\frac{0.74 \times 0.26}{250}} \approx 0.0277\)
Rumus Lower Bound: \(\hat{p} - (z
\times SE)\)
Tabel Batas Bawah Satu Sisi
Confidence Level
Z-score (One-Sided)
Perhitungan
Lower Bound (%)
90%
1.282
0.74 - (1.282 × 0.0277)
70.45%
95%
1.645
0.74 - (1.645 × 0.0277)
69.44%
99%
2.326
0.74 - (2.326 × 0.0277)
67.56%
Visualisasi Lower
Bounds
Kesimpulan Target
70%
Berdasarkan hasil analisis, apakah target 70% terpenuhi secara
statistik?
Pada Tingkat Kepercayaan 90%: Terpenuhi, karena
batas bawah (70.45%) masih di atas target 70%.
Pada Tingkat Kepercayaan 95%: Tidak Terpenuhi
secara ketat, karena batas bawah (69.44%) turun sedikit di bawah target
70%.
Pada Tingkat Kepercayaan 99%: Tidak Terpenuhi,
karena batas bawah (67.56%) berada di bawah target.
Kesimpulan Akhir: Manajemen bisa merasa yakin sebesar 90% bahwa
target tercapai, namun jika mereka membutuhkan tingkat keyakinan yang
lebih tinggi (95% atau 99%), data saat ini belum cukup kuat untuk
menjamin target 70% terpenuhi secara statistik.
