Code
Confidence Interval
Assignment Week 13
Angelica Florentina M.
52250063
Student Majoring in Data Science at Institut Teknologi Sains Bandung
Skillful
Curious
Organized
Case Study 1
Confidence Interval for Mean, σ Known
An e-commerce platform wants to estimate the average number of daily
transactions per user after launching a new feature. Based on
large-scale historical data, the population standard deviation is
known.
\[\sigma = 3.2\] \[\,n = 100\,\] \[\bar{x} = 12.6\]
Tasks:
Identify the appropriate statistical test and justify your
choice.
Compute the Confidence Intervals for:
Create a comparison visualization of the three confidence
intervals.
Interpret the results in a business analytics context.
Uji Statistik
Uji statistik yang tepat: Interval Kepercayaan untuk Mean dengan σ
diketahui (Z-interval / Uji Z untuk mean)
Justifikasi:
Tujuan analisis adalah mengestimasi rata-rata populasi (rata-rata
transaksi harian per pengguna), bukan membandingkan dua kelompok atau
menguji proporsi.
Simpangan baku populasi (σ) diketahui, yaitu σ = 3,2. Ini adalah
syarat utama penggunaan distribusi Z.
Ukuran sampel besar (n = 100), sehingga asumsi distribusi normal
untuk rata-rata sampel terpenuhi berdasarkan Teorema Limit Pusat,
meskipun distribusi data asli tidak diketahui.
Data berupa variabel numerik kontinu (jumlah transaksi).
Confidence Interval
90%
Rumus CI untuk z-distribution \[CI = \bar{x} \pm
z_{\alpha/2}\,\frac{\sigma}{\sqrt{n}}\] Sample
Size \[{n} = 100\]
Standar Deviation \[{σ} =
3.2\]
Sample Mean \[\bar{x} =
12.6\]
Confidence Level 90% \[1
- 0.9 = \frac{0.1}{2} = 0.05 ≈ 1.65\]
Standard Error
\[SE = \frac{\sigma}{\sqrt{n}}\]
\[\frac{3.2}{\sqrt{100}} = 0.32\]
Margin of Error
\[ME = z_{\alpha/2}\ × SE\] \[{1.65}\ × SE\ {\approx{0.528}}\]
CI 90%
\[\bar{x}\ \pm\ ME\] \[12.6\ \pm\ 0.528\] \[{\approx\ (12.072, 13.128)}\]
Confidence Interval
95%
Rumus CI untuk z-distribution \[CI = \bar{x} \pm
z_{\alpha/2}\,\frac{\sigma}{\sqrt{n}}\] Sample
Size \[{n} = 100\]
Standar Deviation \[{σ} =
3.2\]
Sample Mean \[\bar{x} =
12.6\]
Confidence Level 95% \[1
- 0.95 = \frac{0.05}{2} = 0.025 ≈ 1.96\]
Standard Error
\[SE = \frac{\sigma}{\sqrt{n}}\]
\[\frac{3.2}{\sqrt{100}} = 0.32\]
Margin of Error
\[ME = z_{\alpha/2}\ × SE\] \[{1.96}\ × SE\ {\approx{0.6272}}\]
CI 95%
\[\bar{x}\ \pm\ ME\] \[12.6\ \pm\ 0.6272\] \[{\approx\ (11.9728, 13.2272)}\]
Confidence Interval
99%
Rumus CI untuk z-distribution \[CI = \bar{x} \pm
z_{\alpha/2}\,\frac{\sigma}{\sqrt{n}}\]
Sample Size \[{n} =
100\]
Standar Deviation \[{σ} =
3.2\]
Sample Mean \[\bar{x} =
12.6\]
Confidence Level 99% \[1
- 0.99 = \frac{0.01}{2} = 0.005 ≈ 2.58\]
Standard Error
\[SE = \frac{\sigma}{\sqrt{n}}\]
\[\frac{3.2}{\sqrt{100}} = 0.32\]
Margin of Error
\[ME = z_{\alpha/2}\ × SE\] \[{2.58}\ × SE\ {\approx{0.82}}\]
CI 99%
\[\bar{x}\ \pm\ ME\] \[12.6\ \pm\ 0.82\] \[{\approx\ (11.781, 13.42)}\]
Visualization
Interpretation
Diagram ini menunjukkan distribusi normal dari rata-rata transaksi
harian pengguna dengan mean sampel sebesar 12,6. Garis vertikal hitam
menandai nilai mean tersebut, sementara garis titik-titik berwarna
hijau, biru, dan merah masing-masing mewakili interval kepercayaan 90%,
95%, dan 99%. Semakin tinggi tingkat kepercayaan, interval menjadi lebih
lebar, mencerminkan trade-off antara keyakinan dan presisi estimasi.
Dengan demikian, kita dapat menyimpulkan bahwa dengan keyakinan yang
tinggi, rata-rata transaksi harian populasi kemungkinan besar berada
dalam rentang interval tersebut, yang membantu memberikan gambaran
keandalan estimasi rata-rata transaksi setelah peluncuran fitur
baru.
Business
Analytics
Confidence interval menunjukkan rentang nilai di mana rata-rata
transaksi harian per pengguna kemungkinan besar berada dengan tingkat
keyakinan tertentu. Misalnya, pada tingkat kepercayaan 95%, platform
e-commerce dapat yakin bahwa rata-rata transaksi harian per pengguna
berada antara sekitar 11,97 hingga 13,23 transaksi. Ini membantu bisnis
memahami efektivitas fitur baru secara statistik dengan memperkirakan
nilai rata-rata yang sesungguhnya, bukan hanya berdasarkan sampel.
Semakin tinggi tingkat kepercayaan, rentang interval menjadi lebih
lebar, menunjukkan ketidakpastian yang lebih besar tapi juga keyakinan
yang lebih kuat bahwa nilai sebenarnya ada dalam rentang tersebut.
Dengan informasi ini, manajemen dapat membuat keputusan yang lebih tepat
mengenai keberhasilan fitur dan perencanaan kapasitas transaksi.
Case Study 2
Confidence Interval for Mean, σ Unknown:
A UX Research team analyzes task completion time (in minutes) for a
new mobile application. The data are collected from 12 users:
\[8.4,7.9,9.1,8.7,8.2,9.0,7.8,8.5,8.9,8.1,8.6,8.3\]
Tasks:
Identify the appropriate statistical test and explain
why.
Compute the Confidence Intervals for:
Visualize the three intervals on a single plot.
Explain how sample size and confidence level influence the
interval width.
Uji Statistik
Uji yang tepat adalah membuat interval kepercayaan rata-rata
menggunakan t-distribusi, karena data yang diberikan berasal dari 12
pengguna (ukuran sampel kecil, yaitu n < 30) dan simpangan baku
populasi (σ) tidak diketahui, maka uji statistik yang tepat untuk
membuat interval kepercayaan rata-rata adalah menggunakan distribusi
t-Student.
Alasan memilih distribusi t-:
Ukuran sampel kecil (n < 30): Saat ukuran sampel kecil, distribusi
sampling rata-rata tidak mengikuti distribusi normal baku secara
sempurna, sehingga distribusi t lebih cocok digunakan karena
memperhitungkan ketidakpastian pada estimasi simpangan baku.
Simpangan baku populasi tidak diketahui: Kita hanya punya data
sampel, sehingga simpangan baku populasi harus diestimasi dari simpangan
baku sampel. Distribusi t-Student dirancang untuk kondisi ini.
Data diasumsikan berasal dari populasi yang berdistribusi normal:
Asumsi ini penting untuk validitas penggunaan distribusi t.
Confindence Interval
90%
Sample Size \[n =
12\]
Sample Mean \[\bar{x} =
\frac{1}{n} \sum_{i=1}^{n} x_i\] \[\begin{align*}
\bar{x} &= \frac{1}{12} (8.4 + 7.9 + 9.1 + 8.7 + 8.2 + 9.0 + 7.8 +
8.5 + 8.9 + 8.1 + 8.6 + 8.3) \\
&= 8.45
\end{align*}\]
Standard Deviation \[s =
\sqrt{\frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2}\] \[
s = \sqrt{\frac{1}{12-1} \Big[ (8.4-8.45)^2 + (7.9-8.45)^2 + (...)^2
+(8.3-8.45)^2 \Big]}
\]
\[
= \sqrt{\frac{1.95}{11}} = \sqrt{0.17727} \approx 0.421
\] Critical Value 90% \[1 - 0.9 = \frac{0.1}{2} = 0.05 ≈ 1.796\]
Standard Error (SE) \[SE =
\frac{s}{\sqrt{n}}\] \[
SE = \frac{0.421}{\sqrt{12}}
= \frac{0.421}{3.464}
\approx 0.121
\] Margin of Error (ME) \[
\begin{aligned}
ME &= t_{\alpha/2, df} \times SE = 1.796 \times 0.121 \approx 0.2173
\end{aligned}
\] CI 90% \[\bar{x}\
\pm\ ME\] \[8.45\ \pm\ 0.2173\]
\[{\approx\ (8.2327, 8.6673)}\]
Confidence Interval
95%
Sample Size \[n =
12\]
Sample Mean \[\bar{x} =
\frac{1}{n} \sum_{i=1}^{n} x_i\] \[\begin{align*}
\bar{x} &= \frac{1}{12} (8.4 + 7.9 + 9.1 + 8.7 + 8.2 + 9.0 + 7.8 +
8.5 + 8.9 + 8.1 + 8.6 + 8.3) \\
&= 8.45
\end{align*}\]
Standard Deviation \[s =
\sqrt{\frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2}\] \[
s = \sqrt{\frac{1}{12-1} \Big[ (8.4-8.45)^2 + (7.9-8.45)^2 + (...)^2
+(8.3-8.45)^2 \Big]}
\]
\[
= \sqrt{\frac{1.95}{11}} = \sqrt{0.17727} \approx 0.421
\] Critical Value 95% \[1 - 0.95 = \frac{0.05}{2} = 0.025 ≈
2.201\] Standard Error (SE) \[SE = \frac{s}{\sqrt{n}}\] \[
SE = \frac{0.421}{\sqrt{12}}
= \frac{0.421}{3.464}
\approx 0.121
\] Margin of Error (ME) \[
\begin{aligned}
ME &= t_{\alpha/2, df} \times SE = 2.201 \times 0.121 \approx 0.2663
\end{aligned}
\] CI 95% \[\bar{x}\
\pm\ ME\] \[8.45\ \pm\ 0.2663\]
\[{\approx\ (8.1837, 8.7163)}\]
Confidence Interval
99%
Sample Size \[n =
12\]
Sample Mean \[\bar{x} =
\frac{1}{n} \sum_{i=1}^{n} x_i\] \[\begin{align*}
\bar{x} &= \frac{1}{12} (8.4 + 7.9 + 9.1 + 8.7 + 8.2 + 9.0 + 7.8 +
8.5 + 8.9 + 8.1 + 8.6 + 8.3) \\
&= 8.45
\end{align*}\]
Standard Deviation \[s =
\sqrt{\frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2}\] \[
s = \sqrt{\frac{1}{12-1} \Big[ (8.4-8.45)^2 + (7.9-8.45)^2 + (...)^2
+(8.3-8.45)^2 \Big]}
\]
\[
= \sqrt{\frac{1.95}{11}} = \sqrt{0.17727} \approx 0.421
\] Critical Value 99% \[1 - 0.99 = \frac{0.01}{2} = 0.005 ≈
3.106\] Standard Error (SE) \[SE = \frac{s}{\sqrt{n}}\] \[
SE = \frac{0.421}{\sqrt{12}}
= \frac{0.421}{3.464}
\approx 0.121
\] Margin of Error (ME) \[
\begin{aligned}
ME &= t_{\alpha/2, df} \times SE = 3.106 \times 0.121 \approx 0.3758
\end{aligned}
\] CI 99% \[\bar{x}\
\pm\ ME\] \[8.45\ \pm\ 0.3758\]
\[{\approx\ (8.0742, 8.8258)}\]
Visualization
Interpretation
Diagram tersebut menunjukkan interval kepercayaan rata-rata
menggunakan distribusi t dengan rata-rata sampel sebesar 8,45 yang
ditandai oleh garis putus-putus di tengah kurva. Garis vertikal berwarna
menggambarkan interval kepercayaan 90%, 95%, dan 99%, di mana semakin
tinggi tingkat kepercayaan maka interval semakin lebar, mencerminkan
meningkatnya ketidakpastian estimasi. Seluruh interval bersifat simetris
terhadap nilai rata-rata, menunjukkan bahwa estimasi mean populasi
paling mungkin berada di sekitar 8,45. Diagram ini menegaskan bahwa
distribusi t digunakan ketika simpangan baku populasi tidak diketahui
atau ukuran sampel relatif kecil, serta menggambarkan trade-off antara
presisi dan tingkat keyakinan dalam penaksiran parameter populasi.
Sample Size and
Confidence Level
Lebar interval kepercayaan dipengaruhi oleh ukuran sampel dan tingkat
kepercayaan sebagai berikut. Ukuran sampel berpengaruh melalui galat
baku (standard error); semakin besar ukuran sampel, galat baku semakin
kecil sehingga interval kepercayaan menjadi lebih sempit dan estimasi
lebih presisi, sedangkan sampel kecil menghasilkan interval yang lebih
lebar. Tingkat kepercayaan memengaruhi nilai kritis (Z atau t); semakin
tinggi tingkat kepercayaan (misalnya dari 90% ke 95% atau 99%), nilai
kritis semakin besar sehingga interval kepercayaan menjadi lebih lebar,
karena kita ingin lebih yakin bahwa parameter populasi berada di dalam
interval tersebut. Dengan demikian, interval kepercayaan paling sempit
diperoleh dari sampel besar dengan tingkat kepercayaan lebih rendah, dan
sebaliknya.
Case Study 3
Confidence Interval for a Proportion, A/B
Testing:
A data science team runs an A/B test on a new Call-To-Action (CTA)
button design. The experiment yields:
\[ n = 400\] \[ x = 156\]
Tasks:
Compute the sample proportion \(\hat
{p}\)
Compute Confidence Intervals for the proportion at:
Visualize and compare the three intervals.
Explain how confidence level affects decision-making in product
experiments.
Sample
Proportion
\[\hat {p} = \frac {x}{n} = \frac
{156}{400} = 0.39\]
Confidence Interval
90%
Standard Error \[
\begin{align*}
SE_{\hat{p}} &= \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \\
&= \sqrt{\frac{0.39(1-0.39)}{400}} \\
&= \sqrt{\frac{0.39 \cdot 0.61}{400}} \\
&\approx 0.0244
\end{align*}
\]
Critical Value 90%
Untuk 90% confidence level: \(Z_{\alpha/2}
= 1.65\)
Margin of Error \[ ME =
Z_{\alpha/2} × SE = 1.65 × 0.0244 \approx 0.04026\]
CI 90% \[\hat{p}\ \pm\
ME\] \[0.39\ \pm\ 0.04026\]
\[{\approx\ (0.34974, 0.43026)}\]
Confidence Interval
95%
Standard Error \[
\begin{align*}
SE_{\hat{p}} &= \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \\
&= \sqrt{\frac{0.39(1-0.39)}{400}} \\
&= \sqrt{\frac{0.39 \cdot 0.61}{400}} \\
&\approx 0.0244
\end{align*}
\]
Critical Value 95%
Untuk 95% confidence level: \(Z_{\alpha/2}
= 1.96\)
Margin of Error \[ ME =
Z_{\alpha/2} × SE = 1.96 × 0.0244 \approx 0.0478\]
CI 95% \[\hat{p}\ \pm\
ME\] \[0.39\ \pm\ 0.0478\]
\[{\approx\ (0.3422, 0.4378)}\]
Confidence Interval
99%
Standard Error \[
\begin{align*}
SE_{\hat{p}} &= \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \\
&= \sqrt{\frac{0.39(1-0.39)}{400}} \\
&= \sqrt{\frac{0.39 \cdot 0.61}{400}} \\
&\approx 0.0244
\end{align*}
\]
Critical Value 99%
Untuk 99% confidence level: \(Z_{\alpha/2}
= 2.58\)
Margin of Error \[ ME =
Z_{\alpha/2} × SE = 2.58 × 0.0244 \approx 0.0629\]
CI 9% \[\hat{p}\ \pm\
ME\] \[0.39\ \pm\ 0.0629\]
\[{\approx\ (0.3271, 0.4529)}\]
Visualization
Interpretation
Diagram ini menggambarkan distribusi sampling proporsi sampel \(\hat p\) yang mendekati normal, dengan
nilai titik tengah \(\hat p = 0{,}39\)
sebagai estimasi proporsi populasi, lalu di kiri–kanannya digambar
beberapa pasang garis vertikal berwarna yang menunjukkan batas bawah dan
atas interval kepercayaan 90%, 95%, dan 99% untuk proporsi populasi, di
mana semakin tinggi tingkat kepercayaan maka interval semakin lebar
karena harus “menangkap” nilai proporsi populasi sebenarnya dengan
probabilitas yang lebih besar, sehingga secara interpretasi jika
pengambilan sampel diulang berkali‑kali dan setiap kali dihitung
interval kepercayaan (misalnya 95%) seperti pada gambar, maka kira‑kira
95% dari interval‑interval tersebut akan mengandung proporsi populasi
sebenarnya, dan diagram ini memvisualisasikan konsep tersebut dalam
bentuk kurva normal dan garis batas interval di sekitar \(\hat p\) .
Confidence Level
Affects
Dalam eksperimen produk, tingkat kepercayaan menentukan seberapa
yakin tim terhadap efek perubahan sebelum membuat keputusan; tingkat
kepercayaan tinggi (misalnya 99%) membuat interval estimasi lebih lebar
dan menuntut bukti yang lebih kuat sehingga mengurangi risiko salah
memilih varian namun membutuhkan sampel lebih besar, waktu lebih lama,
dan sering kali menunda peluncuran fitur, sedangkan tingkat kepercayaan
lebih rendah (misalnya 90%) menghasilkan interval sempit dan keputusan
yang lebih cepat dengan biaya data lebih kecil, tetapi meningkatkan
risiko bahwa hasil yang dianggap “menang” sebenarnya hanya kebetulan,
sehingga pemilihan 90%, 95%, atau 99% harus disesuaikan dengan profil
risiko bisnis dan dampak keputusan terhadap pengguna maupun sumber daya
perusahaan.
Case Study 4
Precision Comparison (Z-Test vs t-Test):
Two data teams measure API latency (in milliseconds) under different
conditions.
Team A: \[n = 36\] \[\bar{x} = 210\] \[\sigma = 24\]
Team B: \[n = 36\] \[\bar{x} = 210\] \[\sigma = 24\]
Tasks:
Identify the statistical test used by each team.
Compute Confidence Intervals for 90%, 95%, and 99%.
Create a visualization comparing all intervals.
Explain why the interval widths differ, even with similar
data.
Uji Statistik
Pada nomor 1, identifikasi uji statistik didasarkan pada apakah
standar deviasi populasi diketahui atau tidak . Tim A
mengetahui standar deviasi populasi (σ = 24), sehingga mereka
menggunakan Z-test atau Z-interval untuk menghitung
confidence interval karena distribusi sampling dari mean bisa dianggap
normal. Sebaliknya, Tim B hanya memiliki standar deviasi sampel (s =
24), sehingga mereka harus menggunakan t-test atau
t-interval, yang memperhitungkan ketidakpastian tambahan dari penggunaan
sampel untuk memperkirakan σ. Dengan demikian, perbedaan utama dalam
pemilihan uji adalah tingkat informasi tentang variabilitas data: Z
untuk σ diketahui, t untuk σ tidak diketahui.
Team A
Confidence Interval
90%
Sample Size \[{n} =
36\]
Standar Deviation \[{σ} =
24\]
Sample Mean \[\bar{x} =
210\]
Confidence Level 90% \[1
- 0.9 = \frac{0.1}{2} = 0.05 ≈ 1.65\]
Standard Error
\[SE = \frac{\sigma}{\sqrt{n}}\]
\[\frac{24}{\sqrt{36}} = 4\]
Margin of Error
\[ME = z_{\alpha/2}\ × SE\] \[{1.65}\ × 4\ {\approx{6.6}}\]
CI 90%
\[\bar{x}\ \pm\ ME\] \[210\ \pm\ 6.6\] \[{\approx\ (203.4, 216.6)}\]
Confidence Interval
95%
Sample Size \[{n} =
36\]
Standar Deviation \[{σ} =
24\]
Sample Mean \[\bar{x} =
210\]
Confidence Level 95% \[1
- 0.95 = \frac{0.05}{2} = 0.025 ≈ 1.96\]
Standard Error
\[SE = \frac{\sigma}{\sqrt{n}}\]
\[\frac{24}{\sqrt{36}} = 4\]
Margin of Error
\[ME = z_{\alpha/2}\ × SE\] \[{1.96}\ × 4\ {\approx{7.84}}\]
CI 95%
\[\bar{x}\ \pm\ ME\] \[210\ \pm\ 7.84\] \[{\approx\ (202.16, 217.84)}\]
Confidence Interval
99%
Sample Size \[{n} =
36\]
Standar Deviation \[{σ} =
24\]
Sample Mean \[\bar{x} =
210\]
Confidence Level 99% \[1
- 0.99 = \frac{0.01}{2} = 0.005 ≈ 2.58\]
Standard Error
\[SE = \frac{\sigma}{\sqrt{n}}\]
\[\frac{24}{\sqrt{36}} = 4\]
Margin of Error
\[ME = z_{\alpha/2}\ × SE\] \[{2.58}\ × 4\ {\approx{10.32}}\]
CI 99%
\[\bar{x}\ \pm\ ME\] \[210\ \pm\ 10.32\] \[{\approx\ (199.68, 220.32)}\]
Team B
Confidence Interval
90%
Rumus \[CI = \bar{x} \pm
t_{\alpha/2,\,df}\,\frac{s}{\sqrt{n}}\]
Sample Size \[{n} =
36\]
Sample Standar Deviation \[{s} = 24\] df \[df = n -1 = 36 - 1 = 35\]
Sample Mean \[\bar{x} =
210\]
Critical Value 90% \[1 -
0.9 = \frac{0.1}{2} = 0.05 ≈ 1.690\]
Standard Error
\[SE = \frac{s}{\sqrt{n}}\] \[\frac{24}{\sqrt{36}} = 4\]
Margin of Error
\[ME = t_{\alpha/2 , df}\ × SE\]
\[{1.690}\ × 4\ {\approx{6.76}}\]
CI 90%
\[\bar{x}\ \pm\ ME\] \[210\ \pm\ 6.76\] \[{\approx\ (203.24, 216.76)}\]
Confidence Interval
95%
Rumus \[CI = \bar{x} \pm
t_{\alpha/2,\,df}\,\frac{s}{\sqrt{n}}\]
Sample Size \[{n} =
36\]
Sample Standar Deviation \[{s} = 24\]
Sample Mean \[\bar{x} =
210\]
df \[df = n - 1 =
35\]
Critical Value 95% \[1 -
0.95 = \frac{0.05}{2} = 0.025 ≈ 2.030\]
Standard Error
\[SE = \frac{s}{\sqrt{n}}\] \[\frac{24}{\sqrt{36}} = 4\]
Margin of Error
\[ME = z_{\alpha/2}\ × SE\] \[{2.030}\ × 4\ {\approx{8.12}}\]
CI 95%
\[\bar{x}\ \pm\ ME\] \[210\ \pm\ 8.12\] \[{\approx\ (201.88, 218.12)}\]
Confidence Interval
99%
Rumus \[CI = \bar{x} \pm
t_{\alpha/2,\,df}\,\frac{s}{\sqrt{n}}\]
Sample Size \[{n} =
36\]
Sample Standar Deviation \[{s} = 24\]
Sample Mean \[\bar{x} =
210\]
df \[df = n - 1 =
35\]
Critical Value 99% \[1 -
0.99 = \frac{0.01}{2} = 0.005 ≈ 2.724\]
Standard Error
\[SE = \frac{s}{\sqrt{n}}\] \[\frac{24}{\sqrt{36}} = 4\]
Margin of Error
\[ME = z_{\alpha/2}\ × SE\] \[{2.724}\ × 4\ {\approx{10.90}}\]
CI 99%
\[\bar{x}\ \pm\ ME\] \[210\ \pm\ 10.90\] \[{\approx\ (199.10, 220.90)}\]
Interval Widths
Differ
Meskipun Team A dan Team B memiliki rata-rata sampel, ukuran
sampel, dan nilai variasi yang sama , lebar confidence
interval (CI) yang dihasilkan tetap berbeda karena
perbedaan asumsi statistik dan distribusi yang
digunakan . Team A menggunakan distribusi normal
(Z-distribution) karena standar deviasi populasi (σ) diketahui,
sehingga ketidakpastian hanya berasal dari variasi sampel dan
menghasilkan interval yang relatif lebih sempit .
Sebaliknya, Team B menggunakan distribusi t karena
standar deviasi populasi tidak diketahui dan harus diestimasi dari
sampel, sehingga terdapat ketidakpastian tambahan dalam
estimasi varians. Distribusi t memiliki ekor yang lebih
tebal dibanding distribusi normal, yang menyebabkan nilai
kritis (t) lebih besar daripada nilai Z pada tingkat kepercayaan yang
sama. Akibatnya, confidence interval Team B menjadi
sedikit lebih lebar , meskipun data dasarnya tampak
serupa.
Case Study 5
One-Sided Confidence Interval:
A Software as a Service (SaaS) company wants to ensure that at least
70% of weekly active users utilize a premium feature.
From the experiment:
\[n = 250\] \[x = 185\]
Management is only interested in the lower bound of
the estimate.
Tasks:
Identify the type of Confidence Interval and the appropriate
test.
Compute the one-sided lower Confidence Interval at:
Visualize the lower bounds for all confidence levels.
Determine whether the 70% target is statistically
satisfied.
Uji Statistik
Confidence Interval satu sisi (lower bound one-sided CI) untuk
proporsi populasi.
Uji Statistik yang Tepat: One-sample proportion z-test (uji z satu
sisi) karena Sampel cukup besar (𝑛𝑝 dan 𝑛(1−𝑝)>5, kita mengestimasi
proporsi populasi, manajemen hanya peduli pada batas bawah (apakah ≥
70%?).
Confidence Interval
90%
Sample Proportion \[\hat
{p} = \frac {x}{n} = \frac {185}{250} = 0.74\] Standard
Error \[
\begin{align*}
SE_{\hat{p}} &= \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \\
&= \sqrt{\frac{0.74(1-0.74)}{250}} \\
&\approx 0.0277
\end{align*}
\]
Critical Value 90%
Untuk 90% confidence level: \(Z_{ 1
-\alpha} = 1.28\)
Margin of Error \[ ME =
Z_{1 - \alpha} × SE = 1.28 × 0.0277 \approx 0.0354\]
CI 90% \[CI _lower =
\hat{p} - ME\] \[0.74 - 0.0354 \approx
0.7046\]
Confidence Interval
95%
Sample Proportion \[\hat
{p} = \frac {x}{n} = \frac {185}{250} = 0.74\] Standard
Error \[
\begin{align*}
SE_{\hat{p}} &= \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \\
&= \sqrt{\frac{0.74(1-0.74)}{250}} \\
&\approx 0.0277
\end{align*}
\]
Critical Value 95%
Untuk 95% confidence level: \(Z_{ 1
-\alpha} = 1.645\)
Margin of Error \[ ME =
Z_{1 - \alpha} × SE = 1.645 × 0.0277 \approx 0.0455\]
CI 95% \[CI _lower =
\hat{p} - ME\] \[0.74 - 0.0455 \approx
0.6945\]
Confidence Interval
99%
Sample Proportion \[\hat
{p} = \frac {x}{n} = \frac {185}{250} = 0.74\] Standard
Error \[
\begin{align*}
SE_{\hat{p}} &= \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \\
&= \sqrt{\frac{0.74(1-0.74)}{250}} \\
&\approx 0.0277
\end{align*}
\]
Critical Value 99%
Untuk 99% confidence level: \(Z_{ 1
-\alpha} = 2.33\)
Margin of Error \[ ME =
Z_{1 - \alpha} × SE = 2.33 × 0.0277 \approx 0.0645\]
CI 99% \[CI _lower =
\hat{p} - ME\] \[0.74 - 0.0645 \approx
0.6755\]
Visualization
Interpretation
Diagram tersebut menggambarkan interval kepercayaan satu sisi batas
bawah (one-sided lower confidence interval) untuk proporsi pengguna
premium aktif, dengan estimasi proporsi sampel p̂ = 0,74 yang ditunjukkan
oleh garis putus-putus di tengah. Garis vertikal di sebelah kiri
menunjukkan batas bawah interval kepercayaan pada tingkat kepercayaan
90%, 95%, dan 99%, di mana semakin tinggi tingkat kepercayaan maka batas
bawah semakin bergeser ke kiri (semakin konservatif). Interpretasinya
adalah, misalnya pada tingkat kepercayaan tertentu, kita yakin bahwa
proporsi sebenarnya pengguna premium aktif di populasi setidaknya
sebesar nilai batas bawah tersebut, sementara nilai di atas batas
tersebut masih mungkin terjadi. Interval satu sisi ini digunakan ketika
fokus analisis adalah memastikan nilai minimum proporsi populasi, bukan
rentang atas–bawah secara simultan.
Determine 70%
Target 70% pengguna aktif fitur premium
terpenuhi secara statistik hanya pada tingkat kepercayaan
90% , karena batas bawah one-sided confidence interval
pada level ini masih berada di atas 70%. Namun, pada tingkat kepercayaan
yang lebih ketat yaitu 95% dan 99% , batas bawah
interval turun di bawah 70%, sehingga tidak ada cukup bukti statistik
untuk menyatakan bahwa proporsi pengguna premium aktif minimal 70%
dengan keyakinan yang lebih tinggi. Artinya, meskipun estimasi proporsi
sampel sebesar 74% terlihat memenuhi target secara
deskriptif, secara statistik target tersebut belum dapat
dipastikan jika manajemen mensyaratkan tingkat kepercayaan 95%
atau lebih.
