Clara Maisie Wanghili
52250039
Student Major in Data Science at
Institut Teknologi Sains Bandung
Case Study 1
Confidence Interval for Mean, \(\sigma\) Known: An e-commerce platform wants to estimate the average number of daily transactions per user after launching a new feature. Based on large-scale historical data, the population standard deviation is known.
\[ \begin{eqnarray*} \sigma &=& 3.2 \quad \text{(population standard deviation)} \\ n &=& 100 \quad \text{(sample size)} \\ \bar{x} &=& 12.6 \quad \text{(sample mean)} \end{eqnarray*} \]
Tasks
- Identify the appropriate statistical test and justify your choice.
- Compute the Confidence Intervals for:
- \(90\%\)
- \(95\%\)
- \(99\%\)
- Create a comparison visualization of the three confidence intervals.
- Interpret the results in a business analytics context.
1.1 Identifikasi uji statistik yang tepat
Uji statistik yang paling tepat digunakan adalah uji Z atau distribusi normal standar untuk menghitung interval keyakinan. Alasannya karena standar deviasi populasi (\(\sigma\)) sudah diketahui. Selain itu, jumlah sampel yang digunakan cukup besar, yaitu 100 data \(n\ge 30\), sehingga sesuai dengan Teorema Limit Pusat. Dengan kondisi ini, data sampel dapat diasumsikan mengikuti distribusi normal, walaupun bentuk distribusi populasi aslinya tidak diketahui.
1.2 Hitung Interval Keyakinan
Rumus yang digunakan:
- Menentukan nilai alpha \[\alpha = 1 - Tingkat Keyakinan\]
- Menentukan nilai kritis Z
\[Z\alpha/2\] - Menentukan Margin Of Error
\[E = Z\alpha/2 \times \frac{\sigma}{\sqrt{n}}\] - Menentukan Confidence Intervals (CI)
\[CI = \bar{x} \pm E\]
Diketahui:
\(\sigma\) = 3.2
\(n\) = 100
\(\bar{x}\) = 12.6
1. \(90\% =
0.9\)
Menentukan nilai kritis Z \[\alpha = 1 - 0.9 = 0.1\] \[Z\alpha/2 = \frac{0.1}{2} = 0.05\] \[Z_{0.05}= 1.645\]
Hitung Margin Of Error \[E = 1.645 \times \frac {3.2}{\sqrt{100}} = 0.5264\]
Hitung Confidence Intervals (CI) \[CI = 12.6 \pm 0.5264\] \[(12.07, 13.13)\] Intervalnya adalah (12.07, 13.13). Ini berarti kita 90% yakin bahwa rata-rata populasi sebenarnya (\(\mu\)) berada di antara 12.07 dan 13.12. Margin of error yang digunakan relatif kecil (\(E=0.5248\)).
2. \(95\% =
0.95\)
Menentukan nilai kritis Z \[\alpha = 1 - 0.95 = 0.05\] \[Z\alpha/2 = \frac{0.05}{2} = 0.025\] \[Z_{0.025}= 1.96\]
Hitung Margin Of Error \[E = 1.96 \times \frac {3.2}{\sqrt{100}} = 0.6272\]
Hitung Confidence Intervals (CI) \[CI = 12.6 \pm 0.6272\] \[(11.97, 13.23)\] Intervalnya adalah (11.97, 13.23). Ini berarti kita 95% yakin bahwa rata-rata populasi sebenarnya (\(\mu\)) berada di antara 11.97 dan 13.23. Interval ini sedikit lebih lebar daripada interval 90% (\(E=0.6272\)), karena untuk meningkatkan keyakinan, kita perlu memperluas rentang estimasi.
3. \(99\% =
0.99\)
Menentukan nilai kritis Z \[\alpha = 1 - 0.99 = 0.01\] \[Z\alpha/2 = \frac{0.01}{2} = 0.005\] \[Z_{0.005}= 2.576\]
Hitung Margin Of Error \[E = 2.576 \times \frac {3.2}{\sqrt{100}} = 0.82432\]
Hitung Confidence Intervals (CI) \[CI = 12.6 \pm 0.82432\] \[(11.77 , 13.42)\]
Intervalnya adalah (11.77, 13.42). Ini berarti kita 99% yakin bahwa rata-rata populasi sebenarnya (\(\mu\)) berada di antara 11.77 dan 13.42. Ini adalah interval terluas dari ketiganya (\(E=0.8224\)), mencerminkan kepastian yang lebih tinggi dengan mencakup rentang nilai potensial yang lebih besar untuk \(\mu\).
1.3 Visualisasi Perbandingan
library(ggplot2)
library(grid)
# Parameter
mu <- 12.6
sigma <- 3.2 / sqrt(100)
# Data kurva normal
x <- seq(11.5, 13.7, length.out = 500)
df_curve <- data.frame(
x = x,
y = dnorm(x, mean = mu, sd = sigma)
)
# Data Confidence Interval
df_ci <- data.frame(
x = c(12.07, 13.12, # CI 90%
11.97, 13.23, # CI 95%
11.77, 13.42, # CI 99%
mu), # Mean
CI = factor(
c("CI 90%", "CI 90%",
"CI 95%", "CI 95%",
"CI 99%", "CI 99%",
"Rata-rata"),
levels = c("Rata-rata", "CI 90%", "CI 95%", "CI 99%")
)
)
# Plot
ggplot() +
# Kurva lonceng
geom_line(
data = df_curve,
aes(x = x, y = y),
color = "#CDB4DB",
linewidth = 1.6
) +
# Garis rata-rata
geom_vline(
data = subset(df_ci, CI == "Rata-rata"),
aes(xintercept = x, color = CI),
linewidth = 1.4
) +
# Garis CI
geom_vline(
data = subset(df_ci, CI != "Rata-rata"),
aes(xintercept = x, color = CI),
linewidth = 1.1,
linetype = "dashed"
) +
scale_color_manual(
values = c(
"Rata-rata" = "#9D4EDD",
"CI 90%" = "#E0AAFF",
"CI 95%" = "#D0BFFF",
"CI 99%" = "#B8C0FF"
)
) +
# Label
labs(
title = "Perbandingan Confidence Interval Case 1",
x = "Rata-rata Jumlah Transaksi Harian",
y = "Kepadatan Probabilitas",
color = "Keterangan"
) +
# Tema
theme_minimal() +
# Legend rapi & center
guides(
color = guide_legend(
override.aes = list(linewidth = 2)
)
) +
theme(
plot.title = element_text(face = "bold", size = 14, hjust = 0.5),
axis.title = element_text(size = 11),
legend.title = element_text(face = "bold"),
legend.text = element_text(vjust = 0.5),
legend.key.width = unit(1.6, "cm"),
legend.key.height = unit(0.8, "cm")
)
Visualisasi menunjukkan bahwa interval kepercayaan 90% memiliki rentang paling sempit, diikuti oleh interval kepercayaan 95%, sedangkan interval kepercayaan 99% memiliki rentang paling lebar. Hal ini menegaskan bahwa semakin tinggi tingkat kepercayaan yang digunakan, semakin luas interval yang diperlukan untuk mengestimasi rata-rata populasi, meskipun nilai rata-rata sampel tetap sama. Konsep nya adalah semakin tinggi tingkat confidence, semakin lebar interval kepercayaan yang dihasilkan.
1.4 Interpretasi dalam konteks analisis bisnis
Dalam konteks analisis bisnis, interval kepercayaan ini bisa dipakai untuk melihat kisaran rata-rata jumlah transaksi harian per pengguna setelah fitur baru diluncurkan. Interval 90% punya rentang yang lebih sempit, jadi cocok kalau perusahaan butuh gambaran cepat untuk ambil keputusan awal. Interval 95% berada di tengah dan bisa dibilang paling seimbang antara ketepatan dan tingkat keyakinan, sehingga pas dipakai untuk evaluasi kinerja fitur. Sementara itu, interval 99% memberikan tingkat keyakinan paling tinggi, tapi dengan rentang yang lebih lebar, sehingga lebih cocok untuk keputusan strategis yang butuh pertimbangan risiko lebih kecil.
Case Study 2
Confidence Interval for Mean, \(\sigma\) Unknown: A UX Research team analyzes task completion time (in minutes) for a new mobile application. The data are collected from 12 users:
\[ 8.4,\; 7.9,\; 9.1,\; 8.7,\; 8.2,\; 9.0,\; 7.8,\; 8.5,\; 8.9,\; 8.1,\; 8.6,\; 8.3 \]
Tasks:
- Identify the appropriate statistical test and explain why.
- Compute the Confidence Intervals for:
- \(90\%\)
- \(95\%\)
- \(99\%\)
- Visualize the three intervals on a single plot.
- Explain how sample size and confidence level influence the interval width.
2.1 Identifikasi uji statistik yang tepat
Uji statistik yang tepat digunakan adalah uji t (t-test) untuk interval kepercayaan rata-rata. Hal ini karena standar deviasi populasi (σ) tidak diketahui dan ukuran sampel kecil (n = 12). Dengan kondisi tersebut, distribusi yang digunakan adalah distribusi t-Student, bukan distribusi normal (Z).
2.2 Hitung Interval Keyakinan
Diketahui:
- \(\text{sampel data (menit)} = 8.4,\; 7.9,\; 9.1,\; 8.7,\; 8.2,\; 9.0,\; 7.8,\; 8.5,\; 8.9,\; 8.1,\; 8.6,\; 8.3\)
- \(n=12\)
- \(df= n-1\)
Rata-rata:
\[
\begin{align*}
\bar{x} &= \frac{1}{n} \sum_{i=1}^{n} x_i \\
&= \frac{1}{12} (x_1 + x_2 + \dots + x_{12}) \\
&= \frac{1}{12} (8.4 + 7.9 + 9.1 + 8.7 + 8.2 + 9.0 + 7.8 + 8.5 + 8.9
+ 8.1 + 8.6 + 8.3) \\
&= \frac{101.5}{12} \\
&\approx 8.458 \text{ minutes}
\end{align*}
\]
Standar Deviasi:
\[
\begin{align*}
s &= \sqrt{\frac{\sum_{i=n}^{n}(x_i - \bar{x})^2}{n-1}} \\
s &= \sqrt{\frac{1.9431}{11}} \\
s &\approx \sqrt{0.17664} \\
s &\approx 0.421 \text{ minutes}
\end{align*}
\] Degree of freedom:
\[\begin{align*}
df &= n - 1 \\
&= 12 - 1 = 11
\end{align*}
\] - Standar Error
\[\begin{align*}
SE &= \frac{s}{\sqrt{n}} \\
&= \frac{0.421}{12} \\
&\approx 0,122
\end{align*}
\]
1. \(90\% =
0.9\)
- Menentukan nilai kritis t \[\alpha = 1 - 0.9 = 0.1\] \[\begin{align*} t\alpha/2 &= \frac{0.1}{2} = 0.05 \\ &= t_{0.05,11} \\ &\approx 1.796 \end{align*} \]
- Margin Of Error \[\begin{align*} ME &= t_\alpha/_2,_{df} \times SE \\ &= 1.796 \times 0,122 \\ &\approx 0.219 \end{align*} \]
- Menghitung Confidence Interval \[\begin{align*} CI_{90\%} &= \bar{x} \pm ME \\ &= 8.458 \pm 0,219 \\ &= (8,239 , 8,677) \end{align*} \] kita dapat menyatakan dengan 90% keyakinan bahwa rata-rata waktu penyelesaian tugas yang sebenarnya (rata-rata populasi) untuk aplikasi seluler baru tersebut berada dalam rentang 8.239 menit hingga 8.677 menit.
2. \(95\% =
0.95\)
- Menentukan nilai kritis t \[\alpha = 1 - 0.95 = 0.05\] \[\begin{align*}
t\alpha/2 &= \frac{0.05}{2} = 0.025 \\
&= t_{0.025,11} \\
&\approx 2.201
\end{align*}
\] - Margin Of Error \[\begin{align*}
ME &= t_\alpha/_2,_{df} \times SE \\
&= 2.201 \times 0,122 \\
&\approx 0.268
\end{align*}
\] - Menghitung Confidence Interval \[\begin{align*}
CI_{95\%} &= \bar{x} \pm ME \\
&= 8.458 \pm 0.268 \\
&= (8.19 , 8,726)
\end{align*}
\] kita dapat menyatakan dengan 95% keyakinan bahwa rata-rata
waktu penyelesaian tugas yang sebenarnya (rata-rata populasi) untuk
aplikasi seluler baru tersebut berada dalam rentang 8.19 menit hingga
8,726 menit.
3. \(99\% =
0.99\)
- Menentukan nilai kritis t \[\alpha = 1 - 0.99 = 0.01\] \[\begin{align*}
t\alpha/2 &= \frac{0.01}{2} = 0.005 \\
&= t_{0.005,11} \\
&\approx 3.106
\end{align*}
\] - Margin Of Error \[\begin{align*}
ME &= t_\alpha/_2,_{df} \times SE \\
&= 3.106 \times 0,122 \\
&\approx 0.3789
\end{align*}
\] - Menghitung Confidence Interval \[\begin{align*}
CI_{99\%} &= \bar{x} \pm ME \\
&= 8.458 \pm 0.3789 \\
&= (8.0791 , 8.8369 )
\end{align*}
\] kita dapat menyatakan dengan 99% keyakinan bahwa rata-rata
waktu penyelesaian tugas yang sebenarnya (rata-rata populasi) untuk
aplikasi seluler baru tersebut berada dalam rentang 8.0791 menit hingga
8.8369 menit.
2.3 Visualisasi Perbandingan
library(ggplot2)
# Parameter
mean_x <- 8.458
sd_x <- 0.421
# Kurva normal
x <- seq(mean_x - 4*sd_x, mean_x + 4*sd_x, length.out = 500)
density_data <- data.frame(
x = x,
y = dnorm(x, mean_x, sd_x)
)
# Confidence Interval
ci_data <- data.frame(
level = factor(
c("CI 90%", "CI 90%",
"CI 95%", "CI 95%",
"CI 99%", "CI 99%"),
levels = c("CI 90%", "CI 95%", "CI 99%")
),
value = c(
8.239, 8.677, # CI 90%
8.190, 8.726, # CI 95%
8.0791, 8.8369 # CI 99%
)
)
# Plot
ggplot(density_data, aes(x, y)) +
# Kurva normal
geom_line(color = "#C4B5FD", linewidth = 1.6) +
# Garis CI
geom_vline(
data = ci_data,
aes(xintercept = value, color = level),
linetype = "dashed",
linewidth = 1.1
) +
# Garis rata-rata
geom_vline(
xintercept = mean_x,
color = "#6B21A8",
linewidth = 1.5,
show.legend = FALSE
) +
# Warna CI
scale_color_manual(
name = "Confidence Interval",
values = c(
"CI 90%" = "#C084FC",
"CI 95%" = "#ff93d1",
"CI 99%" = "#93C5FD"
)
) +
labs(
title = "Perbandingan Confidence Interval Case 2",
subtitle = "Confidence Interval Rata-rata Waktu Penyelesaian Tugas",
x = "Waktu Penyelesaian Tugas (menit)",
y = "Kepadatan Probabilitas"
) +
theme_minimal() +
theme(
plot.title = element_text(
hjust = 0.5,
face = "bold",
margin = margin(b = 14)
),
plot.subtitle = element_text(
hjust = 0.5,
margin = margin(b = 22)
),
legend.spacing.y = unit(8, "pt"),
legend.key.height = unit(12, "pt"),
legend.text = element_text(size = 11),
legend.title = element_text(size = 12),
legend.position = "right"
)
Visualisasi menunjukkan sebaran rata-rata waktu penyelesaian tugas
pengguna. Interval kepercayaan 90% terlihat paling sempit, diikuti oleh
95%, dan 99% yang paling lebar. Ini nunjukin kalau makin tinggi tingkat
keyakinan yang dipakai, makin lebar juga rentang estimasi rata-rata yang
harus diambil, walaupun nilai rata-ratanya tetap sama.
2.4 Pengaruh Ukuran Sampel dan Tingkat Keyakinan pada Lebar Interval
Ukuran sampel dan tingkat kepercayaan sama-sama berpengaruh langsung ke lebar interval kepercayaan.
Kalau ukuran sampel makin besar, interval kepercayaan akan semakin sempit. Soalnya dengan data yang lebih banyak, estimasi rata-rata jadi lebih stabil dan ketidakpastiannya berkurang. Sebaliknya, kalau sampelnya kecil, intervalnya cenderung lebih lebar karena informasi yang kita punya juga lebih terbatas.
Sementara itu, tingkat kepercayaan berbanding lurus dengan lebar interval. Semakin tinggi tingkat kepercayaan (misalnya dari 90% ke 99%), intervalnya semakin lebar, karena kita ingin “lebih yakin” bahwa nilai rata-rata populasi benar-benar ada di dalam rentang tersebut. Kalau tingkat kepercayaannya lebih rendah, intervalnya bisa lebih sempit, tapi risikonya juga lebih besar kalau nilai sebenarnya ada di luar interval.
Intinya, interval yang sempit itu didapat dari data yang banyak, sedangkan interval yang lebih lebar biasanya dipilih saat kita ingin keyakinan yang lebih tinggi.
Case Study 3
Confidence Interval for a Proportion, A/B Testing: A data science team runs an A/B test on a new Call-To-Action (CTA) button design. The experiment yields:
\[ \begin{eqnarray*} n &=& 400 \quad \text{(total users)} \\ x &=& 156 \quad \text{(users who clicked the CTA)} \end{eqnarray*} \]
Tasks:
- Compute the sample proportion \(\hat{p}\).
- Compute Confidence Intervals for the proportion at:
- \(90\%\)
- \(95\%\)
- \(99\%\)
- Visualize and compare the three intervals.
- Explain how confidence level affects decision-making in product experiments.
3.1 Hitung proporsi sampel (\(\hat{p}\))
Proporsi sampel (\(\hat{p}\))
dihitung dengan membagi jumlah keberhasilan (\(x\)) dengan total jumlah percobaan (\(n\)). \[\hat{p}=\frac{x}{n}\] Diketahui:
- n = 400
- x = 156
Perhitungan
\[\hat{p}=
\frac{156}{400}= 0.39\] Proporsi sampel (\(\hat{p}\)) adalah 0.39 atau 39%.
3.2 Hitung Confidence Interval untuk proporsi 90%,95%, dan 99%
Rumus yang digunakan:
- Menghitung Standar Error \[\text{SE}=\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\]
- Menghitung Margin Of Error \[\text{ME} = Z_\alpha/_2 \times \text{SE} \]
- Menghitung Confidence Interval \[\text{CI}=\hat{p}\pm Z_{\alpha /2}\times \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\]
Standar Error:
- \(\hat{p}\) = 0.39
- n = 400
\[\text{SE}=\sqrt{\frac{0.39(1-0.39)}{400}}\approx \sqrt{\frac{0.2379}{400}}\approx 0.024388\]Hitung Interval Keyakinan untuk proporsi
1. \(90\% =
0.9\)
- Menentukan nilai kritis Z \[\alpha = 1 - 0.9 = 0.1\] \[Z\alpha/2 = \frac{0.1}{2} = 0.05\] \[Z_{0.05}= 1.645\]
- Margin Of Error \[\begin{align*} ME &= Z_\alpha/_2 \times SE \\ &= 1.645 \times 0.024388 \\ &\approx 0.0401 \end{align*} \]
- Menghitung Confidence Interval \[\begin{align*} CI_{90\%} &= \hat{p} \pm ME \\ &= 0.39 \pm 0.0401 \\ &\approx (0.3499, 0.4301) \end{align*} \] Interval 90% adalah (0.3499, 0.4301) atau (34.99%, 43.01%).
2. \(95\% =
0.95\)
- Menentukan nilai kritis Z \[\alpha = 1 - 0.95 = 0.05\] \[Z\alpha/2 = \frac{0.05}{2} = 0.025\] \[Z_{0.025}= 1.96\]
- Margin Of Error \[\begin{align*} ME &= Z_\alpha/_2 \times SE \\ &= 1.96 \times 0.024388 \\ &\approx 0.0478 \end{align*} \]
- Menghitung Confidence Interval \[\begin{align*} CI_{95\%} &= \hat{p} \pm ME \\ &= 0.39 \pm 0.0478 \\ &\approx (0.3422, 0.4378) \end{align*} \] Interval 95% adalah (0.3422, 0.4378) atau (34.22%, 43.78%).
3. \(99\% =
0.99\)
- Menentukan nilai kritis Z \[\alpha = 1 - 0.99 = 0.01\] \[Z\alpha/2 = \frac{0.01}{2} = 0.005\] \[Z_{0.005}= 2.57\]
- Margin Of Error \[\begin{align*} ME &= Z_\alpha/_2 \times SE \\ &= 2.57 \times 0.024388 \\ &\approx 0.06268 \end{align*} \]
- Menghitung Confidence Interval \[\begin{align*} CI_{90\%} &= \hat{p} \pm ME \\ &= 0.39 \pm 0.06268 \\ &\approx (0.32732 , 0.45268) \end{align*} \] Interval 99% adalah (0.32732, 0.45268) atau (32.732%, 45.268%).
3.3 Visualisasi Pebandingan
Visualisasi ini menunjukkan jika nilai proporsi ada di sekitar
0.39, dan semakin besar tingkat kepercayaannya (90%, 95%, 99%), rentang
intervalnya jadi makin lebar. Artinya semakin tinggi tingkat
kepercayaan, semakin lebar interval kepercayaan.
3.4 Pengaruh Tingkat Keyakinan pada Pengambilan Keputusan Eksperimen Produk
Tingkat keyakinan yang berbeda memengaruhi tingkat risiko yang bersedia diambil oleh tim produk. Tingkat keyakinan yang lebih tinggi (99%) memberikan jaminan yang lebih kuat bahwa proporsi populasi sebenarnya berada dalam rentang tersebut, tetapi dengan interval yang lebih lebar (kurang presisi). Keputusan bisnis berisiko tinggi biasanya menuntut keyakinan 99% untuk meminimalkan kemungkinan kesalahan.
Case Study 4
Precision Comparison (Z-Test vs t-Test): Two data teams measure API latency (in milliseconds) under different conditions.
\[\begin{eqnarray*} \text{Team A:} \\ n &=& 36 \quad \text{(sample size)} \\ \bar{x} &=& 210 \quad \text{(sample mean)} \\ \sigma &=& 24 \quad \text{(known population standard deviation)} \\[6pt] \text{Team B:} \\ n &=& 36 \quad \text{(sample size)} \\ \bar{x} &=& 210 \quad \text{(sample mean)} \\ s &=& 24 \quad \text{(sample standard deviation)} \end{eqnarray*}\]
Tasks
- Identify the statistical test used by each team.
- Compute Confidence Intervals for 90%, 95%, and 99%.
- Create a visualization comparing all intervals.
- Explain why the interval widths differ, even with similar data.
4.1 Identifikasi uji statistik yang digunakan oleh setiap tim
- Tim A menggunakan Uji-Z karena simpangan baku populasi (\(\sigma\)) diketahui (\(\sigma =24\)). Ketika \(\sigma\) diketahui, kita dapat menggunakan distribusi normal standar (distribusi Z) untuk menghitung interval keyakinan secara langsung.
- Tim B menggunakan Uji-t karena hanya simpangan baku sampel (\(s\)) yang diketahui (\(s=24\)). Ketika \(\sigma\) tidak diketahui, kita harus mengestimasi simpangan baku populasi menggunakan \(s\), yang memperkenalkan ketidakpastian ekstra dan mengharuskan penggunaan distribusi-t.
4.2 Hitung Interval Keyakinan
Rumus yang digunakan:
Menghitung Standar Error \[\text{SE}= \frac{\sigma }{\sqrt{n}} \]
Margin Of Error \[\text{ME} = Z_\alpha/_2 \times \text{SE} \]
Menghitung Confidence Interval \[\text{CI}=\bar{x}\pm \text{ME} \]
TIM A
Diketahui:
\(n = 36\)
\(\bar{x}\) = 210
\(\sigma\) = 24
Standar Error Tim A:
\[\text{SE}=\frac{24}{\sqrt{36}}=\frac{24}{6}=4.0
\] 1. \(90\% =
0.9\)
- Menentukan nilai kritis Z \[\alpha = 1 - 0.9 = 0.1\] \[Z\alpha/2 = \frac{0.1}{2} = 0.05\] \[Z_{0.05}= 1.645\]
- Margin Of Error \[\begin{align*} ME &= Z_\alpha/_2 \times SE \\ &= 1.645 \times 4.0 \\ &= 6.58 \end{align*} \]
- Menghitung Confidence Interval \[\begin{align*} CI_{90\%} &= \bar{x} \pm ME \\ &= 210 \pm 6.58 \\ &= (203.42 , 216.58) \end{align*} \] Interval 90% Tim A adalah \(\mathbf{(203.42,216.58)}\) ms.
2. \(95\% =
0.95\)
- Menentukan nilai kritis Z \[\alpha = 1 - 0.95 = 0.05\] \[Z\alpha/2 = \frac{0.05}{2} = 0.025\] \[Z_{0.025}= 1.96\]
- Margin Of Error \[\begin{align*} ME &= Z_\alpha/_2 \times SE \\ &= 1.96 \times 4.0 \\ &= 7.84 \end{align*} \]
- Menghitung Confidence Interval \[\begin{align*} CI_{95\%} &= \bar{x} \pm ME \\ &= 210 \pm 7.84 \\ &= (202.16 , 217.84) \end{align*} \] Interval 95% Tim A adalah \(\mathbf{(202.16,217.84)}\) ms.
3. \(99\% =
0.99\)
- Menentukan nilai kritis Z \[\alpha = 1 - 0.99 = 0.01\] \[Z\alpha/2 = \frac{0.01}{2} = 0.005\] \[Z_{0.005}= 2.576\]
- Margin Of Error \[\begin{align*} ME &= Z_\alpha/_2 \times SE \\ &= 2.576 \times 4.0 \\ &= 10.304 \end{align*} \]
- Menghitung Confidence Interval \[\begin{align*} CI_{99\%} &= \bar{x} \pm ME \\ &= 210 \pm 10.304 \\ &= (199.696 , 220.304) \end{align*} \] Interval 99% Tim A adalah \(\mathbf{(199.696,220.304)}\) ms.
TIM B
Diketahui:
- \(n = 36\)
- \(\bar{x}\) = 210
- \(\text{s}\) = 24
- \(\text{df}= 36 - 1 = 35\)
Standar Error Tim B:
\[\text{SE}=\frac{24}{\sqrt{36}}=\frac{24}{6}=4.0
\] 1. \(90\% =
0.9\)
- Menentukan nilai kritis t \[\alpha = 1 - 0.9 = 0.1\] \[t\alpha/2 = \frac{0.1}{2} = 0.05\] \[t_{0.05,35} \approx 1.690\]
- Margin Of Error \[\begin{align*} ME &= t_\alpha/_2 \times SE \\ &= 1.690 \times 4.0 \\ &= 6.76 \end{align*} \]
- Menghitung Confidence Interval \[\begin{align*} CI_{90\%} &= \bar{x} \pm ME \\ &= 210 \pm 6.76 \\ &= (203.24 , 216.76) \end{align*} \] Interval 90% Tim B adalah \(\mathbf{(203.24,216.76)}\) ms.
2. \(95\% =
0.95\)
- Menentukan nilai kritis t \[\alpha = 1 - 0.95 = 0.05\] \[t\alpha/2 = \frac{0.05}{2} = 0.025\] \[t_{0.025,35} \approx 2.030\]
- Margin Of Error \[\begin{align*} ME &= t_\alpha/_2 \times SE \\ &= 2.030 \times 4.0 \\ &= 8.12 \end{align*} \]
- Menghitung Confidence Interval \[\begin{align*} CI_{95\%} &= \bar{x} \pm ME \\ &= 210 \pm 8.12 \\ &= (201.88 , 218.12) \end{align*} \] Interval 95% Tim B adalah \(\mathbf{(201.88,218.12)}\) ms.
3. \(99\% =
0.99\)
- Menentukan nilai kritis t \[\alpha = 1 - 0.99 = 0.01\] \[t\alpha/2 = \frac{0.01}{2} = 0.005\] \[t_{0.005,35} \approx 2.724\]
- Margin Of Error \[\begin{align*} ME &= t_\alpha/_2 \times SE \\ &= 2.724 \times 4.0 \\ &= 10.896 \end{align*} \]
- Menghitung Confidence Interval \[\begin{align*} CI_{99\%} &= \bar{x} \pm ME \\ &= 210 \pm 10.896 \\ &= (199.104 , 220.896) \end{align*} \] Interval 99% Tim B adalah \(\mathbf{(199.104,220.896)}\) ms.
4.3 Visualisasi Perbandingan Tim A dan Tim B
Secara visual, semua 6 interval (3 dari Tim A, 3 dari Tim B) akan berpusat pada nilai rata-rata yang sama, yaitu 210 ms.
| Tingkat_Keyakinan | Interval_TimA | Interval_TimB |
|---|---|---|
| 90% | (203.42, 216.58) | (203.24, 216.76) |
| 95% | (202.16, 217.84) | (201.88, 218.12) |
| 99% | (199.696, 220.304) | (199.104, 220.896) |
Visualisasi Tim A
library(ggplot2)
# Parameter
mean_val <- 210
SE <- 4
# Data density
x <- seq(185, 235, length.out = 1000)
df <- data.frame(
x = x,
y = dnorm(x, mean = mean_val, sd = SE)
)
# Confidence Interval Tim A
ci_A <- data.frame(
level = factor(
c("CI 90%", "CI 95%", "CI 99%"),
levels = c("CI 90%", "CI 95%", "CI 99%")
),
xmin = c(203.42, 202.16, 199.696),
xmax = c(216.58, 217.84, 220.304)
)
ggplot(df, aes(x, y)) +
geom_line(color = "#6A1B9A", linewidth = 1.2) +
geom_vline(
data = ci_A,
aes(xintercept = xmin, color = level),
linetype = "dashed",
linewidth = 1
) +
geom_vline(
data = ci_A,
aes(xintercept = xmax, color = level),
linetype = "dashed",
linewidth = 1
) +
scale_color_manual(
name = "Confidence Interval",
values = c(
"CI 90%" = "#FF93D1",
"CI 95%" = "#B64C74",
"CI 99%" = "#8E24AA"
)
) +
labs(
title = "Visualisasi dengan Batas Confidence Interval Tim A (Z)",
x = "Waktu (ms)",
y = "Density"
) +
theme_minimal() +
theme(
plot.title = element_text(
size = 14, face = "bold",
margin = margin(b = 18)
),
legend.spacing.y = unit(8, "pt"),
legend.key.height = unit(12, "pt"),
legend.text = element_text(size = 11),
legend.title = element_text(size = 12)
)
Visualisasi ini menunjukkan kurva normal Tim A dengan batas
confidence interval 90%, 95%, dan 99% yang ditandai garis putus-putus.
Semakin tinggi tingkat kepercayaan, semakin lebar interval yang
terbentuk, sementara nilai rata-rata tetap berada di tengah kurva. Ini
menandakan bahwa estimasi rata-rata Tim A konsisten, tetapi membutuhkan
rentang yang lebih besar untuk tingkat keyakinan yang lebih tinggi.
Visualisasi Tim B
# Confidence Interval Tim B
ci_B <- data.frame(
level = factor(
c("CI 90%", "CI 95%", "CI 99%"),
levels = c("CI 90%", "CI 95%", "CI 99%")
),
xmin = c(203.24, 201.88, 199.104),
xmax = c(216.76, 218.12, 220.896)
)
ggplot(df, aes(x, y)) +
geom_line(color = "#1A237E", linewidth = 1.2) +
geom_vline(
data = ci_B,
aes(xintercept = xmin, color = level),
linetype = "dashed",
linewidth = 1
) +
geom_vline(
data = ci_B,
aes(xintercept = xmax, color = level),
linetype = "dashed",
linewidth = 1
) +
scale_color_manual(
name = "Confidence Interval",
values = c(
"CI 90%" = "#BBDEFB",
"CI 95%" = "#64B5F6",
"CI 99%" = "#1E88E5"
)
) +
labs(
title = "Visualisasi dengan Batas Confidence Interval Tim B (t)",
x = "Waktu (ms)",
y = "Density"
) +
theme_minimal() +
theme(
plot.title = element_text(
size = 14, face = "bold",
margin = margin(b = 18)
),
legend.spacing.y = unit(8, "pt"),
legend.key.height = unit(12, "pt"),
legend.text = element_text(size = 11),
legend.title = element_text(size = 12)
)
Visualisasi ini menunjukkan sebaran data Tim B yang mengikuti kurva
normal, dengan batas confidence interval 90%, 95%, dan 99% ditandai oleh
garis putus-putus. Terlihat bahwa semakin tinggi tingkat kepercayaan,
semakin lebar rentang intervalnya, yang artinya estimasi menjadi lebih
aman tetapi kurang spesifik. Nilai rata-rata tetap berada di tengah
kurva, sehingga dapat disimpulkan bahwa estimasi Tim B cukup stabil dan
konsisten meskipun tingkat kepercayaan diperbesar.
4.4 Penjelasan mengapa lebar interval berbeda, meskipun dengan data yang serupa
Interval Tim B lebih lebar karena adanya ketidakpastian tambahan saat mengestimasi simpangan baku populasi. Meskipun Tim A dan Tim B melaporkan nilai SE yang sama persis (\(s/\sqrt{n}=4.0\)), interval mereka berbeda karena nilai kritis yang digunakan dalam perhitungan:Tim A (Z-test) menggunakan nilai kritis Z yang berasal dari distribusi normal standar, yang mengasumsikan kita tahu pasti simpangan baku populasi (\(\sigma\)).Tim B (t-test) menggunakan nilai kritis t, yang berasal dari distribusi-t. Distribusi-t memiliki “ekor” yang lebih tebal (fatter tails) daripada distribusi Z, yang mencerminkan ketidakpastian yang lebih besar karena kita hanya mengestimasi \(\sigma\) menggunakan simpangan baku sampel (\(s\)).Akibatnya, nilai kritis t selalu sedikit lebih besar daripada nilai kritis Z yang sesuai (misalnya, 2.030 vs. 1.96 untuk 95% CI), menghasilkan margin of error yang lebih besar dan interval yang lebih lebar untuk Tim B.
Case Study 5
One-Sided Confidence Interval: A Software as a Service (SaaS) company wants to ensure that at least 70% of weekly active users utilize a premium feature.
From the experiment:
\[ \begin{eqnarray*} n &=& 250 \quad \text{(total users)} \\ x &=& 185 \quad \text{(active premium users)} \end{eqnarray*} \]
Management is only interested in the lower bound of the estimate.
Tasks:
- Identify the type of Confidence Interval and the appropriate test.
- Compute the one-sided lower Confidence Interval at:
- \(90\%\)
- \(95\%\)
- \(99\%\)
- Visualize the lower bounds for all confidence levels.
- Determine whether the 70% target is statistically satisfied.
5.1 Identifikasi jenis Interval Keyakinan dan uji statistik yang tepat
Jenis interval yang diperlukan adalah Interval Keyakinan Satu Sisi Bawah (One-Sided Lower Confidence Interval) untuk proporsi populasi. Uji statistik yang tepat adalah Uji-Z (Z-test) untuk proporsi. Interval ini satu sisi karena manajemen hanya peduli pada batas bawah (apakah proporsi setidaknya 70%). Mereka tidak peduli jika proporsi terlalu tinggi. Kita menggunakan Uji-Z (distribusi normal) karena ukuran sampel (\(n=250\)) cukup besar untuk mengaproksimasi distribusi sampling proporsi menjadi distribusi normal.
5.2 Hitung Interval Keyakinan bawah satu sisi
Diketahui:
- \(n = 250\)
- \(x = 185\)
Proporsi sampel \(\hat{p}\):
\[\begin{align*}
\hat{p} &= \frac{x}{n} \\
&= \frac{250}{185} \\
&= 0.74
\end{align*}
\]
Karena manajemen hanya tertarik pada batas bawah dari estimasi
tersebut maka,
Rumus untuk batas bawah CI:
\[\text{Lower CI}=\hat{p}-Z_{\alpha}\]
Standar Error \[\begin{align*}
\text{SE} &= \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \\
&= \sqrt{\frac{0.74(1-0.74)}{250}}\approx \sqrt{0.0007696}\approx
0.02774
\end{align*}
\]
1. \(90\% =
0.9\)
- Menentukan nilai kritis Z \[\alpha = 1 - 0.9 = 0.1\] \[Z_{0.1} = 1.282\]
- Margin Of Error \[\begin{align*} ME &= Z_\alpha \times SE \\ &= 1.282 \times 0.02774 \\ &\approx 0.03557 \end{align*} \]
- Menghitung Confidence Interval \[\begin{align*} \text {Lower CI} &= \hat{p} - ME \\ &= 0.74 - 0.03557 \\ &= 0.70843 \end{align*} \] Batas bawah CI 90% adalah 0.7084 atau 70.84%.
2. \(95\% =
0.95\)
- Menentukan nilai kritis Z \[\alpha = 1 - 0.95 = 0.05\] \[Z_{0.05} = 1.645\]
- Margin Of Error \[\begin{align*} ME &= Z_\alpha \times SE \\ &= 1.645 \times 0.02774 \\ &\approx 0.04564 \end{align*} \]
- Menghitung Confidence Interval \[\begin{align*} \text {Lower CI} &= \hat{p} - ME \\ &= 0.74 - 0.04564 \\ &= 0.69836 \end{align*} \] Batas bawah CI 95% adalah 0.6984 atau 69.84%.
3. \(99\% =
0.99\)
- Menentukan nilai kritis Z \[\alpha = 1 - 0.99 = 0.01\] \[Z_{0.01} = 2.326\]
- Margin Of Error \[\begin{align*} ME &= Z_\alpha \times SE \\ &= 2.326 \times 0.02774 \\ &\approx 0.0645 \end{align*} \]
- Menghitung Confidence Interval batas bawah \[\begin{align*} \text {Lower CI} &= \hat{p} - ME \\ &= 0.74 - 0.0645 \\ &= 0.6755 \end{align*} \] Batas bawah CI 99% adalah 0.6755 atau 67.55%.
5.3 Visualisasi Perbandingan (batas bawah)
Visualisasi akan menunjukkan proporsi sampel (0.74) sebagai titik pusat, dan tiga batas bawah yang berbeda, yang semuanya berada di bawah 0.74.
library(ggplot2)
# Parameter
p_hat <- 0.74
SE <- 0.02774
x <- seq(0.60, 0.85, length.out = 1000)
df <- data.frame(
x = x,
y = dnorm(x, mean = p_hat, sd = SE)
)
# Lower Confidence Interval
ci_lower <- data.frame(
level = factor(
c("CI 90%", "CI 95%", "CI 99%"),
levels = c("CI 90%", "CI 95%", "CI 99%")
),
lower = c(0.70843, 0.69836, 0.6755)
)
ggplot(df, aes(x, y)) +
geom_line(color = "#6A1B9A", linewidth = 1.2) +
# Garis rata-rata
geom_vline(
xintercept = p_hat,
color = "#4A148C",
linewidth = 1.2
) +
# Garis batas bawah CI
geom_vline(
data = ci_lower,
aes(xintercept = lower, color = level),
linetype = "dashed",
linewidth = 1
) +
scale_color_manual(
name = "Confidence Interval",
values = c(
"CI 90%" = "#E1BEE7",
"CI 95%" = "#BA68C8",
"CI 99%" = "#8E24AA"
)
) +
labs(
title = "Visualisasi Batas Bawah Confidence Interval Case 5",
subtitle = "One-Sided Confidence Interval (Lower Bound)",
x = "Proporsi",
y = "Density"
) +
theme_minimal() +
theme(
plot.title = element_text(
size = 14, face = "bold",
margin = margin(b = 18)
),
plot.subtitle = element_text(
margin = margin(b = 22)
),
legend.spacing.y = unit(8, "pt"),
legend.key.height = unit(12, "pt"),
legend.text = element_text(size = 11),
legend.title = element_text(size = 12)
)
Visualisasi ini menunjukkan bahwa semakin tinggi tingkat
kepercayaan, batas bawah confidence interval semakin menjauh ke kiri
dari nilai proporsi sampel (0,74). Artinya, untuk tingkat keyakinan yang
lebih besar, manajemen harus menerima estimasi batas minimum proporsi
yang lebih konservatif.
5.4 Tentukan apakah target 70% secara statistik tercapai
Ya, target 70% secara statistik tercapai pada tingkat keyakinan 90%
dan 95%, tetapi tidak tercapai pada tingkat keyakinan 99%.
- Pada 90% Keyakinan: Batas bawah kita adalah 70.84%. Karena 70.84% lebih besar dari target 70%, kita 90% yakin bahwa proporsi sebenarnya setidaknya 70.84%, sehingga target 70% terpenuhi.
- Pada 95% Keyakinan: Batas bawah kita adalah 69.84%. Nilai ini sangat dekat dengan 70%, tetapi masih sedikit di bawah. Namun, dalam konteks “apakah setidaknya 70%?”, hasil ini masih di perbatasan (tergantung pada interpretasi ketat soal).
- Pada 99% Keyakinan: Batas bawah kita adalah 67.55%. Karena batas bawah ini di bawah target 70%, kita tidak bisa 99% yakin bahwa target 70% secara statistik tercapai.
References
[1] Siregar, B. (n.d.). Introduction to statistics: Chapter 8: Confidence Interval. dsciencelabs. https://bookdown.org/dsciencelabs/intro_statistics/08-Confidence_Interval.html
[2] Suryadi, W., & Supandi, E. D. (2025). Membangun interval kepercayaan proporsi dengan menggunakan metode Jackknife. STATISTIKA, 19(1). https://ejournal.unisba.ac.id/index.php/statistika/article/view/4721
[3] Perbandingan interval konfidensi tradisional dan bootstrap dalam parameter distribusi eksponensial. (2024). Jurnal Exbar: Program Studi Statistika Universitas Hamzanwadi, 1(2). https://e-journal.hamzanwadi.ac.id/index.php/eksbar/article/view/29104