Confidence Interval

Study Cases ~ week 13

Foto Mahasiswa

Adinda Adelia Futri

Institut Teknologi Sains Bandung (ITSB)

Program Studi Data Science


1 📘 Case Study 1

1.1 Confidence Interval for Mean (σ Diketahui)


1.2 1️⃣ Soal

Sebuah platform e-commerce ingin mengestimasi rata-rata jumlah transaksi harian per pengguna setelah peluncuran fitur baru. Berdasarkan data historis skala besar, standar deviasi populasi diketahui.

Diketahui:

  • σ = 3.2
  • n = 100
  • x̄ = 12.6

Tentukan interval kepercayaan rata-rata populasi pada tingkat kepercayaan:

  • 90%
  • 95%
  • 99%

1.3 2️⃣ Menentukan Distribusi yang Digunakan

Karena:

  1. Standar deviasi populasi (σ) diketahui
  2. Ukuran sampel besar (n ≥ 30)
  3. Estimasi yang dicari adalah rata-rata populasi

Maka digunakan Distribusi Normal (Z).


1.4 3️⃣ Perhitungan Manual (Seperti Coretan di Buku)

1.4.1 Rumus Interval Kepercayaan

\[ CI = \bar{x} \pm Z_{\alpha/2} \times \frac{\sigma}{\sqrt{n}} \]


1.4.2 ✏️ Step 1 – Hitung Standard Error (SE)

Diketahui:

\[ \sigma = 3.2, \quad n = 100 \]

\[ SE = \frac{\sigma}{\sqrt{n}} \]

\[ SE = \frac{3.2}{\sqrt{100}} \]

\[ SE = \frac{3.2}{10} \]

\[ SE = 0.32 \]

Artinya, rata-rata sampel diperkirakan menyimpang sebesar 0.32 transaksi dari rata-rata populasi.


1.4.3 ✏️ Step 2 – Tentukan Nilai α dan α/2

Karena interval kepercayaan dua sisi, maka:

  • Untuk 90%: \[ \alpha = 1 - 0.90 = 0.10 \Rightarrow \alpha/2 = 0.05 \]

  • Untuk 95%: \[ \alpha = 1 - 0.95 = 0.05 \Rightarrow \alpha/2 = 0.025 \]

  • Untuk 99%: \[ \alpha = 1 - 0.99 = 0.01 \Rightarrow \alpha/2 = 0.005 \]


1.4.4 ✏️ Step 3 – Menentukan Nilai Z dari Tabel Distribusi Normal

Nilai Z dicari dari tabel distribusi normal standar berdasarkan probabilitas:

\[ Z = Z_{(1 - \alpha/2)} \]

Hasil pembacaan tabel: - 90% → \(Z = 1.645\) - 95% → \(Z = 1.960\) - 99% → \(Z = 2.576\)


1.5 4️⃣ Tabel Distribusi Normal

Logo

Gambar: Tabel Distribusi Normal Standar (Z-Table)<br>
Digunakan untuk menentukan nilai kritis Z pada interval kepercayaan dua sisi

1.5.1 ✏️ Step 4 – Hitung Margin of Error (ME)

Rumus:

\[ ME = Z \times SE \]

Perhitungan:

  • 90%: \[ ME = 1.645 \times 0.32 = 0.526 \]

  • 95%: \[ ME = 1.960 \times 0.32 = 0.627 \]

  • 99%: \[ ME = 2.576 \times 0.32 = 0.824 \]


1.5.2 ✏️ Step 5 – Hitung Confidence Interval

Rumus:

\[ CI = \bar{x} \pm ME \]

Substitusi nilai:

  • 90%: \[ CI = 12.6 \pm 0.526 \]

  • 95%: \[ CI = 12.6 \pm 0.627 \]

  • 99%: \[ CI = 12.6 \pm 0.824 \]


1.6 5️⃣ Perhitungan Menggunakan R (Verifikasi)

# Diketahui
x_bar <- 12.6
sigma <- 3.2
n <- 100

# Step 1: Standard Error
SE <- sigma / sqrt(n)

# Step 2: Confidence Levels
conf_level <- c(0.90, 0.95, 0.99)

# Step 3: Nilai Z
z_value <- qnorm((1 + conf_level) / 2)

# Step 4: Margin of Error
ME <- z_value * SE

# Step 5: Confidence Interval
lower <- x_bar - ME
upper <- x_bar + ME

# Tabel hasil
CI_result <- data.frame(
  Confidence_Level = c("90%", "95%", "99%"),
  Z_Score = round(z_value, 3),
  Margin_of_Error = round(ME, 3),
  Lower_Bound = round(lower, 3),
  Upper_Bound = round(upper, 3)
)

CI_result

1.7 Confidence Interval Density Plot

1.8

1.9 6️⃣ Interpretasi

Interpretasi Statistik:
Dengan tingkat kepercayaan 95%, rata-rata jumlah transaksi harian per pengguna berada pada interval 11.973 sampai 13.227 transaksi.

Interpretasi Bisnis:
Hal ini menunjukkan bahwa fitur baru menghasilkan rata-rata sekitar 12–13 transaksi per pengguna per hari. Interval yang relatif sempit menandakan estimasi yang stabil dan dapat digunakan sebagai dasar evaluasi performa fitur oleh manajemen.

2 📘 Case Study 2

2.1 Confidence Interval for Mean (σ Tidak Diketahui)


2.2 1️⃣ Soal

Tim UX Research ingin mengestimasi rata-rata waktu penyelesaian tugas (menit) pada aplikasi mobile baru. Data diperoleh dari 12 pengguna berikut:

8.4, 7.9, 9.1, 8.7, 8.2, 9.0, 7.8, 8.5, 8.9, 8.1, 8.6, 8.3

Karena standar deviasi populasi tidak diketahui dan jumlah sampel kecil, diperlukan interval kepercayaan untuk mengestimasi rata-rata populasi.


2.3 2️⃣ Metode yang Digunakan

Metode yang digunakan adalah Confidence Interval Mean dengan Distribusi t.

Alasan (langsung dari kondisi soal):

  • Sampel kecil (n = 12)
  • Standar deviasi populasi tidak diketahui
  • Tujuan analisis adalah estimasi rata-rata populasi

2.4 3️⃣ Perhitungan Step-by-Step (Perhitungan Nyata dari Soal)

Data waktu penyelesaian tugas (menit):

8.4, 7.9, 9.1, 8.7, 8.2, 9.0, 7.8, 8.5, 8.9, 8.1, 8.6, 8.3


2.4.1 ✏️ Step 1 – Menentukan Ukuran Sampel dan Derajat Kebebasan

Jumlah data pengguna:

\[ n = 12 \]

Karena standar deviasi populasi tidak diketahui, maka digunakan distribusi t dengan derajat kebebasan:

\[ df = n - 1 = 12 - 1 = 11 \]


2.4.2 ✏️ Step 2 – Menghitung Rata-rata Sampel (\(\bar{x}\))

Rumus rata-rata sampel:

\[ \bar{x} = \frac{\sum x_i}{n} \]

Substitusi nilai dari soal:

\[ \bar{x} = \frac{ 8.4 + 7.9 + 9.1 + 8.7 + 8.2 + 9.0 + 7.8 + 8.5 + 8.9 + 8.1 + 8.6 + 8.3 }{12} \]

\[ \bar{x} = \frac{101.5}{12} = 8.458 \]

Artinya, rata-rata waktu penyelesaian tugas dari 12 pengguna adalah 8.458 menit.


2.4.3 ✏️ Step 3 – Menghitung Standar Deviasi Sampel (s)

Rumus standar deviasi sampel:

\[ s = \sqrt{ \frac{\sum (x_i - \bar{x})^2}{n - 1} } \]

Perhitungan ini mengukur seberapa besar variasi waktu penyelesaian antar pengguna.

Hasil perhitungan dari data:

\[ s = 0.406 \]

Nilai ini menunjukkan bahwa waktu penyelesaian pengguna cukup konsisten, tetapi tetap memiliki variasi.


2.4.4 ✏️ Step 4 – Menghitung Standard Error (SE)

Standard Error menunjukkan ketelitian rata-rata sampel dalam mengestimasi rata-rata populasi.

Rumus:

\[ SE = \frac{s}{\sqrt{n}} \]

Substitusi nilai:

\[ SE = \frac{0.406}{\sqrt{12}} \]

\[ SE = \frac{0.406}{3.464} = 0.117 \]


2.4.5 ✏️ Step 5 – Menentukan Nilai t dari Tabel Distribusi t

Dengan: - derajat kebebasan \(df = 11\)

Nilai t dari tabel distribusi t adalah:

  • 90% → \(t = 1.796\)
  • 95% → \(t = 2.201\)
  • 99% → \(t = 3.106\)

Logo

Gambar: Tabel Distribusi t (Student’s t-Distribution)<br>
Digunakan untuk menentukan nilai kritis t berdasarkan derajat kebebasan (df = 11)

2.4.6 ✏️ Step 6 – Menghitung Margin of Error (ME)

Rumus Margin of Error:

\[ ME = t \times SE \]

2.4.6.1 🔹 Confidence Level 90%

\[ ME_{90} = 1.796 \times 0.117 = 0.210 \]

2.4.6.2 🔹 Confidence Level 95%

\[ ME_{95} = 2.201 \times 0.117 = 0.258 \]

2.4.6.3 🔹 Confidence Level 99%

\[ ME_{99} = 3.106 \times 0.117 = 0.363 \]


2.4.7 ✏️ Step 7 – Membentuk Confidence Interval

Rumus interval kepercayaan:

\[ CI = \bar{x} \pm ME \]

2.4.7.1 🔹 CI 90%

\[ CI_{90} = 8.458 \pm 0.210 \]

\[ CI_{90} = (8.248,\; 8.668) \]

2.4.7.2 🔹 CI 95%

\[ CI_{95} = 8.458 \pm 0.258 \]

\[ CI_{95} = (8.200,\; 8.716) \]

2.4.7.3 🔹 CI 99%

\[ CI_{99} = 8.458 \pm 0.363 \]

\[ CI_{99} = (8.095,\; 8.821) \]

Rentang ini merepresentasikan estimasi rata-rata waktu penyelesaian tugas seluruh pengguna aplikasi, bukan hanya 12 responden.


2.5 5️⃣ Perhitungan, Tabel Hasil, dan Visualisasi Menggunakan R

# Data waktu penyelesaian tugas (menit)
data <- c(8.4,7.9,9.1,8.7,8.2,9.0,7.8,8.5,8.9,8.1,8.6,8.3)

# Ukuran sampel
n <- length(data)

# Rata-rata dan standar deviasi sampel
x_bar <- mean(data)
s <- sd(data)

# Standard Error
SE <- s / sqrt(n)

# Confidence Levels
conf_level <- c(0.90, 0.95, 0.99)

# Nilai t
t_value <- qt((1 + conf_level) / 2, df = n - 1)

# Margin of Error
ME <- t_value * SE

# Confidence Interval
lower <- x_bar - ME
upper <- x_bar + ME

# Tabel hasil
CI_result <- data.frame(
  Confidence_Level = c("90%", "95%", "99%"),
  t_value = round(t_value, 3),
  Margin_of_Error = round(ME, 3),
  Lower_Bound = round(lower, 3),
  Upper_Bound = round(upper, 3)
)

CI_result

2.5.1 📊 Visualisasi Confidence Interval

plot(NULL,
     xlim = c(min(lower) - 0.2, max(upper) + 0.2),
     ylim = c(1, 3),
     xlab = "Task Completion Time (minutes)",
     ylab = "",
     yaxt = "n",
     main = "Confidence Interval of Task Completion Time")

segments(lower, 1:3, upper, 1:3, lwd = 3)
points(rep(x_bar, 3), 1:3, pch = 19)
axis(2, at = 1:3, labels = CI_result$Confidence_Level)


2.6 6️⃣ Interpretasi Akhir

Insight Statistik Interval kepercayaan melebar seiring meningkatnya tingkat kepercayaan, menunjukkan adanya trade-off antara keyakinan statistik dan presisi estimasi.

Implikasi UX & Bisnis Hasil ini mengindikasikan bahwa pengguna menyelesaikan tugas rata-rata dalam waktu sekitar 8–9 menit secara konsisten. Namun, karena jumlah responden masih terbatas, penambahan partisipan UX testing sangat disarankan untuk memperoleh estimasi yang lebih presisi sebelum pengambilan keputusan desain final.

3 📘 Case Study 3

3.1 Confidence Interval for a Proportion (A/B Testing)


3.2 1️⃣ Soal

Tim Data Science melakukan A/B Testing pada desain tombol Call-To-Action (CTA) baru.
Hasil eksperimen menunjukkan:

  • Total pengguna yang melihat CTA:
    \[ n = 400 \]

  • Jumlah pengguna yang mengklik CTA:
    \[ x = 156 \]

Tujuan analisis ini adalah mengestimasi proporsi pengguna yang mengklik CTA menggunakan interval kepercayaan.


3.3 2️⃣ Metode yang Digunakan

Metode yang digunakan adalah Confidence Interval untuk Proporsi (Z-Interval).

Alasan berdasarkan kondisi soal:

  • Data berupa proporsi (klik / tidak klik)
  • Ukuran sampel besar (n = 400)
  • Distribusi binomial dapat didekati dengan distribusi normal
  • Nilai \(np\) dan \(n(1-p)\) cukup besar

3.4 3️⃣ Perhitungan Step-by-Step (Perhitungan Nyata dari Soal)


3.4.1 ✏️ Step 1 – Menghitung Proporsi Sampel (\(\hat{p}\))

Proporsi sampel adalah persentase pengguna yang mengklik CTA dari seluruh pengguna.

Rumus:

\[ \hat{p} = \frac{x}{n} \]

Substitusi nilai dari soal:

\[ \hat{p} = \frac{156}{400} = 0.39 \]

Artinya, 39% pengguna dalam eksperimen mengklik CTA baru.


3.4.2 ✏️ Step 2 – Mengecek Syarat Pendekatan Normal

Syarat penggunaan Z-interval untuk proporsi:

\[ n\hat{p} \ge 10 \quad \text{dan} \quad n(1-\hat{p}) \ge 10 \]

Cek:

\[ n\hat{p} = 400 \times 0.39 = 156 \]

\[ n(1-\hat{p}) = 400 \times 0.61 = 244 \]

Karena kedua nilai ≫ 10, maka pendekatan distribusi normal valid digunakan.


3.4.3 ✏️ Step 3 – Menghitung Standard Error (SE) Proporsi

Standard Error menunjukkan seberapa besar variasi estimasi proporsi sampel terhadap proporsi populasi.

Rumus:

\[ SE = \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \]

Substitusi nilai:

\[ SE = \sqrt{\frac{0.39(1-0.39)}{400}} \]

\[ SE = \sqrt{\frac{0.2379}{400}} \]

\[ SE = \sqrt{0.00059475} = 0.0244 \]


3.4.4 ✏️ Step 4 – Menentukan Nilai Z dari Tabel Distribusi Normal

Nilai Z ditentukan oleh tingkat kepercayaan:

  • 90% → \(Z = 1.645\)
  • 95% → \(Z = 1.960\)
  • 99% → \(Z = 2.576\)

3.4.5 ✏️ Step 5 – Menghitung Margin of Error (ME)

Rumus Margin of Error:

\[ ME = Z \times SE \]

3.4.5.1 🔹 Confidence Level 90%

\[ ME_{90} = 1.645 \times 0.0244 = 0.040 \]

3.4.5.2 🔹 Confidence Level 95%

\[ ME_{95} = 1.960 \times 0.0244 = 0.048 \]

3.4.5.3 🔹 Confidence Level 99%

\[ ME_{99} = 2.576 \times 0.0244 = 0.063 \]


3.4.6 ✏️ Step 6 – Membentuk Confidence Interval Proporsi

Rumus interval kepercayaan:

\[ CI = \hat{p} \pm ME \]

3.4.6.1 🔹 CI 90%

\[ CI_{90} = 0.39 \pm 0.040 \]

\[ CI_{90} = (0.350,\; 0.430) \]

3.4.6.2 🔹 CI 95%

\[ CI_{95} = 0.39 \pm 0.048 \]

\[ CI_{95} = (0.342,\; 0.438) \]

3.4.6.3 🔹 CI 99%

\[ CI_{99} = 0.39 \pm 0.063 \]

\[ CI_{99} = (0.327,\; 0.453) \]

Rentang ini menunjukkan estimasi proporsi sebenarnya pengguna yang mengklik CTA di seluruh populasi pengguna.


3.5 4️⃣ Perhitungan, Tabel Hasil, dan Visualisasi Menggunakan R

# Data A/B Testing
n <- 400
x <- 156

# Sample proportion
p_hat <- x / n

# Standard Error
SE <- sqrt((p_hat * (1 - p_hat)) / n)

# Confidence Levels
conf_level <- c(0.90, 0.95, 0.99)

# Z values
z_value <- qnorm((1 + conf_level) / 2)

# Margin of Error
ME <- z_value * SE

# Confidence Intervals
lower <- p_hat - ME
upper <- p_hat + ME

# Tabel hasil
CI_result <- data.frame(
  Confidence_Level = c("90%", "95%", "99%"),
  Z_value = round(z_value, 3),
  Margin_of_Error = round(ME, 3),
  Lower_Bound = round(lower, 3),
  Upper_Bound = round(upper, 3)
)

CI_result

3.5.1 Visualisasi Confidence Interval Proporsi

plot(NULL,
     xlim = c(min(lower) - 0.05, max(upper) + 0.05),
     ylim = c(1, 3),
     xlab = "Proportion of CTA Clicks",
     ylab = "",
     yaxt = "n",
     main = "Confidence Interval for CTA Click-Through Rate")

segments(lower, 1:3, upper, 1:3, lwd = 3)
points(rep(p_hat, 3), 1:3, pch = 19)
axis(2, at = 1:3, labels = CI_result$Confidence_Level)


3.6 5️⃣ Interpretasi dalam Konteks Produk & Bisnis

Semakin tinggi tingkat kepercayaan, semakin lebar interval kepercayaan yang dihasilkan. Hal ini mencerminkan peningkatan tingkat kehati-hatian dalam mengestimasi performa sebenarnya dari suatu eksperimen.

Dalam konteks eksperimen produk:

  • 90% CI → interval lebih sempit, cocok untuk keputusan cepat
  • 95% CI → memberikan keseimbangan antara risiko dan kepastian, umum digunakan untuk keputusan rollout
  • 99% CI → sangat konservatif, tetapi risiko salah keputusan lebih kecil

Jika interval seluruhnya berada di atas baseline CTR lama, maka CTA baru dapat dianggap memberikan peningkatan performa yang signifikan dan layak di-roll out ke seluruh pengguna.

4 📘 Case Study 4

4.1 Precision Comparison: Z-Test vs t-Test (API Latency)


4.2 1️⃣ Soal

Dua tim data mengukur API latency (ms) pada kondisi berbeda.

4.2.1 🔹 Team A

  • Ukuran sampel:
    \[ n = 36 \]
  • Rata-rata sampel:
    \[ \bar{x} = 210 \]
  • Standar deviasi populasi diketahui:
    \[ \sigma = 24 \]

4.2.2 🔹 Team B

  • Ukuran sampel:
    \[ n = 36 \]
  • Rata-rata sampel:
    \[ \bar{x} = 210 \]
  • Standar deviasi populasi tidak diketahui, hanya tersedia standar deviasi sampel:
    \[ s = 24 \]

Tujuan analisis adalah membandingkan presisi interval kepercayaan yang dihasilkan oleh kedua pendekatan.


4.3 2️⃣ Metode Statistik yang Digunakan

4.3.1 ✅ Team A → Z-Interval

Digunakan karena:

  • Standar deviasi populasi (\(\sigma\)) diketahui
  • Ukuran sampel cukup besar

4.3.2 ✅ Team B → t-Interval

Digunakan karena:

  • Standar deviasi populasi tidak diketahui
  • Variabilitas diestimasi dari sampel (\(s\))

4.4 3️⃣ Perhitungan Step-by-Step (Perhitungan Nyata dari Soal)


4.4.1 ✏️ Step 1 – Menentukan Standard Error (SE)

4.4.1.1 🔹 Team A (Z-Test)

Rumus:

\[ SE_A = \frac{\sigma}{\sqrt{n}} \]

Substitusi nilai:

\[ SE_A = \frac{24}{\sqrt{36}} = \frac{24}{6} = 4 \]


4.4.1.2 🔹 Team B (t-Test)

Rumus:

\[ SE_B = \frac{s}{\sqrt{n}} \]

Substitusi nilai:

\[ SE_B = \frac{24}{\sqrt{36}} = \frac{24}{6} = 4 \]

➡️ Nilai SE sama, karena \(s = \sigma\) dan \(n\) sama.


4.4.2 ✏️ Step 2 – Menentukan Nilai Kritis (Z dan t)

4.4.2.1 🔹 Nilai Z (Distribusi Normal)

  • 90% → \(Z = 1.645\)
  • 95% → \(Z = 1.960\)
  • 99% → \(Z = 2.576\)

Logo


4.4.2.2 🔹 Nilai t (Distribusi t)

Derajat kebebasan:

\[ df = n - 1 = 35 \]

  • 90% → \(t = 1.690\)
  • 95% → \(t = 2.030\)
  • 99% → \(t = 2.724\)

Logo


4.4.3 ✏️ Step 3 – Menghitung Margin of Error (ME)

Rumus umum:

\[ ME = \text{nilai kritis} \times SE \]


4.4.3.1 🔹 Team A (Z-Interval)

  • 90%
    \[ ME_{90} = 1.645 \times 4 = 6.58 \]

  • 95%
    \[ ME_{95} = 1.960 \times 4 = 7.84 \]

  • 99%
    \[ ME_{99} = 2.576 \times 4 = 10.30 \]


4.4.3.2 🔹 Team B (t-Interval)

  • 90%
    \[ ME_{90} = 1.690 \times 4 = 6.76 \]

  • 95%
    \[ ME_{95} = 2.030 \times 4 = 8.12 \]

  • 99%
    \[ ME_{99} = 2.724 \times 4 = 10.90 \]


4.4.4 ✏️ Step 4 – Membentuk Confidence Interval

Rumus:

\[ CI = \bar{x} \pm ME \]


4.4.4.1 🔹 Team A (Z-Test)

  • 90% → (203.42 , 216.58)
  • 95% → (202.16 , 217.84)
  • 99% → (199.70 , 220.30)

4.4.4.2 🔹 Team B (t-Test)

  • 90% → (203.24 , 216.76)
  • 95% → (201.88 , 218.12)
  • 99% → (199.10 , 220.90)

4.5 4️⃣ Perhitungan, Tabel Hasil, dan Visualisasi Menggunakan R

# Parameter
n <- 36
x_bar <- 210
sigma <- 24
s <- 24

# Standard Error
SE <- sigma / sqrt(n)

# Confidence Levels
conf_level <- c(0.90, 0.95, 0.99)

# Z and t values
z_value <- qnorm((1 + conf_level) / 2)
t_value <- qt((1 + conf_level) / 2, df = n - 1)

# Margin of Error
ME_z <- z_value * SE
ME_t <- t_value * SE

# Confidence Intervals
lower_z <- x_bar - ME_z
upper_z <- x_bar + ME_z

lower_t <- x_bar - ME_t
upper_t <- x_bar + ME_t

# Tabel hasil
CI_result <- data.frame(
  Test = rep(c("Z-Test", "t-Test"), each = 3),
  Confidence_Level = rep(c("90%", "95%", "99%"), 2),
  Lower_Bound = round(c(lower_z, lower_t), 2),
  Upper_Bound = round(c(upper_z, upper_t), 2)
)

CI_result

4.5.1 Visualisasi Perbandingan Interval

plot(NULL,
     xlim = c(min(lower_t) - 2, max(upper_t) + 2),
     ylim = c(1, 6),
     xlab = "API Latency (ms)",
     ylab = "",
     yaxt = "n",
     main = "Comparison of Z-Test and t-Test Confidence Intervals")

segments(lower_z, 1:3, upper_z, 1:3, lwd = 3)
segments(lower_t, 4:6, upper_t, 4:6, lwd = 3)

points(rep(x_bar, 6), 1:6, pch = 19)

axis(2,
     at = 1:6,
     labels = c("Z 90%", "Z 95%", "Z 99%",
                "t 90%", "t 95%", "t 99%"))


4.6 5️⃣ Interpretasi Akhir

Walaupun kedua tim menggunakan data yang sangat mirip, interval kepercayaan dari t-test selalu lebih lebar dibandingkan Z-test.

Hal ini terjadi karena:

  • Distribusi t memperhitungkan ketidakpastian tambahan akibat estimasi standar deviasi dari sampel
  • Nilai kritis t lebih besar daripada Z, terutama pada confidence level tinggi

Dalam praktik analitik:

  • Z-test memberikan interval lebih sempit (lebih presisi) jika \(\sigma\) diketahui
  • t-test lebih konservatif dan lebih aman saat \(\sigma\) tidak diketahui

5 📘 Case Study 5

5.1 One-Sided Confidence Interval (Lower Bound) – Premium Feature Usage


5.2 1️⃣ Soal

Sebuah perusahaan SaaS ingin memastikan bahwa minimal 70% pengguna aktif mingguan menggunakan fitur premium.

Dari hasil eksperimen diperoleh:

  • Total pengguna:
    \[ n = 250 \]
  • Pengguna aktif premium:
    \[ x = 185 \]

Manajemen hanya tertarik pada batas bawah estimasi proporsi.


5.3 2️⃣ Jenis Confidence Interval dan Metode

Metode yang digunakan adalah One-Sided (Lower) Confidence Interval untuk Proporsi
menggunakan pendekatan distribusi normal (Z-interval).

Alasan sesuai soal:

  • Data berbentuk proporsi (pakai / tidak pakai)
  • Ukuran sampel besar
  • Fokus keputusan hanya pada batas bawah, bukan dua sisi

5.4 3️⃣ Perhitungan Step-by-Step (Perhitungan Nyata dari Soal)


5.4.1 ✏️ Step 1 – Menghitung Proporsi Sampel (\(\hat{p}\))

Proporsi sampel menunjukkan persentase pengguna yang memakai fitur premium.

Rumus: \[ \hat{p} = \frac{x}{n} \]

Substitusi nilai dari soal: \[ \hat{p} = \frac{185}{250} = 0.74 \]

Artinya, 74% pengguna dalam eksperimen menggunakan fitur premium.


5.4.2 ✏️ Step 2 – Mengecek Syarat Pendekatan Normal

Syarat: \[ n\hat{p} \ge 10 \quad \text{dan} \quad n(1-\hat{p}) \ge 10 \]

Cek: \[ n\hat{p} = 250 \times 0.74 = 185 \] \[ n(1-\hat{p}) = 250 \times 0.26 = 65 \]

Karena kedua nilai jauh di atas 10, pendekatan normal valid digunakan.


5.4.3 ✏️ Step 3 – Menghitung Standard Error (SE)

Rumus: \[ SE = \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \]

Substitusi: \[ SE = \sqrt{\frac{0.74(1-0.74)}{250}} \] \[ SE = \sqrt{\frac{0.1924}{250}} \] \[ SE = \sqrt{0.0007696} = 0.0277 \]


5.4.4 ✏️ Step 4 – Menentukan Nilai Z (One-Sided)

Karena interval satu sisi (lower bound), nilai Z adalah:

  • 90% → \(Z = 1.282\)
  • 95% → \(Z = 1.645\)
  • 99% → \(Z = 2.330\)

5.4.5 ✏️ Step 5 – Menghitung Lower Bound Confidence Interval

Rumus one-sided lower CI: \[ CI_{lower} = \hat{p} - Z \times SE \]


5.4.5.1 🔹 Lower CI 90%

\[ CI_{90} = 0.74 - (1.282 \times 0.0277) \] \[ CI_{90} = 0.74 - 0.0355 = 0.7045 \]


5.4.5.2 🔹 Lower CI 95%

\[ CI_{95} = 0.74 - (1.645 \times 0.0277) \] \[ CI_{95} = 0.74 - 0.0456 = 0.6944 \]


5.4.5.3 🔹 Lower CI 99%

\[ CI_{99} = 0.74 - (2.330 \times 0.0277) \] \[ CI_{99} = 0.74 - 0.0646 = 0.6754 \]


5.5 4️⃣ Perhitungan, Tabel Hasil, dan Visualisasi Menggunakan R

# Data SaaS
n <- 250
x <- 185

# Sample proportion
p_hat <- x / n

# Standard Error
SE <- sqrt((p_hat * (1 - p_hat)) / n)

# Confidence Levels (one-sided)
conf_level <- c(0.90, 0.95, 0.99)

# Z values for one-sided CI
z_value <- qnorm(conf_level)

# Lower Bound CI
lower_bound <- p_hat - z_value * SE

# Tabel hasil
CI_result <- data.frame(
  Confidence_Level = c("90%", "95%", "99%"),
  Z_value = round(z_value, 3),
  Lower_Bound = round(lower_bound, 3)
)

CI_result

5.5.1 Visualisasi Lower Bound Confidence Interval

plot(NULL,
     xlim = c(min(lower_bound) - 0.05, p_hat + 0.02),
     ylim = c(1, 3),
     xlab = "Proportion of Premium Users",
     ylab = "",
     yaxt = "n",
     main = "One-Sided Lower Confidence Interval")

segments(lower_bound, 1:3, p_hat, 1:3, lwd = 3)
points(rep(p_hat, 3), 1:3, pch = 19)
abline(v = 0.70, lty = 2)

axis(2, at = 1:3, labels = CI_result$Confidence_Level)


5.6 5️⃣ Keputusan Bisnis: Apakah Target 70% Tercapai?

  • 90% CI → lower bound = 0.7045
  • 95% CI → lower bound = 0.6944
  • 99% CI → lower bound = 0.6754

5.6.1 📌 Kesimpulan

  • Pada confidence level 90%, target 70% pengguna premium tercapai secara statistik
  • Pada 95% dan 99%, target belum dapat dipastikan

Semakin tinggi tingkat kepercayaan, semakin konservatif keputusan bisnis yang diambil.

