Confidence Interval

Assignment Week 13

Angelica Florentina M.

52250063

Student Majoring in Data Science at Institut Teknologi Sains Bandung

1 Case Study 1

Confidence Interval for Mean, σ Known

An e-commerce platform wants to estimate the average number of daily transactions per user after launching a new feature. Based on large-scale historical data, the population standard deviation is known.

\[\sigma = 3.2\] \[\,n = 100\,\] \[\bar{x} = 12.6\]

Tasks:

  1. Identify the appropriate statistical test and justify your choice.

  2. Compute the Confidence Intervals for:

    • 90%
    • 95%
    • 99%
  3. Create a comparison visualization of the three confidence intervals.

  4. Interpret the results in a business analytics context.

1.1 Uji Statistik

Uji statistik yang tepat: Interval Kepercayaan untuk Mean dengan σ diketahui (Z-interval / Uji Z untuk mean)

Justifikasi:

Tujuan analisis adalah mengestimasi rata-rata populasi (rata-rata transaksi harian per pengguna), bukan membandingkan dua kelompok atau menguji proporsi.

Simpangan baku populasi (σ) diketahui, yaitu σ = 3,2. Ini adalah syarat utama penggunaan distribusi Z.

Ukuran sampel besar (n = 100), sehingga asumsi distribusi normal untuk rata-rata sampel terpenuhi berdasarkan Teorema Limit Pusat, meskipun distribusi data asli tidak diketahui.

Data berupa variabel numerik kontinu (jumlah transaksi).

1.2 Confidence Interval 90%

Rumus CI untuk z-distribution \[CI = \bar{x} \pm z_{\alpha/2}\,\frac{\sigma}{\sqrt{n}}\] Sample Size \[{n} = 100\]

Standar Deviation \[{σ} = 3.2\]

Sample Mean \[\bar{x} = 12.6\]

Confidence Level 90% \[1 - 0.9 = \frac{0.1}{2} = 0.05 ≈ 1.65\]

Standard Error

\[SE = \frac{\sigma}{\sqrt{n}}\] \[\frac{3.2}{\sqrt{100}} = 0.32\]

Margin of Error

\[ME = z_{\alpha/2}\ × SE\] \[{1.65}\ × SE\ {\approx{0.528}}\]

CI 90%

\[\bar{x}\ \pm\ ME\] \[12.6\ \pm\ 0.528\] \[{\approx\ (12.072, 13.128)}\]

1.3 Confidence Interval 95%

Rumus CI untuk z-distribution \[CI = \bar{x} \pm z_{\alpha/2}\,\frac{\sigma}{\sqrt{n}}\] Sample Size \[{n} = 100\]

Standar Deviation \[{σ} = 3.2\]

Sample Mean \[\bar{x} = 12.6\]

Confidence Level 95% \[1 - 0.95 = \frac{0.05}{2} = 0.025 ≈ 1.96\]

Standard Error

\[SE = \frac{\sigma}{\sqrt{n}}\] \[\frac{3.2}{\sqrt{100}} = 0.32\]

Margin of Error

\[ME = z_{\alpha/2}\ × SE\] \[{1.96}\ × SE\ {\approx{0.6272}}\]

CI 95%

\[\bar{x}\ \pm\ ME\] \[12.6\ \pm\ 0.6272\] \[{\approx\ (11.9728, 13.2272)}\]

1.4 Confidence Interval 99%

Rumus CI untuk z-distribution \[CI = \bar{x} \pm z_{\alpha/2}\,\frac{\sigma}{\sqrt{n}}\]

Sample Size \[{n} = 100\]

Standar Deviation \[{σ} = 3.2\]

Sample Mean \[\bar{x} = 12.6\]

Confidence Level 99% \[1 - 0.99 = \frac{0.01}{2} = 0.005 ≈ 2.58\]

Standard Error

\[SE = \frac{\sigma}{\sqrt{n}}\] \[\frac{3.2}{\sqrt{100}} = 0.32\]

Margin of Error

\[ME = z_{\alpha/2}\ × SE\] \[{2.58}\ × SE\ {\approx{0.82}}\]

CI 99%

\[\bar{x}\ \pm\ ME\] \[12.6\ \pm\ 0.82\] \[{\approx\ (11.781, 13.42)}\]

1.5 Visualization

Interpretation

Diagram ini menunjukkan distribusi normal dari rata-rata transaksi harian pengguna dengan mean sampel sebesar 12,6. Garis vertikal hitam menandai nilai mean tersebut, sementara garis titik-titik berwarna hijau, biru, dan merah masing-masing mewakili interval kepercayaan 90%, 95%, dan 99%. Semakin tinggi tingkat kepercayaan, interval menjadi lebih lebar, mencerminkan trade-off antara keyakinan dan presisi estimasi. Dengan demikian, kita dapat menyimpulkan bahwa dengan keyakinan yang tinggi, rata-rata transaksi harian populasi kemungkinan besar berada dalam rentang interval tersebut, yang membantu memberikan gambaran keandalan estimasi rata-rata transaksi setelah peluncuran fitur baru.

1.6 Business Analytics

Confidence interval menunjukkan rentang nilai di mana rata-rata transaksi harian per pengguna kemungkinan besar berada dengan tingkat keyakinan tertentu. Misalnya, pada tingkat kepercayaan 95%, platform e-commerce dapat yakin bahwa rata-rata transaksi harian per pengguna berada antara sekitar 11,97 hingga 13,23 transaksi. Ini membantu bisnis memahami efektivitas fitur baru secara statistik dengan memperkirakan nilai rata-rata yang sesungguhnya, bukan hanya berdasarkan sampel. Semakin tinggi tingkat kepercayaan, rentang interval menjadi lebih lebar, menunjukkan ketidakpastian yang lebih besar tapi juga keyakinan yang lebih kuat bahwa nilai sebenarnya ada dalam rentang tersebut. Dengan informasi ini, manajemen dapat membuat keputusan yang lebih tepat mengenai keberhasilan fitur dan perencanaan kapasitas transaksi.

2 Case Study 2

Confidence Interval for Mean, σ Unknown:

A UX Research team analyzes task completion time (in minutes) for a new mobile application. The data are collected from 12 users:

\[8.4,7.9,9.1,8.7,8.2,9.0,7.8,8.5,8.9,8.1,8.6,8.3\]

Tasks:

  1. Identify the appropriate statistical test and explain why.

  2. Compute the Confidence Intervals for:

    • 90%
    • 95%
    • 99%
  3. Visualize the three intervals on a single plot.

  4. Explain how sample size and confidence level influence the interval width.

2.1 Uji Statistik

Uji yang tepat adalah membuat interval kepercayaan rata-rata menggunakan t-distribusi, karena data yang diberikan berasal dari 12 pengguna (ukuran sampel kecil, yaitu n < 30) dan simpangan baku populasi (σ) tidak diketahui, maka uji statistik yang tepat untuk membuat interval kepercayaan rata-rata adalah menggunakan distribusi t-Student.

Alasan memilih distribusi t-:

Ukuran sampel kecil (n < 30): Saat ukuran sampel kecil, distribusi sampling rata-rata tidak mengikuti distribusi normal baku secara sempurna, sehingga distribusi t lebih cocok digunakan karena memperhitungkan ketidakpastian pada estimasi simpangan baku.

Simpangan baku populasi tidak diketahui: Kita hanya punya data sampel, sehingga simpangan baku populasi harus diestimasi dari simpangan baku sampel. Distribusi t-Student dirancang untuk kondisi ini.

Data diasumsikan berasal dari populasi yang berdistribusi normal: Asumsi ini penting untuk validitas penggunaan distribusi t.

2.2 Confindence Interval 90%

Sample Size \[n = 12\]

Sample Mean \[\bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i\] \[\begin{align*} \bar{x} &= \frac{1}{12} (8.4 + 7.9 + 9.1 + 8.7 + 8.2 + 9.0 + 7.8 + 8.5 + 8.9 + 8.1 + 8.6 + 8.3) \\ &= 8.45 \end{align*}\]

Standard Deviation \[s = \sqrt{\frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2}\] \[ s = \sqrt{\frac{1}{12-1} \Big[ (8.4-8.45)^2 + (7.9-8.45)^2 + (...)^2 +(8.3-8.45)^2 \Big]} \]

\[ = \sqrt{\frac{1.95}{11}} = \sqrt{0.17727} \approx 0.421 \] Critical Value 90% \[1 - 0.9 = \frac{0.1}{2} = 0.05 ≈ 1.796\] Standard Error (SE) \[SE = \frac{s}{\sqrt{n}}\] \[ SE = \frac{0.421}{\sqrt{12}} = \frac{0.421}{3.464} \approx 0.121 \] Margin of Error (ME) \[ \begin{aligned} ME &= t_{\alpha/2, df} \times SE = 1.796 \times 0.121 \approx 0.2173 \end{aligned} \] CI 90% \[\bar{x}\ \pm\ ME\] \[8.45\ \pm\ 0.2173\] \[{\approx\ (8.2327, 8.6673)}\]

2.3 Confidence Interval 95%

Sample Size \[n = 12\]

Sample Mean \[\bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i\] \[\begin{align*} \bar{x} &= \frac{1}{12} (8.4 + 7.9 + 9.1 + 8.7 + 8.2 + 9.0 + 7.8 + 8.5 + 8.9 + 8.1 + 8.6 + 8.3) \\ &= 8.45 \end{align*}\]

Standard Deviation \[s = \sqrt{\frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2}\] \[ s = \sqrt{\frac{1}{12-1} \Big[ (8.4-8.45)^2 + (7.9-8.45)^2 + (...)^2 +(8.3-8.45)^2 \Big]} \]

\[ = \sqrt{\frac{1.95}{11}} = \sqrt{0.17727} \approx 0.421 \] Critical Value 95% \[1 - 0.95 = \frac{0.05}{2} = 0.025 ≈ 2.201\] Standard Error (SE) \[SE = \frac{s}{\sqrt{n}}\] \[ SE = \frac{0.421}{\sqrt{12}} = \frac{0.421}{3.464} \approx 0.121 \] Margin of Error (ME) \[ \begin{aligned} ME &= t_{\alpha/2, df} \times SE = 2.201 \times 0.121 \approx 0.2663 \end{aligned} \] CI 95% \[\bar{x}\ \pm\ ME\] \[8.45\ \pm\ 0.2663\] \[{\approx\ (8.1837, 8.7163)}\]

2.4 Confidence Interval 99%

Sample Size \[n = 12\]

Sample Mean \[\bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i\] \[\begin{align*} \bar{x} &= \frac{1}{12} (8.4 + 7.9 + 9.1 + 8.7 + 8.2 + 9.0 + 7.8 + 8.5 + 8.9 + 8.1 + 8.6 + 8.3) \\ &= 8.45 \end{align*}\]

Standard Deviation \[s = \sqrt{\frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2}\] \[ s = \sqrt{\frac{1}{12-1} \Big[ (8.4-8.45)^2 + (7.9-8.45)^2 + (...)^2 +(8.3-8.45)^2 \Big]} \]

\[ = \sqrt{\frac{1.95}{11}} = \sqrt{0.17727} \approx 0.421 \] Critical Value 99% \[1 - 0.99 = \frac{0.01}{2} = 0.005 ≈ 3.106\] Standard Error (SE) \[SE = \frac{s}{\sqrt{n}}\] \[ SE = \frac{0.421}{\sqrt{12}} = \frac{0.421}{3.464} \approx 0.121 \] Margin of Error (ME) \[ \begin{aligned} ME &= t_{\alpha/2, df} \times SE = 3.106 \times 0.121 \approx 0.3758 \end{aligned} \] CI 99% \[\bar{x}\ \pm\ ME\] \[8.45\ \pm\ 0.3758\] \[{\approx\ (8.0742, 8.8258)}\]

2.5 Visualization

Interpretation

Diagram tersebut menunjukkan interval kepercayaan rata-rata menggunakan distribusi t dengan rata-rata sampel sebesar 8,45 yang ditandai oleh garis putus-putus di tengah kurva. Garis vertikal berwarna menggambarkan interval kepercayaan 90%, 95%, dan 99%, di mana semakin tinggi tingkat kepercayaan maka interval semakin lebar, mencerminkan meningkatnya ketidakpastian estimasi. Seluruh interval bersifat simetris terhadap nilai rata-rata, menunjukkan bahwa estimasi mean populasi paling mungkin berada di sekitar 8,45. Diagram ini menegaskan bahwa distribusi t digunakan ketika simpangan baku populasi tidak diketahui atau ukuran sampel relatif kecil, serta menggambarkan trade-off antara presisi dan tingkat keyakinan dalam penaksiran parameter populasi.

2.6 Sample Size and Confidence Level

Lebar interval kepercayaan dipengaruhi oleh ukuran sampel dan tingkat kepercayaan sebagai berikut. Ukuran sampel berpengaruh melalui galat baku (standard error); semakin besar ukuran sampel, galat baku semakin kecil sehingga interval kepercayaan menjadi lebih sempit dan estimasi lebih presisi, sedangkan sampel kecil menghasilkan interval yang lebih lebar. Tingkat kepercayaan memengaruhi nilai kritis (Z atau t); semakin tinggi tingkat kepercayaan (misalnya dari 90% ke 95% atau 99%), nilai kritis semakin besar sehingga interval kepercayaan menjadi lebih lebar, karena kita ingin lebih yakin bahwa parameter populasi berada di dalam interval tersebut. Dengan demikian, interval kepercayaan paling sempit diperoleh dari sampel besar dengan tingkat kepercayaan lebih rendah, dan sebaliknya.

3 Case Study 3

Confidence Interval for a Proportion, A/B Testing:

A data science team runs an A/B test on a new Call-To-Action (CTA) button design. The experiment yields:

\[ n = 400\] \[ x = 156\]

Tasks:

  1. Compute the sample proportion \(\hat {p}\)

  2. Compute Confidence Intervals for the proportion at:

    • 90%
    • 95%
    • 99%
  3. Visualize and compare the three intervals.

  4. Explain how confidence level affects decision-making in product experiments.

3.1 Sample Proportion

\[\hat {p} = \frac {x}{n} = \frac {156}{400} = 0.39\]

3.2 Confidence Interval 90%

Standard Error \[ \begin{align*} SE_{\hat{p}} &= \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \\ &= \sqrt{\frac{0.39(1-0.39)}{400}} \\ &= \sqrt{\frac{0.39 \cdot 0.61}{400}} \\ &\approx 0.0244 \end{align*} \]

Critical Value 90%

Untuk 90% confidence level: \(Z_{\alpha/2} = 1.65\)

Margin of Error \[ ME = Z_{\alpha/2} × SE = 1.65 × 0.0244 \approx 0.04026\]

CI 90% \[\hat{p}\ \pm\ ME\] \[0.39\ \pm\ 0.04026\] \[{\approx\ (0.34974, 0.43026)}\]

3.3 Confidence Interval 95%

Standard Error \[ \begin{align*} SE_{\hat{p}} &= \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \\ &= \sqrt{\frac{0.39(1-0.39)}{400}} \\ &= \sqrt{\frac{0.39 \cdot 0.61}{400}} \\ &\approx 0.0244 \end{align*} \]

Critical Value 95%

Untuk 95% confidence level: \(Z_{\alpha/2} = 1.96\)

Margin of Error \[ ME = Z_{\alpha/2} × SE = 1.96 × 0.0244 \approx 0.0478\]

CI 95% \[\hat{p}\ \pm\ ME\] \[0.39\ \pm\ 0.0478\] \[{\approx\ (0.3422, 0.4378)}\]

3.4 Confidence Interval 99%

Standard Error \[ \begin{align*} SE_{\hat{p}} &= \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \\ &= \sqrt{\frac{0.39(1-0.39)}{400}} \\ &= \sqrt{\frac{0.39 \cdot 0.61}{400}} \\ &\approx 0.0244 \end{align*} \]

Critical Value 99%

Untuk 99% confidence level: \(Z_{\alpha/2} = 2.58\)

Margin of Error \[ ME = Z_{\alpha/2} × SE = 2.58 × 0.0244 \approx 0.0629\]

CI 9% \[\hat{p}\ \pm\ ME\] \[0.39\ \pm\ 0.0629\] \[{\approx\ (0.3271, 0.4529)}\]

3.5 Visualization

Interpretation

Diagram ini menggambarkan distribusi sampling proporsi sampel \(\hat p\) yang mendekati normal, dengan nilai titik tengah \(\hat p = 0{,}39\) sebagai estimasi proporsi populasi, lalu di kiri–kanannya digambar beberapa pasang garis vertikal berwarna yang menunjukkan batas bawah dan atas interval kepercayaan 90%, 95%, dan 99% untuk proporsi populasi, di mana semakin tinggi tingkat kepercayaan maka interval semakin lebar karena harus “menangkap” nilai proporsi populasi sebenarnya dengan probabilitas yang lebih besar, sehingga secara interpretasi jika pengambilan sampel diulang berkali‑kali dan setiap kali dihitung interval kepercayaan (misalnya 95%) seperti pada gambar, maka kira‑kira 95% dari interval‑interval tersebut akan mengandung proporsi populasi sebenarnya, dan diagram ini memvisualisasikan konsep tersebut dalam bentuk kurva normal dan garis batas interval di sekitar \(\hat p\).

3.6 Confidence Level Affects

Dalam eksperimen produk, tingkat kepercayaan menentukan seberapa yakin tim terhadap efek perubahan sebelum membuat keputusan; tingkat kepercayaan tinggi (misalnya 99%) membuat interval estimasi lebih lebar dan menuntut bukti yang lebih kuat sehingga mengurangi risiko salah memilih varian namun membutuhkan sampel lebih besar, waktu lebih lama, dan sering kali menunda peluncuran fitur, sedangkan tingkat kepercayaan lebih rendah (misalnya 90%) menghasilkan interval sempit dan keputusan yang lebih cepat dengan biaya data lebih kecil, tetapi meningkatkan risiko bahwa hasil yang dianggap “menang” sebenarnya hanya kebetulan, sehingga pemilihan 90%, 95%, atau 99% harus disesuaikan dengan profil risiko bisnis dan dampak keputusan terhadap pengguna maupun sumber daya perusahaan.

4 Case Study 4

Precision Comparison (Z-Test vs t-Test):

Two data teams measure API latency (in milliseconds) under different conditions.

Team A: \[n = 36\] \[\bar{x} = 210\] \[\sigma = 24\]

Team B: \[n = 36\] \[\bar{x} = 210\] \[\sigma = 24\]

Tasks:

  1. Identify the statistical test used by each team.

  2. Compute Confidence Intervals for 90%, 95%, and 99%.

  3. Create a visualization comparing all intervals.

  4. Explain why the interval widths differ, even with similar data.

4.1 Uji Statistik

Pada nomor 1, identifikasi uji statistik didasarkan pada apakah standar deviasi populasi diketahui atau tidak. Tim A mengetahui standar deviasi populasi (σ = 24), sehingga mereka menggunakan Z-test atau Z-interval untuk menghitung confidence interval karena distribusi sampling dari mean bisa dianggap normal. Sebaliknya, Tim B hanya memiliki standar deviasi sampel (s = 24), sehingga mereka harus menggunakan t-test atau t-interval, yang memperhitungkan ketidakpastian tambahan dari penggunaan sampel untuk memperkirakan σ. Dengan demikian, perbedaan utama dalam pemilihan uji adalah tingkat informasi tentang variabilitas data: Z untuk σ diketahui, t untuk σ tidak diketahui.

4.2 Team A

4.2.1 Confidence Interval 90%

Sample Size \[{n} = 36\]

Standar Deviation \[{σ} = 24\]

Sample Mean \[\bar{x} = 210\]

Confidence Level 90% \[1 - 0.9 = \frac{0.1}{2} = 0.05 ≈ 1.65\]

Standard Error

\[SE = \frac{\sigma}{\sqrt{n}}\] \[\frac{24}{\sqrt{36}} = 4\]

Margin of Error

\[ME = z_{\alpha/2}\ × SE\] \[{1.65}\ × 4\ {\approx{6.6}}\]

CI 90%

\[\bar{x}\ \pm\ ME\] \[210\ \pm\ 6.6\] \[{\approx\ (203.4, 216.6)}\]

4.2.2 Confidence Interval 95%

Sample Size \[{n} = 36\]

Standar Deviation \[{σ} = 24\]

Sample Mean \[\bar{x} = 210\]

Confidence Level 95% \[1 - 0.95 = \frac{0.05}{2} = 0.025 ≈ 1.96\]

Standard Error

\[SE = \frac{\sigma}{\sqrt{n}}\] \[\frac{24}{\sqrt{36}} = 4\]

Margin of Error

\[ME = z_{\alpha/2}\ × SE\] \[{1.96}\ × 4\ {\approx{7.84}}\]

CI 95%

\[\bar{x}\ \pm\ ME\] \[210\ \pm\ 7.84\] \[{\approx\ (202.16, 217.84)}\]

4.2.3 Confidence Interval 99%

Sample Size \[{n} = 36\]

Standar Deviation \[{σ} = 24\]

Sample Mean \[\bar{x} = 210\]

Confidence Level 99% \[1 - 0.99 = \frac{0.01}{2} = 0.005 ≈ 2.58\]

Standard Error

\[SE = \frac{\sigma}{\sqrt{n}}\] \[\frac{24}{\sqrt{36}} = 4\]

Margin of Error

\[ME = z_{\alpha/2}\ × SE\] \[{2.58}\ × 4\ {\approx{10.32}}\]

CI 99%

\[\bar{x}\ \pm\ ME\] \[210\ \pm\ 10.32\] \[{\approx\ (199.68, 220.32)}\]

4.3 Team B

4.3.1 Confidence Interval 90%

Rumus \[CI = \bar{x} \pm t_{\alpha/2,\,df}\,\frac{s}{\sqrt{n}}\]

Sample Size \[{n} = 36\]

Sample Standar Deviation \[{s} = 24\] df \[df = n -1 = 36 - 1 = 35\]

Sample Mean \[\bar{x} = 210\]

Critical Value 90% \[1 - 0.9 = \frac{0.1}{2} = 0.05 ≈ 1.690\]

Standard Error

\[SE = \frac{s}{\sqrt{n}}\] \[\frac{24}{\sqrt{36}} = 4\]

Margin of Error

\[ME = t_{\alpha/2 , df}\ × SE\] \[{1.690}\ × 4\ {\approx{6.76}}\]

CI 90%

\[\bar{x}\ \pm\ ME\] \[210\ \pm\ 6.76\] \[{\approx\ (203.24, 216.76)}\]

4.3.2 Confidence Interval 95%

Rumus \[CI = \bar{x} \pm t_{\alpha/2,\,df}\,\frac{s}{\sqrt{n}}\]

Sample Size \[{n} = 36\]

Sample Standar Deviation \[{s} = 24\]

Sample Mean \[\bar{x} = 210\]

df \[df = n - 1 = 35\]

Critical Value 95% \[1 - 0.95 = \frac{0.05}{2} = 0.025 ≈ 2.030\]

Standard Error

\[SE = \frac{s}{\sqrt{n}}\] \[\frac{24}{\sqrt{36}} = 4\]

Margin of Error

\[ME = z_{\alpha/2}\ × SE\] \[{2.030}\ × 4\ {\approx{8.12}}\]

CI 95%

\[\bar{x}\ \pm\ ME\] \[210\ \pm\ 8.12\] \[{\approx\ (201.88, 218.12)}\]

4.3.3 Confidence Interval 99%

Rumus \[CI = \bar{x} \pm t_{\alpha/2,\,df}\,\frac{s}{\sqrt{n}}\]

Sample Size \[{n} = 36\]

Sample Standar Deviation \[{s} = 24\]

Sample Mean \[\bar{x} = 210\]

df \[df = n - 1 = 35\]

Critical Value 99% \[1 - 0.99 = \frac{0.01}{2} = 0.005 ≈ 2.724\]

Standard Error

\[SE = \frac{s}{\sqrt{n}}\] \[\frac{24}{\sqrt{36}} = 4\]

Margin of Error

\[ME = z_{\alpha/2}\ × SE\] \[{2.724}\ × 4\ {\approx{10.90}}\]

CI 99%

\[\bar{x}\ \pm\ ME\] \[210\ \pm\ 10.90\] \[{\approx\ (199.10, 220.90)}\]

4.4 Visualization

4.4.1 Team A

4.4.2 Team B

4.5 Interval Widths Differ

Meskipun Team A dan Team B memiliki rata-rata sampel, ukuran sampel, dan nilai variasi yang sama, lebar confidence interval (CI) yang dihasilkan tetap berbeda karena perbedaan asumsi statistik dan distribusi yang digunakan. Team A menggunakan distribusi normal (Z-distribution) karena standar deviasi populasi (σ) diketahui, sehingga ketidakpastian hanya berasal dari variasi sampel dan menghasilkan interval yang relatif lebih sempit. Sebaliknya, Team B menggunakan distribusi t karena standar deviasi populasi tidak diketahui dan harus diestimasi dari sampel, sehingga terdapat ketidakpastian tambahan dalam estimasi varians. Distribusi t memiliki ekor yang lebih tebal dibanding distribusi normal, yang menyebabkan nilai kritis (t) lebih besar daripada nilai Z pada tingkat kepercayaan yang sama. Akibatnya, confidence interval Team B menjadi sedikit lebih lebar, meskipun data dasarnya tampak serupa.

5 Case Study 5

One-Sided Confidence Interval:

A Software as a Service (SaaS) company wants to ensure that at least 70% of weekly active users utilize a premium feature.

From the experiment:

\[n = 250\] \[x = 185\]

Management is only interested in the lower bound of the estimate.

Tasks:

  1. Identify the type of Confidence Interval and the appropriate test.

  2. Compute the one-sided lower Confidence Interval at:

    • 90%
    • 95%
    • 99%
  3. Visualize the lower bounds for all confidence levels.

  4. Determine whether the 70% target is statistically satisfied.

5.1 Uji Statistik

Confidence Interval satu sisi (lower bound one-sided CI) untuk proporsi populasi.

Uji Statistik yang Tepat: One-sample proportion z-test (uji z satu sisi) karena Sampel cukup besar (𝑛𝑝 dan 𝑛(1−𝑝)>5, kita mengestimasi proporsi populasi, manajemen hanya peduli pada batas bawah (apakah ≥ 70%?).

5.2 Confidence Interval 90%

Sample Proportion \[\hat {p} = \frac {x}{n} = \frac {185}{250} = 0.74\] Standard Error \[ \begin{align*} SE_{\hat{p}} &= \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \\ &= \sqrt{\frac{0.74(1-0.74)}{250}} \\ &\approx 0.0277 \end{align*} \]

Critical Value 90%

Untuk 90% confidence level: \(Z_{ 1 -\alpha} = 1.28\)

Margin of Error \[ ME = Z_{1 - \alpha} × SE = 1.28 × 0.0277 \approx 0.0354\]

CI 90% \[CI _lower = \hat{p} - ME\] \[0.74 - 0.0354 \approx 0.7046\]

5.3 Confidence Interval 95%

Sample Proportion \[\hat {p} = \frac {x}{n} = \frac {185}{250} = 0.74\] Standard Error \[ \begin{align*} SE_{\hat{p}} &= \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \\ &= \sqrt{\frac{0.74(1-0.74)}{250}} \\ &\approx 0.0277 \end{align*} \]

Critical Value 95%

Untuk 95% confidence level: \(Z_{ 1 -\alpha} = 1.645\)

Margin of Error \[ ME = Z_{1 - \alpha} × SE = 1.645 × 0.0277 \approx 0.0455\]

CI 95% \[CI _lower = \hat{p} - ME\] \[0.74 - 0.0455 \approx 0.6945\]

5.4 Confidence Interval 99%

Sample Proportion \[\hat {p} = \frac {x}{n} = \frac {185}{250} = 0.74\] Standard Error \[ \begin{align*} SE_{\hat{p}} &= \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \\ &= \sqrt{\frac{0.74(1-0.74)}{250}} \\ &\approx 0.0277 \end{align*} \]

Critical Value 99%

Untuk 99% confidence level: \(Z_{ 1 -\alpha} = 2.33\)

Margin of Error \[ ME = Z_{1 - \alpha} × SE = 2.33 × 0.0277 \approx 0.0645\]

CI 99% \[CI _lower = \hat{p} - ME\] \[0.74 - 0.0645 \approx 0.6755\]

5.5 Visualization

Interpretation

Diagram tersebut menggambarkan interval kepercayaan satu sisi batas bawah (one-sided lower confidence interval) untuk proporsi pengguna premium aktif, dengan estimasi proporsi sampel p̂ = 0,74 yang ditunjukkan oleh garis putus-putus di tengah. Garis vertikal di sebelah kiri menunjukkan batas bawah interval kepercayaan pada tingkat kepercayaan 90%, 95%, dan 99%, di mana semakin tinggi tingkat kepercayaan maka batas bawah semakin bergeser ke kiri (semakin konservatif). Interpretasinya adalah, misalnya pada tingkat kepercayaan tertentu, kita yakin bahwa proporsi sebenarnya pengguna premium aktif di populasi setidaknya sebesar nilai batas bawah tersebut, sementara nilai di atas batas tersebut masih mungkin terjadi. Interval satu sisi ini digunakan ketika fokus analisis adalah memastikan nilai minimum proporsi populasi, bukan rentang atas–bawah secara simultan.

5.6 Determine 70%

Target 70% pengguna aktif fitur premium terpenuhi secara statistik hanya pada tingkat kepercayaan 90%, karena batas bawah one-sided confidence interval pada level ini masih berada di atas 70%. Namun, pada tingkat kepercayaan yang lebih ketat yaitu 95% dan 99%, batas bawah interval turun di bawah 70%, sehingga tidak ada cukup bukti statistik untuk menyatakan bahwa proporsi pengguna premium aktif minimal 70% dengan keyakinan yang lebih tinggi. Artinya, meskipun estimasi proporsi sampel sebesar 74% terlihat memenuhi target secara deskriptif, secara statistik target tersebut belum dapat dipastikan jika manajemen mensyaratkan tingkat kepercayaan 95% atau lebih.

