Assignment Week 13

Confidence Interval

Foto

Wulan Gustika Antasya Tumanggor

Perguruan Tinggi: Insitut Teknologi Sains Bandung

NIM: 52250010

Prodi: Sains Data

Dosen: Bakti Siregar, M.Sc., CDS

1 Case Study 1

Confidence Interval for Mean, \(\sigma\) Known: An e-commerce platform wants to estimate the average number of daily transactions per user after launching a new feature. Based on large-scale historical data, the population standard deviation is known.

\[ \begin{eqnarray*} \sigma &=& 3.2 \quad \text{(population standard deviation)} \\ n &=& 100 \quad \text{(sample size)} \\ \bar{x} &=& 12.6 \quad \text{(sample mean)} \end{eqnarray*} \]

1.1 Task 1

1. Identify the appropriate statistical test and justify your choice.

Uji/Statistik yang Tepat: Confidence Interval untuk Rata-rata Populasi (Z-interval)

Alasan Pemilihan:

a. Tujuan Analisis

Studi ini bertujuan untuk menaksir rata-rata jumlah transaksi harian per pengguna pada populasi setelah peluncuran fitur baru. Karena fokusnya adalah pada estimasi parameter populasi (mean), pendekatan yang tepat adalah menggunakan interval kepercayaan.

b. Simpangan Baku Populasi Diketahui (σ)

Dalam kasus ini, simpangan baku populasi \(\sigma = 3{,}2\) elah diketahui berdasarkan data historis berskala besar. Pengetahuan ini memungkinkan penggunaan distribusi normal (Z-distribution), bukan distribusi t.

c. Ukuran Sampel Cukup Besar (n = 100)

Ukuran sampel yang cukup besar memastikan bahwa distribusi rata-rata sampel mendekati distribusi normal (mengacu pada Central Limit Theorem). Hal ini memperkuat validitas penggunaan Z-interval.

1.2 Task 2

2. Compute the Confidence Intervals for:

  • \(90\%\)
  • \(95\%\)
  • \(99\%\)

Rumus yang Digunakan:

\[\bar{x} \pm z_{\alpha/2} \times \frac{\sigma}{\sqrt{n}}\]

Dimana:

  • \(σ=3.2\)
  • \(n=100\)
  • \(\bar{x} = 12.6\)
  • \(\text{Standard Error (SE)} = \frac{\sigma}{\sqrt{n}} = \frac{3.2}{\sqrt{100}} = \frac{3.2}{10} = 0.32\)

Perhitungan Detail:

a. 90% Confidence Interval

  • \(z_{\alpha/2} = 1.645\)
  • \(\text{Margin of Error} = 1.645 \times 0.32 = 0.5264\)
  • \(\text{Lower Bound} = 12.6 - 0.5264 = 12.0736\)
  • \(\text{Upper Bound} = 12.6 + 0.5264 = 13.1264\)
  • \(\text{Interval: }\) \(12.074\) sampai \(13.126\)

b. 95% Confidence Interval

  • \(z_{\alpha/2} = 1.960\)
  • \(\text{Margin of Error} = 1.960 \times 0.32 = 0.6272\)
  • \(\text{Lower Bound} = 12.6 - 0.6272 = 11.9728\)
  • \(\text{Upper Bound} = 12.6 + 0.6272 = 13.2272\)
  • \(\text{Interval: } 11.973 \text{ sampai } 13.227\)

c. 99% Confidence Interval

  • \(z_{\alpha/2} = 2.576\)
  • \(\text{Margin of Error} = 2.576 \times 0.32 = 0.8243\)
  • \(\text{Lower Bound} = 12.6 - 0.8243 = 11.7757\)
  • \(\text{Upper Bound} = 12.6 + 0.8243 = 13.4243\)
  • \(\text{Interval: } 11.776 \text{ sampai } 13.424\)

1.3 Task 3

3. Create a comparison visualization of the three confidence intervals.

INTERPRETASI

  • 90% (Paling Sempit): Memberikan estimasi paling presisi, tetapi memiliki risiko kesalahan tertinggi.
  • 99% (Paling Lebar): Memberikan kepastian paling tinggi, tetapi rentang estamasinya paling tidak presisi (sangat luas).
  • Pola Utama: Semakin tinggi tingkat kepercayaan, semakin lebar rentang intervalnya (Margin of Error membesar).
  • Titik Pusat: Semua tingkat kepercayaan tetap berpusat pada rata-rata yang sama, yaitu \(\bar{x} = 12.6\).

1.4 Task 4

4. Interpret the results in a business analytics context.

Estimasi Titik: Rata-rata pengguna menyelesaikan 12.6 transaksi harian setelah peluncuran fitur baru.

Ringkasan Confidence Interval:

  • 90% CI: [12.074, 13.126] — Kami 90% yakin rata-rata sebenarnya berada antara 12.1 hingga 13.1 transaksi
  • 95% CI: [11.973, 13.227] — Kami 95% yakin rata-rata sebenarnya berada antara 12.0 hingga 13.2 transaksi
  • 99% CI: [11.776, 13.424] — Kami 99% yakin rata-rata sebenarnya berada antara 11.8 hingga 13.4 transaksi

Implikasi Bisnis

A. Pertukaran Presisi vs. Tingkat Keyakinan

  • 90% CI memiliki lebar 1.052 transaksi (paling presisi)
  • 99% CI memiliki lebar 1.648 transaksi (57% lebih lebar)
  • Rekomendasi: Untuk keputusan operasional yang membutuhkan kepastian tinggi (misalnya perencanaan kapasitas, penskalaan infrastruktur), gunakan 95% atau 99% CI. Untuk pengujian A/B cepat dan perbaikan iteratif, 90% CI memberikan keyakinan yang memadai dengan presisi lebih baik.

B. Penilaian Kinerja Fitur Baru

Jika baseline sebelum fitur adalah 11 transaksi per pengguna:

  • Ketiga interval menunjukkan bahwa fitur baru meningkatkan transaksi, karena bahkan batas bawah 99% CI (11.776) melebihi baseline
  • Efek ini signifikan secara statistik dan praktis

C. Perencanaan Sumber Daya

  • Estimasi konservatif (batas bawah 99% CI): Rencanakan 11.8 transaksi/pengguna/hari
  • Kinerja yang diharapkan (estimasi titik): 12.6 transaksi/pengguna/hari
  • Skenario optimis (batas atas 99% CI): 13.4 transaksi/pengguna/hari

D. Kerangka Pengambilan Keputusan Bisnis

  • Jika risiko penurunan penting (misalnya menjamin SLA kepada pemangku kepentingan): Gunakan batas bawah 99% CI
  • Jika menyeimbangkan risiko dan peluang: Gunakan 95% CI (standar industri)
  • Jika iterasi cepat adalah prioritas: Gunakan 90% CI untuk siklus pengambilan keputusan yang lebih cepat

Wawasan Statistik

Confidence interval yang sempit (lebar maksimum 1.65 transaksi) menunjukkan presisi tinggi dalam estimasi kami, didorong oleh:

  • Ukuran sampel besar (n=100) yang mengurangi standard error
  • Varians populasi yang diketahui menghilangkan ketidakpastian estimasi
  • Standar deviasi populasi yang relatif kecil (σ=3.2)

Presisi ini merupakan keputusan bisnis yang percaya diri dengan batas ketidakpastian yang terkuantifikasi.

2 Case Study 2

Confidence Interval for Mean, \(\sigma\) Unknown: A UX Research team analyzes task completion time (in minutes) for a new mobile application. The data are collected from 12 users:

\[ 8.4,\; 7.9,\; 9.1,\; 8.7,\; 8.2,\; 9.0,\; 7.8,\; 8.5,\; 8.9,\; 8.1,\; 8.6,\; 8.3 \]

2.1 Task 1

1. Identify the appropriate statistical test and explain why.

Uji/Statistik yang Tepat: Confidence Interval untuk Rata-rata Populasi menggunakan distribusi t (t-confidence interval)

Alasan Pemilihan:

a. Tujuan Analisis

Analisis ini bertujuan untuk menaksir rata-rata waktu penyelesaian tugas (mean) pengguna aplikasi mobile pada populasi. Oleh karena itu, metode yang sesuai adalah interval kepercayaan untuk rata-rata populasi.

b. Simpangan Baku Populasi Tidak Diketahui (σ unknown)

Dalam studi ini, simpangan baku populasi tidak tersedia dan harus diestimasi dari data sampel. Kondisi ini mensyaratkan penggunaan distribusi t-Student, bukan distribusi normal (Z).

c. Ukuran Sampel Kecil (n = 12)

Ukuran sampel yang relatif kecil membuat asumsi distribusi normal populasi tidak dapat sepenuhnya diandalkan. Distribusi t dirancang untuk mengakomodasi ketidakpastian yang lebih besar akibat ukuran sampel kecil.

2.2 Task 2

2. Compute the Confidence Intervals for:

  • \(90\%\)
  • \(95\%\)
  • \(99\%\)

Data Sampel

Waktu penyelesaian tugas (menit):

8.4, 7.9, 9.1, 8.7, 8.2, 9.0, 7.8, 8.5, 8.9, 8.1, 8.6, 8.3

Jumlah data: \[n=12\]

1. Hitung Rata-rata Sampel (\(\bar{x}\))

\[ \bar{x} = \frac{\sum x_i}{n} \] Jumlah seluruh data: \[\sum x_i = 102.5\] \[\bar{x} = \frac{102.5}{12} = 8.4583\]

2. Hitung Simpangan Baku Sampel (s)

\[ s = \sqrt{\frac{\sum (x_i - \bar{x})^2}{n-1}} \] Jumlah kuadrat:

\[ \sum (x_i - \bar{x})^2 = 1.949 \]

Varians sampel:

\[ s^2 = \frac{1.949}{12-1} = \frac{1.949}{11} = 0.17718 \]

Standar deviasi sampel:

\[ s = \sqrt{0.17718} = 0.4209 \]

3. Tentukan Distribusi dan Nilai Kritis

\[ df = n - 1 = 11 \]

Nilai t kritis:

  • 90% → \(t_{0.05, 11} = 1.796\)
  • 95% → \(t_{0.025, 11} = 2.201\)
  • 99% → \(t_{0.005, 11} = 3.106\)

4. Hitung Margin of Error (ME)

Rumus:

\[ ME = t_{\alpha/2, df} \times SE \]

a. 90% Confidence Level:

\[ ME_{90} = 1.796 \times 0.1215 = 0.218 \]

b. 95% Confidence Level:

\[ ME_{95} = 2.201 \times 0.1215 = 0.267 \]

c. 99% Confidence Level:

\[ ME_{99} = 3.106 \times 0.1215 = 0.377 \]

5. Hitung Confidence Interval

Rumus:

\[ CI = \bar{x} \pm ME \]

a. 90% CI:

\[ \text{Bawah} = 8.458 - 0.218 = 8.240 \]

\[ \text{Atas} = 8.458 + 0.218 = 8.676 \]

b. 95% CI:

\[ \text{Bawah} = 8.458 - 0.267 = 8.191 \]

\[ \text{Atas} = 8.458 + 0.267 = 8.725 \]

c. 99% CI:

\[ \text{Bawah} = 8.458 - 0.377 = 8.081 \]

\[ \text{Atas} = 8.458 + 0.377 = 8.835 \]

6. Hitung Lebar Interval

\[Lebar = Atas - Bawah\]

  • 90% CI: 8.676 - 8.240 = 0.436 menit
  • 95% CI: 8.725 - 8.191 = 0.534 menit
  • 99% CI: 8.835 - 8.081 = 0.754 menit

2.3 Task 3

3. Visualize the three intervals on a single plot.

INTERPRETASI

  • Pusat Data: Semua interval berpusat pada rata-rata yang sama, yaitu \(\bar{x} = 8.458\) menit.

  • Akurasi vs. Kepastian:

    • 90% (Biru): Rentang paling sempit (8.240 – 8.677), memberikan estimasi paling spesifik tetapi tingkat kepastian paling rendah.
    • 99% (Merah Muda): Rentang paling lebar (8.081 – 8.836), mencakup area distribusi yang lebih luas untuk menjamin kepastian yang lebih tinggi.
  • Kaitan dengan Distribusi: Semakin besar area di bawah kurva yang ingin dicakup (tingkat kepercayaan), semakin jauh batas interval ditarik dari titik tengah.

  • Konteks Sampel: Analisis ini menggunakan sampel kecil (n = 12) sehingga menggunakan distribusi-t (df = 11) untuk menentukan lebar interval tersebut.

2.4 Task 4

4. Explain how sample size and confidence level influence the interval width.

A. PENGARUH CONFIDENCE LEVEL

  • Semakin tinggi confidence level → Interval semakin lebar
  • 90% CI → Lebar terkecil (risiko kesalahan 10%)
  • 95% CI → Lebar sedang (standar industri)
  • 99% CI → Lebar terbesar (risiko kesalahan hanya 1%)

Dari data:

  • 90% → 95% CI = 0.442 menit (+22.6%)
  • 90% → 99% CI = 0.542 menit (+72.9%)
  • 95% → 99% CI = 0.764 menit (+41.0%)

B. PENGARUH UKURAN SAMPEL

  • Semakin besar n → Interval semakin sempit
  • Rumus: Standard Error = \(\frac{s}{\sqrt{n}}\)
  • Hukum akar kuadrat: Untuk setengahkan lebar interval, butuh 4× ukuran sampel

Contoh: \(n=12\)\(n=48\) → Lebar interval berkurang 50%

C. INTERAKSI & TRADE-OFF

  1. Presisi tinggi (interval sempit): Gunakan confidence rendah atau \(n\) besar
  2. Keyakinan tinggi: Gunakan confidence tinggi atau \(n\) sangat besar
  3. Sumber daya terbatas: Pilih confidence 95% dengan \(n\) minimal 30

D. KESIMPULAN

  • Confidence level pengaruhi tingkat keyakinan
  • Ukuran sampel pengaruhi presisi estimasi
  • Untuk UX Research: 95% CI dengan \(n≥30\) optimal balance antara confidence dan presisi

3 Case Study 3

Confidence Interval for a Proportion, A/B Testing: A data science team runs an A/B test on a new Call-To-Action (CTA) button design. The experiment yields:

\[ \begin{eqnarray*} n &=& 400 \quad \text{(total users)} \\ x &=& 156 \quad \text{(users who clicked the CTA)} \end{eqnarray*} \]

3.1 Task 1

1. Compute the sample proportion \(\hat{p}\).

Rumus:

\[ \hat{p} = \frac{x}{n} \]

Perhitungan:

\[ \hat{p} = \frac{156}{400} = 0.39 \]

Interpretasi: 39% pengguna mengklik tombol CTA baru (156 dari 400 pengguna)

3.2 Task 2

2. Compute Confidence Intervals for the proportion at:

  • \(90\%\)
  • \(95\%\)
  • \(99\%\)

Rumus untuk CI Proporsi:

\[ CI = \hat{p} \pm Z \times \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \]

Standard Error (SE):

\[ SE = \sqrt{\frac{0.39 \times (1-0.39)}{400}} \]

\[ SE = \sqrt{\frac{0.39 \times 0.61}{400}} \]

\[ SE = \sqrt{\frac{0.2379}{400}} \]

\[ SE = \sqrt{0.00059475} \]

\[ SE = 0.0244 \]

Nilai z-kritis:

  • 90% CI → z = 1.645
  • 95% CI → z = 1.960
  • 99% CI → z = 2.576

Perhitungan Detail

a. 90% Confidence Interval

\[ ME = 1.645 \times 0.0244 = 0.0401 \]

\[ \text{Lower Bound} = 0.39 - 0.0401 = 0.3499 \]

\[ \text{Upper Bound} = 0.39 + 0.0401 = 0.4301 \]

b. 95% Confidence Interval

\[ ME = 1.960 \times 0.0244 = 0.0478 \]

\[ \text{Lower Bound} = 0.39 - 0.0478 = 0.3422 \]

\[ \text{Upper Bound} = 0.39 + 0.0478 = 0.4378 \]

c. 99% Confidence Interval

\[ ME = 2.576 \times 0.0244 = 0.0629 \]

\[ \text{Lower Bound} = 0.39 - 0.0629 = 0.3272 \]

\[ \text{Upper Bound} = 0.39 + 0.0629 = 0.4528 \]

3.3 Task 3

3. Visualize and compare the three intervals.

INTERPRETASI

  • Pusat Estimasi: Nilai tengah (proporsi sampel) berada pada \(\hat{p} = 39.0\%\).

  • Perbandingan Rentang:

    • 90% (Paling Sempit): Rentang 35.0% – 43.0% (Margin of Error terkecil).
    • 99% (Paling Lebar): Rentang 32.7% – 45.3% (Cakupan distribusi paling luas untuk kepastian maksimal).
  • Prinsip Utama: Semakin kita ingin yakin (Confidence Level naik), semakin lebar rentang yang harus kita gunakan untuk menutupi ketidakpastian.

3.4 Task 4

4. Explain how confidence level affects decision-making in product experiments.

1. Confidence Level = Tingkat Kepastian

  • 90% CI → 90% yakin, risiko salah 10%
  • 95% CI → 95% yakin, risiko salah 5% (standar)
  • 99% CI → 99% yakin, risiko salah 1%

2. Trade-off: Confidence vs Speed/Cost

Semakin tinggi confidence level:

  • ✅ Kepastian lebih tinggi
  • ❌ Butuh data lebih banyak (sample size ↑)
  • ❌ Waktu testing lebih lama
  • ❌ Cost lebih besar

3. Rekomendasi Penggunaan Confidence Level

4. Untuk CTA Ini (39% klik)

  • Jika baseline < 34.2% → Deploy (pakai 95% CI)
  • Jika baseline ≥ 34.2% → Collect more data

5. Kesimpulan

  • Startup/Growth team → Pakai 90-95% CI (cepat iterasi)
  • Enterprise → Pakai 95-99% CI (risk-averse)
  • Pilih confidence level Sebelum testing, jangan ganti-ganti
  • Match confidence level dengan business impact

4 Case Study 4

Precision Comparison (Z-Test vs t-Test): Two data teams measure API latency (in milliseconds) under different conditions.

\[\begin{eqnarray*} \text{Team A:} \\ n &=& 36 \quad \text{(sample size)} \\ \bar{x} &=& 210 \quad \text{(sample mean)} \\ \sigma &=& 24 \quad \text{(known population standard deviation)} \\[6pt] \text{Team B:} \\ n &=& 36 \quad \text{(sample size)} \\ \bar{x} &=& 210 \quad \text{(sample mean)} \\ s &=& 24 \quad \text{(sample standard deviation)} \end{eqnarray*}\]

4.1 Task 1

1. Identify the statistical test used by each team.

A. Team A: Z-Test

  • Alasan: Standar deviasi populasi \((σ)\) diketahui \[σ=24 ms\]
  • Rumus Confidence Interval: \[ CI = \bar{x} \pm z_{\alpha/2} \times \frac{\sigma}{\sqrt{n}} \]

B. Team B: t-Test

  • Alasan: Standar deviasi populasi tidak diketahui, menggunakan standar deviasi sampel \((s)\) \[s=24 ms\]
  • Rumus Confidence Interval: \[ CI = \bar{x} \pm t_{\alpha/2, df} \times \frac{s}{\sqrt{n}} \] \[df=n−1=35\]

4.2 Task 2

2. Compute Confidence Intervals for 90%, 95%, and 99%.

Data Dasar:

\[ n = 36, \quad \bar{x} = 210 \text{ ms} \]

\[ \text{Standard Error} = \frac{24}{\sqrt{36}} = \frac{24}{6} = 4 \text{ ms} \]

A. Team A (Z-Test):

a. 90% Confidence Interval

\[ z_{0.05} = 1.645 \]

\[ ME = 1.645 \times 4 = 6.580 \text{ ms} \]

\[ \text{Lower Bound} = 210 - 6.580 = 203.420 \text{ ms} \]

\[ \text{Upper Bound} = 210 + 6.580 = 216.580 \text{ ms} \]

\[ \text{90% CI} = [203.42, 216.58] \text{ ms} \]

\[ \text{Lebar} = 216.580 - 203.420 = 13.160 \text{ ms} \]

b. 95% Confidence Interval

\[ z_{0.025} = 1.960 \]

\[ ME = 1.960 \times 4 = 7.840 \text{ ms} \]

\[ \text{Lower Bound} = 210 - 7.840 = 202.160 \text{ ms} \]

\[ \text{Upper Bound} = 210 + 7.840 = 217.840 \text{ ms} \]

\[ \text{95% CI} = [202.16, 217.84] \text{ ms} \]

\[ \text{Lebar} = 217.840 - 202.160 = 15.680 \text{ ms} \]

c. 99% Confidence Interval

\[ z_{0.005} = 2.576 \]

\[ ME = 2.576 \times 4 = 10.304 \text{ ms} \]

\[ \text{Lower Bound} = 210 - 10.304 = 199.696 \text{ ms} \]

\[ \text{Upper Bound} = 210 + 10.304 = 220.304 \text{ ms} \]

\[ \text{99% CI} = [199.70, 220.30] \text{ ms} \]

\[ \text{Lebar} = 220.304 - 199.696 = 20.608 \text{ ms} \]

B. Team B (t-Test, df = 35)

Nilai t-kritis (df = 35):

\[ t_{0.05,35} = 1.690 \]

\[ t_{0.025,35} = 2.030 \]

\[ t_{0.005,35} = 2.724 \]

a. 90% Confidence Interval

\[ ME = 1.690 \times 4 = 6.760 \text{ ms} \]

\[ \text{Lower Bound} = 210 - 6.760 = 203.240 \text{ ms} \]

\[ \text{Upper Bound} = 210 + 6.760 = 216.760 \text{ ms} \]

\[ \text{90% CI} = [203.24, 216.76] \text{ ms} \]

\[ \text{Lebar} = 216.760 - 203.240 = 13.520 \text{ ms} \]

b. 95% Confidence Interval

\[ ME = 2.030 \times 4 = 8.120 \text{ ms} \]

\[ \text{Lower Bound} = 210 - 8.120 = 201.880 \text{ ms} \]

\[ \text{Upper Bound} = 210 + 8.120 = 218.120 \text{ ms} \]

\[ \text{95% CI} = [201.88, 218.12] \text{ ms} \]

\[ \text{Lebar} = 218.120 - 201.880 = 16.240 \text{ ms} \]

c. 99% Confidence Interval

\[ ME = 2.724 \times 4 = 10.896 \text{ ms} \]

\[ \text{Lower Bound} = 210 - 10.896 = 199.104 \text{ ms} \]

\[ \text{Upper Bound} = 210 + 10.896 = 220.896 \text{ ms} \]

\[ \text{99% CI} = [199.10, 220.90] \text{ ms} \]

\[ \text{Lebar} = 220.896 - 199.104 = 21.792 \text{ ms} \]

4.3 Task 3

3. Create a visualization comparing all intervals.

VISUALISASI TEAM A

VISUALISASI TEAM B

INTERPRETASI

  • Tim A (Z-Test): Lebih “berani” dan presisi karena menganggap angka standar deviasi sudah pasti (parameter tetap). Intervalnya lebih sempit.
  • Tim B (t-Test): Lebih “main aman” dan konservatif. Karena standar deviasi hanya estimasi dari sampel, intervalnya dibuat lebih lebar untuk menjaga akurasi statistik.

Hasil Akhir: Tim B memiliki rentang kesalahan (margin of error) yang sedikit lebih besar dibanding Tim A untuk mengompensasi ketidakpastian data sampel.

4.4 Task 4

4. Explain why the interval widths differ, even with similar data.

A. Perbedaan Nilai Kritis

\[ \text{Perbedaan} = t_{\alpha/2, df} - z_{\alpha/2} \]

  • Untuk 95% CI

\[ t_{0.025,35} = 2.030, \quad z_{0.025} = 1.960 \]

\[ \text{Perbedaan = 2.030 - 1.960 = 0.070 \quad (3.57\% \text{ lebih besar}) \] - Untuk 99% CI

\[ t_{0.005,35} = 2.724, \quad z_{0.005} = 2.576 \]

\[ \text{Perbedaan} = 2.724 - 2.576 = 0.148 \quad (5.73\% \text{ lebih besar}) \]

B. Alasan Perbedaan

1. Ketidakpastian Estimasi

\[ \text{Team A: } \sigma \text{ diketahui} \Rightarrow \text{Tidak ada ketidakpastian} \]

\[ \text{Team B: } s \text{ estimasi dari sampel} \Rightarrow \text{Ada ketidakpastian} \]

2. Distribusi t vs Normal

\[ f_t(x) = \frac{\Gamma\left(\frac{\nu+1}{2}\right)}{\sqrt{\nu\pi}\,\Gamma\left(\frac{\nu}{2}\right)} \left(1+\frac{x^2}{\nu}\right)^{-\frac{\nu+1}{2}} \]

\[ f_z(x) = \frac{1}{\sqrt{2\pi}} e^{-x^2/2} \]

Properti:

  • Distribusi t lebih heavy-tailed daripada normal
  • Untuk df kecil, ekor distribusi t lebih tebal
  • Untuk df → ∞, t-distribution → normal distribution

3. Efek Ukuran Sampel (n = 36)

\[df=n−1=35\]

Dengan df = 35, distribusi t masih lebih konservatif daripada normal.

D. Kesimpulan

Perbedaan lebar interval disebabkan oleh ketidakpastian dalam estimasi standar deviasi populasi. t-CI lebih lebar karena mengakomodasi ketidakpastian ini, membuat inference lebih konservatif. Perbedaan ini semakin besar dengan confidence level yang lebih tinggi.

5 Case Study 5

One-Sided Confidence Interval: A Software as a Service (SaaS) company wants to ensure that at least 70% of weekly active users utilize a premium feature.

From the experiment:

\[ \begin{eqnarray*} n &=& 250 \quad \text{(total users)} \\ x &=& 185 \quad \text{(active premium users)} \end{eqnarray*} \]

Management is only interested in the lower bound of the estimate.

5.1 Task 1

1. Identify the type of Confidence Interval and the appropriate test.

One-Sided Lower Confidence Interval

  • Alasan: Management hanya tertarik pada lower bound (batas bawah) karena ingin memastikan bahwa minimal 70% users menggunakan fitur premium
  • Uji Statistik: Z-test untuk proporsi satu sisi
  • Rumus: \[ \hat{p} - z_{\alpha} \times \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \]
  • Interpretasi: “Kita \((1−α)×100%\) yakin bahwa proporsi sebenarnya paling sedikit sebesar lower bound”

5.2 Task 2

2. Compute the one-sided lower Confidence Interval at:

  • \(90\%\)
  • \(95\%\)
  • \(99\%\)

Data:

\[ n = 250, \quad x = 185 \]

\[ \hat{p} = \frac{x}{n} = \frac{185}{250} = 0.74 = 74\% \]

\[ SE = \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} = \sqrt{\frac{0.74 \times 0.26}{250}} = \sqrt{\frac{0.1924}{250}} = \sqrt{0.0007696} = 0.02774 \]

Nilai z satu-sisi:

  • 90% Confidence → \(z_{0.10} = 1.282\)
  • 95% Confidence → \(z_{0.05} = 1.645\)
  • 99% Confidence → \(z_{0.01} = 2.326\)

a. 90% Lower Confidence Bound

\[ \text{Margin Error} = 1.282 \times 0.02774 = 0.0356 \]

\[ \text{Lower Bound} = 0.74 - 0.03556 = 0.70444 \]

\[ \text{90% Lower CI: } p \geq 70.44\% \]

b. 95% Lower Confidence Bound

\[ \text{Margin Error} = 1.645 \times 0.02774 = 0.04563 \]

\[ \text{Lower Bound} = 0.74 - 0.04563 = 0.6944 \]

\[ \text{95% Lower CI: } p \geq 69.44\% \]

c. 99% Lower Confidence Bound

\[ \text{Margin Error} = 2.326 \times 0.02774 = 0.06453 \]

\[ \text{Lower Bound} = 0.74 - 0.06453 = 0.6755 \]

\[ \text{99% Lower CI: } p \geq 67.55\% \]

5.3 Task 3

3. Visualize the lower bounds for all confidence levels.

5.4 Task 4

4. Determine whether the 70% target is statistically satisfied.

A. HASIL LOWER BOUND

  • Pada 90% confidence level, batas bawah interval adalah 70.44%, sehingga target minimal 70% terpenuhi secara statistik.
  • Pada 95% dan 99% confidence level, batas bawah masing-masing adalah 69.44% dan 67.55%, yang berada *di bawah target 70%. Oleh karena itu, target tidak dapat dipastikan pada tingkat keyakinan yang lebih tinggi.

B. KESIMPULAN

Target 70% penggunaan fitur premium hanya dapat diklaim terpenuhi jika perusahaan bersedia menerima tingkat risiko kesalahan sebesar 10% (confidence level 90%). Untuk standar industri yang lebih konservatif (95% atau 99%), data saat ini belum cukup kuat, dan diperlukan ukuran sampel yang lebih besar atau peningkatan adopsi fitur.

6 Reference

[1] Diez, D. M., Çetinkaya-Rundel, M., & Barr, C. D. (2019). OpenIntro Statistics (4th ed.). OpenIntro Inc. https://www.biostat.jhsph.edu/~iruczins/teaching/books/2019.openintro.statistics.pdf

[2] National Institute of Standards and Technology. (2012). Confidence intervals for proportions. https://www.itl.nist.gov/div898/handbook/prc/section2/prc241.htm

[3] Bakti Siregar, M.Sc., CDS. (2024). Introduction to Statistics, Chapter 8 – Confidence Interval. https://bookdown.org/dsciencelabs/intro_statistics/08-Confidence_Interval.html