Confidence Interval ~ Assignment week 13

Logo

Ignasius Rabi Blolong

Student Majoring in Data Science at ITSB

R Programming Data Science Statistics

1 Cases Study I

1.1 Identifikasi

Uji ststistik yang tepat yang digunakan adalah Z-test(uji Z) :

Standar deviasi populasi (σ) diketahui yaitu senilai 3.2

Ukuran sampel (n) cukup besar (n=100, di mana n≥30), sehingga menurut Central Limit Theorem, distribusi rata-rata sampel akan mendekati distribusi normal.

1.2 Perhitungan Interval Kepercayaan (Confidence Intervals)

Rumus umum Interval Kepercayaan (CI) untuk rata-rata dengan σ diketahui adalah:

\[\text{CI} = \bar{x} \pm z \left( \frac{\sigma}{\sqrt{n}} \right)\]

Diketahui: \(\bar{x}\)=12.6, σ=3.2, n=100, maka

\[\frac{3.2}{\sqrt{100}} = 0.32\]

1.3 Perhitungan Interval Kepercayaan per Tingkat Kepercayaan

1.3.1 Untuk Tingkat Kepercayaan 90% (\(z \approx 1.645\))

Proses Perhitungan:

  • Margin of Error (\(E\)): \(1.645 \times 0.32 = 0.5264\)

  • Batas Bawah: \(12.6 - 0.5264 = 12.0736\)

  • Batas Atas: \(12.6 + 0.5264 = 13.1264\)

Hasil Akhir:

\[\text{CI: } [12.07, 13.13]\]


1.3.2 Untuk Tingkat Kepercayaan 95% (\(z \approx 1.96\))

Proses Perhitungan:

  • Margin of Error (\(E\)): \(1.96 \times 0.32 = 0.6272\)

  • Batas Bawah: \(12.6 - 0.6272 = 11.9728\)

  • Batas Atas: \(12.6 + 0.6272 = 13.2272\)

Hasil Akhir:

\[\text{CI: } [11.97, 13.23]\]


1.3.3 Untuk Tingkat Kepercayaan 99% (\(z \approx 2.576\))

Proses Perhitungan:

  • Margin of Error (\(E\)): \(2.576 \times 0.32 = 0.8243\)

  • Batas Bawah: \(12.6 - 0.8243 = 11.7757\)

  • Batas Atas: \(12.6 + 0.8243 = 13.4243\)

Hasil Akhir:

\[\text{CI: } [11.78, 13.42]\]


1.4 Visualisasi Perbandingan

Secara visual, hubungan ketiga interval tersebut adalah sebagai berikut:

90% CI: Paling sempit (presisi tinggi, tapi kepastian lebih rendah).

95% CI: Sedang (standar yang paling umum digunakan).

99% CI: Paling lebar (presisi lebih rendah, tapi tingkat kepastian/keyakinan paling tinggi).

Semakin tinggi tingkat kepercayaan, semakin lebar rentang intervalnya karena nilai kritis z yang digunakan semakin besar.

Tabel Interval Kepercayaan Case Study 1
Confidence Level Batas Bawah Batas Atas
90% 12.074 13.126
95% 11.973 13.227
99% 11.776 13.424

1.5 Interpretasi

Dalam konteks platform e-commerce ini, hasil tersebut berarti:

Pihak manajemen dapat memiliki keyakinan sebesar 95% bahwa rata-rata transaksi harian pengguna yang sebenarnya (setelah fitur baru diluncurkan) berada di kisaran 11.97 hingga 13.23 transaksi.

Jika target perusahaan adalah rata-rata di atas 13 transaksi, maka berdasarkan data ini, kita belum bisa sepenuhnya yakin target tersebut tercapai secara konsisten karena batas bawah interval masih berada di bawah 13.

Hasil ini membantu bisnis dalam mengukur efektivitas fitur baru secara objektif daripada hanya melihat angka rata-rata tunggal (12.6), sehingga pengambilan keputusan (seperti promosi tambahan atau perbaikan fitur) didasarkan pada risiko yang terukur.

2 Cases Study II

2.1 Identifikasi

Berdasarkan data waktu penyelesaian tugas (task completion time) dari 12 pengguna:

Data: 8.4,7.9,9.1,8.7,8.2,9.0,7.8,8.5,8.9,8.1,8.6,8.3

Ukuran Sampel (n): 12

Standar Deviasi Populasi (σ): Tidak Diketahui.

Uji Statistik: Karena nilai σ tidak diketahui dan ukuran sampel kecil (n<30), maka uji statistik yang tepat adalah T-Test (Distribusi-t).

2.2 Perhitungan Statistik Dasar

Sebelum menghitung interval, kita perlu mencari rata-rata sampel \(\bar{x}\) dan standar deviasi sampel (s):

  • Ukuran Sampel (n): 12

  • Derajat Kebebasan (df): n−1=11

  • Rata-rata (\(\bar{x}\)): \(\approx 8.458\)

  • Standar Deviasi Sampel (\(s\)): \(\approx 0.421\)

  • Standard Error (\(SE\)): \(\frac{s}{\sqrt{n}} = \frac{0.421}{\sqrt{12}} \approx 0.1215\)

2.3 Perhitungan Interval Kepercayaan (CI)

Interval Kepercayaan:

  • 90% (\(t \approx 1.796\)): \(8.458 \pm (1.796 \times 0.1215) = [8.240, 8.676]\)

  • 95% (\(t \approx 2.201\)): \(8.458 \pm (2.201 \times 0.1215) = [8.191, 8.725]\)

  • 99% (\(t \approx 3.106\)): \(8.458 \pm (3.106 \times 0.1215) = [8.081, 8.835]\)

2.4 Pengaruh Ukuran Sampel dan Tingkat Kepercayaan

Berikut adalah penjelasan bagaimana kedua faktor tersebut memengaruhi lebar interval:

Tingkat Kepercayaan (Confidence Level): Semakin tinggi tingkat kepercayaan (misal dari 95% ke 99%), semakin lebar intervalnya. Hal ini karena kita membutuhkan rentang yang lebih luas untuk memastikan bahwa rata-rata populasi benar-benar berada di dalam interval tersebut.

Ukuran Sampel (n): Semakin besar ukuran sampel, semakin sempit intervalnya. Secara matematis, n berada di penyebut dalam rumus standard error. Sampel yang lebih besar memberikan estimasi yang lebih presisi terhadap parameter populasi, sehingga ketidakpastian (margin of error) berkurang.

3 Cases Study III

3.1 Identifikasi

Dalam eksperimen A/B Testing untuk desain tombol CTA (Call to Action) yang baru, kita mengukur proporsi pengguna yang melakukan klik. Parameter yang diperoleh adalah: * Ukuran Sampel (\(n\)): \(400\) pengguna.

  • Jumlah Keberhasilan (\(x\)): \(156\) pengguna yang mengklik tombol.

  • Tingkat Kepercayaan: Diuji pada level 90%, 95%, dan 99%.

  • Metode Statistik: Karena kita berurusan dengan data kategori (klik atau tidak klik) dan sampel yang besar, kita menggunakan Z-Distribution for Proportions.

3.2 Penyelesian

Langkah 1: Menghitung Proporsi Sampel (\(\hat{p}\))

\[\hat{p} = \frac{x}{n} = \frac{156}{400} = 0.39\] Artinya, tingkat klik (CTR) pada sampel adalah 39%.

Langkah 2: Menghitung Standard Error (\(SE\)) untuk Proporsi

Rumus yang digunakan adalah: \[SE = \sqrt{\frac{\hat{p}(1 - \hat{p})}{n}}\] Substitusi nilai: \[SE = \sqrt{\frac{0.39 \times (1 - 0.39)}{400}} = \sqrt{\frac{0.39 \times 0.61}{400}} = \sqrt{0.00059475} \approx 0.02439\]

Langkah 3: Menentukan Nilai Kritis Z (\(z_{\alpha/2}\))

  • Untuk 90% Confidence Level: \(z \approx 1.645\)

  • Untuk 95% Confidence Level: \(z \approx 1.96\)

  • Untuk 99% Confidence Level: \(z \approx 2.576\)

Langkah 4: Menghitung Margin of Error (\(E\))

  • \(E_{90}\): \(1.645 \times 0.02439 = 0.0401\)

  • \(E_{95}\): \(1.96 \times 0.02439 = 0.0478\)

  • \(E_{99}\): \(2.576 \times 0.02439 = 0.0628\)

Langkah 5: Menentukan Rentang Interval Kepercayaan (\(\hat{p} \pm E\))

  • CI 90%: \(0.39 \pm 0.0401 = [0.3499, 0.4301]\) atau [34.99%, 43.01%]

  • CI 95%: \(0.39 \pm 0.0478 = [0.3422, 0.4378]\) atau [34.22%, 43.78%]

  • CI 99%: \(0.39 \pm 0.0628 = [0.3272, 0.4528]\) atau [32.72%, 45.28%]

3.3 Visualisasi

Tabel Perhitungan Interval Kepercayaan Proporsi (Case Study 3)
Level Kepercayaan Z-Score Margin Error Batas Bawah Batas Atas
0.90 1.6449 0.0401 0.3499 0.4301
0.95 1.9600 0.0478 0.3422 0.4378
0.99 2.5758 0.0628 0.3272 0.4528

3.4 Interpretasi

Berdasarkan analisis di atas, kita memiliki keyakinan 95% bahwa tingkat klik (Click-Through Rate) yang sebenarnya untuk tombol desain baru di seluruh populasi pengguna berada di rentang 34.22% hingga 43.78%.

Hasil ini memberikan bukti kuat bagi tim produk bahwa performa tombol baru ini cukup stabil. Namun, jika tim produk memiliki target minimal klik sebesar 45%, maka berdasarkan data ini, target tersebut belum tercapai secara signifikan karena batas atas interval (43.78%) masih berada di bawah target tersebut.

4 Cases Study IV

4.1 Identifikasi

Berdasarkan data yang tersedia :

Team A: Menggunakan Z-Test. Justifikasi: Standar deviasi populasi (σ) diketahui (24) dan ukuran sampel (n=36) memenuhi syarat sampel besar (n≥30).

Team B: Menggunakan T-Test. Justifikasi: Standar deviasi populasi tidak diketahui, sehingga tim menggunakan standar deviasi sampel (s=24). Meskipun n=36, penggunaan s mengarahkan pada distribusi-t untuk presisi yang lebih konservatif.

Data Kelompok A (Server Lama):

  • \(n_1 = 15\)
  • \(\bar{x}_1 = 3.2\) detik
  • \(s_1 = 0.5\) detik

Data Kelompok B (Server Baru):

  • \(n_2 = 12\)
  • \(\bar{x}_2 = 2.8\) detik
  • \(s_2 = 0.4\) detik

Tingkat Kepercayaan: 95% (\(\alpha = 0.05\)).

4.2 Penyelesaian

Langkah 1: Menghitung Point Estimate (Selisih Mean)

\[\text{Point Estimate} = \bar{x}_1 - \bar{x}_2 = 3.2 - 2.8 = 0.4 \text{ detik}\]

Langkah 2: Menghitung Standard Error of the Difference (\(SE\) atau \(S_{\bar{x}_1 - \bar{x}_2}\)) Rumus (Welch’s):

\[SE = \sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}\] \[SE = \sqrt{\frac{0.5^2}{15} + \frac{0.4^2}{12}} = \sqrt{\frac{0.25}{15} + \frac{0.16}{12}}\] \[SE = \sqrt{0.01667 + 0.01333} = \sqrt{0.0300} \approx 0.1732\]

Langkah 3: Menentukan Degrees of Freedom (\(df\))

Menggunakan rumus konservatif (yang lebih sederhana/kecil di antara \(n_1-1\) atau \(n_2-1\)): \[df = \min(15-1, 12-1) = 11\]

Langkah 4: Menentukan Nilai Kritis \(t\) (\(t_{\alpha/2, df}\))

Untuk 95% CI dengan \(df = 11\): \[t^* \approx 2.201\]

Langkah 5: Menghitung Margin of Error (\(E\))

\[E = t^* \times SE = 2.201 \times 0.1732 \approx 0.3812\]

Langkah 6: Menentukan Interval Kepercayaan

\[(\bar{x}_1 - \bar{x}_2) \pm E = 0.4 \pm 0.3812 = [0.0188, 0.7812]\]

4.3 Visualisasi

## Selisih Mean: 0.4
## Margin of Error: 0.356724
## 95% CI: [ 0.04327601 , 0.756724 ]

4.4 Interpretasi

Karena rentang Interval Kepercayaan [0.0188, 0.7812] seluruhnya berada di atas angka 0, kita dapat menyimpulkan dengan tingkat kepercayaan 95% bahwa Server Baru secara signifikan lebih cepat daripada Server Lama.

Meskipun sampelnya kecil, bukti statistik menunjukkan adanya penghematan waktu muat minimal 0.018 detik hingga maksimal 0.78 detik. Penggunaan Server Baru sangat direkomendasikan untuk meningkatkan pengalaman pengguna.

5 Cases Study V

5.1 Identifikasi

Tipe Interval Kepercayaan: One-sided lower confidence interval (batas bawah satu sisi). Hal ini karena manajemen hanya tertarik untuk memastikan bahwa nilai proporsi setidaknya (at least) mencapai target tertentu.

Uji Statistik: Z-test for Proportion. Kita berurusan dengan data kategori (pengguna aktif premium vs bukan) dengan ukuran sampel yang besar (n=250), sehingga distribusi normal dapat digunakan untuk mendekati distribusi binomial.

Manajemen ingin mengevaluasi peluncuran fitur premium baru. Pertanyaan kuncinya bukan mencari rentang di antara dua angka, melainkan memastikan apakah proporsi pengguna setidaknya (minimal) mencapai target 70%.

  • Ukuran Sampel (\(n\)): \(250\) pengguna.

  • Jumlah Sukses (\(x\)): \(185\) pengguna yang menyukai fitur.

  • Target Manajemen: \(70\%\) (\(0.70\)).

  • Metode: Menggunakan One-Sided Lower Confidence Bound (Batas Bawah Satu Sisi). Kita menggunakan distribusi Z karena ini adalah estimasi proporsi dengan sampel besar.

5.2 Penyelesaian

Langkah 1: Menghitung Proporsi Sampel (\(\hat{p}\))

\[\hat{p} = \frac{x}{n} = \frac{185}{250} = 0.74\] Hasil sampel menunjukkan tingkat kesukaan sebesar 74%.

Langkah 2: Menghitung Standard Error (\(SE\))

\[SE = \sqrt{\frac{\hat{p}(1 - \hat{p})}{n}}\] \[SE = \sqrt{\frac{0.74 \times (1 - 0.74)}{250}} = \sqrt{\frac{0.74 \times 0.26}{250}} = \sqrt{0.0007696} \approx 0.02774\]

Langkah 3: Menentukan Nilai Z Satu Sisi (\(z_{\alpha}\))

Berbeda dengan interval dua sisi, pada satu sisi kita memusatkan seluruh tingkat kesalahan (\(\alpha\)) di satu ujung distribusi: * Untuk 90% Confidence (One-sided): \(z \approx 1.282\) * Untuk 95% Confidence (One-sided): \(z \approx 1.645\)

Langkah 4: Menghitung Lower Bound (Batas Bawah)

Rumus: \(Lower Bound = \hat{p} - (z \times SE)\)

  • Pada Tingkat Kepercayaan 90%:

    \[0.74 - (1.282 \times 0.02774) = 0.74 - 0.0355 = 0.7045 \text{ atau } \mathbf{70.45\%}\]

  • Pada Tingkat Kepercayaan 95%:

    \[0.74 - (1.645 \times 0.02774) = 0.74 - 0.0456 = 0.6944 \text{ atau } \mathbf{69.44\%}\]

5.3 Visualisasi

Analisis Batas Bawah Satu Sisi (Case Study 5)
Level Kepercayaan Z-Critical (1-side) Batas Bawah (LB) Target 70% Tercapai?
0.90 1.2816 0.7044 TRUE
0.95 1.6449 0.6944 FALSE

5.4 Interpretasi

Berdasarkan hasil analisis satu sisi:

Pada tingkat kepercayaan 90%, kita bisa menyatakan bahwa secara statistik proporsi pengguna yang menyukai fitur adalah setidaknya 70.45%. Karena angka ini di atas 70%, target dianggap terpenuhi.

Namun, jika manajemen menuntut tingkat kepastian lebih tinggi (95%), batas bawah kita turun menjadi 69.44%. Secara ketat, kita gagal menyatakan bahwa target 70% tercapai karena batas bawah tersebut sedikit di bawah target.

Rekomendasi: Perusahaan berada di posisi yang sangat dekat dengan target. Disarankan melakukan iterasi kecil pada fitur untuk meningkatkan kepuasan pengguna sebelum penarikan kesimpulan akhir.

