Dhea Putri Khasanah

Data Science Student at ITSB

Lecturer: Bakti Siregar, M.Sc., CDS

R Programming Data Science Statistics

📍 Institut Teknologi Sains Bandung


1 Case Study 1 ~ Confidence Interval of Mean

Konteks Masalah

Sebuah platform e-commerce ingin mengestimasi rata-rata jumlah transaksi harian per pengguna setelah peluncuran fitur baru. Berdasarkan data historis berskala besar, simpangan baku populasi (σ) diketahui, sehingga pendekatan statistik yang tepat dapat digunakan untuk inferensi rata-rata populasi.

Informasi Data

\(\sigma = 3.2 \quad \text{(population standard deviation)}\)

\(n = 100 \quad \text{(sample size)}\)

\(\bar{x} = 12.6 \quad \text{(sample mean)}\)

1.1 Identifikasi dan Justifikasi Uji Statistik yang Tepat

Uji Statistik yang Tepat: Uji Z (Z-test) untuk Mean (Rata-rata)

Justifikasi:

  1. Tujuan: Tujuannya adalah untuk mengestimasi rata-rata populasi (\(\mu\)) menggunakan confidence interval.

  2. Deviasi Standar Populasi (\(\sigma\)): Informasi kunci yang diberikan adalah deviasi standar populasi (\(\sigma\)) diketahui (\(\sigma\) = 3.2).

  3. Ukuran Sampel (n): Ukuran sampel n=100, yang lebih besar dari 30 (n > 30). Karena \(\sigma\) diketahui, dan/atau ukuran sampel besar, kita harus menggunakan nilai Z (Z-score), bukan nilai t (t-score). Formula umum untuk Confidence Interval (CI) adalah:

\(\bar{x} \pm Z_{\alpha/2}\left(\frac{\sigma}{\sqrt{n}}\right)\)

1.2 Perhitungan Confidence Intervals

Langkah Awal: Standard Error

\(SE = \frac{\sigma}{\sqrt{n}} = \frac{3.2}{\sqrt{100}} = 0.32\)

A. Confidence Interval 90%

Untuk CI 90%, tingkat signifikansi \((\alpha)\) adalah 1 - 0.90 = 0.10.

Nilai \(Z_{\alpha/2}\) untuk \(\alpha\)/2 = 0.05 (atau 90% di tengah) adalah \(\mathbf{Z_{0.05} = 1.645}.\)

1. Margin of Error (ME):

\[ME_{90\%} = 1.645\left(\frac{3.2}{\sqrt{100}}\right) = 1.645\left(\frac{3.2}{10}\right) = 1.645 \times 0.32 = 0.5264\]

2. Confidence Interval (Cl):

\[Cl_{90\%} = \bar{x} \pm ME_{90\%} = 12.6 \pm 0.5264\]

-Batas Bawah: 12.6 - 0.5264 = 12.0736

-Batas Atas: 12.6 + 0.5264 = 13.1264

Cl 90% = [12.0736, 13.1264].

B. Confidence Interval 95%

Untuk CI 95%, tingkat signifikansi \((\alpha)\) adalah 1 - 0.95 = 0.05.

Nilai \(Z_{\alpha/2}\) untuk \(\alpha\)/2 = 0.025 (atau 95% di tengah) adalah \(\mathbf{Z_{0.025} = 1.960}.\)

1. Margin of Error(ME):

\[ME_{95\%} = 1.960 \left( \frac{3.2}{10} \right) = 1.960 \times 0.32 = 0.6272\]

2. Confidence Interval (Cl):

\[Cl_{95\%} = \bar{x} \pm ME_{95\%} = 12.6 \pm 0.6272\]

-Batas Bawah: 12.6 - 0.6272 = 11.9728

-Batas Atas: 12.6 + 0.6272 = 13.2272

Cl 95% = [11.9728, 13.2272].

C. Confidence Interval 99%

Untuk CI 99%, tingkat signifikansi \((\alpha)\) adalah 1 - 0.99 = 0.01.

Nilai \(Z_{\alpha/2}\) untuk \(\alpha/2\) = 0.005 (atau 99% di tengah) adalah \(\mathbf{Z_{0.005} = 2.576}.\)

1. Margin of Error (ME):

\[ME_{99\%} = 2.576 \left( \frac{3.2}{10} \right) = 2.576 \times 0.32 = 0.82432\]

2. Confidence Interval (Cl):

\[Cl_{99\%} = \bar{x} \pm ME_{99\%} = 12.6 \pm 0.82432\]

-Batas Bawah: 12.6 - 0.82432 = 11.7757

-Batas Atas: 12.6 + 0.82432 = 13.42432

Cl 99% = [11.77568, 13.4243]
Table 1: Table 2: Ringkasan Confidence Interval Rata-rata Transaksi Harian
Tingkat.Kepercayaan Batas.Bawah Batas.Atas
90% 12.0736 13.1264
95% 11.9728 13.2272
99% 11.7757 13.4243

1.3 Visualisasi Perbandingan Confidence Interval

• Grafik menampilkan perbandingan confidence interval 90%, 95%, dan 99% untuk rata-rata jumlah transaksi harian per pengguna.

• Titik pada setiap garis menunjukkan rata-rata sampel sebesar 12,6 transaksi.

• Garis horizontal berwarna merepresentasikan rentang confidence interval pada masing-masing tingkat kepercayaan.

• Confidence interval 90% memiliki rentang paling sempit, sedangkan confidence interval 99% memiliki rentang paling lebar.

• Semakin tinggi tingkat kepercayaan, semakin lebar interval estimasi, yang menunjukkan meningkatnya tingkat kehati-hatian.

• Visualisasi ini membantu manajemen dalam memahami tingkat ketidakpastian estimasi saat mengevaluasi dampak fitur baru terhadap aktivitas transaksi pengguna.
Table 3: Perbandingan Confidence Intervals (CI) Transaksi Harian
Tingkat Kepercayaan Margin of Error (ME) Batas Bawah Batas Atas Lebar Interval
90% 0.5264 12.0736 13.1264 1.0528
95% 0.6272 11.9728 13.2272 1.2544
99% 0.8243 11.7757 13.4243 1.6486

1.4 Interpretasi Hasil dalam Konteks Bisnis Analitik

• Dengan tingkat kepercayaan 90%, rata-rata transaksi harian per pengguna diperkirakan berada di kisaran 12.07 hingga 13.13 transaksi.

• Pada tingkat kepercayaan yang lebih tinggi (95% dan 99%), interval menjadi lebih lebar, mencerminkan trade-off antara tingkat keyakinan dan presisi estimasi.

Dari sudut pandang bisnis:

• Interval yang lebih sempit mendukung pengambilan keputusan cepat.

• Interval yang lebih lebar memberikan perlindungan risiko yang lebih tinggi dalam perencanaan strategis.

• Rata-rata transaksi yang konsisten di atas 12 menunjukkan bahwa fitur baru memiliki indikasi dampak positif terhadap aktivitas pengguna.

Kesimpulan Akhir

Dengan menggunakan Z-Confidence Interval, dapat disimpulkan bahwa rata-rata jumlah transaksi harian per pengguna setelah peluncuran fitur baru berada di sekitar 12.6 transaksi, dengan tingkat ketidakpastian yang bergantung pada confidence level yang dipilih. Hasil ini memberikan dasar statistik yang kuat bagi manajemen untuk mengevaluasi performa fitur baru.

Table 4: Kesimpulan Analitik untuk Pengambilan Keputusan
Konsep Kunci Keterangan
Trade-off Kritis Analisis menunjukkan adanya trade-off fundamental: Semakin tinggi Keyakinan (Confidence), semakin rendah Presisi (Interval semakin lebar).
Pilihan Optimal CI 95% adalah standar industri yang menawarkan keseimbangan kuat antara risiko kesalahan (5%) dan interval yang cukup sempit untuk strategi bisnis.
Rekomendasi Tindakan Jika target KPI > 13.5, target tidak mungkin tercapai. Jika target 12.5, semua interval menunjukkan target tersebut sangat mungkin dicapai.

2 Case Study 2 ~ Confidence Interfal of Mean

Konteks Masalah

membahas analisis waktu penyelesaian tugas pengguna pada sebuah aplikasi mobile baru oleh tim UX Research. Dengan data dari 12 pengguna dan simpangan baku populasi yang tidak diketahui, analisis dilakukan untuk mengestimasi rata-rata waktu penyelesaian tugas menggunakan confidence interval sebagai dasar evaluasi pengalaman pengguna.

Analisis Data Awal

Data waktu penyelesaian tugas (dalam menit) dari 12 pengguna:

8.4, 7.9, 9.1, 8.7, 8.2, 9.0, 7.8, 8.5, 8.9, 8.1, 8.6, 8.3

• Ukuran Sampel (n): 12

• Rata-rata Sampel \((\bar{x}): \frac{\sum x}{n} = \mathbf{8.4583}\)

• Standar Deviasi Sampel (s): \(\mathbf{0.4188}\)

• Derajat Kebebasan (df): n - 1 = \(\mathbf{11}\)

\(SE = \frac{0.4188}{\sqrt{12}} = \frac{0.4188}{3.4641} = \mathbf{0.1209}\)

2.1 Identifikasi Uji Statistik yang Benar

Uji Statistik: One-Sample t-test (Distribusi t-Student)

Justifikasi:

  1. Simpangan baku populasi (σ) tidak diketahui, sehingga estimasi dilakukan menggunakan simpangan baku sampel.

  2. Ukuran sampel kecil (n = 12 < 30), sehingga distribusi t-Student lebih tepat dibanding distribusi normal.

  3. Tujuan analisis adalah estimasi rata-rata populasi, bukan pengujian hipotesis.

Oleh karena itu, rumus yang digunakan:

\(CI = \bar{x} \pm t_{\alpha/2, df} \left( \frac{s}{\sqrt{n}} \right)\)

2.2 Perhitungan Confidence Intervals (Cl)

A. Confidence Interval 90%

\(t_{0.05,11} = 1.796\)

\(ME_{90\%} = 1.796 \times 0.1209 = 0.2171\)

-Batas Bawah: 8.4583 - 0.2171 = 8.2412

-Batas Atas: 8.4583 + 0.2171 = 8.6754

Cl 90%: [8.4583, 8.6754]

B. Confidence Interval 95%

\(t_{0.025,11} = 2.201\)

\(ME_{95\%} = 2.201 \times 0.1209 = 0.2661\)

-Batas Bawah: 8.4583 - 0.2661 = 8.1922

-Batas Atas: 8.4583 + 0.2661 = 8.7244

Cl 95%: [8.1922, 8.7244]

C. Confidence Interval 99%

\(t_{0.005,11} = 3.106\)

\(ME_{99\%} = 3.106 \times 0.1209 = 0.3755\)

-Batas Bawah: 8.4583 - 0.3755 = 8.0828

-Batas Atas: 8.4583 + 0.3755 = 8.8338

Cl 99%: [8.0828, 8.8338]

2.3 Visualisasi Confidence Interval

Secara sederhana, grafik ini memberitahu kita bahwa:

“Meskipun hasil tes kita menunjukkan 8,46 menit, jangan kaget jika di lapangan nanti rata-ratanya bisa sedikit lebih rendah (8,08) atau sedikit lebih tinggi (8,83) menit. Namun, hampir mustahil rata-ratanya akan lari jauh dari angka-angka tersebut.”

• Titik Hitam (Pusat Data):

Ini adalah nilai rata-rata sampel kita, yaitu 8,46 menit. Ini adalah “tebakan terbaik” kita saat ini mengenai waktu penyelesaian tugas oleh pengguna.

• Garis Horizontal (Rentang Keamanan):

Garis-garis berwarna ini menunjukkan rentang di mana rata-rata populasi pengguna yang sebenarnya kemungkinan besar berada. Kita menyebutnya “rentang keamanan” agar kita tidak salah mengambil kesimpulan hanya dari sedikit orang.

• Semakin Tinggi Keyakinan, Semakin Lebar Garisnya:

• Warna Hijau (90%): Garisnya paling pendek. Artinya, kita cukup presisi, tapi ada risiko 10% kalau rata-rata aslinya meleset dari rentang ini.

• Warna Biru (95%): Ini adalah standar emas dalam riset. Rentangnya sedikit lebih lebar untuk memberi kita ruang aman yang lebih besar (hanya risiko 5% untuk meleset).

• Warna Merah (99%): Garisnya paling panjang. Di sini kita sangat berhati-hati. Kita memperlebar rentang agar hampir 100% yakin bahwa rata-rata yang sebenarnya masuk dalam cakupan ini.

Kesimpulan: Jika target performa aplikasi kita adalah waktu di bawah 8 menit, maka hasil ini menunjukkan kita belum mencapai target. Mengapa? Karena bahkan pada tingkat keyakinan paling ketat pun (99%), batas bawah kita masih di angka 8,08 menit. Kita perlu melakukan optimasi lebih lanjut pada desain aplikasi.

(#tab:case_study_2)(#tab:case_study_2)Tabel Perbandingan Confidence Interval - Case Study 2
Tingkat Kepercayaan t-Score (df=11) Margin of Error Batas Bawah Batas Atas
90% 1.7959 0.2182 8.2401 8.6766
95% 2.2010 0.2675 8.1909 8.7258
99% 3.1058 0.3774 8.0809 8.8357

2.4 Pengaruh Ukuran Sampel dan Tingkat Kepercayaan

A. Pengaruh Ukuran Sampel (Sample Size)

• Sampel kecil (n = 12) → Standard Error relatif besar

• Jika jumlah pengguna ditambah, maka:

• SE menurun

• CI menjadi lebih sempit

• Estimasi rata-rata menjadi lebih presisi

B. Pengaruh Tingkat Kepercayaan (Confidence Level)

• CI 90% → interval paling sempit

• CI 95% → interval lebih lebar

• CI 99% → interval paling lebar

Semakin tinggi tingkat kepercayaan, semakin besar nilai t → margin of error meningkat.

Interpretasi dalam Konteks UX Research

• Rata-rata waktu penyelesaian tugas pengguna diperkirakan sekitar 8.46 menit.

• Dengan tingkat kepercayaan 95%, waktu rata-rata populasi berada antara 8.20 hingga 8.72 menit.

• Interval yang relatif sempit menunjukkan konsistensi pengalaman pengguna.

• Hasil ini dapat digunakan sebagai baseline UX performance untuk membandingkan versi aplikasi selanjutnya.

3 Case Study 3 ~ Confidence Interval for a Proportion (A/B Testing)

Konteks Masalah

Sebuah tim data science melakukan A/B testing pada desain tombol Call-To-Action (CTA) baru. Tujuannya adalah mengukur proporsi pengguna yang mengklik CTA.

Analisis Data Awal

Eksperimen desain tombol Call-To-Action (CTA) menghasilkan data berikut:

• Total pengguna (n): 400

• Pengguna yang mengklik CTA (x): 156

3.1 Penghitungan Proposri Sampel \((\hat{p})\)

Proporsi sampel \((\hat{p})\) dihitung dengan membagi jumlah keberhasilan (klik) dengan total ukuran sampel.

\((\hat{p})\) = \(\frac{x}{n}\) = \(\frac{156}{400}\) = \(\mathbf{0.39}\) (atau 39%)

3.2 Penghitungan Confidence Interval (Cl) untuk Proporsi

Rumus Umum:

\[CI = \hat{p} \pm Z_{\alpha/2} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\]

Langkah Pertama: Hitung Standard Error (SE)

\[SE = \sqrt{\frac{0.39 \times (1-0.39)}{400}} = \sqrt{\frac{0.39 \times 0.61}{400}} = \sqrt{\frac{0.2379}{400}} = \sqrt{0.00059475} = 0.0244\]

Langkah Kedua: Tentukan Margin of Error (ME) untuk setiap tingkat kepercayaan

A. Confidence Interval 90%

\[ z_{0.05} = 1.645 \]

\[ ME = 1.645 \times 0.0244 = 0.0401 \]

\[ CI_{90\%} = (0.39 - 0.0401,\; 0.39 + 0.0401) \]

\[ CI_{90\%} = (0.3499,\; 0.4301) \]

B. Confidence Interval 95%

\[ z_{0.025} = 1.96 \]

\[ ME = 1.96 \times 0.0244 = 0.0478 \]

\[ CI_{95\%} = (0.39 - 0.0478,\; 0.39 + 0.0478) \]

\[ CI_{95\%} = (0.3422,\; 0.4378) \]

C. Confidence Interval 99%

\[ z_{0.005} = 2.576 \]

\[ ME = 2.576 \times 0.0244 = 0.0629 \]

\[ CI_{99\%} = (0.39 - 0.0629,\; 0.39 + 0.0629) \]

\[ CI_{99\%} = (0.3271,\; 0.4529) \]

3.3 Visualisasi dan Perbandingan Interval

• Grafik menampilkan confidence interval 90%, 95%, dan 99% untuk proporsi pengguna yang mengklik tombol CTA.

• Titik pada setiap tingkat kepercayaan menunjukkan estimasi proporsi klik rata-rata sebesar 0,39.

• Garis horizontal merepresentasikan rentang confidence interval pada masing-masing tingkat kepercayaan.

• Confidence interval 90% memiliki rentang paling sempit, sedangkan confidence interval 99% memiliki rentang paling lebar.

• Semakin tinggi tingkat kepercayaan, semakin besar ketidakpastian estimasi yang ditunjukkan oleh lebar interval.

• Visualisasi ini membantu tim produk memahami trade-off antara ketelitian dan tingkat keyakinan dalam pengambilan keputusan A/B testing.

(#tab:case_study_3_table)(#tab:case_study_3_table)Perbandingan Confidence Intervals (CI) untuk Proporsi Klik CTA
Tingkat Kepercayaan Z-Score Margin of Error (ME) Batas Bawah Batas Atas
90% 1.645 4.01% 34.99% 43.01%
95% 1.960 4.78% 34.22% 43.78%
99% 2.576 6.28% 32.72% 45.28%

3.4 Pengaruh Tingkat Kepercayaan pada Pengambilan Keputusan Produk

Confidence level rendah (90%)

→ Interval lebih sempit

→ Keputusan lebih cepat tetapi risiko kesalahan lebih tinggi

Confidence level menengah (95%)

→ Keseimbangan antara presisi dan kehati-hatian

→ Umum digunakan dalam eksperimen produk

Confidence level tinggi (99%)

→ Interval lebih lebar

→ Keputusan sangat konservatif, cocok untuk perubahan produk berdampak besar

Interpretasi dalam Konteks A/B Testing

• Estimasi proporsi klik CTA berada di sekitar 39%.

• Dengan confidence level 95%, proporsi klik pengguna diperkirakan berada antara 34.22% hingga 43.78%.

• Informasi ini membantu tim produk dalam:

• Menilai efektivitas desain CTA baru

• Membandingkan hasil dengan desain lama

• Mengambil keputusan berbasis risiko dan tingkat keyakinan statistik

4 Case Study 4 ~ Precision Comparison (Z-Test vs t-Test)

Konteks Masalah

Dua tim data mengukur API latency (ms) dengan ukuran sampel yang sama, tetapi informasi standar deviasi berbeda. Tujuannya adalah membandingkan presisi interval kepercayaan yang dihasilkan oleh Z-test dan t-test.

Diketahui

Team A

• Sample size: \(n = 36\)

• Sample mean: \(\bar{x} = 210\)

• Population standard deviation (known): \(\sigma = 24\)

Team B

• Sample size: \(n = 36\)

• Sample mean: \(\bar{x} = 210\)

• Sample standard deviation (unknown population): \(s = 24\)

4.1 Identifikasi Uji Statistik

Tim Kondisi Uji Statistik
Team A Standar deviasi populasi diketahui Z-Test / Z-Interval
Team B Standar deviasi populasi tidak diketahui t-Test / t-Interval

Penjelasan

• Z-test digunakan jika o populasi diketahui.

• t-test digunakan jika o tidak diketahui dan diganti dengan s, sehingga memperhitungkan ketidakpastian tambahan.

4.2 Perhitungan Confidence Interval (Cl)

Karena nilai 𝜎 = 𝑠 = 24 σ = s = 24 dan 𝑛= 36 n = 36:

\[ SE = \frac{24}{\sqrt{36}} = \frac{24}{6} = 4 \]

Team A (Z-Test):

  • \(ME_{90\%} = 1.645 \times 4 = 6.5800\)

  • \(ME_{95\%} = 1.960 \times 4 = 7.8400\)

  • \(ME_{99\%} = 2.576 \times 4 = 10.3040\)

Team B (t-Test):

  • \(ME_{90\%} = 1.690 \times 4 = 6.7600\)

  • \(ME_{95\%} = 2.030 \times 4 = 8.1200\)

  • \(ME_{99\%} = 2.724 \times 4 = 10.8960\)

(#tab:case_study_4_table)(#tab:case_study_4_table)Perbandingan Nilai Kritis dan Margin of Error (ME): Team A vs Team B
Nilai Kritis
Margin of Error
Tingkat Kepercayaan Z-Score (Team A) t-Score (Team B, df=35) ME Team A (Z-Test) ME Team B (t-Test)
90% 1.645 1.690 6.58 6.76
95% 1.960 2.030 7.84 8.12
99% 2.576 2.724 10.30 10.90

1. Perhitungan Team A (Z-Test)

Rata-rata \((\bar{x})\) = 210

Tingkat Kepercayaan 90%

(ME = 6.58):

• Batas Bawah: 210 - 6.58 = 203.42

• Batas Atas: 210 + 6.58 = 216.58

• Hasil: [203.42, 216.58]

Tingkat Kepercayaan 95%

(ME = 7.84):

• Batas Bawah: 210 - 7.84 = 202.16

• Batas Atas: 210 + 7.84 = 217.84

• Hasil: [202.16, 217.84]

Tingkat Kepercayaan 99%

(ME = 10.30):

• Batas Bawah: 210 - 10.30 = 199.70

• Batas Atas: 210 + 10.30 = 220.30

• Hasil: [199.70, 220.30]

2. Perhitungan Team B (t-Test)

Rata-rata \((\bar{x})\) = 210

Tingkat Kepercayaan 90%

(ME = 6.76):

• Batas Bawah: 210 - 6.76 = 203.24

• Batas Atas: 210 + 6.76 = 216.76

• Hasil: [203.24, 216.76]

Tingkat Kepercayaan 95%

(ME = 8.12):

• Batas Bawah: 210 - 8.12 = 201.88

• Batas Atas: 210 + 8.12 = 218.12

• Hasil: [201.88, 218.12]

Tingkat Kepercayaan 99%

(ME = 10.90):

• Batas Bawah: 210 - 10.90 = 199.10

• Batas Atas: 210 + 10.90 = 220.90

• Hasil: [199.10, 220.90]

(#tab:case_study_4_final_interval)(#tab:case_study_4_final_interval)Hasil Akhir Confidence Interval: Team A (Z-Test) vs Team B (t-Test)
Tingkat Kepercayaan Rentang Team A (Z-Test) Rentang Team B (t-Test)
90% [203.42, 216.58] [203.24, 216.76]
95% [202.16, 217.84] [201.88, 218.12]
99% [199.70, 220.30] [199.10, 220.90]

4.3 Visualisasi Perbandingan

• Visualisasi membandingkan confidence interval (CI) latensi API antara Tim A (Uji Z) dan Tim B (Uji t) pada tingkat kepercayaan 90%, 95%, dan 99%.

• Titik tengah pada setiap interval menunjukkan rata-rata latensi API sebesar 210 milidetik untuk kedua tim.

• Semakin tinggi tingkat kepercayaan, interval kepercayaan semakin lebar, menandakan ketidakpastian estimasi yang meningkat.

• Uji t (Tim B) menghasilkan interval yang sedikit lebih lebar dibandingkan Uji Z (Tim A) karena simpangan baku populasi tidak diketahui dan diestimasi dari sampel.

• Perbedaan lebar interval menunjukkan bahwa metode statistik yang digunakan memengaruhi presisi estimasi, meskipun ukuran sampel dan rata-rata sama.

• Visualisasi ini membantu menegaskan bahwa Uji Z lebih presisi ketika simpangan baku populasi diketahui, sedangkan Uji t lebih konservatif saat simpangan baku populasi tidak diketahui.

(#tab:case_study_4_comparison)(#tab:case_study_4_comparison)Tabel Perbandingan Eksekutif: Team A vs Team B (Case Study 4)
Aspek Perbandingan Team A (Z-Distribution) Team B (t-Distribution)
Metode Statistik Z-Test (σ diketahui) t-Test (σ tidak diketahui)
Nilai Kritis (95%) 1.960 2.030
Margin of Error (95%) 7.84 8.12
Rentang Interval (95%) [202.16, 217.84] [201.88, 218.12]
Presisi Lebih Tinggi Lebih Rendah

4.4 Penjelasan Mengapa Lebar Interval Berbeda

Z-Test:

• Menggunakan standar deviasi populasi

• Ketidakpastian lebih kecil

• Interval lebih presisi (sempit)

t-Test:

• Mengestimasi variasi dari sampel

• Menambahkan ketidakpastian ekstra

• Interval menjadi lebih lebar

• Semakin tinggi confidence level, interval semakin lebar untuk kedua metode

Kesimpulan Utama

• Walaupun rata-rata, ukuran sampel, dan nilai variasi sama, jenis uji statistik memengaruhi lebar confidence interval.

• Z-Test lebih presisi, tetapi hanya valid jika σ diketahui.

• t-Test lebih konservatif, sehingga lebih aman saat σ tidak diketahui.

• Dalam praktik data science, t-test lebih sering digunakan karena kondisi dunia nyata jarang mengetahui σ populasi.

5 Case Study 5 ~ One-Sided Confidence Interval (Population Proportion)

Konteks Masalah

Sebuah perusahaan Software as a Service (SaaS) ingin memastikan bahwa setidaknya 70% pengguna aktif mingguan menggunakan fitur premium. Manajemen hanya tertarik pada batas bawah (lower bound) estimasi proporsi tersebut.

Data Eksperimen

• Total pengguna:

\(n = 250\)

• Pengguna premium aktif:

\(x = 185\)

• Target bisnis:

\(p \ge 0.70\)

5.1 Identifikasi Jenis Confidence Interval dan Uji Statistik

Jenis Confidence Interval

• One-sided (lower) confidence interval

• Untuk proporsi populasi (population proportion)

Uji Statistik yang Tepat

• Z-confidence interval for population proportion

Alasan Pemilihan

  1. Variabel yang diestimasi adalah proporsi, bukan rata-rata.

  2. Ukuran sampel besar:

\(np = 250(0.74) = 185 \ge 5,\quad n(1-p)=65 \ge 5\)

→ Pendekatan distribusi normal (Z) valid.

  1. Manajemen hanya peduli apakah proporsi minimal telah melampaui 70%.

5.2 Perhitungan One-Sided Lower Confidence Interval

Langkah 1: Estimasi Proporsi Sampel

\(\hat{p} = \frac{x}{n} = \frac{185}{250} = 0.74\)

Langkah 2: Standard Error (SE)

\(SE = \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} = \sqrt{\frac{0.74(0.26)}{250}}\)

\(SE = \sqrt{0.0007696} \approx 0.0277\)

Langkah 3: Rumus Lower One-Sided CI

\(\text{Lower Bound} = \hat{p} - z_\alpha \times SE\)

A. One-Sided CI 90%

\(z_{0.10} = 1.282\)

\(LB_{90\%} = 0.74 - (1.282 \times 0.0277)\)

\(LB_{90\%} = 0.74 - 0.0355 = \boxed{0.7045}\)

B. One-Sided CI 95%

\(z_{0.05} = 1.645\)

\(LB_{95\%} = 0.74 - (1.645 \times 0.0277)\)

\(LB_{95\%} = 0.74 - 0.0456 = \boxed{0.6944}\)

C. One-Sided CI 99%

\(z_{0.01} = 2.33\)

\(LB_{99\%} = 0.74 - (2.33 \times 0.0277)\)

\(LB_{99\%} = 0.74 - 0.0645 = \boxed{0.6755}\)

Table 5: Table 6: Ringkasan One-Sided Lower Confidence Interval
Tingkat.Kepercayaan Batas.Bawah
90% 0.7045
95% 0.6944
99% 0.6755

5.3 Visualisasi Lower Bounds

• Grafik menampilkan batas bawah (lower bound) one-sided confidence interval proporsi pengguna premium pada tingkat kepercayaan 90%, 95%, dan 99%.

• Titik pada setiap tingkat kepercayaan menunjukkan nilai batas bawah estimasi proporsi pengguna premium.

• Garis vertikal putus-putus merepresentasikan target bisnis sebesar 70%.

• Pada confidence level 90%, batas bawah berada di atas 70%, sehingga target bisnis dapat dinyatakan terpenuhi secara statistik.

• Pada confidence level 95% dan 99%, batas bawah berada di bawah 70%, sehingga target belum dapat dijamin dengan tingkat keyakinan yang lebih tinggi.

• Grafik menunjukkan bahwa semakin tinggi tingkat kepercayaan, estimasi batas bawah menjadi semakin rendah (lebih konservatif).

• Visualisasi ini membantu manajemen dalam menentukan tingkat keyakinan yang sesuai dengan toleransi risiko dalam pengambilan keputusan bisnis.

5.4 Evaluasi Target 70%

Analisis Statistik

• CI 90% → Lower bound = 0.7045 ≥ 0.70 (YA)

• CI 95% → Lower bound = 0.6944 < 0.70 (TIDAK)

• CI 99% → Lower bound = 0.6755 < 0.70 (TIDAK)

Kesimpulan Bisnis (Business Analytics Interpretation)

  1. Dengan tingkat keyakinan 90%, perusahaan dapat menyatakan bahwa setidaknya 70% pengguna aktif menggunakan fitur premium.

  2. Pada tingkat keyakinan yang lebih konservatif (95% dan 99%), data belum cukup kuat untuk menjamin target 70%.

  3. Keputusan manajerial:

• 90% confidence → cukup untuk keputusan operasional

• ≥95% confidence → disarankan menambah data atau meningkatkan adopsi fitur premium

Kesimpulan Akhir

Target 70% hanya terpenuhi secara statistik pada tingkat kepercayaan 90%. Untuk klaim yang lebih kuat, diperlukan sampel tambahan atau peningkatan performa produk.