M. Yustian Putra Muhadi
Institut Tekonologi Sains Bandung
R Programming
Data Science
Statistics
Case Study 1
Interval Kepercayaan untuk Rata-rata, \(\sigma\) Diketahui: Sebuah
platform e-commerce ingin memperkirakan
rata-rata jumlah transaksi harian per pengguna setelah
meluncurkan fitur baru. Berdasarkan data historis skala besar,
simpangan baku populasi diketahui.
\[
\begin{eqnarray*}
\sigma &=& 3.2 \quad \text{(deviasi standar populasi)} \\
n &=& 100 \quad \text{(ukuran sampel)} \\
\bar{x} &=& 12.6 \quad \text{(rata-rata sampel)}
\end{eqnarray*}
\]
Tugas:
Identifikasi uji statistik yang tepat dan berikan
justifikasi atas pilihan Anda.
Hitung Interval Kepercayaan untuk:
\(90\%\)
\(95\%\)
\(99\%\)
Buat visualisasi perbandingan dari ketiga interval
kepercayaan tersebut.
Interpretasikan hasilnya dalam konteks analitik bisnis.
Uji Statistik
yang Tepat & Justifikasi
Karena:
Ukuran sampel n=100 besar (≥30) → CLT
berlaku.
Simpangan baku populasi σ diketahui.
Ingin membuat interval kepercayaan untuk rata-rata populasi
μ.
Maka uji statistik yang tepat adalah Z-test untuk
rata-rata dengan menggunakan distribusi normal standar
(Z).
Justifikasi:
\[
\bar{x} \pm Z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}
\]
Perhitungan
Confidence Interval
Standard Error (SE):
Rumus umum:
\[
ME = \pm Z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}
\] \[
SE = \frac{\sigma}{\sqrt{n}}= \frac{3.2}{\sqrt{100}}= 0.32
\]
\[
Z_{0.05}=1.645
\]
\[
ME=1.645×0.32=0.5264
\]
\[
CI_{90\%} = (12.0736,\; 13.1264)
\]
\[
Z_{0.025}=1.96
\]
\[
ME=1.96×0.32=0.6272
\]
\[
CI_{95\%} = (11.9728,\; 13.2272)
\]
\[
Z_{0.005}=2.576
\]
\[
ME=2.576×0.32=0.8243
\]
\[
CI_{99\%} = (11.7757,\; 13.4243)
\]
Ringkasan numerik:
90%
1.645
0.526
12.074
13.126
95%
1.960
0.627
11.973
13.227
99%
2.576
0.824
11.776
13.424
visualisasi
Grafik yang ditampilkan menunjukkan:
Setiap garis horizontal = satu confidence
interval.
Titik di tengah = sample mean (12.6).
Interval 99% paling lebar, 90%
paling sempit.
Ini menggambarkan trade-off antara tingkat kepercayaan dan
presisi.
Interpretasi
Business Analytics
Dengan 90% keyakinan, rata-rata transaksi harian
per user berada di sekitar 12.07 – 13.13
transaksi.
Dengan 95% keyakinan, rentangnya sedikit lebih
lebar: 11.97 – 13.23.
Dengan 99% keyakinan, estimasi paling
konservatif: 11.78 – 13.42.
Implikasi Bisnis:
Jika keputusan operasional membutuhkan presisi tinggi (misalnya
kapasitas server jangka pendek), CI 90% bisa
digunakan.
Untuk keputusan strategis (forecast pendapatan, evaluasi fitur
baru), CI 95% atau 99% lebih
aman.
Karena seluruh interval berada di atas angka 12,
ini menunjukkan fitur baru kemungkinan meningkatkan aktivitas transaksi
pengguna.
Case Study 2
Interval Kepercayaan untuk Rata-rata, \(\sigma\) Tidak Diketahui: Sebuah
tim Riset UX menganalisis waktu penyelesaian
tugas (dalam menit) untuk aplikasi seluler baru. Data
dikumpulkan dari 12 pengguna :
\[
8.4,\; 7.9,\; 9.1,\; 8.7,\; 8.2,\; 9.0,\;
7.8,\; 8.5,\; 8.9,\; 8.1,\; 8.6,\; 8.3
\]
Tugas:
Identifikasi uji statistik yang tepat dan jelaskan
alasannya.
itung Interval Kepercayaan untuk:
\(90\%\)
\(95\%\)
\(99\%\)
Visualisasikan ketiga interval tersebut dalam satu plot.
Jelaskan bagaimana ukuran sampel dan tingkat
kepercayaan memengaruhi lebar interval.
Identifikasi uji
statistik yang tepat dan jelaskan alasannya
Confidence Interval (CI) digunakan untuk
mengestimasi rentang nilai rata-rata populasi berdasarkan data sampel.
Pada kasus ini, standar deviasi populasi (σ) tidak
diketahui dan ukuran sampel kecil (n < 30), sehingga
digunakan distribusi t-Student.
Rumus umum:
\[
CI = \bar{x} \pm t_{\alpha/2,df}\left(\frac{s}{\sqrt{n}}\right)
\]
Dimana:
\(\bar{x}\) =
rata-rata sampel.
𝑠 = standar deviasi sampel.
𝑛 = ukuran sampel.
𝑑𝑓 =𝑛−1
\(t_{\alpha/2,df}\) = nilai kritis
distribusi t.
Uji Statistik Yang Digunakan:
One-Sample t Confidence Interval.
Alasan:
Simpangan baku populasi (σ) tidak
diketahui.
Ukuran sampel kecil (n = 12 < 30).
Data diasumsikan berasal dari populasi yang mendekati distribusi
normal.
Data numerik dan kontinu.
Statistik Sample:
\[
\bar{x}=8.45
\]
\[
s=0.4079
\]
\[
n=12,df=11
\]
\[
SE = \frac{s}{\sqrt{n}}=0.1179
\]
Confidence
Interval
\[
t_{0.05,11}=1.7959
\]
\[
CI_{90\%} = (8.238,\: 8.662)
\]
\[
t_{0.025,11} = 2.2010
\]
\[
CI_{95\%} = (8.190,\: 8.710)
\]
\[
t_{0.005,11} = 3.1058
\]
\[
CI_{99\%} = (8.084,\: 8.816)
\]
Visualisassi
Interpretasi Grafik:
Interval 99% paling lebar, diikuti 95%
dan 90%
Ketidakpastian lebih besar karena σ populasi
tidak diketahui
Titik hitam menunjukkan rata-rata sampel \(\bar{x}\)
PENGARUH UKURAN
SAMPEL & CONFIDENCE LEVEL
Pengaruh Ukuran Sampel (n):
n bertambah → SE mengecil.
Confidence interval menjadi lebih sempit.
Estimasi mean lebih presisi.
Pengaruh Confidence Level:
Confidence level lebih tinggi (99%) → interval lebih
lebar.
Confidence level lebih rendah (90%) → interval lebih
sempit.
Ada trade-off antara keyakinan dan ketelitian.
INTERPRETASI (KONTEKS UX):
Dengan confidence level 95%, rata-rata waktu
penyelesaian tugas pengguna berada antara 8.19 hingga 8.71
menit.
Hal ini menunjukkan bahwa performa aplikasi relatif konsisten,
meskipun jumlah pengguna yang diuji masih terbatas.
Case Study 3
Interval Kepercayaan untuk Proporsi, Pengujian A/B:
Sebuah tim ilmu data menjalankan pengujian A/B pada
desain tombol Ajakan Bertindak (Call-To-Action/CTA) baru. Hasil
eksperimennya adalah:
\[
\begin{eqnarray*}
n &=& 400 \quad \text{(jumlah pengguna)} \\
x &=& 156 \quad \text{(pengguna yang mengklik CTA)}
\end{eqnarray*}
\]
Tugas:
Hitung proporsi sampel \(\hat{p}\) .
Hitung Interval Kepercayaan untuk proporsi pada:
\(90\%\)
\(95\%\)
\(99\%\)
Visualisasikan dan bandingkan ketiga interval tersebut.
Jelaskan bagaimana tingkat kepercayaan memengaruhi pengambilan
keputusan dalam eksperimen produk.
SAMPLE
PROPORTION
Rumus umum CI Proporsi:
\[
\hat{p} \pm Z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}
\]
\[
\hat{p} = \frac{156}{400} = 0.39
\]
Artinya: 39% pengguna mengklik CTA.
CONFIDENCE
INTERVAL
Standar Error (SE):
\[
SE = \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}
\]
\[
= \sqrt{\frac{0.39(1-0.39)}{400}}
\]
\[
= \sqrt{\frac{0.39(0.61)}{400}}
\]
\[
= 0.0244
\]
\[
𝑍_{0.05}=1.645
\]
\[
CI_{90\%}=(0.350,\:0.430)
\]
\[
Z_{0.025}=1.96
\]
\[
CI_{95\%}=(0.342,\:0.438)
\]
\[
Z_{0.005}=2.576
\]
\[
CI_{99\%}=(0.327,\:0.453)
\]
VISUALISASI
Interpretasi grafik:
CI 99% paling lebar (paling
konservatif).
CI 90% paling sempit (lebih presisi).
Titik menunjukkan estimasi CTR = 0.39.
PENGARUH
CONFIDENCE LEVEL
Confidence Level Rendah (90%):
Confidence Level Tinggi (99%):
Praktik Umum Produk:
95% CI paling sering digunakan → keseimbangan
antara kecepatan eksperimen & kepercayaan hasil.
INTERPRETASI BISNIS:
Dengan 95% confidence, tingkat klik CTA berada
antara 34.2% hingga 43.8%. Jika batas bawah CI masih
lebih tinggi dari desain lama, maka desain CTA baru layak untuk
diluncurkan.
Case Study 4
Perbandingan Presisi (Uji Z vs Uji t): Dua tim data
mengukur latensi API (dalam milidetik) dalam kondisi
yang berbeda.
\[\begin{eqnarray*}
\text{Team A:} \\
n &=& 36 \quad \text{(sample size)} \\
\bar{x} &=& 210 \quad \text{(sample mean)} \\
\sigma &=& 24 \quad \text{(known population standard deviation)}
\\[6pt]
\text{Team B:} \\
n &=& 36 \quad \text{(sample size)} \\
\bar{x} &=& 210 \quad \text{(sample mean)} \\
s &=& 24 \quad \text{(sample standard deviation)}
\end{eqnarray*}\]
Tugas:
Identifikasi uji statistik yang digunakan oleh setiap tim.
Hitung Interval Kepercayaan untuk 90%, 95%, dan
99% .
Buat visualisasi yang membandingkan semua interval.
Jelaskan mengapa lebar interval berbeda , meskipun
dengan data yang serupa.
IDENTIFIKASI UJI
STATISTIK
Penentuan uji statistik didasarkan pada apakah deviasi standar
populasi diketahui atau hanya diestimasi dari sampel.
Team A (Uji Z): Menggunakan Uji Z
(One-sample Z-test) karena deviasi standar populasi
(\(\sigma\) ) diketahui
secara pasti.
Team B (Uji t): Menggunakan Uji t
(One-sample t-test) karena deviasi standar populasi tidak
diketahui, sehingga menggunakan deviasi standar sampel (\(s\) ). Meskipun ukuran sampel
(\(n = 36\) ) cukup
besar, distribusi \(t\) memberikan hasil yang lebih
konservatif dan tepat untuk data sampel.
Team A
Z Confidence Interval
σ diketahui
Team B
t Confidence Interval
σ tidak diketahui, pakai s
PERHITUNGAN
CONFIDENCE INTERVAL
Rumus umum untuk Interval Kepercayaan (CI):
\[\text{CI} = \bar{x} \pm (\text{Critical
Value}) \times \frac{s \text{ atau } \sigma}{\sqrt{n}}
\]
Standard Error (sama secara numerik):
\[
SE = \frac{24}{\sqrt{36}} = \frac{24}{6} = 4
\]
90%
1.645
(203.42 , 216.58)
95%
1.96
(202.16 , 217.84)
99%
2.576
(199.70 , 220.30)
90%
1.690
(203.24 , 216.76)
95%
2.030
(201.88 , 218.12)
99%
2.724
(199.10 , 220.90)
CI t-Test selalu sedikit lebih lebar.
VISUALISASI
PERBANDINGAN INTERVAL
Interpretasi Grafik:
Interval t-test lebih lebar dibanding Z-test.
Hal ini terjadi karena σ populasi tidak diketahui, sehingga
ketidakpastian lebih besar.
Pada confidence level yang sama, semakin tinggi level → interval
semakin lebar.
MENGAPA LEBAR
INTERVAL BERBEDA
Meskipun nilai rata-rata dan deviasi standarnya identik (24),
terdapat perbedaan lebar interval karena faktor ketidakpastian
(uncertainty):
Informasi yang Tersedia: Team A memiliki
informasi “pasti” mengenai populasi (\(\sigma\) ). Team B hanya memiliki
estimasi dari sampel (\(s\) ). Karena \(s\) bisa bervariasi dari satu
sampel ke sampel lainnya, Uji t menambahkan “margin pengaman” yang lebih
luas.
Karakteristik Distribusi: Distribusi
\(t\) memiliki ekor
yang lebih gemuk (heavier tails) dibandingkan distribusi Z. Ini berarti
pada tingkat kepercayaan yang sama, nilai kritis \(t\) akan selalu lebih besar
daripada nilai kritis \(Z\) .
Tingkat Kepercayaan: Semakin tinggi tingkat
kepercayaan (misal 99% ), semakin besar nilai kritis
yang digunakan, sehingga interval semakin lebar untuk memastikan
parameter populasi benar-benar tertangkap di dalamnya.
INTERPRETASI PRAKTIS (DATA ENGINEERING):
Team A bisa membuat keputusan lebih cepat karena estimasi lebih
presisi.
Team B lebih konservatif, cocok untuk sistem kritis.
Untuk latency API, interval sempit = kepercayaan tinggi terhadap
SLA.
Case Study 5
Interval Kepercayaan Satu Sisi: Sebuah perusahaan
Software as a Service (SaaS) ingin memastikan bahwa
setidaknya 70% pengguna aktif mingguan menggunakan
fitur premium.
Dari percobaan:
\[
\begin{eqnarray*}
n &=& 250 \quad \text{(total users)} \\
x &=& 185 \quad \text{(active premium users)}
\end{eqnarray*}
\]
Manajemen hanya tertarik pada batas bawah dari
estimasi tersebut.
Tugas:
Identifikasi jenis Interval Kepercayaan dan uji
yang sesuai.
Hitung Interval Kepercayaan bawah satu sisi pada:
\(90\%\)
\(95\%\)
\(99\%\)
Visualisasikan batas bawah untuk semua tingkat kepercayaan.
Tentukan apakah target 70% terpenuhi secara
statistik.
JENIS CONFIDENCE
INTERVAL & UJI STATISTIK
Jenis Interval: Lower One-Sided Confidence
Interval (Batas Bawah Satu Sisi). Manajemen hanya ingin
memastikan bahwa proporsi tidak jatuh di bawah angka tertentu
(70%).
Uji yang Sesuai: One-Sample Z-Test for
Proportions. Dengan \(n =
250\) , syarat normalitas terpenuhi karena \(np\) dan \(n(1-p)\) keduanya jauh di atas
10.
Alasan:
PERHITUNGAN
CONFIDENCE INTERVAL
Sample Proportion:
\[
\hat{p} = \frac{x}{n}= \frac{185}{250}= 0.74
\]
Standard Error:
\[
SE = \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}
\]
\[
= \sqrt{\frac{0.74(1-0.74)}{250}}
\]
\[
= \sqrt{\frac{0.74(0.26)}{250}}
\]
\[
= 0.0277
\]
Rumus One-Sided Lower CI:
\[
\text{Lower Bound} = \hat{p} - Z_{\alpha} \cdot SE
\]
One-Sided Lower Confidence Intervals:
90%
1.282
0.705
95%
1.645
0.694
99%
2.326
0.676
VISUALISASI LOWER
BOUNDS
Interpretasi grafik:
Titik = lower bound.
Garis vertikal = target 70% .
Jika titik berada di kanan garis, target terpenuhi.
Grafik menunjukkan bahwa hanya pada confidence level
90% , lower bound berada di atas target
70% . Pada confidence level 95% dan
99% , target belum terpenuhi.
APAKAH TARGET 70%
TERPENUHI
Kesimpulannya bergantung pada tingkat ketatnya standar yang
digunakan manajemen:
Pada Tingkat Kepercayaan 90%: TERPENUHI. Secara
statistik, kita yakin 90% bahwa setidaknya
70.45% pengguna adalah pengguna premium. Karena
70.45% > 70%, target tercapai pada level
ini.
Pada Tingkat Kepercayaan 95%: TIDAK TERPENUHI
(Secara Statistik). Batas bawah berada di 69.44%.
Meskipun sangat dekat, kita tidak bisa menjamin 100%
bahwa angka aslinya tidak berada di bawah 70% dengan
tingkat keyakinan ini.
Pada Tingkat Kepercayaan 99% : TIDAK TERPENUHI.
Margin kesalahan pada tingkat kepercayaan tinggi terlalu lebar, sehingga
batas bawah turun ke 67.56%.
90%
70.5%
Ya
95%
69.4%
Tidak
99%
67.6%
Tidak
INTERPRETASI BISNIS:
Dengan 90% confidence, perusahaan dapat
mengklaim target 70% tercapai.
Dengan 95% atau 99% confidence, bukti belum
cukup kuat.
Semakin tinggi confidence level → keputusan lebih
konservatif.
