Code
Ignasius Rabi Blolong
Student Majoring in Data Science at ITSB
R Programming Data Science Statistics
Cases Study Uji Z Satu
Sampel
Identifikasi
Masalah
Platform pembelajaran digital mengklaim rata-rata waktu belajar
harian penggunanya adalah 120 menit. Berdasarkan data historis, standar
deviasi populasi diketahui sebesar 15 menit. Sampel acak sebanyak 64
pengguna menunjukkan rata-rata waktu belajar 116 menit.
Jawaban Tugas
Uji Statistik yang
Tepat
Uji Z Satu Sampel : Karena Standar deviasi Populasi (\(\sigma\) ) diketahui dan ukuran sampel
besar(\(n > 30\) )
Statistik Uji
(Z-Test) dan P-Value
Karena standar deviasi populasi (\(\sigma\) ) diketahui dan ukuran sampel besar
(\(n > 30\) ), kita menggunakan
formula:
\[Z = \frac{\bar{x} - \mu_0}{\sigma /
\sqrt{n}}\]
Diketahui:
\(\bar{x} = 116\)
\(\mu_0 = 120\)
\(\sigma = 15\)
\(n = 64\)
Perhitungan Z- score
\[Z = \frac{116 - 120}{15 / \sqrt{64}} =
\frac{-4}{15 / 8} = \frac{-4}{1.875} = -2.133\]
Perhitungan P-value Untuk uji dua arah dengan \(Z= -2.133\) ,P-value adalah \(P(|Z|>2.133) \approx 0.0329\)
Keputusan
Statistik
Pada tingkat signifikansi \(\alpha =
0.05\) , nilai kritis \(Z\)
adalah \(\pm 1.96\) . Karena \(|-2.133| > 1.96\) , maka: \[\text{Keputusan: Tolak } H_0\]
Interpretasi
Konteks Bisnis
Ada bukti statistik yang cukup untuk menyatakan bahwa klaim platform
(120 menit) tidak akurat. Secara rata-rata, pengguna belajar lebih
sedikit daripada yang diklaim oleh perusahaan.
Case Study One-Sample
T-Test
Identifikasi
Masalah
Tim UX Research menyelidiki apakah rata-rata waktu penyelesaian tugas
aplikasi baru berbeda dari 10 menit. Data dari 10 pengguna adalah: \(9.2,10.5,9.8,10.1,9.6,10.3,9.9,9.7,10.0,9.5.\)
Data Diketahui:
Jawaban Tugas
Statistik Uji
(T-Test)
Karena \(\sigma\) tidak diketahui
dan sampel kecil (\(n = 10\) ), kita
menggunakan distribusi-t:
\[t = \frac{\bar{x} - \mu_0}{s /
\sqrt{n}}\]
Langkah
Perhitungan Parameter Sampel:
Mean (\(\bar{x}\) ): \[\bar{x} = \frac{\sum x_i}{n} =
9.86\]
Standar Deviasi Sampel (\(s\) ):
\[s = \sqrt{\frac{\sum (x_i -
\bar{x})^2}{n - 1}} \approx 0.395\]
Perhitungan
T-Statistic:
\[t = \frac{9.86 - 10}{0.395 / \sqrt{10}}
= \frac{-0.14}{0.1249} \approx -1.121\]
Keputusan
Statistik
Dengan \(df = n - 1 = 9\) dan \(\alpha = 0.05\) , nilai kritis \(t\) dari tabel adalah \(\pm 2.262\) . Karena \(|-1.121| < 2.262\) , maka: \[\text{Keputusan: Gagal Tolak } H_0\]
Interpretasi
Bisnis
Pengaruh Ukuran Sampel terhadap Reliabilitas Inferensial ;Sampel yang
kecil (seperti n=10) meningkatkan Standard Error. Ini berarti hasil
kurang presisi dan memiliki kekuatan statistik (power) yang lebih rendah
untuk mendeteksi perbedaan nyata. Sampel yang lebih besar akan
memberikan estimasi yang lebih stabil dan reliabel terhadap parameter
populasi.
Case Study Two-Sample
T-Test (A/B Testing)
Identifikasi
Masalah
Membandingkan rata-rata durasi sesi antara dua versi landing
page.
\(Versi A: n1=25, \bar{x}_1=4.8,
s_1=1.2\)
\(Versi B: n2=25, \bar{x}_2=5.4,
s_2=1.4\)
\(α=0.05\)
Statistik Uji
(Independent T-Test)
Karena kita membandingkan dua kelompok independen dengan varians yang
diasumsikan sama, kita menggunakan Pooled Variance :
Varians Gabungan (\(s_p^2\) ):
\[s_p^2 = \frac{(n_1-1)s_1^2 +
(n_2-1)s_2^2}{n_1 + n_2 - 2}\] \[s_p^2
= \frac{(25-1)1.2^2 + (25-1)1.4^2}{25 + 25 - 2} = \frac{34.56 +
47.04}{48} = 1.7\]
T-Statistic (\(t\) ):
\[t = \frac{\bar{x}_1 -
\bar{x}_2}{\sqrt{s_p^2 \left(\frac{1}{n_1} +
\frac{1}{n_2}\right)}}\] \[t =
\frac{4.8 - 5.4}{\sqrt{1.7 \left(\frac{1}{25} + \frac{1}{25}\right)}} =
\frac{-0.6}{\sqrt{0.136}} \approx -1.627\]
Keputusan
Statistik
Dengan \(df = 48\) dan \(\alpha = 0.05\) , nilai kritis \(t\) adalah sekitar \(\pm 2.01\) . Karena \(|-1.627| < 2.01\) , maka: \[\text{Keputusan: Gagal Tolak } H_0\]
Interpretasi
Bisnis
Keputusan Produk: Tidak ada perbedaan signifikan secara statistik.
Perubahan desain belum tentu meningkatkan durasi sesi secara nyata.
Case Study Chi-Square
Test of Independence
Data Observasi
Tabel 1: Data Observasi Penggunaan Perangkat dan
Pembayaran
Mobile
120
80
50
Desktop
60
90
40
Jawaban Tugas
Hipotesis Nol dan
Hipotesis Alternatif
Menguji keterkaitan antara jenis perangkat dan metode pembayaran:
Uji Statistik
(\(\chi^2\) )
Uji Statistik yang Tepat: Uji Chi-Square untuk Independensi (\(\chi^2\) ), karena kita menguji hubungan
antara dua variabel kategorikal.
Perhitungan
Statistik (\(\chi^2\) )
Rumus dasar Chi-Square adalah perbandingan antara nilai observasi
(\(O\) ) dan nilai harapan (\(E\) ):
\[\chi^2 = \sum \frac{(O_{i} -
E_{i})^2}{E_{i}}\]
Perhitungan Nilai Harapan (\(E\) ): Untuk setiap sel dalam
tabel, nilai harapan dihitung dengan:
\[E = \frac{(\text{Total Baris} \times
\text{Total Kolom})}{\text{Grand Total}}\]
Contoh Perhitungan Sel (Mobile, E-Wallet):
\[E_{1,1} = \frac{250 \times 180}{440}
\approx 102.27\]
Menentukan p-value
pada \(α=0.05\) :
Berdasarkan perhitungan R di atas, \(p-value = 0.003102\) .
Karena \(0.0031<0.05\) , maka
kita Tolak \(H_0\)
Interpretasi dalam
Strategi Pembayaran Digital:
Hasil menunjukkan bahwa tipe perangkat secara signifikan memengaruhi
pilihan pembayaran. Pengguna Mobile cenderung lebih banyak menggunakan
E-Wallet, sedangkan pengguna Desktop memiliki proporsi penggunaan Kartu
Kredit yang lebih tinggi. Perusahaan harus mengoptimalkan antarmuka
pembayaran digital sesuai dengan perangkat yang digunakan pelanggan.
Case Study Type I and
Type II Errors (Conceptual)
Definisi Masalah
Sebuah startup fintech sedang menguji apakah algoritma
deteksi fraud yang baru dapat mengurangi transaksi penipuan.
\(H_0\) (Hipotesis
Nol): Algoritma baru tidak mengurangi
fraud.
\(H_1\) (Hipotesis
Alternatif): Algoritma baru mengurangi
fraud.
Jawaban tugas
Penjelasan
Kesalahan Tipe I (\(\alpha\) )
Kesalahan Tipe I terjadi ketika kita menolak \(H_0\) , padahal \(H_0\) sebenarnya benar.
Dalam konteks ini: Kita menyimpulkan bahwa
algoritma baru efektif mengurangi fraud, padahal kenyataannya algoritma
tersebut tidak memberikan perubahan apa pun .
Dampak: Perusahaan membuang sumber daya untuk
mengimplementasikan teknologi yang tidak berguna.
Penjelasan
Kesalahan Tipe II (\(\beta\) )
Kesalahan Tipe II terjadi ketika kita gagal menolak
\(H_0\) , padahal \(H_1\) benar.
Dalam konteks ini: Kita menyimpulkan bahwa
algoritma baru tidak efektif, padahal kenyataannya algoritma tersebut
berhasil mengurangi fraud .
Dampak: Perusahaan melewatkan peluang besar
untuk mengamankan transaksi pelanggan dari penipuan.
Mana yang Lebih
Merugikan secara Bisnis?
Secara umum bagi startup fintech , Kesalahan Tipe II
(\(\beta\) ) seringkali
dianggap lebih mahal. * Jika terjadi Kesalahan Tipe II, sistem keamanan
tetap lemah sehingga transaksi fraud terus terjadi. Ini menyebabkan
kerugian finansial langsung bagi pelanggan dan merusak
reputasi/kepercayaan terhadap perusahaan.
Pengaruh Ukuran
Sampel (Sample Size ) terhadap Kesalahan Tipe II
Terdapat hubungan terbalik antara ukuran sampel dan \(\beta\) :
Semakin besar ukuran sampel (\(n\) ), maka probabilitas terjadinya
Kesalahan Tipe II (\(\beta\) ) akan
semakin mengecil.
Sampel yang lebih besar memberikan lebih banyak informasi,
sehingga tes statistik menjadi lebih sensitif dalam mendeteksi adanya
efek nyata (perubahan) dari algoritma baru.
Hubungan antara
\(\alpha\) , \(\beta\) , dan Statistical Power
Ketiga konsep ini saling berkaitan erat:
Statistical Power (\(1 -
\beta\) ): Adalah kemampuan tes untuk mendeteksi efek
yang benar-benar ada (menolak \(H_0\)
yang salah).
Trade-off \(\alpha\) dan
\(\beta\) : Jika kita
memperketat \(\alpha\) (misalnya dari
0.05 ke 0.01) untuk menghindari kesalahan Tipe I, maka probabilitas
Kesalahan Tipe II (\(\beta\) ) biasanya
akan meningkat, yang berarti Power menurun.
Meningkatkan Power: Cara paling efektif untuk
menurunkan \(\beta\) tanpa meningkatkan
\(\alpha\) adalah dengan memperbesar
ukuran sampel .
Case Study P-Value and
Statistical Decision Making
Analisis Hasil
Evaluasi Model
Berdasarkan evaluasi model prediksi churn , didapatkan data
berikut:
Jawaban Tugas
Makna dari
p-value
\(p\text{-value}\) sebesar
0.021 berarti jika kita mengasumsikan hipotesis nol
(\(H_0\) ) benar (artinya model tidak
memiliki kemampuan prediksi), maka probabilitas untuk mendapatkan hasil
statistik uji sebesar 2.31 atau lebih secara tidak sengaja hanyalah
2.1% . Karena probabilitas ini sangat kecil, kita
meragukan kebenaran \(H_0\) .
Keputusan
Statistik
Untuk mengambil keputusan, kita membandingkan nilai \(p\) dengan ambang batas \(\alpha\) :
Kriteria Keputusan: * Jika \(p\text{-value} \le \alpha \Rightarrow\)
Tolak \(H_0\) * Jika \(p\text{-value} > \alpha \Rightarrow\)
Gagal Tolak \(H_0\)
Perhitungan: \[0.021 \le
0.05\]
Keputusan: Tolak \(H_0\) . Hasil pengujian ini
dinyatakan signifikan secara statistik pada tingkat
kepercayaan 95%.
Interpretasi
Manajerial (Bahasa Non-Teknis)
“Hasil analisis kami menunjukkan bahwa model prediksi churn
ini bekerja dengan sangat baik. Kemungkinan hasil ini benar hanya karena
kebetulan sangatlah rendah (kurang dari 3%). Oleh karena itu, kita dapat
menggunakan model ini dengan percaya diri untuk mengidentifikasi
pelanggan yang berisiko berhenti berlangganan.”
Risiko Sampel Tidak
Representatif
Jika sampel yang digunakan untuk mengevaluasi model tidak mewakili
seluruh populasi pelanggan (misalnya hanya mengambil data dari pelanggan
lama), maka muncul risiko:
Bias Generalisasi: Model mungkin terlihat akurat
dalam pengujian, namun gagal saat diterapkan pada pelanggan baru atau
segmen yang berbeda.
Kesalahan Strategi: Manajemen mungkin salah
mengalokasikan anggaran promosi karena prediksi model yang tidak akurat
di lapangan.
Mengapa p-value
Tidak Mengukur Effect Size?
\(p\text{-value}\) hanya
menginformasikan apakah sebuah efek ada atau tidak
(signifikansi), bukan seberapa besar dampak efek
tersebut terhadap bisnis.
Hubungan matematisnya secara konseptual adalah: \[\text{Test Statistic} = \text{Effect Size} \times
\sqrt{\text{Sample Size}}\]
Dengan jumlah sampel (\(n\) ) yang
sangat besar, efek yang sangat kecil pun dapat menghasilkan \(p\text{-value}\) yang signifikan secara
statistik, meskipun secara praktis efek tersebut tidak memberikan
keuntungan finansial yang berarti bagi perusahaan.
