Statistical Inferences
Study Cases
Nailatul Wafiroh
Student Major in Data Science
Lecturer: Bakti Siregar, M.Sc., CDS
1 Studi Kasus 1
a. Uji Z Satu Sampel (Hipotesis Statistik)
Sebuah platform pembelajaran digital mengklaim bahwa rata-rata waktu belajar harian penggunanya adalah 120 menit. Berdasarkan catatan historis, simpangan baku populasi diketahui sebesar 15 menit.
Sebuah sampel acak yang terdiri dari 64 pengguna menunjukkan rata-rata waktu belajar sebesar 116 menit.
\[ \begin{eqnarray*} \mu_0 &=& 120 \\ \sigma &=& 15 \\ n &=& 64 \\ \bar{x} &=& 116 \end{eqnarray*} \]
b. Tugas
- Rumuskan Hipotesis Nol (H₀) dan Hipotesis Alternatif (H₁)..
- Identifikasi uji statistik yang tepat dan berikan justifikasi pilihan Anda.
- Hitung statistik uji dan nilai p menggunakan \(\alpha = 0,05\).
- Nyatakan keputusan statistik.
- Interpretasikan hasilnya dalam konteks analitik bisnis.
1.1 Pembahasan
1.1.1 Hipotesis Statistik
Karena platform mengklaim rata-rata = 120 menit, dan kita ingin menguji apakah data berbeda dari klaim tersebut, maka digunakan uji dua arah (two-tailed).
- Hipotesis Nol (H₀): μ = 120 menit
Rata-rata waktu belajar harian populasi adalah 120 menit (klaim platform benar)
- Hipotesis Alternatif (H₁): μ ≠ 120 menit
Rata-rata waktu belajar harian populasi berbeda dari 120 menit (uji dua sisi)
1.1.2 Uji Statistik yang Sesuai
Uji yang Dipilih: Uji Z Satu Sampel (One-Sample Z-Test)
Justifikasi:
- Standar deviasi populasi (σ = 15 menit) diketahui
- Ukuran sampel (n = 64) besar (n ≥ 30), memenuhi Teorema Limit Pusat
- Kita menguji apakah rata-rata sampel berbeda dari rata-rata populasi yang diklaim
- Distribusi sampling dari rata-rata mendekati distribusi normal
1.1.3 Perhitungan Statistik Uji dan Nilai-p
Diketahui:
\[ \mu_0 = 120,\quad \sigma = 15,\quad n = 64,\quad \bar{x} = 116 \]
Langkah 1: Hitung Standard Error (SE)
\[ SE = \frac{\sigma}{\sqrt{n}} = \frac{15}{\sqrt{64}} = \frac{15}{8} = 1.875 \]
Langkah 2: Hitung Statistik Z
\[ Z = \frac{\bar{x} - \mu_0}{SE} = \frac{116 - 120}{1.875} = \frac{-4}{1.875} = -2.13 \]
Langkah 3: Hitung p-value
Untuk uji dua arah (two-tailed test):
\[ \textit{p-value} = 2 \times P(Z \le -2.13) \approx 2 \times 0.0165 = 0.033 \]
P(Z < -2,133) = 0,0165 (ekor kiri)
P(Z > 2,133) = 0,0165 (ekor kanan)
nilai-p = 2 × 0,0165 = 0,0330
1.1.4 Keputusan Statistik
Keputusan: Tolak Hipotesis Nol (H₀)
Alasan:
- nilai-p (0,0330) < α (0,05)
- Statistik uji Z = -2,133 berada di daerah penolakan (|Z| > 1,96 untuk α = 0,05, dua sisi)
- Terdapat cukup bukti statistik untuk menolak klaim platform
1.1.5 Interpretasi dalam Konteks Business Analytics
Klaim platform bahwa pengguna belajar 120 menit tidak terbukti secara data. Kenyataannya, waktu belajar lebih rendah (116 menit) dan perbedaan ini dianggap signifikan, bukan karena kebetulan.
Poin Penting untuk Bisnis:
Target Tidak Tercapai: Performa keterlibatan pengguna (user engagement) berada di bawah standar yang diklaim perusahaan.
Koreksi Strategi: Perusahaan harus berhenti menggunakan angka 120 menit dalam promosi agar tidak menyesatkan, atau segera mencari cara (seperti fitur baru) untuk menaikkan kembali waktu belajar pengguna.
Interpretasi:
Grafik menunjukkan distribusi normal dengan area ungu di bagian tengah sebagai daerah penerimaan, serta area biru muda (kiri) dan merah muda (kanan) sebagai daerah penolakan.
Garis biru solid merepresentasikan rata-rata sampel sebesar x̄ = 116 menti, yang berada di daerah penolakan kiri. Nilai statistik uji yang diperoleh adalah Z = −2,13 dengan p-value = 0,033, yang lebih kecil dari tingkat signifikansi α = 0,05.
Karena nilai statistik uji berada di luar daerah penerimaan dan p-value lebih kecil dari α, maka hipotesis nol (H₀) ditolak.
Kesimpulan:
Rata-rata waktu belajar pengguna sebesar 116 menit secara statistik lebih rendah dari klaim platform sebesar 120 menit. Perbedaan ini signifikan dan tidak dapat dijelaskan oleh kebetulan semata, sehingga klaim rata-rata waktu belajar platform tidak didukung
2 Studi Kasus 2
a. Uji T Satu Sampel (σ Tidak Diketahui, Sampel Kecil)
Sebuah Tim Riset UX menyelidiki apakah rata-rata waktu penyelesaian tugas dari aplikasi baru berbeda dari 10 menit.
Data berikut dikumpulkan dari 10 pengguna:
\[ 9.2,\; 10.5,\; 9.8,\; 10.1,\; 9.6,\; 10.3,\; 9.9,\; 9.7,\; 10.0,\; 9.5 \]
b. Tugas
- Definisikan H₀ dan H₁ (dua arah).
- Tentukan uji hipotesis yang tepat.
- Hitung statistik t dan nilai p pada \(\alpha = 0,05\).
- Buat keputusan statistik.
- Jelaskan bagaimana ukuran sampel memengaruhi reliabilitas inferensial.
2.1 Pembahasan
2.1.1 Hipotesis Statistik (H₀ dan H₁)
Karena ingin menguji apakah rata-rata berbeda dari 10 menit, maka digunakan uji dua arah (two-tailed).
- Hipotesis Nol (H₀): μ = 10 menit
Rata-rata waktu penyelesaian tugas adalah 10 menit
- Hipotesis Alternatif (H₁): μ ≠ 10 menit
Rata-rata waktu penyelesaian tugas berbeda dari 10 menit (uji dua sisi)
2.1.2 Uji Hipotesis yang Sesuai
Uji yang Dipilih: One-Sample T-Test
Justifikasi:
| Kriteria | Kondisi | Kesimpulan |
|---|---|---|
| Standar Deviasi Populasi (σ) | Tidak diketahui | Gunakan T-test |
| Ukuran Sampel | n = 10 (kecil, < 30) | Gunakan T-test |
| Distribusi Data | Diasumsikan normal | T-test sesuai |
2.1.3 Perhitungan T-Statistik dan P-Value
Data Sampel
\[ 9.2,\ 10.5,\ 9.8,\ 10.1,\ 9.6,\ 10.3,\ 9.9,\ 9.7,\ 10.0,\ 9.5 \]
Langkah 1: Hitung Rata-rata Sampel
Jumlah data: \[ \sum x = 98.6 \]
Rata-rata sampel: \[ \bar{x} = \frac{98.6}{10} = 9.86 \]
Langkah 2: Hitung Simpangan Baku Sampel
Simpangan baku sampel diperoleh sebesar: \[ s \approx 0.406 (≈0.41) \]
Langkah 3: Hitung Standard Error (SE)
\[ SE = \frac{s}{\sqrt{n}} = \frac{0.406}{\sqrt{10}} \approx 0.128 \]
Langkah 4: Hitung Statistik
\[ t = \frac{\bar{x} - \mu_0}{SE} = \frac{9.86 - 10}{0.128} \approx −1.09 \]
Derajat kebebasan: \[ df = n - 1 = 9 \]
Perhitungan
Untuk uji dua arah dengan \(df = 9\):
\[ \textit{p-value} = 2 \times P(t \le −1.09) \approx 0.30 \]
2.1.4 Keputusan Statistik
Keputusan: Gagal Tolak \(H_0\) (Fail to Reject H₀)
Alasan:
- \(p\text{-value}\) (0,305) > \(\alpha\) (0,05) \(\rightarrow\) tidak signifikan.
- \(|t| = 1,09 < t_{kritis} = 2,262\) \(\rightarrow\) berada di daerah penerimaan (Gagal Tolak \(H_0\)).
- Interval Kepercayaan: Rentang estimasi mencakup angka 10, yang berarti rata-rata 10 menit masih sangat mungkin benar secara statistik.
Interpretasi:
Tidak ada cukup bukti statistik untuk menyimpulkan bahwa rata-rata waktu penyelesaian tugas berbeda dari 10 menit. Perbedaan yang diamati (9.86 vs 10 menit) dapat dijelaskan oleh variasi sampling acak.
2.1.5 Pengaruh Ukuran Sampel terhadap Reliabilitas Inferensi
Sampel Kecil (\(n=10\)): Lebih rentan terhadap noise atau data ekstrem (outlier). Margin kesalahan (margin of error) lebih besar, sehingga hasil kurang presisi.
Sampel Besar: Meningkatkan kekuatan uji statistik (statistical power). Semakin banyak data, semakin kecil standar error, sehingga hasil analisis lebih mencerminkan kenyataan populasi yang sebenarnya.
Interpretasi:
Visualisasi menggunakan distribusi t dengan warna hijau dominan untuk menandakan hasil yang aman atau tidak signifikan secara statistik. Garis hijau solid menunjukkan rata-rata sampel x̄ = 9,86 menti, yang berada di dalam daerah penerimaan.
Nilai statistik uji t = −1,09 tidak melampaui batas kritis ±2,262, dan p-value = 0,305 lebih besar dari tingkat signifikansi α = 0,05. Hal ini menunjukkan bahwa perbedaan yang diamati belum cukup kuat secara statistik.
Interval kepercayaan 95% yang ditunjukkan oleh panah hijau mencakup nilai 10 menit, yaitu nilai yang diasumsikan pada hipotesis nol (H₀). Ini mengindikasikan bahwa nilai target tersebut masih konsisten dengan data sampel.
Keputusan:
Hipotesis nol (H₀) gagal ditolak. Rata-rata waktu penyelesaian tugas aplikasi UX sebesar 9,86 menit tidak berbeda secara signifikan dari target 10 menit. Selisih sebesar 0,14 menit kemungkinan besar disebabkan oleh variasi sampling acak, bukan perubahan performa yang nyata.
3 Studi Kasus 3
a. Uji T Dua Sampel (Pengujian A/B)
Sebuah tim analitik produk melakukan uji A/B untuk membandingkan durasi sesi rata-rata (menit) antara dua versi halaman arahan.
| Versi | Ukuran Sampel (n) | Rata-rata | Deviasi Standar |
|---|---|---|---|
| A | 25 | 4.8 | 1.2 |
| B | 25 | 5.4 | 1.4 |
b. Tugas
- Rumuskan hipotesis nol dan alternatif.
- Identifikasi jenis uji t yang dibutuhkan.
- Hitung statistik uji dan nilai p.
- Tarik kesimpulan statistik pada \(\alpha = 0,05\).
- Interpretasikan hasilnya untuk pengambilan keputusan produk.
3.1 Pembahasan
3.1.1 Perumusan Hipotesis
Karena ingin membandingkan rata-rata durasi sesi dua versi dan tidak disebutkan arah tertentu, maka digunakan uji dua arah (two-tailed).
\(H_0\) (Null): \(\mu_A = \mu_B\)(Tidak ada perbedaan rata-rata durasi sesi antara Versi A dan Versi B).
\(H_1\) (Alternatif): \(\mu_A \neq \mu_B\)(Ada perbedaan signifikan antara rata-rata durasi sesi Versi A dan Versi B).
3.1.2 Jenis Uji T yang Digunakan
Uji yang Dipilih: Independent Two-Sample T-Test (Uji T dua sampel independen).
Justifikasi:
- Dua kelompok independen (pengguna Versi A dan Versi B berbeda)
- Standar deviasi populasi tidak diketahui
- Ukuran sampel relatif kecil–menengah (\(n = 25\) per kelompok)
- Data bersifat numerik (durasi waktu)
Digunakan uji t dua sampel
(dengan asumsi varians sama karena ukuran sampel seimbang)
3.1.3 Perhitungan Test Statistic dan P-Value
Data
Versi A:
- Ukuran sampel: \(n_1 = 25\)
- Rata-rata sampel: \(\bar{x}_1 = 4.8\)
- Simpangan baku: \(s_1 = 1.2\)
Versi B:
- Ukuran sampel: \(n_2 = 25\)
- Rata-rata sampel: \(\bar{x}_2 = 5.4\)
- Simpangan baku: \(s_2 = 1.4\)
Langkah 1: Hitung Varians Gabungan (Pooled Variance)
\[ s_p^2 = \frac{(n_1 - 1)s_1^2 + (n_2 - 1)s_2^2}{n_1 + n_2 - 2} \]
\[ s_p^2 = \frac{24(1.2^2) + 24(1.4^2)}{48} = \frac{34.56 + 47.04}{48} = 1.70 \]
\[ s_p = \sqrt{1.70} \approx 1.30 \]
Langkah 2: Hitung Standard Error (SE)
\[ SE = s_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}} \]
\[ SE = 1.30 \sqrt{\frac{1}{25} + \frac{1}{25}} = 1.30 \sqrt{0.08} \approx 0.37 \]
Langkah 3: Hitung Statistik Uji t
\[ t = \frac{\bar{x}_1 - \bar{x}_2}{SE} \]
\[ t = \frac{4.8 - 5.4}{0.37} \approx -1.62 \]
Derajat Kebebasan
\[ df = n_1 + n_2 - 2 = 48 \]
Perhitungan p-value
Untuk uji dua arah dengan \(df = 48\):
\[ p\text{-value} = 2 \times P(t \le -1.62) \approx 0.11 \]
3.1.4 Keputusan Statistik
Keputusan: Gagal Tolak \(H_0\).
Alasan:
p-value (0.1096) > α (0.05) Tidak mencapai tingkat signifikansi
|t| = 1.626 < t_critical = 2.012 Statistik uji berada di daerah penerimaan
Confidence Interval 95% mencakup 0: [-1.34, 0.14] Nol (tidak ada perbedaan) adalah nilai yang masuk akal
Interpretasi Statistik:
Tidak ada cukup bukti statistik untuk menyimpulkan bahwa rata-rata durasi sesi berbeda secara signifikan antara Version A dan Version B. Meskipun Version B menunjukkan durasi sesi rata-rata yang lebih tinggi (5.4 vs 4.8 menit), perbedaan ini dapat dijelaskan oleh variasi sampling acak.
3.1.5 Interpretasi untuk Keputusan Produk
Secara statistik, tidak ada perbedaan yang signifikan antara Versi A dan Versi B. Meskipun Versi B terlihat memiliki durasi lebih lama (5.4 menit vs 4.8 menit), perbedaan ini kemungkinan besar hanya karena faktor kebetulan (variasi acak).
Keputusan Produk:
- Jangan buru-buru mengganti seluruh halaman ke Versi B.
- Saran: Jalankan tes lebih lama atau tambah ukuran sampel untuk memastikan apakah perbedaan tersebut benar-benar ada atau memang tidak ada pengaruhnya sama sekali.
Interpretasi:
a. Grafik A/B testing ini menampilkan distribusi perbedaan rata-rata durasi penggunaan antara Versi A dan Versi B (μA − μB). Kotak informasi di bagian atas menunjukkan bahwa Versi A memiliki rata-rata durasi 4,8 menit, sedangkan Versi B memiliki rata-rata 5,4 menit.
b. Garis hijau menunjukkan perbedaan rata-rata yang teramati sebesar −0,6 menit, yang berada di daerah penerimaan. Nilai statistik uji t = −1,62 tidak melampaui batas kritis ±2,012, dan p-value = 0,110 lebih besar dari tingkat signifikansi α = 0,05.
c. Interval kepercayaan 95% sebesar [−1,34, 0,14] mencakup nilai 0, yang mengindikasikan bahwa perbedaan rata-rata yang diamati masih konsisten dengan kondisi tidak ada perbedaan nyata antara kedua versi.
Keputusan:
Hipotesis nol (H₀) gagal ditolak. Meskipun secara deskriptif Versi B tampak memiliki durasi penggunaan yang lebih tinggi, perbedaan tersebut tidak signifikan secara statistik dan dapat terjadi karena variasi acak. Oleh karena itu, belum ada dasar statistik yang cukup untuk langsung melakukan deploy Versi B tanpa pengujian lanjutan dengan ukuran sampel yang lebih besar.
4 Studi Kasus 4
a. Uji Independensi Chi-Square
Sebuah perusahaan e-commerce meneliti apakah jenis perangkat berhubungan dengan preferensi metode pembayaran.
| Device / Payment | E-Wallet | Credit Card | Cash on Delivery |
|---|---|---|---|
| Mobile | 120 | 80 | 50 |
| Desktop | 60 | 90 | 40 |
b. Tugas
- Nyatakan Hipotesis Nol (H₀) dan Hipotesis Alternatif (H₁).
- Identifikasi uji statistik yang tepat.
- Hitung statistik Chi-Square (χ²).
- Tentukan nilai p pada \(\alpha = 0,05\).
- Interpretasikan hasil tersebut dalam konteks strategi pembayaran digital.
4.1 Pembahasan
4.1.1 Perumusan Hipotesis
- \(H_0\) (Hipotesis Nol): Tidak ada hubungan antara tipe perangkat dan preferensi metode pembayaran (keduanya saling bebas/independen).
- \(H_1\) (Hipotesis Alternatif): Ada hubungan yang signifikan antara tipe perangkat dan preferensi metode pembayaran.
4.1.2 Uji Statistik yang Digunakan
Uji statistik yang digunakan adalah Chi-Square Test of Independence, karena:
- Kedua variabel bersifat kategorik
- Data disajikan dalam bentuk tabel kontingensi
- Tujuan analisis adalah menguji hubungan/ketergantungan antar variabel
4.1.3 Perhitungan Chi-Square Statistic (χ²)
Langkah 1: Tentukan Frekuensi Observasi (O)
Data yang diamati:
Mobile – E-Wallet: 120
Mobile – Credit Card: 80
Mobile – Cash on Delivery: 50
Desktop – E-Wallet: 60
Desktop – Credit Card: 90
Desktop – Cash on Delivery: 40
Langkah 2: Hitung Total Baris, Kolom, dan Total Keseluruhan
Total Mobile = \(120 + 80 + 50 = 250\)
Total Desktop = \(60 + 90 + 40 = 190\)
Total E-Wallet = \(120 + 60 = 180\)
Total Credit Card = \(80 + 90 = 170\)
Total Cash on Delivery = \(50 + 40 = 90\)
Total keseluruhan = \(250 + 190 = 440\)
Langkah 3: Hitung Frekuensi Harapan (E)
Rumus frekuensi harapan:
\[ E = \frac{(\text{Total Baris}) \times (\text{Total Kolom})}{\text{Total Keseluruhan}} \]
Contoh perhitungan:
Mobile – E-Wallet: \[ E = \frac{250 \times 180}{440} \approx 102.27 \]
Mobile – Credit Card: \[ E = \frac{250 \times 170}{440} \approx 96.59 \]
Mobile – Cash on Delivery: \[ E = \frac{250 \times 90}{440} \approx 51.14 \]
Desktop – E-Wallet: \[ E = \frac{190 \times 180}{440} \approx 77.73 \]
Desktop – Credit Card: \[ E = \frac{190 \times 170}{440} \approx 73.41 \]
Desktop – Cash on Delivery: \[ E = \frac{190 \times 90}{440} \approx 38.86 \]
Langkah 4: Hitung Nilai \(\chi^2\) per Sel
Rumus Chi-Square:
\[ \chi^2 = \sum \frac{(O - E)^2}{E} \]
Contoh:
- Mobile – E-Wallet: \[ \frac{(120 - 102.27)^2}{102.27} \approx 3.07 \]
Perhitungan dilakukan untuk seluruh sel, kemudian dijumlahkan.
Langkah 5: Hitung Nilai \(\chi^2\) Total
Hasil penjumlahan seluruh sel:
\[ \chi^2 \approx 13.77 \]
Langkah 6: Tentukan Derajat Kebebasan
\[ df = (r - 1)(c - 1) = (2 - 1)(3 - 1) = 2 \]
Langkah 7: Keputusan Statistik
Dengan: - \(\chi^2 = 13.77\) - \(df = 2\) - \(\alpha = 0.05\)
diperoleh:
\[ p\text{-value} < 0.01 \]
Keputusan Statistik: Tolak \(H_0\). Ada hubungan signifikan antara perangkat dan metode pembayaran.
4.1.4 Menentukan P-Value (α = 0.05)
Diketahui:
- Statistik uji: \(\chi^2 = 13.77\)
- Derajat kebebasan: \(df = 2\)
p-value dihitung sebagai: \[ p\text{-value} = P(\chi^2_{(df=2)} \ge 13.77) \]
Berdasarkan distribusi Chi-Square, diperoleh: \[ p\text{-value} < 0.01 \]
Karena \(p\text{-value} < 0.05\), maka;
Keputusan Statistik: Tolak \(H_0\). Ada hubungan signifikan antara perangkat dan metode pembayaran.
4.1.5 Interpretasi Strategi Digital Payment
Hasil ini menunjukkan bahwa perilaku pembayaran pelanggan berbeda tergantung perangkat yang mereka gunakan:
- Pengguna Mobile: Cenderung lebih menyukai E-Wallet (120 observasi vs 102 ekspektasi).
Strategi: Pastikan integrasi one-click payment dengan dompet digital (Gopay/OVO/ShopeePay) di aplikasi mobile sangat mulus.
- Pengguna Desktop: Lebih menyukai Credit Card (90 observasi vs 73 ekspektasi).
Strategi: Di versi desktop, berikan promo cicilan kartu kredit atau tampilan formulir kartu kredit yang lebih menonjol karena pengguna merasa lebih aman/nyaman bertransaksi besar di layar lebar.
Kesimpulan: Perusahaan sebaiknya memberikan promosi pembayaran yang berbeda (dipersonalisasi) berdasarkan perangkat yang digunakan pelanggan untuk meningkatkan konversi penjualan.
Interpretasi:
Heatmap menunjukkan bahwa pengguna mobile lebih memilih e-wallet, sedangkan pengguna desktop lebih memilih credit card. Warna merah berarti penggunaan lebih tinggi dari yang diharapkan, dan biru berarti lebih rendah. Metode Cash on Delivery tidak menunjukkan perbedaan berarti. Dengan χ² = 13,77 dan p < 0,01.
keputusan: tolak H₀, terbukti ada hubungan signifikan antara jenis perangkat dan metode pembayaran—mobile users lebih suka e-wallet, desktop users lebih suka credit card.
5 Studi Kasus 5
a. Kesalahan Tipe I dan Tipe II (Konseptual)
Sebuah startup fintech menguji apakah algoritma deteksi penipuan baru mengurangi transaksi penipuan.
- H₀: Algoritma baru tersebut tidak mengurangi penipuan.
- H₁: Algoritma baru tersebut mengurangi penipuan.
b. Tugas
- Jelaskan Kesalahan Tipe I (α) dalam konteks ini.
- Jelaskan Kesalahan Tipe II (β) dalam konteks ini.
- Identifikasi kesalahan mana yang lebih merugikan dari perspektif bisnis.
- Diskusikan bagaimana ukuran sampel memengaruhi Kesalahan Tipe II.
- Jelaskan hubungan antara α, β, dan kekuatan statistik.
5.1 Pembahasan
5.1.1 Kesalahan Tipe I (Type I Error / \(\alpha\))
Type I Error terjadi ketika:
Menolak H₀ padahal H₀ sebenarnya benar
Dalam konteks ini, Kesalahan Tipe I terjadi jika kita menyimpulkan bahwa algoritma baru berhasil mengurangi penipuan (fraud), padahal kenyataannya tidak ada pengaruh apa pun.
- Analogi: Memberikan “pujian” palsu. Anda mengira sistemnya hebat, padahal itu hanya faktor kebetulan.
5.1.2 Kesalahan Tipe II (Type II Error / \(\beta\))
Type II Error terjadi ketika:
Gagal menolak H₀ padahal H₁ sebenarnya benar
Kesalahan Tipe II terjadi jika kita menyimpulkan bahwa algoritma baru tidak berhasil mengurangi penipuan, padahal kenyataannya algoritma tersebut sangat efektif.
- Analogi: Melewatkan kesempatan emas. Anda membuang sistem yang bagus karena mengira sistem itu tidak berguna.
5.1.3 Mana yang Lebih Merugikan Secara Bisnis?
Dalam dunia fintech, Kesalahan Tipe II (Type II Error) biasanya jauh lebih mahal dan berbahaya.
Alasannya:
Jika terjadi Kesalahan Tipe I, perusahaan mungkin membuang uang untuk implementasi sistem yang tidak berguna (kerugian finansial moderat).
Jika terjadi Kesalahan Tipe II, perusahaan membiarkan transaksi penipuan terus terjadi karena menolak algoritma baru yang seharusnya bisa mencegahnya. Hal ini bisa menyebabkan kerugian jutaan dolar, hilangnya kepercayaan nasabah, dan masalah regulasi.
5.1.4 Pengaruh Sample Size terhadap Type II Error
Hubungan Fundamental
Prinsip Dasar:
↑ Sample Size → ↓ Type II Error (β) → ↑ Statistical Power
Ukuran sampel berbanding terbalik dengan Kesalahan Tipe II.
- Sampel Besar: Semakin banyak data yang diuji, semakin sensitif tes tersebut dalam mendeteksi perubahan kecil sekalipun. Ini akan menurunkan risiko Kesalahan Tipe II (\(\beta\)).
- Sampel Kecil: Tes menjadi “kurang peka”, sehingga Anda lebih berisiko gagal mendeteksi keberhasilan algoritma yang sebenarnya bagus.
5.1.5 Hubungan antara α, β, dan Statistical Power
Ketiga elemen ini saling terkait seperti timbangan:
1. Trade-off \(\alpha\) dan \(\beta\): Jika Anda memperketat \(\alpha\) (agar sangat sulit melakukan kesalahan Tipe I), maka risiko \(\beta\) (Kesalahan Tipe II) biasanya akan otomatis naik.
2. Statistical Power (Kekuatan Statistik): Power dihitung sebagai 1\(1 - \beta\).
- Power adalah kemampuan tes untuk menemukan kebenaran (mendeteksi fraud jika memang ada).
- Jika Anda menurunkan risiko \(\beta\), maka Statistical Power akan naik.
3. Tujuan Ideal: Perusahaan ingin Power yang tinggi (mendekati 1) untuk memastikan setiap upaya pencegahan fraud dapat terdeteksi dengan akurat.
[Image showing the trade-off between alpha, beta, and statistical power on a normal distribution curve]
6 Studi Kasus 6
a. Nilai P dan Pengambilan Keputusan Statistik
Evaluasi model prediksi churn menghasilkan hasil berikut:
- Statistik uji = 2,31
- Nilai p = 0,021
- Tingkat signifikansi: \(\alpha = 0,05\)
b. Tugas
- Jelaskan makna nilai p.
- Buat keputusan statistik.
- Terjemahkan keputusan tersebut ke dalam bahasa non-teknis untuk manajemen.
- Diskusikan risiko jika sampel tidak representatif.
- Jelaskan mengapa nilai p tidak mengukur ukuran efek.
6.1 Pembahasan
6.1.1 Arti dari p-value (0.021)
p-value adalah peluang bahwa hasil yang kita dapatkan (atau yang lebih ekstrem) terjadi hanya karena kebetulan, dengan asumsi hipotesis nol (\(H_0\)) benar.
Dalam kasus ini, p-value 0.021 berarti hanya ada 2,1% kemungkinan hasil prediksi churn ini terjadi secara tidak sengaja. Karena peluang “kebetulan” ini sangat kecil, kita merasa yakin bahwa ada pola nyata dalam data tersebut.
6.1.2 Keputusan Statistik
Kita membandingkan p-value dengan tingkat signifikansi (\(\alpha\)):
- Aturan: Jika p-value \(\le \alpha\), maka Tolak \(H_0\).
- Kondisi: \(0.021 \le 0.05\).
Keputusan: Tolak Hipotesis Nol (\(H_0\)). Hasil ini signifikan secara statistik.
6.1.3 Bahasa Non-Teknis untuk Manajemen
Jika harus menjelaskan ini kepada atasan yang tidak paham statistik:
“Kabar baik, model prediksi churn (perpindahan pelanggan) kita bekerja dengan sangat baik. Kami telah mengujinya, dan hasilnya membuktikan bahwa pola yang ditemukan oleh model ini nyata, bukan sekadar kebetulan atau tebakan acak. Kita bisa menggunakan model ini sebagai dasar untuk strategi mempertahankan pelanggan.”
6.1.4 Risiko Jika Sampel Tidak Representatif
Statistik sangat bergantung pada kualitas data. Jika sampel tidak representatif (misalnya: hanya mengambil data pelanggan lama, tapi mengabaikan pelanggan baru):
Bias: Hasil p-value bisa terlihat bagus, padahal model hanya akurat untuk kelompok tertentu saja.
Generalisasi Salah: Keputusan bisnis yang diambil mungkin akan gagal saat diterapkan pada seluruh pelanggan karena data awalnya tidak mencerminkan populasi yang sebenarnya.
6.1.5 Mengapa p-value Bukan Ukuran Effect Size?
Ini adalah kesalahpahaman umum. p-value hanya memberi tahu “Apakah ada pengaruh?”, bukan “Seberapa besar pengaruhnya?”.
p-value: Menunjukkan tingkat keyakinan kita bahwa sesuatu itu nyata (Signifikansi).
Effect Size: Menunjukkan seberapa kuat dampak atau selisih tersebut (Magnitudo).
Contoh: Sebuah model bisa punya p-value sangat kecil (sangat signifikan), tapi ternyata hanya bisa menurunkan churn sebesar 0,001%. Secara statistik itu “nyata”, tapi secara bisnis pengaruhnya mungkin terlalu kecil untuk dianggap penting.
Interpretasi:
Visualisasi menunjukkan distribusi normal dengan area hijau sebagai daerah penerimaan H₀ (95%) dan area merah muda sebagai daerah penolakan (5%), di mana garis merah (Z=2.31) jatuh di daerah penolakan kanan dengan p-value=2.1% (area merah gelap) yang menunjukkan probabilitas hasil ini terjadi jika H₀ benar, dan karena p-value (0.021) < α (0.05).
keputusan: tolak H₀, yang berarti model prediksi churn signifikan secara statistik dan dapat digunakan untuk strategi retensi pelanggan.
7 Referensi
Illowsky, B., & Dean, S. (2023). Introductory statistics. OpenStax, Rice University. https://openstax.org/details/books/introductory-statistics
Siregar, B. (n.d.). 9 Statistical Inference. In Introduction to Statistics: A Data Science Perspective with R. Retrieved April 2026, from https://bookdown.org/dsciencelabs/intro_statistics/09-Statistical_Inference.html