Sebuah platform pembelajaran digital mengklaim bahwa
rata-rata waktu belajar harian penggunanya adalah
120 menit. Berdasarkan catatan historis,
simpangan baku populasi diketahui sebesar 15 menit.
Sampel acak yang terdiri dari 64 pengguna
menunjukkan rata-rata waktu belajar 116 menit.
Kita membandingkan nilai p-value dengan tingkat signifikansi (\(\alpha\)):
Perbandingan: \(0.0332 <
0.05\)
Keputusan: Tolak Hipotesis Nol (\(H_0\)).
Catatan: Jika menggunakan tabel Z, nilai \(|-2.13|\) lebih besar dari nilai kritis
\(Z_{0.025} = 1.96\), sehingga
keputusannya tetap sama.
1.2.5Interpretasi
dalam Konteks Analisis Bisnis
Secara statistik, klaim platform pembelajaran digital bahwa pengguna
belajar selama 120 menit setiap hari tidak
terbukti benar.
Hasil ini menunjukkan bahwa rata-rata waktu belajar sebenarnya secara
signifikan lebih rendah dari yang diklaim. Bagi sisi bisnis, ini
berarti:
Ketidakakuratan Data: Perusahaan perlu merevisi
klaim pemasaran mereka agar tidak menyesatkan calon pengguna.
Evaluasi Produk: Manajemen perlu menyelidiki
mengapa durasi belajar menurun (misalnya: apakah konten kurang menarik
atau aplikasi sulit digunakan?).
Strategi Retensi: Perusahaan mungkin perlu
membuat fitur pengingat (reminder) atau gamifikasi untuk mendorong
pengguna mencapai target 120 menit tersebut.
Ringkasan akhir:
Komponen
Hasil
Uji Statistik
One-Sample Z-Test
Nilai Z
-2.13
p-value
0.0332
Keputusan
Tolak H₀
Kesimpulan
Rata-rata waktu belajar berbeda signifikan dari klaim
2 Case Study 2
2.1 One-Sample T-Test (σ
Unknown, Small Sample)
Sebuah Tim Riset UX menyelidiki apakah waktu
penyelesaian tugas rata-rata dari aplikasi baru berbeda dari
10 menit.
Bandingkan P-value dengan tingkat signifikansi
(\(\alpha\)):
P-value (0.28) > \(\alpha\) (0.05).
Keputusan: Gagal Tolak \(H_0\).
Kesimpulan: Tidak ada bukti statistik yang cukup
kuat untuk menyatakan bahwa rata-rata waktu penyelesaian tugas berbeda
dari \(10\) menit.
2.2.5Pengaruh Ukuran
Sampel terhadap Keandalan Inferensial
Ukuran sampel sangat krusial dalam statistika inferensial karena
beberapa alasan:
Margin of Error: Sampel yang lebih besar (\(n\)) akan memperkecil standard error (\(s / \sqrt{n}\)), yang membuat estimasi
rata-rata menjadi lebih presisi.
Kekuatan Statistik (Statistical Power): Dengan
hanya 10 pengguna, ada risiko tinggi terjadinya Error Tipe
II (Gagal menolak \(H_0\)
padahal sebenarnya ada perbedaan nyata). Sampel kecil mungkin tidak
cukup sensitif untuk mendeteksi perbedaan kecil dalam performa
UX.
Distribusi: Pada sampel kecil, data harus
benar-benar mendekati distribusi normal agar uji-t valid. Semakin besar
sampel, semakin kuat asumsi normalitas terpenuhi berkat Central Limit
Theorem.
Ringkasan Hasil:
Komponen
Nilai
Uji
One-Sample t-Test
Rata-rata sampel
9.86
t-statistic
-1.15
df
9
p-value
0.28
Keputusan
Gagal menolak (\(H_0\))
Kesimpulan
Tidak berbeda signifikan dari 10 menit
3 Case Study 3
3.1 Two-Sample T-Test
(A/B Testing)
Tim analisis produk melakukan uji
A/B untuk membandingkan durasi sesi rata-rata
(menit) antara dua versi halaman arahan.
Version
Sample Size (n)
Mean
Standard Deviation
A
25
4.8
1.2
B
25
5.4
1.4
3.2 Tugas
Rumuskan hipotesis nol dan hipotesis
alternatif.
Identifikasi jenis uji t yang diperlukan.
Hitung statistik uji dan nilai
p.
Tarik kesimpulan statistik pada \(\alpha = 0,05\).
Interpretasikan hasil untuk pengambilan keputusan
produk.
3.2.1Formulasi
Hipotesis
Karena ingin membandingkan rata-rata dua versi dan melihat apakah
berbeda, maka digunakan uji dua arah.
Kriteria: Jika P-value < 0,05, tolak \(H_0\). Jika P-value > 0,05, gagal tolak
\(H_0\).
Hasil: Karena \(0,11
> 0,05\), maka kita Gagal Menolak \(H_0\).
Secara statistik, tidak ada perbedaan yang nyata antara durasi
sesi di Versi A dan Versi B pada tingkat kepercayaan \(95%\).
3.2.5Interpretasi
untuk Pengambilan Keputusan Produk
Meskipun secara angka rata-rata Versi B (5,4)
terlihat lebih tinggi daripada Versi A (4,8), uji
statistik menunjukkan bahwa perbedaan tersebut kemungkinan besar hanya
terjadi karena faktor kebetulan (variasi acak) dan bukan karena
perubahan desain halaman.
Saran untuk Tim Produk:
Jangan langsung mengganti seluruh halaman ke Versi B karena belum
ada bukti kuat bahwa Versi B benar-benar lebih baik.
Pertimbangkan untuk menambah jumlah sampel agar hasil uji lebih
sensitif (memiliki power yang lebih tinggi).
Periksa metrik lain seperti conversion rate (tingkat konversi)
sebelum mengambil keputusan akhir.
Ringkasan Hasil:
Komponen
Nilai
Jenis Uji
Two-Sample t-Test (Welch)
t-statistic
-1.63
df
≈ 47
p-value
≈ 0.11
Keputusan
Gagal menolak (\(H_0\))
Kesimpulan
Tidak ada perbedaan signifikan
4 Case Study 4
4.1 Chi-Square Test of
Independence
Sebuah perusahaan e-commerce memeriksa apakah
jenis perangkat berkaitan dengan preferensi
metode pembayaran.
Device / Payment
E-Wallet
Credit Card
Cash on Delivery
Mobile
120
80
50
Desktop
60
90
40
4.2 Tugas
Nyatakan Hipotesis Nol (H₀) dan Hipotesis
Alternatif (H₁).
Identifikasi uji statistik yang tepat.
Hitung statistik Chi-Square (χ²).
Tentukan nilai p pada \(\alpha = 0,05\).
Interpretasikan hasil dalam konteks strategi pembayaran
digital.
4.2.1Hipotesis
\(H_0\) (Hipotesis Nol): Jenis
perangkat dan preferensi metode pembayaran saling bebas (tidak ada
hubungan).
\(H_1\) (Hipotesis Alternatif):
Jenis perangkat dan preferensi metode pembayaran saling terkait (ada
hubungan).
4.2.2Uji Statistik
yang Digunakan
Chi-Square Test of Independence
Alasan:
Dua variabel kategorik (device type & payment
method).
Karena P-value (\(0.001\)) <
\(0.05\), kita Tolak \(H_0\). Ini berarti ada hubungan yang
signifikan antara jenis perangkat yang digunakan dengan metode
pembayaran yang dipilih.
Interpretasi Strategis:
Optimasi Mobile: Pengguna mobile jauh lebih
cenderung menggunakan \(E-Wallet\)
dibandingkan nilai harapan. Strategi pemasaran harus fokus pada promo
cashback dompet digital khusus di aplikasi mobile.
Karakteristik Desktop: Pengguna desktop lebih
condong ke Kartu Kredit. Ini mungkin karena layar besar memberikan rasa
aman lebih saat memasukkan data kartu atau target audiens desktop lebih
mapan secara finansial.
Kesimpulan: Perusahaan harus mempersonalisasi
urutan metode pembayaran di halaman checkout berdasarkan perangkat
(utamakan E-wallet di Mobile, utamakan Kartu Kredit di Desktop) untuk
meningkatkan konversi.
Ringkasan Hasil:
Komponen
Nilai
Uji
Chi-Square Test of Independence
χ²
≈ 14.01
df
2
p-value
≈ 0.0009
Keputusan
Tolak H₀
Kesimpulan
Device & payment method berasosiasi
5 Case Study 5
5.1 Type I and Type II
Errors (Conceptual)
Sebuah startup fintech menguji apakah
algoritma deteksi penipuan baru mengurangi transaksi
penipuan.
H₀: Algoritma baru tersebut tidak
mengurangi penipuan.
H₁: Algoritma baru tersebut mengurangi
penipuan.
5.2 Tugas
Jelaskan Kesalahan Tipe I (α) dalam konteks
ini.
Jelaskan Kesalahan Tipe II (β) dalam konteks
ini.
Identifikasi kesalahan mana yang lebih merugikan dari
perspektif bisnis.
Diskusikan bagaimana ukuran sampel memengaruhi
Kesalahan Tipe II.
Jelaskan hubungan antara α, β, dan kekuatan
statistik.
5.2.1Kesalahan Tipe
I (Type I Error / \(\alpha\))
Kesalahan Tipe I terjadi ketika kita menolak \(H_0\) padahal \(H_0\) benar.
Dalam konteks ini: Algoritma menyimpulkan bahwa
ia berhasil mengurangi penipuan, padahal kenyataannya tidak ada
perubahan atau pengurangan sama sekali.
Analogi: “Alarm Palsu” (False Positive).
Perusahaan merasa bangga dengan sistem baru yang dianggap efektif, namun
angka kerugian akibat penipuan di lapangan tetap tinggi.
5.2.2Kesalahan Tipe
II (Type II Error / \(\beta\))
Kesalahan Tipe II terjadi ketika kita gagal menolak \(H_0\) padahal \(H_1\) benar.
Dalam konteks ini: Algoritma sebenarnya efektif
dalam mengurangi penipuan, tetapi hasil pengujian statistik menunjukkan
tidak ada bukti yang cukup untuk menyimpulkan hal tersebut.
Analogi: “Gagal Deteksi” (False Negative).
Perusahaan membuang algoritma yang sebenarnya bagus karena mengira
sistem tersebut tidak berguna.
5.2.3Kesalahan Mana
yang Lebih Mahal?
Dari perspektif bisnis fintech, Kesalahan Tipe II umumnya
jauh lebih mahal.
Alasannya: Jika terjadi Kesalahan Tipe II,
perusahaan kehilangan kesempatan untuk mengimplementasikan solusi yang
bisa menyelamatkan uang dari transaksi penipuan. Biaya operasional
akibat fraud yang tidak tertangani biasanya jauh lebih besar daripada
biaya pengembangan algoritma.
Dampak Kesalahan Tipe I: Biayanya adalah waktu
dan sumber daya yang terbuang untuk menerapkan sistem yang tidak
efektif, tetapi risiko langsung kehilangan uang karena penipuan tetap
dalam status quo (tidak bertambah buruk, hanya tidak membaik).
5.2.4Pengaruh Ukuran
Sampel terhadap Kesalahan Tipe II
Ukuran sampel memiliki kaitan erat dengan \(\beta\):
Hubungan Berbanding Terbalik: Semakin
besar ukuran sampel, semakin kecil kemungkinan
terjadi Kesalahan Tipe II.
Penjelasan: Sampel yang lebih besar memberikan
informasi yang lebih detail tentang populasi, sehingga uji statistik
menjadi lebih sensitif dalam mendeteksi perubahan atau efek kecil
sekalipun. Dengan sampel besar, kita lebih mudah membuktikan bahwa
algoritma tersebut benar-benar bekerja.
5.2.5Hubungan antara
\(\alpha, \beta\), dan Statistical
Power
Ketiga konsep ini saling berhubungan dalam keseimbangan
statistik:
Trade-off \(\alpha\) dan
\(\beta\): Jika kita
memperketat \(\alpha\) (misal dari 0.05
ke 0.01) untuk menghindari kesalahan “salah tuduh”, maka probabilitas
\(\beta\) biasanya akan meningkat. Kita
menjadi terlalu berhati-hati sehingga gagal melihat efek yang
nyata.
Statistical Power (\(1 -
\beta\)): Power adalah kemampuan uji statistik untuk
mendeteksi efek jika efek itu memang ada (menolak \(H_0\) yang salah).
Hubungan: Meningkatkan \(\alpha\) akan meningkatkan Power,
Meningkatkan ukuran sampel akan meningkatkan Power dan menurunkan \(\beta\).
Ringkasan konsep:
Konsep
Makna
Type I Error (α)
Menganggap algoritma efektif padahal tidak
Type II Error (β)
Menganggap algoritma tidak efektif padahal efektif
Power (1−β)
Kemampuan mendeteksi algoritma yang benar-benar efektif
Sample Size
Menurunkan β, menaikkan power
6 Case Study 6
6.1 P-Value and
Statistical Decision Making
Evaluasi model prediksi churn menghasilkan hasil sebagai berikut:
Statistik uji = 2,31
Nilai p = 0,021
Tingkat signifikansi: \(\alpha =
0,05\)
6.2 Tugas
Jelaskan makna dari nilai p-value.
Buatlah keputusan statistik.
Terjemahkan keputusan tersebut ke dalam bahasa
non-teknis untuk manajemen.
Diskusikan risiko jika sampel tidak
representatif.
Jelaskan mengapa nilai p tidak mengukur ukuran
efek.
6.2.1Makna
p-value
Secara teknis, p-value = 0.021 berarti: Jika kita
berasumsi bahwa model tersebut sebenarnya tidak memberikan dampak
(Hipotesis Nol benar), maka peluang untuk mendapatkan hasil pengamatan
sebesar 2.31 atau lebih ekstrem hanya sebesar \(2,1%\).
6.2.2Keputusan
Statistik
Kita membandingkan \(p-value\)
dengan tingkat signifikansi (\(\alpha\)):
Kesimpulan: Hasil ini dianggap
signifikan secara statistik.
6.2.3Bahasa
Non-Teknis untuk Manajemen
“Berdasarkan evaluasi kami, model prediksi churn yang baru ini
terbukti efektif dan bukan sekadar faktor keberuntungan. Ada bukti kuat
bahwa model ini dapat membantu kita mengidentifikasi pelanggan yang akan
berhenti dengan tingkat akurasi yang melampaui standar kesalahan
biasa.”
6.2.4Risiko Jika
Sampel Tidak Representatif
Statistika inferensial sangat bergantung pada asumsi bahwa sampel
mencerminkan populasi. Jika sampel tidak representatif (misal: hanya
mengambil data dari pelanggan premium, bukan pelanggan umum), maka akan
terjadi:
Bias Seleksi: Hasil statistik mungkin terlihat
bagus, tetapi gagal saat diterapkan pada seluruh basis
pelanggan.
Generalisasi yang Salah: Keputusan bisnis yang
diambil (seperti strategi diskon atau kampanye retensi) bisa salah
sasaran karena data tidak menggambarkan perilaku rata-rata
pelanggan.
Kegagalan Model: P-value yang rendah tidak akan
berarti apa-apa jika data inputnya cacat; model akan memberikan prediksi
yang tidak akurat di dunia nyata.
6.2.5Mengapa P-Value
Tidak Mengukur Ukuran Efek (Effect Size)?
Ini adalah poin krusial: Signifikansi statistik \(\neq\) Signifikansi praktis.
P-value hanya memberi tahu kita apakah ada perbedaan/efek (Ya
atau Tidak).
Effect Size memberi tahu kita seberapa besar perbedaan
tersebut.
Analogi: Misalkan sebuah kampanye baru menurunkan
angka churn sebesar \(0,01%\). Dengan
jumlah data yang sangat besar (jutaan pelanggan), p-value bisa menjadi
sangat kecil (signifikan secara statistik). Namun, secara bisnis,
penurunan \(0,01%\) mungkin terlalu
kecil untuk dianggap bermanfaat mengingat biaya kampanyenya. P-value
menunjukkan model itu bekerja, tetapi tidak menunjukkan apakah
keuntungan finansialnya sebanding dengan usahanya.