Tugas Week 14 ~ Statistical Inferences
Data Science Student at ITSB
Lecturer: Bakti Siregar, M.Sc., CDS
R Programming Data Science Statistics
📍 Institut Teknologi Sains Bandung
1 Case Study 1
Konteks Masalah
Sebuah platform pembelajaran digital mengklaim bahwa rata-rata waktu belajar harian pengguna adalah 120 menit. Berdasarkan data historis, standar deviasi populasi diketahui sebesar 15 menit.
Untuk mengecek kebenaran klaim tersebut, diambil sampel acak 64 pengguna, dan diperoleh rata-rata waktu belajar sebesar 116 menit.
Tujuan analisis ini adalah mengetahui apakah rata-rata waktu belajar pengguna benar-benar sama dengan 120 menit atau tidak, menggunakan pendekatan statistik.
Berdasarkan data yang tersedia:
- Rata-rata klaim (\(\mu_0\)): 120 menit
- Standar deviasi populasi (\(\sigma\)): 15 menit
- Jumlah sampel (\(n\)): 64 pengguna
- Rata-rata sampel (\(\bar{x}\)): 116 menit
1.1 Formulasi Hipotesis Statistik
Langkah pertama adalah menentukan apa yang ingin kita uji:
- Hipotesis Nol (\(H_0\)): Artinya, rata-rata waktu belajar pengguna memang sesuai klaim perusahaan, yaitu 120 menit.
- Hipotesis Alternatif (\(H_1\)): Artinya, rata-rata waktu belajar pengguna secara signifikan berbeda dari 120 menit (bisa lebih lama atau lebih cepat).
1.2 Identifikasi Uji Statistik yang Tepat
Uji yang paling tepat adalah One-Sample Z-Test.
Justifikasi:
- Kita ingin membandingkan rata-rata sampel dengan rata-rata populasi yang sudah diketahui.
- Standar deviasi populasi (\(\sigma\)) sudah diketahui (15 menit).
- Jumlah sampel cukup besar (\(n = 64 > 30\)).
1.3 Perhitungan Test Statistic dan P-Value
Mari kita hitung menggunakan rumus Z-Score:
\(Z = \frac{\bar{x} - \mu_0}{\sigma / \sqrt{n}}\)
Perhitungan:
\(Z = \frac{116 - 120}{15 / \sqrt{64}}\) \(= \frac{-4}{15/8}\) \(= \frac{-4}{1,875} = -2,13\)
Mencari P-Value: Untuk pada uji dua arah (two-tailed), kita melihat tabel distribusi normal:
- \(P(Z < -2.133) \approx 0.0165\)
- P-Value = \(0.0165 \times 2 = \mathbf{0.033}\)
1.4 Keputusan Statistik
Kita bandingkan P-Value dengan tingkat signifikansi (\(\alpha = 0.05\)):
- Hasil: P-Value (0.033) < \(\alpha\) (0.05).
- Keputusan: Tolak Hipotesis Nol (\(H_0\)).
1.5 Interpretasi dalam Konteks Business Analytics
Secara profesional, hasil ini berarti: “Data memberikan bukti yang cukup kuat untuk menyatakan bahwa rata-rata waktu belajar harian pengguna sebenarnya tidak sama dengan 120 menit seperti yang diklaim perusahaan. Karena rata-rata sampel kita berada di angka 116 menit dan hasil uji ini signifikan, perusahaan perlu meninjau kembali klaim pemasarannya atau menyelidiki mengapa durasi belajar pengguna sedikit menurun dari target historisnya.”
1.6 Visualisasi
Penjelasan Komponen Visual:
- Kurva Lonceng (Distribution Curve): Garis melengkung ini merepresentasikan distribusi normal standar. Dalam konteks ini, kurva menunjukkan kemungkinan sebaran rata-rata waktu belajar jika klaim perusahaan (120 menit) adalah benar.
- Area Arsir Merah (Rejection Regions):
- Area ini disebut sebagai Wilayah Penolakan.
- Karena kita menggunakan tingkat signifikansi dengan uji dua arah (two-tailed), maka total 5% risiko kesalahan dibagi dua menjadi 2,5% di ujung kiri dan 2,5% di ujung kanan.
- Batas kritis (garis yang memisahkan area putih dan merah) berada pada titik Z = -1.96 dan Z = 1.96.
- Garis Biru Putus-putus (Z-Score = -2.13):
- Ini adalah posisi Test Statistic yang kita hitung berdasarkan data sampel pengguna (116 menit).
- Secara visual, garis biru ini mendarat di dalam Area Merah (wilayah penolakan) sebelah kiri.
Interpretasi:
- Keputusan: Karena posisi data kita (Z = -2.13) melampaui batas kritis (-1.96) dan masuk ke area penolakan, maka keputusannya adalah Tolak .
- Makna Bisnis: Perbedaan antara rata-rata sampel (116 menit) dan klaim perusahaan (120 menit) dianggap signifikan secara statistik. Hal ini bukan terjadi karena kebetulan, melainkan menunjukkan bahwa rata-rata waktu belajar pengguna memang berbeda dari apa yang diklaim oleh platform tersebut.
2 Case Study 2
Konteks Masalah
Tim UX Research ingin mengetahui apakah rata-rata waktu penyelesaian tugas (task completion time) pada aplikasi baru berbeda dari 10 menit.
Untuk itu, dikumpulkan data dari 10 pengguna, dengan waktu (menit) sebagai berikut:
9.2, 10.5, 9.8, 10.1, 9.6, 10.3, 9.9, 9.7, 10.0, 9.5
Karena ukuran sampel kecil dan standar deviasi populasi tidak diketahui, maka diperlukan uji statistik yang sesuai.
2.1 Definisi Hipotesis ( \(H_0\) dan \(H_1\) )
\(H_0: \mu = 10\) (Rata-rata waktu penyelesaian tugas adalah 10 menit).
\(H_1: \mu \neq 10\) (Rata-rata waktu penyelesaian tugas tidak sama dengan 10 menit).
2.2 Uji Statistik yang Tepat
Pilihan: One-Sample T-Test.
Justifikasi: Standar deviasi populasi tidak diketahui (\(\sigma\) unknown) dan ukuran sampel sangat kecil (\(n=10\), yang berarti \(n < 30\)).
2.3 Perhitungan Statistik (\(\alpha = 0.05\))
Data Sampel: 9.2, 10.5, 9.8, 10.1, 9.6, 10.3, 9.9, 9.7, 10.0, 9.5.
Statistik Deskriptif: Rata-rata sampel (\(\bar{x}\)) = 9.86; Standar deviasi sampel (\(s\)) ≈ 0.403.
T-Statistic:
\[t = \frac{9.86 - 10}{0.403 / \sqrt{10}} = \frac{-0.14}{0.127} \approx -1.102\]
- P-Value: Dengan derajat bebas (df) = 9, p-value dua arah adalah sekitar 0.299.
2.4 Keputusan Statistik
- Karena p-value (0.299) jauh lebih besar dari \(\alpha\) (0.05), keputusannya adalah Gagal Tolak Hipotesis Nol (\(H_0\)).
2.5 Pengaruh Ukuran Sampel terhadap Reliabilitas
Ukuran sampel yang kecil cenderung meningkatkan margin kesalahan dan mengurangi kekuatan statistik (statistical power). Artinya, meskipun rata-rata sampel kita (9.86) terlihat berbeda dari 10, kita tidak memiliki cukup bukti kuat untuk mengatakan perbedaan itu nyata secara populasi karena sampel yang terlalu sedikit bisa sangat dipengaruhi oleh fluktuasi acak.
2.6 Visualisasi
Penjelasan Komponen Visual:
- Kurva Distribusi T (T-Distribution Curve): Berbeda dengan kurva Z, kurva T memiliki “ekor” yang lebih tebal karena kita bekerja dengan sampel kecil () dan derajat bebas () sebesar 9. Kurva ini menggambarkan kemungkinan sebaran rata-rata waktu penyelesaian tugas jika target 10 menit adalah benar.
- Wilayah Arsir Merah (Wilayah Kritis):
- Ini adalah batas untuk menentukan apakah hasil kita signifikan secara statistik.
- Dengan tingkat signifikansi (uji dua arah), batas kritisnya berada di sekitar -2.262 dan 2.262.
- Jika hasil perhitungan kita masuk ke area merah, barulah kita bisa mengatakan perbedaannya signifikan.
- Garis Biru Putus-putus (t-statistic = -1.102):
- Garis ini menunjukkan di mana posisi data sampel kita berada.
- Terlihat sangat jelas bahwa garis biru berada di Area Putih (Wilayah Gagal Tolak), jauh dari batas kritis merah.
Interpretasi:
- Keputusan: Karena statistik hitung () tidak mencapai wilayah kritis dan p-value (0.299) lebih besar dari 0.05, maka keputusannya adalah Gagal Tolak .
- Kesimpulan Bisnis: Meskipun rata-rata sampel adalah 9.86 menit (terlihat lebih cepat dari 10 menit), secara statistik perbedaan 0.14 menit tersebut dianggap tidak signifikan. Perbedaan ini kemungkinan besar hanya terjadi karena variasi acak dari sampel yang kecil, sehingga kita tidak bisa menyimpulkan bahwa aplikasi baru tersebut benar-benar berbeda dari target awal.
3 Case Study 3
Konteks Masalah
Tim product analytics melakukan A/B testing untuk membandingkan rata-rata durasi sesi pengguna (dalam menit) antara dua versi landing page:
| Version | Sample Size (n) | Mean (minutes) | Standard Deviation |
|---|---|---|---|
| A | 25 | 4.8 | 1.2 |
| B | 25 | 5.4 | 1.4 |
Tujuan analisis ini adalah untuk mengetahui apakah terdapat perbedaan durasi sesi yang signifikan antara versi A dan versi B.
Berdasarkan data yang diberikan:
- Versi A: \(n_1 = 25\), \(\bar{x}_1 = 4.8\), \(s_1 = 1.2\).
- Versi B: \(n_2 = 25\), \(\bar{x}_2 = 5.4\), \(s_2 = 1.4\).
3.1 Formulasi Null dan Alternative Hypotheses
\(H_0\) (Null Hypothesis): \(\mu_A = \mu_B\). Tidak ada perbedaan signifikan antara rata-rata durasi sesi pada Versi A dan Versi B.
\(H_1\) (Alternative Hypothesis): \(\mu_A \neq \mu_B\). Terdapat perbedaan signifikan antara rata-rata durasi sesi pada Versi A dan Versi B.
3.2 Identifikasi Tipe T-Test yang Diperlukan
Tipe: Two-Sample Independent T-Test.
Alasan: Kita membandingkan rata-rata dari dua kelompok yang berbeda (pengguna Versi A vs pengguna Versi B) dan kita tidak mengetahui standar deviasi populasinya.
3.3 Komputasi Test Statistic dan P-Value
Untuk menghitung ini, kita asumsikan varians kedua kelompok sama (pooled variance):
- Pooled Standard Deviation (\(s_p\)):
\[s_p = \sqrt{\frac{(25-1)1.2^2 + (25-1)1.4^2}{25+25-2}}\]
\[= \sqrt{\frac{24(1.44) + 24(1.96)}{48}} = \sqrt{1.7} \approx 1.304\]
- T-Statistic:
\[t = \frac{4.8 - 5.4}{1.304 \sqrt{1/25 + 1/25}}\] \[= \frac{-0.6}{1.304 \times 0.2828} = \frac{-0.6}{0.3688} \approx -1.627\]
- P-Value: Dengan \(df = 48\) , nilai untuk uji dua arah (two-tailed) adalah sekitar 0.110.
3.4 Kesimpulan Statistik pada \(\alpha = 0.05\)
- Karena p-value (0.110) > 0.05, maka keputusannya adalah Gagal Tolak \(H_0\). Secara statistik, perbedaan durasi sesi antara Versi A dan Versi B tidak cukup kuat untuk dianggap nyata.
3.5 Interpretasi untuk Product Decision-Making
Secara bisnis, meskipun rata-rata Versi B (5.4 menit) terlihat lebih tinggi dari Versi A (4.8 menit), pengujian statistik menunjukkan bahwa kenaikan tersebut bisa saja terjadi karena faktor kebetulan saja.
- Rekomendasi: Jangan terburu-buru mengganti desain ke Versi B hanya berdasarkan angka ini. Tim produk disarankan untuk memperbesar ukuran sampel atau menjalankan tes lebih lama guna mendapatkan hasil yang lebih konklusif sebelum mengambil keputusan final.
3.6 Visualisasi
Boxplot ini menunjukkan distribusi durasi sesi pengguna pada Landing Page A dan B. Terlihat bahwa median durasi sesi pada Landing Page B lebih tinggi, yang mengindikasikan pengguna cenderung menghabiskan waktu lebih lama pada versi tersebut. Namun, adanya overlap distribusi antara kedua versi menunjukkan bahwa perbedaan ini masih perlu dikonfirmasi melalui uji two-sample t-test untuk memastikan signifikansi statistiknya.
4 Case Study 4
Konteks Masalah
Sebuah perusahaan e-commerce ingin mengetahui apakah jenis perangkat yang digunakan pelanggan (Mobile atau Desktop) berhubungan dengan preferensi metode pembayaran yang dipilih, yaitu:
• E-Wallet
• Credit Card
• Cash on Delivery (COD)
Data yang diperoleh adalah sebagai berikut:
| Device | E-Wallet | Credit Card | Cash on Delivery |
|---|---|---|---|
| Mobile | 120 | 80 | 50 |
| Desktop | 60 | 90 | 40 |
Tujuan analisis ini adalah untuk melihat apakah ada hubungan (asosiasi) antara jenis perangkat dan metode pembayaran.
4.1 Perumusan Hipotesis
• \(H_0\) (Null Hypothesis): Tipe perangkat dan preferensi metode pembayaran saling independen (tidak ada hubungan).
• \(H_1\) (Alternative Hypothesis): Tipe perangkat dan preferensi metode pembayaran saling berhubungan/terkait.
4.2 Uji Statistik yang Digunakan
Uji yang tepat adalah Chi-Square Test of Independence, karena:
• Data berbentuk kategori
• Ingin menguji hubungan antara dua variabel kategorikal
• Data disajikan dalam tabel kontingensi
4.3 Perhitungan Statistik Chi-Square
Langkah 1:
Hitung total baris, kolom, dan keseluruhan
• Total Mobile = 120 + 80 + 50 = 250
• Total Desktop = 60 + 90 + 40 = 190
• Total E-Wallet = 180
• Total Credit Card = 170
• Total COD = 90
• Total keseluruhan = 440
Langkah 2:
Hitung frekuensi harapan (Expected Frequency)
Rumus:
\(E_{ij} = \frac{(\text{Total Baris}) \times (\text{Total Kolom})}{\text{Total Keseluruhan}}\)
Contoh:
• Mobile – E-Wallet
\(E = \frac{250 \times 180}{440} = 102{,}27\)
Dengan cara yang sama, diperoleh nilai expected lainnya.
Langkah 3:
Hitung nilai Chi-Square (χ²)
Rumus:
\(\chi^2 = \sum \frac{(O - E)^2}{E}\)
Hasil perhitungan seluruh sel menghasilkan:
\(\chi^2 \approx 13{,}39\)
4.4 Penentuan P-Value
Derajat kebebasan (df):
(df) = (2-1)(3-1) = 2
Dengan:
• χ² = 13,39
• df = 2
• α = 0,05
p-value < 0,05 (sekitar 0,001)
Keputusan Statistik
Karena:
• p-value < α (0,05)
Keputusan:
Tolak Hipotesis Nol (H₀)
4.5 Interpretasi dalam Konteks Strategi Pembayaran Digital
Hasil analisis menunjukkan bahwa jenis perangkat yang digunakan pelanggan berhubungan secara signifikan dengan metode pembayaran yang dipilih.
Interpretasi bisnisnya:
• Pengguna Mobile cenderung lebih sering menggunakan E-Wallet
• Pengguna Desktop relatif lebih banyak menggunakan Credit Card
• Preferensi COD juga berbeda antara Mobile dan Desktop
Implikasi strategis:
• Perusahaan dapat:
• Mengoptimalkan tampilan E-Wallet pada aplikasi mobile
• Menonjolkan Credit Card promotion di versi desktop
• Menyesuaikan UX dan promo pembayaran berdasarkan perangkat
Kesimpulan
Terdapat hubungan yang signifikan antara jenis perangkat dan metode pembayaran, sehingga strategi pembayaran digital sebaiknya disesuaikan dengan perilaku pengguna di masing-masing perangkat.
4.6 Visualisasi
Grafik batang ini memperlihatkan perbandingan jumlah pengguna berdasarkan metode pembayaran pada masing-masing jenis perangkat (Mobile dan Desktop). Terlihat adanya pola yang berbeda, di mana pengguna Mobile lebih banyak menggunakan e-wallet, sementara pengguna Desktop cenderung lebih sering menggunakan kartu kredit.
Perbedaan pola ini memberikan indikasi awal bahwa terdapat hubungan antara jenis perangkat yang digunakan dengan metode pembayaran yang dipilih. Visualisasi ini berfungsi sebagai eksplorasi awal sebelum dilakukan uji Chi-Square untuk memastikan apakah perbedaan tersebut signifikan secara statistik.
Mosaic plot ini menunjukkan proporsi relatif antara jenis perangkat dan metode pembayaran secara bersamaan. Ukuran setiap kotak merepresentasikan jumlah observasi pada kombinasi kategori tertentu. Ketidakseimbangan ukuran kotak antar kategori menunjukkan bahwa distribusi metode pembayaran tidak merata pada setiap jenis perangkat.
Visualisasi ini sangat mendukung penggunaan uji Chi-Square karena secara visual memperlihatkan adanya asosiasi antara dua variabel kategorik. Jika tidak ada hubungan, maka pola kotak akan terlihat lebih seimbang. Oleh karena itu, mosaic plot ini memperkuat kesimpulan bahwa jenis perangkat dan metode pembayaran kemungkinan saling berhubungan.
5 Case Study 5
Konteks Masalah
Sebuah startup fintech sedang menguji apakah algoritma deteksi penipuan (fraud detection) yang baru mampu mengurangi jumlah transaksi fraud.
Hipotesis yang digunakan:
• H₀ (Hipotesis Nol): Algoritma baru tidak mengurangi fraud
• H₁ (Hipotesis Alternatif): Algoritma baru mengurangi fraud
5.1 Apa itu Type I Error \((\alpha)\) dalam konteks ini?
Type I Error (Sering disebut False Positive) terjadi ketika kita menolak Hipotesis Nol (\(H_0\)) padahal sebenarnya \(H_0\) itu benar.
Dalam konteks ini:
Tim startup menyimpulkan bahwa algoritma baru mereka berhasil mengurangi penipuan (fraud), padahal kenyataannya algoritma tersebut tidak memberikan pengaruh apa-apa.
Intinya:
Kita merasa sudah menemukan solusi yang ampuh, padahal sebenarnya itu hanya kebetulan atau fluktuasi data belaka.
5.2 Apa itu Type II Error (\(\beta\)) dalam konteks ini?
Type II Error (Sering disebut False Negative) terjadi ketika kita gagal menolak Hipotesis Nol (\(H_0\)) padahal sebenarnya \(H_0\) itu salah.
Dalam konteks ini:
Tim startup menyimpulkan bahwa algoritma baru mereka tidak efektif dan tidak mengurangi fraud, padahal kenyataannya algoritma tersebut sebenarnya sangat efektif dalam mengurangi fraud.
Intinya:
Kita melewatkan kesempatan untuk menggunakan sistem yang bagus karena menganggapnya tidak berguna.
5.3 Error mana yang lebih merugikan bagi bisnis?
Dalam konteks fraud detection di fintech, Type II Error (\(\beta\)) umumnya jauh lebih merugikan.
Alasannya:
Jika kita melakukan Type II Error, artinya kita membuang sistem yang sebenarnya mampu mendeteksi penipuan. Akibatnya, transaksi fraud akan terus terjadi, perusahaan akan kehilangan uang secara langsung, kepercayaan nasabah menurun, dan risiko regulasi meningkat.
Sebagai perbandingan:
Type I Error (mengadopsi sistem yang tidak berguna) memang membuang biaya operasional/implementasi, namun setidaknya tidak menyebabkan kebocoran dana sebesar membiarkan penipuan terjadi secara massal.
5.4 Bagaimana pengaruh Ukuran Sampel (Sample Size) terhadap Type II Error?
Ukuran sampel memiliki hubungan berbanding terbalik dengan Type II Error.
Semakin besar ukuran sampel yang digunakan, maka semakin kecil kemungkinan terjadinya Type II Error.
Dengan data yang lebih banyak, uji statistik menjadi lebih sensitif untuk mendeteksi perbedaan atau efek yang kecil sekalipun. Jadi, kemungkinan kita “melewatkan” algoritma yang sebenarnya bagus akan berkurang.
5.5 Hubungan antara \(\alpha\), \(\beta\), dan Statistical Power
Ketiga elemen ini saling berkaitan erat dalam sebuah pengujian:
Hubungan \(\alpha\) dan \(\beta\):
Biasanya ada trade-off. Jika kita memperketat \(\alpha\) (agar sangat sulit membuat kesalahan False Positive), maka risiko \(\beta\) (False Negative) cenderung akan meningkat, dan sebaliknya.
Statistical Power (\(1 - \beta\)):
Power adalah kemampuan uji statistik untuk mendeteksi efek yang memang benar-benar ada.
Kesimpulan:
Dalam pengujian algoritma deteksi fraud, memahami Type I dan Type II Error sangat penting agar keputusan bisnis tidak salah arah. Perusahaan perlu mengatur nilai α, β, dan ukuran sampel secara seimbang agar risiko dan peluang bisa dikelola dengan baik.
5.6 Visualisasi
| Fitur | Type I Error (α) | Type II Error (β) |
|---|---|---|
| Nama Lain | False Positive | False Negative |
| Keputusan Kita | Menggunakan algoritma baru | Membuang algoritma baru |
| Kenyataan | Algoritma sebenarnya tidak ampuh | Algoritma sebenarnya sangat ampuh |
| Konsekuensi Utama | Buang-buang waktu & biaya implementasi | Kehilangan uang akibat fraud terus terjadi |
| Risiko Reputasi | Rendah (Inefisiensi internal) | Tinggi (Nasabah merasa tidak aman) |
Visualisasi Hubungan Error dan Statistical Power
Dalam statistika, hubungan antara tingkat kesalahan ini sering digambarkan melalui kurva distribusi. Gambar di bawah ini menunjukkan bagaimana area \(\alpha\) dan \(\beta\) saling bersinggungan. Jika Anda menggeser garis batas untuk memperkecil satu error, area error yang lain secara otomatis akan membesar.
Kesimpulan Strategis untuk Fintech
Prioritas:
Karena biaya kerugian akibat penipuan biasanya jauh lebih besar daripada biaya server/tim IT, startup fintech biasanya lebih rela menerima sedikit Type I Error (menerapkan sistem yang mungkin hanya sedikit lebih baik) daripada mengambil risiko Type II Error (melewatkan sistem pelindung yang hebat).
Solusi:
Cara terbaik untuk menekan kedua error tersebut secara bersamaan adalah dengan menambah ukuran sampel dan meningkatkan kualitas data. Semakin banyak data transaksi yang diuji, semakin tajam “penglihatan” statistik kita.
6 Case Study 6
Konteks Masalah
Sebuah model prediksi churn pelanggan telah dievaluasi dan menghasilkan:
• Test statistic = 2,31
• p-value = 0,021
• Tingkat signifikansi (α) = 0,05
Tujuan analisis ini adalah memahami arti p-value dan menarik keputusan statistik yang tepat untuk mendukung pengambilan keputusan bisnis.
6.1 Arti dari p-value dalam konteks ini
Secara teknis, p-value = 0.021 berarti ada probabilitas sebesar 2.1% bahwa hasil evaluasi model yang kita dapatkan (atau yang lebih ekstrem) muncul hanya karena kebetulan, dengan asumsi bahwa sebenarnya model tersebut tidak memiliki kemampuan prediksi sama sekali (Hipotesis Nol benar).
- Dalam bahasa praktis: Angka ini menunjukkan seberapa “mengejutkan” data kita. Karena p-value kecil (2.1%), ini menandakan kecil kemungkinan hasil performa model ini hanyalah sebuah keberuntungan belaka.
6.2 Pengambilan Keputusan Statistik
Aturan dasarnya adalah membandingkan p-value dengan tingkat signifikansi (\(\alpha\)):
- Kriteria: Jika p-value < \(\alpha\), maka kita Tolak Hipotesis Nol (\(H_0\)).
- Kenyataan: 0.021 < 0.05.
- Keputusan: Kita menolak dan menyimpulkan bahwa hasil evaluasi model prediksi churn ini signifikan secara statistik pada tingkat kepercayaan 95%.
6.3 Terjemahan untuk Manajemen (Bahasa Non-Teknis)
“Berdasarkan hasil pengujian terbaru, kami memiliki bukti yang kuat bahwa model prediksi churn ini benar-benar berfungsi dengan baik dan bukan sekadar kebetulan. Probabilitas bahwa efektivitas model ini hanya faktor keberuntungan sangat kecil (hanya sekitar 2%). Oleh karena itu, kita bisa cukup percaya diri untuk mulai menggunakan model ini dalam menyusun strategi retensi pelanggan.”
6.4 Risiko jika Sampel Tidak Representatif
Jika data yang digunakan untuk evaluasi tidak mewakili seluruh populasi pelanggan (misalnya hanya mengambil data pelanggan lama), maka keputusan statistik tadi menjadi bias atau tidak valid:
- Generalisasi Salah: Model mungkin terlihat sangat akurat pada sampel tersebut, namun akan gagal total saat diterapkan pada pelanggan baru atau segmen yang berbeda.
- Keputusan Bisnis yang Keliru: Kita mungkin mengalokasikan anggaran besar untuk strategi retensi yang sebenarnya didasarkan pada asumsi data yang salah, sehingga target pengurangan churn tidak tercapai.
6.5 Mengapa p-value tidak mengukur Effect Size?
P-value hanya memberi tahu kita apakah ada efek atau perbedaan (apakah hasilnya nyata atau kebetulan), tetapi tidak memberi tahu kita seberapa besar pengaruh atau dampak tersebut bagi bisnis.
- Contohnya: Sebuah model bisa memiliki p-value yang sangat signifikan (0.0001), tetapi sebenarnya hanya meningkatkan akurasi sebesar 0.1%. Secara statistik itu nyata (signifikan), tapi secara bisnis mungkin dampaknya terlalu kecil untuk diperhitungkan.
- Kesimpulan: P-value mengukur kepastian kita terhadap adanya efek, sedangkan effect size mengukur besarnya manfaat praktis dari efek tersebut.
7 Referensi
Agresti, A. (2018). Statistical methods for the social sciences (5th ed.). Pearson Education.
Devore, J. L. (2016). Probability and statistics for engineering and the sciences (9th ed.). Cengage Learning.
Diez, D. M., Barr, C. D., & Çetinkaya-Rundel, M. (2019). OpenIntro statistics (4th ed.). OpenIntro.
Field, A. (2018). Discovering statistics using R (2nd ed.). SAGE Publications.
James, G., Witten, D., Hastie, T., & Tibshirani, R. (2021). An introduction to statistical learning (2nd ed.). Springer.
Montgomery, D. C., & Runger, G. C. (2018). Applied statistics and probability for engineers (7th ed.). John Wiley & Sons.
Walpole, R. E., Myers, R. H., Myers, S. L., & Ye, K. (2017). Probability and statistics for engineers and scientists (9th ed.). Pearson Education.