KUIS STATISTIK (WEEK 13)

Confidence Interval ~ Week 13 ~

Nakeisha Aulia Zahra

Data Science Undergraduate Student

R Programming Data Science Statistics

1 Study Kasus 1

1.1 Uji-Z Satu Sampel (Hipotesis Statistik)

Sebuah platform pembelajaran digital mengklaim bahwa rata-rata waktu belajar harian penggunanya adalah 120 menit. Berdasarkan catatan historis, standar deviasi populasi diketahui sebesar 15 menit.

Sampel acak sebanyak 64 pengguna menunjukkan rata-rata waktu belajar 116 menit.

  • \(\mu_0 = 120\) (rata-rata populasi yang dihipotesiskan)
  • \(\sigma = 15\) (standar deviasi populasi)
  • \(n = 64\) (jumlah sampel)
  • \(\bar{x} = 116\) (rata-rata sampel)

1.2 Tugas

  1. Rumuskan Hipotesis Nol (\(H_0\)) dan Hipotesis Alternatif (\(H_1\)).
  2. Identifikasi uji statistik yang tepat dan berikan alasan atas pilihan Anda.
  3. Hitung statistik uji dan nilai-p (p-value) dengan menggunakan \(\alpha = 0,05\).
  4. Nyatakan keputusan statistik tersebut.
  5. Interpretasikan hasilnya dalam konteks analitik bisnis.

1.3 Jawaban Study Kasus 1: Uji Statistik

1.3.1 Rumuskan Hipotesis Nol (\(H_0\)) dan Hipotesis Alternatif (\(H_1\))

Karena klaim menyatakan rata-rata adalah 120 menit, kita akan menguji apakah rata-rata sebenarnya berbeda dari klaim tersebut (Uji Dua Arah).

  • \(H_0 : \mu = 120\) (Rata-rata waktu belajar harian pengguna adalah 120 menit)
  • \(H_1 : \mu \neq 120\) (Rata-rata waktu belajar harian pengguna tidak sama dengan 120 menit)

1.3.2 Identifikasi Uji Statistik yang Tepat dan Alasannya

Uji statistik yang tepat adalah Uji-Z Satu Sampel (One-Sample Z-Test).

Alasannya: Standar deviasi populasi (\(\sigma\)) diketahui secara pasti dan jumlah sampel cukup besar (\(n \geq 30\)).

1.3.3 Hitung Statistik Uji dan Nilai-p (p-value)

A. Statistik Uji (Z-Hitung)

Data Diketahui:

  • \(\mu_0 = 120\) (Rata-rata populasi yang dihipotesiskan)
  • \(\sigma = 15\) (Standar deviasi populasi)
  • \(n = 64\) (Jumlah sampel)
  • \(\bar{x} = 116\) (Rata-rata sampel)
  • \(\alpha = 0,05\) (Tingkat signifikansi)

Rumus yang digunakan adalah: \[Z = \frac{\bar{x} - \mu_0}{\sigma / \sqrt{n}}\]

Substitusi nilai: \[Z = \frac{116 - 120}{15 / \sqrt{64}} = \frac{-4}{15 / 8} = \frac{-4}{1,875} = -2,133\]

B. Nilai-p (p-value)

Mencari luas di bawah kurva normal untuk \(Z = -2,13\).

pada tabel Z:

  • \(P(Z < -2,13) \approx 0,0166\)
  • Karena ini uji dua arah, maka \(p\text{-value} = 2 \times 0,0166 = \mathbf{0,0332}\)

1.3.4 Nyatakan Keputusan Statistik

Bandingkan \(p\text{-value}\) dengan \(\alpha\):

  • \(p\text{-value} (0,0332) < \alpha (0,05)\)
  • Keputusan: Tolak \(H_0\).

1.3.5 Interpretasi dalam Konteks Analitik Bisnis

Berdasarkan hasil uji statistik, terdapat bukti yang cukup kuat pada tingkat signifikansi 5% untuk menyatakan bahwa rata-rata waktu belajar harian pengguna berbeda secara signifikan dari klaim platform (120 menit).

Secara analitik, karena rata-rata sampel (116 menit) lebih rendah dari klaim, pihak manajemen platform mungkin perlu meninjau kembali strategi keterlibatan pengguna (user engagement) karena durasi belajar aktual ternyata lebih singkat daripada yang diperkirakan semula.

2 Study Kasus 2

2.1 Uji-T Satu Sampel (\(\sigma\) Tidak Diketahui, Sampel Kecil)

Sebuah Tim Riset UX menyelidiki apakah rata-rata waktu penyelesaian tugas dari sebuah aplikasi baru berbeda dari 10 menit.

Data berikut dikumpulkan dari 10 pengguna: \[9.2, 10.5, 9.8, 10.1, 9.6, 10.3, 9.9, 9.7, 10.0, 9.5\]

2.2 Tugas

  1. Tentukan \(H_0\) dan \(H_1\) (dua arah/two-tailed).
  2. Tentukan uji hipotesis yang tepat.
  3. Hitung statistik-t dan nilai-p (p-value) pada \(\alpha = 0,05\).
  4. Buatlah sebuah keputusan statistik.
  5. Jelaskan bagaimana ukuran sampel memengaruhi reliabilitas inferensial.

2.3 Jawaban Study Kasus 2: Uji Statistik

2.3.1 Penentuan Hipotesis (\(H_0\) dan \(H_1\))

Karena penelitian ingin mengetahui apakah rata-rata berbeda dari 10 menit (dua arah), maka:

  • \(H_0: \mu = 10\) (Rata-rata waktu penyelesaian tugas sama dengan 10 menit)
  • \(H_1: \mu \neq 10\) (Rata-rata waktu penyelesaian tugas tidak sama dengan 10 menit)

2.3.2 Uji Hipotesis yang Tepat

Uji yang tepat adalah One Sample t-Test (Uji-t Satu Sampel). Alasannya:

  • Hanya ada satu kelompok sampel.
  • Simpangan baku populasi (\(\sigma\)) tidak diketahui.
  • Ukuran sampel kecil (\(n < 30\), dalam hal ini \(n = 10\)).

2.3.3 Perhitungan Statistik-t dan Nilai-p (\(p\text{-value}\))

Data: 9.2, 10.5, 9.8, 10.1, 9.6, 10.3, 9.9, 9.7, 10.0, 9.5

  • Rata-rata sampel (\(\bar{x}\)): 9.86
  • Simpangan baku sampel (\(s\)): \(\approx 0.395\)
  • Ukuran sampel (\(n\)): 10
  • Standar Error (\(SE\)): \(SE = \frac{s}{\sqrt{n}} = \frac{0.395}{\sqrt{10}} \approx 0.125\)

Statistik-t:

\[t = \frac{\bar{x} - \mu_0}{SE} = \frac{9.86 - 10}{0.125} = \frac{-0.14}{0.125} = -1.12\]

Nilai-p (\(p\text{-value}\)): Dengan \(df = n - 1 = 9\) dan \(t = -1.12\) (dua arah), maka berdasarkan tabel distribusi t:\(p\text{-value} \approx 0.292\)

2.3.4 Keputusan Statistik

Kita membandingkan \(p\text{-value}\) dengan \(\alpha = 0.05\):

  • Jika \(p\text{-value} > \alpha\), maka Gagal Tolak \(H_0\).
  • \(0.292 > 0.05\).

Kesimpulan: Tidak ada bukti statistik yang cukup untuk menyatakan bahwa rata-rata waktu penyelesaian tugas berbeda secara signifikan dari 10 menit.

2.3.5 Pengaruh Ukuran Sampel terhadap Reliabilitas Inferensial

Ukuran sampel memiliki peran krusial dalam statistika inferensial:

  • Presisi: Semakin besar sampel, semakin kecil standar error (\(SE\)). Hal ini membuat estimasi rata-rata menjadi lebih presisi.
  • Power of Test: Sampel yang lebih besar meningkatkan kemampuan uji untuk mendeteksi perbedaan yang nyata (jika memang ada).
  • Representativitas: Sampel yang lebih besar cenderung lebih mencerminkan karakteristik populasi yang sebenarnya, sehingga mengurangi risiko bias hasil yang muncul karena kebetulan semata.

3 Study Kasus 3

3.1 Uji-T Dua Sampel (Uji A/B)

Sebuah tim analisis produk melakukan uji A/B untuk membandingkan rata-rata durasi sesi (menit) di antara dua versi halaman landas (landing page).

3.2 Tugas

  • Rumuskan hipotesis nol dan hipotesis alternatif.
  • Identifikasi jenis uji-t yang diperlukan.
  • Hitung statistik uji dan nilai p (p-value).
  • Tarik kesimpulan statistik pada tingkat \(\alpha = 0,05\).
  • Interpretasikan hasilnya untuk pengambilan keputusan produk.

3.3 Jawaban Study Kasus 3: Uji Statistik

3.3.1 Perumusan Hipotesis

Kita ingin menguji apakah ada perbedaan signifikan antara rata-rata durasi sesi Versi A \((\mu_A)\) dan Versi B \((\mu_B)\).

  • Hipotesis Nol (\(H_0\)): Tidak ada perbedaan rata-rata durasi sesi antara Versi A dan Versi B. \(H_0: \mu_A = \mu_B\).
  • Hipotesis Alternatif (\(H_1\)): Terdapat perbedaan rata-rata durasi sesi antara Versi A dan Versi B. \(H_1: \mu_A \neq \mu_B\)

3.3.2 Identifikasi Jenis Uji-T

Jenis uji yang digunakan adalah Independent Two-Sample T-Test (Uji-t Dua Sampel Independen).

Alasan: Kita membandingkan dua kelompok subjek yang berbeda (pengguna Versi A vs pengguna Versi B) dengan ukuran sampel kecil (\(n < 30\)). Kita akan mengasumsikan varians kedua kelompok sama (pooled variance) karena nilai standar deviasinya cukup berdekatan.

3.3.3 Perhitungan Statistik Uji dan Nilai p

Diketahui

  • \(n_A = 25, \bar{x}_A = 4.8, s_A = 1.2\)
  • \(n_B = 25, \bar{x}_B = 5.4, s_B = 1.4\)
  • \(\alpha = 0.05\)

Langkah A:

Hitung Pooled Standard Deviation (\(s_p\)): \[s_p = \sqrt{\frac{(n_A-1)s_A^2 + (n_B-1)s_B^2}{n_A + n_B - 2}}\] \[s_p = \sqrt{\frac{(24)(1.2^2) + (24)(1.4^2)}{25 + 25 - 2}} = \sqrt{\frac{34.56 + 47.04}{48}} = \sqrt{1.7} \approx 1.304\]

Langkah B:

Hitung Statistik Uji (t-value): \[t = \frac{\bar{x}_A - \bar{x}_B}{s_p \sqrt{\frac{1}{n_A} + \frac{1}{n_B}}}\] \[t = \frac{4.8 - 5.4}{1.304 \sqrt{\frac{1}{25} + \frac{1}{25}}} = \frac{-0.6}{1.304 \times 0.2828} = \frac{-0.6}{0.3688} \approx -1.627\]

Langkah C:

Nilai p (p-value): Dengan derajat kebebasan (\(df\)) = \(25 + 25 - 2 = 48\) dan \(t = -1.627\):

  • Berdasarkan tabel distribusi t (dua arah), nilai p berada di kisaran 0.109.
  • Artinya, p-value \(\approx 0.109\).

3.3.4 Kesimpulan Statistik

  • Kriteria: Jika p-value < \(\alpha\), maka tolak \(H_0\).
  • Hasil: \(0.109 > 0.05\).
  • Keputusan: Gagal Tolak \(H_0\). Secara statistik, tidak ada perbedaan yang signifikan antara rata-rata durasi sesi Versi A dan Versi B pada tingkat kepercayaan 95%.

3.3.5 Interpretasi untuk Pengambilan Keputusan

Meskipun secara angka Versi B memiliki rata-rata durasi sesi yang lebih tinggi (5.4 menit) dibandingkan Versi A (4.8 menit), perbedaan sebesar 0.6 menit ini tidak cukup kuat secara statistik untuk membuktikan bahwa Versi B benar-benar lebih baik.

4 Study Kasus 4

4.1 Uji Independensi Chi-Square

Sebuah perusahaan e-commerce meneliti apakah jenis perangkat memiliki hubungan dengan pilihan metode pembayaran.

4.2 Tugas

  1. Nyatakan Hipotesis Nol (\(H_0\)) dan Hipotesis Alternatif (\(H_1\)).
  2. Tentukan uji statistik yang tepat.
  3. Hitung statistik Chi-Square (\(\chi^2\)).
  4. Tentukan p-value pada \(\alpha = 0,05\).
  5. Interpretasikan hasilnya dalam hal strategi pembayaran digital.

4.3 Jawaban Study Kasus 4: Uji Statistik

4.3.1 Hipotesis Nol (\(H_0\)) dan Hipotesis Alternatif (\(H_1\))

  • \(H_0\): Tidak ada hubungan antara jenis perangkat dan pilihan metode pembayaran (keduanya saling bebas/independen).
  • \(H_1\): Ada hubungan yang signifikan antara jenis perangkat dan pilihan metode pembayaran (keduanya dependen).

4.3.2 Uji Statistik yang Tepat

Uji statistik yang digunakan adalah Uji Independensi Chi-Square (\(\chi^2\)). Uji ini digunakan untuk menentukan apakah terdapat hubungan antara dua variabel kategorikal (Jenis Perangkat dan Metode Pembayaran).

4.3.3 Hitung Statistik Chi-Square (\(\chi^2\))

Pertama, kita hitung total baris dan kolom

Rumus Frekuensi Harapan (\(E\)): \(E = \frac{\text{Total Baris} \times \text{Total Kolom}}{N}\)

Tabel Frekuensi Harapan (Expected):

  • Seluler/E-Wallet: \[E = \frac{250 \times 180}{440} = 102,27\]
  • Seluler/Kredit: \[E = \frac{250 \times 170}{440} = 102,27\]
  • Seluler/COD: \[E = \frac{250 \times 90}{440} = 102,27\]
  • Desktop/E-Wallet: \[E = \frac{250 \times 180}{440} = 102,27\]
  • Desktop/Kredit: \[E = \frac{250 \times 170}{440} = 102,27\]
  • Desktop/COD: \[E = \frac{250 \times 90}{440} = 102,27\]

Rumus Chi-Square: \(\chi^2 = \sum \frac{(O - E)^2}{E}\)

  • \[\chi^2_\ = \frac{(120 - 102,27)^2}{102,27} = 3,074\]
  • \[\chi^2_\ = \frac{(80 - 96,59)^2}{96,59} = 2, 850\]
  • \[\chi^2_\ = \frac{(50 - 51,14)^2}{51,14} = 0,025\]
  • \[\chi^2_\ = \frac{(60 - 77,73)^2}{77,73} = 4,0444\]
  • \[\chi^2_\ = \frac{(90 - 73,41)^2}{73,41} = 3,749\]
  • \[\chi^2_\ = \frac{(40 - 38,86)^2}{38,86} = 0,033\]

Total \(\chi^2\) = 13,775

4.3.4 Tentukan p-value pada \(\alpha = 0,05\)

4.3.4.1 Menentukan Derajat Kebebasan (df)

Derajat kebebasan ditentukan oleh jumlah baris (\(r\)) dan kolom (\(c\)) pada tabel kontingensi:

  • Jumlah Baris (\(r\)) = 2 (Seluler, Desktop)
  • Jumlah Kolom (\(c\)) = 3 (E-Wallet, Kartu Kredit, COD)
  • \(df = (r - 1) \times (c - 1)\)
  • \(df = (2 - 1) \times (3 - 1) = 1 \times 2 = \mathbf{2}\)
4.3.4.2 Membandingkan dengan Nilai Kritis (Tabel \(\chi^2\))

Pada tingkat signifikansi \(\alpha = 0,05\) dengan \(df = 2\), nilai kritis dari tabel Chi-Square adalah 5,991.

  • Nilai Hitung \(\chi^2\) kita = 13,775
  • Karena \(13,775 > 5,991\), maka kita berada di area penolakan \(H_0\).
4.3.4.3 Menentukan p-value secara Spesifik

P-value adalah probabilitas untuk mendapatkan nilai statistik uji yang setidaknya sama ekstremnya dengan hasil pengamatan, dengan asumsi \(H_0\) benar.

Berdasarkan tabel distribusi \(\chi^2\) untuk \(df = 2\):

  • Jika \(\chi^2 = 5,991\), maka \(p = 0,05\)
  • Jika \(\chi^2 = 9,210\), maka \(p = 0,01\)
  • Jika \(\chi^2 = 13,816\), maka \(p = 0,001\)

Nilai hitung kita 13,775 sangat mendekati 13,816. Dengan menggunakan kalkulator statistik atau fungsi distribusi pada perangkat lunak (seperti =CHIDIST(13.775, 2) di Excel), kita mendapatkan:

p-value \(\approx\) 0,001015 (atau sekitar 0,001)

4.3.5 Interpretasi dalam Strategi Pembayaran Digital

4.3.5.1 Optimalisasi Ekosistem Mobile (Fokus E-Wallet)

Data menunjukkan pengguna Seluler sangat condong ke E-Wallet (120 pengguna).

  • Strategi: Terapkan fitur one-click payment atau integrasi deep-linking dengan aplikasi dompet digital populer (seperti GoPay, OVO, atau Dana).
  • Promosi: Berikan cashback atau poin loyalitas khusus untuk transaksi via aplikasi mobile yang menggunakan E-Wallet guna memperkuat retensi pelanggan di segmen ini.
4.3.5.2 Personalisasi Pengalaman Desktop (Fokus Kartu Kredit)

Pengguna Desktop menunjukkan proporsi penggunaan Kartu Kredit yang lebih tinggi (90 pengguna) dibandingkan proporsi di seluler.

  • Strategi: Tingkatkan fitur keamanan pada tampilan desktop, seperti verifikasi 3D Secure yang jelas, untuk membangun kepercayaan pengguna kartu kredit.
  • UI/UX: Tampilkan opsi Kartu Kredit di posisi teratas atau paling mencolok saat sistem mendeteksi pengguna mengakses situs dari browser desktop.
4.3.5.3 Evaluasi dan Pengurangan Ketergantungan COD

Meskipun masih digunakan, COD (Bayar di Tempat) adalah metode yang paling sedikit dipilih di kedua perangkat.

  • Masalah: COD memiliki risiko operasional tinggi (retur barang, kegagalan bayar, biaya kurir tambahan).
  • Strategi: Berikan insentif berupa “Gratis Ongkir” hanya jika pelanggan beralih dari COD ke metode pembayaran digital (E-Wallet/Transfer). Ini bertujuan untuk mengonversi pengguna tradisional menjadi pengguna digital yang lebih efisien bagi perusahaan.
4.3.5.4 Strategi Cross-Device Marketing

Karena terdapat perbedaan perilaku yang nyata:

  • Iklan Tertarget: Jika menjalankan iklan di media sosial yang diakses via mobile (seperti Instagram/TikTok), gunakan visual yang menonjolkan kemudahan pembayaran “Scan QRIS” atau “E-Wallet”.
  • Email Marketing: Jika mengirimkan newsletter yang kemungkinan dibuka di desktop (saat jam kerja), tonjolkan promo cicilan 0% atau diskon bank menggunakan Kartu Kredit.
4.3.5.5 Kesimpulan Strategis

Bisa kita lihat bahwa erusahaan tidak boleh menggunakan pendekatan one-size-fits-all. Strategi pembayaran harus dinamis berdasarkan perangkat yang digunakan pelanggan untuk memaksimalkan angka konversi penjualan (conversion rate) dan menurunkan angka keranjang belanja yang ditinggalkan (cart abandonment).

5 Study Kasus 5

5.1 Kesalahan Tipe I dan Tipe II (Konseptual)

Sebuah startup fintech menguji apakah algoritma pendeteksi penipuan (fraud) yang baru dapat mengurangi transaksi penipuan.

  • \(H_0\): Algoritma baru tersebut tidak mengurangi penipuan.
  • \(H_1\): Algoritma baru tersebut mengurangi penipuan.

5.2 Tugas

  1. Jelaskan Kesalahan Tipe I (\(\alpha\)) dalam konteks ini.
  2. Jelaskan Kesalahan Tipe II (\(\beta\)) dalam konteks ini.
  3. Identifikasi kesalahan mana yang lebih merugikan dari perspektif bisnis.
  4. Diskusikan bagaimana ukuran sampel (sample size) memengaruhi Kesalahan Tipe II.
  5. Jelaskan hubungan antara \(\alpha\), \(\beta\), dan kekuatan statistik (statistical power).

5.3 Jawaban Study Kasus 5: Uji Statistik

5.3.1 Kesalahan Tipe I (\(\alpha\)): The False Alarm

Secara statistik, ini adalah probabilitas menolak hipotesis nol yang sebenarnya benar.

  • Analogi Bisnis: Bayangkan tim IT Anda sangat bersemangat dan mengklaim algoritma baru ini “ajaib”, padahal setelah diuji lebih lanjut, performanya sama saja dengan sistem lama.
  • Dampak Konkrit: Perusahaan membuang sumber daya (uang, waktu, tenaga insinyur) untuk mengganti sistem yang sebenarnya tidak memberikan nilai tambah. Ada biaya peluang (opportunity cost) yang hilang.

5.3.2 Kesalahan Tipe II (\(\beta\)): The Failed Detection

Ini adalah kegagalan untuk mendeteksi adanya efek atau perubahan yang sebenarnya ada.

  • Analogi Bisnis: Anda memiliki “obat” yang manjur untuk menghentikan pencurian uang di startup Anda, tetapi karena pengujian yang kurang akurat, Anda menyimpulkan obat itu tidak manjur dan membuangnya.

  • Dampak Konkrit: Penipuan terus terjadi secara masif. Kerugian finansial langsung meningkat, dan reputasi startup fintech Anda terancam karena dianggap tidak aman oleh pengguna.

5.3.3 Perbandingan Kerugian: Mana yang Lebih Berbahaya?

Dalam dunia medis atau deteksi penipuan, Kesalahan Tipe II biasanya dianggap lebih fatal.

  • Tipe I (Biaya Operasional): Kerugiannya terukur (biaya development).

  • Tipe II (Biaya Katastropik): Kerugiannya bisa tidak terbatas (kebocoran dana nasabah, denda regulasi, hingga kebangkrutan karena hilangnya kepercayaan pasar).

5.3.4 Peran Ukuran Sampel (Sample Size)

  • Sampel Kecil: Lensa buram. Anda mungkin tidak melihat adanya pengurangan penipuan meskipun algoritma tersebut bekerja (Risiko \(\beta\) tinggi).
  • Sampel Besar: Lensa tajam. Anda bisa melihat perbedaan sekecil apa pun dengan sangat jelas. Hal ini meningkatkan presisi dan secara otomatis menurunkan probabilitas kita melakukan Kesalahan Tipe II.
  • Rumus Sederhana: Semakin besar \(n\) (jumlah sampel), semakin kecil standar eror, sehingga pengujian menjadi lebih kuat (powerful).

5.3.5 Hubungan \(\alpha, \beta\), dan Statistical Power

Ketiga variabel ini berada dalam satu sistem yang saling memengaruhi. Jika Anda mengubah satu, yang lain akan ikut bergeser.

Hubungan Kuncinya:

  • Inverse Relationship: Jika Anda memperkecil \(\alpha\) (misal dari 5% ke 1%) karena ingin sangat yakin, maka secara otomatis Anda memperlebar kemungkinan \(\beta\) (sulit bagi algoritma untuk membuktikan dirinya efektif).
  • Power Sebagai Tujuan: Dalam bisnis, kita ingin Power (\(1-\beta\)) setinggi mungkin. Cara terbaik meningkatkan Power tanpa merusak \(\alpha\) adalah dengan menambah ukuran sampel.

Visualisasi Sederhana:

  • \(\alpha\) adalah polisi yang menangkap orang tidak bersalah.
  • \(\beta\) adalah polisi yang membiarkan penjahat lolos.
  • Power adalah kemampuan polisi untuk menangkap semua penjahat yang ada.

6 Study Kasus 6

6.1 Nilai-P (P-Value) dan Pengambilan Keputusan Statistik

Evaluasi model prediksi churn memberikan hasil sebagai berikut:

  • Statistik uji = 2.31
  • p-value = 0.021
  • Tingkat signifikansi: \(\alpha = 0.05\)

6.2 Tugas

  1. Jelaskan makna dari p-value.
  2. Buatlah sebuah keputusan statistik.
  3. Terjemahkan keputusan tersebut ke dalam bahasa non-teknis untuk manajemen.
  4. Diskusikan risikonya jika sampel tidak representatif (tidak mewakili populasi)
  5. Jelaskan mengapa p-value tidak mengukur ukuran efek (effect size).

6.3 Jawaban Study Kasus 6: Uji Statistik

6.3.1 Makna dari p-value

Secara teknis, p-value adalah probabilitas mendapatkan hasil uji yang setara atau lebih ekstrem daripada hasil yang diobservasi, dengan asumsi bahwa hipotesis nol (\(H_0\)) adalah benar.

Dalam konteks ini, nilai 0.021 berarti ada peluang sebesar 2,1% bahwa hasil prediksi churn ini terjadi hanya karena kebetulan belaka (faktor acak). Semakin kecil p-value, semakin kuat bukti untuk menolak asumsi bahwa tidak ada pengaruh atau hubungan dalam data tersebut.

6.3.2 Keputusan Statistik

Untuk mengambil keputusan, kita membandingkan p-value dengan nilai \(\alpha\):

  • Aturan: Jika p-value \(\leq \alpha\), maka Tolak \(H_0\)
  • Perbandingan: \(0.021 \leq 0.05\).

Keputusan: Tolak Hipotesis Nol (\(H_0\)) dan terima Hipotesis Alternatif (\(H_a\)). Hasil evaluasi ini dinyatakan signifikan secara statistik pada tingkat kepercayaan 95%.

6.3.3 Terjemahan dalam Bahasa Non-Teknis (untuk Manajemen)

Berdasarkan analisis data, model prediksi churn kita memiliki bukti yang sangat kuat dan bukan sekadar kebetulan. Kita bisa meyakini bahwa pola yang ditemukan model dalam mendeteksi pelanggan yang akan berhenti (churn) adalah nyata, sehingga hasil prediksi ini layak digunakan sebagai dasar pengambilan kebijakan perusahaan.

6.3.4 Risiko jika Sampel Tidak Representatif

Jika sampel tidak mewakili populasi (bias), maka muncul risiko Generalisasi yang Salah.

  • Ketidakakuratan: Model mungkin terlihat bekerja sangat baik pada data tes, namun gagal total saat diterapkan pada pelanggan asli di lapangan.

  • Keputusan yang Menyesatkan: Manajemen mungkin mengalokasikan anggaran besar untuk kampanye retensi yang salah sasaran karena data awal tidak mencerminkan perilaku seluruh pelanggan.

6.3.5 Mengapa p-value tidak mengukur Ukuran Efek (Effect Size)

P-value hanya memberi tahu kita apakah sebuah efek itu ada atau nyata (signifikansi), bukan seberapa besar dampak atau kekuatan efek tersebut.

  • P-value sangat dipengaruhi oleh jumlah sampel. Dengan sampel yang sangat besar, perbedaan sekecil apa pun bisa menjadi “signifikan” (p-value kecil), padahal perbedaannya mungkin tidak berarti secara bisnis.

  • Contoh: P-value kecil menunjukkan kita yakin pelanggan akan churn, tapi Effect Size lah yang memberi tahu kita apakah jumlah churn tersebut masif atau hanya berdampak kecil pada pendapatan.

7 Referensi

[1] Moore, D. S., Notz, W. I., & Flinger, M. A., The Basic Practice of Statistics, 2021, Available. https://www.macmillanlearning.com/college/us/product/Basic-Practice-of-Statistics/p/131924444X

[2] Dykes, B., Effective Data Storytelling: How to Drive Change with Data, Narrative and Visuals, 2019, Available. https://www.wiley.com/en-us/Effective+Data+Storytelling:+How+to+Drive+Change+with+Data,+Narrative,+and+Visuals-p-9781119615712

[3] Lohr, S. L., Sampling: Design and Analysis, 2021, Available. https://www.routledge.com/Sampling-Design-and-Analysis/Lohr/p/book/9780367483418

[4] Sullivan, G. M., & Feinn, R., Using Effect Size—or Why the P Value Is Not Enough, 2012, Available. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3444174/