Study Case

Statistical Inferences ~ Week 14

Yosef Teofani Tamba

Data science undergraduate at ITSB with lecturer Mr. Bakti Siregar, M.Sc., CDS

1 Case Study 1

One-Sample Z-Test (Statistical Hypotheses):

Sebuah platform pembelajaran digital mengklaim bahwa waktu belajar harian rata-rata penggunanya adalah 120 menit. Berdasarkan catatan historis, simpangan baku populasi diketahui sebesar 15 menit.

Sebuah sampel acak dari 64 pengguna menunjukkan waktu belajar rata-rata sebesar 116 menit.

\[ \begin{eqnarray*} \mu_0 &=& 120 \\ \sigma &=& 15 \\ n &=& 64 \\ \bar{x} &=& 116 \end{eqnarray*} \]

Tasks:

  1. Formulasikan Hipotesis Nol (H₀) dan Hipotesis Alternatif (H₁).
  2. Identifikasi uji statistik yang sesuai dan jelaskan alasan pemilihan Anda.
  3. Hitung statistik uji dan nilai p menggunakan \(\alpha = 0.05\).
  4. Nyatakan keputusan statistik.
  5. Interpretasikan hasil dalam konteks analisis bisnis.

1.1 Formulasi Hipotesis Nol (H₀) dan Hipotesis Alternatif (H₁)

  • Hipotesis Nol (\(H_{0}\)) Berfungsi sebagai dasar atau acuan dalam pengujian hipotesis yang tidak ada efek, perbedaan, atau hubungan dalam populasi. Dalam kasus berikut, \(H_{0}\):\(\mu = 120\) menit

  • Hipotesis Alternatif (\(H_{1}\)) adalah pernyataan yang berlawanan dengan \(H_{0}\). Karena tidak adanya arah spesifik yang digunakan dan mencerminkan efek, perbedaan, atau hubungan yang diharapkan peneliti untuk dideteksi dalam populasi. Dalam kasus berikut, \(H_{1}\): \(\mu \neq 120\) menit (Uji dua sisi)

1.2 Mengidentifikasi Uji Statistik

Dalam kasus kali ini, uji statistik yang cocok untuk digunakan adalah Distribusi-Z (One-Sample Z-Test). Alasannya adalah:

  • Parameter yang diuji adalah rata-rata populasi (\(\mu\))
  • Standar Deviasi dari populasi (\(\sigma\)) diketahui.
  • Ukuran sampel yang besar (\(n=64 \geq 30\)), memenuhi kondisi Central Limit Theorem (CLT) sehingga distribusi sampling mendekati normal walaupun distribusi dari populasi tidak diketahui.

Rumus dari uji Z (Central Limit Theorem) dapat dihitung sebagai berikut: \[ Z = \frac{\bar{x}-\mu_{0}}{\sigma/ \sqrt{n}} \]

Keterangan:

  • \(\bar{x}=\) rata-rata sampel
  • \(\mu_{0}=\) nilai hipotesis nol
  • \(\sigma=\) standar deviasi populasi
  • \(n=\) ukuran sampel
  • \(\sigma / \sqrt{n}=\) Standar Error

1.3 Menghitung Uji Statistik

Dalam kasus tersebut, diketahui bahwa nilai dari:

  • \(\mu_{0}=120\)
  • \(\sigma=15\)
  • \(n=64\)
  • \(\bar{x}=116\)

Dalam menghitung uji statistik, pada kasus kali ini ada 3 langkah yaitu:

  • Langkah pertama, menentukan nilai Standar Error(SE): \[ SE=\frac{\sigma}{\sqrt{n}}=\frac{15}{\sqrt{64}}=\frac{15}{8}=1.875 \]

  • Langkah kedua menentukan uji-Z: \[ Z = \frac{\bar{x}-\mu_{0}}{SE}=\frac{116-120}{1.875}=\frac{-4}{1.875}=-2.1333 \]

  • Langkah ketiga menentukan p-value (dua sisi) \[ p=2\times{P} \,(Z < -2.1333)=2\times 0.0165=0.0330 \]

1.4 Pembuktian dari Hasil Uji Z-Test

Karena diketahui nilai dari \(\sigma=0.05\) maka :

  • p-value bernilai (0.0329) < \(\sigma\) (0.05)
  • Keputusan: Tolak \(H_{0}\) pada tingkat signifikan 5% (0.05)

Ditemukanya bukti statistik yang cukup untuk menyatakan bahwa rata-rata waktu belajar harian pengguna berbeda secara signifikan dari 120 menit.

Ringkasan Z-Test
Parameter Nilai Rumus
Rata-rata sampel (x̄) 116.00 \(\bar{x}\)
Rata-rata hipotesis (μ₀) 120.00 \(\mu_{0}\)
Simpangan baku populasi (σ) 15.00 \(\sigma\)
Ukuran sampel (n) 64.00 \(n\)
Statistik uji (z) -2.13 \(\frac{\bar{x}-\mu_{0}}{\sigma/\sqrt{n}}\)
p-value (two-tailed) 0.03 \(2\times{P}(Z\leq{z})\)
Tingkat signifikansi (α) 0.05 \(\alpha\)

1.5 Interpretasi Hasil Analisis

Berdasarkan uji hipotesis dengan tingkat signifikan 5%, terdapat bukti statistik yang kuat dalam menolak klaim platform bahwa rata-rata waktu belajar pengguna harian adalah 120 menit. Berikut beberapa point penting yang perlu diperhatikan:

  • Klaim rata-rata waktu belajar adalah 120 menit tidak didukung dengan data aktual, sehingga perlu nya evaluasi terhadap metodologi atau perubahan perilaku pengguna.
  • Rata-rata aktual (116 menit) 4 menit lebih rendah dari klaim yang merepresentasikan penuruan sebesar 3.33%.
  • Menolak nilai \(H_{0}\) karena (p < 0.05)

2 Case Study 2

One-Sample T-Test (σ Unknown, Small Sample):

Tim Riset Pengalaman Pengguna (UX) menyelidiki apakah waktu penyelesaian tugas rata-rata dari aplikasi baru berbeda dari 10 menit.

Data berikut dikumpulkan dari 10 pengguna: \[ 9.2,\; 10.5,\; 9.8,\; 10.1,\; 9.6,\; 10.3,\; 9.9,\; 9.7,\; 10.0,\; 9.5 \]

Tasks:

  1. Tentukan H₀ dan H₁ (dua ekor).
  2. Tentukan uji hipotesis yang sesuai.
  3. Hitung statistik-t dan p-value pada \(\alpha = 0.05\).
  4. Buat keputusan statistik.
  5. Jelaskan bagaimana ukuran sampel memengaruhi keandalan inferensial.

2.1 Menentukan H₀ dan H₁ (Two-Tailed)

UJi hipotesis dilakukan oleh Tim Riset Pengalaman Pengguna (UX) untuk menguji apakah waktu penyelesaian tugas rata-rata pada aplikasi baru berbeda secara signifikan dari target 10 menit. Parameter yang diuji adalah \(\mu\), yaitu rata-rata waktu penyelesaian tugas populasi pengguna aplikasi.

Terdapat Dua Hipotesis yaitu:

  • Hipotesis (\(H_{0}\)):Berfungsi sebagai dasar atau acuan dalam pengujian hipotesis yang tidak ada efek, perbedaan, atau hubungan dalam populasi. Dalam kasus berikut, \(H_{0}\):\(\mu = 10\) menit yang menyatakan bahwa tidak adanya perbedaan dari antara rata-rata waktu penyelesaian tugas populasi dengan pengguna aplikasi (\(\mu\)) dengan klaim 10 menit

  • Hipotesis Alternatif (\(H_{1}\)): Adalah pernyataan yang berlawanan dengan \(H_{0}\). Karena tidak adanya arah spesifik yang digunakan dan mencerminkan efek, perbedaan, atau hubungan yang diharapkan peneliti untuk dideteksi dalam populasi. Dalam kasus berikut, \(H_{1}\): \(\mu \neq 10\) menit (Uji dua sisi) yang menyatakan bahwa rata-rata waktu penyelesaian tugas populasi (\(\mu\)) berbeda secara siginifikan dari 10 menit.

Uji dua arah dipilih karena tidak ada asumsi awal apakah aplikasi menjadi lebih cepat atau sebaliknya dari target.

2.2 Menentukan Uji Hipotesis

Dalam kasus ini, one-sample t-test digunakan untuk menguji apakah rata-rata populasi (\(\mu\)) berbeda secara signifikan dari target (\(\mu=10\) menit). Alasan pemilihannya adalah:

  • Standar Deviasi populasi (\(\sigma\)) tidak diketahui.
  • Nilai dari ukuran sampel yang kecil yaitu \(n=10 < 30\) sehingga tidak cocok untuk distribusi Normal

Sehingga dari kedua alasan tersebut, distribusi yang paling cocok digunakan adalah distribusi one sample t-test.

One Sample t-Test memiliki rumus sebagai berikut: \[ t=\frac{\bar{x}-\mu_{0}}{s/\sqrt{n}} \]

2.3 Menghitung Statistik-t dan p-value

Dalam perhitungan kasus ini, menggunakan statistik-t dengan rumus: \[ t=\frac{\bar{x}-\mu_{0}}{s/\sqrt{n}} \] \[ dan \] \[ P=2\times P(T\geq t) \]

Keterangan:

  • \(t\): Stattistik uji-t (Test Statistik)
  • \(\bar{x}\): Rata-rata sampel (Sample Mean)
  • \(\mu_{0}=10\): Rata-rata klaim populasi 10 menit
  • \(s\): Simpangan baku sampel
  • \(n=10\): Jumlah sampel
  • \(P=2\times P(T\geq t)\): Uji dua arah (Two-tailed-test)

Berikut adalah keseluruhan dari hasil pengukuran:

Komponen Perhitungan Rumus/Symbol Nilai Hasil Perhitungan
Rata-rata Sampel (\(\bar{x}\)) \(\bar{x} = \frac{\sum x_i}{n}\) 9.8600
Simpangan Baku Sampel (\(s\)) \(s = \sqrt{\frac{\sum (x_i - \bar{x})^2}{n-1}}\) 0.3864
Ukuran Sampel (\(n\)) \(n\) 10.0000
Nilai Hipotesis (\(\mu_0\)) \(\mu\) 10.0000
Statistik-t (\(t\)) \(t = \frac{\bar{x} - \mu_0}{s/\sqrt{n}}\) -1.1456
Derajat Kebebasan (\(df\)) \(df = n - 1\) 9.0000
p-value (dua arah) \(p = 2 \times P (T \geq t)\) 0.2815
Batas Bawah CI 95% \(\bar{x} - t_{\alpha/2, df} \cdot \frac{s}{\sqrt{n}}\) 9.5836
Batas Atas CI 95% \(\bar{x} + t_{\alpha/2, df} \cdot \frac{s}{\sqrt{n}}\) 10.1364

2.4 Keputusan Statistik

Dari hasil perhitungan yang sudah dilakukan, dapat diketahui bahwa p-value (0.257) > \(\alpha\) (0.05) sehingga keputusan yang diambil adalah tidak menolak \(H_{0}\) karena tidak adanya bukti yang menyatakan bahwa rata-rata waktu penyelesaian tugas berbeda secara signifikan dari target 10 menit. Perbedaan antara rata-rata sampel (9.86 menit) dan target dianggap sebagai variasi kebetulan.

2.5 Pengaruh Ukuran Sampel

Ukuran sampel mempengaruhi realibilitas inferensi melalui beberapa mekanisme:

  • Presisi Estimasi: Standar error (SE) berbanding terbalik dengan \(\sqrt{n}\). Sampel yang kecil menghasilkan SE yang besar, sehingga estimasi kurang presisi.
  • Power Statistik: Kemampuan mendeteksi efek yang ada pada effek size \(d=0.374\) dan \(\sigma=0.05\).
  • Generalizability: Sampel yang kecil tidak mewakili seluruh populasi dengan baik sehingga meningkatkan resiko Sampling Error.

Dalam kasus ini, \(n=10\) memberikan power yang cukup rendah. Perbedaan sebesar 0.14 menit penting secara praktis dengan meneliti lebih lanjut dengan sampel yang lebih besar diperlukan dalam memastikan dengan confidence interval yang memadai.

3 Case Study 3

Two-Sample T-Test (A/B Testing)

Tim analitik produk melakukan uji A/B untuk membandingkan durasi sesi rata-rata (menit) antara dua versi halaman arahan.

Versi Ukuran Sampel (n) Rata-rata Standar Deviasi
A 25 4.8 1.2
B 25 5.4 1.4

Tasks:

  1. Formulasikan hipotesis nol dan alternatif.
  2. Tentukan jenis uji t yang diperlukan.
  3. Hitung statistik uji dan nilai p.
  4. Tarik kesimpulan statistik pada \(\alpha = 0.05\).
  5. Interpretasikan hasil untuk pengambilan keputusan produk.

3.1 Formulasi Hipotesis Nol (H₀) dan Hipotesis Alternatif (H₁).

Pada kasus kali* ini terdapat tim analitik produk yang melakukan test data A/B untuk membadingkan durasi antar dua versi halaman arahan dengan rata-rata versi \(A=4.8\) menit dan versi \(B=5.4\) menit.

  • Hipotesis Nol (H₀): Menyatakan bahwa tidak adanya perbedaan antara rata-rata durasi versi A dan versi B. Perbedaan sebesar 0.6 menit yang ditemukan pada sampel, hanya variasi acak (Sampling Error). \(\mu_{A}=\mu_{B}\)
  • Hipotesis Alternatif (H₁): Menyatakan bahwa rata-rata durasi sesi populasi untuk versi A dan versi B berbeda secara signifikan. Dengan menggunakan uji dua arah (two-tailed test) karena ingin mengecek apakah ada perbedaan atau tidak.

3.2 Menentukan Jenis Uji-T

Pada kasus kali ini, menggunakan uji-t two sample independent (Welch’s t-test) digunakan dengan pertimbangan bahwa varians populasi kemungkinan tidak sama.

Berikut asumsi yang harus dipenuhi:

  • Independensi: Dalam observasi setiap kelompok adalah bersifat independen, baik di dalam maupun antar kelompok. Dalam hal tersebut, asumsi terpenuhi karena pengguna dialokasikan secara acak ke Versi A atau Versi B.
  • Normalitas: Data masing-masing kelompok berasal dari data distribusi normal. Dengan \(n=25\) per kelompok, asumsi ini dapat di katakan cukup terpenuhi berdasarkan Central Limit Theorem (CLT), atau bisa juga dengan menguji normlaitas jika terdapat data mentah.
  • Kesamaan Varians: Tidak diasumsikan sama, sehingga digunakan pendekatan Welch yang tidak memerlukan homogenitas varians.

Rumus statistik dari uji-t Welch: \[ t=\frac{\bar{X}_{A}-\bar{X}_{B}}{\sqrt{\frac{s^2_{A}}{n_{A}}+\frac{s^2_{B}}{n_{B}}}} \] Dengan derajat kebebasan (df) dihitung dengan aproksi Welch-Satterhwaite: \[ df = \frac{\left( \frac{s_A^2}{n_A} + \frac{s_B^2}{n_B} \right)^2}{\frac{(s_A^2/n_A)^2}{n_A-1} + \frac{(s_B^2/n_B)^2}{n_B-1}} \]

3.3 Perhitungan Uji Statistik

Dalam kasus berikut, menggunakan rumus dari uji-t Welch: \[ t=\frac{\bar{X}_{A}-\bar{X}_{B}}{\sqrt{\frac{s^2_{A}}{n_{A}}+\frac{s^2_{B}}{n_{B}}}} \]

Sehingga diperoleh hasil berikut dalam bentuk tabel:

Komponen Rumus Nilai
Perbedaan Rata-rata \(\bar{X}_A - \bar{X}_B\) -0.6000000
Standard Error \(\sqrt{\frac{s_A^2}{n_A} + \frac{s_B^2}{n_B}}\) 0.3687818
Statistik t \(t = \frac{\bar{X}_A - \bar{X}_B}{SE}\) -1.6269784
Derajat Kebebasan (df) \(df = \frac{\left( \frac{s_A^2}{n_A} + \frac{s_B^2}{n_B} \right)^2}{\frac{(s_A^2/n_A)^2}{n_A-1} + \frac{(s_B^2/n_B)^2}{n_B-1}}\) 46.9028942
p-value (two-tailed) \(2 \times P(T > t)\) 0.1104422

Dari hasil diatas dapat diketahui bahwa:

  • p-value (0.11) > \(\sigma\) (0.05): Dari hasil tersebut, maka kita menolak hipotesis nol yang artinya tidak ada bukti statistik yang kuat dalam menyatakan bahwa ada perbedaan rata-rata durasi yang signifikan.

3.4 Kesimpulan Statistik

Setelah menghitung, dapat diketahui bahwa nilai dari:

  • p-value:0.110
  • Tingkat Signifikan: 0.05

Sehingga jika:

  • \(p<\alpha\) maka: Menolak \(H_{0}\) karena hasil signifikan secara statistik dan terdapat bukti untuk mendukup \(H_{1}\).
  • \(p\geq\sigma\) maka: Menerima \(H_{0}\) karena hasil tidak signifikan seara statistik dan tidak cukup bukti untuk mendukung \(H_{1}\).

Dari hasil yang sudah didapatkan, dapat disimpulkan bahwa Menerima Hipotesis Nol \(H_{0}\) karena secara statistik, pada tingkat keercayaan 95% (\(\sigma=0.05\)), tidak ditemukan bukti yang cukup untuk menyatakan adanya perbedaan nyata antara rata-rata durasi Versi A dan Versi B.

3.5 Interpretasi Hasil

Dari hasil diatas, dapat diketahui bahwa kita tidak bisa menolak hipotesis nol. Artinya, tidak terdapat bukti yang cukup kuat untuk menyatakan bahwa adanya perbedaan rata-rata durasi sesi yang signifikan antara Versi A dan Versi B.

Sehingga dari perspektif bisnis:

  • Versi B: memiliki durasi sesi rata-rata lebih tinggi (5.4 menit).
  • Versi A: memiliki durasi sesi rata-rata lebih rendah (4.8 menit).

Dari perspektif diatas dapat diketahui bahwa perbedaan tidak signifikan secara statistik.

4 Case Study 4

Chi-Square Test of Independence

Sebuah perusahaan e-commerce meneliti apakah jenis perangkat terkait dengan preferensi metode pembayaran.

Perangkat / Pembayaran E-Wallet Kartu Kredit Bayar di Tempat
Ponsel 120 80 50
Desktop 60 90 40

Tasks:

  1. Nyatakan Hipotesis Nol (H₀) dan Hipotesis Alternatif (H₁).
  2. Identifikasi uji statistik yang sesuai.
  3. Hitung statistik Chi-Square (χ²).
  4. Tentukan nilai p pada \(\alpha = 0.05\).
  5. Interpretasikan hasil dalam konteks strategi pembayaran digital.

4.1 Formulasi Hipotesis Nol (H₀) dan Hipotesis Alternatif (H₁)

Fokus analisis adalah menguji hubungan antara dua variabel kategorik, yaitu jenis perangkat dan metode pembayaran.

Hipotesis Nol (H₀): Tidak terdapat hubungan antara jenis perangkat yang digunakan pengguna dengan metode pembayaran yang dipilih. Kedua variabel bersifat independen.

\[ H_0:\ \text{Jenis perangkat dan metode pembayaran saling independen} \]

Hipotesis Alternatif (H₁): Terdapat hubungan antara jenis perangkat yang digunakan pengguna dengan metode pembayaran yang dipilih.

\[ H_1:\ \text{Jenis perangkat dan metode pembayaran tidak independen} \]

4.2 Menentukan Jenis Uji Statistik

Uji statistik yang digunakan adalah Chi-Square Test of Independence, karena:

  • Data berbentuk frekuensi/kategori
  • Ingin menguji hubungan antara dua variabel kategorik
  • Tujuan analisis adalah menguji hubungan, bukan membandingkan rata-rata

Asumsi Uji Chi-Square:

  • Observasi antar kategori bersifat independen
  • Seluruh frekuensi harapan memenuhi syarat:

\[ E_{ij} \ge 5 \]

Frekuensi harapan dihitung menggunakan rumus:

\[ E_{ij} = \frac{(\text{Total baris}_i)(\text{Total kolom}_j)}{\text{Total keseluruhan}} \]

Ringkasan Hasil Uji Chi-Square
Chi_Square df p_value
X-squared 13.774 2 0.001

Untuk memastikan bahwa asumsi uji Chi-Square terpenuhi, berikut ditampilkan tabel frekuensi harapan.

Tabel Frekuensi Harapan (Expected Frequencies)
E-Wallet Kartu Kredit Bayar di Tempat
Ponsel 102.27 96.59 51.14
Desktop 77.73 73.41 38.86

4.3 Perhitungan Uji Statistik

Rumus statistik uji Chi-Square:

\[ \chi^2 = \sum_{i=1}^{r}\sum_{j=1}^{c} \frac{(O - E)^2}{E} \]

dengan:

  • \(O\) = frekuensi observasi
  • \(E\) = frekuensi harapan

Derajat kebebasan (degrees of freedom):

\[ df = (r-1)(c-1) \]

Pada kasus ini: \[ df = (2-1)(3-1) = 2 \]

Berdasarkan perhitungan menggunakan rumus Chi-Square, diperoleh nilai statistik uji sebagai berikut: \[ \chi^2 = 13.77 \]

4.4 Penentuan Nilai p-value

Dengan:

\(\chi^2 = 13.77\)

\(df = 2\)

Tingkat signifikansi \(\alpha = 0.05\)

maka diperoleh:

\[ p\text{-value} \approx 0.001 \]

4.5 Interpretasikan hasil dalam konteks strategi pembayaran digital

\[ p\text{-value} < \alpha \ (0.001 < 0.05) \]

Sehingga keputusan statistik adalah menolak Hipotesis Nol (\(H_0\)).Dengan demikian, terdapat bukti statistik yang cukup pada tingkat signifikansi 5%.Hal ini menunjukkan bahwa terdapat hubungan yang signifikan secara statistik antara jenis perangkat dan preferensi metode pembayaran.

Hasil analisis ini menunjukkan bahwa pilihan metode pembayaran pengguna dipengaruhi oleh jenis perangkat yang digunakan.

Dari sudut pandang bisnis:

  • Pengguna ponsel cenderung lebih banyak menggunakan E-Wallet
  • Pengguna desktop relatif lebih sering menggunakan kartu kredit

Implikasinya, perusahaan e-commerce dapat:

  • Mengoptimalkan dan memprioritaskan E-Wallet pada pengguna mobile
  • Menyediakan pengalaman pembayaran kartu kredit yang lebih optimal untuk pengguna desktop

Dengan demikian, strategi pembayaran digital yang disesuaikan dengan perangkat pengguna berpotensi meningkatkan kenyamanan transaksi dan konversi penjualan.

5 Case Study 5

Type I and Type II Errors (Conceptual)

Sebuah startup fintech menguji apakah algoritma deteksi penipuan baru dapat mengurangi transaksi penipuan.

  • H₀: Algoritma baru tidak mengurangi penipuan.
  • H₁: Algoritma baru mengurangi penipuan.

Tasks:

  1. Jelaskan Kesalahan Tipe I (α) dalam konteks ini.
  2. Jelaskan Kesalahan Tipe II (β) dalam konteks ini.
  3. Identifikasi kesalahan mana yang lebih merugikan dari perspektif bisnis.
  4. Diskusikan bagaimana ukuran sampel memengaruhi Kesalahan Tipe II.
  5. Jelaskan hubungan antara α, β, dan daya statistik.

5.1 Kesalahan Tipe I (Type I Error, α)

Kesalahan Tipe I terjadi ketika Hipotesis Nol ditolak, padahal pada kenyataannya Hipotesis Nol benar.

Dalam konteks ini, Kesalahan Tipe I berarti perusahaan menyimpulkan bahwa algoritma deteksi penipuan baru efektif mengurangi penipuan, padahal algoritma tersebut tidak memberikan dampak yang nyata terhadap penurunan transaksi penipuan.

Secara kuantitatif, \(\alpha=0.05\) berarti terdapat probabilitas 5% untuk menyimpulkan bahwa algoritma baru mengurangi penipuan padahal sebenarnya tidak. Kesalahan ini mengakibatkan:

  • Biaya impelemntasi yang sia-sia untuk algoritma yang tidak efektif.
  • Potensi gangguan terhadap pengguna layanan jika algoritma justru meningkatkan false positive.
  • Hilangnya kredibilitas tim data science dan keputusan investasi yang keliru.

5.2 Kesalahan Tipe II (Type II Error, β)

Kesalahan Tipe II terjadi ketika Hipotesis Nol gagal ditolak, padahal Hipotesis Alternatif benar.

Dalam konteks ini, Kesalahan Tipe II berarti perusahaan menyimpulkan bahwa algoritma baru tidak efektif, padahal sebenarnya algoritma tersebut mampu mengurangi transaksi penipuan.

Secara kuantitatif, \(\beta\) adalah probabilitas gagal yang mendeteksi bahwa algoritma baru benar-benar efektif. Misal \(\beta=0.20\) berarti probabilitas 20% untuk melewatkan algoritma yang sebenarnya bermanfaat. Secara substantif:

  • Kehilangan peluang untuk mengurangi kerugian finansial akibat penipuan.
  • Biaya oportunitas yang terus berlanjut karena tetap menggunakan sistem lama yang kurang efektif.
  • Potensi kerugian reputasi jika kompetitor berhasil mengadopsi teknologi serupa yang lebih baik.

5.3 Kesalahan yang Lebih Merugikan dari Perspektif Bisnis

Dalam konteks deteksi penipuan, kesalahan Tipe I lebih merugikan, karena perusahaan menganggap algoritma efektif padahal tidak, sehingga transaksi penipuan tetap lolos, kerugian finansial berlanjut, dan kepercayaan pengguna dapat menurun. Sebaliknya, Kesalahan Tipe II masih relatif dapat diperbaiki melalui evaluasi dan pengujian ulang sistem.

Namun bukan berarti Tipe II tidak beresiko, karena penipuan yang tidak terdeteksi biasanya melebihi biaya pengembangan algoritma

5.4 Pengaruh Ukuran Sampel terhadap Kesalahan Tipe II

Ukuran sampel memiliki pengaruh langsung terhadap Kesalahan Tipe II (β). Semakin kecil ukuran sampel, semakin besar kemungkinan uji statistik gagal mendeteksi efek yang sebenarnya ada, sehingga nilai β cenderung tinggi. Ukuran sampel (n) berbanding terbalik dengan \(\beta\) melalui hubungan: \[ \beta \, \infty \frac{1}{\sqrt{n}} \] dengan asumsi effect size dan \(\alpha\) tetap. peningkatan ukuran sampel akan:

  • Meningkatkan presisi estimasi parameter
  • Mengurangi variabilitas sampling, sehingga mempermudah deteksi effect size yang kecil.
  • Menurunkan β dan meningkatkan power (\(1-\beta\))

Sebaliknya, dengan ukuran sampel yang lebih besar, kemampuan uji statistik untuk mendeteksi bahwa algoritma baru benar-benar efektif akan meningkat, sehingga Kesalahan Tipe II menurun. Dalam konteks ini, penggunaan sampel yang lebih besar membantu perusahaan mengurangi risiko mengabaikan algoritma deteksi penipuan yang efektif.

5.5 Hubungan antara α, β, dan Daya Statistik (Power)

Hubungan antara ketiga konsep ini ialah:

  • α (alpha): probabilitas melakukan Kesalahan Tipe I
  • β (beta): probabilitas melakukan Kesalahan Tipe II
  • Daya statistik (Power): probabilitas menolak Hipotesis Nol ketika Hipotesis Alternatif benar

\[ \text{Power} = 1 - \beta \] Hubungan pentingnya:

  • Menurunkan α cenderung meningkatkan β
  • Meningkatkan ukuran sampel dapat menurunkan β tanpa menaikkan α
  • Semakin tinggi power, semakin besar kemampuan uji statistik dalam mendeteksi efek yang nyata

6 Case Study 6

P-Value and Statistical Decision Making

Evaluasi model prediksi churn menghasilkan hasil sebagai berikut:

  • Statistik uji = 2.31
  • Nilai p = 0.021
  • Tingkat signifikansi: \(\alpha = 0.05\)

Tasks:

  1. Jelaskan arti dari nilai p.
  2. Buatlah keputusan statistik.
  3. Terjemahkan keputusan tersebut ke dalam bahasa non-teknis untuk manajemen.
  4. Bahas risiko jika sampel tidak representatif.
  5. Jelaskan mengapa nilai p tidak mengukur ukuran efek.

6.1 Arti dari Nilai p

Nilai p menyatakan probabilitas memperoleh hasil uji yang sama ekstrem atau lebih ekstrem, dengan asumsi Hipotesis Nol benar.

Jika model prediksi churn sebenarnya tidak memiliki pengaruh, maka peluang memperoleh statistik uji sebesar 2.31 atau lebih ekstrem hanyalah 2.1%. Semakin kecil nilai p, semakin kuat bukti terhadap penolakan Hipotesis Nol.

Secara kuantitatif:

  • H₀ benar, probabilitas untuk mempreoleh statistik uji \(\geq\) 2.31 adalah 2.1%.
  • Ini bukan probabilitas bahwa H₀ benar
  • bukan ukuran besarnya efek atau kepentingan praktis.

6.2 Keputusan Statistik

Diketahui bahwa: \[ p\text{-value} < \alpha \; (0.021 < 0.05) \]

Maka keputusan statistiknya yaitu menolak Hipotesis Nol (\(H_0\)).

Artinya, hasil evaluasi model signifikan secara statistik pada tingkat 5% bahwa model prediksi churn memiliki kemampuan prediktif.

6.3 Interpretasi dalam Bahasa Non-Teknis (untuk Manajemen)

Hasil pengujian menunjukkan bahwa model prediksi churn memberikan sinyal yang cukup kuat dan tidak terjadi secara kebetulan. Dengan tingkat keyakinan yang tinggi, model ini memiliki bukti statistik awal untuk memberikan nilai tambah dalam memprediksi pelanggan yang berisiko berhenti. Dengan kata lain, keputusan untuk menggunakan atau melanjutkan pengembangan model didukung oleh bukti statistik.

6.4 Risiko Jika Sampel Tidak Representatif

Jika sampel yang digunakan tidak mewakili populasi pelanggan secara keseluruhan, maka hasil pengujian statistik berpotensi menyesatkan, meskipun nilai p signifikan.

Risiko yang dapat muncul antara lain:

  • Model terlihat efektif pada data uji, tetapi gagal saat diterapkan ke seluruh pelanggan
  • Keputusan bisnis diambil berdasarkan pola yang tidak mencerminkan kondisi nyata
  • Potensi kesalahan strategi retensi pelanggan

Oleh karena itu, validitas hasil statistik sangat bergantung pada kualitas dan representativitas sampel.

6.5 Mengapa Nilai p Tidak Mengukur Ukuran Efek

Nilai p hanya menunjukkan ada atau tidaknya bukti statistik, bukan seberapa besar dampak atau pengaruh model.

Poin penting:

  • Nilai p kecil tidak berarti efeknya besar
  • Dengan ukuran sampel yang besar, efek yang sangat kecil pun bisa menghasilkan p-value yang signifikan
  • Untuk mengetahui besarnya dampak, diperlukan ukuran lain seperti effect size, lift, atau perubahan metrik bisnis

Dengan demikian, nilai p sebaiknya digunakan sebagai alat pengambilan keputusan statistik, bukan sebagai satu-satunya dasar untuk menilai kekuatan atau nilai bisnis suatu model.