Study Cases

Statistical Inferences ~ Week 14 ~

library(ggplot2)
library(plotly)

Khafizatun Nisa
Data Science undergraduate student

R Programming Data Science Statistics

1 Studi Kasus 1

1.1 One-Sample Z-Test

Diketahui:

  • Rata-rata klaim populasi (μ₀) = 120 menit
  • Simpangan baku populasi (σ) = 15 menit
  • Ukuran sampel (n) = 64 pengguna
  • Rata-rata sampel (x̄) = 116 menit
  • Taraf signifikansi (α) = 0.05

1.2 Formulasi Hipotesis

Karena platform mengklaim rata-rata = 120 menit dan kita ingin mengecek apakah data berbeda dari klaim tersebut, maka digunakan uji dua arah.

H₀ (Hipotesis Nol):

\[𝐻₀:𝜇=120\]

H₁ (Hipotesis Alternatif):

\[ H_1: \mu \neq 120\]

1.3 Identifikasi Uji Statistik dan Justifikasi

Uji statistik yang digunakan adalah One-Sample Z-Test, karena:

  • Simpangan baku populasi (σ) diketahui
  • Ukuran sampel cukup besar (n = 64 ≥ 30)
  • Tujuan pengujian adalah membandingkan rata-rata sampel dengan rata-rata populasi

1.4 Menghitung Statistik Uji dan p-value*

Rumus statistik uji Z:
\[Z = \frac{\bar{x} - \mu_0}{\sigma / \sqrt{n}}\]

Substitusi nilai:
\[Z = \frac{116 - 120}{15 / \sqrt{64}}\]

\[Z = \frac{-4}{15/8} = \frac{-4}{1.875} = -2.13\]

Nilai statistik uji:
\[Z = -2.13\] p-value (uji dua arah):
\[p\text{-value} = 2 \times P(Z < -2.13) \approx 2 \times 0.0165 = 0.033\]

1.5 Keputusan Statistik

  • p-value = 0.033
  • α = 0.05

Karena:
p-value<α

keputusan:
Tolak H₀

1.6 Interpretasi dalam Konteks Business Analytics

Secara statistik, terdapat bukti yang cukup bahwa rata-rata waktu belajar harian pengguna berbeda secara signifikan dari klaim platform sebesar 120 menit.

Dalam konteks bisnis:

  • Pengguna belajar lebih sedikit dari yang diklaim
  • Klaim pemasaran platform perlu dievaluasi ulang
  • Perusahaan dapat mempertimbangkan:
    • Peningkatan fitur engagement
    • Strategi untuk meningkatkan durasi belajar pengguna
    • Penyesuaian ekspektasi dalam laporan performa

2 Studi Kasus 2

2.1 One-Sample T-Test (σ Unknown, Small Sample)

Diketahui:

  • Klaim rata-rata (μ₀) = 10 menit
  • Ukuran sampel (n) = 10
  • Data waktu (menit):9.2, 10.5, 9.8, 10.1, 9.6, 10.3, 9.9, 9.7, 10.0, 9.5
  • Taraf signifikansi (α) = 0.05

2.2 Hipotesis (Two-Tailed)

H₀ (Hipotesis Nol):
\[H₀: μ = 10 menit\]
H₁ (Hipotesis Alternatif): \[H₁: μ ≠ 10 menit\]

2.3 Uji Statistik

One-Sample t-Test
Alasan:

  • Simpangan baku populasi (σ) tidak diketahui
  • Ukuran sampel kecil (n= 10 < 30)
  • Menguji rata-rata satu sampel terhadap nilai tertentu

2.4 Menghitung Statistik Uji dan p-value

Dari data sampel diperoleh nilai:
Rata-rata sampel (x̄) = 9.86 menit
Simpangan baku sampel (s) ≈ 0.39 menit

Rumus statistik uji t: \[t = \frac{\bar{x} - \mu_0}{s / \sqrt{n}}\] Substitusi nilai: \[t = \frac{9.86 - 10}{0.39 / \sqrt{10}}\] \[t \approx -1.15\] Nilai statistik uji: \[t=−1.15\] Dengan derajat kebebasan (df) = 9, diperoleh p-value (uji dua arah) sekitar 0.28.

2.5 Keputusan Statistik

p-value = 0.28
α = 0.05
Karena:
\[p\text{-value} > \alpha\] Keputusan:
Gagal menolak H₀

2.6 Interpretasi dan Pengaruh Ukuran Sampel

Secara statistik, tidak terdapat bukti yang cukup untuk menyatakan bahwa rata-rata waktu penyelesaian tugas pada aplikasi baru berbeda dari 10 menit. Perbedaan yang terlihat kemungkinan disebabkan oleh variasi sampel.

Ukuran sampel yang kecil dapat memengaruhi keandalan inferensi statistik karena variabilitas data menjadi lebih besar dan kekuatan uji menjadi lebih rendah. Dengan ukuran sampel yang lebih besar, hasil pengujian statistik cenderung lebih stabil dan kesimpulan yang diambil menjadi lebih andal.

3 Studi Kasus 3

3.1 Two-Sample T-Test (A/B Testing)

Sebuah tim product analytics melakukan A/B testing untuk membandingkan rata-rata durasi sesi (dalam menit) antara dua versi landing page.

Ringkasan Data A/B Testing: Durasi Sesi Pengguna
Versi Ukuran Sampel (n) Rata-rata (menit) Simpangan Baku
A 25 4.8 1.2
B 25 5.4 1.4

Tujuan analisis adalah menentukan apakah terdapat perbedaan rata-rata durasi sesi antara kedua versi halaman.

3.2 Formulasi Hipotesis

Karena ingin mengetahui apakah terdapat perbedaan rata-rata antara dua versi landing page, maka digunakan uji dua arah.

H₀ (Hipotesis Nol): \[H_0: \mu_A = \mu_B\] H₁ (Hipotesis Alternatif): \[H_1: \mu_A \neq \mu_B\]

3.3 Identifikasi Jenis Uji t

Uji statistik yang digunakan adalah Two-Sample t-Test (Welch’s t-test), karena:

  • Dua sampel bersifat independen
  • Simpangan baku populasi tidak diketahui
  • Simpangan baku kedua kelompok tidak diasumsikan sama

3.4 Menghitung Statistik Uji dan p-value

Rumus statistik uji t (Welch): \[t = \frac{\bar{x}_A - \bar{x}_B}{\sqrt{\frac{s_A^2}{n_A} + \frac{s_B^2}{n_B}}}\] Substitusi nilai: \[t = \frac{4.8 - 5.4}{\sqrt{\frac{1.2^2}{25} + \frac{1.4^2}{25}}}\]
\[t = \frac{-0.6}{\sqrt{0.0576 + 0.0784}}\] \[t = \frac{-0.6}{0.369} \approx -1.63\] Nilai statistik uji: \[t \approx -1.63\] Derajat kebebasan (Welch approximation) ≈ 47.
Dengan uji dua arah, diperoleh p-value ≈ 0.11.

3.5 Keputusan Statistik (α = 0.05)

  • p-value = 0.11
  • α = 0.05

Karena:
p-value>α

keputusan:
Gagal menolak H₀

3.6 nterpretasi untuk Pengambilan Keputusan Produk

Secara statistik, tidak terdapat bukti yang cukup untuk menyatakan bahwa rata-rata durasi sesi pengguna pada versi B berbeda secara signifikan dari versi A.

Dalam konteks pengambilan keputusan produk:

  • Versi B memiliki rata-rata durasi sesi yang lebih tinggi secara numerik
  • Namun perbedaan tersebut belum signifikan secara statistik
  • Tim produk disarankan untuk:
    • Mengumpulkan data tambahan
    • Menguji metrik lain (misalnya conversion rate atau bounce rate)
    • Tidak membuat keputusan final hanya berdasarkan hasil ini

4 Studi kasus 4

4.1 Chi-Square Test of Independence

Sebuah perusahaan e-commerce ingin mengetahui apakah jenis perangkat yang digunakan pelanggan (Mobile atau Desktop) berhubungan dengan preferensi metode pembayaran (E-Wallet, Kartu Kredit, Cash on Delivery).

Tabel Kontingensi: Jenis Perangkat dan Metode Pembayaran
Perangkat E-Wallet Kartu Kredit Cash on Delivery
Mobile 120 80 50
Desktop 60 90 40

4.2 Formulasi Hipotesis

Karena ingin mengetahui apakah terdapat hubungan antara dua variabel kategorik, maka hipotesis dirumuskan sebagai berikut:

  • H₀ (Hipotesis Nol):
    Tidak terdapat hubungan antara jenis perangkat dan preferensi metode pembayaran.
    𝐻0:Jenis perangkat dan metode pembayaran saling independen

  • H₁ (Hipotesis Alternatif):
    Terdapat hubungan antara jenis perangkat dan preferensi metode pembayaran.
    𝐻1:Jenis perangkat dan metode pembayaran tidak independen

4.3 identifikasi Uji Statistik

Uji statistik yang digunakan adalah Chi-Square Test of Independence, karena:

  • Kedua variabel bersifat kategorik
  • Data disajikan dalam bentuk tabel kontingensi
  • Tujuan pengujian adalah melihat hubungan/ketergantungan antar variabel

4.4 Menghitung Statistik Chi-Square (χ²)

Langkah pertama adalah menghitung frekuensi harapan untuk setiap sel, kemudian menggunakan rumus:
\[\chi^2 = \sum \frac{(O - E)^2}{E}\]

Berdasarkan perhitungan, diperoleh nilai statistik uji:
\[\chi^2 \approx 14.87\]

Derajat kebebasan (df):
\[df = (r - 1)(c - 1) = (2 - 1)(3 - 1) = 2\]

4.5 p-value dan Keputusan Statistik (α = 0.05)

Dengan χ² ≈ 14.87 dan df = 2, diperoleh:

\[p-value≈0.0006\]

Karena:
\[p-value<α\] Keputusan:
Tolak H₀

4.6 Interpretasi dalam Konteks Strategi Pembayaran Digital

Hasil pengujian menunjukkan bahwa jenis perangkat berhubungan secara signifikan dengan preferensi metode pembayaran.
Dalam konteks strategi bisnis digital:

  • Pengguna mobile cenderung lebih sering menggunakan E-Wallet
  • Pengguna desktop lebih banyak menggunakan kartu kredit
  • Perusahaan dapat:
    • Mengoptimalkan tampilan dan promosi E-Wallet di aplikasi mobile
    • Menyederhanakan pembayaran kartu kredit di versi desktop
    • Menyesuaikan strategi pembayaran berdasarkan perilaku pengguna
    • Pendekatan ini dapat meningkatkan kenyamanan pengguna dan tingkat konversi transaksi.

5 Studi Kasus 5

5.1 Type I and Type II Errors (Conceptual)

Sebuah startup fintech menguji apakah algoritma deteksi penipuan (fraud detection) yang baru mampu mengurangi transaksi fraud.

Hipotesis yang diuji adalah:
H₀: Algoritma baru tidak mengurangi fraud
H₁: Algoritma baru mengurangi fraud

5.2 Penjelasan Type I Error (α)

Type I Error terjadi ketika hipotesis nol ditolak padahal hipotesis nol sebenarnya benar.
Dalam konteks ini, Type I Error berarti:

  • Perusahaan menyimpulkan bahwa algoritma baru berhasil mengurangi fraud
  • Padahal pada kenyataannya algoritma tersebut tidak benar-benar efektif

Dampak bisnisnya:

  • Perusahaan terlalu percaya diri pada sistem yang tidak bekerja
  • Risiko fraud tetap tinggi
  • Potensi kerugian finansial dan reputasi meningkat

5.3 Error yang Lebih Mahal dari Perspektif Bisnis

Dalam kasus deteksi fraud, Type I Error umumnya lebih mahal dari sisi bisnis, karena:

  • Fraud tetap terjadi tanpa terdeteksi
  • Kerugian finansial bisa besar
  • Risiko hukum dan kepercayaan pengguna meningkat

Namun, tingkat keparahan masing-masing error dapat berbeda tergantung pada:

  • Skala transaksi
  • Biaya implementasi sistem
  • Risiko reputasi perusahaan

5.4 Pengaruh Ukuran Sampel terhadap Type II Error

Ukuran sampel memiliki pengaruh langsung terhadap Type II Error (β):

  • Sampel kecil → β besar (lebih sulit mendeteksi efek yang nyata)
  • Sampel besar → β lebih kecil (lebih mudah mendeteksi pengurangan fraud)

Dengan ukuran sampel yang lebih besar:

  • Estimasi menjadi lebih akurat
  • Kemungkinan gagal mendeteksi algoritma yang efektif menjadi lebih kecil

5.5 Hubungan antara α, β, dan Statistical Power

Hubungan antara ketiganya dapat dijelaskan sebagai berikut:

  • α (significance level) adalah probabilitas melakukan Type I Error
  • β adalah probabilitas melakukan Type II Error
  • Statistical Power = 1 − β, yaitu kemampuan uji statistik untuk mendeteksi efek yang benar-benar ada

Secara umum:

  • Menurunkan α cenderung meningkatkan β (trade-off)
  • Meningkatkan ukuran sampel dapat menurunkan β tanpa harus menaikkan α
  • Power yang tinggi berarti peluang lebih besar untuk mendeteksi algoritma yang benar-benar efektif

6 Studi Kasus 6

6.1 P-Value and Statistical Decision Making

Sebuah model prediksi churn dievaluasi dan menghasilkan nilai statistik uji sebesar 2.31 dengan p-value = 0.021. Pengujian dilakukan pada taraf signifikansi α = 0.05.

6.2 Makna p-value

p-value sebesar 0.021 menunjukkan probabilitas untuk memperoleh hasil pengujian setidaknya se-ekstrem ini, dengan asumsi bahwa hipotesis nol (H₀) benar.

Dengan kata lain, jika sebenarnya tidak ada efek atau perbedaan nyata, maka peluang mendapatkan hasil seperti ini hanyalah sekitar 2.1%.

6.3 Keputusan Statistik

Karena: \[p-value=0.021<α=0.05\]

maka keputusan statistiknya adalah:
Tolak hipotesis nol (H₀)

Artinya, terdapat bukti statistik yang cukup untuk menyatakan bahwa hasil evaluasi model adalah signifikan secara statistik.

6.4 Penjelasan Non-Teknis untuk Manajemen

Dalam bahasa non-teknis, hasil ini dapat dijelaskan sebagai berikut:
Berdasarkan data yang dianalisis, kecil kemungkinan bahwa hasil model ini terjadi secara kebetulan. Oleh karena itu, kita memiliki cukup alasan untuk percaya bahwa model prediksi churn ini benar-benar memberikan informasi yang bermakna dan layak untuk dipertimbangkan dalam pengambilan keputusan bisnis.

6.5 Risiko Jika Sampel Tidak Representatif

Jika data sampel tidak mewakili populasi pelanggan secara keseluruhan, maka kesimpulan yang diambil bisa menjadi menyesatkan, meskipun p-value menunjukkan hasil yang signifikan.

Risiko yang dapat terjadi antara lain:

  • Model terlihat efektif di data uji, tetapi gagal saat diterapkan ke seluruh pelanggan
  • Keputusan bisnis yang diambil menjadi tidak tepat sasaran
  • Strategi retensi pelanggan menjadi kurang efektif

Dengan demikian, representativitas sampel sangat penting untuk memastikan bahwa hasil statistik dapat digeneralisasi.

6.6 Mengapa p-value Tidak Mengukur Effect Size

p-value tidak mengukur seberapa besar atau penting suatu efek, melainkan hanya menunjukkan apakah efek tersebut cukup kuat secara statistik untuk menolak H₀.

Hal penting yang perlu dipahami:

  • p-value kecil ≠ efek besar
  • Efek kecil dengan sampel besar bisa menghasilkan p-value kecil
  • Efek besar dengan sampel kecil bisa menghasilkan p-value besar

Untuk mengetahui besarnya dampak, diperlukan ukuran lain seperti:

  • effect size
  • perbedaan rata-rata
  • koefisien model

6.7 Kesimpulan Singkat

Hasil evaluasi model prediksi churn menunjukkan signifikansi statistik pada α = 0.05. Namun, keputusan bisnis tetap perlu mempertimbangkan representativitas data dan besarnya dampak model, bukan hanya p-value semata.

7 Referensi

  • Montgomery, D. C., & Runger, G. C. (2014).
  • Walpole, R. E., Myers, R. H., Myers, S. L., & Ye, K. (2012).
  • Devore, J. L. (2016).
  • James, G., Witten, D., Hastie, T., & Tibshirani, R. (2021).
  • Casella, G., & Berger, R. L. (2002).