Statistical Inferences

Assigment ~ Week 14


Profile Photo
🎓 Data Science Student

👩‍💻 NAMA: Raihania Syah Putri

🎫 NIM: 52250054

🏛️ Institut Teknologi Sains Bandung

📊 R Programming
🧠 Data Science
📈 Statistics

1 The first case study

Uji Z Satu Sampel (Hipotesis Statistik)

Sebuah platform pembelajaran digital mengklaim bahwa rata-rata waktu belajar harian penggunanya adalah 120 menit. Berdasarkan catatan historis, simpangan baku populasi diketahui sebesar 15 menit.

Sampel acak dari 64 pengguna menunjukkan rata-rata waktu belajar sebesar 116 menit.

Diketahui:

  • μ₀ = 120
  • σ = 15
  • n = 64
  • x̄ = 116

Tugas

  1. Rumuskan Hipotesis Nol (H₀) dan Hipotesis Alternatif (H₁).
  2. Tentukan uji statistik yang tepat dan berikan alasan pemilihannya.
  3. Hitung nilai statistik uji dan p-value dengan tingkat signifikansi α = 0,05.
  4. Tentukan keputusan statistik.
  5. Interpretasikan hasilnya dalam konteks analitik bisnis.

1.1 Rumusan Hipotesis Nol (H₀) dan Hipotesis Alternatif (H₁)

Hipotesis Nol (H₀) adalah pernyataan status quo atau klaim yang akan diuji. Hipotesis Alternatif (H₁) adalah pernyataan yang ingin dibuktikan, yaitu adanya efek atau perbedaan.

H₀: Rata-rata waktu belajar harian pengguna sama dengan 120 menit. \[ H_0: \mu = 120 \]

H₁: Rata-rata waktu belajar harian pengguna tidak sama dengan 120 menit (uji dua arah). \[ H_1: \mu \neq 120 \]


1.2 Uji Statistik yang Tepat dan Alasan Pemilihan

Uji yang tepat adalah Uji Z Satu Sampel. Alasan:

  1. Simpangan baku populasi diketahui \(\sigma = 15\).
  2. Ukuran sampel besar \(n = 64 > 30\)Dengan kondisi ini, distribusi rata-rata sampel akan mendekati distribusi normal berdasarkan Teorema Limit Pusat, sehingga statistik uji Z valid digunakan.

1.3 Perhitungan Nilai Statistik Uji dan p-value (α = 0,05)

a. Hitung Nilai Statistik Uji (Z)

Rumus statistik uji Z untuk satu sampel adalah:

\[ Z = \frac{\bar{x} - \mu_0}{\sigma / \sqrt{n}} \]

Diketahui:

  • \(\bar{x} = 116\) (rata-rata sampel)
  • \(\mu_0 = 120\) (nilai klaim populasi)
  • \(\sigma = 15\) (simpangan baku populasi)
  • \(n = 64\) (ukuran sampel)

Langkah perhitungan:

  1. Hitung galat baku (standard error): \[ \text{Standard Error (SE)} = \frac{\sigma}{\sqrt{n}} = \frac{15}{\sqrt{64}} = \frac{15}{8} = 1.875 \]
  2. Hitung nilai Z: \[ Z = \frac{116 - 120}{1.875} = \frac{-4}{1.875} \approx -2.133 \] Nilai statistik uji adalah \(Z \approx -2.133\)

b. Hitung p-value

Karena pengujian bersifat dua arah \(H_1: \mu \neq 120\), p-value adalah probabilitas mendapatkan nilai Z yang setidaknya se-ekstrem \(-2.133\) di kedua ujung distribusi normal.

  1. Cari luas area di sebelah kiri \(Z = -2.133\) pada tabel distribusi normal standar. Nilainya adalah \(P(Z < -2.133) \approx 0.0164\)

  2. Untuk uji dua arah, kalikan luas satu ekor tersebut dengan 2:

    \[ p\text{-value} = 2 \times P(Z < -2.133) \approx 2 \times 0.0164 = 0.0328 \]

    Nilai p-value adalah 0.0328.


1.4 Keputusan Statistik

Aturan keputusan:

  • Tolak H₀ jika p-value ≤ tingkat signifikansi (α).
  • Gagal Tolak H₀ jika p-value > (α).

Diketahui \(\alpha = 0.05\)

\[ p\text{-value} = 0.0328 \quad \text{dan} \quad \alpha = 0.05 \] Karena \(0.0328 < 0.05\) maka keputusannya adalah TOLAK H₀.


1.5 Interpretasi dalam Konteks Analitik Bisnis

Interpretasi Statistik:

Pada tingkat kepercayaan 95% (α = 5%), terdapat bukti statistik yang cukup untuk menolak klaim platform bahwa rata-rata waktu belajar pengguna adalah 120 menit. Rata-rata waktu belajar pengguna yang sebenarnya berbeda secara signifikan dari 120 menit, dan berdasarkan data sampel, arah perbedaannya adalah lebih rendah (116 menit).


Interpretasi & Implikasi Bisnis:

  1. Validasi Klaim Gagal: Tim bisnis harus merevisi atau menghentikan klaim “rata-rata waktu belajar 120 menit” dalam materi pemasaran, karena data aktual tidak mendukungnya. Menggunakan klaim yang tidak akurat dapat merusak kredibilitas.
  1. Analisis Penyebab: Perlu diselidiki mengapa waktu belajar aktual lebih rendah:
    • Konten: Apakah materi belajar terlalu sulit, mudah, atau tidak menarik?
    • Pengguna: Apakah ada influx pengguna baru yang belum terbiasa?
    • Platform: Apakah ada masalah teknis atau desain pengalaman pengguna (UX) yang kurang mendukung sesi belajar yang lama?
    • Kompetisi: Apakah pengguna teralihkan ke platform lain?
  1. Manajemen Risiko: Keputusan menolak H₀ membawa risiko Kesalahan Tipe I sebesar 5%. Artinya, ada kemungkinan 5% bahwa sebenarnya klaim platform benar (μ=120), tetapi sampel kita kebetulan menunjukkan rata-rata yang rendah. Risiko ini sudah diterima dan ditetapkan sejak awal melalui α = 0.05.
  1. Rekomendasi Tindak Lanjut:
    • Lakukan penelitian lebih mendalam (misalnya survei kepuasan, analisis segmen pengguna) untuk memahami penyebab turunnya waktu belajar.
    • Uji coba (A/B testing) perubahan pada fitur atau konten untuk melihat dampaknya terhadap durasi belajar.
    • Monitor metrik ini secara berkala untuk melihat tren setelah intervensi dilakukan.

2 The second case study

Uji T Satu Sampel (σ Tidak Diketahui, Sampel Kecil)

Tim UX Research meneliti apakah rata-rata waktu penyelesaian tugas pada aplikasi baru berbeda dari 10 menit.

Data yang dikumpulkan dari 10 pengguna adalah:

9.2, 10.5, 9.8, 10.1, 9.6, 10.3, 9.9, 9.7, 10.0, 9.5


Tugas

  1. Tentukan H₀ dan H₁ (dua arah / two-tailed).
  2. Tentukan uji hipotesis yang sesuai.
  3. Hitung nilai t-statistic dan p-value pada α = 0,05.
  4. Buat keputusan statistik.
  5. Jelaskan bagaimana ukuran sampel memengaruhi keandalan inferensi statistik.

2.1 Identifikasi Uji Statistik

1. Hipotesis Nol (H₀) dan Hipotesis Alternatif (H₁)

  • H₀: Rata-rata waktu penyelesaian tugas pada aplikasi baru sama dengan 10 menit. \[ H_0: \mu = 10 \]
  • H₁: Rata-rata waktu penyelesaian tugas pada aplikasi baru tidak sama dengan 10 menit. (Uji Dua Arah / Two-tailed). \[ H_1: \mu \neq 10 \]

2.2 Uji Hipotesis yang Sesuai

Uji yang tepat adalah Uji-t Satu Sampel. Alasan:

  1. Sampel berukuran kecil (n = 10 < 30).
  2. Simpangan baku populasi (σ) tidak diketahui. Dalam situasi ini, kita menggunakan simpangan baku sampel (s) sebagai penduga, sehingga distribusi yang sesuai adalah distribusi-t (Student’s t), bukan distribusi normal-Z.

2.3 Perhitungan Nilai t-statistik dan p-value (α = 0,05)

a. Hitung Statistik Deskriptif dari Data Sampel:

Data: 9.2, 10.5, 9.8, 10.1, 9.6, 10.3, 9.9, 9.7, 10.0, 9.5

  • Rata-rata Sampel \(\bar{x}\):

    \[ \bar{x} = \frac{\sum x_i}{n} = \frac{9.2+10.5+9.8+10.1+9.6+10.3+9.9+9.7+10.0+9.5}{10} = \frac{98.6}{10} = 9.86 \]

  • Simpangan Baku Sampel (s):

    \[ s = \sqrt{\frac{\sum (x_i - \bar{x})^2}{n-1}} \] \[ \begin{aligned} \sum (x_i - \bar{x})^2 = & (9.2-9.86)^2 + (10.5-9.86)^2 + (9.8-9.86)^2 + (10.1-9.86)^2 + \\ & (9.6-9.86)^2 + (10.3-9.86)^2 + (9.9-9.86)^2 + (9.7-9.86)^2 + \\ & (10.0-9.86)^2 + (9.5-9.86)^2 \\ = & (0.4356) + (0.4096) + (0.0036) + (0.0576) + (0.0676) + (0.1936) + (0.0016) + (0.0256) + (0.0196) + (0.1296) \\ = & 1.344 \end{aligned} \] \[ s = \sqrt{\frac{1.344}{9}} = \sqrt{0.149333} \approx 0.3864 \]


b. Hitung Nilai t-statistik: Rumus statistik uji-t untuk satu sampel adalah:

\[ t = \frac{\bar{x} - \mu_0}{s / \sqrt{n}} \]

  • \(\bar{x} = 9.86\)
  • \(\mu_0 = 10\)
  • \(s \approx 0.3864\)
  • \(n = 10\)
  1. Hitung Galat Baku (Standard Error): \[ SE = \frac{s}{\sqrt{n}} = \frac{0.3864}{\sqrt{10}} \approx \frac{0.3864}{3.1623} \approx 0.1222 \]
  1. Hitung nilai t: \[ t = \frac{9.86 - 10}{0.1222} \approx \frac{-0.14}{0.1222} \approx -1.146 \] Nilai t-statistik adalah \(t \approx -1.146\)

c. Hitung p-value:

  • Derajat Kebebasan (df): \[ df = n - 1 = 10 - 1 = 9 \]
  • Karena uji dua arah, p-value dihitung sebagai: \[ p\text{-value} = 2 \times P(T_{df=9} \leq -1.146) \]
  • Menggunakan tabel distribusi-t atau kalkulator statistik, luas area satu ekor untuk \(t = 1.146\) dengan \(df = 9\) adalah sekitar 0.141 (nilai tepat bergantung pada interpolasi tabel atau kalkulator). Oleh karena itu: \[ p\text{-value} \approx 2 \times 0.141 = 0.282 \]

2.4 Keputusan Statistik

Aturan keputusan: Tolak H₀ jika p-value ≤ α (0.05). Gagal tolak H₀ jika p-value > α (0.05). \[ p\text{-value} \approx 0.282 \quad > \quad \alpha = 0.05 \]

Karena p-value (0.282) lebih besar dari tingkat signifikansi (0.05), maka keputusannya adalah GAGAL TOLAK H₀.


2.5 Pengaruh Ukuran Sampel terhadap Keandalan Inferensi Statistik

Ukuran sampel (n) adalah faktor kritis yang secara langsung mempengaruhi keandalan inferensi statistik dalam dua cara utama:

  1. Mempengaruhi Galat Baku (Standard Error - SE):
  • Galat baku adalah ukuran variabilitas atau ketidakpastian dari estimasi rata-rata sampel \(\bar{x}\) Rumusnya adalah \(SE = \frac{s}{\sqrt{n}}\)

  • Hubungannya berbanding terbalik dengan akar kuadrat n. Artinya, semakin besar ukuran sampel (n), semakin kecil galat bakunya. Galat baku yang lebih kecil berarti estimasi \(\bar{x}\) kita terhadap parameter populasi μ lebih presisi dan stabil. Sebaliknya, sampel kecil (seperti n=10) menghasilkan galat baku yang relatif besar, sehingga estimasi kita lebih rentan terhadap fluktuasi acak.

  1. Mempengaruhi Kekuatan Uji (Power of the Test):
  • Kekuatan uji adalah probabilitas untuk menolak H₀ ketika H₀ salah (1 - β). Ini adalah kemampuan kita untuk mendeteksi efek yang benar-benar ada.

  • Sampel yang kecil memiliki kekuatan uji yang rendah. Dalam kasus ini, meskipun rata-rata sampel (9.86) berbeda dari 10, perbedaan tersebut tidak signifikan secara statistik. Sangat mungkin bahwa perbedaan yang sesungguhnya (efek) memang ada di populasi, tetapi ukuran sampel yang kecil (hanya 10 observasi) tidak memiliki “kekuatan” yang cukup untuk mendeteksinya. Variabilitas alami dalam data kecil dapat dengan mudah menutupi sinyal (efek) yang sebenarnya.

  • Dengan kata lain, kegagalan menolak H₀ pada sampel kecil bukanlah bukti kuat bahwa H₀ benar, tetapi lebih karena data yang terbatas tidak memberikan bukti yang cukup untuk menyimpulkan sebaliknya.

Kesimpulan: Studi dengan sampel kecil seperti ini (n=10) harus diinterpretasi dengan sangat hati-hati. Hasil “gagal tolak H₀” lebih mencerminkan ketidakmampuan statistik untuk menarik kesimpulan yang tegas daripada bukti yang mendukung tidak adanya perbedaan. Untuk inferensi yang lebih andal, diperlukan pengumpulan data lebih banyak untuk meningkatkan ukuran sampel.


3 The third case study

Uji T Dua Sampel (A/B Testing)

Tim analitik produk melakukan A/B Testing untuk membandingkan rata-rata durasi sesi (menit) antara dua versi halaman landing page.

Data A/B Testing Durasi Sesi
Versi Ukuran Sampel (n) Rata-rata Simpangan Baku
A 25 4.8 1.2
B 25 5.4 1.4

Tugas

  1. Rumuskan hipotesis nol dan hipotesis alternatif.
  2. Tentukan jenis uji t yang diperlukan.
  3. Hitung nilai statistik uji dan p-value.
  4. Tarik kesimpulan statistik pada α = 0,05.
  5. Interpretasikan hasilnya untuk pengambilan keputusan produk.

3.1 Analisis Uji Statistik

Rumusan Hipotesis

Hipotesis dirumuskan untuk menguji apakah terdapat perbedaan rata-rata durasi sesi yang signifikan antara dua versi halaman.

  • H₀ (Hipotesis Nol): Tidak ada perbedaan rata-rata durasi sesi antara Halaman Landing Versi A dan Versi B.

\[ H_0: \mu_A = \mu_B \quad \text{atau} \quad H_0: \mu_A - \mu_B = 0 \]

  • H₁ (Hipotesis Alternatif): Terdapat perbedaan rata-rata durasi sesi antara Halaman Landing Versi A dan Versi B. (Uji Dua Arah)

\[ H_1: \mu_A \neq \mu_B \quad \text{atau} \quad H_1: \mu_A - \mu_B \neq 0 \]


3.2 Jenis Uji t yang Diperlukan

Uji yang tepat adalah Uji-t Dua Sampel Independen (Independent Samples t-test). Alasan:

  1. Data berasal dari dua kelompok yang independen (pengguna yang melihat Versi A vs. pengguna yang melihat Versi B).
  2. Parameter yang dibandingkan adalah rata-rata dari skala interval/rasio (durasi dalam menit).
  3. Simpangan baku populasi tidak diketahui, sehingga menggunakan simpangan baku sampel. Karena ukuran sampel per kelompok kecil (<30), uji-t lebih tepat daripada uji-Z.

3.3 Perhitungan Nilai Statistik Uji dan p-value

a. Identifikasi Data:

  • Versi A: \(n_A = 25\) \(\bar{x}_A = 4.8\) \(s_A = 1.2\)
  • Versi B: \(n_B = 25\) \(\bar{x}_B = 5.4\) \(s_B = 1.4\)

b. Uji Asumsi Homogenitas Varians (Uji Levene’s atau F-test sederhana): Sebelum menghitung t-statistik, perlu diasumsikan apakah varians kedua kelompok sama (homogen) atau tidak. Kami akan melakukan uji cepat dengan membandingkan rasio varians.

\[ \frac{s_B^2}{s_A^2} = \frac{(1.4)^2}{(1.2)^2} = \frac{1.96}{1.44} \approx 1.36 \]

Karena rasio varians (1.36) kurang dari batas umum 4, dapat diasumsikan varians kedua kelompok relatif homogen. Oleh karena itu, kita akan menggunakan rumus Pooled Variance t-test.

c. Hitung Varians Gabungan (Pooled Variance) :

\[ s_p^2 = \frac{(n_A - 1)s_A^2 + (n_B - 1)s_B^2}{n_A + n_B - 2} \] \[ s_p^2 = \frac{(25-1)(1.2)^2 + (25-1)(1.4)^2}{25 + 25 - 2} = \frac{(24 \times 1.44) + (24 \times 1.96)}{48} \] \[ s_p^2 = \frac{34.56 + 47.04}{48} = \frac{81.6}{48} = 1.7 \]

d. Hitung Galat Baku (Standard Error - SE):

\[ SE = \sqrt{s_p^2 \left( \frac{1}{n_A} + \frac{1}{n_B} \right)} = \sqrt{1.7 \left( \frac{1}{25} + \frac{1}{25} \right)} = \sqrt{1.7 \left( \frac{2}{25} \right)} \] \[ SE = \sqrt{1.7 \times 0.08} = \sqrt{0.136} \approx 0.3688 \]

e. Hitung Nilai t-statistik:

\[ t = \frac{\bar{x}_A - \bar{x}_B}{SE} = \frac{4.8 - 5.4}{0.3688} = \frac{-0.6}{0.3688} \approx -1.627 \]

Nilai t-statistik adalah \(t \approx -1.627\)

f. Hitung p-value:

  • Derajat Kebebasan (df): \(df = n_A + n_B - 2 = 25 + 25 - 2 = 48\)

  • Karena uji dua arah, p-value adalah: \[ p\text{-value} = 2 \times P(T_{df=48} \leq -1.627) \] Dari tabel distribusi-t atau kalkulator, nilai p-value untuk \(t = 1.627\) dengan \(df = 48\) adalah sekitar 0.110. \[ p\text{-value} \approx 2 \times 0.110 = 0.220 \]


3.4 Kesimpulan Statistik pada α = 0,05

Aturan keputusan: Tolak H₀ jika p-value ≤ α (0.05). \[ p\text{-value} \approx 0.220 \quad > \quad \alpha = 0.05 \] Karena p-value LEBIH BESAR dari tingkat signifikansi 0.05, maka keputusan statistik adalah GAGAL MENOLAK H₀.


3.5 Interpretasi untuk Pengambilan Keputusan Produk

  1. Intepretasi Statistik ke Bisnis: Berdasarkan data sampel yang dikumpulkan, tidak terdapat bukti statistik yang cukup untuk menyimpulkan bahwa terdapat perbedaan rata-rata durasi sesi yang signifikan antara Halaman Landing Versi A (4.8 menit) dan Versi B (5.4 menit). Perbedaan 0.6 menit yang diamati kemungkinan besar disebabkan oleh variasi acak dalam sampel, bukan oleh efek desain halaman yang berbeda.
  1. Rekomendasi Aksi Produk:
  • Jangan Terburu-buru Mengadopsi Versi B: Meskipun Versi B menunjukkan rata-rata yang lebih tinggi, perbedaannya tidak signifikan. Mengganti ke Versi B berdasarkan hasil ini berisiko karena peningkatan yang terlihat mungkin tidak nyata.
  • Perlu Data Lebih Banyak atau Uji Ulang: Kegagalan mendeteksi perbedaan (Gagal Tolak H₀) pada A/B Testing sering kali disebabkan oleh ukuran sampel yang terlalu kecil atau efek perlakuan (treatment effect) yang terlalu lemah. Tim produk dapat mempertimbangkan untuk: a. Memperbesar Ukuran Sampel: Menjalankan eksperimen lebih lama untuk mengumpulkan data lebih banyak dari setiap versi. Ini akan mengurangi galat baku dan meningkatkan kekuatan uji (power), sehingga perbedaan yang kecil namun konsisten dapat terdeteksi. b. Mendesain Perubahan yang Lebih Drastis: Jika peningkatan durasi sesi adalah tujuan kritis, tim UX mungkin perlu merancang perubahan yang lebih substansial pada halaman landing untuk menciptakan efek yang lebih kuat dan lebih mudah terdeteksi.
  1. Pertimbangan Risiko: Keputusan “gagal tolak H₀” membawa risiko Kesalahan Tipe II (β), yaitu kesimpulan bahwa tidak ada perbedaan padahal sebenarnya ada. Risiko ini cukup tinggi dalam pengujian dengan sampel kecil. Oleh karena itu, keputusan untuk “tidak melakukan apa-apa” (tetap pakai Versi A) harus disertai dengan kesadaran bahwa mungkin ada peluang terlewat untuk peningkatan.

4 The fourth case study

Uji Chi-Square Independensi

Sebuah perusahaan e-commerce ingin mengetahui apakah jenis perangkat berhubungan dengan preferensi metode pembayaran.

Tabel Data Observasi Hubungan Perangkat dengan Metode Pembayaran
Perangkat E-Wallet Kartu Kredit Bayar di Tempat
Mobile 120 80 50
Desktop 60 90 40

Tugas

  1. Tentukan Hipotesis Nol (H₀) dan Hipotesis Alternatif (H₁).
  2. Identifikasi uji statistik yang sesuai.
  3. Hitung nilai statistik Chi-Square (χ²).
  4. Tentukan p-value pada α = 0,05.
  5. Interpretasikan hasilnya dalam konteks strategi pembayaran digital.

4.1 Hipotesis Nol (H₀) dan Hipotesis Alternatif (H₁)

  • H₀: Jenis perangkat dan preferensi metode pembayaran tidak berhubungan. Artinya, pilihan metode bayar tidak dipengaruhi oleh apakah pelanggan pakai HP atau komputer.
  • H₁: Jenis perangkat dan preferensi metode pembayaran berhubungan. Artinya, ada pengaruh antara jenis perangkat yang dipakai dengan pilihan cara bayarnya.

4.2 Uji Statistik yang Sesuai

Uji yang tepat adalah Uji Chi-Square untuk Independensi. Alasan:

  • Data berbentuk kategori (jenis perangkat dan metode bayar).
  • Ingin menguji apakah dua kategori tersebut saling berhubungan atau tidak.

4.3 Perhitungan Nilai Statistik Chi-Square (χ²)

a. Tabel Data yang Diamati (Observed - O):

Tabel Data Frekuensi - Hubungan Perangkat dengan Metode Pembayaran
Perangkat E-Wallet Kartu Kredit Bayar di Tempat Total Baris
Mobile 120 80 50 250
Desktop 60 90 40 190
Total Kolom 180 170 90 440

b. Hitung Frekuensi yang Diharapkan (Expected - E):

Rumus: \(E = \frac{\text{Total Baris} \times \text{Total Kolom}}{\text{Total Keseluruhan}}\)

  • Mobile, E-Wallet: \(E = \frac{250 \times 180}{440} \approx 102.27\)
  • Mobile, Kartu Kredit: \(E = \frac{250 \times 170}{440} \approx 96.59\)
  • Mobile, Bayar di Tempat: \(E = \frac{250 \times 90}{440} \approx 51.14\)
  • Desktop, E-Wallet: \(E = \frac{190 \times 180}{440} \approx 77.73\)
  • Desktop, Kartu Kredit: \(E = \frac{190 \times 170}{440} \approx 73.41\)
  • Desktop, Bayar di Tempat: \(E = \frac{190 \times 90}{440} \approx 38.86\)

c. Hitung Nilai χ²:

Rumus: \(χ² = \sum \frac{(O - E)²}{E}\) (Jumlahkan untuk semua 6 sel).

  1. (Mobile, E-Wallet): \(\frac{(120 - 102.27)²}{102.27} = \frac{(17.73)²}{102.27} ≈ \frac{314.35}{102.27} ≈ 3.07\)
  2. (Mobile, Kartu Kredit): \(\frac{(80 - 96.59)²}{96.59} = \frac{(-16.59)²}{96.59} ≈ \frac{275.23}{96.59} ≈ 2.85\)
  3. (Mobile, Bayar di Tempat): \(\frac{(50 - 51.14)²}{51.14} = \frac{(-1.14)²}{51.14} ≈ \frac{1.30}{51.14} ≈ 0.03\)
  4. (Desktop, E-Wallet): \(\frac{(60 - 77.73)²}{77.73} = \frac{(-17.73)²}{77.73} ≈ \frac{314.35}{77.73} ≈ 4.04\)
  5. (Desktop, Kartu Kredit): \(\frac{(90 - 73.41)²}{73.41} = \frac{(16.59)²}{73.41} ≈ \frac{275.23}{73.41} ≈ 3.75\)
  6. (Desktop, Bayar di Tempat): \(\frac{(40 - 38.86)²}{38.86} = \frac{(1.14)²}{38.86} ≈ \frac{1.30}{38.86} ≈ 0.03\)

Jumlahkan Semua Nilai χ²

\[ χ²_{hitung} ≈ 3.07 + 2.85 + 0.03 + 4.04 + 3.75 + 0.03 = 13.77 \]

Nilai statistik uji Chi-Square adalah \(χ² ≈ 13.77\)


4.4 Penentuan p-value pada α = 0,05

  • Derajat Kebebasan (df): \(df = (jumlah\ baris - 1) \times (jumlah\ kolom - 1) = (2-1) \times (3-1) = 2\)
  • Cari p-value: Dari tabel Chi-Square, nilai χ² = 13.77 dengan df = 2 memiliki p-value sekitar 0.001 (lebih kecil dari 0.01).
  • Keputusan: Karena p-value (0.001) < α (0.05), maka TOLAK H₀.

4.5 Interpretasi Hasil untuk Strategi Pembayaran Digital

Kesimpulan Statistik: Terbukti ada hubungan yang signifikan antara jenis perangkat dengan metode pembayaran yang dipilih.

Strategi dan Rekomendasi Bisnis:

  1. Target Promosi Berdasarkan Perangkat:
  • Pengguna HP (Mobile): Mereka sangat condong ke E-Wallet. Strategi: Fokus promosi cashback/discount untuk E-Wallet di aplikasi mobile. Tombol E-Wallet harus sangat menonjol.
  • Pengguna Komputer (Desktop): Mereka lebih banyak pilih Kartu Kredit dibanding pengguna HP. Strategi: Di versi desktop, tawarkan promo cicilan 0% atau points untuk kartu kredit.
  1. Optimasi Pengalaman Bayar (User Experience):
  • Di HP: Urutan metode bayar yang ditampilkan harus: E-Wallet paling atas, lalu Kartu Kredit, baru Bayar di Tempat.
  • Di Komputer: Urutan bisa diubah: Kartu Kredit paling atas, lalu E-Wallet, baru Bayar di Tempat.
  1. Pengembangan Fitur: Temuan ini mendukung strategi untuk berinvestasi lebih besar di pengembangan fitur pembayaran digital di aplikasi mobile, karena itu adalah pilihan utama pengguna HP.

Intinya: Jangan perlakukan semua pengguna sama. Penyesuaian strategi pembayaran berdasarkan perangkat yang dipakai akan meningkatkan konversi penjualan dan kepuasan pelanggan.


5 The fifth case study

Kesalahan Tipe I dan Tipe II (Konseptual)

Sebuah startup fintech menguji apakah algoritma deteksi penipuan baru dapat mengurangi transaksi penipuan.

  • H₀: Algoritma baru tidak mengurangi penipuan.
  • H₁: Algoritma baru mengurangi penipuan.

Tugas

  1. Jelaskan Kesalahan Tipe I (α) dalam konteks ini.
  2. Jelaskan Kesalahan Tipe II (β) dalam konteks ini.
  3. Tentukan kesalahan mana yang lebih mahal dari sudut pandang bisnis.
  4. Jelaskan pengaruh ukuran sampel terhadap Kesalahan Tipe II.
  5. Jelaskan hubungan antara α, β, dan power statistik.

5.1 Kesalahan Tipe I (α) dalam Konteks Ini

Kesalahan Tipe I terjadi jika kita menolak H₀ padahal H₀ benar. Dalam konteks ini, hal itu berarti menyimpulkan bahwa algoritma baru dapat mengurangi penipuan, padahal kenyataannya algoritma tersebut tidak lebih efektif dari sistem lama.

Konsekuensi: Startup akan mengadopsi algoritma yang tidak efektif, mengeluarkan biaya implementasi (pengembangan, integrasi, pelatihan), namun tidak mendapatkan manfaat pengurangan penipuan. Ini adalah “false positive” atau alarm palsu.


5.2 Kesalahan Tipe II (β) dalam Konteks Ini

Kesalahan Tipe II terjadi jika kita gagal menolak H₀ padahal H₁ benar. Dalam konteks ini, hal itu berarti menyimpulkan bahwa algoritma baru tidak mengurangi penipuan, padahal kenyataannya algoritma tersebut efektif untuk mengurangi penipuan.

Konsekuensi: Startup akan menolak atau tidak mengimplementasikan algoritma yang sebenarnya berguna. Mereka kehilangan peluang untuk mengurangi kerugian finansial akibat penipuan. Ini adalah “false negative” atau sinyal yang terlewat.


5.3 Kesalahan yang Lebih Mahal dari Sudut Pandang Bisnis

Kesalahan Tipe II (β) kemungkinan lebih mahal dalam konteks ini.

Alasan: * Kesalahan Tipe I menyebabkan pemborosan biaya implementasi. * Kesalahan Tipe II menyebabkan kerugian berkelanjutan dari transaksi penipuan yang sebenarnya bisa dicegah. Dalam bisnis fintech, kerugian langsung dari penipuan (chargeback, ganti rugi ke nasabah, reputasi) biasanya jauh lebih besar dan berisiko jangka panjang dibandingkan biaya pengembangan sebuah algoritma. Melewatkan alat yang efektif untuk mencegah kerugian besar merupakan risiko bisnis yang lebih serius.


5.4 Pengaruh Ukuran Sampel terhadap Kesalahan Tipe II

Ukuran sampel (n) berbanding terbalik dengan risiko Kesalahan Tipe II (β). Artinya:

  • Jika ukuran sampel diperbesar, maka Kesalahan Tipe II (β) akan mengecil.

  • Jika ukuran sampel diperkecil, maka Kesalahan Tipe II (β) akan membesar.

Penjelasan: Sampel yang lebih besar memberikan informasi yang lebih representatif tentang populasi, sehingga meningkatkan kemampuan statistik untuk mendeteksi efek yang ada (dalam hal ini, efektivitas algoritma). Dengan sampel kecil, uji statistik memiliki kekuatan (power) yang rendah, sehingga besar kemungkinan gagal mendeteksi perbedaan atau efek yang sebenarnya signifikan.


5.5 Hubungan antara α, β, dan Power Statistik

Ketiganya memiliki hubungan yang saling terkait, sering digambarkan sebagai timbangan:

  1. Power Statistik didefinisikan sebagai probabilitas untuk menolak H₀ ketika H₀ salah, atau 1 - β.
  1. Hubungan Timbal Balik α dan β: Dengan asumsi faktor lain (seperti ukuran sampel dan efek) tetap, jika kita menurunkan α (misal dari 0.05 ke 0.01 agar lebih ketat menolak H₀), maka β akan meningkat (risiko Kesalahan Tipe II lebih besar). Sebaliknya, jika kita menaikkan α, maka β akan menurun.
  1. Pengaruh pada Power: Karena Power = 1 - β, maka:
  • Menaikkan α → menurunkan β → meningkatkan Power.
  • Menurunkan α → meningkatkan β → menurunkan Power.
  • Meningkatkan ukuran sampel → menurunkan β → meningkatkan Power, tanpa perlu mengubah α.

6 The Sixth Case Study

P-Value dan Pengambilan Keputusan Statistik

Hasil evaluasi model prediksi churn menunjukkan:

  • Statistik uji = 2,31
  • p-value = 0,021
  • Tingkat signifikansi α = 0,05

Tugas

  1. Jelaskan makna p-value.
  2. Buat keputusan statistik.
  3. Terjemahkan keputusan tersebut ke dalam bahasa non-teknis untuk manajemen.
  4. Diskusikan risiko jika sampel tidak representatif.
  5. Jelaskan mengapa p-value tidak mengukur besar kecilnya efek (effect size).

6.1 Makna P-Value

P-value adalah probabilitas untuk mendapatkan hasil sampel yang setidaknya sama ekstremnya (atau lebih ekstrem) dengan hasil yang diamati, dengan asumsi bahwa hipotesis nol (H₀) benar. P-value sebesar 0,021 berarti jika sebenarnya tidak ada hubungan (H₀ benar), maka peluang munculnya pola seperti yang terlihat dalam data (atau pola yang lebih kuat) hanyalah 2,1%.

6.2 Keputusan Statistik

Aturan keputusan: Tolak H₀ jika p-value ≤ α (0,05). Gagal tolak H₀ jika p-value > α.

\[ p\text{-value} = 0,021 \quad < \quad \alpha = 0,05 \]

Karena p-value lebih kecil dari tingkat signifikansi, maka keputusan statistik adalah TOLAK H₀.

6.3 Terjemahan untuk Manajemen (Non-Teknis)

“Berdasarkan analisis data yang ada, kami memiliki cukup bukti untuk menyimpulkan bahwa model prediksi churn yang kita uji memang mampu mengidentifikasi pelanggan yang berisiko berhenti. Hasil ini tidak mungkin terjadi hanya karena kebetulan atau fluktuasi data biasa. Dengan kata lain, model tersebut bekerja sesuai yang diharapkan.”

6.4 Risiko Jika Sampel Tidak Representatif

Jika sampel data yang digunakan untuk evaluasi model tidak mewakili keseluruhan populasi pelanggan, maka kesimpulan statistik menjadi tidak valid dan berisiko tinggi untuk diterapkan. Risiko utamanya:

  1. Kesimpulan yang Menyesatkan: Model mungkin tampak akurat untuk kelompok tertentu dalam sampel (misal, pelanggan segmen A), tetapi performanya sangat buruk untuk kelompok lain yang tidak terwakili dalam sampel (misal, pelanggan segmen B atau wilayah baru).
  1. Keputusan Bisnis yang Salah: Berdasarkan kesimpulan yang menyesatkan, perusahaan mungkin mengandalkan model ini untuk mengambil tindakan pencegahan churn. Akibatnya, strategi bisa salah sasaran, mengalokasikan sumber daya (seperti diskon atau layanan khusus) ke pelanggan yang sebenarnya tidak berisiko churn, sementara mengabaikan pelanggan yang benar-benar berisiko.

6.5 Mengapa P-Value Tidak Mengukur Effect Size

P-value hanya menjawab pertanyaan “Apakah ada efek?” dengan mengukur kekuatan bukti statistik melawan H₀. Namun, p-value tidak menjawab pertanyaan “Seberapa besar efeknya?”.

Contoh konkret dalam kasus ini:

  • Hasil signifikan (p-value = 0,021) hanya memberitahu bahwa model prediksi churn berkinerja lebih baik daripada tebakan acak.

  • Namun, p-value tidak memberitahu seberapa besar peningkatan akurasinya. Apakah akurasi model meningkat 1%, 10%, atau 50%? P-value tidak memberikan informasi ini.

  • Dua model bisa memiliki p-value signifikan yang sama, tetapi satu model mungkin hanya sedikit lebih akurat (efek kecil), sementara model lain jauh lebih akurat (efek besar). Oleh karena itu, untuk memahami implikasi praktis, kita harus melengkapi p-value dengan ukuran effect size (misal, koefisien regresi, selisih rata-rata yang terstandarisasi, atau peningkatan akurasi) yang mengkuantifikasi besarnya hubungan atau perbedaan.


Intinya

p-value (0,021) memberikan bukti statistik yang cukup untuk menyimpulkan bahwa model prediksi churn berfungsi dengan baik, karena kecilnya kemungkinan hasil ini muncul secara kebetulan jika model tidak efektif. Namun, p-value tidak memberi tahu seberapa kuat efektivitas model tersebut, dan kesimpulan ini bisa salah total jika data sampel yang digunakan tidak mewakili seluruh populasi pelanggan. Oleh karena itu, selain signifikansi statistik, bisnis juga harus memperhatikan besarnya efek model dan representativitas sampel untuk mengambil keputusan yang tepat.