Study Cases

Statistical Inferences ~ Week 14

Adinda Maiza Ishfahani

Data Science Undergraduate at ITSB


1 Study Case 1

1.1 One-Sample Z-Test (Hipotesis Statistik)

Sebuah platform pembelajaran digital mengklaim bahwa rata-rata waktu belajar harian penggunanya adalah 120 menit. Berdasarkan catatan historis, simpangan baku populasi diketahui sebesar 15 menit.

Sampel acak sebanyak 64 pengguna menunjukkan rata-rata waktu belajar sebesar 116 menit.

\[ \begin{aligned} \mu_0 &= 120 \\ \sigma &= 15 \\ n &= 64 \\ \bar{x} &= 116 \end{aligned} \]

1.2 Tugas

1. Rumuskan Hipotesis Nol (H₀) dan Hipotesis Alternatif (H₁).

Langkah pertama adalah menetapkan hipotesis nol (H₀) dan Hipotesis Alternatif (H₁).

  • Hipotesis Nol (\(H_0\)): \(\mu = 120\) (Rata-rata waktu belajar pengguna sama dengan 120 menit).

  • Hipotesis Alternatif (\(H_1\)): \(\mu \neq 120\) (Rata-rata waktu belajar pengguna tidak sama dengan 120 menit.

2. Identifikasi Uji Statistik & Justifikasi

Statistik uji yang tepat adalah One-Sample Z-Test. Justifikasi

  • Ukuran Sampel: Sampel cukup besar (\(n = 64\)), yang secara teknis memenuhi Teorema Limit Pusat (\(n > 30\)).

  • Varians Populasi Diketahui: Standar deviasi populasi (\(\sigma = 15\)) sudah diketahui dari catatan historis.

  • Distribusi: Diasumsikan distribusi data mendekati normal.

3. Perhitungan Statistik Uji & p-value

  • Menghitung Standart Error (SE)

\[SE = \frac{\sigma}{\sqrt{n}} = \frac{15}{\sqrt{64}} = \frac{15}{8} = 1,875\]

  • Menghitung Z-Score

\[Z = \frac{\bar{x} - \mu_0}{SE} = \frac{116 - 120}{1,875} = \frac{-4}{1,875} \approx -2,13\]

  • Menghitung P-Value:

Karena ini adalah uji dua arah (\(H_1: \mu \neq 120\)), kita mencari probabilitas di kedua ujung distribusi:

\[ P(Z < -2,13) \approx 0,0166\]

\[P-value = 2 \times 0,0166 = \mathbf{0,0332}\]

4. Keputusan Statistik

Kita membandingkan P-value dengan \(\alpha\):

  • Jika \(P-value \le \alpha\), maka Tolak \(H_0\).

  • Dalam kasus ini: \(0,0332 \le 0,05\).

Keputusan: Tolak \(H_0\).

5. Interpretasi

Berdasarkan uji statistik dengan tingkat kepercayaan 95% (\(\alpha = 0,05\)):

Hasil: Klaim platform (120 menit) ditolak karena \(P-value\) (\(0,0332\)) lebih kecil dari \(0,05\).

Kesimpulan: Secara statistik, rata-rata waktu belajar pengguna saat ini signifikan berbeda (lebih rendah) dari angka 120 menit yang diklaim perusahaan.

Rekomendasi: Perusahaan perlu merevisi metrik pemasaran mereka atau melakukan evaluasi fitur untuk meningkatkan kembali engagement pengguna, karena performa aktual hanya berada di angka 116 menit.


2 Study Case 2

2.1 One-Sample T-Test (σ Unknown, Small Sample)

Tim Riset UX menyelidiki apakah waktu penyelesaian tugas rata-rata aplikasi baru berbeda dari 10 menit.

Data berikut dikumpulkan dari 10 pengguna:

\[9.2, 10.5, 9.8, 10.1, 9.6, 10.3, 9.9, 9.7, 10.0, 9.5\]

2.2 Tugas

1. Definisikan H₀ dan H₁ (dua arah).

Karena ingin mengetahui apakah rata-rata waktu penyelesaian berbeda dari 10 menit, maka kita menggunakan uji dua arah (two-tailed).

  • Hipotesis Nol (\(H_0\)): \(\mu = 10\) (Rata-rata waktu penyelesaian sama dengan 10 menit).

  • Hipotesis Alternatif (\(H_1\)): \(\mu \neq 10\) (Rata-rata waktu penyelesaian tidak sama dengan 10 menit).

2. Tentukan uji hipotesis yang sesuai.

Uji yang paling tepat adalah One-Sample T-Test.Alasannya:

  • Ukuran sampel kecil (\(n < 30\)), yaitu \(n = 10\).

  • Standar deviasi populasi (\(\sigma\)) tidak diketahui.

  • Data diasumsikan terdistribusi normal.

3. Hitung statistik t dan nilai p pada α=0,05.

  1. Statistik Sampel

hitung nilai rata-rata sampel (\(\bar{x}\)) dan standar deviasi sampel (\(s\)).Data: \(9.2, 10.5, 9.8, 10.1, 9.6, 10.3, 9.9, 9.7, 10.0, 9.5\)

  • Rata-rata (\(\bar{x}\)): \(9.86\)

  • Standar Deviasi (\(s\)): \(0.386\)

  • Ukuran Sampel (\(n\)): \(10\)

  • Derajat Kebebasan (\(df\)): \(n - 1 = 9\)

  1. Statistik Uji T

\[t = \frac{\bar{x} - \mu_0}{s / \sqrt{n}}\] \[t = \frac{9.86 - 10}{0.386 / \sqrt{10}} = \frac{-0.14}{0.122} \approx -1.147\]

Mencari P-Value: Dengan \(t = -1.147\) dan \(df = 9\) pada uji dua

  • \(p\)-value \(\approx 0.281\)

4. Buat keputusan statistik.

membandingkan \(p\)-value dengan tingkat signifikansi \(\alpha = 0.05\):

  • Jika \(p\)-value \(\leq \alpha\), Tolak \(H_0\).

  • Jika \(p\)-value \(> \alpha\), Gagal Tolak \(H_0\).

Hasil: Karena \(0.281 > 0.05\), maka kita Gagal Menolak \(H_0\).

Kesimpulan: Tidak ada bukti statistik yang cukup kuat untuk menyatakan bahwa rata-rata waktu penyelesaian tugas berbeda secara signifikan dari 10 menit.

5. Jelaskan bagaimana ukuran sampel memengaruhi reliabilitas inferensial.

Ukuran sampel memiliki peran krusial dalam keandalan hasil riset UX:

  • Margin of Error: Semakin besar sampel, semakin kecil standar error (\(s / \sqrt{n}\)), yang membuat estimasi rata-rata menjadi lebih presisi.

  • Kekuatan Statistik (Statistical Power): Sampel yang kecil (seperti \(n=10\)) memiliki risiko tinggi mengalami Error Tipe II (Gagal mendeteksi perbedaan nyata yang sebenarnya ada).

  • Representasi: Sampel yang lebih besar cenderung lebih mewakili variasi perilaku pengguna yang beragam di populasi asli, sehingga mengurangi dampak dari data pencilan (outliers).


3 Study Case 3

3.1 Two-Sample T-Test (A/B Testing)

Tim analitik produk melakukan uji A/B untuk membandingkan durasi sesi rata-rata (menit) antara dua versi halaman arahan (landing page).

Version Sample Size (n) Mean Standard Deviation
A 25 4.8 1.2
B 25 5.4 1.4

3.2 Tugas

1. Rumuskan hipotesis nol dan hipotesis alternatif.

Karena tujuan A/B testing adalah membandingkan rata-rata durasi sesi antara dua versi landing page, maka digunakan uji dua arah

  • Hipotesis Nol (\(H_0\)): Tidak ada perbedaan rata-rata durasi sesi antara Versi A dan Versi B (\(\mu_A = \mu_B\)).

  • Hipotesis Alternatif (\(H_1\)): Terdapat perbedaan rata-rata durasi sesi antara Versi A dan Versi B (\(\mu_A \neq \mu_B\)).

2. Identifikasi jenis uji t yang diperlukan.

Uji yang digunakan: Two-Sample Independent t-Test:

  • Dua kelompok independen (pengguna versi A dan B berbeda)

  • Data numerik (durasi sesi dalam menit)

  • Standar deviasi populasi tidak diketahui

  • Ukuran sampel relatif kecil–menengah (n = 25 per grup)

Alasannya: Kita membandingkan rata-rata dari dua kelompok yang berbeda (pengguna Versi A tidak berhubungan dengan pengguna Versi B) dan standar deviasi populasi tidak diketahui.

3. Hitung statistik uji dan nilai p

diketahui:

Grup A: \(n_A = 25, \bar{x}_A = 4.8, s_A = 1.2\)

Grup B: \(n_B = 25, \bar{x}_B = 5.4, s_B = 1.4\)

Menghitung Pooled Standard Deviation (\(s_p\))

\[s_p = \sqrt{\frac{(n_A-1)s_A^2 + (n_B-1)s_B^2}{n_A + n_B - 2}}\]

\[s_p = \sqrt{\frac{(24 \times 1.44) + (24 \times 1.96)}{48}} = \sqrt{\frac{34.56 + 47.04}{48}} = \sqrt{1.7} \approx 1.304\]

Menghitung T-Statistic

\[t = \frac{\bar{x}_A - \bar{x}_B}{s_p \sqrt{\frac{1}{n_A} + \frac{1}{n_B}}}\]

\[t = \frac{4.8 - 5.4}{1.304 \sqrt{\frac{1}{25} + \frac{1}{25}}} = \frac{-0.6}{1.304 \times 0.283} = \frac{-0.6}{0.369} \approx -1.626\]

Menentukan P-Value dengan \(df = 25 + 25 - 2 = 48\) dan \(t = -1.626\) (dua arah):

Menggunakan tabel distribusi t, \(p\)-value ditemukan sekitar 0.110.

4. Kesimpulan statistik pada α=0,05.

Bandingkan \(p\)-value dengan \(\alpha = 0.05\):

Hasil: \(0.110 > 0.05\).

Keputusan: Gagal Menolak \(H_0\).

Kesimpulan: Secara statistik, tidak terdapat perbedaan yang signifikan antara durasi sesi di Versi A dan Versi B pada tingkat kepercayaan 95%.

5. Interpretasi

Tidak terdapat bukti yang cukup bahwa rata-rata durasi sesi pengguna versi B berbeda secara signifikan dari versi A pada tingkat signifikansi 5%.


4 Study Case 4

4.1 Chi-Square Test of Independence

Device / Payment E-Wallet Credit Card Cash on Delivery
Mobile 120 80 50
Desktop 60 90 40

4.2 Tugas

1. Nyatakan Hipotesis Nol (H₀) dan Hipotesis Alternatif (H₁).

\(H_0\) (Hipotesis Nol): Tipe perangkat dan metode pembayaran bersifat independen (tidak ada hubungan antara keduanya).

\(H_1\) (Hipotesis Alternatif): Tipe perangkat dan metode pembayaran bersifat dependen (ada hubungan signifikan antara keduanya).

2. Identifikasi uji statistik yang sesuai.

Uji yang digunakan adalah Chi-Square Test of Independence.

Alasan: Digunakan untuk menentukan apakah terdapat hubungan antara dua variabel kategori (Tipe Perangkat dan Metode Pembayaran).

3. Hitung statistik Chi-Square (χ²).

Perangkat E-Wallet Credit Card COD Total Baris
Mobile 120 80 50 250
Desktop 60 90 40 190
Total Kolom 180 170 90 440 (N)
  • Menghitung Nilai Ekspektasi (\(E\))

Rumus: \(E = \frac{(\text{Total Baris} \times \text{Total Kolom})}{\text{Total Keseluruhan}}\)

  • Mobile:
  1. E-Wallet: \((250 \times 180) / 440 = 102.27\)

  2. Credit Card: \((250 \times 170) / 440 = 96.59\)

  3. COD: \((250 \times 90) / 440 = 51.14\)

  • Desktop:
  1. E-Wallet: \((190 \times 180) / 440 = 77.73\)

  2. Credit Card: \((190 \times 170) / 440 = 73.41\)

  3. COD: \((190 \times 90) / 440 = 38.86\)

  • Menghitung Chi-Square (\(\chi^2\))Rumus: \(\chi^2 = \sum \frac{(O - E)^2}{E}\)\(\chi^2 = \frac{(120-102.27)^2}{102.27} + \dots + \frac{(40-38.86)^2}{38.86}\)Hasil \(\chi^2 \approx 12.35\)

4. Tentukan nilai p pada α=0,05.

  • Derajat Kebebasan (\(df\)): \((2 - 1) \times (3 - 1) = 2\)

  • \(P\)-value: Untuk \(\chi^2 = 12.35\) dengan \(df = 2\), \(p\)-value \(\approx 0.0021\)

Keputusan Statistik: Karena \(p\text{-value} (0.0021) < 0.05\), maka Tolak \(H_0\).

5. Interpretasikan hasil dalam konteks strategi pembayaran digital

  • Preferensi Mobile: Pengguna perangkat seluler jauh lebih cenderung menggunakan E-Wallet dibanding pengguna desktop.

  • Preferensi Desktop: Pengguna desktop menunjukkan kecenderungan yang lebih tinggi untuk menggunakan Kartu Kredit.


5 Study Case 5

5.1 Type I and Type II Errors (Conceptual)

Sebuah startup fintech menguji apakah algoritma deteksi penipuan baru mengurangi transaksi curang.

  • H₀: Algoritma baru tersebut tidak mengurangi penipuan.

  • H₁: Algoritma baru tersebut mengurangi penipuan.

5.2 Tugas

1. Jelaskan Kesalahan Tipe I (α) dalam konteks ini.

  • Type I Error terjadi ketika H₀ benar, tetapi ditolak.
  1. Konteks: Tim menyimpulkan bahwa algoritma baru berhasil mengurangi penipuan, padahal sebenarnya tidak ada perubahan.

  2. Dampak: Perusahaan membuang sumber daya (uang dan waktu) untuk mengimplementasikan sistem yang tidak efektif.

2. Jelaskan Kesalahan Tipe II (β) dalam konteks ini.

  • Type II Error terjadi ketika H₀ salah, tetapi gagal ditolak.
  1. Konteks: Tim menyimpulkan bahwa algoritma baru tidak efektif, padahal sebenarnya algoritma tersebut sangat ampuh mengurangi penipuan.

  2. Dampak: Perusahaan kehilangan kesempatan untuk menghentikan transaksi penipuan dan tetap mengalami kerugian finansial akibat fraud.

3. Identifikasi kesalahan mana yang lebih merugikan dari perspektif bisnis.

Dari perspektif bisnis Fintech, Type II Error (False Negative) umumnya lebih mahal dan berisiko.

Alasannya: Jika terjadi Type I Error, biaya yang keluar adalah biaya operasional pengembangan. Namun, jika terjadi Type II Error, perusahaan membiarkan celah penipuan tetap terbuka. Hal ini berakibat pada kerugian finansial langsung secara terus-menerus, rusaknya reputasi perusahaan di mata nasabah, dan potensi denda regulasi.

4. Diskusikan bagaimana ukuran sampel memengaruhi Kesalahan Tipe II.

  • Ukuran sampel berbanding terbalik dengan peluang terjadinya Type II Error (\(\beta\)).
  1. Sampel Besar: Meningkatkan sensitivitas tes untuk mendeteksi perbedaan sekecil apa pun. Hal ini menurunkan \(\beta\).

  2. Sampel Kecil: Tes menjadi “kurang peka”, sehingga perbedaan atau efektivitas yang sebenarnya ada seringkali tidak terdeteksi. Hal ini meningkatkan \(\beta\).

5. Jelaskan hubungan antara α, β, dan kekuatan statistik.

  • Hubungan \(\alpha\) dan \(\beta\): Jika kita memperketat \(\alpha\) (misal dari 0.05 ke 0.01) untuk menghindari salah tuduh, maka peluang \(\beta\) (melewatkan deteksi yang benar) biasanya akan naik.

  • Statistical Power (\(1 - \beta\)): Power adalah kemampuan tes untuk mendeteksi efek yang memang ada (menolak \(H_0\) yang salah).

  • Rumus Sederhana: Semakin rendah \(\beta\), semakin tinggi Statistical Power-nya.


6 Study Case 6

6.1 P-Value and Statistical Decision Making

Evaluasi model prediksi pelanggan yang berhenti berlangganan menghasilkan hasil sebagai berikut:

  • Statistik uji = 2,31

  • nilai p = 0,021

  • Tingkat signifikansi: α=0,05

6.2 Tugas

1. Jelaskan arti dari nilai p.

P-value (0.021) adalah probabilitas untuk mendapatkan hasil uji yang sama atau lebih ekstrem jika kita mengasumsikan hipotesis nol (\(H_0\)) benar.

Dalam kasus ini, p-value 0.021 berarti hanya ada 2.1% peluang bahwa hasil yang kita lihat hanyalah kebetulan belaka dan model sebenarnya tidak memiliki kemampuan prediksi.

2. Buat keputusan statistik.

Kita membandingkan p-value dengan \(\alpha\):

  • P-value (0.021) < \(\alpha\) (0.05).

  • Keputusan: Tolak \(H_0\).

  • Hasil ini dinyatakan Signifikan secara Statistik.

3. Terjemahkan keputusan tersebut ke dalam bahasa non-teknis untuk manajemen.

“Berdasarkan data evaluasi, kami yakin 95% bahwa model prediksi churn ini benar-benar berfungsi dan bukan sekadar tebakan acak. Model ini memiliki dasar yang kuat untuk digunakan dalam mengidentifikasi pelanggan yang berpotensi berhenti.”

4. Diskusikan risiko jika sampel tidak representatif.

Jika data yang digunakan untuk mengetes model tidak mewakili populasi pelanggan yang sebenarnya (misalnya: hanya mengambil data pelanggan lama, bukan pelanggan baru):

  • Generalisasi Salah: Model mungkin terlihat akurat di atas kertas, tetapi akan gagal total saat diterapkan di dunia nyata.

  • Bias Keputusan: Manajemen mungkin mengambil strategi pemasaran yang salah sasaran, yang berujung pada pemborosan anggaran tanpa menurunkan angka churn.

5. Jelaskan mengapa nilai p tidak mengukur ukuran efek.

P-value hanya memberi tahu kita apakah ada perbedaan atau efek yang nyata, tetapi tidak memberi tahu kita seberapa besar efek tersebut.

  • Analogi: P-value memberi tahu kita bahwa seorang atlet “lebih cepat” dari orang biasa. Namun, p-value tidak memberi tahu kita apakah dia lebih cepat 1 detik atau 10 menit (inilah yang disebut Effect Size).

  • Model bisa memiliki p-value yang sangat kecil (sangat signifikan) hanya karena jumlah data yang sangat banyak, padahal peningkatan akurasi yang diberikan model tersebut sangat kecil dan tidak berdampak besar bagi profit perusahaan.