Study Cases

Assignment ~ Week 14

Arya Fharezi

Arya Fharezi

NIM Mahasiswa : 52250008
Mahasiswa Sains Data Institut Teknologi Sains Bandung
Informasi Akademik
Mata Kuliah
:
Statistik Dasar
Dosen
:
Bakti Siregar, M.Sc., CDS.
Mahasiswa Aktif - Semester 1


1 Case Study One

One-Sample Z-Test (Hipotesis Statistik)

Sebuah platform pembelajaran digital mengklaim bahwa rata-rata waktu belajar harian penggunanya adalah 120 menit. Berdasarkan catatan historis, simpangan baku populasi diketahui sebesar 15 menit.

Sebuah sampel acak dari 64 pengguna menunjukkan rata-rata waktu belajar sebesar 116 menit.

\[\begin{aligned} \mu_0 &= 120 && (\text{klaim rata-rata populasi}) \\ \sigma &= 15 && (\text{simpangan baku populasi}) \\ n &= 64 && (\text{ukuran sampel}) \\ \bar{x} &= 116 && (\text{rata-rata sampel}) \end{aligned}\]

Tugas:

  1. Rumuskan Hipotesis Nol (\(H_0\)) dan Hipotesis Alternatif (\(H_1\)).
  2. Identifikasi uji statistik yang tepat dan justifikasi pilihan Anda.
  3. Hitung statistik uji dan p-value dengan menggunakan \(\alpha = 0.05\).
  4. Nyatakan keputusan statistik.
  5. Interpretasikan hasilnya dalam konteks analitik bisnis.

1.1 Meaning of Answer 1

Soal: Rumuskan Hipotesis Nol (\(H_0\)) dan Hipotesis Alternatif (\(H_1\))

Hipotesis untuk Uji Z Satu Sampel

Dalam inferensi statistik, langkah pertama adalah menetapkan pernyataan formal mengenai parameter populasi yang akan diuji. Berdasarkan klaim platform pembelajaran digital bahwa rata-rata waktu belajar harian adalah 120 menit, dan data sampel 64 pengguna yang menunjukkan rata-rata 116 menit, dirumuskan hipotesis sebagai berikut:

Hipotesis Nol (\(H_0\))
\(\mu = 120\)

Hipotesis ini menyatakan bahwa tidak ada perbedaan antara rata-rata waktu belajar populasi yang sebenarnya dengan klaim platform. Nilai rata-rata tetap sebesar 120 menit, dan perbedaan yang ditemukan pada sampel sebesar 4 menit hanyalah variasi acak semata (sampling error).

Hipotesis Alternatif (\(H_1\))
\(\mu \neq 120\)

Hipotesis alternatif (\(H_1\)) menyatakan bahwa rata-rata waktu belajar populasi berbeda secara signifikan dari 120 menit. Pengujian ini menggunakan pendekatan uji dua arah (two-tailed test) untuk mendeteksi adanya deviasi statistik dari nilai klaim (\(\mu_0\)), baik penyimpangan ke arah yang lebih rendah maupun lebih tinggi.

Visualisasi Uji Dua Arah :
\(\mu < 120\)
Rata-rata lebih rendah
\(\mu = 120\)
Hipotesis Nol
\(\mu > 120\)
Rata-rata lebih tinggi

1.2 Meaning of answer 2

Soal: Identifikasi Uji Statistik yang Tepat dan Berikan Alasannya

Uji Z Satu Sampel (One-Sample Z-Test)

\[Z = \frac{\bar{x} - \mu_0}{\frac{\sigma}{\sqrt{n}}}\]

Alasan Pemilihan Uji Z Satu Sampel:

Standar Deviasi Populasi Diketahui (\(\sigma = 15\))

Diketahui simpangan baku populasi (\(\sigma\)) adalah 15 menit berdasarkan catatan historis, yang merupakan syarat utama penggunaan Uji \(Z\). Karena \(\sigma\) sudah tersedia, kita dapat langsung menggunakan distribusi normal standar tanpa perlu mengestimasi variabilitas dari sampel. Hal ini membuat pengujian hipotesis menjadi lebih presisi dan akurat.

Ukuran Sampel Cukup Besar (\(n = 64\))

Ukuran Sampel Memenuhi Teorema Limit Pusat (\(n = 64\)), dengan jumlah sampel yang besar (\(n \geq 30\)), distribusi sampling rata-rata (\(\bar{x}\)) dapat diasumsikan mendekati distribusi normal. Kondisi ini memvalidasi penggunaan uji \(Z\) untuk menghasilkan keputusan yang akurat, meskipun distribusi asli populasi tidak diketahui secara spesifik.

1.3 Meaning Of Answer 3

Hitung Statistik Uji dan p-value dengan Menggunakan \(\alpha = 0.05\)

Rumus Statistik Uji Z (One-Sample Z-Test)

\(Z = \frac{\bar{x} - \mu_0}{\frac{\sigma}{\sqrt{n}}}\)

\(Z\):
Statistik uji Z (Test Statistic)
\(\bar{x}\):
Rata-rata sampel (Sample Mean) = 116 menit
\(\mu_0\):
Rata-rata klaim populasi (Claimed Population Mean) = 120 menit
\(\sigma\):
Simpangan baku populasi (Population Standard Deviation) = 15 menit
\(n\):
Jumlah sampel (Sample Size) = 64

Data Parameter dari Soal:

Rata-rata Klaim
\(\mu_0 = 120\)
Simpangan Baku
\(\sigma = 15\)
Ukuran Sampel
\(n = 64\)
Rata-rata Sampel
\(\bar{x} = 116\)

Perhitungan Standard Error (\(SE\)):

\(SE = \frac{\sigma}{\sqrt{n}} = \frac{15}{\sqrt{64}} = \frac{15}{8} = 1.875\)

\(SE = 1.875\) menit
Standard Error dari rata-rata sampel

Perhitungan Statistik Uji \(Z\):

\(Z = \frac{\bar{x} - \mu_0}{SE} = \frac{116 - 120}{1.875} = \frac{-4}{1.875} = -2.1333\)

\(Z = -2.133\)
Statistik uji Z (dibulatkan 3 desimal)

Langkah-langkah Perhitungan p-value:

Rumus p-value untuk two-tailed test:

\(p = 2 \times P(Z \le -2.133)\)

Cari \(P(Z \le -2.133)\) dari tabel distribusi normal

Langkah-langkah:
1. Cari baris untuk \(Z = -2.1\) (dua digit pertama)
2. Cari kolom untuk digit ketiga \(0.03\)
3. Nilai di perpotongan adalah \(P(Z \le -2.13)\)

Z 0.03 0.04 0.05
-2.2 0.0107 0.0104 0.0102
-2.1 0.0166 0.0162 0.0158
-2.0 0.0228 0.0222 0.0217

Hasil: \(P(Z \le -2.13) = 0.0166\)

Hitung two-tailed p-value
\(p = 2 \times P(Z \le -2.133)\)
\(p = 2 \times 0.0166\)
\(p = 0.0332\)
Kesimpulan Akhir
\(p\)-value = 0.033

\(p\)-value = 0.033 menunjukkan peluang 3.3% untuk mendapatkan rata-rata sampel 116 menit atau lebih rendah jika klaim platform benar (\(\mu_0 = 120\) menit). Karena nilai ini lebih kecil dari \(\alpha = 0.05\), hasil uji statistik signifikan pada tingkat kepercayaan 95%.

1.4 Meaning of answer 4

Soal: Nyatakan Keputusan Statistik

Berdasarkan perhitungan statistik uji \(Z\) dan \(p-value\) dengan tingkat signifikansi \(\alpha = 0.05\), keputusan statistik dapat diambil dengan membandingkan nilai p-value terhadap \(α\) dan memeriksa posisi statistik uji terhadap nilai kritis \(Z\).

Kriteria Keputusan Statistik

\(α\) (Tingkat Signifikansi)
0.05
\(Z\)-Kritis Two-Tailed
±1.960
Statistik Uji \(Z\)
-2.133
\(p-value\)
0.033

Analisis Perbandingan untuk Pengambilan Keputusan

Dua pendekatan statistik yang konsisten menunjukkan hasil yang sama

Berdasarkan \(p\)-value vs \(α\)

0.033
\(p\)-value
<
0.05
\(α\)

\(p\)-value \(< α\) → Tolak \(H_0\)

Berdasarkan \(Z_{\text{hitung}}\) vs \(Z_{\text{kritis}}\)

-2.133
\(Z_{\text{hitung}}\)
<
-1.960
\(Z_{\text{kritis}}\)

\(Z < -1.960\) → Daerah Penolakan

Keputusan Statistik

Berdasarkan hasil analisis statistik dengan tingkat signifikansi \(α = 0.05\), diperoleh \(p\text{-value}\) = 0.033 dan statistik uji \(Z\) = -2.133. Karena \(p\text{-value}\) (0.033) < \(α\) (0.05) dan \(Z_{\text{hitung}}\) (-2.133) < \(Z_{\text{kritis}}\) (-1.960), maka keputusan statistik yang diambil adalah menolak hipotesis nol \((H_0)\).

Keputusan ini menunjukkan bahwa terdapat bukti statistik yang cukup untuk menyatakan bahwa rata-rata waktu belajar harian pengguna platform pembelajaran digital berbeda secara signifikan dari klaim sebesar 120 menit. Rata-rata waktu belajar aktual pengguna (116 menit) secara statistik lebih rendah daripada klaim platform.

1.5 Meaning of answer 5

Soal: Interpretasi Hasil dalam Konteks Analitik Bisnis

Hasil Uji Statistik yang Signifikan

Uji statistik dengan tingkat signifikansi \(α = 0.05\) menunjukkan hasil yang signifikan dengan \(p\)-value = \(0.033\) dan statistik uji \(Z = -2.133\). Hal ini mengindikasikan bahwa rata-rata waktu belajar aktual pengguna berbeda secara statistik dari klaim platform sebesar 120 menit, dengan selisih sekitar 4 menit (3.33% lebih rendah).

Klaim Platform
120 menit

Target waktu belajar
yang dijanjikan

Realita Pengguna
116 menit

Rata-rata aktual
dari sampel (\(n = 64\))

Implikasi Bisnis: Klaim vs Realita

Analisis dampak temuan statistik terhadap strategi bisnis platform

1
Kredibilitas Platform
4 menit
Selisih signifikan

Klaim platform 120 menit, realita 116 menit. Perbedaan yang terdeteksi secara statistik ini dapat mengurangi kepercayaan pengguna terhadap keakuratan informasi yang diberikan.

Rekomendasi: Tinjau ulang klaim marketing

2
Pengalaman Belajar
3.33%
Lebih rendah dari klaim

Waktu belajar 3.33% lebih rendah dari yang dijanjikan. Mengindikasikan kemungkinan hambatan dalam user experience atau materi pembelajaran yang kurang engaging.

Rekomendasi: Analisis UX/UI platform

3
Retensi Pengguna
\(p = 0.033\)
Tingkat signifikansi

Hanya 3.3% kemungkinan hasil ini terjadi secara kebetulan. Perbedaan yang nyata ini berdampak pada retensi dan loyalitas pengguna jangka panjang.

Rekomendasi: Program retensi khusus

Kesimpulan & Rekomendasi Strategis

Berdasarkan uji statistik dengan sampel 64 pengguna:

“Platform pembelajaran digital memiliki klaim yang terlalu optimis mengenai waktu belajar pengguna. Rata-rata aktual 116 menit secara statistik lebih rendah dari klaim 120 menit (p = 0.033, Z = -2.133). Perbedaan 4 menit ini signifikan dan berimplikasi pada kredibilitas platform serta pengalaman belajar pengguna.”

Tindakan Jangka Pendek
Revisi Klaim Marketing
Tindakan Jangka Panjang
Optimasi Pengalaman Belajar

2 Case Study Two

One-Sample T-Test (σ Unknown, Small Sample)

Sebuah tim riset UX menyelidiki apakah rata-rata waktu penyelesaian tugas untuk aplikasi baru berbeda dari 10 menit.

Data berikut dikumpulkan dari 10 pengguna:

\[9.2, 10.5, 9.8, 10.1, 9.6, 10.3, 9.9, 9.7, 10.0, 9.5\]

Tugas:

  1. Definisikan \(H_0\) dan \(H_1\) (dua arah).
  2. Tentukan uji hipotesis yang tepat.
  3. Hitung statistik-t dan p-value pada \(\alpha = 0.05\).
  4. Buat keputusan statistik.
  5. Jelaskan bagaimana ukuran sampel mempengaruhi reliabilitas inferensial.

2.1 Meaning of answer 1

Soal: Definisikan (\(H_0\)) dan (\(H_1\)) (Dua Arah)

Hipotesis untuk Uji-t Satu Sampel (Dua Arah)

Konteks Penelitian

Uji hipotesis ini dilakukan oleh tim riset UX untuk menguji apakah rata-rata waktu penyelesaian tugas pada aplikasi baru berbeda secara signifikan dari target 10 menit. Parameter yang diuji adalah \(\mu\), yaitu rata-rata waktu penyelesaian tugas populasi pengguna aplikasi.

Dalam inferensi statistik, langkah pertama adalah menetapkan pernyataan formal mengenai parameter populasi yang akan diuji. Berdasarkan klaim bahwa rata-rata waktu penyelesaian tugas adalah 10 menit, dan data sampel 10 pengguna yang dikumpulkan, dirumuskan hipotesis sebagai berikut:

Hipotesis Nol (\(H_0\))
\(\mu = 10\)

Hipotesis ini menyatakan bahwa tidak ada perbedaan antara rata-rata waktu penyelesaian tugas populasi pengguna aplikasi (\(\mu\)) dengan klaim 10 menit. Setiap penyimpangan yang diamati pada sampel (rata-rata 9.86 menit) diasumsikan hanya akibat variasi acak (sampling error).

Hipotesis Alternatif (\(H_1\))
\(\mu \neq 10\)

Hipotesis ini menyatakan bahwa rata-rata waktu penyelesaian tugas populasi (\(\mu\)) secara signifikan berbeda dari 10 menit. Ini adalah uji dua arah (two-tailed test) karena tim riset ingin memeriksa apakah aplikasi memiliki performa waktu yang berbeda (lebih cepat atau lebih lambat) dari target.

Visualisasi Uji Dua Arah :
\(\mu < 10\)
Aplikasi lebih cepat
\(\mu = 10\)
Target performa
\(\mu > 10\)
Aplikasi lebih lambat
Keterangan Parameter:
  • \(\mu\): Rata-rata waktu penyelesaian tugas populasi pengguna aplikasi (parameter yang tidak diketahui)
  • 10 menit: Nilai hipotetis berdasarkan target atau klaim yang akan diuji
  • Uji dua arah: Dipilih karena tidak ada asumsi awal apakah aplikasi lebih cepat atau lebih lambat dari target

2.2 Meaning of answer 2

Soal: Identifikasi Uji Statistik yang Tepat dan Berikan Alasannya

Uji-t Satu Sampel (One-Sample t-Test)

\[t = \frac{\bar{x} - \mu_0}{\frac{s}{\sqrt{n}}}\]

Alasan Pemilihan Uji-t Satu Sampel

Standar Deviasi Populasi Tidak Diketahui (\(\sigma\) Unknown)

Dalam kasus ini, simpangan baku populasi (\(\sigma\)) tidak diketahui. Uji-t dirancang khusus untuk situasi di mana kita harus mengestimasi variabilitas populasi menggunakan simpangan baku sampel (\(s\)). Ini adalah kondisi klasik untuk menerapkan uji-t satu sampel, bukan uji-Z.

Ukuran Sampel Kecil (\(n = 10\))

Karena ukuran sampel kecil (\(n < 30\)), kita tidak bisa mengandalkan Teorema Limit Pusat. Oleh karena itu, digunakan Distribusi-t, yang lebih akurat untuk sampel kecil karena memberikan ruang ketidakpastian yang lebih besar (ekor distribusi lebih tebal) saat memperkirakan standar deviasi populasi.

Asumsi Data Numerik dan Asumsi Kenormalan yang Fleksibel

Data durasi sesi ini berbentuk angka (numerik) dan kontinu. Meski uji-t idealnya membutuhkan data yang berdistribusi normal, uji ini dikenal tangguh (robust). Artinya, hasil uji-t tetap valid digunakan untuk sampel kecil selama data tersebut tidak memiliki nilai yang sangat ekstrem (outlier) atau terlalu miring (skewness).

2.3 Meaning of answer 3

Hitung Statistik-t dan p-value dengan Menggunakan \(\alpha = 0.05\)

Rumus Statistik Uji t (One-Sample t-Test)

\[t = \frac{\bar{x} - \mu_0}{\frac{s}{\sqrt{n}}}\]

\(t\):
Statistik uji t (Test Statistic)
\(\bar{x}\):
Rata-rata sampel (Sample Mean)
\(\mu_0\):
Rata-rata klaim populasi (Claimed Population Mean) = 10 menit
\(s\):
Simpangan baku sampel (Sample Standard Deviation)
\(n\):
Jumlah sampel (Sample Size) = 10

Data Sampel Waktu Penyelesaian (menit):

\(x_1 = 9.2\), \(x_2 = 10.5\), \(x_3 = 9.8\), \(x_4 = 10.1\), \(x_5 = 9.6\), \(x_6 = 10.3\),
\(x_7 = 9.9\), \(x_8 = 9.7\), \(x_9 = 10.0\), \(x_{10} = 9.5\)

Perhitungan Rata-rata Sampel (\(\bar{x}\)):

\(\displaystyle \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i = \frac{x_1 + x_2 + x_3 + \cdots + x_{10}}{10}\)

\(\displaystyle = \frac{9.2 + 10.5 + 9.8 + 10.1 + 9.6 + 10.3 + 9.9 + 9.7 + 10.0 + 9.5}{10}\)

\(\displaystyle = \frac{98.6}{10}\)

\(\bar{x} = 9.86\) menit

Rata-rata waktu penyelesaian sampel

Perhitungan Simpangan Baku Sampel (\(s\)):

\(\displaystyle s = \sqrt{\frac{\sum_{i=1}^n (x_i - \bar{x})^2}{n-1}}\)

Langkah Hitung \((x_i - \bar{x})^2\) untuk setiap data:

\((9.2 - 9.86)^2 = 0.4356\)
\((10.5 - 9.86)^2 = 0.4096\)
\((9.8 - 9.86)^2 = 0.0036\)
\((10.1 - 9.86)^2 = 0.0576\)
\((9.6 - 9.86)^2 = 0.0676\)
\((10.3 - 9.86)^2 = 0.1936\)
\((9.9 - 9.86)^2 = 0.0016\)
\((9.7 - 9.86)^2 = 0.0256\)
\((10.0 - 9.86)^2 = 0.0196\)
\((9.5 - 9.86)^2 = 0.1296\)
\(Jumlah\) \(hasil = 1.344\)

\(\displaystyle s = \sqrt{\frac{1.344}{10-1}} = \sqrt{\frac{1.344}{9}}\)

\(= \sqrt{0.14933}\)

\(s = 0.3864\) menit

Simpangan baku sampel
Ukuran Sampel (\(n\))

\(n\) \(= 10\)

jumlah data observasi
Derajat Kebebasan (\(df\))

\(df = 10 - 1 = 9\)

\(df = n - 1\)
Standard Error (\(SE\))

\(\displaystyle SE = \frac{0.3864}{\sqrt{10}}\)

\(SE = 0.1222\)

Perhitungan Statistik Uji \(t\):

\(\displaystyle t = \frac{\bar{x} - \mu_0}{SE} = \frac{9.86 - 10.0}{0.1222} = \frac{-0.14}{0.1222}\)

\(t = -1.146\)

Statistik uji t (dibulatkan 3 desimal)

Menentukan p-value dari Tabel t-Distribution:

Uji Dua Arah (Two-tailed test):

\(\displaystyle p = 2 \times P(t_{9} \le -1.146)\)

Cara Membaca Tabel \(t\)-Distribution:
  1. Cari baris sesuai derajat kebebasan (df = 9)
  2. Cari kolom dengan nilai t mendekati \(|t| = 1.146\)
  3. Baca p-value satu sisi (one-tailed) dari kolom terkait
  4. Kalikan dengan 2 untuk p-value dua sisi (two-tailed)
\(df\) \(t_{0.10}\) \(t_{0.20}\) \(t_{0.25}\) \(t_{0.30}\)
8 1.397 0.889 0.706 0.549
9 1.383 0.883 0.703 0.544
10 1.372 0.879 0.700 0.542
Interpretasi Tabel:
  1. \(|t| = 1.146\) berada antara \(t_{0.20} = 0.883\) dan \(t_{0.10} = 1.383\) untuk \(df = 9\)
  2. Dengan interpolasi, p-value satu sisi ≈ 0.14
  3. p-value dua sisi = 2 × 0.14 = 0.28

Perhitungan Final p-value:

p

Nilai p-value (Two-tailed)
\(df = 9\), \(t = -1.146\)
Langkah Perhitungan:
  1. Cari nilai p satu sisi dari tabel: \(P(t_{9} \le -1.146) ≈ 0.14\)
  2. Untuk uji dua arah: \(p = 2 × P(t_{9} \le -1.146)\)
  3. p = 2 × 0.14 = 0.28

\(p\text{-value} = 0.28\)

Nilai \(P\text{-value}\) sebesar 0.28 menunjukkan bahwa terdapat peluang 28% untuk mendapatkan rata-rata sampel 9.86 menit (atau lebih ekstrem) jika klaim rata-rata populasi benar 10 menit. Karena nilai \(P\text{-value}\) (0.28) lebih besar dari taraf signifikansi \(\alpha = 0.05\), maka keputusan statistik adalah Gagal Menolak Hipotesis Nol (\(H_0\)). Dengan demikian, pada taraf signifikansi 0.05, tidak terdapat bukti yang cukup untuk menyimpulkan bahwa rata-rata waktu penyelesaian tugas berbeda dari 10 menit.

2.4 Meaning of answer 4

Soal: Buat Keputusan Statistik

Berdasarkan perhitungan sebelumnya (dari data: 9.2, 10.5, 9.8, 10.1, 9.6, 10.3, 9.9, 9.7, 10.0, 9.5) telah diperoleh:

Hasil Perhitungan Statistik

Rata-rata Sampel (\(\bar{x}\))
9.86
menit
Standar Deviasi (s)
0.3863
menit
Statistik Uji t
−1.146
p-value (two-tailed)
0.28
α = 0.05, df = 9

Nilai Kritis untuk Pengambilan Keputusan

Tingkat Signifikansi (\(α\))
0.05
\(t\)-kritis (two-tailed)
±2.262
df = 9, α/2 = 0.025

Analisis Perbandingan untuk Pengambilan Keputusan

Dua pendekatan statistik menunjukkan hasil yang konsisten

Berdasarkan \(p\)-value vs \(α\)

0.257
\(p\)-value
>
0.05
\(α\)

\(p\)-value \(> α\) → Gagal Tolak \(H_0\)

Berdasarkan \(t_{\text{hitung}}\) vs \(t_{\text{kritis}}\)

-1.21
\(t_{\text{hitung}}\)
antara
-2.262 & 2.262

\(-2.262 < t < 2.262\) → Daerah Penerimaan

Keputusan Statistik

Dengan \(p\)-value (\(0.257\)) > \(\alpha\) (\(0.05\)), keputusan yang diambil adalah gagal menolak \(H_0\). Tidak terdapat bukti yang cukup untuk menyatakan bahwa rata-rata waktu penyelesaian tugas berbeda secara signifikan dari target 10 menit. Perbedaan antara rata-rata sampel (\(9.86\) menit) dan target dianggap sebagai variasi kebetulan (sampling error), bukan perbedaan performa yang nyata.

2.5 Meaning of answer 5

Soal 5: Pengaruh Ukuran Sampel Terhadap Reliabilitas Inferensial

Ukuran sampel (n) merupakan faktor kritis yang menentukan reliabilitas (keandalan) inferensi statistik. Reliabilitas tinggi berarti kesimpulan yang ditarik dari sampel kemungkinan besar akurat menggambarkan populasi.

1

Ukuran Sampel Besar (n besar) → Meningkatkan Reliabilitas

EFEK UTAMA

Presisi Tinggi, Kekuatan Uji Besar

\(\uparrow n \Rightarrow \downarrow SE \Rightarrow \uparrow Reliability\)

ALASAN MATEMATIS

Standar Error (SE) mengecil: \(SE = \frac{s}{\sqrt{n}}\)
Lebar Confidence Interval (CI) menyempit: \(CI = \bar{x} \pm t_{\alpha/2} \cdot SE\)
Statistik uji (t) menjadi lebih sensitif: \(t = \frac{\bar{x} - \mu_0}{SE}\)
Mendekati Distribusi Normal: Teorema Limit Pusat bekerja lebih baik.

KONSEP & DAMPAK

Dengan sampel yang besar, estimasi rata-rata populasi menjadi jauh lebih tepat. Rentang ketidakpastian (confidence interval) menjadi sempit, memberikan keyakinan lebih besar di mana nilai sebenarnya berada. Kekuatan uji statistik (power) meningkat, sehingga kemampuan untuk mendeteksi perbedaan yang kecil namun bermakna menjadi lebih tinggi.

Contoh pada kasus UX: Jika penelitian dilakukan pada 100 pengguna (bukan 10), simpangan baku sampel (s) akan lebih stabil, SE sangat kecil (misal ~0.04), dan CI menjadi sangat sempit (misal 9.85–10.05 menit). Keputusan untuk menolak atau gagal menolak \(H_0\) akan jauh lebih kuat dan dapat dipercaya.

2

Ukuran Sampel Kecil (n kecil) → Mengurangi Reliabilitas

EFEK UTAMA

Presisi Rendah, Rentan Fluktuasi

\(\downarrow n \Rightarrow \uparrow SE \Rightarrow \downarrow Reliability\)

ALASAN MATEMATIS

Standar Error (SE) membesar: \(SE = \frac{s}{\sqrt{n}}\)
Lebar CI melebar: Estimasi menjadi tidak tepat.
Bergantung pada Distribusi t: Nilai \(t_{\alpha/2}\) lebih besar untuk derajat bebas kecil, memperlebar CI.
Kekuatan Uji (Power) rendah: Risiko tinggi untuk melakukan kesalahan Type II (gagal mendeteksi efek yang ada).

KONSEP & DAMPAK

Sampel kecil menghasilkan estimasi yang sangat rentan terhadap fluktuasi acak atau data outlier. Confidence interval yang dihasilkan sangat lebar, mencerminkan ketidakpastian yang besar. Kekuatan uji statistik lemah, sehingga mungkin gagal mengidentifikasi perbedaan yang sebenarnya signifikan.

Contoh pada kasus UX (n=10): Hasil uji-t sangat sensitif terhadap satu atau dua data ekstrem. Misalnya, jika satu pengguna sangat lambat (misal 12 menit), rata-rata dan simpangan baku berubah drastis, yang dapat mengubah keputusan hipotesis. Inferensi yang ditarik hanya bersifat indikatif awal dan memerlukan konfirmasi dengan sampel yang lebih besar.

!

Kesimpulan: Implikasi bagi Penelitian UX

Dalam konteks penelitian UX, penggunaan sampel kecil (seperti n=10) biasa dilakukan pada tahap formative atau tes usability awal karena pertimbangan biaya dan waktu. Namun, peneliti harus sangat berhati-hati dalam menarik kesimpulan inferensial yang general. Temuan dari sampel kecil berfungsi sebagai panduan awal yang perlu divalidasi dengan studi skala yang lebih besar sebelum mengambil keputusan penting (seperti merombak alur kerja). Semakin besar ukuran sampel, semakin dapat dipercaya kesimpulan bahwa rata-rata waktu penyelesaian tugas pada aplikasi benar-benar berbeda (atau tidak) dari target 10 menit untuk seluruh populasi pengguna.

3 Case Study Three

Two-Sample T-Test (A/B Testing)

Sebuah tim analitik produk melakukan uji A/B untuk membandingkan rata-rata durasi sesi (menit) antara dua versi halaman arahan (landing page).

Versi Ukuran Sampel (n) Rata-rata Simpangan Baku
A 25 4.8 1.2
B 25 5.4 1.4

Tugas:

  1. Rumuskan hipotesis nol \(H_0\) dan hipotesis alternatif \(H_1\).
  2. Identifikasi jenis uji-t yang diperlukan.
  3. Hitung statistik uji dan p-value.
  4. Tarik kesimpulan statistik pada \(\alpha = 0.05\).
  5. Interpretasikan hasilnya untuk pengambilan keputusan produk.

3.1 Meaning of answer 1

Soal: Rumuskan Hipotesis Nol (\(H_0\)) dan Hipotesis Alternatif (\(H_1\))

Hipotesis untuk Uji-t Dua Sampel (A/B Testing)

Dalam inferensi statistik, langkah pertama adalah menetapkan pernyataan formal mengenai parameter populasi yang akan diuji. Berdasarkan data A/B testing untuk membandingkan durasi sesi antara dua versi halaman arahan, dengan rata-rata Versi A = 4.8 menit dan Versi B = 5.4 menit, dirumuskan hipotesis sebagai berikut:

Hipotesis Nol (\(H_0\))
\(\mu_A = \mu_B\)

Hipotesis ini menyatakan bahwa tidak ada perbedaan antara rata-rata durasi sesi populasi untuk Versi A dan Versi B halaman arahan. Perbedaan 0.6 menit yang ditemukan pada sampel hanyalah variasi acak semata (sampling error).

Hipotesis Alternatif (\(H_1\))
\(\mu_A \neq \mu_B\)

Hipotesis ini menyatakan bahwa rata-rata durasi sesi populasi untuk Versi A dan Versi B secara signifikan berbeda. Kita menggunakan uji dua arah (two-tailed test) karena ingin memeriksa apakah terdapat perbedaan (baik Versi A lebih tinggi maupun lebih rendah dari Versi B).

Visualisasi Uji Dua Arah :
\(\mu_A < \mu_B\)
Versi B lebih baik
\(\mu_A = \mu_B\)
Tidak ada perbedaan
\(\mu_A > \mu_B\)
Versi A lebih baik

3.2 Meaning of answer 2

Soal: Identifikasi Jenis Uji-t yang Diperlukan

Independent Two-Sample T-Test (Uji-t Dua Sampel Independen)

\(t = \frac{\bar{x}_1 - \bar{x}_2}{s_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}}\)

Alasan Pemilihan Independent Two-Sample T-Test

Dua Kelompok Sampel Independen

Terdapat dua kelompok sampel yang berbeda (Versi A dan Versi B) yang tidak saling berhubungan (independen). Pengguna pada kelompok A tidak berhubungan dengan pengguna pada kelompok B, sehingga memenuhi syarat untuk uji-t dua sampel independen.

Simpangan Baku Populasi Tidak Diketahui

Simpangan baku populasi (\(\sigma\)) tidak diketahui (kita hanya punya simpangan baku sampel, \(s\)). Oleh karena itu, kita menggunakan uji-t (bukan uji-z) yang dirancang khusus untuk situasi di mana varians populasi tidak diketahui.

3.3 Meaning of answer 3

Hitung Statistik Uji dan p-value dengan Menggunakan \(\alpha = 0.05\)

Rumus Two-Sample t-Test (Pooled Variance)

\[t = \frac{\bar{x}_1 - \bar{x}_2}{s_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}}\]

\(t\):
Statistik uji t (Test Statistic)
\(\bar{x}_1, \bar{x}_2\):
Rata-rata sampel grup A dan B (4.8 dan 5.4 menit)
\(s_p\):
Standar deviasi gabungan (Pooled Standard Deviation)
\(n_1, n_2\):
Ukuran sampel grup A dan B (masing-masing 25)

Data dari A/B Testing:

Rata-rata A

\(\bar{x}_1 = 4.8\)

Rata-rata B

\(\bar{x}_2 = 5.4\)

Simpangan Baku

\(s_1 = 1.2\), \(s_2 = 1.4\)

Ukuran Sampel

\(n_1 = n_2 = 25\)

Menghitung Derajat Kebebasan (\(df\)):

\[\displaystyle df = n_1 + n_2 - 2 = 25 + 25 - 2 = 48\]

\(df = 48\)

Derajat kebebasan untuk Pooled t-test

Menghitung Standar Deviasi Gabungan (\(s_p\)):

\[\displaystyle s_p = \sqrt{\frac{(n_1-1)s_1^2 + (n_2-1)s_2^2}{n_1+n_2-2}}\]

\[s_p = \sqrt{\frac{(24)(1.2)^2 + (24)(1.4)^2}{48}}\]

\[= \sqrt{\frac{(24)(1.44) + (24)(1.96)}{48}}\]

\[= \sqrt{\frac{34.56 + 47.04}{48}} = \sqrt{\frac{81.6}{48}}\]

\[= \sqrt{1.7} \approx 1.3038\]

\(s_p \approx 1.3038\)

Standar deviasi gabungan (pooled standard deviation)

Menghitung Nilai t (\(t_{hitung}\)):

\[\displaystyle t = \frac{\bar{x}_1 - \bar{x}_2}{s_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}}\]

\[t = \frac{4.8 - 5.4}{1.3038 \sqrt{\frac{1}{25} + \frac{1}{25}}}\]

\[= \frac{-0.6}{1.3038 \sqrt{0.08}}\]

\[= \frac{-0.6}{1.3038 (0.2828)}\]

\[= \frac{-0.6}{0.3687} \approx -1.627\]

\(t \approx -1.627\)

Statistik uji t (dibulatkan 3 desimal)

Estimasi p-value:

Rumus p-value untuk two-tailed test:

\(p = 2 \times P(t_{48} \le -1.627)\)

Cara Membaca Tabel \(t\)-Distribution untuk \(df = 48\):
  1. Cari baris sesuai derajat kebebasan (df = 48)
  2. Cari kolom dengan nilai t mendekati \(|t| = 1.627\)
  3. Baca p-value satu sisi (one-tailed) dari kolom terkait
  4. Kalikan dengan 2 untuk p-value dua sisi (two-tailed)
\(df\) \(t_{0.10}\) \(t_{0.05}\) \(t_{0.04}\) \(t_{0.03}\)
40 1.303 1.684 1.738 1.802
45 1.301 1.679 1.733 1.796
48 1.299 1.677 1.730 1.793
50 1.299 1.676 1.729 1.791
Hitung two-tailed p-value
\(p = 2 \times P(t_{48} \le -1.627)\)
\(p = 2 \times 0.055\)
\(p = 0.110\)
Kesimpulan Akhir

\(p\text{-value} = 0.110\)

\(p-value = 0.110\) menunjukkan peluang 11.0% untuk mendapatkan perbedaan rata-rata durasi sesi sebesar 0.6 menit atau lebih ekstrem jika sebenarnya tidak ada perbedaan antara versi A dan B. Karena nilai ini lebih besar dari \(\alpha = 0.05\), hasil uji statistik tidak signifikan pada tingkat kepercayaan 95%.

3.4 Meaning of answer 4

Soal: Tarik Kesimpulan Statistik pada \(\alpha = 0.05\)

Kesimpulan Statistik Uji A/B Testing

Data yang Diketahui:

P-value
0.110
Tingkat Signifikansi (\(\alpha\))
0.05

Aturan Keputusan Statistik:

Jika \(p < \alpha\)
Tolak \(H_0\)

Hasil signifikan secara statistik. Terdapat bukti cukup untuk mendukung \(H_1\).

Jika \(p \ge \alpha\)
Gagal Tolak \(H_0\)

Hasil tidak signifikan secara statistik. Tidak cukup bukti untuk mendukung \(H_1\).

Kesimpulan

GAGAL MENOLAK HIPOTESIS NOL (\(H_0\))

Interpretasi Statistik:

Secara statistik pada tingkat kepercayaan 95% (\(\alpha=0.05\)), tidak ditemukan bukti yang cukup untuk menyimpulkan adanya perbedaan nyata antara rata-rata durasi sesi Versi A (4.8 menit) dan Versi B (5.4 menit). Selisih 0.6 menit yang terlihat dalam sampel dianggap tidak signifikan dan kemungkinan besar hanya disebabkan oleh variasi kebetulan (sampling error), bukan mencerminkan perbedaan sesungguhnya dalam populasi pengguna.

3.5 Meaning of answer 5

Soal 5: Interpretasi Hasil untuk Pengambilan Keputusan Produk

Hasil A/B Testing:

P-value
0.110
Keputusan

Gagal Tolak \(H_0\)
(Tidak Signifikan)

Interpretasi Statistik

Tidak ditemukan cukup bukti untuk menyatakan bahwa ada perbedaan rata-rata durasi sesi yang signifikan antara Versi A (4.8 menit) dan Versi B (5.4 menit). Perbedaan angka ini kemungkinan besar terjadi karena faktor kebetulan (chance), bukan karena perubahan desain yang bermakna.

Rekomendasi Keputusan Produk
1
Pertahankan Versi A

Jika biaya Versi B tinggi

2
Lanjutkan Testing

Dengan sampel lebih besar

Kesimpulan Akhir

Karena Versi B tidak terbukti secara statistik lebih baik (signifikan) daripada Versi A, keputusan paling aman adalah mempertahankan status quo atau melakukan pengujian lebih lanjut sebelum implementasi skala penuh.

4 Case Study Four

Chi-Square Test of Independence

Sebuah perusahaan e-commerce memeriksa apakah jenis perangkat (device) berhubungan dengan preferensi metode pembayaran.

Device / Payment E-Wallet Credit Card Cash on Delivery
Mobile 120 80 50
Desktop 60 90 40

Tugas:

  1. Nyatakan Hipotesis Nol (\(H_0\)) dan Hipotesis Alternatif (\(H_1\)).
  2. Identifikasi uji statistik yang tepat.
  3. Hitung statistik Chi-Square (\(\chi^2\)).
  4. Tentukan p-value pada \(\alpha = 0.05\).
  5. Interpretasikan hasilnya dalam konteks strategi pembayaran digital.

4.1 Meaning of Answer 1

Soal: Rumuskan Hipotesis Nol (\(H_0\)) dan Hipotesis Alternatif (\(H_1\))

Hipotesis untuk Uji Chi-Square Independensi

Langkah pertama dalam menganalisis dua variabel kategorikal adalah merumuskan hipotesis pengujian. Berdasarkan data e-commerce mengenai interaksi antara jenis perangkat dan preferensi metode pembayaran, hipotesis disusun sebagai berikut:

Hipotesis Nol (\(H_0\))
\(O_{ij} = E_{ij}\)

Tidak terdapat hubungan yang signifikan (independen) antara jenis perangkat yang digunakan dengan preferensi metode pembayaran. Perbedaan antara data observasi (\(O\)) dan data harapan (\(E\)) dianggap terjadi hanya karena kebetulan (by chance).

Hipotesis Alternatif (\(H_1\))
\(O_{ij} \neq E_{ij}\)

Terdapat asosiasi atau hubungan yang signifikan (dependen) antara jenis perangkat dengan preferensi metode pembayaran. Perbedaan antara data observasi (\(O\)) dan harapan (\(E\)) menunjukkan pola yang nyata, bukan sekadar kebetulan.

4.2 Meaning of answer 2

Soal: Identifikasi Uji Statistik yang Tepat dan Berikan Alasannya

Uji Chi-Square Independensi (Chi-Square Test of Independence)

\(\displaystyle \chi^2 = \sum \frac{(O_{ij} - E_{ij})^2}{E_{ij}}\)

Alasan Pemilihan Uji Chi-Square Independensi

Jenis Data Kategorikal (Nominal)

Uji ini dipilih karena kedua variabel penelitian bersifat kualitatif. Variabel independen adalah “Jenis Perangkat” (Mobile/Desktop) dan variabel dependen adalah “Metode Pembayaran” (E-Wallet/CC/COD). Tidak ada asumsi distribusi normal yang diperlukan (non-parametrik).

Struktur Data: Tabel Kontingensi

Data disajikan dalam bentuk tabel kontingensi (baris × kolom) yang berisi frekuensi jumlah pengamatan, bukan nilai rata-rata (mean) atau skor individu.

Hipotesis Pengujian

Uji ini sesuai dengan tujuan penelitian untuk memverifikasi apakah distribusi frekuensi observasi (\(O\)) menyimpang secara signifikan dari frekuensi harapan (\(E\)), yang mengindikasikan adanya hubungan antarvariabel.

4.3 Meaning of answer 3

Hitung Statistik Chi-Square dan p-value dengan Menggunakan \(\alpha = 0.05\)

Rumus Chi-Square Test of Independence

\(\displaystyle \chi^2 = \sum \frac{(O_{ij} - E_{ij})^2}{E_{ij}}\)

\(\chi^2\):
Statistik uji Chi-Square
\(O_{ij}\):
Frekuensi observasi di sel (i, j)
\(E_{ij}\):
Frekuensi harapan di sel (i, j)

Tabel Observasi:

Device / Payment E-Wallet Credit Card COD Total Baris
Mobile 120 80 50 250
Desktop 60 90 40 190
Total Kolom 180 170 90 440

Perhitungan Frekuensi Harapan (\(E_{ij}\)):

\(\displaystyle E_{ij} = \frac{(\text{Total Baris}_i) \times (\text{Total Kolom}_j)}{N}\)

Device (i) / Payment (j) Perhitungan Hasil (E)
Mobile - E-Wallet \((250 \times 180) / 440\) 102.27
Mobile - Credit Card \((250 \times 170) / 440\) 96.59
Mobile - COD \((250 \times 90) / 440\) 51.14
Desktop - E-Wallet \((190 \times 180) / 440\) 77.73
Desktop - Credit Card \((190 \times 170) / 440\) 73.41
Desktop - COD \((190 \times 90) / 440\) 38.86

Perhitungan Statistik \(\chi^2\):

Mobile - E-Wallet
\(\frac{(120 - 102.27)^2}{102.27} = {3.074}\)

Mobile - Credit Card
\(\frac{(80 - 96.59)^2}{96.59} = {2.849}\)

Mobile - COD
\(\frac{(50 - 51.14)^2}{51.14} = {0.025}\)

Desktop - E-Wallet
\(\frac{(60 - 77.73)^2}{77.73} = {4.044}\)

Desktop - Credit Card
\(\frac{(90 - 73.41)^2}{73.41} = {3.750}\)

Desktop - COD
\(\frac{(40 - 38.86)^2}{38.86} = {0.033}\)

Total Chi-Square:

\(\chi^2 = 13.775\)

Kesimpulan

Nilai Chi-Square sebesar 13,775 menunjukkan adanya selisih yang besar antara data aktual (\(O\)) dengan data harapan (\(E\)). Angka ini mengindikasikan adanya pola hubungan yang kuat antara jenis perangkat dan metode pembayaran, bukan sekadar kebetulan.

4.4 Meaning of answer 4

Tentukan p-value pada α=0.05

Informasi yang Diperlukan

\(\displaystyle \chi^2_{\text{hitung}} = 13.775\)

Derajat Kebebasan

df = (baris - 1) × (kolom - 1)
= (2 - 1) × (3 - 1) = 2

Tingkat Signifikansi (α)

α = 0.05

Nilai Kritis χ²
χ²kritis(df = 2, α = 0.05)

= 5.991

Penentuan p-value dari Tabel Chi-Square:

\(df\) \(\chi^2\) = 9.210 \(\chi^2\) = 10.597 \(\chi^2\) = 13.815 \(\chi^2\) = 15.201
2 \(p = 0.010\) \(p = 0.005\) \(p = 0.001\) \(p = 0.0005\)
Interpretasi Nilai:
Nilai \(\chi^2_{\text{hitung}} = 13.775\) berada di antara nilai kritis pada tabel untuk \(df = 2\):
  • \(\chi^2 = 13.815\) berkorespondensi dengan p-value = 0.001
  • \(\chi^2 = 15.201\) berkorespondensi dengan p-value = 0.0005

Karena \(13.775 < 13.815\), maka \(p-value < 0.001\).

Perbandingan dengan Nilai Kritis:

Nilai Kritis
5.991
\(\chi^2_{\text{kritis}}(\alpha=0.05, df=2)\)
Nilai Hitung
13.775
\(\chi^2_{\text{hitung}}\)
Kesimpulan Perbandingan

\(\chi^2_{\text{hitung}} (13.775) > \chi^2_{\text{kritis}} (5.991)\)

p-value < 0.001 < \(\alpha\) (0.05)

Kesimpulan p-value

Berdasarkan perhitungan, \(p-value < 0.001\). Karena p-value ini jauh lebih kecil dari tingkat signifikansi \(\alpha = 0.05\), kita memiliki bukti yang sangat kuat untuk menolak hipotesis nol (\(H_0\)). Artinya, terdapat hubungan yang signifikan secara statistik antara jenis perangkat (mobile/desktop) dan preferensi metode pembayaran. Hasil ini mendukung strategi pembayaran digital yang disesuaikan dengan perangkat yang digunakan pelanggan.

4.5 Meaning Of Answer 5

Interpretasi Hasil Chi-Square Test dalam Konteks Strategi Pembayaran Digital

Kesimpulan Statistik yang Diperoleh

\(H_0\) ditolak (\(\chi^2 = 13.775\), \(p < 0.001\), \(df = 2\))

Temuan Utama

Terdapat hubungan yang signifikan secara statistik antara jenis perangkat (device) yang digunakan pelanggan dengan preferensi metode pembayaran mereka. Perbedaan pola penggunaan pembayaran antara pengguna mobile dan desktop bukanlah kebetulan, melainkan menunjukkan preferensi yang berbeda berdasarkan platform.

Analisis Pola Preferensi Berdasarkan Data

Pengguna Mobile

E-Wallet: 120 (Observasi) vs 102.27 (Harapan)
• Kecenderungan lebih tinggi menggunakan E-Wallet (kontribusi χ² = 3.074)
• Penggunaan Credit Card lebih rendah dari yang diharapkan
• COD sesuai dengan ekspektasi

Pengguna Desktop

Credit Card: 90 (Observasi) vs 73.41 (Harapan)
• Kecenderungan kuat menggunakan Credit Card (kontribusi χ² = 3.750)
• Penggunaan E-Wallet lebih rendah dari yang diharapkan
• Pola COD relatif netral

Implikasi untuk Strategi Pembayaran Digital:

1

Personalisasi Pengalaman Pembayaran

Sistem harus otomatis memprioritaskan E-Wallet di mobile dan Credit Card di desktop untuk mempercepat proses checkout.

2

Optimasi Kampanye Pemasaran Digital

Personalisasi promosi harus menonjolkan kemudahan E-Wallet bagi pengguna mobile dan keuntungan Kartu Kredit (seperti keamanan & reward) bagi pengguna desktop.

3

Pengembangan Fitur dan UX/UI

Optimalkan mobile dengan fitur pembayaran satu ketuk E-Wallet, dan perkuat desktop melalui peningkatan keamanan serta verifikasi transaksi Kartu Kredit.

Kesimpulan Strategis

Hasil uji Chi-Square memberikan validasi empiris bagi strategi pembayaran adaptif. Dengan menyelaraskan dominasi E-Wallet pada pengguna mobile dan Kartu Kredit pada desktop, kita mengubah data menjadi keputusan strategis yang efektif meningkatkan konversi, memangkas cart abandonment, dan mengoptimalkan efisiensi operasional

5 Case Study Five

Type I and Type II Errors (Conceptual)

Sebuah startup fintech menguji apakah algoritma pendeteksi penipuan baru dapat mengurangi transaksi penipuan.

\(H_0\): Algoritma baru tidak mengurangi penipuan.
\(H_1\): Algoritma baru mengurangi penipuan.

Tugas:

  1. Jelaskan Type I Error (\(\alpha\)) dalam konteks ini.
  2. Jelaskan Type II Error (\(\beta\)) dalam konteks ini.
  3. Identifikasi error mana yang lebih mahal dari perspektif bisnis.
  4. Diskusikan bagaimana ukuran sampel mempengaruhi Type II Error.
  5. Jelaskan hubungan antara \(\alpha\), \(\beta\), dan statistical power.

5.1 Meaning of answer 1

Soal: Jelaskan Type I Error (\(α\)) dalam konteks ini.

Definisi Type I Error

\(\alpha = P(\text{Tolak } H_0 \mid H_0 \text{ benar})\)

Salah Positif
(False Positive)

\(\alpha\)

Interpretasi dalam Konteks:

Type I Error terjadi ketika sistem mendeteksi transaksi sebagai penipuan padahal sebenarnya legitimate. Artinya, algoritma baru keliru menolak \(H_0\) (menganggap ada penurunan penipuan) padahal sebenarnya algoritma tidak efektif. Ini sama dengan “alarm palsu” yang memblokir transaksi valid pelanggan.

Konsekuensi Bisnis:
  • Pelanggan legitimate diblokir bertransaksi
  • Customer experience buruk → churn rate meningkat
  • Revenue hilang dari transaksi valid yang terblokir
  • Biaya layanan pelanggan meningkat (komplain)
Kesimpulan Type I Error

Dalam konteks deteksi penipuan fintech, Type I Error (\(\alpha\)) merepresentasikan risiko false alarm di mana transaksi legitimate salah diklasifikasikan sebagai penipuan. Karena konsekuensinya terhadap customer experience dan revenue loss, biasanya \(\alpha\) ditetapkan rendah (0.01 atau 0.05) untuk meminimalkan alarm palsu.

5.2 Meaning of answer 2

Jelaskan Type II Error (\(β\)) dalam konteks ini.

Definisi Type II Error

\(\beta = P(\text{Gagal Tolak } H_0 \mid H_1 \text{ benar})\)

Salah Negatif
(False Negative)

\(\beta\)

Interpretasi dalam Konteks:

Type II Error terjadi ketika sistem gagal mendeteksi transaksi penipuan yang sebenarnya terjadi. Artinya, algoritma baru gagal menolak \(H_0\) (menganggap tidak ada penurunan penipuan) padahal sebenarnya algoritma efektif. Ini sama dengan “missed detection” di mana penipuan lolos tanpa terdeteksi.

Konsekuensi Bisnis:
  • Kerugian finansial langsung dari transaksi penipuan
  • Reputasi perusahaan rusak (dianggap tidak aman)
  • Biaya investigasi dan pemulihan fraud
  • Potensi denda regulator dan tuntutan hukum
  • Kehilangan kepercayaan investor dan partner
Kesimpulan Type II Error

Dalam konteks deteksi penipuan fintech, Type II Error (\(\beta\)) merepresentasikan risiko missed fraud di mana transaksi penipuan lolos tanpa terdeteksi. Karena kerugian finansial langsung dan kerusakan reputasi yang besar, perusahaan fintech biasanya berusaha meminimalkan \(\beta\) dengan meningkatkan statistical power melalui sampel yang besar dan algoritma yang sensitif.

5.3 Meaning of answer 3

Identifikasi error mana yang lebih mahal dari perspektif bisnis.

Perbandingan Dampak Ekonomi

Type II Error > Type I Error

Type I Error
(\(\alpha\))
Biaya:

• Loss per transaksi: $100-500
• Customer churn: 10-30%
• CS cost: $50-100 per case
• Reputasi: Medium

Type II Error
(\(\beta\))
Biaya:

• Direct loss: $1,000-50,000
• Investigation: $500-5,000
• Regulatory fine: $10,000+
• Reputasi: Critical

Analisis Komparatif:
Type I Error
• Biaya terbatas
• Dapat dipulihkan
• Lokal impact
Type II Error
• Biaya eksponensial
• Irreversible damage
• Systemic risk

Kesimpulan Bisnis: Error Mana yang Lebih Mahal?

TYPE II ERROR LEBIH MAHAL

Alasan:
1. Financial multiplier effect - satu fraud bisa trigger banyak fraud
2. Regulatory cascade - denda regulator bisa mencapai 10% revenue
3. Brand destruction - kepercayaan sulit dibangun kembali
4. Network effect- partner bisnis menarik diri
5. Investor flight- valuasi perusahaan turun drastis

Rekomendasi Strategis

Untuk startup fintech: Prioritaskan minimisasi Type II Error meski harus toleransi Type I Error lebih tinggi. Lebih baik memiliki beberapa false alarm (pelanggan mengeluh) daripada satu fraud besar lolos (perusahaan bangkrut). Strategi optimal: set \(\alpha\) relatif rendah (0.01-0.05) dan minimalkan \(\beta\) melalui power analysis dan sampel besar.

5.4 Meaning of answer 4

Pengaruh Ukuran Sampel terhadap Type II Error (\(\beta\))

Hubungan Matematis

\(\beta \propto \frac{1}{\sqrt{n}}\)

Ukuran Sampel ↑

\(n ↗\)

Efek pada \(\beta\):

Ketika ukuran sampel (\(n\)) meningkat, Type II Error (\(\beta\)) menurun secara sistemik. Semakin banyak data yang dianalisis, semakin kecil kemungkinan algoritma gagal mendeteksi efek nyata (penurunan penipuan) jika efek tersebut memang ada.

Mekanisme Pengaruh:
  1. Standard Error mengecil: \(SE = \frac{\sigma}{\sqrt{n}}\)
  2. Confidence Interval menyempit: estimasi lebih presisi
  3. Power meningkat: \(Power = 1 - \beta\)
  4. Effect size terdeteksi lebih baik: bahkan untuk efek kecil
  5. Noise berkurang: variasi acak ter-average

Simulasi Dampak Ukuran Sampel pada \(\beta\)

Ukuran Sampel (\(n\)) Type II Error (\(\beta\)) Statistical Power (\(1-\beta\)) Interpretasi
50 0.45 0.55 Risiko tinggi fraud lolos
100 0.30 0.70 Risiko moderate
200 0.15 0.85 Acceptable for fintech
500 0.05 0.95 Ideal untuk fraud detection
Implikasi bagi Startup Fintech

Untuk algoritma deteksi penipuan: Investasi dalam pengumpulan data skala besar (\(n > 500\)) adalah krusial. Setiap penambahan sampel secara eksponensial mengurangi \(\beta\) dan meningkatkan power. Lebih baik mengalokasikan budget untuk data yang lebih banyak daripada mengorbankan deteksi fraud. Rule of thumb: Minimal \(n = 200\) untuk power 0.85, ideal \(n = 500\) untuk power 0.95 dalam konteks fraud detection.

5.5 Meaning of answer 5

Hubungan antara \(\alpha\), \(\beta\), dan Statistical Power

Definisi Ketiga Konsep Kunci

\(Power = 1 - \beta\)

\(\alpha\) (Type I Error)

Nilai tetap: 0.05 atau 0.01

• Ditentukan peneliti sebelum eksperimen
• Tidak bergantung ukuran sampel
• Trade-off langsung dengan \(\beta\)

\(\beta\) (Type II Error)

Dinamis: dipengaruhi banyak faktor

• Berbanding terbalik dengan ukuran sampel
• Berbanding terbalik dengan effect size
• Bergantung pada nilai \(\alpha\)

Statistical Power

Probabilitas deteksi efek

• = \(1 - \beta\)
• Standar minimal 0.80
• Mengukur sensitivitas uji

Hubungan Matematis dan Trade-off
\(\alpha\) meningkat
↑ Risiko False Positive
\(\beta\) menurun
↓ Risiko False Negative

Power (\(1-\beta\)) meningkat ketika:
1. \(\alpha\) lebih besar (tapi risiko ↑)
2. Ukuran sampel (\(n\)) lebih besar
3. Effect size (\(d\)) lebih besar
4. Varians (\(\sigma^2\)) lebih kecil

Hubungan Segitiga: \(\alpha\) - \(\beta\) - Power

\(\alpha\)
\(\beta\)
Power ↑
\(n\)
\(\beta\)
Power ↑
Effect Size ↑
\(\beta\)
Power ↑
Kesimpulan Hubungan
\[Power = 1 - \beta = f(\alpha, n, d, \sigma^2)\]
  • \(\alpha\) dan \(\beta\) berbanding terbalik (trade-off klasik)
  • \(n\) berbanding terbalik dengan \(\beta\) (semakin besar sampel, semakin kecil \(\beta\))
  • Power merupakan fungsi dari ketiga faktor: sensitivitas untuk mendeteksi \(H_1\) jika benar
Implikasi bagi Startup Fintech

Dalam konteks algoritma deteksi penipuan: Set \(\alpha\) rendah (0.01) untuk minimalkan false alarm, lalu optimalkan power melalui \(n\) besar (>500) untuk meminimalkan \(\beta\). Karena Type II Error lebih mahal, prioritas adalah mencapai power tinggi (>0.95) meski dengan \(\alpha\) ketat. Hubungan \(\alpha \uparrow \Rightarrow \beta \downarrow\) menunjukkan trade-off, tapi untuk fintech, solusinya bukan menaikkan \(\alpha\), melainkan menambah \(n\) untuk menurunkan \(\beta\) tanpa kompromi pada \(\alpha\).

6 Case Study Six

P-Value and Statistical Decision Making

Sebuah evaluasi model prediksi churn menghasilkan hasil berikut:

Statistik uji \(= 2.31\)
p-value \(= 0.021\)
Tingkat signifikansi: \(\alpha = 0.05\)

Tugas:

  1. Jelaskan arti dari p-value.
  2. Buat keputusan statistik.
  3. Terjemahkan keputusan tersebut ke dalam bahasa non-teknis untuk manajemen.
  4. Diskusikan risiko jika sampel tidak representatif.
  5. Jelaskan mengapa p-value tidak mengukur ukuran efek (effect size).

6.1 Meaning of answer 1

Jelaskan arti dari p-value.

Definisi p-value

\(p = 0.021\)

Probabilitas
Kebetulan

2.1%

Interpretasi dalam Konteks Churn:

p-value = 0.021 berarti: Jika model prediksi churn sebenarnya tidak efektif (H₀ benar), maka peluang untuk mendapatkan statistik uji sebesar 2.31 atau lebih ekstrem hanyalah 2.1%. Dengan kata lain, hasil ini sangat tidak mungkin terjadi hanya karena kebetulan semata.

Interpretasi dalam Bahasa Sederhana:
  • Bukan peluang H₀ benar (model tidak efektif) = 2.1%
  • Bukan peluang H₁ benar (model efektif) = 97.9%
  • Bukan ukuran seberapa “baik” model prediksi
  • Adalah ukuran ketidakcocokan data dengan asumsi H₀
  • Adalah indikator kekuatan bukti melawan H₀

Analisis p-value = 0.021 pada \(\alpha = 0.05\):

p-value
0.021
Hasil Observasi
\(\alpha\)
0.05
Batas Signifikansi
Kesimpulan Statistik

\(0.021 < 0.05\) → Bukti signifikan

Kesimpulan Interpretasi p-value

p-value = 0.021 menunjukkan bahwa bukti statistik cukup kuat untuk menolak hipotesis bahwa model prediksi churn tidak efektif. Dengan tingkat kepercayaan 95% (\(\alpha=0.05\)), hasil ini signifikan secara statistik. Namun, p-value tidak memberi tahu seberapa besar peningkatan akurasi model atau dampak bisnisnya—hanya menunjukkan bahwa efek yang diamati tidak mungkin terjadi karena kebetulan belaka.

6.2 Meaning of answer 2

Keputusan Statistik Berdasarkan p-value

Data yang Diketahui

\(p = 0.021\), \(\alpha = 0.05\)

Aturan Keputusan

Jika \(p < \alpha\):
→ Tolak \(H_0\)

Jika \(p \ge \alpha\):
→ Gagal Tolak \(H_0\)

Perbandingan Nilai:
0.021
p-value
<
0.05
\(\alpha\)

\(0.021 < 0.05\) → Kondisi terpenuhi

Keputusan Statistik:

TOLAK \(H_0\)

Model prediksi churn secara statistik signifikan efektif

Implikasi Keputusan dalam Konteks Churn:

\(H_0\) Ditolak

“Model prediksi churn tidak efektif” ditolak. Dengan kata lain, terdapat bukti statistik yang cukup untuk menyatakan bahwa model memang memiliki kemampuan prediktif yang nyata.

\(H_1\) Didukung

“Model prediksi churn efektif mengurangi ketidakpastian” didukung. Performa model yang diamati (statistik uji = 2.31) tidak mungkin terjadi hanya karena kebetulan semata.

Kesimpulan Keputusan Statistik

Berdasarkan aturan keputusan statistik baku dengan \(\alpha = 0.05\), karena \(p = 0.021 < 0.05\), maka keputusan yang diambil adalah menolak H₀. Artinya, pada tingkat kepercayaan 95%, terdapat bukti statistik yang cukup untuk menyimpulkan bahwa model prediksi churn memiliki efektivitas yang signifikan secara statistik. Namun, keputusan ini hanya tentang signifikansi statistik, belum menjawab pertanyaan praktis tentang seberapa besar manfaat model atau ROI implementasinya.

6.3 Meaning of answer 3

Terjemahan Hasil Statistik untuk Manajemen Non-Teknis

Transformasi Bahasa Teknis ke Bisnis

“Statistik Signifikan” → “Bukti Nyata”

Bahasa Teknis (Statistik)
  • \(H_0\) ditolak (\(p < 0.05\))
  • Statistik uji = 2.31
  • p-value = 0.021
  • Signifikan pada α = 0.05
  • Power test memadai
Bahasa Bisnis (Manajemen)
  • Model terbukti bekerja
  • Performa di atas rata-rata
  • Hanya 2% kemungkinan salah
  • 95% yakin hasil valid
  • Data cukup untuk simpulan
Pesan Utama untuk CEO/Manajemen:

Berdasarkan evaluasi statistik yang ketat, model prediksi churn kita menunjukkan bukti nyata kemampuan prediktif. Peluang bahwa hasil ini muncul hanya karena kebetulan adalah kurang dari 5% (standar industri). Artinya, kita punya dasar yang kuat untuk mempercayai bahwa model ini memang bisa membantu mengidentifikasi pelanggan yang berisiko churn.

Breakdown Komunikasi untuk Level Manajemen Berbeda:

C

Untuk CEO/Board (30 detik)

“Model prediksi churn kita terbukti efektif dengan tingkat kepercayaan 95%. Ini bukan kebetulan. Rekomendasi: lanjutkan implementasi dan alokasikan budget untuk scaling.”

M

Untuk Head of Marketing/Sales (2 menit)

Model bisa identifikasi pelanggan berisiko churn dengan akurasi statistik signifikan. Tim Anda bisa gunakan ini untuk targeted retention campaign. Contoh: jika model flag 100 pelanggan, ~95 benar berisiko churn. Efektivitas terbukti, bukan tebakan.

F

Untuk Finance/ROI Discussion (1 menit)

Investasi di model AI ini menunjukkan return statistik signifikan. Risiko false positive rendah (<5%). Dengan LTV pelanggan $500, jika model selamatkan 100 pelanggan, ROI = $50,000 vs development cost. Numbers add up.

Kesimpulan Komunikasi Manajemen

Inti pesan untuk manajemen: “Model prediksi churn kita berhasil melewati uji statistik ketat dengan tingkat kepercayaan 95%. Ini bukan hasil random atau tebakanada bukti kuat bahwa model memang bisa prediksi churn. Rekomendasi: lanjutkan implementasi, tapi perlu uji lebih lanjut untuk ukur dampak bisnis sebenarnya (ROI, cost savings). P-value 0.021 = hanya 2% kemungkinan hasil ini kebetulan.” Hindari jargon statistik, fokus pada “bukti kuat”, “tingkat kepercayaan tinggi”, dan “bukan kebetulan”.

6.4 Meaning of answer 4

Diskusikan risiko jika sampel tidak representatif

Risiko Utama

Keputusan statistik yang akurat menjadi tidak berlaku untuk populasi sebenarnya.

Risiko Bisnis

Dampak Langsung:

• Keputusan strategi yang salah untuk retensi pelanggan.
• Alokasi sumber daya (budget, tim, waktu) yang tidak efektif.
• Target intervensi churn menjadi tidak tepat sasaran.

Contoh konkret:

Model mungkin hanya akurat untuk pelanggan usia tertentu yang kebetulan mendominasi sampel. Strategi yang dibuat gagal menjangkau segmen pelanggan lain yang justru memiliki risiko churn tinggi.

Risiko Model

Dampak Teknis:

• Overfitting terhadap pola dalam sampel bias.
• Performa turun drastis saat diterapkan di produksi (real-world data).
• Validitas eksternal dan generalisasi model sangat rendah.

Mengapa p-value bermasalah:

Meskipun p-value = 0.021 signifikan, signifikansi ini hanya mencerminkan hubungan dalam sampel yang bias, bukan hubungan sebenarnya di populasi.

Ilustrasi dampak sampel tidak representatif
Pada evaluasi (sampel)

Statistik uji = 2.31
p-value = 0.021
Akurasi model = 85%
Kesimpulan: Model efektif, signifikan secara statistik.

Di dunia nyata (populasi)

Akurasi sesungguhnya = 62%
Banyak false positive/negative
Kenyataan: Model kurang akurat, strategi retensi gagal.

Akar masalah

Sampel tidak mewakili keragaman populasi pelanggan (usia, wilayah, perilaku, riwayat transaksi). Hasil evaluasi hanya mencerminkan sub-kelompok tertentu, sehingga keputusan berdasarkan p-value menjadi menyesatkan.

Kesimpulan untuk manajemen

Signifikansi p-value hanya valid jika sampel representatif. Tanpa itu, analisis akan bias dan berisiko menyesatkan strategi. Jadi, kualitas sampling sama pentingnya dengan akurasi model itu sendiri.

6.5 Meaning of answer 5

Jelaskan mengapa p-value tidak mengukur ukuran efek (effect size).

Fungsi Dasar Berbeda

P-value mengukur “KEPERCAYAAN” (signifikansi), BUKAN “BESARAN” (magnitude) efek.

P-VALUE

Fungsi Utama:

• Menilai probabilitas data observasi jika H₀ benar.
• Menjawab: “Seberapa ekstrem data ini?”
• Indikator kekuatan bukti statistik melawan \(H_0\).

Keterbatasan:

• Sangat dipengaruhi ukuran sampel (n).
• Tidak memberi besaran dampak praktis.
• Tidak menjawab: “Seberapa penting efek ini?”

EFFECT SIZE

Fungsi Utama:

• Mengukur besaran hubungan atau perbedaan.
• Menjawab: “Seberapa besar dampaknya?”
• Mengkuantifikasi pentingnya praktis.

Metrik Contoh:

• Koefisien regresi (β)
• Odds Ratio (OR)
• Cohen’s d, R²
• Peningkatan akurasi model

Ilustrasi: Mengapa p-value ≠ Effect Size
Skenario A
Efek Kecil, Sampel Besar

Peningkatan akurasi 1%
n = 10.000 pelanggan
p-value bisa sangat kecil (< 0.001)
Signifikan statistik, tapi dampak praktis kecil.

Skenario B
Efek Besar, Sampel Kecil

Peningkatan akurasi 15%
n = 50 pelanggan
p-value bisa besar (> 0.05)
Tidak signifikan statistik, tapi dampak praktis besar.

Inti Permasalahan

P-value bergantung pada ukuran sampel dan variabilitas data, sementara effect size mengukur besaran hubungan yang sebenarnya. Keduanya menjawab pertanyaan yang berbeda.

Kesimpulan untuk Model Prediksi Churn

Nilai \(p = 0,021\) membuktikan signifikansi statistik, namun tidak mencerminkan dampak bisnis nyata. Evaluasi model churn harus mengutamakan ukuran efek seperti ROC-AUC atau peningkatan akurasi untuk mendapatkan gambaran kinerja yang lebih praktis dan informatif.

Referensi

  1. Wickham, H., Çetinkaya-Rundel, M., & Grolemund, G. (2023). R for Data Science (2nd ed.). O’Reilly Media. 
    [Akses Edisi Ke-2 Online]
  2. Rosadi, D. (2023). Analisis Statistika Modern dengan R (Edisi Revisi). Gadjah Mada University Press.
    [Halaman Penerbit UGM Press]
  3. Faisal, M. R. (2022). Seri Belajar Data Science: Klasifikasi dengan Bahasa Pemrograman R. Indonesia.
    [Akses E-Book/Publikasi]