Statistical Inferences

Assignment Week 14

Ni.MD Aurora Sekarningrum

Mahasiswa Institut Teknologi Sains Bandung

Prodi: Sains Data

NIM: 5225072

Tanggal: 2025-12-07

R Programming
Statistics
Data Science

1 Case Study 1

One-Sample Z-Test (Statistical Hypotheses)

A digital learning platform claims that the average daily study time of its users is 120 minutes. Based on historical records, the population standard deviation is known to be 15 minutes. A random sample of 64 users shows an average study time of 116 minutes.

Data: \[ \begin{align*} \mu_0 &= 120 \\ \sigma &= 15 \\ n &= 64 \\ \bar{x} &= 116 \end{align*} \]

Tasks

  1. Formulate the Null Hypothesis (H₀) and Alternative Hypothesis (H₁).
  2. Identify the appropriate statistical test and justify your choice.
  3. Compute the test statistic and p-value using \(\alpha = 0.05\).
  4. State the statistical decision.
  5. Interpret the result in a business analytics context.

Jawaban

1.1 Formulasi Hipotesis

Platform pembelajaran digital mengklaim bahwa rata-rata waktu belajar harian pengguna adalah 120 menit. Untuk menguji klaim ini, hipotesis statistik dirumuskan sebagai berikut:

  • Hipotesis Nol (H₀): Rata-rata waktu belajar populasi sama dengan 120 menit. \[H_0: \mu = 120\]

  • Hipotesis Alternatif (H₁): Rata-rata waktu belajar populasi berbeda dari 120 menit (uji dua arah). \[H_1: \mu \neq 120\]

Pengujian dua arah digunakan karena tidak ada informasi arah perbedaan yang diharapkan, sehingga kita ingin mendeteksi perbedaan signifikan apakah lebih besar atau lebih kecil dari 120 menit.


1.2 Identifikasi Uji Statistik dan Justifikasi

Uji yang digunakan adalah One-Sample Z-Test. Alasan pemilihan uji ini adalah:

  • Standar deviasi populasi diketahui (\(\sigma = 15\)), yang merupakan syarat utama untuk uji Z.
  • Ukuran sampel cukup besar (\(n = 64 \ge 30\)), sehingga Central Limit Theorem berlaku dan distribusi rata-rata sampel mendekati normal.
  • Tujuan analisis adalah menguji rata-rata populasi tunggal, bukan membandingkan dua kelompok.

Kondisi-kondisi ini memenuhi asumsi yang diperlukan untuk inferensi uji Z yang valid. Dengan demikian, distribusi normal standar (Z-distribution) dapat digunakan secara valid.


1.3 Perhitungan Statistik Uji dan p-value (\(\alpha = 0.05\))

Parameter yang diketahui:

  • \(\mu_0 = 120\) (rata-rata populasi yang dihipotesiskan)
  • \(\sigma = 15\) (standar deviasi populasi)
  • \(n = 64\) (ukuran sampel)
  • \(\bar{x} = 116\) (rata-rata sampel)
  • \(\alpha = 0.05\) (tingkat signifikansi)

3.1 Perhitungan Nilai Z-Statistik

Statistik uji Z dihitung menggunakan rumus: \[Z = \frac{\bar{x} - \mu_0}{\sigma / \sqrt{n}}\]

Keterangan rumus:

  • \(\bar{x}\): rata-rata sampel (116 menit)
  • \(\mu_0\): rata-rata populasi yang dihipotesiskan di bawah H₀ (120 menit)
  • \(\sigma\): simpangan baku populasi (15 menit)
  • \(n\): ukuran sampel (64)

Langkah-langkah perhitungan:

  1. Hitung galat baku (Standard Error/SE): \[SE = \frac{\sigma}{\sqrt{n}} = \frac{15}{\sqrt{64}} = \frac{15}{8} = 1.875\]

  2. Hitung nilai Z-statistik: \[Z = \frac{116 - 120}{1.875} = \frac{-4}{1.875} = -2.13\]

Nilai \(Z = -2.13\) menunjukkan seberapa jauh rata-rata sampel berbeda dari rata-rata populasi dalam satuan galat baku. Semakin besar nilai mutlak Z, semakin kuat bukti menolak H₀.

Perhitungan p-value

p-value merepresentasikan probabilitas memperoleh nilai statistik uji yang sama atau lebih ekstrem dari hasil observasi, dengan asumsi bahwa hipotesis nol (H₀) benar. Karena pengujian yang dilakukan bersifat dua arah, p-value dihitung sebagai dua kali probabilitas satu sisi pada distribusi normal standar.

Secara matematis, p-value dihitung sebagai berikut: \[\text{p-value} = 2 \times P(Z \le -|Z|)\]

Dengan nilai statistik uji \(Z = -2.13\), diperoleh: \[P(Z \le -2.13) \approx 0.0166\]

Sehingga: \[\text{p-value} = 2 \times 0.0166 = 0.0332\]

Nilai p-value sebesar 0.0332 menunjukkan bahwa jika rata-rata waktu belajar populasi benar-benar 120 menit, maka peluang memperoleh rata-rata sampel yang berbeda sebesar atau lebih ekstrem dari hasil observasi relatif kecil.


1.4 Keputusan Statistik

Aturan keputusan yang digunakan adalah: - Jika \(\text{p-value} \le \alpha\), maka hipotesis nol (H₀) ditolak. - Jika \(\text{p-value} > \alpha\), maka hipotesis nol (H₀) gagal ditolak.

Berdasarkan hasil perhitungan diperoleh: - \(\text{p-value} = 0.0332\) - \(\alpha = 0.05\)

Karena \(0.0332 < 0.05\), maka hipotesis nol (H₀) ditolak. Dengan demikian, terdapat bukti statistik yang cukup untuk menyatakan bahwa rata-rata waktu belajar harian pengguna berbeda secara signifikan dari 120 menit pada tingkat signifikansi 5%.


1.5 Interpretasi dalam Konteks Bisnis Analitik

Hasil analisis menunjukkan bahwa klaim platform pembelajaran digital mengenai rata-rata waktu belajar harian sebesar 120 menit tidak didukung oleh data sampel. Rata-rata aktual pengguna tercatat sebesar 116 menit, dan perbedaan ini signifikan secara statistik (\(Z = -2.13\), p-value \(= 0.0332\)).

Dari sudut pandang bisnis, temuan ini mengindikasikan bahwa tingkat engagement pengguna lebih rendah dari target yang ditetapkan manajemen. Selisih sebesar 4 menit (sekitar 3.33%) menjadi relevan apabila klaim rata-rata waktu belajar digunakan sebagai indikator kinerja utama (Key Performance Indicator/KPI) atau sebagai dasar evaluasi performa produk.

Implikasi terhadap keputusan manajemen:

  • Manajemen perlu meninjau kembali klaim dan target engagement yang digunakan dalam pelaporan kinerja.
  • Target KPI berbasis waktu belajar sebaiknya disesuaikan agar selaras dengan perilaku pengguna aktual.
  • Diperlukan analisis lanjutan untuk mengidentifikasi faktor penyebab rendahnya waktu belajar, seperti efektivitas fitur, desain antarmuka, atau pola konsumsi konten.

Rekomendasi berbasis data:

  • Melakukan segmentasi pengguna (misalnya pengguna baru vs pengguna lama).
  • Mengevaluasi fitur pembelajaran untuk mengidentifikasi titik penurunan engagement.
  • Melakukan eksperimen A/B testing untuk menguji intervensi peningkatan waktu belajar.
  • Menyelaraskan kembali KPI engagement dengan temuan empiris dan benchmarking industri.

Kesimpulan bisnis:

Keputusan strategis terkait pengembangan produk dan evaluasi performa sebaiknya didasarkan pada hasil analisis data ini, bukan semata pada klaim historis, agar strategi peningkatan engagement dapat dilakukan secara lebih akurat dan berbasis data.

2 Case Study 2

One-Sample T-Test (σ Unknown, Small Sample)

A UX Research Team investigates whether the average task completion time of a new application differs from 10 minutes. The following data are collected from 10 users:

Data: 9.2, 10.5, 9.8, 10.1, 9.6, 10.3, 9.9, 9.7, 10.0, 9.5

Tasks

  1. Define H₀ and H₁ (two-tailed).
  2. Determine the appropriate hypothesis test.
  3. Calculate the t-statistic and p-value at \(\alpha = 0.05\).
  4. Make a statistical decision.
  5. Explain how sample size affects inferential reliability.

Jawaban

2.1 Formulasi Hipotesis

Tim UX ingin menguji apakah rata-rata waktu penyelesaian tugas pada aplikasi baru berbeda dari 10 menit. Berdasarkan tujuan tersebut, hipotesis statistik dirumuskan sebagai:

  • Hipotesis Nol (H₀): Rata-rata waktu penyelesaian tugas populasi sama dengan 10 menit. \[H_0: \mu = 10\]

  • Hipotesis Alternatif (H₁): Rata-rata waktu penyelesaian tugas populasi berbeda dari 10 menit. \[H_1: \mu \neq 10\]

Karena kata kuncinya adalah “berbeda” (bukan “lebih besar” atau “lebih kecil”), maka digunakan uji dua arah (two-tailed test). Artinya, kita akan menguji apakah rata-rata bisa saja lebih besar atau lebih kecil dari 10 menit.


2.2 Identifikasi Uji Statistik dan Justifikasi

Uji yang digunakan adalah One-Sample t-Test (Student’s t-test).

Alasan pemilihan uji t:

  • Simpangan baku populasi tidak diketahui
    Hanya tersedia data sampel, tidak ada informasi tentang \(\sigma\) populasi.
  • Ukuran sampel kecil
    \(n = 10 < 30\), sehingga kita tidak bisa terlalu mengandalkan pendekatan normal (Z-test) tanpa koreksi.
  • Asumsi distribusi normal
    Waktu penyelesaian tugas diasumsikan berasal dari populasi yang (mendekati) berdistribusi normal, yang cukup wajar untuk variabel waktu dalam konteks UX.

Dalam kondisi ini, t-test satu sampel lebih tepat dibandingkan Z-test, karena:

  • simpangan baku populasi diestimasi dari sampel (\(s\)),
  • distribusi uji mengikuti distribusi t-Student dengan derajat kebebasan \(df = n-1\), yang memiliki ekor lebih berat dan lebih konservatif untuk sampel kecil.

2.3 Perhitungan Statistik Uji t dan p-value (\(\alpha = 0.05\))

  1. Data dan Parameter yang Diketahui

  • Data waktu penyelesaian (menit): 9.2, 10.5, 9.8, 10.1, 9.6, 10.3, 9.9, 9.7, 10.0, 9.5
  • Ukuran sampel: \(n = 10\)
  • Nilai hipotesis: \(\mu_0 = 10\)
  • Tingkat signifikansi: \(\alpha = 0.05\)

  1. Menghitung Rata-rata Sampel

Rata-rata sampel (\(\bar{x}\)): \[\bar{x} = \frac{\sum x_i}{n} = \frac{9.2 + 10.5 + 9.8 + 10.1 + 9.6 + 10.3 + 9.9 + 9.7 + 10.0 + 9.5}{10} = \frac{98.6}{10} = 9.86\]

  1. Menghitung Simpangan Baku Sampel

Rumus simpangan baku sampel: \[s = \sqrt{\frac{\sum (x_i - \bar{x})^2}{n-1}}\] Untuk menghitung simpangan baku sampel, setiap nilai observasi dibandingkan dengan rata-rata sampel (\(\bar{x} = 9.86\)), kemudian selisih tersebut dikuadratkan.

Tabel Perhitungan Selisih Kuadrat:

No \(x_i\) \(x_i - \bar{x}\) \((x_i - \bar{x})^2\)
1 9.2 -0.66 0.4356
2 10.5 0.64 0.4096
3 9.8 -0.06 0.0036
4 10.1 0.24 0.0576
5 9.6 -0.26 0.0676
6 10.3 0.44 0.1936
7 9.9 0.04 0.0016
8 9.7 -0.16 0.0256
9 10.0 0.14 0.0196
10 9.5 -0.36 0.1296
Total 1.344

Sehingga diperoleh: \[\sum (x_i - \bar{x})^2 = 1.344\]

Varians sampel: \[s^2 = \frac{1.344}{n-1} = \frac{1.344}{9} = 0.1493\]

Simpangan baku sampel: \[s = \sqrt{0.1493} \approx 0.3865\]

  1. Menghitung Standard Error (SE)

Standard Error (galat baku rata-rata): \[SE = \frac{s}{\sqrt{n}} = \frac{0.3865}{\sqrt{10}} = \frac{0.3865}{3.1623} \approx 0.1222\]

  1. Menghitung Nilai t-Statistik

Statistik uji t dihitung dengan rumus: \[t = \frac{\bar{x} - \mu_0}{SE}\]

Substitusi nilai: \[t = \frac{9.86 - 10}{0.1222} = \frac{-0.14}{0.1222} \approx -1.146\]

Derajat kebebasan: \[df = n-1 = 10-1 = 9\]

Nilai \(t = -1.146\) menyatakan seberapa jauh rata-rata sampel menyimpang dari nilai hipotesis 10 menit dalam satuan standard error.

  1. Perhitungan p-value

p-value merepresentasikan probabilitas memperoleh nilai statistik uji yang sama atau lebih ekstrem dari hasil observasi, dengan asumsi H₀ benar. Karena uji ini dua arah, p-value dihitung sebagai dua kali probabilitas satu sisi: \[\text{p-value} = 2 \times P(T_9 \leq -|t|)\]

Dengan \(t = -1.146\) dan \(df = 9\):

  • Dari tabel distribusi t atau software statistik: \(P(T_9 \leq -1.146) \approx 0.140\)
  • Maka: \(\text{p-value} \approx 2 \times 0.140 = 0.280\)

Perhitungan lebih presisi (misalnya dengan R: 2*pt(-1.146, 9)) memberikan p-value sekitar 0.281.

Hasil: \(t = -1.146\), \(df = 9\), \(\text{p-value} \approx 0.281\)

p-value sebesar 0.281 berarti: jika rata-rata waktu penyelesaian tugas populasi benar-benar 10 menit, peluang mendapatkan rata-rata sampel yang menyimpang dari 10 menit setidaknya sebesar 0.14 menit (atau lebih ekstrem) adalah sekitar 28.1%.


2.4 Keputusan Statistik

Aturan keputusan: - Jika \(\text{p-value} \leq \alpha\) → Tolak H₀ - Jika \(\text{p-value} > \alpha\) → Gagal menolak H₀

Dengan: - \(\text{p-value} \approx 0.281\) - \(\alpha = 0.05\)

Maka: \[0.281 > 0.05 \quad \Rightarrow \quad \text{Gagal menolak H₀}\]

Keputusan statistik:
Kita gagal menolak hipotesis nol (H₀).

Interpretasi inferensial:
Pada tingkat signifikansi 5% (confidence level 95%), tidak terdapat bukti statistik yang cukup untuk menyimpulkan bahwa rata-rata waktu penyelesaian tugas berbeda secara signifikan dari 10 menit. Selisih antara rata-rata sampel (9.86 menit) dan nilai target (10 menit) masih dapat dijelaskan oleh variasi acak pengambilan sampel.


2.5 Pengaruh Ukuran Sampel terhadap Reliabilitas Inferensial

1. Efek Ukuran Sampel terhadap Standard Error Standard error bergantung langsung pada ukuran sampel: \[SE = \frac{s}{\sqrt{n}}\]

  • Semakin besar \(n\)\(\sqrt{n}\) makin besar → SE makin kecil → estimasi rata-rata makin presisi.
  • Dengan \(n=10\), SE sekitar 0.1222, sehingga deviasi kecil dari 10 menit sulit terdeteksi sebagai signifikan.

2. Implikasi terhadap Uji Hipotesis dan Power

  • Statistical power rendah: Dengan sampel kecil, kemampuan uji untuk mendeteksi perbedaan nyata (effect size kecil–sedang) menjadi terbatas.
  • Dalam kasus ini, selisih 0.14 menit dari target 10 menit relatif kecil terhadap variabilitas data (\(s \approx 0.3865\)), sehingga:
  • t-statistik tidak cukup besar,
  • p-value menjadi tinggi (\(\approx 0.281\)),
  • hasilnya tidak signifikan secara statistik.

Secara praktis, untuk mendeteksi perbedaan yang sangat kecil (misal 0.1–0.2 menit) dengan power yang memadai, biasanya dibutuhkan ukuran sampel yang jauh lebih besar (puluhan hingga ratusan responden), tergantung effect size yang dianggap penting.

3. Implikasi dan Rekomendasi dalam Konteks UX Research Implikasi praktis:

  • Meskipun rata-rata sampel (9.86 menit) sedikit lebih rendah dari 10 menit, hasil ini belum cukup kuat untuk menyatakan bahwa aplikasi secara konsisten lebih cepat dari target 10 menit.
  • Ukuran sampel yang kecil menimbulkan:
    • estimasi rata-rata yang kurang stabil,
    • interval kepercayaan yang lebih lebar,
    • sensitivitas rendah terhadap perubahan kecil pada UX.

Rekomendasi berbasis data:

  1. Perbesar ukuran sampel pada studi lanjutan agar estimasi rata-rata lebih stabil dan power meningkat.
  2. Lakukan power analysis sebelum studi:
    • Tentukan effect size minimum yang bermakna secara UX (misalnya pengurangan 0.3–0.5 menit),
    • Hitung \(n\) yang diperlukan untuk mendeteksi perbedaan tersebut dengan power yang diinginkan (misalnya 80%).
  3. Bedakan antara:
    • signifikansi statistik (berdasarkan p-value),
    • dan signifikansi praktis (apakah selisih waktu penting secara UX atau bisnis, misalnya jika diaplikasikan ke jutaan task).

4. Kesimpulan Ukuran sampel kecil (\(n=10\)) pada studi ini menyebabkan:

  • standard error relatif besar,
  • power uji rendah,
  • dan sensitivitas terbatas terhadap perbedaan rata-rata yang kecil.
Secara statistik, tidak ada bukti kuat bahwa rata-rata waktu penyelesaian tugas berbeda dari 10 menit. Namun, untuk pengambilan keputusan produk jangka panjang, disarankan melakukan studi lanjutan dengan sampel lebih besar agar inferensi lebih reliabel dan keputusan berbasis data menjadi lebih kuat.

3 Case Study 3

Two-Sample T-Test (A/B Testing)

A product analytics team conducts an A/B test to compare the average session duration (minutes) between two versions of a landing page.

Version Sample Size (n) Mean Standard Deviation
A 25 4.8 1.2
B 25 5.4 1.4

Tasks

  1. Formulate the null and alternative hypotheses.
  2. Identify the type of t-test required.
  3. Compute the test statistic and p-value.
  4. Draw a statistical conclusion at \(\alpha = 0.05\).
  5. Interpret the result for product decision-making.

Jawaban

3.1 Formulasi Hipotesis

Berdasarkan konteks A/B testing untuk membandingkan durasi sesi antara dua versi landing page, dirumuskan hipotesis statistik sebagai berikut:

Hipotesis Nol (H₀):
Tidak terdapat perbedaan rata-rata durasi sesi antara versi A dan versi B. \[H_0: \mu_A = \mu_B \quad \text{atau} \quad H_0: \mu_A - \mu_B = 0\]

Hipotesis Alternatif (H₁):
Terdapat perbedaan rata-rata durasi sesi antara versi A dan versi B. \[H_1: \mu_A \neq \mu_B \quad \text{atau} \quad H_1: \mu_A - \mu_B \neq 0\]

Pengujian ini bersifat dua-arah (two-tailed) karena tim produk ingin mengetahui apakah terdapat perbedaan (baik positif maupun negatif) antara kedua versi.


3.2 Identifikasi Jenis Uji t yang Diperlukan

Uji yang Dipilih: Two-Sample Independent t-Test dengan Equal Variance (Pooled Variance)

Justifikasi:

  1. Independent Samples: Pengguna di versi A dan versi B berbeda (tidak berpasangan) – asumsi independensi terpenuhi.

  2. Sample Size: \(n_1 = n_2 = 25\) (\(< 30\)), sehingga pendekatan distribusi normal melalui CLT kurang tepat.

  3. Equal Variance Assumption:

    • \(s_1 = 1.2\), \(s_2 = 1.4\)
    • Rasio varians: \(\frac{1.4^2}{1.2^2} = \frac{1.96}{1.44} = 1.36\)
    • Karena rasio varians \(< 2\), dapat diasumsikan varians homogen (rule of thumb umum).
  4. Parameter yang Diuji: Perbedaan antara dua mean populasi independen.

Alternatif: Jika ingin lebih konservatif, dapat menggunakan Welch’s t-test (unequal variance), tetapi dengan rasio varians 1.36, pooled t-test tetap valid.


3.3 Perhitungan Statistik Uji dan p-value

3.1 Data yang Diketahui

Versi A (Kontrol):

  • Ukuran sampel: \(n_A = 25\)
  • Rata-rata sampel: \(\bar{x}_A = 4.8\)
  • Simpangan baku sampel: \(s_A = 1.2\)
  • Varians sampel: \(s_A^2 = 1.44\)

Versi B (Treatment):

  • Ukuran sampel: \(n_B = 25\)
  • Rata-rata sampel: \(\bar{x}_B = 5.4\)
  • Simpangan baku sampel: \(s_B = 1.4\)
  • Varians sampel: \(s_B^2 = 1.96\)

Tingkat Signifikansi: \(\alpha = 0.05\)

3.2 Perhitungan Pooled Variance

Rumus pooled variance untuk dua sampel independen: \[s_p^2 = \frac{(n_A - 1)s_A^2 + (n_B - 1)s_B^2}{n_A + n_B - 2}\]

Substitusi nilai: \[s_p^2 = \frac{(25-1) \times 1.44 + (25-1) \times 1.96}{25 + 25 - 2}\] \[s_p^2 = \frac{24 \times 1.44 + 24 \times 1.96}{48}\] \[s_p^2 = \frac{34.56 + 47.04}{48} = \frac{81.6}{48} = 1.7\]

Pooled standard deviation: \[s_p = \sqrt{1.7} = 1.3038\]

3.3 Perhitungan Standard Error

Rumus standard error untuk pooled t-test: \[SE = s_p \times \sqrt{\frac{1}{n_A} + \frac{1}{n_B}}\]

Perhitungan: \[SE = 1.3038 \times \sqrt{\frac{1}{25} + \frac{1}{25}}\] \[SE = 1.3038 \times \sqrt{0.04 + 0.04} = 1.3038 \times \sqrt{0.08}\] \[SE = 1.3038 \times 0.2828 = 0.3687\]

3.4 Perhitungan Statistik t

Rumus statistik t untuk pooled two-sample test: \[t = \frac{\bar{x}_B - \bar{x}_A}{SE} = \frac{(\bar{x}_B - \bar{x}_A) - 0}{SE} \quad \text{(dengan H₀: } \mu_B - \mu_A = 0\text{)}\]

Substitusi nilai: \[t = \frac{5.4 - 4.8}{0.3687} = \frac{0.6}{0.3687} = 1.627\]

3.5 Derajat Kebebasan (Degrees of Freedom)

Untuk pooled t-test: \[df = n_A + n_B - 2 = 25 + 25 - 2 = 48\]

3.6 Perhitungan p-value

Untuk uji dua-arah dengan \(df = 48\): \[\text{p-value} = 2 \times P(T_{48} > 1.627)\]

Menggunakan tabel distribusi t atau perangkat lunak statistik:

  • Nilai kritis t untuk df=48:
    • \(t_{0.10} = 1.299\) (luas ekor 0.10)
    • \(t_{0.05} = 1.677\) (luas ekor 0.05)
    • \(t_{0.025} = 2.011\) (luas ekor 0.025)

Karena \(t = 1.627\) berada antara 1.299 dan 1.677: - p-value satu-arah antara 0.05 dan 0.10 - Dengan interpolasi atau software: p-value ≈ 0.110 (dua-arah)

Hasil: \[t = 1.627, \quad df = 48, \quad \text{p-value} \approx 0.110\]


3.4 Kesimpulan Statistik

Berdasarkan hasil perhitungan dengan tingkat signifikansi \(\alpha = 0.05\):

Keputusan Statistik:
Kita gagal menolak hipotesis nol (H₀) karena \(\text{p-value} (0.110) > \alpha (0.05)\).

Interpretasi Statistik:
Pada tingkat kepercayaan 95%, tidak terdapat cukup bukti statistik untuk menyimpulkan bahwa terdapat perbedaan signifikan dalam rata-rata durasi sesi antara landing page versi A dan versi B. Perbedaan observasi sebesar 0.6 menit dapat dijelaskan oleh variasi sampling acak.


3.5 Interpretasi untuk Pengambilan Keputusan Produk

Berdasarkan hasil uji statistik, tidak terdapat perbedaan yang signifikan secara statistik antara rata-rata durasi sesi pengguna pada landing page versi A dan versi B (\(\text{p-value} = 0.110 > 0.05\)). Meskipun secara deskriptif versi B memiliki rata-rata durasi sesi yang lebih tinggi (5.4 menit dibandingkan 4.8 menit), perbedaan tersebut masih dapat dijelaskan oleh variasi acak dalam sampel.

Dari perspektif produk, hasil ini menunjukkan bahwa belum terdapat bukti yang cukup kuat untuk menyatakan versi B secara meyakinkan lebih unggul dibandingkan versi A. Oleh karena itu, keputusan untuk mengganti versi A dengan versi B sebaiknya ditunda hingga diperoleh data tambahan, misalnya melalui:

  • Peningkatan ukuran sampel
  • Evaluasi metrik lain seperti conversion rate dan bounce rate
  • Analisis lebih mendalam terhadap segmentasi pengguna

Hal ini agar keputusan produk yang diambil lebih berbasis bukti dan minim risiko.

4 Case Study 4

Chi-Square Test of Independence

An e-commerce company examines whether device type is associated with payment method preference.

Device / Payment E-Wallet Credit Card Cash on Delivery Mobile 120 80 50 Desktop 60 90 40

Tasks

  1. State the Null Hypothesis (H₀) and Alternative Hypothesis (H₁).
  2. Identify the appropriate statistical test.
  3. Compute the Chi-Square statistic (χ²).
  4. Determine the p-value at α=0.05.
  5. Interpret the results in terms of digital payment strategy.

Jawaban

4.1 Formulasi Hipotesis

Sebuah perusahaan e-commerce ingin menguji apakah jenis perangkat (device type) berhubungan dengan preferensi metode pembayaran pengguna.

Hipotesis Nol (H₀): Tidak terdapat hubungan (asosiasi) antara jenis perangkat dan metode pembayaran; device type dan payment method saling independen. \[H_0: \text{Device type dan payment method adalah independen}\]

Hipotesis Alternatif (H₁): Terdapat hubungan (asosiasi) antara jenis perangkat dan metode pembayaran; device type dan payment method tidak independen. \[H_1: \text{Device type dan payment method tidak independen}\]

Pengujian ini bersifat non-directional karena hanya menguji ada atau tidaknya hubungan antara kedua variabel, tanpa memperhatikan arah hubungan tertentu.


4.2 Identifikasi Uji Statistik dan Justifikasi

Uji yang digunakan: Chi-Square Test of Independence.

Justifikasi pemilihan uji:

  • Kedua variabel bersifat kategorik/nominal:
    • Device type: Mobile, Desktop
    • Payment method: E-Wallet, Credit Card, Cash on Delivery
  • Data disajikan dalam bentuk tabel kontingensi 2 × 3.
  • Tujuan analisis adalah menguji ada tidaknya hubungan/ketergantungan antara dua variabel kategorik.
  • Ukuran sampel cukup besar dan frekuensi harapan setiap sel > 5, sehingga asumsi uji Chi-Square terpenuhi.

Dengan demikian, Chi-Square Test of Independence merupakan uji yang tepat untuk kasus ini.


4.3 Perhitungan Statistik Uji dan p-value (\(\alpha = 0.05\))

3.1 Frekuensi Observasi (Observed Frequencies, O)

Device / Payment E-Wallet Credit Card Cash on Delivery Total
Mobile 120 80 50 250
Desktop 60 90 40 190
Total 180 170 90 440

3.2 Frekuensi Harapan (Expected Frequencies, E)

Rumus frekuensi harapan setiap sel: \[E_{ij} = \frac{(\text{Total Baris}_i) \times (\text{Total Kolom}_j)}{\text{Total Keseluruhan}}\]

Perhitungan (dibulatkan 2 desimal): • Mobile & E-Wallet: \[E_{11} = \frac{250 \times 180}{440} = 102.27\] • Mobile & Credit Card: \[E_{12} = \frac{250 \times 170}{440} = 96.59\] • Mobile & COD: \[E_{13} = \frac{250 \times 90}{440} = 51.14\] • Desktop & E-Wallet: \[E_{21} = \frac{190 \times 180}{440} = 77.73\] • Desktop & Credit Card: \[E_{22} = \frac{190 \times 170}{440} = 73.41\] • Desktop & COD: \[E_{23} = \frac{190 \times 90}{440} = 38.86\]

Tabel frekuensi harapan:

Device / Payment E-Wallet Credit Card Cash on Delivery
Mobile 102.27 96.59 51.14
Desktop 77.73 73.41 38.86

Semua nilai \(E > 5\), sehingga asumsi minimum expected frequency terpenuhi.

3.3 Menghitung Statistik Chi-Square

Rumus statistik uji: \[\chi^2 = \sum \frac{(O - E)^2}{E}\]

Kontribusi tiap sel (dibulatkan): • Mobile – E-Wallet: \[\frac{(120 - 102.27)^2}{102.27} \approx 3.07\] • Mobile – Credit Card: \[\frac{(80 - 96.59)^2}{96.59} \approx 2.85\] • Mobile – COD: \[\frac{(50 - 51.14)^2}{51.14} \approx 0.03\] • Desktop – E-Wallet: \[\frac{(60 - 77.73)^2}{77.73} \approx 4.04\] • Desktop – Credit Card: \[\frac{(90 - 73.41)^2}{73.41} \approx 3.75\] • Desktop – COD: \[\frac{(40 - 38.86)^2}{38.86} \approx 0.03\]

Total: \[\chi^2 = 3.07 + 2.85 + 0.03 + 4.04 + 3.75 + 0.03 = 13.77\]

3.4 Derajat Kebebasan

\[df = (r - 1)(c - 1) = (2 - 1)(3 - 1) = 2\]

Jadi, \(\chi^2_{\text{hitung}} = 13.77\) dengan \(df = 2\).


4.4 Keputusan Statistik

Berdasarkan distribusi Chi-Square dengan derajat kebebasan \(df = 2\), nilai statistik uji yang diperoleh adalah: \[\chi^2 = 13.77\]

Nilai ini menghasilkan p-value < 0.01, yang berarti probabilitas memperoleh nilai Chi-Square sebesar atau lebih ekstrem dari 13.77, jika hipotesis nol benar, sangat kecil.

Karena p-value < α = 0.05, maka keputusan statistik adalah: Menolak hipotesis nol (H₀).

Dengan demikian, terdapat bukti statistik yang signifikan bahwa jenis perangkat dan metode pembayaran tidak bersifat independen.


4.5 Interpretasi dalam Konteks Bisnis Analitik

Hasil uji Chi-Square menunjukkan adanya hubungan yang signifikan antara jenis perangkat dan preferensi metode pembayaran \((\chi^2 = 13.77, df = 2, p < 0.01)\). Artinya, pola pemilihan metode pembayaran berbeda antara pengguna mobile dan desktop.

Secara praktis, pengguna mobile lebih cenderung menggunakan E-Wallet, sedangkan pengguna desktop lebih sering menggunakan Credit Card. Temuan ini mengindikasikan bahwa preferensi pembayaran dipengaruhi oleh konteks perangkat yang digunakan.

Implikasi bisnis: Perusahaan e-commerce disarankan untuk mengoptimalkan strategi pembayaran berdasarkan device, misalnya dengan menonjolkan E-Wallet pada tampilan mobile dan mengoptimalkan pengalaman pembayaran kartu kredit pada desktop. Pendekatan ini berpotensi meningkatkan kelancaran proses checkout, conversion rate, dan kepuasan pengguna.

5 Case Study 5

Type I and Type II Errors (Conceptual)

A fintech startup tests whether a new fraud detection algorithm reduces fraudulent transactions.

  • H₀: The new algorithm does not reduce fraud.
  • H₁: The new algorithm reduces fraud.

Tasks

  1. Explain a Type I Error (α) in this context.
  2. Explain a Type II Error (β) in this context.
  3. Identify which error is more costly from a business perspective.
  4. Discuss how sample size affects Type II Error.
  5. Explain the relationship between α, β, and statistical power.

Jawaban

5.1 Type I Error (α) dalam Konteks Algoritma Fraud

Type I Error (α) terjadi ketika hipotesis nol ditolak, padahal hipotesis nol tersebut sebenarnya benar.

Dalam konteks studi kasus ini:

  • Hipotesis nol (H₀): Algoritma baru tidak mengurangi tingkat fraud.
  • Type I Error: Perusahaan menyimpulkan bahwa algoritma baru efektif mengurangi fraud, padahal secara nyata tidak ada penurunan fraud yang signifikan.

Implikasi bisnis:

  • Perusahaan mengadopsi algoritma baru yang sebenarnya tidak memberikan peningkatan performa.
  • Terjadi pemborosan sumber daya, termasuk biaya pengembangan, implementasi, dan pemeliharaan sistem.
  • Muncul false sense of security, di mana manajemen merasa sistem sudah lebih aman, padahal risiko fraud masih tetap tinggi.

Nilai α (misalnya 0.05) merepresentasikan tingkat risiko yang secara sadar diterima perusahaan untuk melakukan kesalahan jenis ini.


5.2 Type II Error (β) dalam Konteks Algoritma Fraud

Type II Error (β) terjadi ketika hipotesis nol gagal ditolak, padahal hipotesis nol tersebut sebenarnya salah.

Dalam studi kasus ini:

  • Hipotesis alternatif (H₁): Algoritma baru benar-benar mengurangi fraud.
  • Type II Error: Perusahaan menyimpulkan bahwa algoritma baru tidak efektif, padahal algoritma tersebut sebenarnya mampu menurunkan tingkat fraud.

Implikasi bisnis:

  • Algoritma yang potensial tidak diimplementasikan.
  • Perusahaan kehilangan peluang untuk menurunkan kerugian finansial akibat fraud.
  • Risiko reputasi meningkat karena fraud tetap terjadi.
  • Startup berpotensi tertinggal dari kompetitor yang berhasil mengadopsi teknologi deteksi fraud yang lebih efektif.

Secara formal, β adalah probabilitas terjadinya Type II Error, sedangkan statistical power = 1 − β.


5.3 Kesalahan Mana yang Lebih Mahal dari Perspektif Bisnis?

Dalam konteks fraud detection di industri fintech, Type II Error umumnya lebih mahal dibandingkan Type I Error.

Perbandingan konsekuensi:

  • Type I Error: Kerugian bersifat internal dan relatif terbatas (biaya implementasi sistem yang tidak optimal).
  • Type II Error: Kerugian bersifat eksternal dan berulang, meliputi kerugian finansial akibat fraud, risiko regulasi, serta penurunan kepercayaan pengguna.

Karena dampak fraud bersifat kumulatif dan jangka panjang, kegagalan mendeteksi algoritma yang sebenarnya efektif dapat menimbulkan kerugian yang jauh lebih besar bagi perusahaan.


5.4 Pengaruh Ukuran Sampel terhadap Type II Error (β)

Ukuran sampel memiliki pengaruh langsung terhadap probabilitas terjadinya Type II Error.

Secara konseptual:

  • Ukuran sampel kecil → standar error besar → β tinggi → power rendah.
  • Ukuran sampel besar → standar error lebih kecil → β menurun → power meningkat.

Secara statistik, peningkatan ukuran sampel menurunkan standard error, sehingga perbedaan antara kondisi H₀ dan H₁ menjadi lebih mudah terdeteksi.

Implikasi praktis: Perusahaan fintech perlu memastikan ukuran sampel yang memadai sebelum menyimpulkan bahwa algoritma baru tidak efektif, guna menghindari penolakan solusi yang sebenarnya menguntungkan.


5.5 Hubungan antara α, β, dan Statistical Power

Ketiga konsep ini saling berkaitan dalam desain uji statistik:

  • α: Probabilitas melakukan Type I Error.
  • β: Probabilitas melakukan Type II Error.
  • Statistical Power: \[\text{Power} = 1 - \beta\]

Trade-off utama: Dengan ukuran sampel dan effect size yang tetap, menurunkan α (uji lebih konservatif) cenderung meningkatkan β. Oleh karena itu, peningkatan power paling efektif dicapai dengan meningkatkan ukuran sampel, bukan sekadar mengubah α.

Dalam konteks fintech: Perusahaan sering memilih nilai α moderat (misalnya 0.05) dengan target power tinggi (≥ 0.80), agar risiko menolak algoritma yang sebenarnya efektif dapat diminimalkan tanpa mengorbankan validitas statistik.

6 Case Study 6

P-Value and Statistical Decision Making

A churn prediction model evaluation yields the following results:

  • Test statistic = 2.31
  • p-value = 0.021
  • Significance level: α=0.05

Tasks

  1. Explain the meaning of the p-value.
  2. Make a statistical decision.
  3. Translate the decision into non-technical language for management.
  4. Discuss the risk if the sample is not representative.
  5. Explain why the p-value does not measure effect size.

Jawaban

6.1 Pengertian P-Value

P-value adalah probabilitas memperoleh hasil sampel yang sama ekstremnya atau lebih ekstrem daripada hasil yang diamati, dengan asumsi bahwa hipotesis nol (H₀) benar. Secara formal, p-value dapat dituliskan sebagai: \[\text{p-value} = P(\text{Test Statistic} \ge t_{\text{observed}} \mid H_0 \text{ benar})\]

Keterangan:

  • \(t_{\text{observed}}\) adalah nilai statistik uji yang diperoleh dari data sampel.
  • \(H_0\) adalah hipotesis nol.

Dalam konteks churn prediction model, p-value sebesar 0.021 berarti bahwa jika model churn sebenarnya tidak lebih baik daripada baseline (H₀ benar), maka probabilitas untuk mendapatkan hasil sebaik ini atau lebih ekstrem hanyalah 2.1%.

Perlu ditekankan bahwa:

  • P-value bukan probabilitas bahwa H₀ benar.
  • P-value bukan ukuran besarnya efek.
  • P-value digunakan sebagai dasar pengambilan keputusan statistik dengan membandingkannya terhadap tingkat signifikansi (\(\alpha\)).

6.2 Keputusan Statistik

Aturan keputusan statistik:

  • Jika p-value \(\le \alpha\), maka tolak H₀.
  • Jika p-value \(> \alpha\), maka gagal menolak H₀.

Data yang diberikan:

  • p-value = 0.021
  • Tingkat signifikansi: \(\alpha = 0.05\)

Karena: \[0.021 < 0.05\]

Keputusan statistik: Hipotesis nol (H₀) ditolak pada tingkat signifikansi 5%.

Interpretasi statistik: Terdapat bukti statistik yang cukup untuk menyimpulkan bahwa model prediksi churn memiliki kinerja yang secara signifikan berbeda dari baseline.


6.3 Terjemahan Keputusan untuk Manajemen (Bahasa Non-Teknis)

Dalam bahasa yang lebih sederhana untuk pihak manajemen: “Hasil evaluasi menunjukkan bahwa model prediksi churn yang diuji memberikan performa yang meyakinkan. Kemungkinan hasil sebaik ini muncul hanya karena kebetulan sangat kecil, yaitu sekitar 2 dari 100 percobaan.”

“Dengan tingkat keyakinan standar industri sebesar 95%, model ini dapat dianggap lebih baik dibandingkan pendekatan sebelumnya. Model tersebut layak dipertimbangkan untuk implementasi lebih luas, dengan tetap melakukan pemantauan performa pada data baru.”


6.4 Risiko Jika Sampel Tidak Representatif

Konsep Representativitas Sampel

Sampel dikatakan representatif apabila karakteristiknya mencerminkan populasi secara proporsional, termasuk:

  • Demografi pengguna,
  • Periode waktu pengambilan data,
  • Pola penggunaan,
  • Segmentasi perilaku pelanggan.

Risiko yang Muncul

Beberapa risiko utama apabila sampel tidak representatif antara lain:

a. Selection Bias atau Temporal Bias Misalnya, sampel hanya diambil dari pengguna aktif atau dari periode tertentu (seperti masa promosi). Akibatnya, model tampak akurat pada sampel, tetapi gagal digeneralisasikan ke populasi yang lebih luas.

b. Survivorship Bias Jika data hanya mencakup pelanggan yang masih aktif dan mengabaikan pelanggan yang sudah churn, maka faktor-faktor risiko churn cenderung diremehkan.

Implikasi terhadap Keputusan Bisnis

Apabila sampel tidak representatif:

  • External validity menjadi lemah, sehingga performa pada sampel tidak mencerminkan performa pada populasi.
  • P-value yang signifikan dapat bersifat menyesatkan.
  • Keputusan bisnis yang diambil berisiko salah sasaran, seperti investasi pada model yang tidak efektif atau menimbulkan kerugian finansial.

Sebagai ilustrasi, apabila churn rate pada sampel adalah 5% sementara churn rate populasi sebenarnya 10%, maka model akan memberikan estimasi yang terlalu optimistis dan berpotensi gagal saat diterapkan secara nyata.


6.5 Mengapa P-Value Tidak Mengukur Effect Size

P-value hanya mengukur probabilitas memperoleh hasil ekstrem jika H₀ benar, sehingga menjawab pertanyaan “apakah terdapat efek?”. Namun, p-value tidak memberikan informasi mengenai besarnya efek tersebut.

Beberapa alasan utama:

  • P-value sangat dipengaruhi oleh ukuran sampel; dengan sampel yang besar, efek yang sangat kecil sekalipun dapat menghasilkan p-value yang signifikan.
  • Dua studi dapat memiliki p-value yang sama kecil, tetapi memiliki dampak praktis yang sangat berbeda.

Sebaliknya, effect size mengukur “seberapa besar perbedaan atau pengaruh yang terjadi”. Contoh ukuran effect size yang umum digunakan meliputi:

  • Cohen’s d,
  • Peningkatan akurasi,
  • AUC improvement,
  • Lift atau gain dalam konteks model prediksi.

Dalam konteks bisnis, effect size jauh lebih relevan karena berkaitan langsung dengan pertanyaan seperti:

  • Apakah peningkatan performa model cukup besar untuk menutupi biaya implementasi?
  • Seberapa besar dampak finansial yang dihasilkan?

Oleh karena itu, pelaporan hasil analisis yang baik sebaiknya mencakup p-value untuk signifikansi statistik dan effect size untuk signifikansi praktis, sehingga keputusan yang diambil menjadi lebih seimbang dan informatif.

7 References

Dscience Labs. (n.d.). Introduction to statistics: Statistical inference. Bookdown.
https://bookdown.org/dsciencelabs/intro_statistics/09-Statistical_Inference.html

NCSS, LLC. (n.d.). One-sample Z-tests (PASS documentation) [PDF].
https://www.ncss.com/wp-content/themes/ncss/pdf/Procedures/PASS/One-Sample_Z-Tests.pdf

Bewick, V., Cheek, L., & Ball, J. (2004). The chi-square test. Emergency Medicine Journal, 21(2), 111–116.
https://pmc.ncbi.nlm.nih.gov/articles/PMC3900058/

Quality Gurus. (2023, Desember 11). One sample Z hypothesis test.
https://www.qualitygurus.com/one-sample-z-hypothesis-test/

Julius.ai. (2025, Januari 29). One sample t-test: Definition and guide.
https://julius.ai/articles/one-sample-t-test-definition-and-guide

Kameleoon. (2024, April 8). What are Type I and Type II errors?
https://www.kameleoon.com/blog/what-are-type-i-and-type-ii-errors