Study Cases

Statistical Inference ~ Week 14

Naisya

Naisya Hafizh Mufidah

NIM = 52250040

Dosen Pengampu = Mr. Bakti Siregar, M.Sc., CDS.

Institut Teknologi Sains Bandung 🔬 Data Science 📈 Basic Statistics


1 Case Study 1

1.1 One-Sample Z-Test (Statistical Hypotheses)

A digital learning platform claims that the average daily study time of its users is 120 minutes. Based on historical records, the population standard deviation is known to be 15 minutes.

A random sample of 64 users shows an average study time of 116 minutes.

\[ \begin{eqnarray*} \mu_0 &=& 120 \\ \sigma &=& 15 \\ n &=& 64 \\ \bar{x} &=& 116 \end{eqnarray*} \]

1.2 Tasks

  1. Formulate the Null Hypothesis (H₀) and Alternative Hypothesis (H₁).
  2. Identify the appropriate statistical test and justify your choice.
  3. Compute the test statistic and p-value using \(\alpha = 0.05\).
  4. State the statistical decision.
  5. Interpret the result in a business analytics context.

2 Jawaban Case 1

Diketahui:

\[ \begin{eqnarray*} \mu_0\text{ (Klaim rata-rata)} &=& 120 \\ \sigma\text{ (Standar deviasi populasi)} &=& 15 \\ n\text{ (Ukuran sampel)} &=& 64 \\ \bar{x}\text{ (Rata-rata sampel)} &=& 116\\ \alpha &=& 0.05 \end{eqnarray*} \]

2.1 Formulate the Null Hypothesis (H₀) and Alternative Hypothesis (H₁)

Null Hypothesis (\(H_0\))

\(H_0\) selalu berisi asumsi platform atau klaim awal yang ingin diuji.

Di soal:

  • Klaim = rata-rata = 120 menit

Jadi:

\[ H_0 : \mu = 120 \] Artinya:

Rata-rata waktu belajar harian pengguna sama dengan 120 menit.

Alternative Hypothesis (\(H_1\))

\(H_1\) adalah kebalikan dari \(H_0\) menunjukkan bahwa klaim tidak benar.

Jadi: \[ H_1 : \mu \neq 120 \] Artinya:

Rata-rata waktu belajar harian pengguna berbeda atau tidak sama dengan 120 menit.

2.2 Identify the appropriate statistical test.

Uji yang tepat menggunakan One-sample Z-test.

Karena:

  • Tujuannya menguji rata-rata satu populasi.
  • Standar deviasi populasi (\(\sigma\)) diketahui.
  • Ukuran sampel cukup besar (\(n = 64 ≥ 30\)).
  • Data berupa numerik (waktu belajar).

2.3 Compute the test statistic and p-value using \(\alpha = 0.05\).

Diketahui:

\[ \begin{eqnarray*} \mu_0\text{ (Klaim rata-rata)} &=& 120 \\ \sigma\text{ (Standar deviasi populasi)} &=& 15 \\ n\text{ (Ukuran sampel)} &=& 64 \\ \bar{x}\text{ (Rata-rata sampel)} &=& 116\\ \alpha &=& 0.05 \end{eqnarray*} \]


  1. Standard Error \[ SE = \frac{\sigma}{\sqrt{n}} = \frac{15}{\sqrt{64}} = 1.875 \]
  2. Z-test \[ Z = \frac{\bar{x}-\mu_0}{\sqrt{n}} = Z=\frac{116-120}{\sqrt{64}} = -2.13 \]
  3. p-value \[ \text{p-value} = 2 \times P(Z > |z|) \] \[ \text{p-value} = 2 \times P(Z > 2.13) \]

Lihat pada tabel Z \[ \text{p-value} = 2 \times 0.0166 = 0.0332 \] \[ \text{p-value} = 0.0332 < \alpha \] \[ \text{p-value} = 0.0332 < 0.05 \]

2.4 State the statistical decision.

\[ \text{p-value} = 0.0332 < \alpha \] \[ 0.0332 < 0.05 = \text{Tolak } H_0 \]

Aturan pengambilan keputusan:

Jika

  • p-value \(<\) \(\alpha\) -> tolak \(H_0.\)

Jika

  • p-value \(\ge\) \(\alpha\) -> jangan tolak \(H_0\)

Karena \(0.0332 < 0.05\), maka hasil pengujian signifikan secara statistik dan hipotesis nol ditolak. Artinya, data sampel memberikan bukti yang cukup untuk menolak klaim awal atau klaim 120 menit tidak didukung oleh data sampel.

2.5 Interpret the result in a business analytics context.

Karena hipotesis nol ditolak, data sampel memberikan bukti bahwa rata-rata waktu belajar aktual pengguna berbeda dari klaim perusahaan bahkan lebih rendah. Dari perspektif business analytics, temuan ini menunjukkan bahwa tingkat keterlibatan pengguna saat ini berada di bawah ekspektasi, sehingga perlu dilakukan evaluasi dan perbaikan strategi untuk meningkatkan keterlibatan pengguna.

3 Case Study 2

3.1 One-Sample T-Test (σ Unknown, Small Sample)

A UX Research Team investigates whether the average task completion time of a new application differs from 10 minutes.

The following data are collected from 10 users:

\[ 9.2,\; 10.5,\; 9.8,\; 10.1,\; 9.6,\; 10.3,\; 9.9,\; 9.7,\; 10.0,\; 9.5 \]

3.2 Tasks

  1. Define H₀ and H₁ (two-tailed).
  2. Determine the appropriate hypothesis test.
  3. Calculate the t-statistic and p-value at \(\alpha = 0.05\).
  4. Make a statistical decision.
  5. Explain how sample size affects inferential reliability.

4 Jawaban Case Study 2

Diketahui:

\[ \begin{eqnarray*} \mu_0\text{ (Klaim awal)} &=& 10 \text{ menit} \\ n\text{ (Ukuran sampel)} &=& 10 \\ \bar{x}\text{ (Rata-rata sampel)} &=& \frac{\sum x_i}{n} \quad = \frac{98.6}{10} = 9.86 \\ \alpha &=& 0.05 \end{eqnarray*} \]

4.1 Define H₀ and H₁ (two-tailed).

Null Hypothesis (\(H_0\)) -> Asumsi awal \[ H_0 : \mu = 10 \] Rata-rata waktu penyelesaian tugas sama dengan 10 menit.

Alternative Hypothesis (\(H_1\)) -> dugaan yang ingin dibuktikan.

Karena disebut two-tailed, artinya:

Kita mengecek apakah lebih besar ATAU lebih kecil dari 10 menit. \[ H_1 : \mu \neq 10 \] Rata-rata waktu penyelesaian tugas berbeda dari 10 menit.

4.2 Determine the appropriate hypothesis test.

Uji yang tepat menngunakan One-Sample t-Test (two-tailed).

Karena:

  • Sampel kecil (\(n = 10\)).
  • Standar deviasi populasi (\(\sigma\)) tidak diketahui.

4.3 Calculate the t-statistic and p-value at \(\alpha = 0.05\).

Diketahui: \[ \begin{eqnarray*} \mu_0\text{ (Klaim awal)} &=& 10 \text{ menit} \\ n\text{ (Ukuran sampel)} &=& 10 \\ \bar{x}\text{ (Rata-rata sampel)} &=& \frac{\sum x_i}{n} \quad = \frac{98.6}{10} = 9.86 \\ \alpha &=& 0.05 \end{eqnarray*} \]


  1. Cari Standar Deviasi Sampel \[ s = \sqrt{\frac{\sum (x_i - \bar{x})^2}{n - 1}} \quad \text{(Standar Deviasi)} \]

\[ \begin{eqnarray*} x_1 - \bar{x} &=& 9.2 - 9.86 = (-0.66)^2 &=& 0.4356 \\ x_2 - \bar{x} &=& 10.5 - 9.86 = (0.64)^2 &=& 0.4096 \\ x_3 - \bar{x} &=& 9.8 - 9.86 = (-0.06)^2 &=& 0.0036 \\ x_4 - \bar{x} &=& 10.1 - 9.86 = (0.24)^2 &=& 0.0576 \\ x_5 - \bar{x} &=& 9.6 - 9.86 = (-0.26)^2 &=& 0.0676 \\ x_6 - \bar{x} &=& 10.3 - 9.86 = (0.44)^2 &=& 0.1936 \\ x_7 - \bar{x} &=& 9.9 - 9.86 = (0.04)^2 &=& 0.0016 \\ x_8 - \bar{x} &=& 9.7 - 9.86 = (-0.16)^2 &=& 0.0256 \\ x_9 - \bar{x} &=& 10.0 - 9.86 = (0.14)^2 &=& 0.0196 \\ x_{10} - \bar{x} &=& 9.5 - 9.86 = (-0.36)^2 &=& 0.1296 \end{eqnarray*} \]

\[ \sum_{i=1}^{10} (x_i - \bar{x})^2 = 1.344 \] \[ \frac{\sum (x_i - \bar{x})^2}{n - 1} = \frac{1.344}{9} \approx 0.1493 \] \[ s = \sqrt{0.1772} \approx 0.386 \] Didapat Standar deviasi sampel = 0.386 menit.

  1. Standard Error \[ SE = \frac{s}{\sqrt{n}} = \frac{0.386}{\sqrt{10}} \approx 0.122 \]

  2. t-test \[ t = \frac{\bar{x} - \mu_0}{\frac{s}{\sqrt{n}}} \] \[ t = \frac{9.86 - 10}{0.122} \] \[ t = \frac{-0.14}{0.122} \approx -1.15 \]

  3. Derajat Bebas (degrees of freedom) \[ df = n - 1 \] \[ df = 10 - 1 \] \[ df = 9 \]

  4. p-value \[ \text{p-value} = 2 \times P(T > |t|) \]

\[ \text{p-value} = 2 \times P(T > |{-1.15}|) \]

\[ \text{p-value} = 2 \times P(T > 1.15) \]

Lihat oada tabel t (two-tailed) \[ \text{p-value} = 2 \times 0.14 = 0.28 \]

\[ \text{p-value} = 0.28 > \alpha \] \[ \text{p-value} = 0.28 > 0.05 \]

4.4 Make a statistical decision.

\[ \text{p-value} = 0.28 > \alpha \] \[ \text{p-value} = 0.28 > 0.05 \]

Aturan pengambilan keputusan:

Jika

  • p-value \(<\) \(\alpha\) -> tolak \(H_0.\)

Jika

  • p-value \(\ge\) \(\alpha\) -> jangan tolak \(H_0\)

Karena \(0.28 > 0.05\), maka gagal menolak \(H_0\) (Fail to Reject the Null Hypothesis). Secara statistik, tidak ada bukti yang cukup bahwa rata-rata waktu penyelesaian tugas berbeda dari 10 menit.

4.5 Explain how sample size affects inferential reliability.

Karena Sampel itu mewakili poupulasi.

Dalam statistik:

  • Populasi -> semua user aplikasi.

  • Sampel -> hanya 10 user yang kita amati.

Semakin sedikit sampel:

  • Semakin besar kemungkinan tidak mewakili kondisi sebenarnya.

Jika sampel kecil, seperti kasus ini (n = 10)

Dampaknya:

  • Standard Error jadi besar -> perkiraan rata-rata kurang presisi.
  • Nilai t jadi kecil -> sulit untuk menolak \(H_0\).
  • Risiko Type II Error lebih besar -> gagal mendeteksi perbedaan padahal perbedaan itu ada, karena data terlalu sedikit.

Jika sampel besar (n = 100 - 500)

Dampaknya:

  • Standard Error mengecil -> estimasi rata-rata lebih akurat.
  • Nilai t lebih stabil.
  • Kesimpulan lebih dapat dipercaya.

Kesimpulan

Ukuran sampel sangat mempengaruhi reliabilitas inferensi statistik. Sampel yang kecil menghasilkan standar error yang lebih besar sehingga estimasi rata-rata menjadi kurang presisi dan uji statistik memiliki daya yang lebih rendah. Akibatnya, perbedaan yang sebenarnya ada dalam populasi bisa tidak terdeteksi. Sebaliknya, sampel yang lebih besar menghasilkan estimasi yang lebih stabil, meningkatkan kekuatan uji, dan membuat kesimpulan statistik lebih dapat dipercaya.

5 Case Study 3

5.1 Two-Sample T-Test (A/B Testing)

A product analytics team conducts an A/B test to compare the average session duration (minutes) between two versions of a landing page.

Version Sample Size (n) Mean Standard Deviation
A 25 4.8 1.2
B 25 5.4 1.4

5.2 Tasks

  1. Formulate the null and alternative hypotheses.
  2. Identify the type of t-test required.
  3. Compute the test statistic and p-value.
  4. Draw a statistical conclusion at \(\alpha = 0.05\).
  5. Interpret the result for product decision-making.

6 Jawaban Case Study 3

Diketahui:

Ada dua kelompok pengguna yang berbeda.

- Version A

\[ \begin{eqnarray*} \sigma\text{ (Standar deviasi)} &=& 1.2 \\ n\text{ (Ukuran sampel)} &=& 25 \\ \bar{x}\text{ (Rata-rata sampel)} &=& 4.8\\ \end{eqnarray*} \]

- Version B \[ \begin{eqnarray*} \sigma\text{ (Standar deviasi)} &=& 1.4 \\ n\text{ (Ukuran sampel)} &=& 25 \\ \bar{x}\text{ (Rata-rata sampel)} &=& 5.4\\ \end{eqnarray*} \]

6.1 Formulate the null and alternative hypotheses.

Null Hypothesis (\(H_0\))

Tidak terdapat perbedaan rata-rata durasi sesi antara pengguna Version A dan Version B. \[ H_0 : \mu_A = \mu_B \]

Alternative Hypothesis (\(H_1\))

Terdapat perbedaan rata-rata durasi sesi antara pengguna Version A dan Version B. \[ H_1 : \mu_A \neq \mu_B \]

6.2 Identify the type of t-test required.

Jenis uji yang digunakan adalah uji t dua sampel independen (independent two-sample t-test).

Karena:

  • Ada dua kelompok yang dibandingkan dan saling independen.
  • Yang dibandingkan adalah nilai rata-rata (mean) -> Rata-rata durasi sesi pengguna
  • Ukuran sampel relatif kecil dan varians populasi tidak diketahui -> Maka digunakan t-test, bukan z-test
  • Hipotesisnya dua arah -> Karena yang diuji adalah berbeda atau tidak, bukan lebih besar/kecil

6.3 Compute the test statistic and p-value.

Menurut literatur statistik, saat kita membandingkan dua rata-rata independen, kita menghitung standard error dari perbedaan mean dengan memasukkan semua varians sampel (satu per kelompok) menjadi satu nilai error total karena kita ingin tahu seberapa besar variabilitas gabungan dari dua sampel itu. Ini penting dalam menghitung t-statistic.

Diketahui:

- Version A

\[ \begin{eqnarray*} \sigma\text{ (Standar deviasi)} &=& 1.2 \\ n\text{ (Ukuran sampel)} &=& 25 \\ \bar{x}\text{ (Rata-rata sampel)} &=& 4.8\\ \end{eqnarray*} \]

- Version B \[ \begin{eqnarray*} \sigma\text{ (Standar deviasi)} &=& 1.4 \\ n\text{ (Ukuran sampel)} &=& 25 \\ \bar{x}\text{ (Rata-rata sampel)} &=& 5.4\\ \end{eqnarray*} \]


  1. Standard Error \[ SE = \sqrt{\frac{s_A^2}{n_A} + \frac{s_B^2}{n_B}} \]

\[ SE = \sqrt{\frac{(1.2)^2}{25} + \frac{(1.4)^2}{25}} \]

\[ SE = \sqrt{0.136} \approx 0.369 \]

  1. t-test \[ t = \frac{\bar{x}_A - \bar{x}_B}{SE} \]

\[ t = \frac{4.8 - 5.4}{0.369} \]

\[ t \approx -1.63 \]

  1. Derajat Bebas (degrees of freedom) \[ df = n_A + n_B - 2 \] \[ df = 25 + 25 - 2 = 48 \]

  2. p-value (two tailed) \[ p\text{-value} = 2 \times P(T_{48} > |t|) \] \[ p\text{-value} = 2 \times P(T_{48} > |-1.63|) \]

Lihat pada tabel t (two-tailed) \[ \text{p-value} = 2 \times 0.055 \] \[ p\text{-value} \approx 0.11 \]

6.4 Draw a statistical conclusion at \(\alpha = 0.05\).

Diketahui: \[ \begin{eqnarray*} \alpha \text{ (Taraf signifikansi)} &=& 0.05 \\ p\text{-value} \approx 0.11 \\ t \approx -1.63 \end{eqnarray*} \]

Aturan pengambilan keputusan:

Jika

  • p-value \(<\) \(\alpha\) -> tolak \(H_0.\)

Jika

  • p-value \(\ge\) \(\alpha\) -> jangan tolak \(H_0\)

Karena \[ 0.11 \ge 0.05 \]

Maka hipotesis nol gagal ditolak.

Pada taraf signifikansi 5%, tidak terdapat cukup bukti statistik untuk menyatakan bahwa rata-rata durasi sesi pengguna pada Version A berbeda secara signifikan dengan Version B.

6.5 Interpret the result for product decision-making.

Dari perspektif product decision-making, hasil uji ini menunjukkan bahwa tidak terdapat bukti statistik yang cukup untuk menyimpulkan bahwa Version B lebih unggul dibandingkan Version A dalam meningkatkan durasi sesi pengguna. Oleh karena itu, keputusan untuk mengganti landing page belum dapat diambil berdasarkan data ini saja.

Rekomendasi produk:

  • Lanjutkan A/B testing dengan lebih banyak pengguna.
  • Atau, lakukan eksperimen lanjutan dengan penyempurnaan di Version B.

7 Case Study 4

7.1 Chi-Square Test of Independence

An e-commerce company examines whether device type is associated with payment method preference.

Device / Payment E-Wallet Credit Card Cash on Delivery
Mobile 120 80 50
Desktop 60 90 40

7.2 Tasks

  1. State the Null Hypothesis (H₀) and Alternative Hypothesis (H₁).
  2. Identify the appropriate statistical test.
  3. Compute the Chi-Square statistic (χ²).
  4. Determine the p-value at \(\alpha = 0.05\).
  5. Interpret the results in terms of digital payment strategy.

8 Jawaban Case 4

8.1 State the Null Hypothesis (H₀) and Alternative Hypothesis (H₁).

Null Hypothesis (H₀) -> Tidak ada hubungan (independen).

  • Jenis device tidak memengaruhi pilihan metode pembayaran.
  • Pengguna Mobile dan Desktop punya preferensi pembayaran yang sama.

Alternative Hypothesis (H₁) -> Ada hubungan (tidak independen).

  • Jenis perangkat berhubungan dengan metode pembayaran yang dipilih.
  • Pengguna Mobile dan Desktop punya pola pembayaran yang berbeda.

8.2 Identify the appropriate statistical test.

Uji yang tepat adalah Chi-Square Test of Independence.

Karena:

  • Data berbentuk kategori.
  • Datanya berupa frekuensi/jumlah.
  • Tujuan analisisnya: Mau tahu ADA HUBUNGAN atau TIDAK antara dua variabel.

8.3 Compute the Chi-Square statistic (χ²).

  1. Data Observasi
Device / Payment E-Wallet Credit Card Cash on Delivery Total per baris
Mobile 120 80 50 250
Desktop 60 90 40 90
Total per kolom 180 170 90 440
  1. Expected Frequency untuk setiap baris.

Rumus: \[ E_{ij} = \frac{(\text{Total baris}_i)(\text{Total kolom}_j)}{\text{Total keseluruhan}} \]

  • Baris Mobile

    • Mobile - E-Wallet \[ E_{mw} = \frac{(250)(180)}{440} = 102.27 \]
    • Mobile - Credit Card \[ E_{mc} = \frac{(250)(170)}{440} = 96.59 \]
    • Mobile - COD \[ E_{mw} = \frac{(250)(90)}{440} = 51.14 \]
  • Baris Desktop

    • Desktop - E-Wallet \[ E_{dw} = \frac{(190)(180)}{440} = 77.73 \]
    • Desktop - Credit Card \[ E_{mw} = \frac{(190)(170)}{440} = 73.41 \]
    • Desktop - COD \[ E_{mw} = \frac{(190)(90)}{440} = 38.86 \]
  1. Chi-Square

Rumus: \[ \chi^2 = \sum \frac{(O - E)^2}{E} \]

Sel O E (O-E)^2/E
Mobile–E-Wallet 120 102.27 3.07
Mobile–Credit Card 80 96.59 2.85
Mobile–COD 50 51.14 0.03
Desktop–E-Wallet 60 77.73 4.04
Desktop–Credit Card 90 73.41 3.75
Desktop–COD 40 38.86 0.03

\[ \chi^2 = 3.07 + 2.85 + 0.03 + 4.04 + 3.75 + 0.03 \] \[ \chi^2 \approx 13.77 \]

Nilai statistik Chi-Square yang diperoleh adalah \(\chi^2 \approx 13.77\).

8.4 Determine the p-value at \(\alpha = 0.05\).

Cari Derajat Bebas (degrees of freedom)

Karena ada:

  • 2 baris (device)
  • 3 kolom (payment)

Maka: \[ df = (r - 1)(c - 1) = (2 - 1)(3 - 1) \] \[ df = 2 \] Nilai Chi-Square

\[ \chi^2 \approx 13.77 \]

Tingkat signifikansi

\[\alpha = 0.05\]

Cara Menentukan p-value

Secara konsep:

p-value = peluang mendapatkan nilai \(χ² ≥ 13.77\) jika \(H_0\) benar. \[ p-value = P(\chi^2_{(df=2)} \ge 13.77) \] Artinya:

Jika sebenarnya tidak ada hubungan antara jenis device dan metode pembayaran,

seberapa besar kemungkinan kita mendapatkan nilai \(\chi^2\) sebesar 13.77 atau lebih?

Lihat pada tabel Chi-Square

Didapat: \[ p-value \approx 0.001 \]

Artinya:

Kalau \(H_0\) benar, peluang mendapatkan data seperti ini hanya sekitar 0.1%. Karena peluangnya sangat kecil, maka lebih masuk akal bahwa memang ada hubungan.

Bandingkan dengan \(\alpha = 0.05\)

\[ p-value = 0.001 < 0.05 \]

\(H_0\) ditolak

Dengan \(\chi^2 = 13.77\) dan derajat kebebasan 2, diperoleh p-value sekitar 0.001. Nilai ini jauh lebih kecil dari \(\alpha = 0.05\), sehingga hipotesis nol ditolak.

8.5 Interpret the results in terms of digital payment strategy.

Keputusan akhir adalah \(H_0\) DITOLAK yang artinya ada hubungan signifikan antara jenis device dan metode pembayaran.

Hasil ini menunjukkan bahwa:

  • Preferensi pembayaran berbeda tergantung device.
  • Fokuskan E-Wallet pada pengguna mobile.
  • Optimalkan Credit Card untuk desktop.
  • Cash on Delivery (COD) bersifat sekunder.

9 Case Study 5

9.1 Type I and Type II Errors (Conceptual)

A fintech startup tests whether a new fraud detection algorithm reduces fraudulent transactions.

  • H₀: The new algorithm does not reduce fraud.
  • H₁: The new algorithm reduces fraud.

9.2 Tasks

  1. Explain a Type I Error (α) in this context.
  2. Explain a Type II Error (β) in this context.
  3. Identify which error is more costly from a business perspective.
  4. Discuss how sample size affects Type II Error.
  5. Explain the relationship between α, β, and statistical power.

10 Jawaban Case 5

  • \(H_0\) = Algoritma baru tidak mengurangi fraud.
  • \(H_1\) = Algoritma baru mengurangi fraud.

10.1 Explain a Type I Error (α) in this context.

Type I Error (\(\alpha\)) terjadi ketika perusahaan menyimpulkan bahwa algoritma deteksi fraud baru berhasil mengurangi transaksi fraud, padahal pada kenyataannya algoritma tersebut tidak memberikan pengurangan fraud yang signifikan.

Jadi, \(H_0\) sebenarnya BENAR, tapi perusahaan menolaknya.

10.2 Explain a Type II Error (β) in this context.

Type II Error (\(\beta\)) terjadi ketika perusahaan menyimpulkan bahwa algoritma deteksi fraud baru tidak mengurangi transaksi fraud, padahal sebenarnya algoritma tersebut efektif dalam menurunkan tingkat fraud.

Jadi, \(H_0\) sebenarnya SALAH, tapi perusahaan tidak menolaknya.

10.3 Identify which error is more costly from a business perspective.

Type I Error

Perusahaan yakin algoritma baru berhasil, padahal sebenarnya tidak.

Dampaknya:

  • Kerugian finansial karena fraud.
  • Reputasi perusahaan turun.
  • Masalah penyesuaian & kepercayaan user.

Type II Error

Algoritma baru sebenarnya bagus, tapi perusahaan mengira tidak efektif.

Dampaknya:

  • Kehilangan peluang menurunkan fraud.
  • Tetap pakai sistem lama.
  • Kerugian masih ada, tapi status quo (tidak ada peningkatan).

Jadi, dari perspektif bisnis, Type I Error lebih mahal dampaknya. Menyimpulkan bahwa algoritma deteksi fraud baru mampu mengurangi fraud, padahal sebenarnya tidak, dapat menyebabkan pengambilan keputusan strategis yang keliru, meningkatnya biaya implementasi, kerugian akibat fraud yang tetap terjadi, serta potensi turunnya kepercayaan pelanggan dan reputasi perusahaan.

10.4 Discuss how sample size affects Type II Error.

Type II Error (\(\beta\)) terjadi ketika:

Algoritma baru sebenarnya berhasil mengurangi fraud, tapi hasil uji statistik menyimpulkan tidak ada pengurangan fraud.

Jika sample size kecil

  • Informasi yang didapat terbatas.
  • Variasi data kelihatan besar.
  • Sulit mendeteksi efek yang sebenarnya ada.
  • Type II Error meningkat.
  • Algoritma yang sebenarnya bagus bisa dianggap gagal.

Jika sample sixe besar

  • Pola lebih jelas.
  • Estimasi lebih stabil.
  • Lebih mudah mendeteksi pengurangan fraud.
  • Type II Error menurun.
  • Peluang menolak \(H_0\) saat \(H_0\) salah jadi lebih besar.

Jadi, ukuran sampel memengaruhi Type II Error. Sampel yang terlalu kecil membuat uji statistik kurang sensitif sehingga meningkatkan kemungkinan menyimpulkan algoritma tidak efektif padahal sebenarnya efektif. Sebaliknya, ukuran sampel yang lebih besar meningkatkan kekuatan uji statistik dan menurunkan peluang terjadinya Type II Error.

10.5 Explain the relationship between α, β, and statistical power.

  • Type I Error (\(\alpha\))

Artinya: risiko menolak \(H_0\) padahal \(H_0\) benar.

  • Type II Error (\(\beta\))

Artinya: risiko gagal menolak \(H_0\) padahal \(H_0\) salah.

  • Statistical Power (\(1-\beta\))

Menunjukkan kemampuan uji statistik mendeteksi efek yang benar-benar ada. Jika power tinggi, maka kecil kemungkinan Type II Error.

Jadi, alpha (\(\alpha\)) adalah peluang melakukan Type I Error, sedangkan beta (\(\beta\)) adalah peluang melakukan Type II Error. Statistical power, yang didefinisikan sebagai \(1 − \beta\), menunjukkan kemampuan uji statistik untuk mendeteksi efek yang sebenarnya ada. Terdapat trade-off antara \(\alpha\) dan \(\beta\), di mana penurunan \(\alpha\) dapat meningkatkan \(\beta\), dan sebaliknya.

11 Case Study 6

11.1 P-Value and Statistical Decision Making

A churn prediction model evaluation yields the following results:

  • Test statistic = 2.31
  • p-value = 0.021
  • Significance level: \(\alpha = 0.05\)

11.2 Tasks

  1. Explain the meaning of the p-value.
  2. Make a statistical decision.
  3. Translate the decision into non-technical language for management.
  4. Discuss the risk if the sample is not representative.
  5. Explain why the p-value does not measure effect size.

12 Jawaban Case 6

Diketahui:

\[ t-test = 2.31\\ p-value = 0.021\\ \alpha = 0,05 \]

12.1 Explain the meaning of the p-value.

Biasanya:

  • \(H_0\) : model churn tidak memberikan perbedaan / tidak lebih baik / tidak signifikan.
  • \(H_1\) : model churn memberikan hasil yang signifikan.

\(p-value = 0.021\) artinya:

Jika sebenarnya model churn tidak memiliki efek / tidak lebih baik (H₀ benar), maka peluang mendapatkan hasil sekuat ini hanyalah 2.1%.

Dengan kata lain:

  • Hasil yang kita dapat cukup jarang terjadi.
  • Data yang muncul tidak masuk akal jika \(H_0\) benar.

12.2 Make a statistical decision.

Diketahui: \[ p-value = 0.021\\ \alpha = 0,05 \]

Aturan pengambilan keputusan:

Jika

  • p-value \(<\) \(\alpha\) -> tolak \(H_0.\)

Jika

  • p-value \(\ge\) \(\alpha\) -> jangan tolak \(H_0\)

Perbandingan

\[ 0.021 < 0.05 \]

Maka tolak \(H_0.\)

Karena p-value lebih kecil dari tingkat signifikansi 0.05, hasil pengujian signifikan secara statistik. Ini berarti terdapat bukti yang cukup untuk menyatakan bahwa performa model churn berbeda secara signifikan dari yang diasumsikan dalam hipotesis nol.

12.3 Translate the decision into non-technical language for management.

Hasil pengujian menunjukkan bahwa model prediksi churn benar-benar memberikan hasil yang nyata dan bukan sekadar kebetulan. Ini berarti model tersebut dapat dipercaya dan layak digunakan untuk mendukung pengambilan keputusan terkait strategi retensi pelanggan.

12.4 Discuss the risk if the sample is not representative.

Risiko jika sampel tidak representatif:

1. Hasil analisis jadi tidak akurat.

Jika sampel tidak representatif, hasil analisis tidak mencerminkan kondisi populasi sebenarnya sehingga kesimpulan yang diambil bisa berbeda dari realitas di lapangan.

2. Keputusan bisnis berisiko salah.

Manajemen dapat mengira model churn sudah efektif, padahal model tersebut hanya bekerja baik pada kelompok pelanggan tertentu dalam sampel.

3. Model tidak akurat saat diterapkan.

Model churn dapat gagal mengenali pola pada segmen pelanggan lain yang tidak terwakili, sehingga prediksi menjadi kurang akurat.

4. Dampak jangka panjang bagi perusahaan.

Penggunaan sampel yang tidak representatif dapat menyebabkan pemborosan biaya, strategi retensi yang tidak tepat sasaran, dan menurunnya kepercayaan pada analisis data.

12.5 Explain why the p-value does not measure effect size.

p-value tidak menunjukkan seberapa besar pengaruh, tapi hanya menunjukkan apakah hasilnya kemungkinan besar terjadi karena kebetulan atau tidak. Nilai p-value bisa kecil hanya karena jumlah data sangat banyak, meskipun pengaruhnya sebenarnya kecil. Sebaliknya, pengaruh yang besar bisa terlihat tidak signifikan kalau datanya sedikit. Jadi, p-value cuma merepresentasikan “ini nyata atau tidak”, bukan “seberapa besar dampaknya”. Untuk tahu besar pengaruhnya, kita perlu ukuran lain, bukan p-value.

13 References

[1] Fitriani, S., Manurung, N. S. B., Anggraini, D. S., & Panggabean, H. S. (2025). Konsep statistika inferensial, hipotesis dan pengujian hipotesis, taraf signifikansi. AURELIA: Jurnal Penelitian dan Pengabdian Masyarakat Indonesia, 4(2), 3478–3490.

[2] LibraTexts. (2024, October 21). The Independent Samples t-Test Equation: Standard error of difference between means. https://stats.libretexts.org/Bookshelves/Introductory_Statistics/Statistics%3A_Open_for_Everyone_%28Peter%29/08%3A_Independent_Samples_t-Tests/8.03%3A_The_Independent_Samples_t-Test_Formula

[3] University of Texas at Austin. (n.d.). Chi-square test of independence. https://sites.utexas.edu/sos/guided/inferential/categorical/chi2/

[4] Sullivan, G. M., & Feinn, R. (2012). Using effect size—or why the p value is not enough. Journal of Graduate Medical Education, 4(3), 279–282. https://doi.org/10.4300/JGME-D-12-00156.1