Assigment ~ week 14

STUDY CASE

Refantanur_Sains Data

SAINS DATA ~ ITSB

R PROGRAMING


1 STUDY CASE 1


1.1 One-Sample Z-Test (Statistical Hypotheses)

A digital learning platform claims that the average daily study time of its users is 120 minutes. Based on historical records, the population standard deviation is known to be 15 minutes.

A random sample of 64 users shows an average study time of 116 minutes.

\[\begin{aligned} \mu_0 &= 120 \\ \sigma &= 15 \\ n &= 64 \\ \bar{x} &= 116 \end{aligned}\]

1.2 Tasks

  1. Formulate the Null Hypothesis (H₀) and Alternative Hypothesis (H₁).

  2. Identify the appropriate statistical test and justify your choice.

  3. Compute the test statistic and p-value using α=0.05.

  4. State the statistical decision.

  5. Interpret the result in a business analytics context.


ANSWER:


1. Hipotesis Statistik

  • Null Hypothesis (\(H_0\)): \(\mu = 120\) (Rata-rata waktu belajar pengguna sama dengan 120 menit).

  • Alternative Hypothesis (\(H_1\)): \(\mu \neq 120\) (Rata-rata waktu belajar pengguna tidak sama dengan 120 menit). Ini adalah uji dua arah (two-tailed).

2. Identifikasi Uji Statistik

Uji yang digunakan adalah One-Sample Z-Test. Justifikasi:

  • Ukuran sampel cukup besar (\(n = 64 \geq 30\)).

  • Standar deviasi populasi (\(\sigma\)) diketahui secara eksplisit (15 menit).

Alasan saya:

2.1 Parameter Populasi Diketahui (\(\sigma\))

Dalam soal disebutkan: “the population standard deviation is known to be 15 minutes”.

Jika kita mengetahui standar deviasi dari seluruh populasi (\(\sigma\)), kita tidak perlu mengestimasi sebaran data menggunakan distribusi-t (Student’s t-distribution). Distribusi Z (Normal Standar) adalah distribusi yang tepat digunakan ketika parameter populasi sudah pasti.

2.2 Teorema Limit Pusat (Central Limit Theorem)

Ukuran sampel dalam studi kasus ini adalah \(n = 64\).

Berdasarkan Central Limit Theorem (CLT), jika ukuran sampel cukup besar (biasanya \(n \geq 30\)), maka distribusi rata-rata sampel akan mendekati distribusi normal, terlepas dari bagaimana bentuk distribusi populasinya. Karena \(64 > 30\), maka penggunaan Z-test sangat valid secara matematis.

3. Perhitungan Statistik

Standard Error (\(SE\)):

\[SE = \frac{\sigma}{\sqrt{n}} = \frac{15}{\sqrt{64}} = \frac{15}{8} = 1.875\] Z-score (\(Z_{stat}\)):

\[Z = \frac{\bar{x} - \mu_0}{SE} = \frac{116 - 120}{1.875} = -2.133\] P-value: Menggunakan tabel Z untuk \(Z = -2.133\) (dua arah), maka \(p \approx 0.0329\).

4. Keputusan Statistik

Pada tingkat signifikansi \(\alpha = 0.05\):

  • Karena p-value (0.0329) < 0.05, maka kita Tolak \(H_0\).
  • Secara visual, \(Z_{stat} (-2.133)\) berada di luar area penerimaan (karena batas kritis untuk \(\alpha=0.05\) adalah \(\pm 1.96\)).

5. Interpretasi

Data menunjukkan bukti yang cukup untuk menyatakan bahwa klaim platform digital tersebut tidak akurat. Secara nyata, rata-rata waktu belajar pengguna (116 menit) secara signifikan lebih rendah daripada yang diklaim (120 menit). Platform mungkin perlu mengevaluasi kembali strategi keterlibatan (engagement) pengguna mereka.


2 STUDY CASE 2


2.1 One-Sample T-Test (σ Unknown, Small Sample)

A UX Research Team investigates whether the average task completion time of a new application differs from 10 minutes.

The following data are collected from 10 users:

9.2, 10.5, 9.8, 10.1, 9.6, 10.3, 9.9, 9.7, 10.0, 9.5

2.2 Tasks

  1. Define H₀ and H₁ (two-tailed).

  2. Determine the appropriate hypothesis test.

  3. Calculate the t-statistic and p-value at α=0.05.

  4. Make a statistical decision.

  5. Explain how sample size affects inferential reliability.


ANSWER:


1. Hipotesis (\(H_0\) dan \(H_1\))

Karena kita ingin menguji apakah rata-rata berbeda dari 10 menit (dua arah), maka:

  • \(H_0\) (Hipotesis Nol): \(\mu = 10\) (Rata-rata waktu penyelesaian tugas sama dengan 10 menit).
  • \(H_1\) (Hipotesis Alternatif): \(\mu \neq 10\) (Rata-rata waktu penyelesaian tugas tidak sama dengan 10 menit).

2. Uji Hipotesis yang Tepat

Digunakan One-Sample T-Test. Alasan:

  • Hanya ada satu kelompok sampel.
  • Standar deviasi populasi (\(\sigma\)) tidak diketahui.
  • Ukuran sampel kecil (\(n = 10\)).

3. Perhitungan Statistik (Estimasi)

Berdasarkan data: \(9.2, 10.5, 9.8, 10.1, 9.6, 10.3, 9.9, 9.7, 10.0, 9.5\)

  • Rata-rata sampel (\(\bar{x}\)): \(9.86\)
  • Standar Deviasi sampel (\(s\)): \(\approx 0.395\)
  • T-Statistic:

\[t = \frac{\bar{x} - \mu}{s / \sqrt{n}} = \frac{9.86 - 10}{0.395 / \sqrt{10}} \approx -1.12\]

  • P-Value: \(\approx 0.292\) (pada derajat bebas \(df = 9\)).

4. Keputusan Statistik

Karena p-value (0.292) > \(\alpha\) (0.05), maka kita Gagal Menolak \(H_0\).Kesimpulan: Tidak ada bukti statistik yang cukup untuk menyatakan bahwa rata-rata waktu penyelesaian tugas berbeda secara signifikan dari 10 menit.

5. Pengaruh Ukuran Sampel terhadap Reliabilitas

  • Presisi: Sampel yang lebih besar memperkecil standard error, sehingga estimasi rata-rata lebih mendekati parameter populasi yang sebenarnya.
  • Power (Kekuatan Uji): Sampel kecil meningkatkan risiko Kesalahan Tipe II (gagal mendeteksi perbedaan yang sebenarnya ada). Semakin besar sampel, semakin sensitif uji tersebut terhadap perbedaan kecil.

3 STUDY CASE 3


3.1 Two-Sample T-Test (A/B Testing)

A product analytics team conducts an A/B test to compare the average session duration (minutes) between two versions of a landing page.

_________________________________________________________
|Version |Sample Size (n)      |Mean |Standard Deviation|
|--------|---------------------|-----|------------------|
|A       |25                   |4.8  |1.2               |
|--------|---------------------|-----|------------------|
|B       |25                   |5.4  |1.4               |
|________|_____________________|_____|__________________|

3.2 Tasks

  1. Formulate the null and alternative hypotheses.

  2. Identify the type of t-test required.

  3. Compute the test statistic and p-value.

  4. Draw a statistical conclusion at α=0.05.

  5. Interpret the result for product decision-making.


ANSWER


1. Formulasi Hipotesis

  • \(H_0\) (Hipotesis Nol): \(\mu_A = \mu_B\) (Tidak ada perbedaan rata-rata durasi sesi antara Landing Page Versi A dan Versi B).
  • \(H_1\) (Hipotesis Alternatif): \(\mu_A \neq \mu_B\) (Terdapat perbedaan rata-rata durasi sesi yang signifikan antara Landing Page Versi A dan Versi B).

2. Jenis T-Test yang Digunakan

Jenis uji yang tepat adalah Independent Two-Sample T-Test.

Alasan: Kita membandingkan rata-rata dari dua kelompok yang saling bebas (pengguna Versi A berbeda dengan pengguna Versi B) dengan standar deviasi populasi yang tidak diketahui.

3. Perhitungan Statistik (Estimasi)

Diketahui: \(n_A = 25, \bar{x}_A = 4.8, s_A = 1.2\) dan \(n_B = 25, \bar{x}_B = 5.4, s_B = 1.4\).

  • Pooled Standard Deviation (\(s_p\)): \(\approx 1.304\)
  • T-Statistic (\(t\)):

\[t = \frac{\bar{x}_A - \bar{x}_B}{s_p \sqrt{\frac{1}{n_A} + \frac{1}{n_B}}} \approx -1.63\]

  • P-Value: \(\approx 0.109\) (dengan derajat bebas \(df = 48\)).

4. Kesimpulan Statistik

Pada tingkat signifikansi \(\alpha = 0.05\), nilai p-value (0.109) > 0.05.Keputusan: Gagal menolak \(H_0\). Secara statistik, perbedaan rata-rata durasi sesi antara kedua versi tidak signifikan.

5. Interpretasi untuk Pengambilan Keputusan Produk

Meskipun secara numerik Versi B memiliki durasi lebih tinggi (5.4 vs 4.8), data tidak memberikan bukti kuat bahwa perbedaan ini bukan karena kebetulan. Jangan buru-buru mengganti seluruh halaman ke Versi B. Pertimbangkan untuk menambah jumlah sampel (n) guna meningkatkan statistical power atau mengevaluasi metrik sekunder lainnya (seperti conversion rate).


4 STUDY CASE 4


4.1 Chi-Square Test of Independence

An e-commerce company examines whether device type is associated with payment method preference.

__________________________________________________________________________
|Device / Payment    |E-Wallet       |Credit Card      |Cash on Delivery |
|--------------------|---------------|-----------------|-----------------|
|Mobile              |120            |80               |50               |
|--------------------|---------------|-----------------|-----------------|
|Desktop             |60             |90               |40               |
|____________________|_______________|_________________|_________________|

4.2 Tasks

  1. State the Null Hypothesis (H₀) and Alternative Hypothesis (H₁).

  2. Identify the appropriate statistical test.

  3. Compute the Chi-Square statistic (χ²).

  4. Determine the p-value at α=0.05.

  5. Interpret the results in terms of digital payment strategy.


ANSWER:


1. Hipotesis

  • \(H_0\) (Null): Tidak ada hubungan antara tipe perangkat dan metode pembayaran (keduanya independen).
  • \(H_1\) (Alternatif): Ada hubungan signifikan antara tipe perangkat dan metode pembayaran (keduanya dependen).

2. Uji Statistik yang Sesuai

Uji yang digunakan adalah Chi-Square Test of Independence karena kita membandingkan dua variabel kategorikal (Tipe Perangkat vs. Metode Pembayaran) dari satu populasi untuk melihat apakah distribusi frekuensinya berbeda secara signifikan.

3. Perhitungan Chi-Square Statistic (\(\chi^2\))

Berdasarkan data tabel kontingensi:

  • Total Baris: Mobile = 250, Desktop = 190.
  • Total Kolom: E-Wallet = 180, Credit Card = 170, COD = 90.
  • Grand Total (\(N\)): 440.

Menggunakan rumus \(\chi^2 = \sum \frac{(O - E)^2}{E}\) (di mana \(O\) adalah nilai observasi dan \(E\) adalah nilai ekspektasi):

  • Setelah dihitung, nilai \(\chi^2 \approx 12.54\).
  • Degree of Freedom (\(df\)): \((2-1) \times (3-1) = 2\).

4. P-Value (\(\alpha = 0.05\))

Dengan \(\chi^2 = 12.54\) dan \(df = 2\), nilai p-value adalah 0.0019.Karena p-value (0.0019) < 0.05, maka kita Tolak \(H_0\).

5. Interpretasi Strategi Digital Payment

Hasil menunjukkan bahwa tipe perangkat mempengaruhi cara orang membayar.

  • Insight: Pengguna Mobile jauh lebih cenderung menggunakan E-Wallet dibandingkan pengguna Desktop. Sebaliknya, pengguna Desktop lebih menyukai Credit Card.

  • Strategi: Perusahaan sebaiknya mengoptimalkan user interface (UI) pembayaran satu klik untuk E-Wallet di aplikasi mobile, dan memperkuat fitur keamanan/promosi cicilan kartu kredit pada versi desktop.


5 STUDY CASE 5


5.1 Type I and Type II Errors (Conceptual)

A fintech startup tests whether a new fraud detection algorithm reduces fraudulent transactions.

  • H₀: The new algorithm does not reduce fraud.
  • H₁: The new algorithm reduces fraud.

5.2 Tasks

  1. Explain a Type I Error (α) in this context.

  2. Explain a Type II Error (β) in this context.

  3. Identify which error is more costly from a business perspective.

  4. Discuss how sample size affects Type II Error.

  5. Explain the relationship between α, β, and statistical power.


ANSWER:


1. Type I Error (\(\alpha\))

Terjadi jika kita menolak \(H_0\) padahal \(H_0\) benar.

  • Dalam konteks ini: Perusahaan menyimpulkan bahwa algoritma baru berhasil mengurangi fraud, padahal kenyataannya tidak ada perubahan. Perusahaan mengadopsi sistem yang sebenarnya tidak efektif.

2. Type II Error (\(\beta\))

Terjadi jika kita gagal menolak \(H_0\) padahal \(H_0\) salah.

  • Dalam konteks ini: Perusahaan menyimpulkan algoritma baru tidak efektif, padahal kenyataannya algoritma tersebut benar-benar mengurangi fraud. Perusahaan melewatkan kesempatan untuk menggunakan sistem yang lebih baik.

3. Mana yang Lebih Merugikan (Perspektif Bisnis)?

Umumnya, Type II Error lebih merugikan bagi startup fintech dalam kasus ini.

  • Alasannya: Jika terjadi Type II Error, perusahaan membiarkan tingkat fraud yang tinggi terus terjadi (kehilangan uang secara langsung) hanya karena gagal mendeteksi keunggulan sistem baru. Sementara Type I Error “hanya” mengakibatkan biaya implementasi sistem baru yang tidak berguna.

4. Pengaruh Sample Size terhadap Type II Error

Semakin besar sample size, maka nilai Type II Error (\(\beta\)) akan menurun. Dengan data yang lebih banyak, uji statistik menjadi lebih sensitif dalam mendeteksi perbedaan sekecil apa pun, sehingga probabilitas melewatkan efek yang nyata (error) menjadi lebih kecil.

5. Hubungan \(\alpha, \beta\), dan Statistical Power

  • Power (\(1 - \beta\)): Adalah kemampuan uji untuk mendeteksi efek yang benar-benar ada.
  • Trade-off: Jika kita memperketat \(\alpha\) (memperkecil peluang salah tuduh), maka \(\beta\) biasanya akan membesar (lebih sulit mendeteksi efek), yang berarti Power menurun.

6 STUDY CASE 6


6.1 P-Value and Statistical Decision Making

A churn prediction model evaluation yields the following results:

  • Test statistic = 2.31
  • p-value = 0.021
  • Significance level: α = 0.05

6.2 Tasks

  1. Explain the meaning of the p-value.

  2. Make a statistical decision.

  3. Translate the decision into non-technical language for management.

  4. Discuss the risk if the sample is not representative.

  5. Explain why the p-value does not measure effect size.


ANSWER:


1. Makna P-Value (0.021)

P-value adalah probabilitas mendapatkan hasil observasi (atau yang lebih ekstrem) jika kita menganggap hipotesis nol (\(H_0\)) benar.

  • Dalam konteks ini: Jika model sebenarnya tidak memiliki kemampuan prediksi (hanya kebetulan), probabilitas untuk mendapatkan nilai uji sebesar 2.31 atau lebih hanyalah 2.1%.

2. Keputusan Statistik

Karena p-value (0.021) < \(\alpha\) (0.05), maka keputusannya adalah Tolak Hipotesis Nol (\(H_0\)).Hasil ini dianggap signifikan secara statistik pada tingkat kepercayaan 95%.

3. Bahasa Non-Teknis untuk Manajemen

“Hasil pengujian menunjukkan bahwa performa model prediksi churn kita bukanlah karena faktor kebetulan. Kita memiliki bukti yang cukup kuat untuk menyatakan bahwa model ini efektif dalam mengidentifikasi pelanggan yang kemungkinan akan berhenti.”

4. Risiko Sampel Tidak Representatif

Jika sampel tidak representatif (misal: hanya mengambil data pelanggan lama), maka terjadi bias. Akibatnya, model mungkin terlihat sangat akurat pada kertas, namun akan gagal total (tidak akurat) saat diterapkan pada pelanggan baru atau populasi yang lebih luas.

5. Mengapa P-Value Bukan Ukuran Effect Size?

P-value hanya memberi tahu kita apakah ada efek, bukan seberapa besar efek tersebut.

  • Sampel yang sangat besar dapat menghasilkan p-value kecil (signifikan) bahkan jika perbedaan performanya sangat tipis dan tidak berguna secara bisnis.
  • Effect size mengukur kekuatan hubungan, sedangkan p-value sangat dipengaruhi oleh jumlah data (n).

REFERENCE

  • Montgomery, D. C., & Runger, G. C. (2018). Applied Statistics and Probability for Engineers. Wiley.
  • Agresti, A. (2018). An Introduction to Categorical Data Analysis. Wiley.
  • Applied Statistics and Probability for Engineers oleh Douglas C. Montgomery & George C. Runger.
  • Black, K. (2019). Business Statistics: For Contemporary Decision Making. Wiley.
  • Kohavi, R., et al. (2020). Trustworthy Online Controlled Experiments. Cambridge University Press. (Menjelaskan pentingnya signifikansi dalam A/B Testing).
  • Cohen, J. (1988). Statistical Power Analysis for the Behavioral Sciences.