Study Cases

Statistical Inference~ Week 14

CONTACT INFORMATION
Email Address
Andremusari276@gmail.com
Student ID
52250065
LinkedIn Profile
View Profile

ANDRE

Data Science Student
ITSB
Institut Teknologi Sains Bandung
ACADEMIC ADVISOR
Bakti Siregar, M.Sc., CDS
CORE COMPETENCIES
Data Analysis
Machine Learning
Statistics
Data Visualization
Institut Teknologi Sains Bandung • Data Science • 2025

1 Case Study 1

One-Sample Z-Test (Statistical Hypotheses)

A digital learning platform claims that the average daily study time of its users is 120 minutes. Based on historical records, the population standard deviation is known to be 15 minutes.

A random sample of 64 users shows an average study time of 116 minutes.

\[ \begin{eqnarray*} \mu_0 &=& 120 \\ \sigma &=& 15 \\ n &=& 64 \\ \bar{x} &=& 116 \end{eqnarray*} \]

Tasks

  1. Formulate the Null Hypothesis (H₀) and Alternative Hypothesis (H₁).
  2. Identify the appropriate statistical test and justify your choice.
  3. Compute the test statistic and p-value using \(\alpha = 0.05\).
  4. State the statistical decision.
  5. Interpret the result in a business analytics context.

1.1 Answer Study Case 1

1.1.1 Latar Belakang Masalah

Sebuah platform pembelajaran digital mengklaim bahwa rata-rata waktu belajar harian penggunanya adalah 120 menit. Klaim ini digunakan sebagai dasar pengambilan keputusan bisnis, evaluasi performa platform, serta strategi pemasaran. Namun, klaim tersebut perlu diuji secara statistik agar dapat dipastikan apakah benar mencerminkan kondisi populasi pengguna.

Untuk keperluan tersebut, diambil sampel acak sebanyak 64 pengguna, dan diperoleh rata-rata waktu belajar sebesar 116 menit. Standar deviasi populasi diketahui sebesar 15 menit. Dengan menggunakan tingkat signifikansi 5%, dilakukan pengujian statistik untuk menilai kebenaran klaim perusahaan.

1.1.2 Data dan Parameter Statistik

Informasi yang digunakan dalam analisis ini adalah sebagai berikut:

  • Rata-rata populasi (klaim perusahaan):
    \[ \mu_0 = 120 \]

  • Standar deviasi populasi:
    \[ \sigma = 15 \]

  • Ukuran sampel:
    \[ n = 64 \]

  • Rata-rata sampel:
    \[ \bar{x} = 116 \]

  • Tingkat signifikansi:
    \[ \alpha = 0.05 \]

1.1.3 Perumusan Hipotesis Statistik

Pengujian hipotesis dilakukan untuk mengevaluasi apakah data sampel mendukung klaim perusahaan.

1.1.3.1 Hipotesis Nol (H₀)

\[ H_0 : \mu = 120 \]

Hipotesis nol menyatakan bahwa rata-rata waktu belajar pengguna sama dengan 120 menit, sesuai dengan klaim perusahaan.

1.1.3.2 Hipotesis Alternatif (H₁)

\[ H_1 : \mu \neq 120 \]

Hipotesis alternatif menyatakan bahwa rata-rata waktu belajar pengguna berbeda dari 120 menit.

Karena tidak ditentukan arah perbedaan (lebih besar atau lebih kecil), maka digunakan uji dua arah (two-tailed test).

1.1.4 Pemilihan Metode Uji Statistik

Metode uji statistik yang digunakan adalah One-Sample Z-Test.

Alasan Pemilihan

  1. Parameter yang diuji adalah rata-rata (mean)
  2. Standar deviasi populasi diketahui (\(\sigma = 15\))
  3. Ukuran sampel besar (\(n \ge 30\))
  4. Berdasarkan Central Limit Theorem, distribusi rata-rata sampel mendekati distribusi normal

Dengan demikian, One-Sample Z-Test merupakan metode yang tepat dan valid.

1.1.5 Dasar Teori dan Rumus Statistik

1.1.5.1 Statistik Uji Z

Statistik uji Z digunakan untuk mengukur seberapa jauh rata-rata sampel menyimpang dari rata-rata populasi dalam satuan standar deviasi.

1.1.5.2 Rumus Statistik Uji Z

\[ Z = \frac{\bar{x} - \mu_0}{\sigma / \sqrt{n}} \]

1.1.6 Keterangan Simbol:

  • \(Z\) : nilai statistik uji Z
  • \(\bar{x}\) : rata-rata sampel
  • \(\mu_0\) : rata-rata populasi berdasarkan hipotesis nol
  • \(\sigma\) : standar deviasi populasi
  • \(n\) : ukuran sampel
  • \(\sigma / \sqrt{n}\) : standard error, yaitu simpangan baku dari distribusi rata-rata sampel

Makna rumus ini adalah untuk menyatakan selisih antara rata-rata sampel dan rata-rata populasi dalam satuan standar deviasi.

1.1.7 Perhitungan Standard Error

Rumus Standard Error

\[ SE = \frac{\sigma}{\sqrt{n}} \]

Keterangan: - \(SE\) : standard error
- \(\sigma\) : standar deviasi populasi
- \(n\) : ukuran sampel

1.1.8 Perhitungan:

\[ SE = \frac{15}{\sqrt{64}} = \frac{15}{8} = 1.875 \]

Nilai ini menunjukkan bahwa rata-rata sampel biasanya menyimpang sekitar 1.875 menit dari rata-rata populasi.

1.1.9 Perhitungan Statistik Uji Z

Dengan memasukkan nilai-nilai yang diketahui ke dalam rumus statistik uji Z:

\[ Z = \frac{116 - 120}{1.875} \]

\[ Z = \frac{-4}{1.875} = -2.13 \]

Nilai Z negatif menunjukkan bahwa rata-rata sampel berada di bawah rata-rata yang diklaim perusahaan.

1.1.10 Perhitungan p-value

Konsep p-value

p-value adalah probabilitas memperoleh hasil yang sama atau lebih ekstrem dibandingkan data sampel, dengan asumsi bahwa hipotesis nol benar.

Rumus p-value (uji dua arah)

\[ p\text{-value} = 2 \times P(Z \le |z_{\text{hitung}}|) \]

Perhitungan:

Dari tabel distribusi normal standar diperoleh:

\[ P(Z < -2.13) = 0.0166 \]

Karena uji dua arah:

\[ p\text{-value} = 2 \times 0.0166 = 0.0332 \]

1.1.11 Keputusan Statistik

Aturan Keputusan

\[ \text{Tolak } H_0 \text{ jika } p\text{-value} \le \alpha \]

Dengan \(\alpha = 0.05\).

Keputusan

\[ 0.0332 < 0.05 \]

Maka Hipotesis Nol (H₀) ditolak.

1.1.12 Interpretasi Hasil (Business Analytics)

Secara statistik, hasil pengujian menunjukkan bahwa kemungkinan memperoleh rata-rata waktu belajar sebesar 116 menit jika rata-rata populasi benar-benar 120 menit hanya sekitar 3.32%. Probabilitas yang kecil ini menunjukkan bahwa perbedaan yang terjadi bukan disebabkan oleh variasi acak semata.

Secara praktis, hasil ini mengindikasikan bahwa pengguna platform pembelajaran digital cenderung belajar lebih singkat dari klaim perusahaan, yaitu sekitar 116 menit per hari. Meskipun selisihnya hanya 4 menit, perbedaan ini terjadi secara konsisten pada banyak pengguna sehingga menjadi signifikan secara statistik.

Dalam konteks bisnis, temuan ini penting karena klaim perusahaan mengenai durasi belajar digunakan sebagai dasar strategi dan pengambilan keputusan. Jika klaim tersebut tidak sesuai dengan data aktual, perusahaan berisiko mengambil keputusan yang tidak optimal. Oleh karena itu, hasil analisis ini dapat dijadikan dasar untuk mengevaluasi klaim, meningkatkan keterlibatan pengguna, serta menyempurnakan strategi pembelajaran berbasis data.

1.1.13 Kesimpulan

Berdasarkan hasil One-Sample Z-Test dengan tingkat signifikansi 5%, terdapat bukti statistik yang cukup untuk menyatakan bahwa rata-rata waktu belajar pengguna berbeda secara signifikan dari 120 menit. Dengan demikian, klaim perusahaan tidak sepenuhnya didukung oleh data sampel dan perlu ditinjau ulang berdasarkan analisis statistik yang telah dilakukan.

2 Case Study 2

One-Sample T-Test (σ Unknown, Small Sample)

A UX Research Team investigates whether the average task completion time of a new application differs from 10 minutes.

The following data are collected from 10 users:

\[ 9.2,\; 10.5,\; 9.8,\; 10.1,\; 9.6,\; 10.3,\; 9.9,\; 9.7,\; 10.0,\; 9.5 \]

Tasks

  1. Define H₀ and H₁ (two-tailed).
  2. Determine the appropriate hypothesis test.
  3. Calculate the t-statistic and p-value at \(\alpha = 0.05\).
  4. Make a statistical decision.
  5. Explain how sample size affects inferential reliability.

2.1 Answer study Case 2

2.1.1 Latar Belakang Studi

Tim UX Research ingin mengevaluasi performa sebuah aplikasi baru dengan mengukur rata-rata waktu penyelesaian tugas pengguna. Sebagai acuan, waktu penyelesaian yang dianggap optimal adalah 10 menit. Oleh karena itu, penelitian ini bertujuan untuk menguji apakah rata-rata waktu penyelesaian tugas pengguna pada aplikasi baru tersebut berbeda secara signifikan dari 10 menit.

Data dikumpulkan dari 10 pengguna, sehingga ukuran sampel tergolong kecil dan standar deviasi populasi tidak diketahui. Kondisi ini memerlukan pendekatan statistik inferensial yang sesuai agar kesimpulan yang diambil tetap valid.

2.1.2 Data dan Informasi Awal

Data waktu penyelesaian tugas (dalam menit) yang diperoleh dari 10 pengguna adalah sebagai berikut:

\[ 9.2,\ 10.5,\ 9.8,\ 10.1,\ 9.6,\ 10.3,\ 9.9,\ 9.7,\ 10.0,\ 9.5 \]

Parameter dan informasi statistik: - Ukuran sampel:
\[ n = 10 \] - Standar deviasi populasi: tidak diketahui - Tingkat signifikansi:
\[ \alpha = 0.05 \]

2.1.3 Perumusan Hipotesis Statistik

Pengujian hipotesis dilakukan untuk mengetahui apakah rata-rata waktu penyelesaian tugas pengguna berbeda dari nilai acuan yang ditetapkan.

  • Hipotesis Nol (H₀)

\[ H_0 : \mu = 10 \]

Hipotesis nol menyatakan bahwa rata-rata waktu penyelesaian tugas pengguna sama dengan 10 menit.

  • Hipotesis Alternatif (H₁)

\[ H_1 : \mu \neq 10 \]

Hipotesis alternatif menyatakan bahwa rata-rata waktu penyelesaian tugas pengguna berbeda dari 10 menit.

Karena tidak ditentukan arah perbedaan (lebih cepat atau lebih lambat), maka digunakan uji dua arah (two-tailed test).

2.1.4 Pemilihan Metode Uji Statistik

Metode uji statistik yang digunakan dalam penelitian ini adalah One-Sample T-Test.

  • Alasan Pemilihan:
  1. Parameter yang diuji adalah rata-rata (mean)
  2. Standar deviasi populasi tidak diketahui
  3. Ukuran sampel kecil (n < 30)
  4. Data berskala numerik dan diasumsikan berasal dari populasi yang mendekati normal

Dengan kondisi tersebut, distribusi t-Student digunakan sebagai pengganti distribusi normal.

2.1.5 Perhitungan Statistik Uji dan p-value

  • Rumus Statistik Uji t

\[ t = \frac{\bar{x} - \mu_0}{s / \sqrt{n}} \]

  • Keterangan Simbol:
  • \(t\) : nilai statistik uji t
  • \(\bar{x}\) : rata-rata sampel
  • \(\mu_0\) : rata-rata populasi berdasarkan hipotesis nol
  • \(s\) : standar deviasi sampel
  • \(n\) : ukuran sampel
  • \(s / \sqrt{n}\) : standard error

Rumus ini menyatakan selisih antara rata-rata sampel dan rata-rata populasi dalam satuan standard error.

2.1.6 Perhitungan Rata-rata Sampel

\[ \bar{x} = \frac{\sum x_i}{n} \]

\[ \bar{x} = \frac{98.6}{10} = 9.86 \]

2.1.7 Perhitungan Standar Deviasi Sampel

  • Rumus:

\[ s = \sqrt{\frac{\sum (x_i - \bar{x})^2}{n - 1}} \]

Pembagian dengan \(n-1\) digunakan untuk menghasilkan estimasi standar deviasi yang tidak bias.

Hasil perhitungan diperoleh:

\[ s = 0.386 \]

2.1.8 Perhitungan Standard Error

\[ SE = \frac{s}{\sqrt{n}} = \frac{0.386}{\sqrt{10}} \approx 0.122 \]

Nilai ini menunjukkan besarnya variasi rata-rata sampel terhadap rata-rata populasi.

2.1.9 Perhitungan Nilai Statistik Uji t

\[ t = \frac{9.86 - 10}{0.122} = \frac{-0.14}{0.122} = -1.15 \]

Nilai t negatif menunjukkan bahwa rata-rata sampel berada di bawah nilai acuan 10 menit.

2.1.10 Derajat Kebebasan (Degrees of Freedom)

\[ df = n - 1 = 10 - 1 = 9 \]

2.1.11 Perhitungan p-value

Karena menggunakan uji dua arah, maka p-value dihitung sebagai:

\[ p\text{-value} = 2 \times P(T \le |t|) \]

Dengan: - \(t = -1.15\) - \(df = 9\)

Dari tabel distribusi t diperoleh:

\[ p\text{-value} \approx 0.281 \]

2.1.12 Keputusan Statistik

  • Aturan Keputusan

  • Tolak \(H_0\) jika \(p\text{-value} \le \alpha\)

  • Gagal menolak \(H_0\) jika \(p\text{-value} > \alpha\)

Dengan \(\alpha = 0.05\).

2.1.13 Keputusan

\[ 0.281 > 0.05 \]

Sehingga Hipotesis Nol (H₀) gagal ditolak.

2.1.14 Interpretasi dan Pengaruh Ukuran Sampel terhadap Inferential Reliability

Ukuran sampel memiliki peran penting dalam menentukan keandalan inferensi statistik. Pada penelitian ini, ukuran sampel yang relatif kecil menyebabkan standard error menjadi lebih besar, sehingga estimasi rata-rata populasi menjadi kurang presisi. Akibatnya, meskipun rata-rata sampel (9.86 menit) sedikit lebih kecil dari nilai acuan 10 menit, perbedaan tersebut tidak cukup kuat secara statistik untuk dinyatakan signifikan.

Selain itu, ukuran sampel kecil juga menurunkan statistical power, yaitu kemampuan uji statistik untuk mendeteksi perbedaan yang benar-benar ada. Hal ini meningkatkan risiko terjadinya Type II Error, yaitu gagal menolak hipotesis nol padahal sebenarnya terdapat perbedaan nyata di populasi.

Dalam konteks studi ini, hasil yang tidak signifikan tidak serta-merta menunjukkan bahwa aplikasi sudah optimal atau tidak optimal, melainkan menunjukkan bahwa data yang tersedia belum cukup kuat untuk menarik kesimpulan pasti. Penambahan jumlah sampel di masa mendatang dapat meningkatkan reliabilitas inferensi dan menghasilkan kesimpulan yang lebih meyakinkan.

2.1.15 Kesimpulan Akhir

Berdasarkan hasil One-Sample T-Test dengan tingkat signifikansi 5%, tidak terdapat bukti statistik yang cukup untuk menyatakan bahwa rata-rata waktu penyelesaian tugas pengguna berbeda secara signifikan dari 10 menit. Keterbatasan utama pada analisis ini adalah ukuran sampel yang kecil, sehingga hasil inferensi perlu ditafsirkan secara hati-hati dan sebaiknya dikonfirmasi dengan data tambahan.

3 Case Study 3

Two-Sample T-Test (A/B Testing)

A product analytics team conducts an A/B test to compare the average session duration (minutes) between two versions of a landing page.

Version Sample Size (n) Mean Standard Deviation
A 25 4.8 1.2
B 25 5.4 1.4

Tasks

  1. Formulate the null and alternative hypotheses.
  2. Identify the type of t-test required.
  3. Compute the test statistic and p-value.
  4. Draw a statistical conclusion at \(\alpha = 0.05\).
  5. Interpret the result for product decision-making.

3.1 Answer study Case 3

3.1.1 Pendahuluan

Dalam pengembangan produk digital, keputusan berbasis data sangat penting untuk memastikan bahwa perubahan desain benar-benar memberikan dampak positif bagi pengguna. Salah satu metode yang umum digunakan adalah A/B testing, yaitu eksperimen terkontrol yang membandingkan dua versi produk untuk melihat mana yang memiliki performa lebih baik berdasarkan metrik tertentu.

Pada studi kasus ini, tim product analytics melakukan A/B testing untuk membandingkan rata-rata durasi sesi pengguna (dalam menit) antara dua versi landing page, yaitu versi A (kontrol) dan versi B (varian). Analisis statistik dilakukan untuk menentukan apakah perbedaan yang diamati bersifat signifikan secara statistik dan layak dijadikan dasar pengambilan keputusan produk.

3.1.2 Data dan Informasi Awal

Ringkasan statistik dari hasil eksperimen A/B testing ditunjukkan pada tabel berikut:

Versi Ukuran Sampel (n) Mean (menit) Standar Deviasi
A 25 4.8 1.2
B 25 5.4 1.4

Informasi tambahan:

  • Kedua sampel bersifat independen
  • Standar deviasi populasi tidak diketahui
  • Skala data: numerik (durasi waktu)
  • Tingkat signifikansi yang digunakan: \[ \alpha = 0.05 \]

3.1.3 Perumusan Hipotesis Statistik

  • Konsep Dasar Hipotesis

Hipotesis statistik digunakan untuk menguji apakah terdapat perbedaan rata-rata durasi sesi pengguna antara dua versi landing page. Karena tujuan A/B testing adalah mendeteksi adanya perbedaan tanpa menentukan arah tertentu sejak awal, maka digunakan uji dua arah (two-tailed test).

  • Hipotesis Nol dan Alternatif

\[ H_0 : \mu_A = \mu_B \]

\[ H_1 : \mu_A \neq \mu_B \]

Keterangan:

  • \(\mu_A\) = rata-rata durasi sesi populasi untuk versi A
  • \(\mu_B\) = rata-rata durasi sesi populasi untuk versi B

Hipotesis nol menyatakan tidak ada perbedaan rata-rata, sedangkan hipotesis alternatif menyatakan adanya perbedaan rata-rata antara kedua versi.

3.1.4 Identifikasi Jenis Uji Statistik

  • Jenis Uji yang Digunakan

Uji statistik yang digunakan adalah Independent Two-Sample t-Test.

  • Alasan Pemilihan Uji

Pemilihan uji ini didasarkan pada pertimbangan berikut:

  1. Perbandingan dilakukan terhadap dua rata-rata dari dua kelompok berbeda
  2. Sampel bersifat independen (pengguna versi A berbeda dengan pengguna versi B)
  3. Standar deviasi populasi tidak diketahui
  4. Ukuran sampel relatif kecil hingga menengah (\(n = 25\))
  5. Data berskala numerik dan diasumsikan mendekati distribusi normal

Karena standar deviasi kedua kelompok tidak sama persis (1.2 dan 1.4), pendekatan yang lebih robust adalah menggunakan Welch’s Two-Sample t-Test, yaitu t-test tanpa asumsi varians yang sama.

3.1.5 Perhitungan Statistik Uji dan p-value

  • Rumus Statistik Uji t (Welch)

\[ t = \frac{\bar{x}_A - \bar{x}_B} {\sqrt{\frac{s_A^2}{n_A} + \frac{s_B^2}{n_B}}} \]

Keterangan simbol:

  • \(t\) : nilai statistik uji
  • \(\bar{x}_A, \bar{x}_B\) : rata-rata sampel masing-masing grup
  • \(s_A, s_B\) : standar deviasi sampel
  • \(n_A, n_B\) : ukuran sampel
  • Penyebut merupakan standard error dari selisih dua mean

3.1.6 Substitusi Nilai

  • Varians Sampel \[ s_A^2 = (1.2)^2 = 1.44 \]

\[ s_B^2 = (1.4)^2 = 1.96 \]

  • Standard Error \[ SE = \sqrt{\frac{1.44}{25} + \frac{1.96}{25}} \]

\[ SE = \sqrt{0.0576 + 0.0784} \]

\[ SE = \sqrt{0.136} = 0.369 \]

3.1.7 Nilai Statistik Uji t

\[ t = \frac{4.8 - 5.4}{0.369} \]

\[ t = -1.63 \]

Nilai negatif menunjukkan bahwa rata-rata versi A lebih rendah dibandingkan versi B.

3.1.8 Derajat Kebebasan

Derajat kebebasan pada Welch’s t-test dihitung menggunakan pendekatan Welch–Satterthwaite:

\[ df \approx 47 \]

3.1.9 Perhitungan p-value

Karena menggunakan uji dua arah:

\[ p\text{-value} = 2 \times P(T \le |t|) \]

Dengan: - \(t = -1.63\) - \(df \approx 47\)

Diperoleh: \[ p\text{-value} \approx 0.11 \]

3.1.10 Keputusan Statistik

  • Aturan Keputusan

  • Tolak \(H_0\) jika \(p\text{-value} \le \alpha\)

  • Gagal menolak \(H_0\) jika \(p\text{-value} > \alpha\)

Dengan \(\alpha = 0.05\).

  • Keputusan \[ 0.11 > 0.05 \]

Sehingga hipotesis nol (H₀) gagal ditolak.

3.1.11 Interpretasi untuk Pengambilan Keputusan Produk

Secara deskriptif, versi B menunjukkan rata-rata durasi sesi yang lebih tinggi (5.4 menit) dibandingkan versi A (4.8 menit). Namun, berdasarkan hasil uji statistik, perbedaan tersebut tidak signifikan secara statistik pada tingkat signifikansi 5%.

Dalam konteks pengambilan keputusan produk, hal ini berarti bahwa peningkatan durasi sesi pada versi B belum dapat dipastikan terjadi secara konsisten di populasi pengguna, dan masih mungkin disebabkan oleh variasi acak sampel.

3.1.12 Implikasi Bisnis dan Rekomendasi

Beberapa implikasi penting dari hasil ini adalah:

  1. Versi B belum layak untuk langsung diimplementasikan secara penuh
  2. Diperlukan:
    • ukuran sampel yang lebih besar
    • durasi eksperimen yang lebih panjang
    • atau evaluasi metrik tambahan seperti conversion rate dan bounce rate
  3. Penting membedakan antara signifikansi statistik dan signifikansi bisnis, karena perbedaan kecil yang tidak signifikan secara statistik bisa saja relevan secara bisnis dalam konteks tertentu

3.1.13 Kesimpulan Akhir

Berdasarkan hasil Two-Sample t-Test (Welch) dengan tingkat signifikansi 5%, tidak terdapat bukti statistik yang cukup untuk menyatakan bahwa rata-rata durasi sesi pengguna pada versi landing page B berbeda secara signifikan dibandingkan versi A. Oleh karena itu, keputusan produk sebaiknya ditunda hingga diperoleh data tambahan yang lebih kuat dan reliabel.

4 Case Study 4

Chi-Square Test of Independence

An e-commerce company examines whether device type is associated with payment method preference.

Device / Payment E-Wallet Credit Card Cash on Delivery
Mobile 120 80 50
Desktop 60 90 40

Tasks

  1. State the Null Hypothesis (H₀) and Alternative Hypothesis (H₁).
  2. Identify the appropriate statistical test.
  3. Compute the Chi-Square statistic (χ²).
  4. Determine the p-value at \(\alpha = 0.05\).
  5. Interpret the results in terms of digital payment strategy.

4.1 Answer Study Case 4

4.1.1 Pendahuluan

Dalam konteks e-commerce, pemahaman terhadap perilaku pengguna sangat penting untuk merancang strategi pembayaran digital yang efektif. Salah satu aspek penting yang perlu dianalisis adalah apakah jenis perangkat (device type) yang digunakan pelanggan, seperti mobile atau desktop, memiliki keterkaitan dengan preferensi metode pembayaran yang mereka pilih.

Pada studi kasus ini, perusahaan e-commerce ingin menguji apakah terdapat hubungan (asosiasi) antara jenis perangkat yang digunakan pelanggan dan metode pembayaran yang dipilih, yaitu E-Wallet, Credit Card, dan Cash on Delivery. Untuk tujuan tersebut, digunakan pendekatan statistik inferensial berupa Chi-Square Test of Independence.

4.1.2 Data dan Tabel Observasi

Data yang dikumpulkan disajikan dalam bentuk tabel kontingensi yang menunjukkan jumlah pengguna berdasarkan kombinasi device type dan payment method.

  • Tabel Frekuensi Observasi (Observed Frequency)
Device / Payment E-Wallet Credit Card Cash on Delivery Total
Mobile 120 80 50 250
Desktop 60 90 40 190
Total 180 170 90 440

Keterangan:

  • Total observasi: 440 transaksi
  • Kedua variabel bersifat kategorik
  • Data berupa frekuensi (count), bukan data numerik kontinu

4.1.3 Perumusan Hipotesis Statistik

  • Hipotesis Nol (H₀)

\[ H_0 : \text{Device type dan payment method saling independen} \]

Artinya, jenis perangkat yang digunakan pelanggan tidak berhubungan dengan preferensi metode pembayaran.

  • Hipotesis Alternatif (H₁)

\[ H_1 : \text{Device type dan payment method tidak independen} \]

Artinya, terdapat hubungan atau asosiasi antara jenis perangkat dan metode pembayaran yang dipilih pelanggan.

  • Identifikasi Uji Statistik yang Digunakan

Uji statistik yang digunakan dalam studi ini adalah:

4.1.4 Chi-Square Test of Independence

4.1.4.1 Alasan Pemilihan:

  1. Kedua variabel bersifat kategorik
  2. Data disajikan dalam bentuk tabel kontingensi
  3. Tujuan analisis adalah menguji asosiasi, bukan membandingkan rata-rata
  4. Jumlah observasi cukup besar sehingga asumsi uji Chi-Square terpenuhi

4.1.5 Perhitungan Statistik Chi-Square (χ²)

  • Rumus Umum Statistik Chi-Square

\[ \chi^2 = \sum_{i=1}^{r} \sum_{j=1}^{c} \frac{(O_{ij} - E_{ij})^2}{E_{ij}} \]

4.1.5.1 Keterangan Simbol:

  • \(\chi^2\) : nilai statistik Chi-Square
  • \(O_{ij}\) : frekuensi observasi pada baris ke-\(i\) dan kolom ke-\(j\)
  • \(E_{ij}\) : frekuensi harapan (expected frequency)
  • \(r\) : jumlah baris
  • \(c\) : jumlah kolom

Makna statistik: Rumus ini mengukur seberapa besar penyimpangan antara data aktual dengan data yang diharapkan jika tidak ada hubungan antar variabel.

4.1.6 Rumus Frekuensi Harapan (Expected Frequency)

\[ E_{ij} = \frac{(\text{Total Baris}_i)(\text{Total Kolom}_j)}{\text{Total Keseluruhan}} \]

Frekuensi harapan merepresentasikan jumlah observasi yang diharapkan muncul pada setiap sel jika H₀ benar.

4.1.7 Perhitungan Frekuensi Harapan

Device / Payment E-Wallet Credit Card Cash on Delivery
Mobile \(\frac{250 \times 180}{440} = 102.27\) \(\frac{250 \times 170}{440} = 96.59\) \(\frac{250 \times 90}{440} = 51.14\)
Desktop \(\frac{190 \times 180}{440} = 77.73\) \(\frac{190 \times 170}{440} = 73.41\) \(\frac{190 \times 90}{440} = 38.86\)

Semua nilai expected frequency lebih besar dari 5, sehingga asumsi uji Chi-Square terpenuhi.

4.1.8 Perhitungan Komponen χ² per Sel

\[ \frac{(O - E)^2}{E} \]

Sel O E Nilai χ²
Mobile – E-Wallet 120 102.27 3.07
Mobile – Credit Card 80 96.59 2.85
Mobile – COD 50 51.14 0.03
Desktop – E-Wallet 60 77.73 4.04
Desktop – Credit Card 90 73.41 3.75
Desktop – COD 40 38.86 0.03

4.1.9 Nilai Statistik Chi-Square Total

\[ \chi^2 = 3.07 + 2.85 + 0.03 + 4.04 + 3.75 + 0.03 = 13.77 \]

4.1.10 Penentuan p-value dan Keputusan Statistik

  • Derajat Kebebasan (Degrees of Freedom)

\[ df = (r - 1)(c - 1) \]

Dengan:

  • \(r = 2\) baris
  • \(c = 3\) kolom

\[ df = (2 - 1)(3 - 1) = 2 \]

4.1.11 Nilai Kritis dan p-value

Pada tingkat signifikansi \(\alpha = 0.05\) dan \(df = 2\):

\[ \chi^2_{0.05,2} = 5.991 \]

Karena: \[ 13.77 > 5.991 \]

Maka: \[ p\text{-value} < 0.01 \]

4.1.12 Keputusan Statistik

Hipotesis nol (H₀) ditolak

Terdapat bukti statistik yang cukup untuk menyatakan bahwa kedua variabel tidak saling independen.

4.1.13 Interpretasi Hasil dalam Konteks Strategi Pembayaran Digital

Hasil uji menunjukkan bahwa preferensi metode pembayaran pelanggan bergantung pada jenis perangkat yang digunakan. Dengan kata lain, perilaku pembayaran pengguna mobile berbeda secara signifikan dibandingkan pengguna desktop.

4.1.14 Implikasi Perilaku Pengguna

  • Pengguna Mobile
    • Cenderung memilih E-Wallet
    • Mengutamakan kemudahan, kecepatan, dan integrasi aplikasi
  • Pengguna Desktop
    • Lebih sering menggunakan Credit Card
    • Cenderung lebih nyaman dengan input data kartu dan layar besar
  • Cash on Delivery
    • Relatif stabil dan tidak terlalu dipengaruhi oleh device

4.1.15 Implikasi Strategi Bisnis

Berdasarkan hasil ini, perusahaan e-commerce dapat:

  1. Mengoptimalkan metode pembayaran default berdasarkan device
  2. Menyusun promosi e-wallet khusus pengguna mobile
  3. Menyederhanakan proses pembayaran kartu kredit di desktop
  4. Meningkatkan conversion rate melalui personalisasi payment flow

4.1.16 Kesimpulan Akhir

Berdasarkan hasil Chi-Square Test of Independence pada tingkat signifikansi 5%, terdapat hubungan yang signifikan antara jenis perangkat dan preferensi metode pembayaran pelanggan. Oleh karena itu, strategi pembayaran digital yang disesuaikan dengan device pengguna berpotensi meningkatkan efisiensi transaksi, pengalaman pengguna, dan kinerja bisnis secara keseluruhan.

5 Case Study 5

Type I and Type II Errors (Conceptual)

A fintech startup tests whether a new fraud detection algorithm reduces fraudulent transactions.

  • H₀: The new algorithm does not reduce fraud.
  • H₁: The new algorithm reduces fraud.

Tasks

  1. Explain a Type I Error (α) in this context.
  2. Explain a Type II Error (β) in this context.
  3. Identify which error is more costly from a business perspective.
  4. Discuss how sample size affects Type II Error.
  5. Explain the relationship between α, β, and statistical power.

5.1 Answer Study Case 5

5.1.1 Pendahuluan

Dalam industri fintech, sistem deteksi fraud memegang peranan yang sangat krusial karena berkaitan langsung dengan keamanan transaksi, kepercayaan pengguna, dan kepatuhan terhadap regulasi. Oleh karena itu, setiap algoritma baru yang dikembangkan harus diuji secara statistik sebelum diimplementasikan secara penuh.

Pada studi kasus ini, sebuah fintech startup menguji apakah algoritma deteksi fraud yang baru mampu mengurangi jumlah transaksi fraud dibandingkan sistem lama. Pengujian dilakukan menggunakan kerangka pengujian hipotesis statistik, di mana keputusan yang salah dapat menimbulkan konsekuensi bisnis yang signifikan.

Hipotesis yang digunakan adalah:

  • Hipotesis Nol (H₀): Algoritma baru tidak mengurangi fraud
  • Hipotesis Alternatif (H₁): Algoritma baru mengurangi fraud

5.1.2 Kerangka Pengujian Hipotesis

Pengujian hipotesis selalu melibatkan empat kemungkinan kondisi berikut:

Kondisi Nyata Keputusan Statistik Hasil
H₀ benar Gagal menolak H₀ Keputusan benar
H₀ benar Menolak H₀ Type I Error (α)
H₀ salah Menolak H₀ Keputusan benar
H₀ salah Gagal menolak H₀ Type II Error (β)

Kesalahan Type I dan Type II tidak dapat dihindari sepenuhnya, tetapi dapat dikelola melalui desain eksperimen yang baik.

5.1.3 Type I Error (α) dalam Konteks Fraud Detection

  • Definisi Formal Type I Error

Type I Error (α) adalah probabilitas menolak hipotesis nol padahal hipotesis nol tersebut benar.

Secara matematis:

\[ \alpha = P(\text{Reject } H_0 \mid H_0 \text{ is true}) \]

5.1.4 Interpretasi dalam Studi Kasus

Dalam konteks ini: - H₀ benar → algoritma baru sebenarnya tidak mengurangi fraud - Namun hasil uji menyimpulkan algoritma efektif

👉 Type I Error terjadi ketika perusahaan percaya algoritma baru berhasil menurunkan fraud, padahal kenyataannya tidak.

5.1.5 Dampak Bisnis dari Type I Error

Type I Error sangat berbahaya dalam konteks fraud detection karena:

  • Sistem lama digantikan oleh algoritma yang tidak efektif
  • Fraud tetap terjadi atau bahkan meningkat
  • Kerugian finansial berlanjut
  • Risiko pelanggaran regulasi meningkat
  • Perusahaan memiliki rasa aman palsu terhadap sistem keamanan

5.1.6 Type II Error (β) dalam Konteks Fraud Detection

  • Definisi Formal Type II Error

Type II Error (β) adalah probabilitas gagal menolak hipotesis nol padahal hipotesis nol tersebut salah.

Secara matematis:

\[ \beta = P(\text{Fail to Reject } H_0 \mid H_0 \text{ is false}) \]

5.1.7 Interpretasi dalam Studi Kasus

Dalam konteks ini:

  • H₁ benar → algoritma baru sebenarnya efektif mengurangi fraud
  • Namun hasil uji menyimpulkan algoritma tidak efektif

👉 Type II Error terjadi ketika perusahaan menolak algoritma baru yang sebenarnya lebih baik.

5.1.8 Dampak Bisnis dari Type II Error

Konsekuensi Type II Error meliputi:

  • Kehilangan peluang mengurangi fraud
  • Inovasi terhambat
  • Perusahaan tertinggal dari kompetitor
  • Potensi efisiensi biaya tidak tercapai

5.1.9 Perbandingan Dampak Type I dan Type II Error

Dari sudut pandang bisnis fintech:

Jenis Error Risiko Utama
Type I Error Fraud tetap terjadi dengan rasa aman palsu
Type II Error Kehilangan peluang perbaikan sistem
  • Kesimpulan Perbandingan 👉 Type I Error lebih mahal dan lebih berbahaya karena langsung berkaitan dengan risiko keamanan, kerugian finansial, dan reputasi perusahaan.

Oleh karena itu, perusahaan biasanya menetapkan nilai α yang relatif kecil untuk meminimalkan risiko Type I Error.

5.1.10 Pengaruh Ukuran Sampel terhadap Type II Error

  • Hubungan Matematis

Ukuran sampel berhubungan langsung dengan kemampuan uji statistik dalam mendeteksi efek nyata:

\[ \text{Sample Size} \uparrow \Rightarrow \beta \downarrow \]

atau secara tidak langsung:

\[ \text{Sample Size} \uparrow \Rightarrow \text{Power} \uparrow \]

5.1.11 Penjelasan Konseptual

  • Sampel kecil → variabilitas tinggi → sinyal sulit dibedakan dari noise
  • Sampel besar → estimasi lebih stabil → perbedaan lebih mudah terdeteksi

5.1.12 Implikasi Praktis

Untuk mengurangi risiko Type II Error, fintech startup dapat: 1. Mengumpulkan data transaksi lebih banyak 2. Memperpanjang periode pengujian 3. Menggunakan metrik fraud yang lebih sensitif 4. Meningkatkan kualitas desain eksperimen

5.1.13 Hubungan antara α, β, dan Statistical Power

  • Definisi Statistical Power

Statistical Power adalah probabilitas untuk menolak hipotesis nol ketika hipotesis nol salah.

\[ \text{Power} = 1 - \beta \]

Power menunjukkan kemampuan sistem pengujian untuk mendeteksi efektivitas algoritma ketika efektivitas tersebut benar-benar ada.

5.1.14 Trade-off antara α dan β

  • Menurunkan α → meningkatkan kehati-hatian → β cenderung meningkat
  • Menaikkan α → menurunkan β → risiko false positive meningkat

Hubungan ini mencerminkan trade-off fundamental dalam pengujian hipotesis.

5.1.15 Strategi Optimal dalam Fraud Detection

Karena Type I Error lebih berbahaya:

  • α dijaga kecil (misalnya 0.01 atau 0.05)
  • Power ditingkatkan melalui:
    • ukuran sampel besar
    • algoritma yang sensitif
    • data berkualitas tinggi

5.1.16 Kesimpulan Akhir

Dalam pengujian efektivitas algoritma deteksi fraud, pemahaman mendalam terhadap Type I Error, Type II Error, dan statistical power sangat penting. Type I Error membawa risiko terbesar bagi fintech karena dapat menyebabkan rasa aman palsu dan kerugian finansial berkelanjutan. Oleh karena itu, perusahaan harus mengelola nilai α secara hati-hati dan meningkatkan power pengujian melalui desain eksperimen dan ukuran sampel yang memadai agar keputusan bisnis yang diambil benar-benar berbasis data dan aman secara operasional.

6 Case Study 6

P-Value and Statistical Decision Making

A churn prediction model evaluation yields the following results:

  • Test statistic = 2.31
  • p-value = 0.021
  • Significance level: \(\alpha = 0.05\)

Tasks

  1. Explain the meaning of the p-value.
  2. Make a statistical decision.
  3. Translate the decision into non-technical language for management.
  4. Discuss the risk if the sample is not representative.
  5. Explain why the p-value does not measure effect size.

6.1 Answer Study Case 6

6.1.1 Pendahuluan

Dalam konteks data science dan business analytics, p-value merupakan salah satu konsep paling penting namun juga paling sering disalahpahami. Pada studi kasus ini, sebuah model prediksi churn dievaluasi menggunakan pengujian statistik untuk menentukan apakah performa model tersebut menunjukkan hasil yang signifikan secara statistik atau hanya terjadi karena kebetulan.

Evaluasi ini sangat penting karena hasilnya akan memengaruhi keputusan bisnis, seperti:

  • penerapan model dalam sistem produksi,
  • perancangan strategi retensi pelanggan,
  • alokasi anggaran pemasaran.

Hasil evaluasi yang diperoleh adalah: - Test statistic = 2.31
- p-value = 0.021
- Significance level (α) = 0.05

6.1.2 Kerangka Hipotesis Statistik

Walaupun hipotesis tidak dituliskan secara eksplisit, secara implisit pengujian ini memiliki bentuk:

  • Hipotesis Nol (H₀): Model churn tidak memberikan peningkatan performa yang signifikan
  • Hipotesis Alternatif (H₁): Model churn memberikan peningkatan performa yang signifikan

Pengujian hipotesis dilakukan dengan tujuan untuk mengevaluasi apakah bukti dari data cukup kuat untuk menolak H₀.

6.1.3 Makna dan Definisi P-Value

  • Definisi Formal

p-value didefinisikan sebagai probabilitas untuk memperoleh nilai statistik uji yang sama ekstrem atau lebih ekstrem dibandingkan nilai yang diamati, dengan asumsi bahwa hipotesis nol adalah benar.

Secara matematis:

\[ \text{p-value} = P(\text{Test Statistic} \geq t_{\text{observed}} \mid H_0 \text{ benar}) \]

  • Penjelasan Konseptual

Nilai p-value menjawab pertanyaan berikut:

“Jika model churn sebenarnya tidak lebih baik dari baseline, seberapa besar kemungkinan kita mendapatkan hasil sekuat ini hanya karena variasi acak data?”

Dengan p-value = 0.021, artinya: - hanya terdapat 2.1% kemungkinan hasil ini terjadi jika H₀ benar - bukti terhadap H₀ tergolong cukup kuat

6.1.4 Hubungan antara Test Statistic dan P-Value

Test statistic (misalnya z-score atau t-score) mengukur jarak hasil observasi dari nilai yang diharapkan di bawah H₀, dinormalisasi oleh variabilitas data.

Secara umum:

\[ \text{Test Statistic} = \frac{\text{Estimasi} - \text{Nilai H}_0}{\text{Standard Error}} \]

Semakin besar nilai absolut test statistic:

  • semakin jauh hasil observasi dari H₀
  • semakin kecil p-value

6.1.5 Keputusan Statistik

  • Aturan Keputusan

Aturan standar pengujian hipotesis:

  • Jika p-value ≤ α → Tolak H₀

  • Jika p-value > α → Gagal menolak H₀

  • Penerapan pada Kasus

\[ \text{p-value} = 0.021 < \alpha = 0.05 \]

👉 Keputusan Statistik:
Hipotesis nol (H₀) ditolak

6.1.6 Interpretasi Statistik

Penolakan H₀ menunjukkan bahwa: - data memberikan bukti yang cukup kuat - performa model churn tidak dapat dijelaskan hanya oleh kebetulan - terdapat indikasi peningkatan performa yang signifikan secara statistik

6.1.7 Interpretasi Non-Teknis untuk Manajemen

Dalam bahasa manajemen, hasil ini dapat dijelaskan sebagai berikut:

“Hasil evaluasi menunjukkan bahwa performa model churn ini sangat kecil kemungkinannya terjadi secara kebetulan. Dengan kata lain, model ini menunjukkan sinyal yang nyata dan dapat dipercaya untuk membantu pengambilan keputusan bisnis.”

Namun, perlu ditekankan bahwa:

  • signifikansi statistik bukan satu-satunya kriteria
  • dampak bisnis tetap harus dianalisis lebih lanjut

6.1.8 Risiko Jika Sampel Tidak Representatif

  • Definisi Sampel Representatif

Sampel representatif adalah sampel yang mencerminkan:

  • distribusi karakteristik pelanggan
  • variasi perilaku pengguna
  • kondisi nyata populasi target

6.1.9 Dampak Statistik

Jika sampel tidak representatif:

  • p-value tetap dapat kecil
  • hasil uji tampak signifikan
  • tetapi inferensi ke populasi menjadi tidak valid

6.1.10 Dampak Bisnis

Risiko bisnis yang mungkin terjadi: - model hanya efektif pada segmen tertentu - strategi retensi gagal saat diterapkan secara luas - keputusan berbasis data menjadi menyesatkan

👉 Kesimpulan penting:
Validitas statistik harus selalu dibarengi dengan validitas data.

6.1.11 Mengapa P-Value Tidak Mengukur Effect Size

  • Perbedaan Fundamental

p-value hanya mengukur kekuatan bukti terhadap H₀, sedangkan effect size mengukur besar dampak nyata.

\[ \text{Signifikan secara statistik} \;\;\neq\;\; \text{Signifikan secara bisnis} \]

  • Ilustrasi Konseptual

  • Sampel besar + efek kecil → p-value bisa sangat kecil

  • Sampel kecil + efek besar → p-value bisa besar

Artinya, p-value sangat dipengaruhi oleh ukuran sampel.

6.1.12 Contoh Ukuran Effect Size

Beberapa ukuran effect size yang umum digunakan: - Cohen’s d
\[ d = \frac{\bar{x}_1 - \bar{x}_2}{s} \]

  • Lift
  • Odds Ratio
  • AUC (untuk model churn)

Ukuran-ukuran ini tidak tercermin dalam p-value.

6.1.13 Kesimpulan Akhir

“Dalam evaluasi model churn, p-value berperan sebagai alat untuk mengukur kekuatan bukti statistik terhadap hipotesis nol. Pada studi kasus ini, p-value yang lebih kecil dari tingkat signifikansi menunjukkan bahwa performa model tidak terjadi secara kebetulan. Namun, keputusan bisnis yang matang harus mempertimbangkan representativitas data, ukuran efek, serta dampak praktis terhadap strategi perusahaan. Dengan demikian, p-value sebaiknya dipahami sebagai bagian dari kerangka pengambilan keputusan yang lebih luas, bukan sebagai satu-satunya indikator keberhasilan model.”