Statistical Inferences

Assignment ~ Week 14

Boma Satrio
Wicaksono D.

Junior Data Scientist

Institut Teknologi Sains Bandung (ITSB)
NIM: 52250061

CREATIVITY

DATA SCIENCE

INSPIRATIONAL

Pendahuluan

Statistik inferensial memegang peranan penting dalam pengambilan keputusan berbasis data, terutama dalam konteks bisnis dan teknologi digital. Melalui statistik inferensial, perusahaan dapat menarik kesimpulan tentang populasi berdasarkan data sampel, menguji klaim, serta mengevaluasi efektivitas strategi atau model yang diterapkan.

Dalam laporan ini, dibahas enam studi kasus yang merepresentasikan penerapan utama statistik inferensial dalam dunia nyata, khususnya pada bidang digital analytics, product experimentation, dan decision making. Keenam studi kasus tersebut meliputi uji satu sampel (Z-test dan t-test), uji dua sampel (A/B testing), uji independensi Chi-Square, kesalahan statistik (Type I dan Type II Error), serta interpretasi p-value dalam konteks bisnis.

Tujuan utama dari pembahasan ini adalah untuk memahami tidak hanya perhitungan statistik secara teknis, tetapi juga makna dan implikasinya dalam pengambilan keputusan manajerial.

Case Study 1

1.1 One-Sample Z-Test (Statistical Hypotheses)
A digital learning platform claims that the average daily study time of its users is 120 minutes. Based on historical records, the population standard deviation is known to be 15 minutes.

A random sample of 64 users shows an average study time of 116 minutes. \[ \mu_0 = 120 \] \[ \sigma = 15 \] \[ n = 64 \] \[ \bar{x} = 116 \]

1.2 Tasks
1. Formulate the Null Hypothesis (H₀) and Alternative Hypothesis (H₁).
2. Identify the appropriate statistical test and justify your choice.
3. Compute the test statistic and p-value using α=0.05.
4. State the statistical decision.
5. Interpret the result in a business analytics context.

1. Formulate the Null Hypothesis (H₀) and Alternative Hypothesis (H₁).

Karena perusahaan mengklaim rata-rata = 120 menit, dan kita ingin mengecek apakah data berbeda dari klaim perusahaan, maka digunakan uji dua arah (two-tailed).

H₀ (Hipotesis Nol): Rata-rata waktu belajar pengguna sama dengan 120 menit

\[ H_0 : \mu = 120 \]

H₁ (Hipotesis Alternatif): Rata-rata waktu belajar pengguna tidak sama dengan 120 menit

\[ H_1 : \mu \neq 120 \]

2. Identify the appropriate statistical test and justify your choice.

Uji statistik yang digunakan adalah Uji Z Satu Sampel.

Alasan:

Standar deviasi populasi diketahui (σ = 15)
Ukuran sampel cukup besar (n = 64 ≥ 30)
Menguji rata-rata sampel terhadap rata-rata populasi

3. Compute the test statistic and p-value using α=0.05.

Diketahui: \(\mu = 120\), \(\sigma = 15\), \(\bar{x} = 116\), \(n = 64\), dan \(\alpha = 0.05\).

Rumus statistik uji:

\[ z = \frac{\bar{x} - \mu_0}{\sigma / \sqrt{n}} \]

Substitusi nilai:

\[ z = \frac{116 - 120}{15 / \sqrt{64}} \]

Penyederhanaan:

\[ z = \frac{-4}{15 / 8} \]

\[ z = \frac{-4}{1.875} \]

Hasil akhir:

\[ z = -2.13 \]

Menghitung p-value
Karena ini adalah uji dua arah (two-tailed), kita mencari probabilitas nilai \(Z\) yang lebih kecil dari -2.133 dan lebih besar dari 2.133.
- Berdasarkan tabel distribusi Z standar, luas area di bawah \(-2.133\) adalah sekitar \(0.0165\).
- p-value \(= 2 \times 0.0165 = \mathbf{0.033}\)

4. State the statistical decision.

library(knitr)

hasil_uji_z <- data.frame(
  Komponen = c(
    "Batas Kritis (Z)",
    "Hasil Hitung (Z)",
    "p-value"
  ),
  Nilai = c(
    "± 1.96",
    "-2.133",
    "0.033"
  ),
  Keterangan = c(
    "Garis batas untuk tingkat kepercayaan 95%",
    "Jatuh di luar batas, maka H0 ditolak",
    "Lebih kecil dari 0.05, menunjukkan hasil signifikan"
  )
)

kable(
  hasil_uji_z,
  caption = "Ringkasan Hasil One-Sample Z-Test",
  align = "lcccc"
)

Ringkasan Hasil One-Sample Z-Test
Komponen	Nilai	Keterangan
Batas Kritis (Z)	± 1.96	Garis batas untuk tingkat kepercayaan 95%
Hasil Hitung (Z)	-2.133	Jatuh di luar batas, maka H0 ditolak
p-value	0.033	Lebih kecil dari 0.05, menunjukkan hasil signifikan

# 1. Parameter Data
mu <- 120
sigma <- 15
n <- 64
x_bar <- 116
alpha <- 0.05

# 2. Hitung Statistik
z_score <- (x_bar - mu) / (sigma / sqrt(n))
z_crit <- qnorm(1 - alpha/2) # Nilai kritis untuk dua arah (1.96)

# 3. Membuat Data untuk Kurva
x <- seq(-4, 4, length=1000)
y <- dnorm(x)
df <- data.frame(x, y)

# 4. Visualisasi dengan ggplot2
library(ggplot2)

ggplot(df, aes(x, y)) +
  geom_line(size = 1) +
  # Arsiran Daerah Penolakan (Kiri)
  geom_area(data = subset(df, x <= -z_crit), fill = "red", alpha = 0.5) +
  # Arsiran Daerah Penolakan (Kanan)
  geom_area(data = subset(df, x >= z_crit), fill = "red", alpha = 0.5) +
  # Garis Nilai Z-hitung (Posisi Sampel)
  geom_vline(xintercept = z_score, color = "blue", linetype = "dashed", size = 1) +
  # Label dan Judul
  labs(title = "Visualisasi Uji Z: Klaim Waktu Belajar",
       subtitle = paste("Z-score =", round(z_score, 3), "(Berada di Zona Merah/Penolakan)"),
       x = "Standar Deviasi (Z)",
       y = "Density") +
  annotate("text", x = z_score, y = 0.2, label = "Z-Hitung (-2.13)", color = "blue", angle = 90, vjust = -0.5) +
  theme_minimal()

Penjelasan Grafik Tersebut:
1. Area Merah: Adalah “zona larangan”. Jika garis biru (data kita) masuk ke sini, artinya klaim platform salah.
2. Garis Putus-putus Biru: Ini adalah representasi dari rata-rata 116 menit kita. Karena ia jatuh di area merah sebelah kiri, secara visual terlihat jelas bahwa angka 116 terlalu jauh dari 120.

Karena p-value lebih kecil dari tingkat signifikansi (\(\alpha\)), kita memiliki bukti statistik yang cukup untuk menolak klaim platform tersebut.
- Bandingkan p-value dengan \(\alpha\): \(0.033 < 0.05\).
- Keputusan: Tolak Hipotesis Nol (\(H_0\)).

5. Interpret the result in a business analytics context.

Dalam konteks analisis bisnis, hasil ini menunjukkan bahwa klaim platform pembelajaran digital tentang rata-rata waktu belajar 120 menit adalah tidak akurat secara statistik.

Berdasarkan data sampel, pengguna sebenarnya belajar dalam durasi yang secara signifikan lebih rendah (116 menit) daripada yang dipromosikan.Perusahaan perlu mengevaluasi kembali klaim pemasaran dan tim pemasaran atau produk sebaiknya:

Meninjau ulang materi promosi agar lebih sesuai dengan realitas data.
Melakukan evaluasi fitur untuk meningkatkan keterlibatan (engagement) pengguna agar durasi belajar meningkat mendekati target 120 menit.

Case Study 2

2.1 One-Sample T-Test (σ Unknown, Small Sample)
A UX Research Team investigates whether the average task completion time of a new application differs from 10 minutes.

The following data are collected from 10 users: \[9.2,10.5,9.8,10.1,9.6,10.3,9.9,9.7,10.0,9.5\]

2.2 Tasks
1. Define H₀ and H₁ (two-tailed).
2. Determine the appropriate hypothesis test.
3. Calculate the t-statistic and p-value at α=0.05.
4. Make a statistical decision.
5. Explain how sample size affects inferential reliability.

1. Define H₀ and H₁ (two-tailed).

Kita ingin menguji apakah rata-rata waktu penyelesaian tugas berbeda dari 10 menit.

H₀ (Hipotesis Nol): Rata-rata waktu yang dibutuhkan pengguna untuk menyelesaikan tugas di aplikasi ini sekitar 10 menit, sesuai dengan yang diharapkan.
H₁ (Hipotesis Alternatif): Rata-rata waktu yang dibutuhkan pengguna untuk menyelesaikan tugas di aplikasi ini bisa lebih cepat atau lebih lama dari 10 menit.

2. Determine the appropriate hypothesis test.

Uji yang digunakan adalah One-Sample T-Test.

Alasan:

Standar deviasi populasi (\(\sigma\)) tidak diketahui. Kita hanya punya data sampel untuk menghitung standar deviasi sampel (\(s\)).
Ukuran sampel sangat kecil (\(n = 10\)), yaitu kurang dari 30.
Data berskala numerik dan berfokus pada rata-rata

3. Calculate the t-statistic and p-value at α=0.05.

Didapat : \(\bar{x} = 9.86\), \(s = 0.395\), \(n = 10\), \(df :n - 1 = 9\)

Rumus Statistik Uji t \[ t = \frac{\bar{x} - \mu_0}{s / \sqrt{n}} \]

Substitusi Nilai \[ t = \frac{9.86 - 10}{0.386 / \sqrt{10}} \]

Penyederhanaan \[ t \approx \frac{-0.14}{0.122} \]

Hasil Akhir \[ t \approx -1.15 \]

p-value (α = 0.05) \[ t = -1.15, \quad df = 9 \] Menggunakan tabel distribusi t atau software (seperti R atau Excel), ditemukan \(p\text{-value} \approx 0.28\)

4. Make a statistical decision.

library(ggplot2)

# Data hasil observasi
waktu_ux <- c(9.2, 10.5, 9.8, 10.1, 9.6, 10.3, 9.9, 9.7, 10.0, 9.5)
mu_target <- 10
alpha <- 0.05

# Perhitungan statistik dasar
n <- length(waktu_ux)
rata_rata <- mean(waktu_ux)
sd_sampel <- sd(waktu_ux)
t_hitung <- (rata_rata - mu_target) / (sd_sampel / sqrt(n))
df <- n - 1
p_value <- 2 * pt(-abs(t_hitung), df)

# Membuat data untuk kurva
x <- seq(-4, 4, length.out = 1000)
y <- dt(x, df)
df_plot <- data.frame(x, y)

# Menentukan batas kritis t
t_kritis <- qt(1 - alpha/2, df)

ggplot(df_plot, aes(x = x, y = y)) +
  geom_line(color = "black", size = 1) +
  # Arsiran Daerah Penolakan Kiri
  geom_area(data = subset(df_plot, x <= -t_kritis), fill = "red", alpha = 0.5) +
  # Arsiran Daerah Penolakan Kanan
  geom_area(data = subset(df_plot, x >= t_kritis), fill = "red", alpha = 0.5) +
  # Garis T-hitung
  geom_vline(xintercept = t_hitung, color = "blue", linetype = "dashed", size = 1) +
  # Labeling
  labs(title = "Kurva Distribusi T (df = 9)",
       subtitle = paste("T-Hitung:", round(t_hitung, 3), "| P-Value:", round(p_value, 4)),
       x = "T-Score",
       y = "Density") +
  annotate("text", x = t_hitung, y = 0.2, label = "T-Hitung Kita", color = "blue", angle = 90, vjust = -0.5) +
  annotate("text", x = 2.5, y = 0.05, label = "Daerah\nPenolakan", color = "red") +
  theme_minimal()

Penjelasan Grafik Tersebut:
1. Area Putih (Tengah): Zona Aman. Jika hasil tes ada di sini, artinya data kita masih dianggap “normal” atau sesuai target.
2. Area Merah (Ujung): Zona Signifikan. Jika hasil tes masuk ke sini, artinya aplikasi Anda benar-benar mengalami perubahan performa.
3. Garis Biru (Hasil Kita): Garis biru kita berhenti di Area Putih.
4. Kesimpulan Visual: Jarak antara 9,86 menit (kenyataan) dan 10 menit (target) tidak cukup jauh untuk dianggap sebagai masalah. Performa aplikasi dianggap masih sesuai target.

Berdasarkan hasil di atas:

Nilai \(\alpha\): 0.05
p-value: 0.2915
Keputusan: Karena p-value > 0.05, maka kita Gagal Menolak \(H_0\).

5. Explain how sample size affects inferential reliability.

Ukuran sampel (\(n\)) memiliki dampak krusial pada keandalan penelitian:

Margin of Error: Semakin kecil sampel, semakin besar standar error. Ini membuat estimasi kita kurang presisi.
Kekuatan Statistik (Statistical Power): Dengan hanya 10 pengguna, tes ini memiliki “power” yang rendah untuk mendeteksi perbedaan kecil. Jika sebenarnya ada masalah pada UX aplikasi, sampel kecil mungkin gagal mendeteksinya (Risiko Tipe II).
Representativitas: Sampel yang kecil lebih rentan terhadap outlier (data ekstrem). Satu pengguna yang sangat lambat atau sangat cepat akan menggeser rata-rata secara drastis dibandingkan jika kita memiliki 100 pengguna.

Case Study 3

3.1 Two-Sample T-Test (A/B Testing)
A product analytics team conducts an A/B test to compare the average session duration (minutes) between two versions of a landing page.

library(knitr)

data_version <- data.frame(
  Version = c("A", "B"),
  `Sample Size (n)` = c(25, 25),
  Mean = c(4.8, 5.4),
  `Standard Deviation` = c(1.2, 1.4)
)

kable(
  data_version,
  caption = "Ringkasan Statistik Deskriptif Versi A dan B",
  align = "lccc"
)

Ringkasan Statistik Deskriptif Versi A dan B
Version	Sample.Size..n.	Mean	Standard.Deviation
A	25	4.8	1.2
B	25	5.4	1.4

3.2 Tasks
1. Formulate the null and alternative hypotheses.
2. Identify the type of t-test required.
3. Compute the test statistic and p-value.
4. Draw a statistical conclusion at α=0.05.
5. Interpret the result for product decision-making.

1. Formulate the null and alternative hypotheses.

Kita ingin menguji apakah ada perbedaan yang signifikan antara rata-rata durasi sesi di Versi A dan Versi B.

H₀ (Hipotesis Nol): Rata-rata durasi sesi pengguna pada versi A sama dengan versi B. \[ H_0 : \mu_A = \mu_B \]
H₁ (Hipotesis Alternatif): Rata-rata durasi sesi pengguna pada versi A berbeda dengan versi B. \[ H_1 : \mu_A \neq \mu_B \]

2. Identify the type of t-test required.

Uji yang digunakan adalah Independent Two-Sample T-Test.

Alasan:

Kita membandingkan rata-rata dari dua kelompok yang berbeda (Versi A dan Versi B).
Data di Versi A tidak bergantung pada data di Versi B (Independent).
Karena standar deviasi sampel mirip (\(1.2\) dan \(1.4\)), kita dapat mengasumsikan varians yang sama (Pooled Variance).

3. Compute the test statistic and p-value.

Diketahui: - Versi A: \(\bar{x}_1 = 4.8\), \(s_1 = 1.2\), \(n_1 = 25\) - Versi B: \(\bar{x}_2 = 5.4\), \(s_2 = 1.4\), \(n_2 = 25\) - \(\alpha = 0.05\), \(df = (n_1 + n_2 - 2) = 48\)

Langkah 1: Hitung Pooled Standard Deviation (\(s_p\))

Rumus Pooled Standard Deviation \[s_p = \sqrt{\frac{(n_1-1)s_1^2 + (n_2-1)s_2^2}{n_1+n_2-2}}\] Substitusi Nilai \[s_p = \sqrt{\frac{(24 \times 1.44) + (24 \times 1.96)}{48}} = \sqrt{\frac{34.56 + 47.04}{48}} = \sqrt{1.7} \approx 1.304\]

Langkah 2: Hitung t-statistik

Rumus Welch Two-Sample t-test \[t = \frac{\bar{x}_2 - \bar{x}_1}{s_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}}\] Substitusi Nilai \[t = \frac{5.4 - 4.8}{1.304 \sqrt{\frac{2}{25}}} = \frac{0.6}{1.304 \times 0.2828} = \frac{0.6}{0.368} \approx \mathbf{1.63}\]

Langkah 3: Tentukan p-value

Menggunakan tabel distribusi-t dengan \(df = 48\), nilai \(t = 1.63\) menghasilkan:
- p-value \(\approx 0.109\) (Dua arah).

4. Draw a statistical conclusion at α=0.05.

library(ggplot2)

# Input Data
n1 <- 25; m1 <- 4.8; sd1 <- 1.2
n2 <- 25; m2 <- 5.4; sd2 <- 1.4
alpha <- 0.05

# Pooled Standard Deviation
sp <- sqrt(((n1-1)*sd1^2 + (n2-1)*sd2^2) / (n1+n2-2))

# T-Statistic
t_stat <- (m2 - m1) / (sp * sqrt(1/n1 + 1/n2))
df <- n1 + n2 - 2
p_val <- 2 * (1 - pt(abs(t_stat), df))
t_crit <- qt(1 - alpha/2, df)

x <- seq(-4, 4, length.out = 1000)
y <- dt(x, df)
df_plot <- data.frame(x, y)

ggplot(df_plot, aes(x = x, y = y)) +
  geom_line(size = 1) +
  # Daerah Penolakan
  geom_area(data = subset(df_plot, x <= -t_crit), fill = "red", alpha = 0.5) +
  geom_area(data = subset(df_plot, x >= t_crit), fill = "red", alpha = 0.5) +
  # Garis T-Statistik (Hasil Kita)
  geom_vline(xintercept = t_stat, color = "blue", linetype = "dashed", size = 1.2) +
  labs(title = "Uji-t Dua Sampel (A/B Test)",
       subtitle = paste("T-Statistik:", round(t_stat, 3), "| P-Value:", round(p_val, 4)),
       x = "T-Score", y = "Density") +
  annotate("text", x = t_stat, y = 0.2, label = "Hasil A/B Test", color = "blue", angle = 90, vjust = -0.5) +
  theme_minimal()

Penjelasan Grafik Tersebut:
1. Daerah Merah (Critical Region): Ini adalah batas di mana perbedaan dianggap “Luar Biasa”. Nilai t-kritisnya adalah sekitar \(\pm 2.01\).
2. Garis Biru (Hasil A/B Test): Garis biru berada di angka 1.63.
* Secara visual, garis biru tidak masuk ke area merah.
* Artinya, kenaikan durasi dari 4.8 ke 5.4 menit belum cukup kuat secara statistik untuk dijadikan dasar penggantian desain landing page.
3. Kesimpulan Praktis: Perbedaan yang ada kemungkinan besar hanyalah variasi acak. Tim disarankan untuk menambah jumlah sampel atau menjalankan tes lebih lama.

Bandingkan p-value dengan \(\alpha\): \(0.109 > 0.05\)
Keputusan: Gagal Menolak \(H_0\) (Terima \(H_0\)).

Meskipun Versi B memiliki angka rata-rata yang lebih tinggi (\(5.4\) vs \(4.8\)), perbedaan ini tidak cukup kuat secara statistik untuk menyatakan bahwa salah satu versi lebih baik daripada yang lain.

5. Interpret the result for product decision-making.

Dari perspektif product decision-making, berikut adalah sarannya:

Secara praktis, Versi B memang memiliki rata-rata durasi sesi lebih tinggi (5.4 vs 4.8 menit). Namun, perbedaan tersebut belum cukup kuat secara statistik. Bisa jadi perbedaan muncul karena variabilitas data dan ukuran sampel. Dan belum cukup bukti untuk mengganti versi A dengan versi B

Disarankan: - Menambah ukuran sampel - Menguji metrik lain (conversion rate, bounce rate) - Menjalankan eksperimen lebih lama

Meskipun versi B terlihat lebih baik secara rata-rata, secara statistik belum ada bukti kuat bahwa versi B benar-benar mengungguli versi A.

Case Study 4

4.1 Chi-Square Test of Independence An e-commerce company examines whether device type is associated with payment method preference.

library(knitr)

data_payment <- data.frame(
  `Device / Payment` = c("Mobile", "Desktop"),
  `E-Wallet` = c(120, 60),
  `Credit Card` = c(80, 90),
  `Cash on Delivery` = c(50, 40)
)

kable(
  data_payment,
  caption = "Distribusi Metode Pembayaran Berdasarkan Perangkat",
  align = "lccc"
)

Distribusi Metode Pembayaran Berdasarkan Perangkat
Device…Payment	E.Wallet	Credit.Card	Cash.on.Delivery
Mobile	120	80	50
Desktop	60	90	40

4.2 Tasks
1. State the Null Hypothesis (H₀) and Alternative Hypothesis (H₁).
2. Identify the appropriate statistical test.
3. Compute the Chi-Square statistic (χ²).
4. Determine the p-value at α=0.05.
5. Interpret the results in terms of digital payment strategy.

1. State the Null Hypothesis (H₀) and Alternative Hypothesis (H₁).

Hipotesis Nol (\(H_0\)):
“Tidak ada hubungan antara jenis perangkat (Mobile/Desktop) dengan preferensi metode pembayaran. Keduanya saling independen (tidak saling memengaruhi).” \[ H_0 : \text{Device type dan payment method saling independen} \]
Hipotesis Alternatif (\(H_1\)):
“Terdapat hubungan yang signifikan antara jenis perangkat dengan preferensi metode pembayaran. Pilihan metode pembayaran bergantung pada perangkat yang digunakan.” \[ H_1 : \text{Device type dan payment method tidak independen} \]

2. Identify the appropriate statistical test.

Uji yang digunakan adalah Chi-Square Test of Independence.

Alasan:

Kedua variabel (Perangkat dan Metode Pembayaran) adalah data kategorik (nominal).
Disajikan dalam tabel kontingensi.
Tujuannya adalah melihat apakah frekuensi yang diamati dalam tabel (Mobile vs Desktop) berbeda secara signifikan dari apa yang diharapkan jika tidak ada hubungan sama sekali. atau Ingin menguji hubungan/asosiasi antar dua variabel kategorik

3. Compute the Chi-Square statistic (χ²).

Langkah 1: Data Observasi (O)

library(knitr)

tabel_observasi <- data.frame(
  Device = c("Mobile", "Desktop", "Total"),
  `E-Wallet` = c(120, 60, 180),
  `Credit Card` = c(80, 90, 170),
  COD = c(50, 40, 90),
  Total = c(250, 190, 440)
)

kable(
  tabel_observasi,
  caption = "Tabel Observed Frequency (O)",
  align = "lcccc"
)

Tabel Observed Frequency (O)
Device	E.Wallet	Credit.Card	COD	Total
Mobile	120	80	50	250
Desktop	60	90	40	190
Total	180	170	90	440

Total keseluruhan = 440

Langkah 2: Hitung Frekuensi Harapan (E)

Frekuensi harapan adalah nilai yang diharapkan muncul jika Device dan Payment Method TIDAK saling berhubungan.

Rumus Frekuensi Harapan \[ E_{ij} = \frac{(\text{Total Baris}_i)(\text{Total Kolom}_j)}{\text{Total Keseluruhan}} \]

Contoh Perhitungan Frekuensi Harapan (E)

Mobile – E-Wallet \[ E = \frac{250 \times 180}{440} = 102.27 \]
Mobile – Credit Card \[ E = \frac{250 \times 170}{440} = 96.59 \]
Mobile – COD \[ E = \frac{250 \times 90}{440} = 51.14 \]
Desktop – E-Wallet \[ E = \frac{190 \times 180}{440} = 77.73 \]
Desktop – Credit Card \[ E = \frac{190 \times 170}{440} = 73.41 \]
Desktop – COD \[ E = \frac{190 \times 90}{440} = 38.86 \]

library(knitr)

tabel_harapan <- data.frame(
  Device = c("Mobile", "Desktop"),
  `E-Wallet` = c(102.27, 77.73),
  `Credit Card` = c(96.59, 73.41),
  COD = c(51.14, 38.86)
)

kable(
  tabel_harapan,
  caption = "Tabel Frekuensi Harapan (Expected Frequency)",
  align = "lccc",
  digits = 2
)

Tabel Frekuensi Harapan (Expected Frequency)
Device	E.Wallet	Credit.Card	COD
Mobile	102.27	96.59	51.14
Desktop	77.73	73.41	38.86

Langkah 3: Hitung Nilai χ² per Sel

Rumus Statistik Chi-Square \[ \chi^2 = \sum \frac{(O - E)^2}{E} \]

Contoh Perhitungan Detail

Mobile – E-Wallet \[ \frac{(120 - 102.27)^2}{102.27} = \frac{(17.73)^2}{102.27} = 3.07 \]
Mobile – Credit Card \[ \frac{(80 - 96.59)^2}{96.59} = 2.85 \]
Mobile – COD \[ \frac{(50 - 51.14)^2}{51.14} = 0.03 \]
Desktop – E-Wallet \[ \frac{(60 - 77.73)^2}{77.73} = 4.04 \]
Desktop – Credit Card \[ \frac{(90 - 73.41)^2}{73.41} = 3.75 \]
Desktop – COD \[ \frac{(40 - 38.86)^2}{38.86} = 0.03 \]

Langkah 4: Jumlahkan Semua Nilai

\[ \chi^2 = 3.07 + 2.85 + 0.03 + 4.04 + 3.75 + 0.03 \] \[ \chi^2 \approx 10.56 \]

Derajat Kebebasan \[ df = (r-1)(c-1) = (2-1)(3-1) = 2 \]

4. Determine the p-value at α=0.05.

p-value (α = 0.05)
- χ² ≈ 10.56
- df = 2 \[ p\text{-value} \approx 0.005 \] Karena p-value < 0.05, hasilnya signifikan secara statistik.

library(ggplot2)

# Parameter
chi_stat <- 10.56
df_value <- 2
alpha <- 0.05
chi_crit <- qchisq(1 - alpha, df_value)
p_val <- 1 - pchisq(chi_stat, df_value)

# Membuat data kurva
x <- seq(0, 15, length.out = 1000)
y <- dchisq(x, df_value)
df_plot <- data.frame(x, y)

# Plotting
ggplot(df_plot, aes(x = x, y = y)) +
  geom_line(size = 1) +
  # Daerah Penolakan (Sisi Kanan)
  geom_area(data = subset(df_plot, x >= chi_crit), fill = "red", alpha = 0.5) +
  # Garis Chi-Square Hitung
  geom_vline(xintercept = chi_stat, color = "blue", linetype = "dashed", size = 1.2) +
  labs(title = "Distribusi Chi-Square (df = 2)",
       subtitle = paste("Chi-Square Hitung:", chi_stat, "| P-Value:", round(p_val, 4)),
       x = "Chi-Square Value",
       y = "Density") +
  annotate("text", x = chi_stat, y = 0.2, label = "Hasil Observasi", color = "blue", angle = 90, vjust = -0.5) +
  annotate("text", x = chi_crit + 1, y = 0.05, label = "Zona Penolakan", color = "red", hjust = 0) +
  theme_minimal()

Penjelasan Grafik:
1. Kurva: Menunjukkan distribusi Chi-Square dengan df=2. Bentuknya berbeda dari kurva normal karena Chi-Square selalu positif.<br. 2. Area Merah: Dimulai dari nilai kritis. Jika garis biru ada di sini, hubungan antar variabel dianggap nyata.
3. Garis Biru (10.56): Berada jauh di dalam Zona Penolakan. Ini membuktikan secara visual bahwa perangkat sangat memengaruhi cara orang membayar.

Keputusan: Karena P-Value < 0.05, kita \(\text{Tolak } H_0\).
Artinya, terdapat hubungan yang signifikan antara jenis perangkat dan metode pembayaran.

5. Interpret the results in terms of digital payment strategy.

Hasil ini menunjukkan adanya asosiasi yang sangat kuat (p-value sangat kecil). Secara praktis:

Optimasi Mobile: Pengguna Mobile jauh lebih banyak menggunakan E-Wallet (120 vs 60 di Desktop). Strategi bisnis harus memastikan alur pembayaran E-Wallet di aplikasi mobile sangat mulus (seamless).
Karakteristik Desktop: Pengguna Desktop masih cenderung menggunakan Credit Card. Tim produk bisa memprioritaskan fitur keamanan kartu atau fitur auto-save kartu di peramban (browser) desktop.
Kesimpulan Bisnis: Strategi pembayaran tidak bisa disamaratakan. E-commerce harus menyesuaikan metode pembayaran yang paling menonjol berdasarkan perangkat yang dideteksi saat pengguna melakukan checkout. Pengguna Mobile cenderung lebih banyak menggunakan E-Wallet sedangkan Pengguna Desktop relatif lebih sering memakai Credit Card. Preferensi pembayaran tidak acak, tapi dipengaruhi oleh perangkat.

Implikasi Strategis:

Prioritaskan E-Wallet UX di aplikasi mobile
Optimalkan Credit Card flow di desktop
Personalisasi metode pembayaran berdasarkan device

Case Study 5

5.1 Type I and Type II Errors (Conceptual) A fintech startup tests whether a new fraud detection algorithm reduces fraudulent transactions.

H₀: The new algorithm does not reduce fraud.
H₁: The new algorithm reduces fraud.

5.2 Tasks
1. Explain a Type I Error (α) in this context.
2. Explain a Type II Error (β) in this context.
3. Identify which error is more costly from a business perspective.
4. Discuss how sample size affects Type II Error.
5. Explain the relationship between α, β, and statistical power.

1. Explain a Type I Error (α) in this context.

Type I Error (False Positive): Terjadi ketika kita menolak \(H_0\), padahal \(H_1\) salah.

Dalam Konteks Ini: Startup menyimpulkan bahwa algoritma baru berhasil mengurangi penipuan (fraud), padahal kenyataannya algoritma tersebut tidak memberikan perubahan apa pun.
Analogi: Perusahaan mengira algoritma baru berhasil mengurangi fraud, padahal sebenarnya tidak.

📌 Intinya:False positive — mengira ada perbaikan, padahal tidak ada.

2. Explain a Type II Error (β) in this context.

Type II Error (False Negative): Terjadi ketika kita menerima 1\(H_0\), padahal 2\(H_0\) salah.

Dalam Konteks Ini: Startup menyimpulkan bahwa algoritma baru gagal (tidak ada pengurangan fraud), sehingga mereka tetap menggunakan sistem lama. Padahal, kenyataannya algoritma baru tersebut sangat efektif mengurangi fraud.
Analogi: Perusahaan mengira algoritma tidak efektif, padahal sebenarnya algoritma berhasil mengurangi fraud.

📌 Intinya:False negative — gagal melihat perbaikan yang sebenarnya ada.

3. Identify which error is more costly from a business perspective.

Dalam konteks Fintech Fraud Detection, Type II Error biasanya jauh lebih mahal secara bisnis.

Mengapa? Jika terjadi Type II Error, perusahaan membuang algoritma yang sebenarnya ampuh. Akibatnya, transaksi penipuan terus terjadi dalam jumlah besar, perusahaan kehilangan uang (kerugian finansial langsung), dan kepercayaan pelanggan menurun.
Sebaliknya, Type I Error mengakibatkan biaya pengembangan yang sia-sia untuk algoritma yang tidak efektif, namun setidaknya kerugiannya terukur (biaya R&D).

Dalam konteks Fintech Fraud Detection, Type II Error umumnya lebih mahal secara bisnis dibanding Type I Error, karena membiarkan kerugian finansial berulang akibat fraud yang seharusnya bisa dicegah. Namun kalu untuk “Mana yang lebih mahal?” jawabanya itu Tergantung konteks, tetapi dalam fraud detection, Type II Error biasanya lebih berbahaya.

Karena konteksnya beda.
Type I Error bisa lebih mahal kalau:

Algoritma sering memblokir transaksi sah
Customer churn tinggi
Bisnis sangat sensitif ke UX (misalnya e-wallet retail)

Type II Error lebih mahal kalau:

Nilai fraud besar
Volume transaksi tinggi
Risiko keuangan & regulasi tinggi

4. Discuss how sample size affects Type II Error.

Semakin Kecil Sampel (\(n\)): Risiko Type II Error meningkat. Dengan sedikit data, sulit bagi statistik untuk melihat perbedaan kecil namun nyata, sehingga kita cenderung menyimpulkan “tidak ada perubahan”(Sulit mendeteksi perbedaan nyata).
Semakin Besar Sampel (4\(n\)): Risiko Type II Error menurun.5 Data yang banyak membuat tes lebih sensitif untuk mendeteksi sekecil apa pun pengurangan fraud yang terjadi. Dan bisa membuat keputusan lebih andal.

📌 Intinya:Semakin besar sampel, semakin kecil kemungkinan melakukan Type II Error.

5. Explain the relationship between α, β, and statistical power.

Definisi Singkat

α (Alpha): Risiko Type I Error
β (Beta): Risiko Type II Error
Power = 1 − β

Ketiga elemen ini saling berkaitan dalam sebuah keseimbangan:

Trade-off \(\alpha\) dan \(\beta\): Jika kita mencoba memperketat \(\alpha\) (misal dari 0.05 ke 0.01) untuk menghindari Type I Error, maka risiko \(\beta\) (Type II Error) secara otomatis akan meningkat.
Statistical Power (6\(1 - \beta\)): Ini adalah kemampuan tes untuk mendeteksi efek yang benar-benar ada.
Hubungannya: Untuk menaikkan Statistical Power (menurunkan \(\beta\)) tanpa mengorbankan \(\alpha\), satu-satunya cara yang paling efektif adalah dengan meningkatkan ukuran sampel.
Menurunkan α → biasanya β naik (jika sampel tetap)
Menurunkan β → power naik
Menambah sampel → bisa menurunkan β tanpa menaikkan α

📌 Inti konsep:Statistical power menunjukkan seberapa besar peluang kita benar-benar mendeteksi efek yang nyata.

Case Study 6

6.1 P-Value and Statistical Decision Making
A churn prediction model evaluation yields the following results:

Test statistic = 2.31
p-value = 0.021
Significance level: α=0.05

6.2 Tasks
1. Explain the meaning of the p-value.
2. Make a statistical decision.
3. Translate the decision into non-technical language for management.
4. Discuss the risk if the sample is not representative.
5. Explain why the p-value does not measure effect size.

1. Explain the meaning of the p-value.

p-value adalah probabilitas mendapatkan hasil yang ekstrem (atau lebih ekstrem) jika kita mengasumsikan hipotesis nol (1\(H_0\)) benar.

Dalam Konteks Ini: Ada peluang sebesar 2,1% bahwa efektivitas model prediksi churn ini hanyalah sebuah kebetulan. Karena peluang kebetulan ini sangat kecil (di bawah 5%), kita merasa yakin bahwa model tersebut memang bekerja.

Dengan kata lain:

Hasil yang kita dapat cukup jarang terjadi secara kebetulan
Ada indikasi kuat bahwa model memang “berbeda” atau “berpengaruh”

p-value bukan:

Bukan peluang model benar
Bukan ukuran seberapa besar efeknya

2. Make a statistical decision.

Aturannya sederhana:

Jika p-value ≤ α → tolak H₀
Jika p-value > α → gagal menolak H₀

contoh:

Kondisi: 0.021<0.05
Keputusan: Tolak H₀ (Menolak Hipotesis Nol)
Kesimpulan: Terdapat bukti statistik yang cukup untuk menyatakan bahwa model prediksi churn tersebut memiliki performa yang signifikan secara statistik.

3. Translate the decision into non-technical language for management.

Menjelaskan statistik kepada manajemen adalah seni menerjemahkan angka menjadi keyakinan dan tindakan. Manajemen biasanya tidak terlalu peduli dengan nilai z-score atau p-value, mereka lebih peduli pada: “Apakah ini berhasil? Seberapa yakin kita? Apa risikonya?”

contoh:
Untuk menjelaskan hasil p-value = 0.021 (Tolak \(H_0\)), kita isa menggunakan tiga pendekatan ini:

Pendekatan “Keyakinan” (Confidence)
Daripada menyebut “p-value 0.021”, gunakan konsep tingkat keyakinan.

“Pak/Bu, setelah kita uji model prediksi churn ini, hasilnya menunjukkan tingkat keyakinan sebesar 97,9%. Artinya, hanya ada risiko sekitar 2% bahwa kesuksesan model ini hanyalah sebuah kebetulan. Secara standar industri, model ini sudah sangat solid untuk kita gunakan.”

Pendekatan “Risiko Salah Langkah” (Risk of Error)
Hubungkan dengan konsep Type I Error (salah sangka) dari video yang Anda pelajari.

“Jika kita memutuskan untuk memakai model ini sekarang, peluang kita salah (mengira model ini bagus padahal sebenarnya tidak) sangatlah kecil, yaitu hanya 2 dari 100 kejadian. Jadi, ini adalah investasi yang aman bagi kita untuk mengurangi pelanggan yang berhenti berlangganan.”

Pendekatan “Kepastian vs Kebetulan”
Manajemen sering khawatir hasil yang bagus hanyalah “beruntung” sesaat.

“Data menunjukkan bahwa performa model ini nyata. Perubahan angka yang kita lihat bukan karena faktor keberuntungan atau fluktuasi data harian, melainkan karena model memang berhasil mengenali pola pelanggan yang ingin berhenti.”

library(knitr)

kamus_statistik <- data.frame(
  `Istilah Statistik` = c(
    "P-Value < 0.05",
    "Signifikansi Statistik",
    "Tolak Hipotesis Nol (H₀)",
    "Gagal Tolak H₀"
  ),
  `Bahasa Manajemen (Lebih Mudah Dipahami)` = c(
    "Hasilnya signifikan dan sangat kecil kemungkinan ini terjadi karena kebetulan.",
    "Perubahan yang kita lihat itu nyata, bukan sekadar fluktuasi acak data.",
    "Kita punya bukti kuat bahwa strategi atau model baru ini bekerja.",
    "Data belum cukup membuktikan adanya perubahan; jangan buru-buru mengganti strategi."
  )
)

kable(
  kamus_statistik,
  caption = "Kamus Terjemahan Istilah Statistik ke Bahasa Bisnis",
  align = "ll"
)

Kamus Terjemahan Istilah Statistik ke Bahasa Bisnis
Istilah.Statistik	Bahasa.Manajemen..Lebih.Mudah.Dipahami.
P-Value < 0.05	Hasilnya signifikan dan sangat kecil kemungkinan ini terjadi karena kebetulan.
Signifikansi Statistik	Perubahan yang kita lihat itu nyata, bukan sekadar fluktuasi acak data.
Tolak Hipotesis Nol (H₀)	Kita punya bukti kuat bahwa strategi atau model baru ini bekerja.
Gagal Tolak H₀	Data belum cukup membuktikan adanya perubahan; jangan buru-buru mengganti strategi.

4. Discuss the risk if the sample is not representative.

Bagian ini sangat kritikal karena berhubungan dengan validitas atau keabsahan dari seluruh hasil kerja keras Anda. Jika sampel tidak representatif, semua angka statistik (seperti p-value 0.021 tadi) menjadi “kebohongan statistik”.

penjelasan lebih mendalam mengenai risiko jika sampel tidak representatif:

Fenomena “Garbage In, Garbage Out”
Dalam statistik, ada pepatah “Garbage In, Garbage Out” (Sampah yang masuk, sampah yang keluar).

Jika data (sampel) yang Anda masukkan ke dalam model prediksi churn adalah data yang “cacat” atau tidak mencerminkan populasi pelanggan yang sebenarnya, maka hasil prediksinya pun akan salah, meskipun secara hitung-hitungan matematikanya benar.

Risiko Generalisasi yang Salah (Bias)
Sampel yang tidak representatif menciptakan Bias.

Contoh Kasus: Jika model prediksi churn Anda hanya dilatih menggunakan data pelanggan yang menggunakan iPhone (karena datanya paling mudah ditarik), model tersebut mungkin terlihat sangat akurat untuk mereka.

Risikonya: Saat model diterapkan pada pengguna Android, model tersebut bisa gagal total karena perilaku pengguna Android mungkin berbeda. Anda memberikan perlakuan yang salah kepada jutaan orang.

Hubungan dengan Type I & Type II Error
Sampel yang tidak representatif mengacaukan manajemen risiko kita:

False Positive (Type I Error): Anda mengira model Anda hebat (signifikan), padahal dia hanya hebat di kelompok kecil yang Anda teliti. Anda membuang budget untuk skala besar, namun tidak ada hasil.

False Negative (Type II Error): Model sebenarnya bagus, tapi karena sampel Anda hanya berisi orang-orang dengan perilaku “aneh” (tidak umum), model terlihat gagal. Anda membuang inovasi yang sebenarnya potensial.

Dampak Strategis: Keputusan yang Menyesatkan
Manajemen mengambil keputusan berdasarkan laporan Anda. Jika sampelnya salah:

Perusahaan mungkin menghentikan program loyalitas yang sebenarnya disukai pelanggan umum, hanya karena sampel data Anda kebetulan berisi orang-orang yang tidak peduli pada poin/hadiah.

Karena itu penting untuk memastikan bahwa data yang digunakan dalam model churn ini mencakup berbagai segmen pelanggan (lama, baru, wilayah berbeda, jenis perangkat berbeda). Jika tidak, signifikansi statistik yang kita dapatkan (p-value 0.021) hanyalah angka kosong yang tidak bisa diterapkan di dunia nyata.

5. Explain why the p-value does not measure effect size.

Perbedaan Definisi Dasar

p-value: Menjawab pertanyaan: “Apakah perbedaan ini nyata atau hanya kebetulan?” (Hanya masalah Kepastian).
Effect Size: Menjawab pertanyaan: “Seberapa besar perbedaan tersebut dalam dunia nyata?” (Masalah Dampak Praktis).

Masalah Ukuran Sampel
p-value sangat sensitif terhadap jumlah sampel.

Jika Anda memiliki sampel yang sangat besar (misal 1 juta pengguna), perbedaan yang sangat kecil (misal penurunan churn hanya 0,01%) bisa menghasilkan p-value yang sangat kecil (misal 0.001).
Hasilnya: Secara statistik “Signifikan”, tapi secara bisnis “Tidak Terasa Efeknya”.

Analogi Sederhana: Kecepatan Mobil
Bayangkan Anda sedang menguji mesin baru untuk meningkatkan kecepatan mobil:

p-value: Memberi tahu Anda: “Ya, mesin baru ini memang membuat mobil lebih cepat secara konsisten (bukan karena angin atau jalanan turun).”
Effect Size: Memberi tahu Anda: “Kecepatannya bertambah berapa km/jam? Apakah 50 km/jam (Efek Besar) atau hanya 0,5 km/jam (Efek Kecil)?”

Jika mesin tersebut hanya menambah kecepatan 0,5 km/jam, meskipun “nyata” (p-value kecil), Anda mungkin tidak akan membelinya karena harganya mahal tapi manfaatnya tidak terasa.

Dampak bagi Pengambilan Keputusan (Manajemen)
Memahami hal ini mencegah perusahaan dari kesalahan strategi:

Risiko: Perusahaan menghabiskan miliaran rupiah untuk meluncurkan fitur baru karena p-value-nya signifikan, namun ternyata conversion rate hanya naik 0,01%.
Solusi: Selalu sandingkan p-value dengan Effect Size. Jika p-value kecil DAN effect size besar, itulah saatnya perusahaan melakukan investasi besar-besaran.

Kesimpulan

Berdasarkan enam studi kasus yang telah dibahas, dapat disimpulkan bahwa statistik inferensial merupakan alat penting dalam mendukung pengambilan keputusan berbasis data. Namun, hasil statistik tidak boleh ditafsirkan secara terpisah dari konteks bisnis, kualitas data, dan implikasi operasional. Dan berdasarkan hasil analisis dari keenam studi kasus, dapat ditarik beberapa poin kunci:

Signifikansi vs. Kebetulan: Penggunaan p-value pada kasus 1, 3, 4, dan 6 membuktikan bahwa statistik mampu memisahkan mana perubahan yang “nyata” (signifikan) dan mana yang hanya “derau” (noise) dari data.
Pentingnya Ukuran Sampel: Pada kasus 2 (UX Research), kita mempelajari bahwa sampel yang terlalu kecil meningkatkan risiko Type II Error, di mana kita gagal mendeteksi masalah nyata karena kurangnya bukti statistik.
Keterkaitan Antar Variabel: Melalui uji Chi-Square di kasus 4, terlihat jelas bahwa perilaku konsumen (metode pembayaran) sangat bergantung pada medium yang digunakan (perangkat), sehingga strategi pemasaran tidak boleh disama-ratakan (one-size-fits-all).
Integritas Data: Kasus 6 mengingatkan kita bahwa model secanggih apa pun akan gagal jika sampel tidak representatif atau jika kita hanya mengejar signifikansi statistik tanpa memperhatikan dampak nyata (effect size) bagi bisnis.

Secara keseluruhan, statistik memberikan batasan yang aman bagi perusahaan untuk berinovasi tanpa harus terjebak dalam asumsi yang salah.

Penggunaan uji statistik yang tepat, pemahaman terhadap kesalahan statistik, serta interpretasi hasil yang bijak akan membantu organisasi menghindari keputusan yang menyesatkan. Dengan demikian, statistik tidak hanya berfungsi sebagai alat analisis, tetapi juga sebagai fondasi rasional dalam strategi bisnis modern.

Referensi

Walpole, R. E., Myers, R. H., Myers, S. L., & Ye, K. (2017). Probability and Statistics for Engineers and Scientists (9th ed.). Pearson Education.
Montgomery, D. C., & Runger, G. C. (2018). Applied Statistics and Probability for Engineers (7th ed.). Wiley.
Devore, J. L. (2015). Probability and Statistics for Engineering and the Sciences (9th ed.). Cengage Learning.
James, G., Witten, D., Hastie, T., & Tibshirani, R. (2021). An Introduction to Statistical Learning (2nd ed.). Springer.
Field, A. (2018). Discovering Statistics Using R (2nd ed.). Sage Publications.

Referensi pendukung

https://bookdown.org/dsciencelabs/intro_statistics/09-Statistical_Inference.html
https://www.youtube.com/watch?v=a_l991xUAOU 365 Data Science. (2017). Type I error vs Type II error [Video]. YouTube.
https://gemini.google.com/app
https://chatgpt.com

Statistical Inferences

Assignment ~ Week 14