Clara Maisie Wanghili
52250039
Student Major in Data Science at
Institut Teknologi Sains Bandung
Introduction
Statistical Inference
Statistical Inference adalah proses menarik kesimpulan tentang suatu populasi berdasarkan informasi yang diperoleh dari sampel. Hal ini memungkinkan peneliti dan analis untuk membuat generalisasi, prediksi, dan keputusan dalam kondisi ketidakpastian, menjembatani kesenjangan antara data yang diamati dan populasi yang lebih luas. Tiga komponen utama inferensi statistik adalah Hipotesis Statistik, Metode Pengujian Hipotesis, dan Pengambilan Keputusan Statistik. Elemen-elemen kunci seperti Hipotesis Nol (\(H_{0}\)), Hipotesis Alternatif (\(H_{1}\)), Uji T, Uji Z, Uji dan Uji Chi-Square, untuk pengambilan keputusan disertakan, memberikan gambaran singkat tentang bagaimana hipotesis dirumuskan, diuji, dan digunakan untuk memandu keputusan statistik.
Hipotesis Statistik
Hipotesis statistik adalah pernyataan formal tentang parameter
populasi yang dapat diuji menggunakan data sampel. Hipotesis ini
menyediakan kerangka kerja untuk membuat keputusan objektif berdasarkan
bukti, membantu peneliti menentukan apakah efek yang diamati disebabkan
oleh variasi acak atau mewakili fenomena yang sebenarnya. Dalam
pengujian hipotesis, kita membandingkan Hipotesis Nol (\(H_{0}\)) dan Hipotesis Alternatif (\(H_{1}\)) untuk memutuskan pernyataan mana
yang lebih konsisten dengan data yang diamati.
Hipotesis Nol (\(H_{0}\)) berfungsi sebagai dasar atau titik acuan dalam pengujian hipotesis. Hipotesis ini mewakili asumsi bahwa tidak ada efek, tidak ada perbedaan, atau tidak ada hubungan dalam populasi.
Hipotesis Alternatif (\(\mathbf{H}_{\mathbf{1}}\) atau \(\mathbf{Ha}\)) merupakan pernyataan yang bertentangan dengan Hipotesis Nol (\(\mathbf{H}_{\mathbf{0}}\)). Hipotesis ini mencerminkan efek, perbedaan, atau hubungan dalam populasi.
Uji T
Uji T digunakan untuk membandingkan rata-rata sampel dengan nilai
yang diketahui atau untuk membandingkan rata-rata antara dua kelompok
ketika simpangan baku populasi tidak diketahui dan ukuran sampel relatif
kecil.
Jenis-jenis Uji T:
Uji T satu sampel: Membandingkan rata-rata sampel dengan nilai yang diketahui.
Uji T dua sampel independen: Membandingkan rata-rata dari dua kelompok independen.
Uji T Berpasangan: Membandingkan rata-rata pengamatan berpasangan (misalnya, pengukuran sebelum dan sesudah).
Uji Z
Uji Z digunakan untuk membandingkan rata-rata ketika simpangan baku
populasi diketahui atau ukuran sampel besar (n \(\ge\) 30). Uji ini mengasumsikan bahwa data
tersebut berdistribusi normal.
Jenis-jenis Uji Z:
Uji Z satu sampel: Membandingkan rata-rata sampel dengan rata-rata populasi yang diketahui.
Uji Z dua sampel: Membandingkan rata-rata dua populasi independen dengan simpangan baku yang diketahui.
Uji Chi-Square
Uji Chi-Square (Uji \(\chi ^{2}\))
digunakan untuk data kategorikal untuk memeriksa apakah distribusi
frekuensi yang diamati berbeda dari distribusi yang diharapkan.
Jenis-jenis Uji Chi-Square:
Uji Kecocokan: Menguji apakah variabel kategorikal tunggal mengikuti distribusi yang dihipotesiskan.
Uji Independensi: Menguji apakah dua variabel kategorikal bersifat independen.
Pengambilan Keputusan Statistik
Pengambilan Keputusan Statistik melibatkan penggunaan hasil uji
hipotesis untuk membuat keputusan yang tepat mengenai populasi. Setelah
melakukan Uji T, Uji Z, atau Uji Chi-Square, kita menginterpretasikan
nilai p dan memutuskan apakah akan menolak atau gagal menolak hipotesis
nol (\(H_{0}\)). Proses ini
memungkinkan kita untuk menarik kesimpulan sambil mempertimbangkan
risiko kesalahan. Langkah-langkah dalam Pengambilan Keputusan
Statistik:
1. Tetapkan tingkat signifikansi (\(\alpha\)):
Pilihan umum: 0,05 (5%), 0,01 (1%), atau 0,10 (10%).
Ini menentukan ambang batas untuk menolak \(H_{0}\).
2. Lakukan pengujian hipotesis:
Hitung statistik uji (T, Z, \(\chi ^{2}\)) berdasarkan data sampel.
Hitung nilai p.
3. Bandingkan nilai p dengan \(\alpha\):
Jika \(\text{p-value}<\alpha\), tolak \(H_{0}\).
Jika \(\text{p-value}\ge \alpha\), gagal menolak \(H_{0}\).
4. Pertimbangkan Type I Error dan Type II
Error:
Type I Error (\(\alpha\)): Menolak \(H_{0}\) padahal \(H_{0}\) benar.
Type II Error (\(\beta\)): Gagal menolak \(H_{0}\) ketika \(H_{0}\) salah.
Keseimbangan antara \(\alpha\) dan \(\beta\) penting untuk keandalan pengambilan keputusan.
1 Case Study 1
1.1 One-Sample Z-Test (Statistical Hypotheses)
A digital learning platform claims that the average daily study time of its users is 120 minutes. Based on historical records, the population standard deviation is known to be 15 minutes.
A random sample of 64 users shows an average study time of 116 minutes.
\[ \begin{eqnarray*} \mu_0 &=& 120 \\ \sigma &=& 15 \\ n &=& 64 \\ \bar{x} &=& 116 \end{eqnarray*} \]
1.2 Tasks
- Formulate the Null Hypothesis (H₀) and Alternative Hypothesis (H₁).
- Identify the appropriate statistical test and justify your choice.
- Compute the test statistic and p-value using \(\alpha = 0.05\).
- State the statistical decision.
- Interpret the result in a business analytics context.
1.2.1 Merumuskan Hipotesis
- Hipotesis Nol (\(H_{0}\)):
Rata-rata waktu belajar harian pengguna sama dengan 120 menit. \[\mu =120\] - Hipotesis Alternatif (\(H_{1}\)):
Rata-rata waktu belajar harian pengguna tidak sama dengan 120 menit. \[\mu \ne 120\]
1.2.2 Mengidentifikasi dan Membenarkan Uji Statistik
Jenis Uji:
Uji Z satu sampel (One-Sample
Z-Test).
Uji Z satu sampel digunakan karena standar deviasi populasi
yang diketahui (\(\sigma =15\)), ukuran
sampel (\(n=64 \ge 30\)), dan data yang
berupa numerik (waktu belajar).
1.2.3 Menghitung Uji Statistik dan Nilai p
Diketahui:
- \(\mu _{0}=120\)
- \(\sigma =15\)
- \(n=64\)
- \(\bar{x}=116\)
Kita menggunakan rumus statistik uji Z: \[
Z =\frac{\bar{x}-\mu _{0}}{\sigma /\sqrt{n}}
\] - Menghitung standar error \[\text{SE}=\frac{\sigma
}{\sqrt{n}}=\frac{15}{\sqrt{64}}=\frac{15}{8}=1.875\] -
Perhitungan uji Z Score \[\begin{align*}
Z &=\frac{\bar{x}-\mu _{0}}{\sigma /\sqrt{n}} \\
Z &= \frac{116-120}{15/\sqrt{n}} \\
&= \frac{-4}{15/8} \\
&= \frac{-4}{1.875} \\
&\approx -2.13
\end{align*}
\] Statistik uji Z yang dihitung adalah -2.13.
-
Menghitung nilai
Karena ini adalah uji dua sisi (\(H_{1}:\mu \ne 120\)), nilai-p adalah dua
kali probabilitas Z kurang dari nilai absolut statistik uji Z yang
dihitung. \(Z=-2.13\) atau \(Z=2.13\). \[\begin{align*}
Nilai\text{-p} &=2\times(Z<-|2.13|) \\
|2.13|&= 2.13 \\\\
\text{dari tabel dist normal z:}\\
P(Z \le 2.13) &\approx 0.0166\\
Nilai\space\text{-p}&= 2\times0.0166 \\
&\approx 0.0332
\end{align*}
\] Nilai-p adalah sekitar 0.0332.
1.2.4 Menyatakan Keputusan
Bandingkan nilai-p dengan tingkat signifikansi (\(\alpha\)) Aturan keputusan adalah: jika
nilai-p \(\le \alpha\), tolak hipotesis
nol (H₀).
Diketahui: \(\alpha =
0.05\)
Perbandingan:
\[\begin{align*}
Nilai\text{-p}(0.0332) &\le \alpha (0.05) \\
0.0332 &\le 0.05
\end{align*}
\] Karena nilai-p lebih kecil dari \(\alpha\), ini berarti menolak Hipotesis Nol
(\(H_{0}\)). Ada bukti statistik yang
signifikan untuk menyimpulkan bahwa rata-rata waktu belajar yang
sebenarnya berbeda dari 120 menit.
1.2.5 Interpretasi Dalam Konteks Analisis Bisnis
Hasil analisis menunjukkan bahwa klaim platform pembelajaran digital bahwa rata-rata waktu belajar harian penggunanya adalah 120 menit kemungkinan besar tidak benar (secara statistik signifikan berbeda pada tingkat signifikansi 5%). Data sampel menunjukkan rata-rata waktu belajar yang sebenarnya mungkin lebih rendah dari yang diklaim (116 menit vs 120 menit). Manajemen platform perlu menyelidiki lebih lanjut mengapa terjadi perbedaan ini, karena hal ini dapat berdampak pada metrik keterlibatan pengguna atau efektivitas pembelajaran yang diiklankan. Jadi, intinya klaim platform tersebut tidak didukung oleh data sampel; rata-rata waktu belajar kemungkinan berbeda signifikan dari 120 menit.
2 Case Study 2
2.1 One-Sample T-Test (σ Unknown, Small Sample)
A UX Research Team investigates whether the average task completion time of a new application differs from 10 minutes.
The following data are collected from 10 users:
\[ 9.2,\; 10.5,\; 9.8,\; 10.1,\; 9.6,\; 10.3,\; 9.9,\; 9.7,\; 10.0,\; 9.5 \]
2.2 Tasks
- Define H₀ and H₁ (two-tailed).
- Determine the appropriate hypothesis test.
- Calculate the t-statistic and p-value at \(\alpha = 0.05\).
- Make a statistical decision.
- Explain how sample size affects inferential reliability.
2.1.1 Definisi Hipotesis
Karena ingin mengetahui apakah rata-rata waktu berbeda dari 10 menit,
maka digunakan uji dua arah.
- Hipotesis Nol (\(H_{0}\)):
Hipotesis nol menyatakan bahwa rata-rata waktu penyelesaian tugas sama dengan 10 menit. \[\mu =10\] Hipotesis Alternatif (\(H_{1}\)):
Hipotesis alternatif (dua sisi) menyatakan bahwa rata-rata waktu penyelesaian tugas tidak sama dengan 10 menit. \[\mu \ne 10\]
2.2.2 Uji Hipotesis yang Sesuai
Uji hipotesis yang sesuai adalah uji-t satu sampel (one-sample t-test). Uji-t satu sampel digunakan ketika kita ingin membandingkan rata-rata sampel tunggal dengan nilai rata-rata populasi yang diketahui (dalam hal ini, 10 menit) ketika standar deviasi populasi (\(\mathbf{\sigma }\)) tidak diketahui dan ukuran sampel relatif kecil (\(\mathbf{n<30}\)). Kondisi ini sesuai dengan skenario yang dijelaskan dalam studi kasus.
2.2.3 Perhitungan Uji T dan Nilai p
Diketahui:
- Data sampel: 9.2, 10.5, 9.8, 10.1, 9.6, 10.3, 9.9, 9.7, 10.0,
9.5
- \(n=10\)
- Rata-rata populasi di bawah \(\mu
_{0}=10\)
- \(\alpha =0.05\)
- Hitung standar deviasi sampel (\(s\))
Tabel Selisih Data
| Data | Selisih | Kuadrat_Selisih |
|---|---|---|
| 9.2 | -0.66 | 0.4356 |
| 10.5 | 0.64 | 0.4096 |
| 9.8 | -0.06 | 0.0036 |
| 10.1 | 0.24 | 0.0576 |
| 9.6 | -0.26 | 0.0676 |
| 10.3 | 0.44 | 0.1936 |
| 9.9 | 0.04 | 0.0016 |
| 9.7 | -0.16 | 0.0256 |
| 10.0 | 0.14 | 0.0196 |
| 9.5 | -0.36 | 0.1296 |
Jumlah Kuadrat Deviasi
sum(tabel_sd$Kuadrat_Selisih)
## [1] 1.344
Jumlah kuadrat deviasi adalah 1.344 \[\sum (x_{i}-\bar{x})^{2} = 1.344\] \[\begin{align*}
s^{2} &=\frac{1.344}{10-1} \\
&=\frac{1.344}{9} \\
&\approx 0.1493 \\
&\\
s &=\sqrt{0.1494} \\
&\approx 0.39 \\
\text{Dibulatkan}\\
s &\approx 0.40
\end{align*}
\] Standar deviasi sampel sebesar 0,40 menunjukkan bahwa data
waktu penyelesaian tugas menyebar sekitar 0,40 menit dari
rata-ratanya.
- Hitung uji T \[\begin{align*}
t &=\frac{\bar{x}-\mu _{0}}{s/\sqrt{n}}\\
&=\frac{9.86-10}{0.40/\sqrt{10}} \\
&=\frac{-0.14}{0.40/3.16228} \\
&=\frac{-0.14}{0.12649}\\
&\approx -1,11
\end{align*}
\] Statistik uji t yang dihitung adalah -1.11
-
Tentukan nilai p
Untuk uji dua sisi dengan derajat
kebebasan (\(df\))
\(n-1\\10-1=9\)
Nilai p-value adalah
probabilitas mendapatkan nilai t yang sama ekstrem atau lebih ekstrem
dari nilai observasi, dengan asumsi H₀ benar.
Karena ini uji dua arah, maka: \[\begin{align*} Nilai\space\text{-p} &=2\times P\\ &(T<-|t|) \\ &|t|= 1,11 \\\\ &P(T \ge 1,11) \space df = 9\\ \text{dari dist t:}\\ &P(T\le 1,11) \approx 0.855\\ \text{artinya:}\\ &P(T \ge 1,11) = 1-0.855=0.145\\ \text{jadi, nilai p:}\\ Nilai\space\text{-p} &= 2 \times 0.145 \\ &= 0.29\\ Nilai\space\text{-p} &\approx 0.29\\ \end{align*} \]
2.2.4 Keputusan Statistik
Kesimpulannya, nilai p \(\approx\)
0.29 karena,
\(0.29 > (\alpha) =
0.05\)
Karena nilai-p lebih kecil dari \(\alpha\), ini berarti menolak Hipotesis Nol
(\(H_{0}\)). Nilai p diperoleh dengan
mengalikan dua probabilitas satu sisi dari statistik t sebesar −1.11
pada derajat kebebasan (df) 9, sehingga didapatkan nilai p sebesar 0.29.
Nilai ini lebih besar dari tingkat signifikansi 0.05, sehingga tidak
terdapat perbedaan yang signifikan antara rata-rata waktu penyelesaian
tugas dengan 10 menit.
2.2.5 Pengaruh Ukuran Sampel terhadap Keandalan Inferensi
Ukuran sampel sangat memengaruhi keandalan hasil inferensi
statistik.
Pada sampel kecil seperti n = 10, variasi data masih
cukup besar sehingga hasil pengujian menjadi kurang sensitif dalam
mendeteksi perbedaan kecil dari nilai hipotesis. Jika ukuran sampel
diperbesar, estimasi rata-rata akan menjadi lebih stabil, standar error
semakin kecil, dan uji statistik menjadi lebih kuat dalam menarik
kesimpulan yang akurat.
3 Case Study 3
3.1 Two-Sample T-Test (A/B Testing)
A product analytics team conducts an A/B test to compare the average session duration (minutes) between two versions of a landing page.
| Version | Sample Size (n) | Mean | Standard Deviation |
|---|---|---|---|
| A | 25 | 4.8 | 1.2 |
| B | 25 | 5.4 | 1.4 |
3.2 Tasks
- Formulate the null and alternative hypotheses.
- Identify the type of t-test required.
- Compute the test statistic and p-value.
- Draw a statistical conclusion at \(\alpha = 0.05\).
- Interpret the result for product decision-making.
3.2.1 Merumuskan Hipotesis
Karena ingin mengetahui apakah terdapat perbedaan rata-rata durasi
sesi antara dua versi, digunakan uji dua arah.
Hipotesis Nol (\(H_{0}\)):
Tidak ada perbedaan rata-rata durasi sesi antara versi A dan versi B. \[\mu_A= \mu_B\]Hipotesis Alternatif (\(H_{1}\)) Terdapat perbedaan rata-rata durasi sesi antara versi A dan versi B. \[\mu_A \ne \mu_B\]
3.2.2 Jenis Uji t yang Digunakan
Uji statistik yang digunakan adalah two-sample t-test (uji t dua sampel independen) karena data berasal dari dua kelompok yang berbeda dan saling independen, yaitu kelompok pengguna yang mengakses versi A dan kelompok pengguna yang mengakses versi B. Selain itu, ukuran sampel pada masing-masing kelompok relatif kecil dan standar deviasi populasi tidak diketahui, sehingga uji t dua sampel merupakan metode yang sesuai untuk membandingkan rata-rata kedua kelompok tersebut.
3.2.3 Perhitungan Statistik Uji dan Nilai p
Diketahui:
- \(\bar{x_A}= 4.8\)
- \(s_A= 1.2\)
- \(n_A= 25\)
- \(\bar{x_B}= 5.4\)
- \(s_B= 1.4\)
- \(n_B= 25\)
- Perhitungan t \[\begin{align*}
t &= \frac{\bar{x}_A - \bar{x}_B}
{\sqrt{\frac{s_A^2}{n_A} + \frac{s_B^2}{n_B}}} \\
t &= \frac{4.8 - 5.4}
{\sqrt{\frac{1.2^2}{25} + \frac{1.4^2}{25}}} \\
t &= \frac{-0.6}
{\sqrt{\frac{1.44}{25} + \frac{1.96}{25}}} \\\\
\frac{1.44}{25} &= 0.0576,\quad \frac{1.96}{25} = 0.0784 \\\\
t &= \frac{-0.6}{\sqrt{0.0576+0.0784}}\\
t &= \frac{-0.6}{\sqrt{0.136}}\\
\sqrt{0.136} &\approx 0.369\\
t &= \frac{0.6}{0.369}\\
t &\approx 1.63
\end{align*}
\] - Degree of free (df) \[\begin{align*}
df &= n_A + n_B - 2\\
&= 25+25-2\\
&= 48
\end{align*}
\] - Perhitungan nilai p
karena uji dua
arah, maka: \[\begin{align*}
Nilai\space\text{-p} &= 2 \times (T \le -|t|)\\
|t| &= 1.63\\
\text{tabel dist t, df = 48:}\\
P(T \le −1,63)&\approx 0.055\\
Nilai\space\text{-p} &= 2 \times 0.005\\
&\approx 0.11
\end{align*}
\] jadi perhitungan nilai p \(\approx\) 0.11
3.2.4 Keputusan Statistik
\[\begin{align*} Nilai\space\text{-p} &\approx 0.11\\ \alpha &= 0.05\\ Nilai\space\text{-p} &> \alpha\\ 0.11 &> 0.05 \end{align*} \]
Karena nilai p \(\approx\) 0.11 lebih besar dari \(\alpha\) = 0.05, maka hipotesis nol gagal ditolak. Artinya, tidak terdapat perbedaan rata-rata durasi sesi yang signifikan antara versi A dan versi B.
3.2.5 Interpretasi untuk Pengambilan Keputusan Produk
Secara statistik, tidak terdapat perbedaan yang signifikan antara rata-rata durasi sesi pengguna pada versi A dan versi B. Meskipun versi B memiliki rata-rata durasi sesi yang lebih tinggi, perbedaan tersebut belum cukup kuat secara statistik. Oleh karena itu, keputusan produk sebaiknya tidak hanya didasarkan pada durasi sesi saja, tetapi juga mempertimbangkan metrik lain seperti konversi, bounce rate, atau hasil pengujian dengan ukuran sampel yang lebih besar.
4 Case Study 4
4.1 Chi-Square Test of Independence
An e-commerce company examines whether device type is associated with payment method preference.
| Device / Payment | E-Wallet | Credit Card | Cash on Delivery |
|---|---|---|---|
| Mobile | 120 | 80 | 50 |
| Desktop | 60 | 90 | 40 |
4.2 Tasks
- State the Null Hypothesis (H₀) and Alternative Hypothesis (H₁).
- Identify the appropriate statistical test.
- Compute the Chi-Square statistic (χ²).
- Determine the p-value at \(\alpha = 0.05\).
- Interpret the results in terms of digital payment strategy.
4.2.1 Hipotesis
Hipotesis Nol (\(H_{0}\)):
Jenis perangkat (Mobile dan Desktop) tidak memiliki hubungan dengan preferensi metode pembayaran. Artinya, pilihan metode pembayaran independen terhadap jenis perangkat.Hipotesis Alternatif (\(H_{1}\)):
Jenis perangkat (Mobile dan Desktop) memiliki hubungan dengan preferensi metode pembayaran. Artinya, pilihan metode pembayaran tidak independen terhadap jenis perangkat.
4.2.2 Uji Statistik yang Digunakan
Uji statistik yang tepat adalah Uji Chi-Square (χ²) untuk Independensi, karena data berbentuk kategori (jenis perangkat dan metode pembayaran), disajikan dalam tabel kontingensi dan metode uji statistik ini bertujuan untuk melihat hubungan antar dua variabel kategorik.
4.2.3 Perhitungan Statistik Chi-Square e (\(\mathbf{\chi }^{\mathbf{2}}\))
- Tabel Observasi (O)
| Perangkat | E-Wallet | Credit Card | COD | Total |
|---|---|---|---|---|
| Mobile | 120 | 80 | 50 | 250 |
| Desktop | 60 | 90 | 40 | 190 |
| Total | 180 | 170 | 90 | 440 |
- Perhitungan Frekuensi Harapan (E)
Rumus:
\[\begin{align*} E_{ij} &= \frac{(Total \space Baris_i)(Total \space Kolom_j)}{Total \space Keseluruhan}\\\\ \text{Mobile – E-Wallet:}\\ E &= \frac{250 \times 180}{440} = 102.27\\ \text{Mobile – Credit Card:}\\ E &= \frac{250 \times 170}{440} = 96.59\\ \text{Mobile – COD:}\\ E &= \frac{250 \times 90}{440} = 51.14\\\\ \text{Desktop – E-Wallet:}\\ E &= \frac{190 \times 180}{440} = 77.73\\ \text{Desktop – Credit Card:}\\ E &= \frac{190 \times 170}{440} = 73.41\\ \text{Desktop – COD:}\\ E &= \frac{190 \times 90}{440} = 38.86 \end{align*} \]
- Perhitungan Nilai Chi-Square
Rumus:
\[\chi^2 = \sum \frac{(O - E)^2}{E}\]
| Sel | O | E | Kuadrat Selisih/E |
|---|---|---|---|
| Mobile – E-Wallet | 120 | 102.27 | 3.07 |
| Mobile – Credit Card | 80 | 96.59 | 2.85 |
| Mobile – COD | 50 | 51.14 | 0.03 |
| Desktop – E-Wallet | 60 | 77.73 | 4.04 |
| Desktop – Credit Card | 90 | 73.41 | 3.75 |
| Desktop – COD | 40 | 38.86 | 0.03 |
4.2.4 Nilai p dan Keputusan
- Degree of free (df):
\[df=(r−1)(c−1)=(2−1)(3−1)=2\]
dimana:
- r (row = jumlah baris)
- c (column = jumlah kolom)
Perhitungan Nilai p
Diketahui:
- \(\chi^2
= 13.77\)
- \(df = 2\)
-
\(\alpha= 0.05\)
Tabel Chi-Square (df = 2)
| α | χ² tabel |
|---|---|
| 0.05 | 5.991 |
| 0.01 | 9.210 |
| 0.001 | 13.816 |
hasil akhirnya: \[13.77
> 9.210 \space dan \space 13.77 \approx 13.816\] artinya,
Nilai χ² hitung melebihi nilai kritis pada α = 0.01 dan mendekati nilai
kritis pada α = 0.001, sehingga dapat disimpulkan bahwa p-value berada
di antara 0.001 dan 0.01.
\[0.001 < Nilai\space\text{-p} < 0.01\]
Keputusan Statistik
\[Nilai\space\text{-p} < 0.05\] maka, keputusannya itu berdasarkan hasil perhitungan diperoleh nilai χ² sebesar 13.77 dengan derajat kebebasan 2. Nilai tersebut lebih besar dari nilai χ² tabel pada taraf signifikansi 0.05 (5.991), sehingga p-value < 0.05. Oleh karena itu, hipotesis nol ditolak, yang berarti terdapat hubungan yang signifikan antara jenis perangkat dan preferensi metode pembayaran.
4.2.5 Interpretasi Strategi Pembayaran Digital
Hasil uji Chi-Square menunjukkan bahwa jenis perangkat memiliki hubungan yang signifikan dengan preferensi metode pembayaran, di mana pengguna mobile cenderung lebih banyak menggunakan e-wallet, sedangkan pengguna desktop lebih dominan menggunakan kartu kredit. Temuan ini dapat dimanfaatkan oleh perusahaan e-commerce dengan mengoptimalkan tampilan dan promosi e-wallet pada aplikasi mobile, menyediakan opsi kartu kredit yang lebih menonjol pada versi desktop, serta menyesuaikan strategi pemasaran digital berdasarkan perilaku pengguna perangkat, sehingga pada akhirnya dapat meningkatkan kenyamanan pengguna dan potensi transaksi.
5 Case Study 5
5.1 Type I and Type II Errors (Conceptual)
A fintech startup tests whether a new fraud detection algorithm reduces fraudulent transactions.
- H₀: The new algorithm does not reduce fraud.
- H₁: The new algorithm reduces fraud.
5.2 Tasks
- Explain a Type I Error (α) in this context.
- Explain a Type II Error (β) in this context.
- Identify which error is more costly from a business perspective.
- Discuss how sample size affects Type II Error.
- Explain the relationship between α, β, and statistical power.
5.2.1 Penjelasan Type I Error (\(\alpha\))
Type I Error (\(\alpha\)) terjadi ketika perusahaan menyimpulkan bahwa algoritma deteksi penipuan yang baru berhasil mengurangi transaksi penipuan, padahal pada kenyataannya algoritma tersebut tidak memberikan pengurangan yang signifikan. Dengan kata lain, startup fintech salah menolak hipotesis nol dan menganggap algoritma baru efektif, sehingga perusahaan berpotensi mengalokasikan sumber daya, biaya implementasi, dan kepercayaan sistem pada algoritma yang sebenarnya tidak lebih baik dari sistem sebelumnya. Dalam konteks ini, ini berarti algoritma tersebut secara keliru menandai transaksi yang sah (tidak menipu) sebagai transaksi penipuan. Bisnis akan menolak transaksi yang sebenarnya valid, menyebabkan frustrasi pelanggan dan potensi kehilangan penjualan.
5.2.2 Penjelasan Type II Error (\(\beta\))
Type II Error (\(\beta\)) terjadi ketika perusahaan menyimpulkan bahwa algoritma baru tidak mengurangi transaksi penipuan, padahal sebenarnya algoritma tersebut efektif. Dalam kondisi ini, hipotesis nol tidak ditolak meskipun algoritma baru mampu menurunkan tingkat penipuan, sehingga perusahaan kehilangan kesempatan untuk meningkatkan keamanan transaksi dan mengurangi kerugian finansial akibat penipuan.
5.2.3 Identifikasi Mana yang Lebih Merugikan dari Perspektif Bisnis.
Dari perspektif bisnis dalam deteksi penipuan, Type II Error (\(\beta\)) umumnya lebih merugikan. Hal ini karena kegagalan dalam mengadopsi algoritma yang sebenarnya efektif dapat menyebabkan perusahaan terus mengalami kerugian akibat transaksi penipuan yang seharusnya bisa dicegah, serta menurunkan kepercayaan pengguna terhadap sistem keamanan perusahaan. Meskipun Type I Error menyebabkan ketidaknyamanan pelanggan dan kehilangan penjualan potensial, Type II Error menghasilkan kerugian finansial aktual dan langsung dari transaksi penipuan yang tidak terdeteksi, serta risiko sistemik dan kerusakan reputasi jangka panjang. Dalam banyak kasus, bisnis lebih memilih untuk menginvestigasi beberapa transaksi yang sah (Type I) daripada melewatkan satu transaksi penipuan yang besar (Type II).
5.2.4 Pengaruh Ukuran Sampel terhadap Type II Error
Ukuran sampel yang lebih besar secara umum mengurangi kemungkinan
terjadinya Type II Error
(\(\beta\)). Dengan meningkatkan ukuran
sampel, peneliti atau analis mendapatkan estimasi parameter populasi
yang lebih tepat dan meningkatkan kekuatan statistik uji (statistical
power). Ukuran sampel memiliki pengaruh yang signifikan terhadap Type II
Error. Semakin kecil ukuran sampel yang digunakan dalam pengujian
algoritma, semakin besar kemungkinan perusahaan gagal mendeteksi
efektivitas algoritma yang sebenarnya ada. Sebaliknya, dengan ukuran
sampel yang lebih besar, kemampuan uji statistik untuk mendeteksi
perbedaan nyata meningkat, sehingga probabilitas terjadinya Type II
Error akan menurun. Hal ini membuat lebih mudah untuk mendeteksi efek
atau perbedaan yang benar-benar ada (dalam hal ini, kemampuan algoritma
untuk mengurangi penipuan), sehingga mengurangi risiko untuk gagal
menolak hipotesis nol (\(H_{0}\)) yang
salah (Type II Error).
5.2.5 Hubungan antara α, β, dan Kekuatan Statistik
Terdapat hubungan yang erat dan saling terkait antara tingkat
signifikansi α, β, dan kekuatan statistik, di mana kekuatan uji
didefinisikan sebagai,
1 − 𝛽, yaitu probabilitas untuk secara benar
menolak hipotesis nol yang salah atau mendeteksi adanya efek yang
benar-benar terjadi. Penurunan nilai β akan meningkatkan kekuatan
statistik, namun dengan ukuran sampel yang tetap terdapat hubungan
trade-off antara α dan β, sehingga ketika α diperkecil untuk mengurangi
risiko Type I Error, nilai β cenderung meningkat dan menyebabkan
penurunan kekuatan uji. Oleh karena itu, satu-satunya cara untuk
menurunkan α dan β secara bersamaan sekaligus meningkatkan kekuatan
statistik adalah dengan memperbesar ukuran sampel penelitian, sehingga
peluang kesalahan dapat ditekan dan kemampuan mendeteksi efek yang nyata
menjadi lebih optimal.
6 Case Study 6
6.1 P-Value and Statistical Decision Making
A churn prediction model evaluation yields the following results:
- Test statistic = 2.31
- p-value = 0.021
- Significance level: \(\alpha = 0.05\)
6.2 Tasks
- Explain the meaning of the p-value.
- Make a statistical decision.
- Translate the decision into non-technical language for management.
- Discuss the risk if the sample is not representative.
- Explain why the p-value does not measure effect size.
6.2.1 Penjelasan Nilai p (p-value)
Nilai p (p-value) merupakan probabilitas untuk memperoleh statistik uji yang sama ekstremnya atau lebih ekstrem daripada nilai yang diamati, dengan asumsi bahwa hipotesis nol adalah benar. Dengan kata lain, p-value menunjukkan seberapa kuat bukti data terhadap hipotesis nol, di mana nilai p yang kecil menandakan bahwa hasil yang diperoleh kecil kemungkinannya terjadi hanya karena kebetulan semata. Dalam konteks ini, ini adalah kemungkinan mendapatkan statistik uji \(2.31\) jika sebenarnya tidak ada hubungan antara variabel dalam model prediksi churn tersebut. Nilai p kurang dari 0.05 biasanya dianggap signifikan secara statistik, yang berarti hasil tersebut tidak mungkin terjadi secara kebetulan semata.
6.2.2 Keputusan Statistik
Keputusan statistik dibuat dengan membandingkan p-value dengan
tingkat signifikansi (\(\alpha\)).
- Nilai p = 0.021
- \(\alpha = 0.05\)
Karena nilai p (0.021) lebih kecil dari \(\alpha\) (0.05), maka keputusan statistiknya adalah menolak hipotesis nol dan menerima hipotesis alternatif. Ini menunjukkan bahwa hasil model prediksi churn tersebut signifikan secara statistik.
6.2.3 Menerjemahkan Hasil Statistik untuk Manajemen
Hasil ini menunjukkan kalau model prediksi churn yang diuji memang bekerja dengan baik dan bukan muncul karena kebetulan, karena ada bukti statistik yang cukup kuat bahwa model ini bisa membantu mengenali pelanggan yang berpotensi berhenti berlangganan, sehingga temuan ini bisa dipercaya dan dipakai manajemen sebagai bahan pertimbangan dalam menyusun strategi retensi pelanggan.
6.2.4 Risiko Sampel Tidak Representatif
Namun demikian, jika sampel yang digunakan dalam pengujian tidak representatif terhadap keseluruhan populasi pelanggan, maka dapat muncul bias yang membuat hasil pengujian terlihat signifikan secara statistik, padahal model mungkin tidak bekerja dengan baik saat diterapkan di kondisi nyata, sehingga berisiko menghasilkan prediksi yang tidak akurat, intervensi yang tidak efektif atau justru mahal, serta keputusan strategis manajemen yang keliru dan berpotensi merugikan bisnis.
6.2.5 Nilai p dan Ukuran Efek
Nilai p dan effect size sebenarnya mengukur hal yang berbeda, di mana nilai p lebih menunjukkan seberapa “kaget” kita terhadap hasil yang muncul atau seberapa besar kemungkinan hasil tersebut terjadi secara kebetulan, sementara effect size menggambarkan seberapa besar atau seberapa kuat pengaruh yang benar-benar terjadi. Karena itu, sebuah hasil bisa saja punya nilai p yang sangat kecil dan terlihat sangat signifikan secara statistik, padahal dampak nyatanya kecil, terutama jika ukuran sampelnya besar, dan sebaliknya hasil dengan nilai p yang lebih besar bisa memiliki effect size yang cukup besar. Oleh karena itu, nilai p saja tidak cukup untuk menilai relevansi atau kepentingan praktis suatu hasil, sehingga interpretasi analisis sebaiknya selalu dilengkapi dengan ukuran efek agar makna sebenarnya dari hasil tersebut bisa dipahami dengan lebih baik.
References
[1] Siregar, B. (n.d.). Introduction to statistics: Chapter 9: Statistical Inference. dsciencelabs. https://bookdown.org/dsciencelabs/intro_statistics/09-Statistical_Inference.html?authuser=0
[2] Solusi Jurnal. (2022). Rumus uji hipotesis dalam penelitian statistik. https://solusijurnal.com/rumus-uji-hipotesis-dalam-penelitian-statistik/
[3] Setiawan, D. (2021). Analisis statistik uji t sampel independen untuk perbandingan dua kelompok bebas. Jurnal Penelitian Pendidikan, 14(1), 45–53. https://jurnalhost.com/index.php/jpp/article/view/2851
[4] Sample size, power and effect size revisited: simplified and practical approaches in pre-clinical, clinical and laboratory studies. (2021). Biochemia Medica, 31(1). Retrieved from https://www.biochemia-medica.com/en/journal/31/1/10.11613/BM.2021.010502/fullArticle