Statistical Inferences ~ Week 14
Lulu Najla Salsabila
INSTITUT TEKNOLOGI SAINS BANDUNG
1 Case Study 1
1.1 Uji Z Satu Sampel (Hipotesis Statistik)
Sebuah platform pembelajaran digital mengklaim bahwa rata-rata waktu belajar harian penggunanya adalah 120 menit. Berdasarkan catatan historis, simpangan baku populasi diketahui sebesar 15 menit.
Sebuah sampel acak sebanyak 64 pengguna menunjukkan rata-rata waktu belajar sebesar 116 menit.
\[ \begin{eqnarray*} \mu_0 &=& 120 \\ \sigma &=& 15 \\ n &=& 64 \\ \bar{x} &=& 116 \end{eqnarray*} \]
1.2 Tugas
- Rumuskan Hipotesis Nol (H₀) and Hipotesis Alternatif (H₁).
- Tentukan uji statistik yang tepat dan berikan alasan pemilihannya
- Hitung statistik uji dan nilai p (p-value) dengan menggunakan tingkat signifikansi \(\alpha = 0.05\).
- Nyatakan keputusan statistik yang diambil.
- Jelaskan interpretasi hasil dalam konteks analitik bisnis.
JAWABAN
1.3 Perumusan Hipotesis
Karena platform mengklaim rata-rata waktu belajar = 120 menit, maka klaim tersebut dijadikan Hipotesis Nol.
\[ \begin{aligned} H_0 &: \mu = 120 \quad \text{(rata-rata waktu belajar adalah 120 menit)} \\ H_1 &: \mu \neq 120 \quad \text{(rata-rata waktu belajar tidak sama dengan 120 menit)} \end{aligned} \]
1.4 Uji Statistik yang Digunakan
Uji statistik yang tepat untuk kasus ini adalah Uji Z satu sampel (One-Sample Z-Test).
Alasan Pemilihan Uji Z
Pemilihan uji Z didasarkan pada beberapa pertimbangan statistik berikut:
1. Tujuan pengujian adalah membandingkan rata-rata sampel dengan rata-rata populasi yang diklaim
Dalam studi kasus ini, platform pembelajaran digital mengklaim bahwa rata-rata waktu belajar harian pengguna adalah 120 menit. Data yang tersedia berupa rata-rata sampel (116 menit) dari satu kelompok pengguna, sehingga pengujian difokuskan pada satu rata-rata populasi. Oleh karena itu, uji yang sesuai adalah uji satu sampel, bukan uji dua sampel.
2. Simpangan baku populasi diketahui
Soal secara eksplisit menyatakan bahwa simpangan baku populasi adalah 15 menit. Ketika simpangan baku populasi \(\sigma\) diketahui, maka uji yang tepat untuk menguji rata-rata adalah uji Z, bukan uji t. Uji t biasanya digunakan apabila simpangan baku populasi tidak diketahui dan harus diestimasi dari sampel.
3. Ukuran sampel relatif besar (n ≥ 30)
Jumlah sampel yang digunakan adalah 64 pengguna, yang tergolong besar. Berdasarkan Teorema Limit Tengah, distribusi rata-rata sampel akan mendekati distribusi normal ketika ukuran sampel cukup besar, sehingga penggunaan distribusi normal standar (Z) menjadi valid.
4. Variabel yang diuji bersifat numerik dan kontinu
Waktu belajar harian diukur dalam satuan menit, yang merupakan data kuantitatif kontinu. Hal ini memenuhi asumsi dasar penggunaan uji Z untuk pengujian rata-rata.
5. Bentuk hipotesis bersifat dua arah
Hipotesis alternatif menyatakan bahwa rata-rata waktu belajar tidak sama dengan 120 menit \(\mu \neq 120\). Uji Z satu sampel dapat digunakan baik untuk uji satu sisi maupun dua sisi, sehingga sesuai dengan struktur hipotesis pada kasus ini.
1.5 Perhitungan Statistik Uji dan p-value
1. Hitung Standard Error (SE)
\[ SE = \frac{\sigma}{\sqrt{n}} \]
\[ SE = \frac{15}{\sqrt{64}} \]
\[ SE = \frac{15}{8} \]
\[ SE = 1.875 \]
2. Hitung Statistik Uji (Z)
\[ Z = \frac{\bar{x} - \mu_0}{SE} \]
\[ Z = \frac{116 - 120}{1.875} \]
\[ Z = \frac{-4}{1.875} \]
\[ Z \approx -2.13 \]
3. Tentukan p-value
Karena uji dua sisi:
\[ p\text{-value} = 2 \times P(Z < -2.13) \]
Dari tabel Z:
\[ P(Z < -2.13) \approx 0.0165 \]
\[ p\text{-value} = 2 \times 0.0165 \]
\[ p\text{-value} \approx 0.033 \]
1.6 Keputusan Statistik
- Tingkat signifikansi yang digunakan dalam pengujian ini adalah
\[ \alpha = 0.05 \]
Hasil perhitungan uji Z satu sampel menghasilkan:
Statistik uji:
\[ Z = -2.13 \]
- Nilai p (p-value):
\[ p\text{-value} = 0.033 \]
- Karena nilai p-value lebih kecil daripada tingkat signifikansi:
\[ 0.033 < 0.05 \]
maka keputusan statistik yang diambil adalah menolak Hipotesis Nol (H₀).
Penolakan H₀ menunjukkan bahwa perbedaan antara rata-rata waktu belajar sampel (116 menit) dan rata-rata yang diklaim platform (120 menit) bersifat signifikan secara statistik, bukan terjadi secara kebetulan.
Dengan tingkat kepercayaan 95%, dapat disimpulkan bahwa klaim platform mengenai rata-rata waktu belajar harian pengguna sebesar 120 menit tidak didukung oleh data sampel.
1.7 Interpretasi dalam Konteks Analitik Bisnis
Hasil pengujian menunjukkan bahwa rata-rata waktu belajar harian pengguna berbeda secara signifikan dari klaim platform sebesar 120 menit, dengan rata-rata aktual yang lebih rendah yaitu 116 menit. Dalam konteks analitik bisnis, temuan ini mengindikasikan bahwa tingkat keterlibatan pengguna belum sepenuhnya mencapai target yang diharapkan. Perbedaan ini penting karena waktu belajar merupakan indikator kinerja utama (KPI) yang sering digunakan untuk mengevaluasi efektivitas platform dan mendukung klaim pemasaran. Oleh karena itu, perusahaan perlu meninjau ulang klaim bisnisnya serta melakukan analisis lanjutan untuk meningkatkan engagement pengguna berdasarkan data aktual.
2 Case Study 2
2.1 Uji t Satu Sampel (σ Tidak Diketahui, Sampel Kecil)
Sebuah Tim Riset UX menyelidiki apakah rata-rata waktu penyelesaian tugas pada sebuah aplikasi baru berbeda dari 10 menit.
Data berikut dikumpulkan dari 10 pengguna:
\[ 9.2,\; 10.5,\; 9.8,\; 10.1,\; 9.6,\; 10.3,\; 9.9,\; 9.7,\; 10.0,\; 9.5 \]
2.2 Tugas
- Tentukan H₀ and H₁ (dua arah / two-tailed)..
- Tentukan Uji Hipotesis yang sesuai.
- Hitung Statik t and p-value at \(\alpha = 0.05\).
- Buat Keputusan Statik.
- Jelaskan bagaimana ukuran sampel memengaruhi keandalan inferensi statistik.
JAWABAN
2.3 Perumusan Hipotesis
Karena penelitian ingin mengetahui apakah rata-rata berbeda dari 10 menit, maka digunakan uji dua arah.
\[\begin{aligned} H_0 &: \mu = 10 \quad \text{(rata-rata waktu = 10 menit)} \\ H_1 &: \mu \neq 10 \quad \text{(rata-rata waktu ≠ 10 menit)} \end{aligned}\]2.4 Uji Statistik yang Digunakan
Uji hipotesis yang digunakan dalam studi ini adalah One-Sample t-Test. Pemilihan uji ini didasarkan pada beberapa pertimbangan berikut:
1. Tujuan analisis adalah membandingkan satu rata-rata sampel dengan satu nilai acuan
Penelitian ini tidak membandingkan dua kelompok pengguna atau lebih, melainkan ingin mengetahui apakah rata-rata waktu penyelesaian tugas pengguna aplikasi baru berbeda dari nilai tertentu, yaitu 10 menit. Karena hanya terdapat satu kelompok data dan satu nilai pembanding, maka uji yang sesuai adalah uji satu sampel (one-sample test).
2. Ukuran sampel relatif kecil (n < 30)
Data hanya dikumpulkan dari 10 pengguna. Pada ukuran sampel kecil, distribusi rata-rata sampel belum dapat diasumsikan mengikuti distribusi normal secara sempurna. Oleh karena itu, uji statistik yang memperhitungkan ketidakpastian akibat ukuran sampel kecil sangat diperlukan, dan uji t dirancang khusus untuk kondisi ini.
3. Simpangan baku populasi (σ) tidak diketahui
Dalam kasus ini, tidak tersedia informasi mengenai simpangan baku populasi waktu penyelesaian tugas pengguna aplikasi. Akibatnya, simpangan baku sampel (s) digunakan sebagai estimasi σ. Penggunaan s sebagai penduga σ menambah variabilitas estimasi, sehingga distribusi yang digunakan harus mampu mengakomodasi hal tersebut, yaitu distribusi t-Student.
4. Jenis data berskala numerik dan kontinu
Variabel yang dianalisis adalah waktu penyelesaian tugas dalam satuan menit, yang merupakan data kuantitatif kontinu. One-Sample t-Test secara metodologis sesuai untuk menguji rata-rata dari data numerik kontinu terhadap suatu nilai hipotesis.
5. Pengujian dilakukan dua arah (two-tailed test)
Hipotesis alternatif menyatakan bahwa rata-rata waktu penyelesaian tugas berbeda dari 10 menit, tanpa menentukan arah perbedaan (lebih cepat atau lebih lambat). Oleh karena itu, uji yang digunakan adalah One-Sample t-Test dua arah, yang menguji kemungkinan perbedaan di kedua sisi nilai hipotesis.
2.5 Perhitungan Statistik Uji dan p-value
Diketahui:
Data Sampel: \[ \text{Data sampel: } 9.2,\; 10.5,\; 9.8,\; 10.1,\; 9.6,\; 10.3,\; 9.9,\; 9.7,\; 10.0,\; 9.5 \]
Jumlah sampel:
\[ n = 10 \]
Nilai hipotesis:
\[ \mu_0 = 10 \]
1. Hitung Rata-rata Sampel \(\bar{x}\)
Rumus:
\[ \bar{x} = \dfrac{\sum x_i}{n} \]
Jumlah seluruh data:
\[ \sum x_i = 98.6 \]
Sehingga:
\[ \bar{x}=\frac{98.6}{10}=9.86 \]
2. Simpangan Baku Sampel (s)
- Hitung selisih tiap data dengan rata-rata
\[ x_i - \bar{x} \]
- Kuadratkan selisih tersebut
\[ (x_i - \bar{x})^2 \]
| (x_i) | (x_i - {x}) | ((x_i - {x})^2) |
|---|---|---|
| 9.2 | −0.66 | 0.4356 |
| 10.5 | 0.64 | 0.4096 |
| 9.8 | −0.06 | 0.0036 |
| 10.1 | 0.24 | 0.0576 |
| 9.6 | −0.26 | 0.0676 |
| 10.3 | 0.44 | 0.1936 |
| 9.9 | 0.04 | 0.0016 |
| 9.7 | −0.16 | 0.0256 |
| 10.0 | 0.14 | 0.0196 |
| 9.5 | −0.36 | 0.1296 |
Jumlah kuadrat selisih:
\[ \sum (x_i - \bar{x})^2 = 1.344 \]
3. simpangan baku sampel
Rumus:
\[ s = \sqrt{\frac{\sum (x_i - \bar{x})^2}{n-1}} = \sqrt{\frac{1.344}{9}} = \sqrt{0.1493} \approx 0.39 \]
4. Standard Error (SE)
Rumus:
\[ SE = \frac{s}{\sqrt{n}} = \frac{0.39}{\sqrt{10}} = \frac{0.39}{3.162} \approx 0.123 \]
5. Statistik Uji t
Rumus:
\[ t = \frac{\bar{x} - \mu_0}{SE} = \frac{9.86 - 10}{0.123} = \frac{-0.14}{0.123} \approx -1.14 \]
6. Derajat Kebebasan
\[ df = n - 1 = 10 - 1 = 9 \]
7. Tentukan p-value
p-value dua arah dihitung sebagai:
\[ p = 2 \times P\!\left(T \le -1.14\right) \]
Dari distribusi t dengan df = 9:
\[ P\!\left(T \le -1.14\right) \approx 0.145 \]
Sehingga:
\[ p = 2 \times 0.145 = 0.29 \]
2.6 Keputusan Statistik
Kriteria keputusan:
\(\text{Tolak } H_0 \text{ jika } p\text{-value} < \alpha\)
\(\alpha = 0.05\)
Karena:
\[ 0.295 > 0.05 \]
Gagal menolak \(H_0\)
Karena nilai p-value 0.29 lebih besar dari 0.05, maka tidak ada cukup bukti statistik untuk menolak hipotesis nol.
2.7 ukuran sampel memengaruhi keandalan inferensi statistik.
1.Jelaskan bagaimana ukuran sampel memengaruhi keandalan inferensi statistik ?
Ukuran sampel memiliki peran penting dalam menentukan keandalan inferensi statistik, karena secara langsung memengaruhi ketepatan estimasi dan kekuatan pengujian. Semakin besar ukuran sampel, semakin kecil standard error, sehingga estimasi parameter seperti rata-rata menjadi lebih presisi dan lebih mendekati nilai sebenarnya di populasi. Sebaliknya, pada sampel kecil, estimasi cenderung lebih fluktuatif dan sensitif terhadap nilai ekstrem, yang dapat mengurangi keakuratan kesimpulan.
Selain itu, ukuran sampel memengaruhi daya uji statistik (statistical power), yaitu kemampuan uji untuk mendeteksi perbedaan yang benar-benar ada. Sampel kecil memiliki daya uji yang rendah, sehingga berisiko menghasilkan kesalahan tipe II, yaitu gagal mendeteksi perbedaan yang sebenarnya signifikan. Dengan sampel yang lebih besar, probabilitas mendeteksi efek nyata meningkat, sehingga keputusan statistik menjadi lebih andal.
3 Case Study 3
3.1 Uji t Dua Sampel (A/B Testing)
Sebuah tim analitik produk melakukan pengujian A/B untuk membandingkan rata-rata durasi sesi (dalam menit) antara dua versi halaman landing page.
| Version | Sample Size (n) | Mean | Standard Deviation |
|---|---|---|---|
| A | 25 | 4.8 | 1.2 |
| B | 25 | 5.4 | 1.4 |
3.2 Tugas
- Rumuskan hipotesis nol (H₀) dan hipotesis alternatif (H₁).
- Tentukan jenis uji t yang diperlukan.
- Hitung uji statistik dan nilai p (p-value).
- Tarik kesimpulan statistik pada tingkat signifikansi \(\alpha = 0.05\).
- Jelaskan interpretasi hasil untuk pengambilan keputusan produk
JAWABAN
3.3 Perumusan Hipotesis
- Hipotesis nol (H₀):
Tidak ada perbedaan rata-rata durasi sesi antara versi A dan B.
\[ H_0 : \mu_A = \mu_B \]
- Hipotesis alternatif (H₁):
Ada perbedaan rata-rata durasi sesi antara versi A dan B.
\[ H_1 : \mu_A \ne \mu_B \]
3.4 Uji Jenis t yang digunakan
Jenis uji statistik yang tepat untuk studi kasus ini adalah Two-Sample Independent t-Test (uji t dua sampel independen), lebih spesifiknya Welch’s t-test.
a. Jumlah kelompok yang dibandingkan
Studi kasus ini membandingkan dua kelompok berbeda, yaitu:
Kelompok pengguna versi A landing page
Kelompok pengguna versi B landing page
Setiap pengguna hanya masuk ke satu versi saja, sehingga tidak ada pasangan (pairing) antar data.
Karena terdapat dua kelompok independen, maka uji yang digunakan bukan one-sample t-test dan bukan paired t-test, melainkan two-sample t-test.
b. Hubungan antar sampel (independensi data)
Data durasi sesi dari versi A tidak bergantung pada data dari versi B.
Tidak ada pengguna yang mengakses kedua versi landing page.
Setiap pengamatan berasal dari individu yang berbeda.
Kondisi ini memenuhi asumsi independent samples, sehingga uji t yang sesuai adalah independent t-test, bukan uji berpasangan.
c. Ukuran sampel dan informasi populasi
Ukuran sampel pada masing-masing versi adalah:
\(n_A = 25\)
\(n_B = 25\)
Ukuran sampel tergolong kecil hingga menengah.
Simpangan baku populasi tidak diketahui, yang tersedia hanya simpangan baku sampel.
d. Tujuan pengujian (arah hipotesis)
Tujuan pengujian adalah mengetahui apakah terdapat perbedaan rata-rata, tanpa menetapkan sejak awal versi mana yang lebih baik.
Hipotesis alternatif dirumuskan sebagai:
\[ H_1 : \mu_A \neq \mu_B \]
e. Kesamaan varians antar kelompok
Simpangan baku kedua kelompok berbeda:
SD versi A = 1.2
SD versi B = 1.4
Tidak ada informasi bahwa varians populasi dapat diasumsikan sama.
3.5 Perhitungan Statistik Uji dan p-value
Diketahui:
| Versi | n | Mean | SD |
|---|---|---|---|
| A | 25 | 4.8 | 1.2 |
| B | 25 | 5.4 | 1.4 |
1. Hitung selisih rata-rata
\[ \bar{x}_A - \bar{x}_B = 4.8 - 5.4 = -0.6 \]
2. Hitung standard error (SE)
Rumus standard error untuk two-sample t-test:
\[ SE = \sqrt{\frac{s_A^2}{n_A} + \frac{s_B^2}{n_B}} \]
Substitusi nilai:
\[ SE = \sqrt{\frac{1.2^2}{25} + \frac{1.4^2}{25}} \]
\[ SE = \sqrt{\frac{1.44}{25} + \frac{1.96}{25}} \]
\[ SE = \sqrt{0.0576 + 0.0784} \]
\[ SE = \sqrt{0.136} \approx 0.369 \]
3. Hitung nilai t
\[ t = \frac{(\bar{x}_A - \bar{x}_B) - 0}{SE} = \frac{-0.6}{0.369} \approx -1.63 \]
4. Menentukan p-value
Dari perhitungan sebelumnya, kita sudah punya:
- Statistik uji:
\[ t = -1.63 \]
- Karena uji dua arah, kita gunakan:
\[ |t| = 1.63 \]
- Derajat kebebasan (degree of freedom):
Rumus df:
\[ df = n_A + n_B - 2 \]
Substitusi:
\[ df = 25 + 25 - 2 = 48 \]
Bandingkan nilai \(t = 1.63\) dengan nilai kritis tabel:
Untuk α = 0.10 (dua arah): \(t \approx 1.68\)
Untuk α = 0.20 (dua arah): \(t \approx 1.30\)
Karena:
\[ 1.30 < 1.63 < 1.68 \]
Maka:
\[ 0.10 < p\text{-value} < 0.20 \]
Dari tabel distribusi t atau software statistik:
\[ p\text{-value} \approx 0.11 \]
3.6 Keputusan Statistik (α = 0.05)
\[ p\text{-value} = 0.11 \] \[ \alpha = 0.05 \]
Karena:
\[ p\text{-value} > \alpha \;\Rightarrow\; 0.11 > 0.05 \]
Keputusan: Gagal menolak H₀
Artinya:
Tidak terdapat bukti statistik yang cukup untuk menyatakan bahwa rata-rata durasi sesi pengguna berbeda secara signifikan antara versi A dan B.
3.7 Interpretasi untuk Pengambilan Keputusan Produk
Hasil uji statistik menunjukkan p-value > α (0.11 > 0.05). Artinya tidak ada bukti yang cukup untuk menolak hipotesis nol (H₀). Dengan kata lain, rata-rata durasi sesi antara versi A dan versi B tidak berbeda secara signifikan secara statistik pada tingkat signifikansi 5%.
Implikasi untuk pengambilan keputusan produk:
Tidak perlu segera mengubah halaman landing page karena versi B belum terbukti secara signifikan lebih baik dari versi A dalam meningkatkan durasi sesi.
Tim produk bisa mempertimbangkan faktor lain selain durasi sesi, misalnya konversi, bounce rate, atau kepuasan pengguna, sebelum mengambil keputusan.
Jika durasi sesi tetap menjadi metrik utama, mungkin perlu dilakukan pengujian dengan sampel lebih besar atau periode yang lebih lama untuk mendeteksi perbedaan yang lebih kecil.
Secara praktis, perbedaan rata-rata (5.4 vs 4.8 menit) mungkin menarik dari sisi bisnis, tetapi secara statistik saat ini belum cukup kuat untuk dianggap efek nyata.
4 Case Study 4
4.1 Uji Chi-Square untuk Indepedensi
Sebuah perusahaan e-commerce meneliti apakah jenis perangkat berkaitan dengan preferensi metode pembayaran.
| Device / Payment | E-Wallet | Credit Card | Cash on Delivery |
|---|---|---|---|
| Mobile | 120 | 80 | 50 |
| Desktop | 60 | 90 | 40 |
4.2 Tugas
- Nyatakan Hipotesis Nol (H₀) dan Hipotesis Alternatif (H₁).
- Tentukan uji statistik yang sesuai.
- Hitung statistik Chi-Square (χ²).
- Tentukan nilai p (p-value) pada \(\alpha = 0.05\).
- Interpretasikan hasil dalam konteks strategi pembayaran digital.
JAWABAN
4.3 Perumusan Hipotesis
- Hipotesis Nol (H₀):
Jenis perangkat tidak berkaitan dengan preferensi metode pembayaran. Artinya: distribusi pembayaran sama antara Mobile dan Desktop.
- Hipotesis Alternatif (H₁):
Jenis perangkat berkaitan dengan preferensi metode pembayaran. Artinya: distribusi pembayaran berbeda antara Mobile dan Desktop.
4.4 Uji Statistik yang Sesuai
Uji yang tepat: Chi-Square Test of Independence (χ² test), karena kita membandingkan dua variabel kategorikal (Device dan Payment).
Alasan Memilih Chi-Square Test of Independence:
1. Variabel yang dianalisis bersifat kategorikal
Dalam kasus ini:
Device → kategori: Mobile, Desktop
Payment Method → kategori: E-Wallet, Credit Card, COD
Chi-Square Test digunakan untuk menguji hubungan antara dua variabel kategorikal.
2. Data berbentuk frekuensi/jumlah
Data yang tersedia adalah jumlah pengguna per kombinasi device dan metode pembayaran.
Uji Chi-Square bekerja dengan tabel kontingensi (cross-tabulation).
3. Tujuan uji statistik sesuai
Kita ingin mengetahui apakah ada asosiasi antara device dan preferensi pembayaran.
Chi-Square Test of Independence secara khusus mengukur apakah distribusi frekuensi antar kategori berbeda dari yang diharapkan jika tidak ada hubungan.
4.5 Hitung Statistik Chi-Square (χ²)
Langkah-langkah:
a. Buat tabel observasi (O):
| Device / Payment | E-Wallet | Credit Card | COD | Total |
|---|---|---|---|---|
| Mobile | 120 | 80 | 50 | 250 |
| Desktop | 60 | 90 | 40 | 190 |
| Total | 180 | 170 | 90 | 440 |
b. Hitung frekuensi harapan (E) untuk tiap sel:
Rumus:
\[ E_{ij} = \frac{\text{grand total} \times (\text{total baris } i) \times (\text{total kolom } j)}{\text{grand total}} \]
Masukkan angka langsung:
1. Mobile, E-Wallet:
\[ E = \frac{250 \times 180}{440} = \frac{45000}{440} \approx 102.27 \]
2. Mobile, Credit Card:
\[ E = \frac{250 \times 170}{440} = \frac{42500}{440} \approx 96.59 \]
3. Mobile, COD:
\[ E = \frac{250 \times 90}{440} = \frac{22500}{440} \approx 51.14 \]
4. Desktop, E-Wallet:
\[ E = \frac{190 \times 180}{440} = \frac{34200}{440} \approx 77.73 \]
5. Desktop, Credit Card:
\[ E = \frac{190 \times 170}{440} = \frac{32300}{440} \approx 73.41 \]
6. Desktop, COD:
\[ E = \frac{190 \times 90}{440} = \frac{17100}{440} \approx 38.86 \]
c. Hitung χ²:
Rumus Chi-Square:
\[ \chi^2 = \sum \frac{(O - E)^2}{E} \]
Dimana:
- \(O\) = Frekuensi Observasi
- \(O, \; E\) = Frekuensi harapan
Hitung χ² Per Sel
1. Mobile, E-Wallet:
\[ \frac{(120 - 102.27)^2}{102.27} = \frac{(17.73)^2}{102.27} = \frac{314.37}{102.27} \approx 3.07 \]
2. Mobile, Credit Card:
\[ \frac{(80 - 96.59)^2}{96.59} = \frac{(-16.59)^2}{96.59} = \frac{275.15}{96.59} \approx 2.85 \]
3. Mobile, COD:
\[ \frac{(50 - 51.14)^2}{51.14} = \frac{(-1.14)^2}{51.14} = \frac{1.30}{51.14} \approx 0.025 \]
4. Desktop, E-Wallet:
\[ \frac{(60 - 77.73)^2}{77.73} = \frac{(-17.73)^2}{77.73} = \frac{314.37}{77.73} \approx 4.04 \]
5. Desktop, Credit Card:
\[ \frac{(90 - 73.41)^2}{73.41} = \frac{(16.59)^2}{73.41} = \frac{275.15}{73.41} \approx 3.75 \]
6. Desktop, COD:
\[ \frac{(40 - 38.86)^2}{38.86} = \frac{(1.14)^2}{38.86} = \frac{1.30}{38.86} \approx 0.033 \]
Jumlahkan Semua Sel
\[ \chi^2 = 3.07 + 2.85 + 0.025 + 4.04 + 3.75 + 0.033 \approx 13.77 \]
4.6 Tentukan p-value
1. Nilai statistik uji yang diperoleh adalah:
\[ \chi^2 = 13.77 \]
2.derajat bebas:
Rumus derajat bebas untuk uji Chi-Square:
\[ df = (r - 1)(c - 1) \]
dengan:
- \(r\) = jumlah baris
- \(c\) = jumlah kolom
Pada tabel:
Baris (Device): Mobile, Desktop → \(r = 2\)
Kolom (Payment): E-Wallet, Credit Card, COD → \(c = 3\)
\[ df = (2 - 1)(3 - 1) = 1 \times 2 = 2 \]
3. Nilai p-value ditentukan berdasarkan distribusi Chi-Square:
\[ p\text{-value} = P\!\left(\chi^2_{(2)} \ge 13.77\right) \]
4. Hasil perhitungan menunjukkan bahwa:
\[ p\text{-value} \approx 0.001 \]
Karena nilai p-value lebih kecil dari tingkat signifikansi \(\alpha = 0.05\), maka hipotesis nol ditolak.
4.7 Interpretasikan
Berdasarkan hasil uji Chi-Square Test of Independence diperoleh nilai statistik \(\chi^2 = 13.77\) dengan derajat bebas \(df = 2\) dan \(p\text{-value} \approx 0.001\) Karena p-value lebih kecil dari tingkat signifikansi \(\alpha = 0.05\), maka hipotesis nol ditolak.
Penolakan hipotesis nol ini menunjukkan bahwa jenis perangkat yang digunakan pengguna (Mobile atau Desktop) memiliki hubungan yang signifikan dengan preferensi metode pembayaran. Dengan kata lain, pilihan metode pembayaran tidak terdistribusi secara sama pada semua jenis perangkat.
Secara lebih spesifik, pengguna Mobile cenderung lebih sering menggunakan E-Wallet, sementara pengguna Desktop relatif lebih banyak menggunakan Credit Card dibandingkan metode lainnya. Perbedaan pola ini menyebabkan distribusi frekuensi aktual berbeda secara signifikan dari distribusi yang diharapkan jika tidak ada hubungan antara kedua variabel.
Implikasi dalam Strategi Pembayaran Digital
Hasil ini memiliki implikasi penting bagi strategi bisnis e-commerce. Perusahaan sebaiknya:
Mengoptimalkan metode pembayaran E-Wallet pada platform mobile, misalnya dengan promosi cashback atau integrasi dompet digital yang lebih cepat.
Memperkuat opsi Credit Card pada desktop, seperti cicilan atau diskon khusus kartu kredit.
Menyesuaikan user interface dan urutan metode pembayaran berdasarkan perangkat pengguna untuk meningkatkan kenyamanan dan tingkat konversi.
Dengan menyesuaikan strategi pembayaran berdasarkan jenis perangkat, perusahaan dapat meningkatkan efisiensi transaksi, kepuasan pengguna, dan potensi penjualan.
5 Case Study 5
5.1 Kesalahan Tipe I dan Tipe II (Konseptual)
Sebuah startup fintech menguji apakah algoritma deteksi penipuan yang baru dapat mengurangi transaksi fraud (penipuan).
- H₀: Algoritma baru tidak mengurangi tingkat penipuan (fraud).
- H₁: Algoritma baru mengurangi tingkat penipuan (fraud).
5.2 Tugas
- Jelaskan Kesalahan Tipe I (α) dalam konteks ini.
- jelaskan Kesalahan Tipe II (β) dalam konteks ini.
- Tentukan kesalahan mana yang lebih mahal dari perspektif bisnis.
- Bahas bagaimana ukuran sampel memengaruhi Kesalahan Tipe II.
- Jelaskan hubungan antara α, β, dan daya uji statistik (statistical power).
JAWABAN
5.3 Kesalahan tipe I (α)
Type I Error (α) terjadi ketika hipotesis nol (H₀) ditolak, padahal H₀ sebenarnya benar.
Dalam konteks ini, Type I Error berarti perusahaan menyimpulkan bahwa algoritma deteksi fraud yang baru berhasil mengurangi transaksi penipuan, padahal pada kenyataannya algoritma tersebut tidak memberikan perbaikan dibandingkan sistem lama. Akibatnya, perusahaan dapat mengimplementasikan algoritma yang tidak efektif, sehingga biaya operasional meningkat dan risiko fraud tetap tinggi meskipun perusahaan merasa telah melakukan perbaikan sistem.
5.4 Kesalahan tipe II (β)
Type II Error (β) terjadi ketika hipotesis nol (H₀) gagal ditolak, padahal hipotesis alternatif (H₁) sebenarnya benar.
Dalam kasus ini, Type II Error berarti perusahaan menyimpulkan bahwa algoritma baru tidak mampu mengurangi fraud, padahal algoritma tersebut sebenarnya efektif. Konsekuensinya, perusahaan tetap menggunakan sistem lama dan kehilangan kesempatan untuk menurunkan tingkat fraud, yang dapat menyebabkan kerugian finansial dan menurunnya kepercayaan pengguna.
5.5 kesalahan mana yang lebih mahal dari perspektif bisnis
Dari sudut pandang bisnis, Type II Error (β) cenderung lebih mahal dibandingkan Type I Error. Hal ini karena kegagalan mendeteksi algoritma yang efektif menyebabkan perusahaan terus mengalami kerugian akibat transaksi fraud yang seharusnya dapat dicegah. Selain kerugian finansial langsung, Type II Error juga dapat berdampak pada reputasi perusahaan dan kepatuhan terhadap regulasi di sektor keuangan.
5.6 Pengaruh Ukuran Sampel terhadap Type II Error
Ukuran sampel memiliki pengaruh signifikan terhadap probabilitas terjadinya Type II Error. Pada ukuran sampel yang kecil, kemampuan uji statistik untuk mendeteksi perbedaan yang nyata menjadi rendah, sehingga peluang terjadinya Type II Error meningkat. Sebaliknya, dengan ukuran sampel yang lebih besar, efek dari algoritma baru akan lebih mudah terdeteksi, sehingga probabilitas Type II Error menurun dan hasil pengujian menjadi lebih andal.
5.7 Hubungan antara α, β, dan Statistical Power
Hubungan antara α (Type I Error), β (Type II Error), dan statistical power adalah sebagai berikut:
α adalah probabilitas melakukan Type I Error, yaitu menolak hipotesis nol padahal hipotesis nol benar.
β adalah probabilitas melakukan Type II Error, yaitu gagal menolak hipotesis nol padahal hipotesis alternatif benar.
Statistical power didefinisikan sebagai 1 − β, yang menunjukkan probabilitas bahwa uji statistik berhasil mendeteksi efek yang benar ketika efek tersebut memang ada.
Hubungan utamanya:
1. Power berbanding terbalik dengan β
Semakin kecil nilai β, semakin besar statistical power. Artinya, semakin kecil kemungkinan gagal mendeteksi algoritma fraud yang sebenarnya efektif, semakin besar kemampuan uji untuk menangkap efektivitas tersebut.
2. Trade-off antara α dan β
Dengan ukuran sampel yang tetap, menurunkan nilai α (misalnya membuat kriteria keputusan lebih ketat) cenderung meningkatkan nilai β. Sebaliknya, menaikkan α dapat menurunkan β. Oleh karena itu, terdapat trade-off antara risiko Type I Error dan Type II Error.
3. Peran ukuran sampel
Ukuran sampel yang lebih besar memungkinkan penurunan β tanpa harus menaikkan α secara signifikan, sehingga statistical power dapat ditingkatkan tanpa meningkatkan risiko Type I Error secara berlebihan.
Dalam konteks fraud detection:
Hubungan ini menunjukkan bahwa untuk memastikan algoritma deteksi fraud yang benar-benar efektif dapat teridentifikasi, perusahaan perlu menjaga statistical power tetap tinggi. Hal ini dapat dicapai dengan mengontrol α pada tingkat yang wajar dan menggunakan ukuran sampel yang cukup besar agar probabilitas Type II Error menjadi rendah.
6 Case Study 6
6.1 Nilai p (P-Value) dan Pengambilan Keputusan Statistik
Evaluasi sebuah model prediksi churn menghasilkan hasil berikut:
- Statistik Uji = 2.31
- Nilai P (p-value) = 0.021
- Tingkat Signifikan: \(\alpha = 0.05\)
6.2 Tugas
- Jelaskan makna dari nilai p (p-value).
- Buat keputusan statistik.
- Terjemahkan keputusan tersebut ke dalam bahasa non-teknis untuk manajemen.
- Bahas risiko yang muncul jika sampel tidak representatif.
- Jelaskan mengapa nilai p tidak mengukur besar kecilnya efek (effect size).
JAWABAN
6.3 Makna dari P-value
p-value merupakan ukuran probabilistik yang digunakan untuk menilai kekuatan bukti terhadap hipotesis nol. Secara formal, p-value didefinisikan sebagai:
Probabilitas untuk memperoleh hasil pengujian yang sama ekstrem atau lebih ekstrem dibandingkan hasil yang diamati, dengan asumsi bahwa hipotesis nol (H₀) adalah benar.
Dalam konteks studi ini, p-value sebesar 0,021 menunjukkan bahwa jika model churn sebenarnya tidak memiliki kemampuan prediktif yang bermakna, maka peluang untuk mendapatkan statistik uji sebesar 2,31 hanyalah sekitar 2,1%.
Nilai probabilitas yang rendah ini mengindikasikan bahwa hasil pengujian tidak lazim terjadi secara kebetulan. Dengan kata lain, terdapat bukti statistik yang cukup kuat untuk menyatakan bahwa hasil evaluasi model kemungkinan besar mencerminkan fenomena yang nyata, bukan sekadar fluktuasi acak dalam data sampel.
6.4 Pengambilan Keputusan Statistik
Pengambilan keputusan statistik dilakukan dengan membandingkan p-value dengan tingkat signifikansi yang telah ditetapkan sebelumnya. Tingkat signifikansi (α) merepresentasikan toleransi peneliti terhadap risiko melakukan kesalahan tipe I, yaitu menolak hipotesis nol padahal hipotesis tersebut benar.
Aturan keputusan dalam pengujian hipotesis adalah sebagai berikut:
Jika p-value < α, maka hipotesis nol ditolak
Jika p-value ≥ α, maka hipotesis nol gagal ditolak
Dalam studi ini, diperoleh:
\[ 0{,}021 < 0{,}05 \]
Berdasarkan perbandingan tersebut, keputusan statistik yang diambil adalah menolak hipotesis nol (H₀). Keputusan ini menunjukkan bahwa hasil evaluasi model churn signifikan secara statistik pada tingkat kepercayaan 95%.
6.5 Interpretasi Keputusan dalam Bahasa Non-Teknis (Untuk Manajemen)
Dalam konteks evaluasi model prediksi churn pelanggan, hasil pengujian ini menunjukkan bahwa performa model yang diamati sangat kecil kemungkinannya terjadi secara kebetulan. Dengan kata lain, model tersebut menunjukkan pola yang konsisten dan dapat dipercaya secara statistik. Hal ini memberikan keyakinan bahwa model memang mampu menangkap perilaku churn pelanggan yang nyata, bukan hanya fluktuasi acak dari data sampel.
Bagi manajemen, temuan ini berarti bahwa model prediksi churn dapat digunakan sebagai alat pendukung keputusan yang berbasis data (data-driven decision making). Model ini dapat membantu perusahaan dalam mengidentifikasi pelanggan yang berisiko tinggi untuk berhenti berlangganan, sehingga strategi retensi dapat dirancang secara lebih tepat sasaran. Keputusan yang diambil berdasarkan model ini juga memiliki landasan kuantitatif yang jelas, bukan sekadar intuisi atau pengalaman semata.
Namun demikian, penting bagi manajemen untuk memahami bahwa signifikansi statistik tidak secara otomatis menjamin keberhasilan bisnis. Hasil yang signifikan hanya menunjukkan bahwa model memiliki pola yang nyata secara statistik, bukan bahwa dampaknya pasti besar atau langsung meningkatkan profit. Oleh karena itu, model perlu dikombinasikan dengan pertimbangan bisnis lainnya, seperti biaya implementasi, segmentasi pelanggan, serta strategi pemasaran yang ada.
6.6 Risiko Apabila Sampel Tidak Representatif
Meskipun hasil uji statistik menunjukkan signifikansi, validitas kesimpulan sangat bergantung pada kualitas dan representativitas data sampel. Sampel yang tidak representatif dapat menyebabkan kesimpulan yang bias dan menyesatkan.
Beberapa risiko utama jika sampel tidak mewakili populasi pelanggan secara keseluruhan antara lain:
Model hanya akurat untuk segmen pelanggan tertentu
Pola churn yang teridentifikasi tidak mencerminkan kondisi nyata
Performa model menurun ketika diterapkan pada data baru
Keputusan bisnis berbasis model berpotensi tidak efektif atau bahkan merugikan
Dengan demikian, signifikansi statistik tidak otomatis menjamin keberhasilan implementasi model dalam praktik bisnis. Evaluasi terhadap proses pengambilan data dan karakteristik sampel menjadi aspek yang tidak kalah penting.
6.7 Mengapa p-value Tidak Mengukur Effect Size
p-value tidak mengukur effect size karena secara konsep statistik p-value tidak dirancang untuk menunjukkan besarnya pengaruh, melainkan hanya untuk menilai apakah hasil yang diperoleh kemungkinan besar terjadi secara kebetulan atau tidak. Dengan kata lain, p-value menjawab pertanyaan “apakah ada efek?”, bukan “seberapa besar efek tersebut?”.
Nilai p-value dihitung berdasarkan asumsi bahwa hipotesis nol benar dan menunjukkan probabilitas mendapatkan hasil yang sama ekstrem atau lebih ekstrem dari data yang diamati. Proses ini tidak melibatkan pengukuran langsung terhadap kekuatan atau magnitude efek, sehingga p-value tidak mengandung informasi kuantitatif mengenai besar kecilnya dampak suatu model atau variabel.
Selain itu, p-value sangat dipengaruhi oleh ukuran sampel. Pada ukuran sampel yang besar, perbedaan yang sangat kecil sekalipun dapat menghasilkan p-value yang signifikan secara statistik. Sebaliknya, pada ukuran sampel yang kecil, perbedaan yang cukup besar dapat menghasilkan p-value yang tidak signifikan. Kondisi ini menunjukkan bahwa p-value lebih sensitif terhadap jumlah data daripada terhadap kekuatan efek itu sendiri, sehingga tidak dapat digunakan sebagai ukuran effect size.
Dalam konteks analitik bisnis, khususnya pada evaluasi model churn, hal ini berarti bahwa model dapat menunjukkan p-value yang signifikan meskipun peningkatan kinerja yang dihasilkan relatif kecil dan belum tentu bernilai secara bisnis. Oleh karena itu, signifikansi statistik yang ditunjukkan oleh p-value tidak boleh langsung disamakan dengan signifikansi praktis atau signifikansi bisnis.
Untuk menilai besarnya dampak suatu model secara lebih komprehensif, diperlukan ukuran tambahan seperti effect size, lift, AUC, atau perubahan tingkat churn yang dihasilkan. Dengan mengombinasikan p-value dan ukuran effect size, analis dapat memberikan kesimpulan yang lebih lengkap, yaitu tidak hanya menyatakan bahwa suatu efek ada, tetapi juga seberapa besar dan seberapa penting efek tersebut dalam konteks bisnis nyata.
7 Referensi
[1] Devore, J. L. (2016). Probability and Statistics for Engineering and the Sciences (9th ed.). Cengage Learning.
[2] Moore, D. S., McCabe, G. P., & Craig, B. A. (2017). Introduction to the Practice of Statistics (9th ed.). W. H. Freeman.
[3] James, G., Witten, D., Hastie, T., & Tibshirani, R. (2021). An Introduction to Statistical Learning (2nd ed.). Springer
[4] Devore, J. L. (2016). Probability and Statistics for Engineering and the Sciences (9th ed.). Cengage Learning.
[5] Kuhn, M., & Johnson, K. (2013). Applied Predictive Modeling. Springer.