Tugas Week 14 ~ Statistical Inferences

Foto Profil

Fifi Muthia Pitaloka

NIM: 52250038

Dosen Pengampu: Bakti Siregar, M.Sc., CDS.

Mata Kuliah: Statistika Dasar

Program Studi: Sains Data

Institut Teknologi Sains Bandung

Case Study 1

One-Sample Z-Test (Statistical Hypotheses)

A digital learning platform claims that the average daily study time of its users is 120 minutes. Based on historical records, the population standard deviation is known to be 15 minutes.

A random sample of 64 users shows an average study time of 116 minutes.

\[ \begin{eqnarray*} \mu_0 &=& 120 \\ \sigma &=& 15 \\ n &=& 64 \\ \bar{x} &=& 116 \end{eqnarray*} \]

Tasks

  1. Formulate the Null Hypothesis (H₀) and Alternative Hypothesis (H₁).
  2. Identify the appropriate statistical test and justify your choice.
  3. Compute the test statistic and p-value using \(\alpha = 0.05\).
  4. State the statistical decision.
  5. Interpret the result in a business analytics context.

Jawaban

1. Perumusan Hipotesis Nol (\(H_0\)) dan Hipotesis Alternatif (\(H_1\))

Dalam kasus ini, platform pembelajaran digital mengklaim bahwa rata-rata waktu belajar harian penggunanya adalah 120 menit. Analisis ini dilakukan untuk mengevaluasi kebenaran klaim tersebut berdasarkan data sampel yang tersedia.

Karena tujuan analisis adalah untuk mengetahui apakah rata-rata waktu belajar harian pengguna sama atau berbeda dari nilai yang diklaim, maka digunakan uji dua arah (two-tailed test).

Hipotesis Nol (\(H_0\)):

\[H_0 : \mu = 120\]

Artinya, rata-rata waktu belajar harian pengguna platform pembelajaran digital sama dengan 120 menit.

Hipotesis Alternatif (\(H_1\)):

\[H_1 : \mu \neq 120\]

Artinya, rata-rata waktu belajar harian pengguna platform pembelajaran digital berbeda dari 120 menit.

2. Identifikasi Uji Statistik yang Tepat dan Alasannya

Uji statistik yang digunakan dalam kasus ini adalah One-Sample Z-Test.

Alasan pemilihan uji:

  • Analisis dilakukan untuk menguji rata-rata satu sampel terhadap nilai rata-rata populasi yang diklaim, yaitu 120 menit.
  • Standar deviasi populasi diketahui, yaitu sebesar 15 menit.
  • Ukuran sampel cukup besar (\(n=64\)), sehingga asumsi distribusi normal dapat dipenuhi berdasarkan Teorema Limit Pusat.

Berdasarkan kondisi tersebut, One-Sample Z-Test merupakan uji statistik yang paling sesuai untuk digunakan dalam kasus ini.

3. Menghitung Statistik Uji dan p-value (\(\alpha = 0.05\))

Diketahui:

  • Rata-rata sampel: \(\bar{x} = 116\)
  • Rata-rata populasi (klaim): \(\mu_0 = 120\)
  • Standar deviasi populasi: \(\sigma = 15\)
  • Ukuran sampel: \(n = 64\)
  • Taraf signifikansi: \(\alpha = 0.05\)

a. Statistik Uji (Z)

Rumus One-Sample Z-Test:

\[Z=\frac{\bar{x}-\mu_0}{\frac{\sigma}{\sqrt {n}}}\]

Subsitusi nilai:

\[ \begin{aligned} Z&=\frac{116 - 120}{\frac{15}{\sqrt {64}}} \\ &=\frac{-4}{\frac{15}{8}} \\ &=\frac{-4}{1.875} \\ &\approx -2.13 \end{aligned} \]

b. p-value

Karena hipotesis alternatif bersifat dua arah (two-tailed), maka:

\[p-value = 2 \times P(Z \leq -2.13)\]

Dari tabel distribusi normal standar:

\[P(Z \leq -2.13) \approx 0.0166\]

Sehingga:

\[ \begin{aligned} p-value &= 2 \times 0.0166 \\ &= 0.0332 \end{aligned} \]

Nilai statistik uji p-value \(\alpha\)
\(Z\approx -2.13\) \(0.0332\) \(0.05\)

4. Keputusan Statistik

Berdasarkan hasil perhitungan pada poin sebelumnya, diperoleh:

  • p-value = \(0.0332\)
  • taraf signifikansi (\(\alpha\)) = \(0.05\)

Karena:

\[ \begin{aligned} &p-value < \alpha \\ &(0.0332 < 0.05) \end{aligned} \]

Maka keputusan statistik yang diambil adalah hipotesis nol (\(H_0\)) ditolak.

5. Interpretasi dalam Konteks Business Analytics

Berdasarkan hasil analisis statistik, terdapat bukti yang cukup secara statistik bahwa rata-rata waktu belajar harian pengguna berbeda dari klaim 120 menit yang disampaikan oleh platform pembelajaran digital.

Dalam konteks business analytics, hasil ini menunjukkan bahwa klaim perusahaan mengenai rata-rata waktu belajar pengguna perlu dievaluasi kembali, karena data sampel menunjukkan rata-rata waktu belajar yang lebih rendah, yaitu 116 menit. Informasi ini dapat digunakan oleh manajemen untuk meninjau strategi produk dan pemasaran, serta merancang fitur atau program yang dapat meningkatkan keterlibatan pengguna dan durasi waktu belajar.

Case Study 2

One-Sample T-Test (σ Unknown, Small Sample)

A UX Research Team investigates whether the average task completion time of a new application differs from 10 minutes.

The following data are collected from 10 users:

\[ 9.2,\; 10.5,\; 9.8,\; 10.1,\; 9.6,\; 10.3,\; 9.9,\; 9.7,\; 10.0,\; 9.5 \]

Tasks

  1. Define H₀ and H₁ (two-tailed).
  2. Determine the appropriate hypothesis test.
  3. Calculate the t-statistic and p-value at \(\alpha = 0.05\).
  4. Make a statistical decision.
  5. Explain how sample size affects inferential reliability.

Jawaban

1. Definisi Hipotesis Nol (\(H_0\)) dan Hipotesis Alternatif (\(H_1\))

Dalam kasus ini, tim UX ingin mengetahui apakah rata-rata waktu penyelesaian tugas pada aplikasi baru berbeda dari 10 menit.

Karena tidak ditentukan arah perbedaannya (lebih cepat atau lebih lama), maka digunakan uji dua arah (two-tailed test).

Hipotesis Nol (\(H_0\)):

\[H_0 : \mu = 10\]

Artinya, rata-rata waktu penyelesaian tugas pengguna sama dengan 10 menit.

Hipotesis Alternatif (\(H_1\)):

\[H_1 : \mu \neq 10\]

Artinya, rata-rata waktu penyelesaian tugas pengguna berbeda dari 10 menit.

2. Menentukan Uji Hipotesis yang Tepat

Uji hipotesis yang tepat untuk kasus ini adalah One-Sample T-Test.

Alasan pemilihan uji statistik:

  • Analisis dilakukan untuk menguji rata-rata satu sampel terhadap nilai tertentu, yaitu 10 menit.
  • Standar deviasi populasi tidak diketahui (\(\sigma\) unknown).
  • Ukuran sampel kecil, yaitu hanya 10 pengguna (\(n < 30\)).
  • Data diasumsikan berasal dari populasi yang berdistribusi normal.

Berdasarkan kondisi tersebut, One-Sample T-Test merupakan uji yang paling sesuai untuk digunakan dalam kasus ini.

3. Menghitung t-statistic dan p-value (\(\alpha = 0.05\))

Data sampel (\(n=10\)):

\[ 9.2,\; 10.5,\; 9.8,\; 10.1,\; 9.6,\; 10.3,\; 9.9,\; 9.7,\; 10.0,\; 9.5 \]

Nilai hipotesis:

\[\mu_0 = 10\]

a. Rata-rata sampel

\[ \begin{aligned} \bar{x} &= \frac {98.6}{10} \\ &= 9.86 \end{aligned} \]

b. Standar deviasi sampel

Diperoleh:

\[s \approx 0.387\]

c. Statistik uji (t)

Rumus One-Sample T-Test:

\[t=\frac{\bar{x} - \mu_0}{\frac{s}{\sqrt {n}}}\]

Subsitusi nilai:

\[ \begin{aligned} t &= \frac{9.86 - 10}{\frac{0.387}{\sqrt {10}}} \\ &= \frac{-0.14}{0.122} \\ &\approx -1.15 \end{aligned} \]

Derajar kebebasan:

\[ \begin{aligned} df &= n - 1 \\ &= 10 - 1 \\ &= 9 \end{aligned} \]

d. p-value

Karena pengujian bersifat dua arah (two-tailed):

\[p-value = 2 \times P(t \leq -1.15)\]

Berdasarkan tabel distribusi t (df = 9), diperoleh:

\[p-value \approx 0.28\]

Rata-rata sampel Statistik uji Derajat kebebasan p-value
\(\bar{x} = 9.86\) \(t \approx -1.15\) \(df = 9\) \(\approx 0.28\)

4. Keputusan Statistik

Berdasarkan hasil perhitungan diperoleh:

  • p-value \(\approx\) 0.28
  • taraf signifikansi (\(\alpha\)) = 0.05

Karena:

\[ \begin{aligned} &p-value > \alpha \\ &(0.28 > 0.05) \end{aligned} \]

Maka tidak terdapat cukup bukti statistik untuk menolak hipotesis nol (\(H_0\)).

5. Pengaruh Ukuran Sampel terhadap Keandalan Inferensi

Ukuran sampel memiliki peran penting dalam keandalan hasil inferensi statistik. Pada kasus ini, jumlah sampel yang digunakan relatif kecil, yaitu hanya 10 pengguna, sehingga kemampuan uji statistik dalam mendekteksi perbedaan yang sebenarnya juga menjadi terbatas.

Sampel yang kecil cenderung menghasilkan tingkat ketidakpastian yang lebih tinggi, sehingga kesimpulan yang diperoleh menjadi kurang kuat dibanding jika menggunakan sampel yang lebih besar. Dengan ukuran sampel yang lebih besar, estimasi rata-rata akan lebih stabil dan hasil pengujian hipotesis akan menjadi lebih andal.

Oleh karena itu, meskipun hasil analisis menunjukkan bahwa tidak terdapat cukup bukti statistik untuk menyatakan adanya perbedaan rata-rata waktu penyelesaian tugas dari 10 menit, peningkatan ukuran sampel dapat memberikan hasil inferensi yang lebih meyakinkan di masa mendatang.

Case Study 3

Two-Sample T-Test (A/B Testing)

A product analytics team conducts an A/B test to compare the average session duration (minutes) between two versions of a landing page.

Version Sample Size (n) Mean Standard Deviation
A 25 4.8 1.2
B 25 5.4 1.4

Tasks

  1. Formulate the null and alternative hypotheses.
  2. Identify the type of t-test required.
  3. Compute the test statistic and p-value.
  4. Draw a statistical conclusion at \(\alpha = 0.05\).
  5. Interpret the result for product decision-making.

Jawaban

1. Perumusan Hipotesis Nol (\(H_0\)) dan Hipotesis Alternatif (\(H_1\))

Dalam kasus ini, tim product analytics ingin membandingkan rata-rata durasi sesi pengguna antara Landing Page versi A dan versi B untuk mengetahui apakah terdapat perbedaan performa di antara keduanya.

Karena tujuan analisis adalah untuk melihat apakah rata-rata durasi sesi kedua versi berbeda, tanpa menentukan arah perbedaan secara spesifik, maka digunakan uji dua arah (two-tailed test).

Hipotesis Nol (\(H_0\)):

\[H_0 : \mu_A = \mu_B\]

Artinya, rata-rata durasi sesi pengguna pada landing page versi A sama dengan versi B.

Hipotesis Alternatif (\(H_1\)):

\[H_1 : \mu_A \neq \mu_B\]

Artinya, rata-rata durasi sesi pengguna pada landing page versi A berbeda dengan versi B.

2. Jenis Uji t yang Digunakan

Jenis uji statistik yang digunakan dalam kasus ini adalah Two-Sample Independent T-Test.

Alasan pemilihan uji statistik:

  • Analisis dilakukan untuk membandingkan rata-rata dari dua kelompok yang berbeda, yaitu pengguna landing page versi A dan versi B.
  • Data berasal dari dua sampel yang independen (pengguna versi A dan Versi B adalah kelompok yang berbeda).
  • Standar deviasi populasi tidak diketahui dan diestimasi dari data sampel.
  • Ukuran sampel kedua kelompok sama dan relatif kecil menengah (masing-masing n = 25).

Oleh karena itu, Two-Sample Independent T-Test merupakan uji yang paling tepat untuk digunakan dalam kasus A/B testing ini.

3. Menghitung Test Statistik dan p-value

Diketahui:

  • Versi A: \[n_A = 25, \bar{x}_A = 4.8, s_A = 1.2\]
  • Versi B: \[n_B = 25, \bar{x}_B = 5.4, s_B = 1.4\]

a. Selisih rata-rata

\[ \begin{aligned} &\bar{x}_B - \bar{x}_A \\ &= 5.4 - 4.8 \\ &= 0.6 \end{aligned} \]

b. Simpangan baku gabungan (pooled standard deviation)

Karena ukuran sampel kedua kelompok sama dan varians relatif sebanding, digunakan pooled variance:

\[ \begin{aligned} s_p^2 &= \frac {(n_A - 1) s_A^2 + (n_B - 1) s_B^2}{n_A + n_B - 2} \\ &= \frac {24(1.2^2) + 24(1.4^2)}{48} \\ &= \frac {34.56 + 47.04}{48} \\ &= 1.7 \\ s_p &= \sqrt {1.7} \\ &\approx 1.304 \end{aligned} \]

c. Standar error

\[ \begin{aligned} SE &= s_p\sqrt{\frac{1}{n_A} + \frac{1}{n_B}} \\ &= 1.304\sqrt{\frac{1}{25} + \frac{1}{25}} \\ &= 1.304\sqrt{0.08} \\ &\approx 0.369 \end{aligned} \]

d. Statistik uji (t)

\[ \begin{aligned} t &= \frac{\bar{x}_B - \bar{x}_A}{SE} \\ &= \frac{0.6}{0.369} \\ &\approx 1.63 \end{aligned} \]

Derajat kebebasan:

\[ \begin{aligned} df &= n_A + n_B - 2 \\ &= 25 + 25 - 2 \\ &= 48 \end{aligned} \]

e. p-value

Karena pengujian dua arah (two-tailed) dan \(df = 48\):

\[p-value \approx 0.11\]

Statistik uji Derajat kebebasan p-value
\(t \approx 1.63\) \(df = 48\) \(\approx 0.11\)

4. Kesimpulan Statistik

Berdasarkan hasil perhitungan diperoleh:

  • Statistik uji: \(t \approx 1.63\)
  • p-value \(\approx 0.11\)
  • Taraf signifikansi: \(\alpha = 0.05\)

Karena nilai p-value lebih besar daripada \(\alpha\), maka tidak terdapat cukup bukti statistik untuk menyatakan adanya perbedaan rata-rata durasi sesi pengguna antara landing versi A dan versi B.

5. Interpretasi untuk Product Decision-Making

Berdasarkan hasil analisis statistik, tidak terdapat perbedaan yang signifikan secara statistik antara rata-rata durasi sesi pengguna pada landing page versi A dan versi B. Hal ini menunjukkan bahwa perubahan desain pada versi B belum memberikan dampak yang cukup kuat terhadap peningkatan durasi sesi pengguna dibandingkan versi A.

Dalam konteks pengambilan keputusan produk, hasil ini menyiratkan bahwa peluncuran landing page versi B belum perlu diprioritaskan hanya berdasarkan metrik durasi sesi. Tim produk dapat mempertimbangkan untuk:

  • Mengumpulkan data tambahan dengan ukuran sampel yang lebih besar.
  • Mengevaluasi metrik lain seperti conversion rate atau bounce rate.
  • Melakukan iterasi desain lebih lanjut sebelum mengambil keputusan final.

Case Study 4

Chi-Square Test of Independence

An e-commerce company examines whether device type is associated with payment method preference.

Device / Payment E-Wallet Credit Card Cash on Delivery
Mobile 120 80 50
Desktop 60 90 40

Tasks

  1. State the Null Hypothesis (H₀) and Alternative Hypothesis (H₁).
  2. Identify the appropriate statistical test.
  3. Compute the Chi-Square statistic (χ²).
  4. Determine the p-value at \(\alpha = 0.05\).
  5. Interpret the results in terms of digital payment strategy.

Jawaban

1. Pernyataan Hipotesis Nol (\(H_0\)) dan Hipotesis Alternatif (\(H_1\))

Dalam kasus ini, perusahaan e-commerce ingin mengetahui apakah jenis perangkat yang digunakan pengguna (mobile atau desktop) memiliki hubungan dengan preferensi metode pembayaran.

Karena yang diuji adalah hubungan (asosiasi) antara dua variabel kategorik, maka hipotesisnya dirumuskan sebagai berikut:

Hipotesis Nol (\(H_0\)):

Tidak terdapat hubungan antara jenis perangkat dan preferensi metode pembayaran pengguna.

Hipotesis Alternatif (\(H_1\)):

Terdapat hubungan antara jenis perangkat dan preferensi metode pembayaran pengguna.

2. Identifikasi Uji Statistik yang Digunakan

Uji statistik yang digunakan dalam kasus ini adalah Chi-Square Test of Independence.

Alasan pemilihan uji statistik:

  • Analisis dilakukan untuk mengetahui hubungan (asosiasi) antara dua variabel.
  • Kedua variabel yang dianalisis bersifat kategorik, yaitu:
    • Jenis perangkat (Mobile,Desktop)
    • Metode pembayaran (E-Wallet, Credit Card, Cash on Delivery)
  • Data yang digunakan berupa frekuensi atau jumlah pengamatan, bukan data numerik kontinu.
  • Setiap observasi bersifat independen.

Berdasarkan kondisi tersebut, Chi-Square Test of Independence merupakan uji yang paling tepat untuk digunakan dalam kasus ini.

3. Menghitung Statistik Chi-Square (\(X^2\))

a. Tabel Observasi (O)

Device/Payment E-Wallet Credit Card COD Total
Mobile 120 80 50 250
Desktop 60 90 40 190
Total 180 170 90 440

b. Tabel Ekspektasi (E)

Rumus nilai harapan:

\[ \begin{aligned} E_{ij} &= \frac{R_i \times C_j}{N} \end{aligned} \] \[ \begin{aligned} E_{ij} &= \text{expected frequency} \\ R_i &= \text{row total} \\ C_j &= \text{column total} \\ N &= \text{grand total} \end{aligned} \]

Contoh (Mobile - E-Wallet):

\[ \begin{aligned} E &= \frac{250 \times 180}{440} \\ &= 102.27 \end{aligned} \]

Sehingga tabel ekspektasi diperoleh:

Device/Payment E-Wallet Credit Card COD
Mobile 102.27 96.59 51.14
Desktop 77.73 73.41 38.86

c. Perhitungan Statistik Chi-Square

\[\chi^2 = \sum \frac{(O - E)^2}{E}\]

\[ \begin{aligned} \chi^2 &= \frac{(120-102.27)^2}{102.27} + \frac{(80-96.59)^2}{96.59} + \frac{(50-51.14)^2}{51.14} \\ &\quad + \frac{(60-77.73)^2}{77.73} + \frac{(90-73.41)^2}{73.41} + \frac{(40-38.86)^2}{38.86} \\ &\approx 13.77 \end{aligned} \]

4. Menentukan p-value pada \(\alpha\) = 0.05

Dari poin 3, kita sudah dapat nilai statistik uji:

\[\chi^2 \approx 13.77\]

Derajat kebebasan (df)

Karena tabelnya 2 \(\times\) 3, maka:

\[ \begin{aligned} df &= (r - 1)(c - 1) \\ &= (2 - 1)(3 - 1) \\ &= 2 \end{aligned} \]

Keputusan berdasarkan \(\alpha\) = 0.05

  • Nilai kritis \(\chi^2\) untuk df = 2 dan \(\alpha\) = 0.05 adalah 5.991
  • Karena:
  • \[13.77 > 5.991\]

maka hasilnya signifikan

p-value

Dengan:

  • \(\chi^2 \approx 13.77\)
  • df = 2

p-value < 0.05 (bahkan sekitar p \(\approx\) 0.001)

Keputusan Statistik

\[ \text{Tolak } H_0 \]

Artinya:

Terdapat hubungan yang signifikan antara jenis perangkat dan preferensi metode pembayaran.

5. Interpretasi Hasil dalam Strategi Pembayaran Digital

Berdasarkan hasil uji Chi-Square pada tingkat signifikansi \(\alpha = 0.05\), keputusan yang diperoleh adalah menolak hipotesis nol (H₀). Hal ini menunjukkan bahwa jenis perangkat yang digunakan memiliki hubungan dengan preferensi metode pembayaran pengguna pada platform e-commerce.

Dalam konteks kasus bisnis, hasil ini mengindikasikan bahwa strategi pembayaran perlu disesuaikan dengan perangkat pengguna. Optimalisasi E-Wallet pada mobile dan peningkatan kemudahan pembayaran kartu kredit pada desktop dapat meningkatkan kenyamanan pengguna serta berpotensi mendorong peningkatan transaksi.

Case Study 5

Type I and Type II Errors (Conceptual)

A fintech startup tests whether a new fraud detection algorithm reduces fraudulent transactions.

  • H₀: The new algorithm does not reduce fraud.
  • H₁: The new algorithm reduces fraud.

Tasks

  1. Explain a Type I Error (α) in this context.
  2. Explain a Type II Error (β) in this context.
  3. Identify which error is more costly from a business perspective.
  4. Discuss how sample size affects Type II Error.
  5. Explain the relationship between α, β, and statistical power.

Jawaban

1. Type I Error (α)

Type I Error (α) adalah kesalahan yang terjadi ketika hipotesis nol (\(H_0\)) ditolak, padahal \(H_0\) sebenarnya benar.

Dalam konteks kasus ini, Type I Error berarti menyimpulkan bahwa algoritma deteksi fraud yang baru mampu mengurangi transaksi fraud, padahal sebenarnya algoritma tersebut tidak mengurangi fraud.

2. Type II Error (β)

Type II Error (β) adalah kesalahan yang terjadi ketika hipotesis nol (\(H_0\)) gagal ditolak, padahal hipotesis alternatif (\(H_1\)) sebenarnya benar.

Dalam konteks kasus ini, Type II Error berarti menyimpulkan bahwa algoritma deteksi fraud yang baru tidak mengurangi fraud, padahal sebenarnya algoritma tersebut mampu mengurangi transaksi fraud.

3. Error yang Lebih Merugikan dari Perspektif Bisnis

Dalam konteks startup fintech, Type II Error (β) umumnya lebih merugikan dari perspektif bisnis.

Hal ini karena perusahaan gagal mengadopsi algoritma yang sebenarnya efektif dalam mengurangi fraud, sehingga:

  • Transaksi fraud tetap terjadi,
  • Potensi kerugian finansial dan risiko keamanan tetap tinggi,
  • Peluang meningkatkan sistem keamanan terlewatkan.

Oleh karena itu, menghindari Type II Error menjadi hal penting agar inovasi yang efektif tidak diabaikan.

4. Pengaruh Ukuran Sampel terhadap Type II Error

Ukuran sampel memiliki pengaruh yang signifikan terhadap Type II Error (β). Semakin besar ukuran sampel, semakin kecil kemungkinan terjadinya Type II Error.

Hal ini terjadi karena sampel yang lebih besar memberikan informasi yang lebih representatif tentang kondisi sebenarnya, sehingga sistem pengujian statistik menjadi lebih sensitif dalam mendeteksi efek yang benar-benar ada. Sebaliknya, ukuran sampel yang kecil cenderung meningkatkan risiko gagal mendeteksi efektivitas algoritma, meskipun algoritma tersebut sebenarnya bekerja dengan baik.

5. Hubungan antara α, β, dan Statistical Power

Nilai α (Type I Error) dan β (Type II Error) memiliki hubungan yang saling berkaitan. Jika α diperkecil, maka kriteria penolakan hipotesis menjadi lebih ketat, sehingga β cenderung meningkat. Sebaliknya, jika α diperbesar, maka β cenderung menurun.

Statistical power didefinisikan sebagai:

\[\text{Power} = 1 - \beta\]

Artinya, semakin kecil β, semakin besar power dari suatu uji statistik. Dalam praktiknya, meningkatkan ukuran sampel merupakan cara yang umum dilakukan untuk menurunkan β dan meningkatkan power, tanpa harus memperbesar nilai α secara berlebihan.

Case Study 6

P-Value and Statistical Decision Making

A churn prediction model evaluation yields the following results:

  • Test statistic = 2.31
  • p-value = 0.021
  • Significance level: \(\alpha = 0.05\)

Tasks

  1. Explain the meaning of the p-value.
  2. Make a statistical decision.
  3. Translate the decision into non-technical language for management.
  4. Discuss the risk if the sample is not representative.
  5. Explain why the p-value does not measure effect size.

Jawaban

1. Makna P-Value

P-value merupakan probabilitas untuk memperoleh nilai statistik uji yang sama ekstrem atau lebih ekstrem dibandingkan dengan nilai yang diamati, dengan asumsi bahwa hipotesis nol (\(H_0\)) benar.

Dalam kasus ini, p-value sebesar 0.021 menunjukkan bahwa terdapat peluang sebesar 2.1% untuk mendapatkan hasil seperti ini apabila model churn sebenarnya tidak memiliki perbedaan kinerja yang signifikan.

2. Keputusan Statistik

Karena nilai p-value (0.021) < \(\alpha\) (0.05), maka hipotesis nol (\(H_0\)) ditolak.

Dengan demikian, hasil pengujian menunjukkan bahwa terdapat bukti statistik yang signifikan pada tingkat signifikansi 5% untuk menyatakan bahwa model churn yang diuji memberikan hasil yang berbeda secara signifikan.

3. Penjelasan dalam Bahasa Non-Teknis

Hasil evaluasi menunjukkan bahwa model prediksi churn yang diuji memberikan performa yang bermakna, dan kemungkinan hasil ini terjadi secara kebetulan sangat kecil.

Dengan kata lain, model ini layak dipertimbangkan untuk digunakan, karena hasil pengujiannya menunjukkan adanya indikasi kuat bahwa model bekerja dengan baik.

4. Risiko Jika Sampel Tidak Representatif

Jika sampel yang digunakan tidak mewakili populasi secara keseluruhan, maka hasil pengujian statistik dapat menjadi bias dan menyesatkan.

Dalam konteks evaluasi model churn, hal ini dapat menyebabkan kesimpulan bahwa model bekerja dengan baik, padahal performanya mungkin tidak konsisten ketika diterapkan pada data pelanggan yang berbeda. Akibatnya, keputusan bisnis yang diambil berdasarkan hasil tersebut tidak akurat dan kurang efektif.

5. Mengapa P-Value Tidak Mengukur Effect Size

P-value hanya menunjukkan seberapa kuat bukti statistik untuk menolak hipotesis nol, bukan seberapa besar pengaruh atau dampak dari suatu efek.

Nilai p-value yang kecil dapat diperoleh meskipun efek yang terjadi sangat kecil, terutama jika ukuran sampel besar. Oleh karena itu, untuk menilai besar kecilnya pengaruh model, diperlukan ukuran lain seperti effect size, bukan p-value semata.

Referensi

[1] Siregar, B.(n.d). Statistical Inference: Chapter 9 - Confidence Interval.dsciencelabs. https://bookdown.org/dsciencelabs/intro_statistics/09-Statistical_Inference.html

[2] Rinaldi, A., Novalia, & Syazali, M. (2020). Statistika inferensial untuk ilmu sosial dan pendidikan (Edisi 1). IPB Press. Retrieved from https://perpustakaan.iaiskjmalang.ac.id/wp-content/uploads/2024/02/8.-Statiska-Inferensial.pdf