Tugas Statistical Inferences ~ Week 14
CHELSEA TESALONIKA PATRICIA HUTAJULU
DATA SCIENCE UNDERGRADUATE STUDENT AT INSTITUT TEKNOLOGI SAINS BANDUNG
Case Study 1
One-Sample Z-Test (Statistical Hypotheses)
A digital learning platform claims that the average daily study time of its users is 120 minutes. Based on historical records, the population standard deviation is known to be 15 minutes.
A random sample of 64 users shows an average study time of 116 minutes.
\[ \begin{eqnarray*} \mu_0 &=& 120 \\ \sigma &=& 15 \\ n &=& 64 \\ \bar{x} &=& 116 \end{eqnarray*} \]
Tasks
- Formulate the Null Hypothesis (H₀) and Alternative Hypothesis (H₁).
- Identify the appropriate statistical test and justify your choice.
- Compute the test statistic and p-value using \(\alpha = 0.05\).
- State the statistical decision.
- Interpret the result in a business analytics context.
1.1 Hypothesis Formulation
Hipotesis nol dan hipotesis alternatif dirumuskan untuk menguji klaim perusahaan bahwa rata-rata waktu belajar harian pengguna adalah 120 menit.
\[ H_0 : \mu = 120 \]
\[ H_1 : \mu \neq 120 \]
Hipotesis nol menyatakan bahwa rata-rata waktu belajar harian pengguna sesuai dengan klaim perusahaan, sedangkan hipotesis alternatif menyatakan bahwa rata-rata waktu belajar harian pengguna berbeda dari 120 menit.
1.2 Statistical Test Identification
Uji statistik yang tepat untuk digunakan adalah One-Sample Z-Test untuk Rata-rata Populasi. Hal ini dikarenakan simpangan baku populasi diketahui, yaitu \(\sigma = 15\), dan ukuran sampel cukup besar (\(n = 64\)). Selain itu, data diasumsikan berasal dari populasi yang berdistribusi normal.
One-Sample Z-Test digunakan untuk menguji apakah rata-rata sampel berbeda secara signifikan dari rata-rata populasi yang telah ditentukan sebelumnya, yaitu 120 menit.
1.3 Computation of Test Statistics and p-value
Statistik uji yang digunakan dalam One-Sample Z-Test dihitung dengan rumus: \[ Z = \frac{\bar{x} - \mu_0}{\sigma / \sqrt{n}} \]
Dengan memasukkan nilai yang diketahui: \[ Z = \frac{116 - 120}{15 / \sqrt{64}} \]
\[ Z = \frac{-4}{1.875} = -2.13 \]
Karena pengujian dilakukan secara dua sisi, maka nilai p-value dihitung sebagai: \[ p\text{-value} = 2P(Z < -2.13) \approx 0.033 \]
1.4 Statistical decisions
Pada tingkat signifikansi \(\alpha = 0.05\), diperoleh nilai \[ p\text{-value} = 0.033 \]
Karena nilai p-value lebih kecil dari tingkat signifikansi: \[ 0.033 < 0.05 \]
maka keputusan statistik adalah (\(H_0\)).
1.5 Interpretation in the Context of Business Analytics
Berdasarkan hasil pengujian statistik, dapat disimpulkan bahwa rata-rata waktu belajar harian pengguna berbeda secara signifikan dari klaim perusahaan sebesar 120 menit. Rata-rata waktu belajar yang diperoleh dari data sampel adalah 116 menit, yang menunjukkan bahwa pengguna cenderung menghabiskan waktu belajar lebih sedikit dari yang diharapkan. Temuan ini memberikan implikasi bagi perusahaan untuk mengevaluasi strategi pembelajaran digital yang diterapkan, seperti efektivitas konten, desain fitur aplikasi, dan tingkat keterlibatan pengguna. Dengan melakukan penyesuaian yang tepat, perusahaan dapat meningkatkan durasi belajar pengguna sehingga selaras dengan target bisnis dan tujuan pembelajaran yang telah ditetapkan.
Case Study 2
One-Sample T-Test (σ Unknown, Small Sample)
A UX Research Team investigates whether the average task completion time of a new application differs from 10 minutes.
The following data are collected from 10 users:
\[ 9.2,\; 10.5,\; 9.8,\; 10.1,\; 9.6,\; 10.3,\; 9.9,\; 9.7,\; 10.0,\; 9.5 \]
Tasks
- Define H₀ and H₁ (two-tailed).
- Determine the appropriate hypothesis test.
- Calculate the t-statistic and p-value at \(\alpha = 0.05\).
- Make a statistical decision.
- Explain how sample size affects inferential reliability.
2.1 Definition of Hypothesis
Hipotesis dirumuskan untuk menguji apakah rata-rata waktu penyelesaian tugas pada aplikasi baru berbeda dari 10 menit.
\[ H_0 : \mu = 10 \]
\[ H_1 : \mu \neq 10 \]
Hipotesis nol menyatakan bahwa rata-rata waktu penyelesaian tugas pengguna sama dengan 10 menit, sedangkan hipotesis alternatif menyatakan bahwa rata-rata waktu penyelesaian tugas pengguna berbeda dari 10 menit.
2.2 Determination of Hypothesis Testing
Uji hipotesis yang tepat digunakan adalah .
Hal ini dikarenakan simpangan baku populasi tidak diketahui dan ukuran
sampel relatif kecil, yaitu hanya terdiri dari 10 pengguna. Selain itu,
pengujian dilakukan untuk membandingkan rata-rata sampel dengan suatu
nilai tertentu, yaitu 10 menit, dengan asumsi data berasal dari populasi
yang berdistribusi normal.
2.3 Calculation of t-Statistics and P-Value
Rata-rata sampel dihitung sebagai: \[ \bar{x} = \frac{9.2 + 10.5 + 9.8 + 10.1 + 9.6 + 10.3 + 9.9 + 9.7 + 10.0 + 9.5}{10} = 9.86 \]
Simpangan baku sampel diperoleh sebesar: \[ s \approx 0.387 \]
Statistik uji t dihitung dengan rumus: \[ t = \frac{\bar{x} - \mu_0}{s / \sqrt{n}} \]
\[ t = \frac{9.86 - 10}{0.387 / \sqrt{10}} \approx -1.14 \]
Derajat kebebasan: \[ df = n - 1 = 9 \]
Karena pengujian bersifat dua sisi, nilai p-value adalah: \[ p\text{-value} \approx 0.28 \]
2.4 Statistical Decisions
Pada tingkat signifikansi \(\alpha = 0.05\), diperoleh nilai \[ p\text{-value} \approx 0.28 \]
Karena nilai p-value lebih besar dari tingkat signifikansi: \[ 0.28 > 0.05 \]
maka keputusan statistik adalah (\(H_0\)).
2.5 Interpretation of Results and Effect of Sample Size
Berdasarkan hasil pengujian statistik, tidak terdapat bukti yang cukup untuk menyatakan bahwa rata-rata waktu penyelesaian tugas pada aplikasi baru berbeda dari 10 menit. Hal ini disebabkan oleh nilai p-value yang lebih besar dari tingkat signifikansi yang digunakan. Ukuran sampel yang relatif kecil, yaitu hanya terdiri dari 10 pengguna, menyebabkan kekuatan uji statistik menjadi rendah sehingga perbedaan kecil antara rata-rata sampel dan nilai acuan sulit terdeteksi secara signifikan. Dengan menambah jumlah sampel, estimasi rata-rata akan menjadi lebih stabil dan kemampuan uji statistik dalam mendeteksi perbedaan yang sebenarnya akan meningkat.
Case Study 3
Two-Sample T-Test (A/B Testing)
A product analytics team conducts an A/B test to compare the average session duration (minutes) between two versions of a landing page.
| Version | Sample Size (n) | Mean | Standard Deviation |
|---|---|---|---|
| A | 25 | 4.8 | 1.2 |
| B | 25 | 5.4 | 1.4 |
Tasks
- Formulate the null and alternative hypotheses.
- Identify the type of t-test required.
- Compute the test statistic and p-value.
- Draw a statistical conclusion at \(\alpha = 0.05\).
- Interpret the result for product decision-making.
3.1 Hypothesis Formulation
Hipotesis dirumuskan untuk menguji apakah terdapat perbedaan rata-rata durasi sesi antara versi A dan versi B dari landing page.
\[ H_0 : \mu_A = \mu_B \]
\[ H_1 : \mu_A \neq \mu_B \]
Hipotesis nol menyatakan bahwa tidak terdapat perbedaan rata-rata durasi sesi antara versi A dan versi B, sedangkan hipotesis alternatif menyatakan bahwa terdapat perbedaan rata-rata durasi sesi antara kedua versi landing page tersebut.
3.2 Types of t-Tests Used
Jenis uji statistik yang digunakan adalah .
Uji ini dipilih karena data berasal dari dua kelompok yang berbeda dan
saling independen, yaitu versi A dan versi B dari landing page. Selain
itu, simpangan baku kedua kelompok berbeda dan tidak ada informasi yang
memastikan bahwa varians populasi sama, sehingga Welch’s t-test lebih
tepat digunakan dibandingkan pooled t-test.
Pengujian dilakukan secara dua sisi karena tujuan analisis adalah untuk mengetahui apakah terdapat perbedaan rata-rata durasi sesi antara kedua versi, tanpa arah perbedaan tertentu.
3.3 Calculation of Test Statistics and P-Value
Diketahui ringkasan data sebagai berikut: \[ \bar{x}_A = 4.8,\quad s_A = 1.2,\quad n_A = 25 \] \[ \bar{x}_B = 5.4,\quad s_B = 1.4,\quad n_B = 25 \]
Statistik uji untuk Two-Sample t-Test (Welch) dihitung dengan rumus: \[ t = \frac{\bar{x}_A - \bar{x}_B}{\sqrt{\frac{s_A^2}{n_A} + \frac{s_B^2}{n_B}}} \]
\[ t = \frac{4.8 - 5.4}{\sqrt{\frac{1.2^2}{25} + \frac{1.4^2}{25}}} = \frac{-0.6}{\sqrt{0.0576 + 0.0784}} = \frac{-0.6}{0.369} \approx -1.63 \]
Derajat kebebasan dihitung menggunakan pendekatan Welch dan diperoleh: \[ df \approx 46 \]
Karena pengujian bersifat dua sisi, nilai p-value adalah: \[ p\text{-value} \approx 0.11 \]
3.4 Statistical Conclusion
Pada tingkat signifikansi \(\alpha = 0.05\), diperoleh nilai \[ p\text{-value} \approx 0.11 \]
Karena nilai p-value lebih besar dari tingkat signifikansi: \[ 0.11 > 0.05 \]
maka keputusan statistik adalah (\(H_0\)). Artinya, tidak terdapat bukti yang cukup secara statistik untuk menyatakan adanya perbedaan rata-rata durasi sesi antara versi A dan versi B dari landing page.
3.5 Interpretation in the Context of Business Analytics
Berdasarkan hasil pengujian statistik, tidak terdapat bukti yang cukup untuk menyatakan bahwa versi B dari landing page memberikan durasi sesi yang secara signifikan berbeda dibandingkan versi A. Meskipun rata-rata durasi sesi pada versi B lebih tinggi, perbedaan tersebut belum signifikan secara statistik pada tingkat signifikansi 5%. Hal ini mengindikasikan bahwa peningkatan durasi sesi yang diamati dapat disebabkan oleh variasi acak sampel. Oleh karena itu, keputusan untuk mengganti landing page sebaiknya tidak hanya didasarkan pada hasil ini saja, melainkan didukung dengan pengumpulan data tambahan atau metrik kinerja lain sebelum dilakukan implementasi secara penuh.
Case Study 4
Chi-Square Test of Independence
An e-commerce company examines whether device type is associated with payment method preference.
| Device / Payment | E-Wallet | Credit Card | Cash on Delivery |
|---|---|---|---|
| Mobile | 120 | 80 | 50 |
| Desktop | 60 | 90 | 40 |
Tasks
- State the Null Hypothesis (H₀) and Alternative Hypothesis (H₁).
- Identify the appropriate statistical test.
- Compute the Chi-Square statistic (χ²).
- Determine the p-value at \(\alpha = 0.05\).
- Interpret the results in terms of digital payment strategy.
4.1 Hypothesis Formulation
Hipotesis dirumuskan untuk menguji apakah terdapat hubungan antara jenis perangkat yang digunakan dengan metode pembayaran yang dipilih oleh pengguna.
\[ H_0 : \text{Jenis perangkat dan metode pembayaran saling independen} \]
\[ H_1 : \text{Jenis perangkat dan metode pembayaran tidak saling independen} \]
Hipotesis nol menyatakan bahwa tidak terdapat hubungan antara jenis perangkat (mobile atau desktop) dengan preferensi metode pembayaran, sedangkan hipotesis alternatif menyatakan bahwa terdapat hubungan antara kedua variabel tersebut.
4.2 Statistical Test Identification
Uji statistik yang tepat digunakan adalah .
Uji ini digunakan untuk mengetahui apakah terdapat hubungan atau
asosiasi antara dua variabel kategorik, yaitu jenis perangkat yang
digunakan (mobile dan desktop) dan metode pembayaran (e-wallet, kartu
kredit, dan cash on delivery).
Chi-Square Test of Independence sesuai digunakan karena data disajikan dalam bentuk tabel kontingensi dan setiap observasi bersifat independen.
4.3 Chi-Square Statistical Calculation
Data observasi disajikan dalam tabel kontingensi dengan total pengamatan sebesar: \[ N = 440 \]
Frekuensi harapan dihitung dengan rumus: \[ E_{ij} = \frac{(\text{total baris}_i)(\text{total kolom}_j)}{N} \]
Frekuensi harapan yang diperoleh adalah: \[ \begin{array}{c|ccc} & \text{E-Wallet} & \text{Credit Card} & \text{COD} \\ \hline \text{Mobile} & 102.27 & 96.59 & 51.14 \\ \text{Desktop} & 77.73 & 73.41 & 38.86 \\ \end{array} \]
Statistik uji Chi-Square dihitung dengan rumus: \[ \chi^2 = \sum \frac{(O - E)^2}{E} \]
Dengan memasukkan nilai observasi dan ekspektasi, diperoleh: \[ \chi^2 \approx 13.77 \]
4.4 Determining the p-value
Derajat kebebasan pada uji Chi-Square dihitung sebagai: \[ df = (r - 1)(c - 1) = (2 - 1)(3 - 1) = 2 \]
Berdasarkan nilai statistik uji yang diperoleh: \[ \chi^2 \approx 13.77 \]
dengan derajat kebebasan \(df = 2\), diperoleh nilai: \[ p\text{-value} < 0.01 \]
Karena nilai p-value lebih kecil dari tingkat signifikansi: \[ p\text{-value} < \alpha = 0.05 \]
4.5 Interpretation in the Context of Digital Payment Strategy
Hasil uji Chi-Square menunjukkan bahwa terdapat hubungan yang signifikan antara jenis perangkat yang digunakan pengguna dan metode pembayaran yang mereka pilih. Temuan ini mengindikasikan bahwa perilaku pembayaran pengguna berbeda antara pengguna mobile dan desktop. Dalam konteks strategi pembayaran digital, perusahaan e-commerce dapat memanfaatkan informasi ini dengan mengoptimalkan metode pembayaran yang paling dominan pada masing-masing perangkat. Misalnya, peningkatan visibilitas dan kemudahan penggunaan e-wallet pada perangkat mobile serta penyediaan opsi kartu kredit yang lebih menonjol pada desktop dapat meningkatkan pengalaman pengguna dan potensi konversi transaksi.
Case Study 5
Type I and Type II Errors (Conceptual)
A fintech startup tests whether a new fraud detection algorithm reduces fraudulent transactions.
- H₀: The new algorithm does not reduce fraud.
- H₁: The new algorithm reduces fraud.
Tasks
- Explain a Type I Error (α) in this context.
- Explain a Type II Error (β) in this context.
- Identify which error is more costly from a business perspective.
- Discuss how sample size affects Type II Error.
- Explain the relationship between α, β, and statistical power.
5.1 Type I Error (\(\alpha\)) explanation
Type I Error (\(\alpha\)) dalam konteks ini terjadi ketika perusahaan mengira bahwa algoritma deteksi penipuan yang baru berhasil mengurangi jumlah transaksi fraud, padahal sebenarnya algoritma tersebut tidak memberikan dampak apa pun. Artinya, perusahaan salah mengambil kesimpulan karena menolak hipotesis nol yang seharusnya benar.
Akibat dari kesalahan ini, perusahaan bisa saja tetap menggunakan algoritma yang tidak efektif. Hal tersebut berisiko karena perusahaan merasa sudah aman dari penipuan, padahal transaksi fraud masih terjadi dan berpotensi menimbulkan kerugian finansial.
5.2 Penjelasan Type II Error (\(\beta\)) explanation
Type II Error (\(\beta\)) dalam konteks ini terjadi ketika perusahaan menyimpulkan bahwa algoritma deteksi penipuan yang baru tidak berhasil mengurangi transaksi fraud, padahal pada kenyataannya algoritma tersebut sebenarnya efektif. Dengan kata lain, perusahaan gagal mendeteksi adanya perbaikan karena tidak menolak hipotesis nol yang seharusnya salah.
Kesalahan ini dapat membuat perusahaan tetap menggunakan sistem lama atau menunda penerapan algoritma baru yang sebenarnya lebih baik. Akibatnya, peluang untuk mengurangi kerugian akibat penipuan menjadi terlewatkan dan potensi peningkatan keamanan sistem tidak dimanfaatkan secara optimal.
5.3 More Costly Mistakes from a Business Perspective
Dari sudut pandang bisnis, Type II Error umumnya lebih merugikan dibandingkan Type I Error dalam konteks pengujian algoritma deteksi penipuan. Ketika perusahaan melakukan Type II Error, perusahaan gagal menyadari bahwa algoritma baru sebenarnya mampu mengurangi transaksi fraud. Akibatnya, perusahaan tetap menggunakan sistem lama yang kurang efektif dan terus mengalami kerugian akibat penipuan yang seharusnya bisa ditekan.
Sebaliknya, meskipun Type I Error juga berisiko karena perusahaan mengira sistem baru efektif padahal tidak, dampaknya masih dapat diperbaiki melalui evaluasi lanjutan dan pemantauan performa sistem. Oleh karena itu, kehilangan kesempatan untuk mengurangi fraud secara nyata akibat Type II Error biasanya membawa konsekuensi bisnis yang lebih besar.
5.4 The Effect of Sample Size on Type II Error
Ukuran sampel memiliki pengaruh besar terhadap kemungkinan terjadinya Type II Error. Ketika ukuran sampel terlalu kecil, data yang dikumpulkan belum cukup kuat untuk menunjukkan perbedaan yang sebenarnya ada. Akibatnya, meskipun algoritma deteksi penipuan baru benar-benar efektif, hasil pengujian bisa saja menyimpulkan bahwa tidak ada perubahan yang signifikan.
Dengan menambah ukuran sampel, variasi data menjadi lebih stabil dan pola yang muncul menjadi lebih jelas. Hal ini membuat pengujian statistik lebih sensitif dalam mendeteksi efek yang nyata, sehingga peluang terjadinya Type II Error akan berkurang dan keputusan bisnis yang diambil menjadi lebih dapat dipercaya.
5.5 The relationship between \(\alpha\) \(\beta\) and statistical power
Dalam pengujian hipotesis, nilai \(\alpha\) dan \(\beta\) saling berkaitan. Ketika perusahaan menetapkan nilai \(\alpha\) yang lebih kecil, perusahaan menjadi lebih berhati-hati dalam menyimpulkan bahwa algoritma baru efektif. Namun, konsekuensinya adalah peluang terjadinya Type II Error (\(\beta\)) dapat meningkat, sehingga kemungkinan gagal mendeteksi algoritma yang sebenarnya efektif menjadi lebih besar.
Statistical power didefinisikan sebagai \(1 - \beta\), yaitu kemampuan pengujian untuk mendeteksi efek yang benar-benar ada. Dengan meningkatkan ukuran sampel atau memperbesar efek yang ingin dideteksi, perusahaan dapat meningkatkan statistical power tanpa harus menaikkan risiko Type I Error secara berlebihan. Hubungan ini penting dipahami agar keputusan bisnis yang diambil seimbang antara kehati-hatian dan kemampuan mendeteksi perbaikan yang nyata.
Case Study 6
P-Value and Statistical Decision Making
A churn prediction model evaluation yields the following results:
- Test statistic = 2.31
- p-value = 0.021
- Significance level: \(\alpha = 0.05\)
Tasks
- Explain the meaning of the p-value.
- Make a statistical decision.
- Translate the decision into non-technical language for management.
- Discuss the risk if the sample is not representative.
- Explain why the p-value does not measure effect size.
6.1 The meaning of p-value
Nilai p-value menunjukkan seberapa besar kemungkinan kita mendapatkan hasil seperti yang diamati, atau yang lebih ekstrem, jika sebenarnya tidak ada efek atau perbedaan sama sekali. Dalam konteks ini, p-value sebesar 0.021 berarti bahwa jika model churn sebenarnya tidak lebih baik dari kondisi awal, maka peluang munculnya hasil seperti ini hanya sekitar 2.1%.
Dengan kata lain, p-value yang kecil mengindikasikan bahwa hasil pengujian sulit dijelaskan hanya oleh kebetulan semata, sehingga ada indikasi kuat bahwa model churn memang memberikan perbedaan yang nyata.
6.2 Statistical Decisions
Berdasarkan hasil pengujian, nilai p-value sebesar 0.021 lebih kecil dibandingkan tingkat signifikansi yang ditetapkan, yaitu \(\alpha = 0.05\). Hal ini menunjukkan bahwa hasil yang diperoleh cukup kuat secara statistik dan kecil kemungkinannya terjadi hanya karena kebetulan.
Oleh karena itu, keputusan statistik yang diambil adalah menolak hipotesis nol. Artinya, model prediksi churn yang diuji menunjukkan kinerja yang secara statistik signifikan dibandingkan dengan kondisi awal atau model pembanding.
6.3 Explanation of Decisions in Non-Technical Language
Secara sederhana, hasil evaluasi menunjukkan bahwa model prediksi churn yang baru memberikan hasil yang lebih baik dan tidak muncul secara kebetulan. Dengan tingkat keyakinan yang cukup tinggi, kita dapat mengatakan bahwa model ini benar-benar memberikan perbaikan dalam memprediksi pelanggan yang berpotensi berhenti menggunakan layanan.
Bagi manajemen, temuan ini berarti bahwa model tersebut layak untuk dipertimbangkan dalam pengambilan keputusan bisnis, seperti perencanaan strategi retensi pelanggan, karena terbukti memberikan sinyal yang dapat diandalkan.
6.4 Risks If the Sample is Not Representative
Jika data yang digunakan untuk mengevaluasi model tidak mewakili kondisi pelanggan secara keseluruhan, maka hasil pengujian bisa menyesatkan. Meskipun p-value menunjukkan hasil yang signifikan, kesimpulan tersebut mungkin hanya berlaku untuk kelompok pelanggan tertentu saja, bukan untuk seluruh populasi.
Dalam praktik bisnis, hal ini berisiko karena perusahaan bisa terlalu percaya diri mengandalkan model yang tampaknya efektif, padahal performanya bisa jauh menurun ketika diterapkan ke segmen pelanggan yang berbeda. Akibatnya, strategi retensi yang dibangun berdasarkan model tersebut tidak berjalan optimal dan bahkan dapat menimbulkan keputusan yang kurang tepat.
6.5 Why P-value Doesn’t Measure Effect Size
P-value hanya menunjukkan seberapa kuat bukti data terhadap hipotesis nol, bukan seberapa besar pengaruh atau dampak yang terjadi. Nilai p-value yang kecil berarti hasil yang diperoleh jarang terjadi jika hipotesis nol benar, tetapi tidak memberi informasi tentang seberapa besar perbedaan atau efek yang dihasilkan oleh model.
Dalam konteks bisnis, sebuah model bisa menghasilkan p-value yang signifikan meskipun dampak perbaikannya sangat kecil dan tidak berarti secara praktis. Sebaliknya, efek yang cukup besar bisa saja menghasilkan p-value yang tidak signifikan jika ukuran sampel kecil. Oleh karena itu, untuk menilai seberapa penting hasil secara nyata, p-value perlu dilengkapi dengan ukuran effect size dan metrik performa lainnya.
Reference
[1] Siregar, B. (n.d.). Introduction to statistics: Chapter 8: Confidence Interval. dsciencelabs. https://bookdown.org/dsciencelabs/intro_statistics/08-Confidence_Interval.html
[2] Montgomery, D. C., & Runger, G. C. (2014). Applied statistics and probability for engineers (6th ed.). John Wiley & Sons.
[3] Walpole, R. E., Myers, R. H., Myers, S. L., & Ye, K. (2012). Probability and statistics for engineers and scientists (9th ed.). Pearson Education.
[4] Buana, T. I. W., & Adnan, A. (2024). Evaluating statistical power in t-test and Welch’s test using Monte Carlo simulation approach. Journal of Mathematics, Computations and Statistics, 8(2). https://doi.org/10.35580/jmathcos.v8i2.7407