KAYLA APRILIA
Data Science Student at ITSB
NIM: 52250057
Email: kaylaaprilia2142@gmail.com
1 Probability Distributions
Distribusi probabilitas adalah representasi matematis dari kemungkinan berbagai nilai yang dapat diambil oleh variabel acak. Distribusi ini membantu memahami seberapa besar peluang tiap hasil terjadi, baik untuk variabel diskret maupun kontinu, dan menjadi dasar penting dalam analisis data, prediksi, dan pengambilan keputusan statistik.
1.1 Continuous Random
Video: Distribusi Probabilitas Variabel Kontinu.
๐ Pengantar Probabilitas Variabel Kontinu
Variabel kontinu adalah variabel yang dapat mengambil semua nilai dalam interval tertentu. Contohnya tinggi badan, berat badan, atau waktu yang dibutuhkan suatu proses. Probabilitas variabel kontinu diukur melalui area di bawah kurva fungsi densitas probabilitas (PDF), bukan melalui nilai tunggal.
๐งฎ Fungsi Densitas Probabilitas (PDF)
Fungsi densitas probabilitas \(f(x)\) memenuhi sifat:
- \(f(x) \ge 0\) untuk semua \(x\)
- Total area di bawah kurva = 1
\[ \int_{-\infty}^{\infty} f(x) \, dx = 1 \]
Peluang variabel kontinu berada dalam interval \([a, b]\) dihitung dengan:
\[ P(a \le X \le b) = \int_a^b f(x) \, dx \]
๐ Fungsi Distribusi Kumulatif (CDF)
CDF \(F(x)\) menyatakan peluang variabel acak kurang dari atau sama dengan \(x\):
\[ F(x) = P(X \le x) = \int_{-\infty}^{x} f(t) \, dt \]
Sifat CDF: - \(0 \le F(x) \le 1\) - \(F(x)\) bersifat monoton naik
โ๏ธ Distribusi Kontinu Populer
- Distribusi Uniform Kontinu
\[ f(x) = \begin{cases} \frac{1}{b-a}, & a \le x \le b \\ 0, & \text{lainnya} \end{cases} \]
- Distribusi Normal (Gaussian)
\[ f(x) = \frac{1}{\sigma \sqrt{2\pi}} \exp\Big[-\frac{(x-\mu)^2}{2\sigma^2}\Big] \]
โ Contoh Probabilitas Variabel Kontinu
Misalkan tinggi badan mahasiswa mengikuti distribusi normal:
\[ X \sim N(165, 5^2) \]
Artinya: - Rataan tinggi badan = 165 cm
- Simpangan baku = 5 cm
๐น Probabilitas pada Interval
Peluang mahasiswa memiliki tinggi badan antara 160 cm dan 170 cm:
\[ P(160 \le X \le 170) \]
Standarisasi:
\[ Z = \frac{X - \mu}{\sigma} \]
\[ Z_1 = \frac{160 - 165}{5} = -1, \quad Z_2 = \frac{170 - 165}{5} = 1 \]
Dari tabel normal:
\[ P(-1 \le Z \le 1) = 0.6826 \]
๐ Interpretasi:
Sekitar 68,26% mahasiswa memiliki tinggi badan antara
160โ170 cm.
๐น Probabilitas Nilai Tunggal
\[ P(X = 165) = 0 \]
๐ Interpretasi:
Untuk variabel kontinu, probabilitas hanya bermakna pada
interval, bukan pada satu nilai.
๐น CDF (Singkat)
\[ F(170) = P(X \le 170) \approx 0.8413 \]
๐ Interpretasi:
Sekitar 84,13% mahasiswa memiliki tinggi badan โค 170
cm.
๐ Catatan
- Untuk variabel kontinu, probabilitas pada nilai tunggal selalu nol:
\[ P(X = x) = 0 \]
- Probabilitas hanya dapat dihitung dalam interval
\([a, b]\) melalui integrasi PDF.
- Rataan (\(E[X]\)) dan varians (\(Var(X)\)) dihitung dengan:
\[ E[X] = \int_{-\infty}^{\infty} x f(x) \, dx, \quad Var(X) = \int_{-\infty}^{\infty} (x - E[X])^2 f(x) \, dx \]
1.2 Sampling Distributions
Video: Distribusi Sampel.
๐ฏ Distribusi Sampling (Sampling Distribution)
Distribusi sampling adalah distribusi probabilitas dari statistik sampel (misal mean, proporsi) yang diperoleh dari berbagai sampel yang diambil dari populasi yang sama. Distribusi ini memungkinkan kita menilai variabilitas statistik sampel dan melakukan inferensi ke populasi.
๐น 1. Statistik Sampel
Beberapa statistik sampel yang umum digunakan: - ๐ข Rataan sampel
(\(\bar{X}\))
- ๐ต Proporsi sampel (\(\hat{p}\))
- ๐ก Varians sampel (\(S^2\))
๐ 2. Rataan dan Varians Sampling
Jika populasi memiliki mean \(\mu\) dan varians \(\sigma^2\), maka:
- โจ Rataan sampel:
\[ E[\bar{X}] = \mu \]
- โจ Varians sampel (Sampling Variance):
\[ Var(\bar{X}) = \frac{\sigma^2}{n} \]
- โจ Standar error (SE):
\[ SE(\bar{X}) = \frac{\sigma}{\sqrt{n}} \]
๐ Catatan: \(n\) = ukuran sampel
๐ 3. Distribusi Sampling Rataan
- Jika populasi berdistribusi normal, maka
distribusi rataan sampel juga normal untuk
semua ukuran sampel \(n\).
- Jika populasi tidak normal, menurut Central Limit Theorem (CLT), \(\bar{X}\) akan mendekati distribusi normal saat \(n\) besar (\(n \ge 30\)).
\[ \bar{X} \sim N\Big(\mu, \frac{\sigma^2}{n}\Big) \]
๐ 4. Distribusi Sampling Proporsi
Jika proporsi populasi = \(p\), ukuran sampel = \(n\):
- ๐ข Rataan: \(E[\hat{p}] =
p\)
- ๐ต Varians: \(Var(\hat{p}) = \frac{p(1-p)}{n}\)
- ๐ก Standar error: \(SE(\hat{p}) = \sqrt{\frac{p(1-p)}{n}}\)
โ Contoh Distribusi Sampling
Misalkan populasi nilai ujian memiliki:
\[ \mu = 70, \quad \sigma = 10 \]
Diambil sampel acak berukuran:
\[ n = 25 \]
๐น Distribusi Sampling Rataan Sampel
Rataan dan standar error:
\[ E[\bar{X}] = 70, \quad SE(\bar{X}) = \frac{10}{\sqrt{25}} = 2 \]
Distribusi rataan sampel:
\[ \bar{X} \sim N(70, 4) \]
๐ Interpretasi:
Rataan sampel berfluktuasi di sekitar 70 dengan
penyimpangan rata-rata 2 poin antar sampel.
๐น Probabilitas Rataan Sampel
Peluang rataan sampel lebih besar dari 74:
\[ Z = \frac{74 - 70}{2} = 2 \]
\[ P(\bar{X} > 74) = P(Z > 2) = 0.0228 \]
๐ Interpretasi:
Hanya 2,28% sampel yang memiliki rataan di atas 74.
๐น Distribusi Sampling Proporsi
Misalkan proporsi kelulusan populasi:
\[ p = 0.6, \quad n = 100 \]
Standar error proporsi:
\[ SE(\hat{p}) = \sqrt{\frac{0.6(0.4)}{100}} = 0.049 \]
๐ Interpretasi:
Proporsi kelulusan sampel biasanya menyimpang sekitar
4,9% dari proporsi populasi.
โ Kesimpulan Singkat
- Statistik sampel bervariasi antar sampel
- Variabilitas ini diukur melalui distribusi sampling
- Semakin besar \(n\), standar error semakin kecil
๐ Catatan
- Distribusi sampling menggambarkan variabilitas statistik
sampel antar sampel.
- Informasi ini penting untuk inferensi statistik,
seperti membuat interval kepercayaan dan uji
hipotesis.
- Central Limit Theorem memungkinkan kita menggunakan distribusi normal untuk rataan sampel meskipun populasi tidak normal, jika sampel cukup besar.
1.3 Central Limit Theorem
Video: Teorema Batas Pusat.
๐ฏ Teorema Limit Pusat (Central Limit Theorem / CLT)
Teorema Limit Pusat adalah prinsip fundamental dalam statistika yang menyatakan bahwa:
โJika kita mengambil sampel berukuran \(n\) yang cukup besar dari populasi apa pun (terlepas dari distribusi populasi), maka distribusi rataan sampel \(\bar{X}\) akan mendekati distribusi normal dengan mean \(\mu\) dan varians \(\sigma^2/n\).โ
๐น 1๏ธโฃ Notasi dan Rumus
Jika populasi memiliki mean \(\mu\) dan varians \(\sigma^2\), dan sampel berukuran \(n\), maka:
\[ \bar{X} \sim N\Big(\mu, \frac{\sigma^2}{n}\Big) \]
- ๐ข \(\bar{X}\) = rataan
sampel
- ๐ต \(\mu\) = mean populasi
- ๐ก \(\sigma^2\) = varians
populasi
- ๐ฃ \(n\) = ukuran sampel
๐ซ Standar error (SE) rataan sampel:
\[ SE(\bar{X}) = \frac{\sigma}{\sqrt{n}} \]
๐น 2๏ธโฃ Syarat CLT
- ๐ฒ Sampel diambil secara acak dari populasi
- ๐ Ukuran sampel cukup besar (\(n \ge
30\))
- ๐ Populasi bisa apa pun bentuk distribusinya (normal atau tidak)
๐น 3๏ธโฃ Implikasi
- ๐ Memungkinkan penggunaan distribusi normal untuk
membuat interval kepercayaan atau uji
hipotesis meski populasi tidak normal.
- ๐ผ Semakin besar \(n\), distribusi
rataan sampel semakin mendekati normal.
- ๐ง Fundamental dalam inferensi statistik dan analisis data nyata.
๐น 4๏ธโฃ Catatan Visualisasi
- ๐ Distribusi populasi mungkin tidak normal.
- ๐ Distribusi rataan sampel (\(\bar{X}\)) akan membentuk kurva
lonceng normal.
- ๐ฏ Digunakan untuk memprediksi probabilitas rataan sampel dan mengurangi variabilitas dengan sampel besar.
โ Contoh Teorema Limit Pusat (CLT)
Misalkan populasi waktu tunggu layanan memiliki bentuk distribusi yang tidak normal dengan:
\[ \mu = 10 \text{ menit}, \quad \sigma = 4 \text{ menit} \]
Diambil sampel acak berukuran:
\[ n = 40 \]
๐ Distribusi Rataan Sampel
Berdasarkan Teorema Limit Pusat:
\[ \bar{X} \sim N\Big(10, \frac{4^2}{40}\Big) = N(10, 0.4) \]
Standar error:
\[ SE(\bar{X}) = \frac{4}{\sqrt{40}} \approx 0.63 \]
๐ฏ Probabilitas Rataan Sampel
Peluang rataan sampel lebih besar dari 11 menit:
\[ Z = \frac{11 - 10}{0.63} \approx 1.58 \]
\[ P(\bar{X} > 11) = P(Z > 1.58) \approx 0.057 \]
๐ Interpretasi:
Hanya sekitar 5,7% sampel yang memiliki rataan waktu
tunggu lebih dari 11 menit.
โ Inti CLT
- Distribusi populasi tidak harus normal
- Rataan sampel akan mendekati normal saat \(n\) cukup besar
- CLT memungkinkan kita menghitung peluang, interval kepercayaan, dan uji hipotesis
1.4 Sample Proportion
Video: Distribusi Sampel dan Proporsi Sampel.
๐ฏ Distribusi Sampel Proporsi Sampel
Distribusi sampel proporsi adalah distribusi probabilitas dari proporsi sampel (\(\hat{p}\)) yang diperoleh dari berbagai sampel dari populasi yang sama. Distribusi ini membantu kita menilai variabilitas proporsi antar sampel dan melakukan inferensi ke populasi.
๐น 1๏ธโฃ Notasi dan Rumus
Jika proporsi populasi = \(p\) dan ukuran sampel = \(n\), maka:
- ๐ข Rataan proporsi sampel:
\[ E[\hat{p}] = p \]
- ๐ต Varians proporsi sampel:
\[ Var(\hat{p}) = \frac{p(1-p)}{n} \]
- ๐ก Standar error (SE):
\[ SE(\hat{p}) = \sqrt{\frac{p(1-p)}{n}} \]
๐น 2๏ธโฃ Distribusi Proporsi Sampel
Jika ukuran sampel cukup besar (\(n \ge 30\)) dan \(np \ge 5\), \(n(1-p) \ge 5\), distribusi sampel proporsi mendekati distribusi normal:
\[ \hat{p} \sim N\Big(p, \frac{p(1-p)}{n}\Big) \]
๐น 3๏ธโฃ Syarat Penting
- Sampel diambil secara acak
- Ukuran sampel cukup besar untuk mendekati
normal
- Proporsi sampel digunakan untuk membuat interval kepercayaan atau uji hipotesis
๐น 4๏ธโฃ Catatan Visualisasi
- Distribusi proporsi sampel mendekati bentuk kurva
lonceng normal
- Semakin besar ukuran sampel, variabilitas proporsi
berkurang
- Penting untuk analisis survei, polling, dan eksperimen berbasis proporsi
โ Contoh Distribusi Sampel Proporsi
Misalkan proporsi populasi mahasiswa yang lulus tepat waktu adalah:
\[ p = 0.60 \]
Diambil sampel acak sebanyak:
\[ n = 100 \]
๐ Rataan dan Standar Error
- Rataan proporsi sampel:
\[ E(\hat{p}) = 0.60 \]
- Standar error:
\[ SE(\hat{p}) = \sqrt{\frac{0.6(1-0.6)}{100}} = 0.049 \]
๐ฏ Distribusi Proporsi Sampel
Karena:
\[ np = 60 \ge 5 \quad \text{dan} \quad n(1-p) = 40 \ge 5 \]
maka:
\[ \hat{p} \sim N(0.60, 0.049^2) \]
๐ Probabilitas Proporsi Sampel
Peluang proporsi sampel lebih dari 0.65:
\[ Z = \frac{0.65 - 0.60}{0.049} \approx 1.02 \]
\[ P(\hat{p} > 0.65) \approx 0.153 \]
๐ Interpretasi:
Sekitar 15,3% sampel menunjukkan proporsi kelulusan
lebih dari 65%.
โ Inti Distribusi Sampel Proporsi
- Rataan proporsi sampel sama dengan proporsi populasi
- Ukuran sampel besar โ sebaran makin sempit
- Digunakan luas dalam survei, polling, dan riset sosial
1.5 Review Sampling Distribution
Video: Tinjauan Distribusi Sampel.
๐ฏ Review: Probabilitas & Distribusi Sampel
๐น 1๏ธโฃ Probability (Probabilitas)
- Probabilitas mengukur kemungkinan suatu kejadian terjadi:
\[ 0 \le P(A) \le 1 \]
- Untuk kejadian diskrit:
\[ P(A) = \frac{\text{Jumlah kejadian A}}{\text{Jumlah seluruh kemungkinan}} \]
- Aturan penting:
- Kejadian komplemen: \(P(A^c) = 1 - P(A)\)
- Kejadian gabungan (independen): \(P(A \cap B) = P(A) \cdot P(B)\)
- Kejadian komplemen: \(P(A^c) = 1 - P(A)\)
๐น 2๏ธโฃ Binomial Distribution (Distribusi Binomial)
- Digunakan untuk menghitung probabilitas sukses dalam n
percobaan independen
- Rumus PMF (Probability Mass Function):
\[ P(X = k) = \binom{n}{k} p^k (1-p)^{n-k}, \quad k = 0, 1, \dots, n \]
- Rataan dan varians:
\[ E[X] = n \cdot p, \quad Var(X) = n \cdot p \cdot (1-p) \]
- Contoh: jumlah kepala dari 10 lemparan koin (\(p = 0.5\))
๐น 3๏ธโฃ Sampling Distribution of the Sample Proportion (\(\hat{p}\))
- Distribusi probabilitas dari proporsi sampel \(\hat{p}\) dari populasi dengan proporsi
\(p\).
- Rataan dan varians proporsi sampel:
\[ E[\hat{p}] = p, \quad Var(\hat{p}) = \frac{p(1-p)}{n}, \quad SE(\hat{p}) = \sqrt{\frac{p(1-p)}{n}} \]
- Jika \(n\) besar dan \(np \ge 5\), \(n(1-p) \ge 5\), distribusi \(\hat{p}\) mendekati distribusi normal:
\[ \hat{p} \sim N\Big(p, \frac{p(1-p)}{n}\Big) \]
- Penting untuk interval kepercayaan dan uji hipotesis berbasis proporsi.
โ Contoh Probabilitas dan Distribusi Sampel
Misalkan sebuah survei menyelidiki proporsi mahasiswa yang lulus tepat waktu.
๐ฒ 1๏ธโฃ Probabilitas Dasar
Jika peluang seorang mahasiswa lulus tepat waktu adalah:
\[ p = 0.6 \]
maka peluang tidak lulus tepat waktu:
\[ P(A^c) = 1 - 0.6 = 0.4 \]
๐ฏ 2๏ธโฃ Distribusi Binomial
Diambil sampel 10 mahasiswa, dengan peluang lulus
tepat waktu \(p=0.6\).
Peluang tepat 7 mahasiswa lulus tepat waktu:
\[ P(X=7) = \binom{10}{7}(0.6)^7(0.4)^3 \]
Distribusi binomial digunakan karena: - Percobaan independen - Hanya dua hasil (lulus / tidak) - Peluang tetap
๐ 3๏ธโฃ Distribusi Sampel Proporsi
Jika diambil sampel lebih besar:
\[ n = 100 \]
- Rataan proporsi sampel:
\[ E(\hat{p}) = 0.6 \]
- Standar error:
\[ SE(\hat{p}) = \sqrt{\frac{0.6(1-0.6)}{100}} = 0.049 \]
Karena:
\[ np = 60 \ge 5 \quad \text{dan} \quad n(1-p)=40 \ge 5 \]
maka:
\[ \hat{p} \sim N(0.6, 0.049^2) \]
๐ฏ Kesimpulan:
- Probabilitas โ mengukur peluang kejadian
- Distribusi Binomial โ menghitung jumlah sukses
- Distribusi Sampel Proporsi โ mempelajari variabilitas
proporsi antar sampel
- Semua konsep menjadi dasar inferensi statistik seperti estimasi dan uji hipotesis
๐น ๐ Catatan Umum
- Semua konsep di atas saling terkait: probabilitas dasar โ distribusi
binomial โ distribusi sampel.
- Central Limit Theorem (CLT) memungkinkan penggunaan
distribusi normal pada sampel besar.
- Visualisasi distribusi (histogram, PMF, PDF) membantu memahami probabilitas dan variabilitas sampel.
2 References
- Adhitya, F. K., & Parhusip, J. (2024). Analisis distribusi
sampling rataโrata untuk mengevaluasi performa peserta ujian.
Journal of Multidisciplinary Inquiry in Science, Technology and
Educational Research, 2(1), 800โ807. https://jurnal.serambimekkah.ac.id/index.php/mister/article/view/2556
- Relevansi: Membahas distribusi sampling rataโrata dengan data nyata, mendukung konsep distribusi sampling dan CLT.
- Nurhaliza, D. R., Kurniati, A., & Yuniati, S. (2024). Model
distribusi binomial dalam mengukur probabilitas keberhasilan uji coba
kualitas layanan sistem informasi. Jurnal Teknologi dan Manajemen
Industri Terapan, 3(4), 405โ410. https://jurnal-tmit.com/index.php/home/article/view/506
- Relevansi: Penerapan distribusi binomial untuk menghitung probabilitas โ sesuai materi probabilitas dan distribusi binomial.
- Stefhany, C., & Juwita. (2024). Penggunaan distribusi sampling
untuk mengidentifikasi kesenjangan digital berdasarkan data akses
digital. Jurnal Ilmiah Nusantara, 2(1). https://ejurnal.kampusakademik.co.id/index.php/jinu/article/view/3165
- Relevansi: Distribusi sampling proporsi sampel untuk analisis data nyata, mendukung materi distribusi proporsi dan aplikasi praktis.
- Introduction to Statistics. โ7 Probability Distributions.โ In Introduction to Statistics, dsciencelabs. https://bookdown.org/dsciencelabs/intro_statistics/07-Probability_Distributions.html