Probability Distribution ~ Assignment week 11
Cloise Shafira
Data Science Undergraduate at ITSB
About Probability Distribution
probability distribution ialah fungsi atau aturan yang menjelaskan bagaimana peluang suatu nilai dari suatu variabel acar tersebar. inti dari probability distribution Menggambarkan bagaimana probabilitas tersebar pada semua nilai variabel acak.
- Untuk variabel diskrit: menggunakan probability mass function (PMF)
- Untuk variabel kontinu: menggunakan probability density function (PDF)
Area total probabilitas = 1
1 Continuous Random Variables
Probability Density Function (PDF)
Untuk variabel kontinu, peluang suatu nilai tidak dihitung dengan \(P(X = x).\) Kenapa?
Karena peluang tepat satu nilai = 0 Misal: \[P(X = 3.14) = 0\] (Saking banyaknya kemungkinan nilai)
Yang dihitung adalah peluang dalam suatu interval, misalnya \[P(2 < X < 4)\]
Syarat PDF (f(x))
Fungsi kepadatan probabilitas (PDF) memiliki syarat:
. Nilai f(x) harus ≥ 0 .Total luas kurva harus = 1 \[\int_{-\infty}^{\infty} f(x) \, dx = 1\]
Menghitung Peluang (Area Under the Curve)
Peluang variabel kontinu = luas area di bawah kurva PDF.
Contoh: \[P(a < X < b) = \int_a^b f(x)\, dx\]
Ini seperti mengukur luas grafik antara dua titik.
1.1 Contoh Distribusi Kontinu yang Umum Dipelajari
1. Uniform Distribution (Seragam)
Setiap nilai dalam rentang [a, b] punya peluang sama \[f(x)=\frac{1}{b-a}\]
2. Normal Distribution (Gaussian)
Distribusi paling terkenal — bentuknya seperti lonceng \[f(x)=\frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2}\]
Dipakai di: IQ, tinggi badan, nilai ujian, error data.
3. Exponential Distribution
Dipakai untuk waktu tunggu (waiting time) \[f(x)=\lambda e^{-\lambda x}\]
Fungsi Distribusi Kumulatif (CDF)
CDF memberi peluang sampai suatu titik X: \[F(x)=P(X \leq x)=\int_{-\infty}^{x} f(t)\,dt\]
CDF selalu naik, mulai dari 0 sampai 1.
Ringkasan Penting
- Variabel kontinu = nilai dalam rentang
- Peluang titik tunggal = 0
- Gunakan PDF, bukan PMF
- Peluang = luas kurva antara dua titik
- Syarat PDF:
- f(x) ≥ 0
- integral seluruh rentang = 1
2 Sampling Disributions
Sampling Distribution (Distribusi Sampling)
2.1 Pengertian
Sampling distribution adalah distribusi atau sebaran dari suatu statistik (misalnya rata-rata, proporsi, varian) yang dihitung dari banyak sampel yang diambil dari populasi yang sama.
Artinya: Jika kita mengambil banyak sampel dan menghitung statistik dari tiap sampel, maka kumpulan nilai statistik tersebut membentuk sampling distribution.
2.2 Mengapa Sampling Distribution Penting?
Karena:
- Sampel yang berbeda menghasilkan nilai statistik yang berbeda.
- Dengan mengetahui sampling distribution, kita dapat memahami bagaimana statistik tersebut berperilaku.
- Sampling distribution digunakan untuk menghitung standar error, membuat interval kepercayaan, dan melakukan uji hipotesis.
2.3 Contoh Sederhana
Misal populasi: {60, 70, 80, 90}
Ambil sampel berukuran 2, dan hitung mean setiap sampel.
Contoh sampel dan mean-nya:
- (60, 70) → mean = 65
- (60, 80) → mean = 70
- (60, 90) → mean = 75
- (70, 80) → mean = 75
- (70, 90) → mean = 80
- (80, 90) → mean = 85
Kumpulan nilai mean ini adalah sampling distribution of the mean.
Statistik yang Bisa Dibuat Sampling Distribution 1. Rata-rata sampel (X̄) 2. Proporsi sampel (p̂) 3. Varian sampel (s²) 4. Selisih dua rata-rata atau proporsi
2.4 Mean dan Variansi Sampling Distribution
Mean dari sampling distribution:
\[\mu_{\bar X} = \mu\] Artinya, rata-rata dari semua rata-rata sampel sama dengan rata-rata populasi.
Standar Error (SE):
\[SE = \frac{\sigma}{\sqrt{n}}\]
Jika σ tidak diketahui: \[SE = \frac{s}{\sqrt{n}}\]
SE menggambarkan seberapa jauh rata-rata sampel dapat berbeda dari rata-rata populasi.
3 Central Limit Theorem
Teorema Limit Pusat (Central Limit Theorem)
3.1 Pengertian
Teorema Limit Pusat menyatakan bahwa:
Jika kita mengambil sampel acak berukuran cukup besar dari populasi apa pun, maka distribusi dari rata-rata sampel akan mendekati distribusi normal, meskipun populasi asalnya tidak berdistribusi normal.
Dengan kata lain: Distribusi rata-rata sampel cenderung berbentuk lonceng (normal curve) ketika ukuran sampel besar.
3.2 Syarat Utama
- Sampel diambil secara acak.
- Ukuran sampel cukup besar. Secara umum:
- n ≥ 30 sudah dianggap memadai.
- Jika populasi sangat tidak normal, ukuran sampel perlu lebih besar.
- Sampel independen (setiap observasi tidak saling memengaruhi).
3.3 Mengapa CLT Penting
- Memungkinkan penggunaan distribusi normal untuk menganalisis rata-rata sampel.
- Dapat digunakan meskipun populasi asal tidak normal.
- Dasar untuk perhitungan:
- Interval kepercayaan
- Uji hipotesis
- Standar error
3.4 Hasil Utama Teorema Limit Pusat
Jika X adalah variabel acak dari populasi apa pun dengan mean μ dan standar deviasi σ, lalu kita ambil sampel acak ukuran n, maka: 1. Rata-rata sampel:
\[\bar{X} \approx N\left(\mu ,\, \frac{\sigma}{\sqrt{n}}\right)\] 2. Distribusi rata-rata sampel mendekati normal ketika n besar. 3. Semakin besar n, distribusi rata-rata sampel semakin mirip distribusi normal sebenarnya.
3.5 Contoh Ilustrasi
Misalkan populasi memiliki distribusi sangat miring (misalnya kebanyakan nilai kecil, sedikit nilai besar). Jika kita mengambil banyak sampel berukuran \(n = 5, 10, 30, 50\) dan menghitung rata-ratanya:
- \(n = 5\) → distribusi rata-rata sampel masih miring
- \(n = 10\) → mulai lebih simetris
- \(n = 30\) → mendekati normal
- \(n ≥ 50\) → bentuknya hampir normal sempurna
Inilah efek Teorema Limit Pusat.
3.6 Inti Utama
- Rata-rata sampel memiliki pola normal saat n besar.
- Mean dari distribusi rata-rata = mean populasi.
- Standar deviasi dari distribusi rata-rata = σ/√n (disebut standar error).
- CLT bekerja walaupun populasi tidak normal.
4 Sample Proportion
4.1 Pengertian
Sampling distribution of the sample proportion adalah distribusi dari nilai proporsi sampel (p̂) yang diperoleh dari banyak sampel acak yang diambil dari populasi yang sama.
Artinya: Jika kita mengambil banyak sampel, menghitung proporsi keberhasilan dari setiap sampel, lalu mengumpulkan semua nilai proporsi itu, maka nilai-nilai tersebut membentuk distribusi yang disebut sampling distribution of \(p̂\).
4.2 Apa Itu
\(p̂\) adalah proporsi sampel, dihitung dengan rumus:
\[\hat{p} = \frac{x}{n}\]
di mana:
- \(x\) = jumlah “keberhasilan” di dalam sampel
- \(n\) = ukuran sampel
Contoh: Dalam sampel 100 orang, 40 suka produk A. \[\hat{p} = \frac{40}{100} = 0.4\]
4.3 Mengapa Perlu Sampling Distribution?
Karena setiap sampel yang diambil akan menghasilkan proporsi yang berbeda. Distribusi ini membantu kita:
- memahami variasi proporsi sampel,
- menghitung standar error,
- menyusun interval kepercayaan,
- melakukan uji hipotesis tentang proporsi populasi.
4.4 Mean dan Variansi dari Sampling Distribution
Jika populasi memiliki proporsi sebenarnya = p, maka:
Mean dari proporsi sampel:
\[\mu_{\hat{p}} = p\]
Standar error (SE) dari proporsi sampel:
\[SE_{\hat{p}} = \sqrt{\frac{p(1 - p)}{n}}\]
Ini menunjukkan seberapa besar variasi proporsi sampel dari satu sampel ke sampel lainnya.
4.5 Bentuk Distribusinya
Ketika ukuran sampel cukup besar, distribusi dari p̂ akan mendekati distribusi normal. Syarat normal approximation:
\[np \ge 10 \quad \text{dan} \quad n(1 - p) \ge 10\]
Jika syarat ini terpenuhi, maka:
\[\hat{p} \sim N\left(p, \sqrt{\frac{p(1-p)}{n}}\right)\]
4.6 Contoh Sederhana
Misalkan: Populasi: 60% orang suka minuman X → p = 0.6 Sampel: n = 100 orang
Standar error: \[SE = \sqrt{\frac{0.6(0.4)}{100}} = \sqrt{0.0024} = 0.049\]
Artinya: Jika kita mengambil banyak sampel berisi 100 orang, nilai \(p̂\) dari tiap sampel akan bertebaran di sekitar 0.6, dengan simpangan sekitar 0.049.
4.7 Inti Utama
- \(p̂\) = proporsi sampel.
- Kumpulan p̂ dari banyak sampel membentuk sampling distribution.
- Mean = p \[SE = √[p(1 − p)/n]\]
- Jika sampel besar, distribusinya mendekati normal. 1. Pengertian
Sampling distribution of the sample proportion adalah distribusi dari nilai proporsi sampel (p̂) yang diperoleh dari banyak sampel acak yang diambil dari populasi yang sama.
Artinya: Jika kita mengambil banyak sampel, menghitung proporsi keberhasilan dari setiap sampel, lalu mengumpulkan semua nilai proporsi itu, maka nilai-nilai tersebut membentuk distribusi yang disebut sampling distribution of p̂.
- Apa Itu \(p̂ (p-hat)?\)
p̂ adalah proporsi sampel, dihitung dengan rumus:
\[\hat{p} = \frac{x}{n}\]
di mana:
- x = jumlah “keberhasilan” di dalam sampel
- n = ukuran sampel
Contoh: Dalam sampel 100 orang, 40 suka produk A. \[\hat{p} = \frac{40}{100} = 0.4\]
4.8 Mengapa Perlu Sampling Distribution?
Karena setiap sampel yang diambil akan menghasilkan proporsi yang berbeda. Distribusi ini membantu kita:
- memahami variasi proporsi sampel,
- menghitung standar error,
- menyusun interval kepercayaan,
- melakukan uji hipotesis tentang proporsi populasi.
4.9 Mean dan Variansi dari Sampling Distribution
Jika populasi memiliki proporsi sebenarnya = p, maka:
Mean dari proporsi sampel:
\[\mu_{\hat{p}} = p\]
Standar error (SE) dari proporsi sampel:
\[SE_{\hat{p}} = \sqrt{\frac{p(1 - p)}{n}}\]
Ini menunjukkan seberapa besar variasi proporsi sampel dari satu sampel ke sampel lainnya.
4.10 Bentuk Distribusinya
Ketika ukuran sampel cukup besar, distribusi dari p̂ akan mendekati distribusi normal. Syarat normal approximation:
\[np \ge 10 \quad \text{dan} \quad n(1 - p) \ge 10\]
Jika syarat ini terpenuhi, maka:
\[\hat{p} \sim N\left(p, \sqrt{\frac{p(1-p)}{n}}\right)\]
4.11 Contoh Sederhana
Misalkan: Populasi: 60% orang suka minuman \(X → p\) = 0.6 Sampel: \(n = 100\) orang
Standar error: \[SE = \sqrt{\frac{0.6(0.4)}{100}} = \sqrt{0.0024} = 0.049\]
Artinya: Jika kita mengambil banyak sampel berisi 100 orang, nilai p̂ dari tiap sampel akan bertebaran di sekitar 0.6, dengan simpangan sekitar 0.049.
4.12 Inti Utama
- p̂ = proporsi sampel.
- Kumpulan p̂ dari banyak sampel membentuk sampling distribution.
- Mean = p \[SE = √[p(1 − p)/n]\]
- Jika sampel besar, distribusinya mendekati normal.
5 Review Sampling Distribution
Berikut review ringkas, dan terstruktur tentang Sampling Distribution of the Sample Proportion dan kaitannya dengan Distribusi Binomial.
5.1 Hubungan Dasar
Sampling distribution of the sample proportion sebenarnya berasal dari distribusi binomial.
Jika suatu populasi memiliki probabilitas keberhasilan = p, dan kita mengambil sampel berukuran n, maka: - Jumlah keberhasilan dalam sampel (X) mengikuti distribusi binomial: \[Xsim \text{Binomial}(n, p)\] • Proporsi sampel (p̂) adalah: \[\hat{p} = \frac{X}{n}\]
Karena p̂ adalah transformasi dari X, maka distribusi p̂ disebut sampling distribution of the sample proportion.
5.2 Distribusi Binomial (Review)
Pengertian
Distribusi binomial menggambarkan jumlah keberhasilan dari n percobaan independen, dengan probabilitas keberhasilan p pada setiap percobaan.
Ciri-ciri: 1. Percobaan berulang sebanyak n kali 2. Dua hasil: sukses atau gagal 3. Probabilitas sukses = p (konstan) 4. Tiap percobaan independen
Mean & Variance binomial
\[\mu = np \sigma^2 = np(1 - p)\]
- Sampling Distribution of the Sample Proportion (Review)
Definisi
Distribusi dari nilai proporsi sampel \(\hat{p} = X/n\) yang muncul jika kita mengambil banyak sampel acak dari populasi yang sama.
Mean dari proporsi sampel
\[\mu_{\hat{p}} = p\]
Varians dan Standar Error
Karena \[\hat{p} = \frac{X}{n}:\]
Varians: \[\text{Var}(\hat{p}) = \frac{p(1-p)}{n}\]
Standar error: \[SE_{\hat{p}} = \sqrt{\frac{p(1 - p)}{n}}\]
- Mengapa Distribusinya Bisa Mendekati Normal
Meskipun X ~ Binomial(n, p), ketika n cukup besar, proporsinya \(\hat{p}\) akan mendekati distribusi normal karena Teorema Limit Pusat (Central Limit Theorem).
Syarat normal approximation: \[np \ge 10 \quad \text{dan} \quad n(1 - p) \ge \]
Jika syarat terpenuhi: \[\hat{p} \approx N\left(p,\; \sqrt{\frac{p(1-p)}{n}}\right)\]
Inilah alasan kita bisa menggunakan distribusi normal untuk menghitung:
- interval kepercayaan proporsi
- uji hipotesis proporsi
- Ringkasan Penting
Distribusi Binomial:
- Menghasilkan jumlah keberhasilan X
- Mean: \(np\)
- Varians: \(np(1 − p)\)
Sampling Distribution of Sample Proportion:
- Menggunakan \(\hat{p} = X/n\)
- Mean: \(p\)
- Standar error: \(√[p(1 − p)/n]\)
- Mendekati normal jika sampel besar
References
[1] Shafer, D. S., & Zhang, Z. (2012). Introductory statistics. Saylor Foundation.
[2] VanderPlas, J. (2022). A Whirlwind Tour of Data Science. O’Reilly Media.
[3] Severance, Python for everybody.
[4] Shafer, D. S., & Zhang, Z. (2012). Introductory statistics. Saylor Foundation.