Probability Distribution (Distribusi Probabilitas) adalah fungsi atau aturan yang menggambarkan bagaimana probabilitas tersebar pada setiap kemungkinan nilai dari suatu variabel acak. Distribusi ini membantu kita memahami peluang terjadinya suatu nilai atau rentang nilai tertentu. Secara umum terbagi menjadi dua jenis:
Distribusi probabilitas penting karena:
sampling distribution adalah distribusi dari statistic (mis. rata-rata sampel 𝑋 ˉ atau proporsi 𝑝 ^) ketika kita mengambil banyak sampel acak dari populasi yang sama dan menghitung statistic itu untuk setiap sampel. Sampling distribution berbeda dari distribusi populasi (data individu) dan berbeda dari satu sampel tunggal ia menunjukkan bagaimana nilai statistic berfluktuasi antar sampel
𝑋 ˉ ) sama dengan mean populasi 𝜇 Standar error (SD dari sampling distribution) untuk 𝑋 ˉ adalah 𝜎 𝑋 ˉ = 𝜎 / 𝑛
(Ini penting: semakin besar 𝑛, semakin sempit sampling distribution.)
𝑛 cukup besar, sampling distribution dari 𝑋 ˉ akan mendekati distribusi Normal dengan mean 𝜇 dan var 𝜎 2 / 𝑛 . Itu sebabnya kita sering bisa pakai pendekatan Normal untuk inferensi.
Central Limit Theorem (CLT) adalah konsep statistik yang menyatakan bahwa distribusi rata-rata sampel dari populasi apa pun (dengan ukuran sampel cukup besar) akan mendekati distribusi normal, terlepas dari bentuk distribusi populasi asalnya.
| Aspek / Syarat / Hasil | Penjelasan |
|---|---|
| Syarat variabel acak | Sampel berasal dari variabel acak independen & identik (i.i.d.), dengan mean () dan varians (^2) terbatas. (probabilitycourse.com) |
| Ukuran sampel cukup besar | Agar “mendekati normal”, biasanya (n) perlu cukup besar. Dalam praktik sering disebut (n ) sebagai pedoman kasar. (Scribbr) |
| Distribusi sampling (sample mean) | Distribusi dari rata-rata sampel (X_n) — disebut sampling distribution — mendekati distribusi normal ketika (n) besar. (Wikipedia) |
| Mean sampling = mean populasi | Rata-rata dari (X) = () (populasi) — artinya sample mean adalah estimator tak bias untuk (). (Scribd) |
| Standar deviasi sampling = σ / √n | Standar deviasi dari distribusi (X) (kadang disebut standar error) adalah (/ ). Semakin besar n → semakin kecil standar error → estimasi lebih stabil. (probabilitycourse.com) |
| “Asymptotic” / dalam limit besar | CLT menyatakan convergence ke normalitas ketika (n → ∞). Untuk n terbatas, hasil hanya “pendekatan normal”, kualitasnya tergantung sampel/populasi. (Wikipedia) |
Biasanya ditulis \(\hat{p}\) — adalah proporsi dalam sampel yang memiliki karakteristik tertentu. Misalnya: dari 200 responden, 78 menyukai produk → \(\hat{p} = 78/200 = 0.39\). Saat kita mengambil sampel acak dari populasi, \(\hat{p}\) bisa berbeda-beda tiap sampel. Karena \(\hat{p}\) bervariasi antar sampel, kita bisa memperlakukan \(\hat{p}\) sebagai variabel acak. Sehingga kita dapat mempertimbangkan semua kemungkinan nilai \(\hat{p}\) dari sampel-sampel acak — distribusi dari \(\hat{p}\) itu disebut Sampling Distribution of Sample Proportion. Dengan kata lain: seperti kita punya distribusi sampling untuk rata-rata (mean), kita juga punya distribusi sampling untuk proporsi.
Misalkan:
Maka:
Ekspektasi (mean) dari \(\hat{p}\) adalah proporsi populasi: \[ \mu_{\hat{p}} = p \]
Standar deviasi dari \(\hat{p}\) (atau standard error, SE) adalah: \[ \sigma_{\hat{p}} = \sqrt{\dfrac{p(1-p)}{n}} \]
Jadi semakin besar \(n\), semakin kecil SE → \(\hat{p}\) dari sampel-sampel berbeda akan “lebih rapat” di sekitar \(p\).
Bila sampel cukup besar, distribusi \(\hat{p}\) mendekati distribusi normal: \[ \hat{p} \sim \mathcal{N}\bigl(p,\; \sigma_{\hat{p}}^{2}\bigr) \]
Syarat agar normal approximation berlaku (success–failure condition): \[ np \ge 10 \quad\text{dan}\quad n(1-p) \ge 10 \]
Jika \(p\) tidak diketahui, gunakan \(\hat{p}\) dalam kondisi: \[ n\hat{p} \ge 10 \quad\text{dan}\quad n(1-\hat{p}) \ge 10 \]
\[ \hat{p} = \frac{x}{n} \]
Dimana:
Contoh: Jika 45 dari 60 orang memilih produk A, \[ \hat{p} = \frac{45}{60} = 0.75 \]
(A) Angka yang kamu dapatkan dari sampel, digunakan
untuk mengestimasi proporsi populasi.
(B) Nilai sebenarnya dari populasi — jarang
diketahui.
(C) Complement — proporsi “tidak memiliki karakteristik
itu”. Jika \(\hat{p}=0.28\) maka \(\hat{q}=1-\hat{p}=0.72\).
Ketika kamu mengambil banyak sampel, setiap sampel menghasilkan nilai \(\hat{p}\) yang berbeda. Distribusi dari semua \(\hat{p}\) ini disebut Sampling Distribution of \(\hat{p}\). Bentuknya akan semakin mendekati normal jika ukuran sampel besar (dan syarat success–failure terpenuhi).
(1) Mean of Sampling Distribution \[ \mu_{\hat{p}} = p \]
(2) Standard Error (SE) \[ SE = \sqrt{\frac{p(1-p)}{n}} \]
Jika \(p\) tidak diketahui, gunakan \(\hat{p}\) sebagai pengganti untuk memperkirakan SE.
Syarat: \[ np \ge 10 \quad\text{dan}\quad n(1-p) \ge 10 \]
Atau jika \(p\) tidak diketahui: \[ n\hat{p} \ge 10 \quad\text{dan}\quad n(1-\hat{p}) \ge 10 \]
Jika terpenuhi → bisa pakai z-score, confidence interval, dan uji hipotesis.
\[ Z = \frac{\hat{p} - p}{SE} \]
Digunakan untuk z-test, confidence interval, dan menghitung probabilitas.
Misal: \(p = 0.40\), \(n = 100\), \(\hat{p} = 0.48\) (48 dari 100).
Cek syarat: * \(np = 100(0.4) = 40 \ge
10\)
* \(n(1-p) = 100(0.6) = 60 \ge 10\)
Hitung SE: \[ SE = \sqrt{\frac{0.4(0.6)}{100}} = \sqrt{0.0024} \approx 0.049 \]
Z-score: \[ Z = \frac{0.48 - 0.4}{0.049} \approx 1.63 \]
Interpretasi: \(\hat{p}\) lebih tinggi dari \(p\), tapi tidak ekstrem (Z ≈ 1.63).
| Elemen / Konsep | Penjelasan / Inti |
|---|---|
| Statistik sampel sebagai variabel acak | Statistik (mean, proporsi, dsb.) dari tiap sampel bisa berbeda → dianggap variabel acak. Distribusi mereka → sampling distribution. (Wikipedia) |
| Ukuran sampel & metode sampling (random) | Agar sampling distribution valid, sampel harus diambil secara acak, ukuran tetap, dan sampling dilakukan dengan prosedur benar. (syafii.staff.uns.ac.id) |
| Tipe statistik — Mean, Proporsi, dll. | Sampling distribution bisa diterapkan pada berbagai statistik: rata-rata, proporsi, perbedaan rata-rata, selisih proporsi, dsb. (Scribd) |
| Pengaruh ukuran sampel (n) | Semakin besar n → distribusi sampling cenderung “lebih sempit” (variabilitas kecil) → estimasi lebih stabil. (Scribd) |
| Kaitan dengan estimasi populasi & inferensi statistik | Dengan sampling distribution, kita bisa memperkirakan parameter populasi (mean/populasi, proporsi, dsb.) → dasar untuk confidence interval, uji hipotesis. (syafii.staff.uns.ac.id) |
| Manfaat / Implikasi | Penjelasan |
|---|---|
| Estimasi proporsi populasi | Dari distribusi sampel kita bisa lihat seberapa mungkin proporsi sampel mendekati proporsi populasi sebenarnya. |
| Perhitungan standard error & margin of error | Varians sampling distribution menunjukkan seberapa jauh “proporsi sampel” bisa turun-naik — berguna saat kita membuat confidence interval. |
| Keandalan & representatif sampel | Menekankan pentingnya pengambilan sampel acak & ukuran sampel baik — agar distribusi sampling valid. |
Berikut kesimpulan paling rapi + referensi akademik untuk bagian Review Sampling Distribution agar bisa langsung kamu tempel ke Rmd:
Sampling Distribution adalah distribusi dari suatu statistik (seperti mean, proporsi, selisih mean, dll.) ketika kita mengambil banyak sampel acak dari populasi yang sama. Setiap sampel menghasilkan nilai statistik yang berbeda, sehingga statistik tersebut diperlakukan sebagai variabel acak.
Inti konsep penting:
Statistik → variabel acak Karena setiap sampel memberi nilai yang berbeda, maka mean, proporsi, atau statistik lainnya memiliki distribusi tersendiri yang disebut sampling distribution.
Ukuran sampel berpengaruh besar Semakin besar ukuran sampel (n), semakin kecil variabilitas statistik antar sampel. Ini berarti sampling distribution makin sempit → estimasi makin akurat.
Metode sampling harus acak Agar sampling distribution valid, sampel harus benar-benar random dan representatif terhadap populasi.
Terkait erat dengan inferensi statistik Sampling distribution memungkinkan kita membangun:
Central Limit Theorem (CLT) Walaupun populasi tidak normal, sampling distribution dari mean akan mendekati distribusi normal jika ukuran sampel cukup besar (umumnya (n )). Ini menjadi dasar mengapa pendekatan normal sering digunakan dalam statistika.
Kesimpulan utama: Sampling Distribution adalah pondasi untuk memahami bagaimana statistik sampel berperilaku, bagaimana kita bisa memperkirakan parameter populasi, dan bagaimana kita melakukan inferensi statistik secara valid. Tanpa konsep ini, confidence interval dan uji hipotesis tidak dapat dibuat.