Profile Author

Pengertian Probability Distribution

Probability Distribution (Distribusi Probabilitas) adalah fungsi atau aturan yang menggambarkan bagaimana probabilitas tersebar pada setiap kemungkinan nilai dari suatu variabel acak. Distribusi ini membantu kita memahami peluang terjadinya suatu nilai atau rentang nilai tertentu. Secara umum terbagi menjadi dua jenis:

  1. Distribusi Diskrit — variabel acak hanya memiliki nilai yang dapat dihitung (misalnya jumlah anak, jumlah keberhasilan). Contoh: Binomial, Poisson.
  2. Distribusi Kontinu — variabel acak dapat mengambil nilai dalam interval tak terhingga (misalnya berat badan, tinggi, waktu). Contoh: Normal, Uniform, Exponential.

Distribusi probabilitas penting karena:

  • Menentukan cara menghitung peluang.
  • Menjadi dasar dalam inferensi statistik.
  • Digunakan untuk simulasi, prediksi, dan analisis data.

1. Continuous Random Variable

Continuous Random Variable.


1.1 Random Variable (Variabel Acak)

  • Definisi: Variabel acak adalah variabel yang nilainya ditentukan oleh hasil suatu percobaan acak.
  • Jenis:
    • Diskrit: Nilainya berupa bilangan bulat tertentu (contoh: jumlah kepala dari 5 lemparan koin).
    • Kontinu: Nilainya bisa berupa bilangan real dalam suatu interval (contoh: tinggi badan seseorang).
  • Contoh:
    • Diskrit: \(X\) = jumlah dadu yang keluar angka 6 dari 10 kali lempar.
    • Kontinu: \(Y\) = waktu yang dibutuhkan bus untuk sampai ke tujuan.

1.2 Probability Density Function (PDF)

  • Definisi: Fungsi kepadatan probabilitas untuk variabel acak kontinu. PDF menggambarkan seberapa “padat” probabilitas di sekitar suatu nilai.
  • Sifat:
    • Nilai PDF selalu \(\geq 0\).
    • Luas total di bawah kurva PDF = 1.
  • Contoh: Distribusi normal standar \(N(0,1)\) memiliki PDF: \[ f(x) = \frac{1}{\sqrt{2\pi}} e^{-\frac{x^2}{2}} \]
  • Interpretasi: PDF tidak langsung memberi probabilitas pada titik tertentu, tetapi pada interval.

1.3 Probability on an Interval

  • Definisi: Probabilitas variabel acak kontinu berada dalam interval \([a,b]\).
  • Rumus:
    \[ P(a \leq X \leq b) = \int_a^b f(x)\,dx \]
  • Contoh: Untuk distribusi normal standar, probabilitas \(P(-1 \leq Z \leq 1)\) ≈ 0.68.
  • Interpretasi: Probabilitas dihitung sebagai luas area di bawah kurva PDF antara batas \(a\) dan \(b\).

1.4 Cumulative Distribution Function (CDF)

  • Definisi: Fungsi distribusi kumulatif adalah probabilitas bahwa variabel acak \(X\) bernilai kurang dari atau sama dengan suatu nilai \(x\).
  • Rumus:
    \[ F(x) = P(X \leq x) = \int_{-\infty}^x f(t)\,dt \]
  • Sifat:
    • \(F(x)\) selalu naik (non-decreasing).
    • \(\lim_{x \to -\infty} F(x) = 0\), \(\lim_{x \to +\infty} F(x) = 1\).
  • Contoh: Untuk distribusi normal standar, \(F(0) = 0.5\).

1.5 Visualisasi Diagramnya

Continuous Random Variable – Normal Distribution

Continuous Random Variable – Normal with Shaded Area

Continuous Random Variable – Uniform Distribution


2. Sampling Distributions

Sampling Distributions

sampling distribution adalah distribusi dari statistic (mis. rata-rata sampel 𝑋 ˉ atau proporsi 𝑝 ^) ketika kita mengambil banyak sampel acak dari populasi yang sama dan menghitung statistic itu untuk setiap sampel. Sampling distribution berbeda dari distribusi populasi (data individu) dan berbeda dari satu sampel tunggal ia menunjukkan bagaimana nilai statistic berfluktuasi antar sampel

2.1 Mean dari sampling distribution untuk rata-rata sampel (

𝑋 ˉ ) sama dengan mean populasi 𝜇 Standar error (SD dari sampling distribution) untuk 𝑋 ˉ adalah 𝜎 𝑋 ˉ = 𝜎 / 𝑛

(Ini penting: semakin besar 𝑛, semakin sempit sampling distribution.)

2.2 Central Limit Theorem (CLT): untuk banyak populasi (termasuk yang tidak normal), ketika

𝑛 cukup besar, sampling distribution dari 𝑋 ˉ akan mendekati distribusi Normal dengan mean 𝜇 dan var 𝜎 2 / 𝑛 . Itu sebabnya kita sering bisa pakai pendekatan Normal untuk inferensi.

2.3 Visualisasi Diagram

  • Populasi (Distribusi Miring)


  • Sampling Distribution (Simulasi 5000 Sampel)

3. Central Limit Theorem

Central Limit Theorem

Central Limit Theorem (CLT) adalah konsep statistik yang menyatakan bahwa distribusi rata-rata sampel dari populasi apa pun (dengan ukuran sampel cukup besar) akan mendekati distribusi normal, terlepas dari bentuk distribusi populasi asalnya.

Aspek / Syarat / Hasil Penjelasan
Syarat variabel acak Sampel berasal dari variabel acak independen & identik (i.i.d.), dengan mean () dan varians (^2) terbatas. (probabilitycourse.com)
Ukuran sampel cukup besar Agar “mendekati normal”, biasanya (n) perlu cukup besar. Dalam praktik sering disebut (n ) sebagai pedoman kasar. (Scribbr)
Distribusi sampling (sample mean) Distribusi dari rata-rata sampel (X_n) — disebut sampling distribution — mendekati distribusi normal ketika (n) besar. (Wikipedia)
Mean sampling = mean populasi Rata-rata dari (X) = () (populasi) — artinya sample mean adalah estimator tak bias untuk (). (Scribd)
Standar deviasi sampling = σ / √n Standar deviasi dari distribusi (X) (kadang disebut standar error) adalah (/ ). Semakin besar n → semakin kecil standar error → estimasi lebih stabil. (probabilitycourse.com)
“Asymptotic” / dalam limit besar CLT menyatakan convergence ke normalitas ketika (n → ∞). Untuk n terbatas, hasil hanya “pendekatan normal”, kualitasnya tergantung sampel/populasi. (Wikipedia)

3.1 Populasi Miring (Right-Skewed)

3.2 Beberapa Sampel Acak + Mean-nya (n = 30)

3.3 Sampling Distribution untuk n = 5, 30, 100

4. Sample Proportion

Sample Proportion

4.1 Sample proportion

Biasanya ditulis \(\hat{p}\) — adalah proporsi dalam sampel yang memiliki karakteristik tertentu. Misalnya: dari 200 responden, 78 menyukai produk → \(\hat{p} = 78/200 = 0.39\). Saat kita mengambil sampel acak dari populasi, \(\hat{p}\) bisa berbeda-beda tiap sampel. Karena \(\hat{p}\) bervariasi antar sampel, kita bisa memperlakukan \(\hat{p}\) sebagai variabel acak. Sehingga kita dapat mempertimbangkan semua kemungkinan nilai \(\hat{p}\) dari sampel-sampel acak — distribusi dari \(\hat{p}\) itu disebut Sampling Distribution of Sample Proportion. Dengan kata lain: seperti kita punya distribusi sampling untuk rata-rata (mean), kita juga punya distribusi sampling untuk proporsi.


4.2 Karakteristik & Formula Penting

Misalkan:

  • Populasi memiliki proporsi sebenarnya \(p\) (misalnya \(0.30\) artinya \(30\%\) populasi memiliki karakteristik “success”).
  • Kita ambil sampel acak ukuran \(n\), lalu hitung \(\hat{p} = \dfrac{\text{jumlah “success” di sampel}}{n}\).

Maka:

  • Ekspektasi (mean) dari \(\hat{p}\) adalah proporsi populasi: \[ \mu_{\hat{p}} = p \]

  • Standar deviasi dari \(\hat{p}\) (atau standard error, SE) adalah: \[ \sigma_{\hat{p}} = \sqrt{\dfrac{p(1-p)}{n}} \]

Jadi semakin besar \(n\), semakin kecil SE → \(\hat{p}\) dari sampel-sampel berbeda akan “lebih rapat” di sekitar \(p\).

  • Bila sampel cukup besar, distribusi \(\hat{p}\) mendekati distribusi normal: \[ \hat{p} \sim \mathcal{N}\bigl(p,\; \sigma_{\hat{p}}^{2}\bigr) \]

  • Syarat agar normal approximation berlaku (success–failure condition): \[ np \ge 10 \quad\text{dan}\quad n(1-p) \ge 10 \]

Jika \(p\) tidak diketahui, gunakan \(\hat{p}\) dalam kondisi: \[ n\hat{p} \ge 10 \quad\text{dan}\quad n(1-\hat{p}) \ge 10 \]


4.3 Sample Proportion & Distribusinya

  • Banyak data di dunia nyata bersifat kualitatif / kategorikal — misalnya “setuju/tidak”, “ya/tidak”, “lulus/gagal”, “suka/tidak”. Dalam kasus seperti itu, mean tidak cocok; kita memakai proporsi untuk meringkas data.
  • Dengan memahami distribusi sampling dari \(\hat{p}\), kita bisa menaksir proporsi populasi (\(p\)) berdasarkan sampel — sekaligus mengetahui seberapa akurat estimasi itu (via standard error).
  • Kita bisa membuat confidence interval untuk proporsi populasi, atau menghitung probabilitas bahwa \(\hat{p}\) jatuh dalam rentang tertentu — berguna di survei, polling, riset opini, dll.
  • Karena distribusi \(\hat{p}\) mendekati normal bila syarat terpenuhi, kita dapat menerapkan uji-uji berbasis normal seperti z-test.

4.4 Rumus Proporsi Sampel

\[ \hat{p} = \frac{x}{n} \]

Dimana:

  • \(x\) = jumlah sampel yang memiliki karakteristik tertentu
  • \(n\) = ukuran sampel

Contoh: Jika 45 dari 60 orang memilih produk A, \[ \hat{p} = \frac{45}{60} = 0.75 \]


4.5 (A) Sample proportion (\(\hat{p}\)), (B) Population proportion (\(p\)), (C) Complement

(A) Angka yang kamu dapatkan dari sampel, digunakan untuk mengestimasi proporsi populasi.
(B) Nilai sebenarnya dari populasi — jarang diketahui.
(C) Complement — proporsi “tidak memiliki karakteristik itu”. Jika \(\hat{p}=0.28\) maka \(\hat{q}=1-\hat{p}=0.72\).


4.6 Sampling Distribution of Sample Proportion

Ketika kamu mengambil banyak sampel, setiap sampel menghasilkan nilai \(\hat{p}\) yang berbeda. Distribusi dari semua \(\hat{p}\) ini disebut Sampling Distribution of \(\hat{p}\). Bentuknya akan semakin mendekati normal jika ukuran sampel besar (dan syarat success–failure terpenuhi).


4.7 Mean dan Standard Error of Sample Proportion

(1) Mean of Sampling Distribution \[ \mu_{\hat{p}} = p \]

(2) Standard Error (SE) \[ SE = \sqrt{\frac{p(1-p)}{n}} \]

Jika \(p\) tidak diketahui, gunakan \(\hat{p}\) sebagai pengganti untuk memperkirakan SE.


4.8 Normal Approximation (Pendekatan Normal)

Syarat: \[ np \ge 10 \quad\text{dan}\quad n(1-p) \ge 10 \]

Atau jika \(p\) tidak diketahui: \[ n\hat{p} \ge 10 \quad\text{dan}\quad n(1-\hat{p}) \ge 10 \]

Jika terpenuhi → bisa pakai z-score, confidence interval, dan uji hipotesis.


4.9 Menghitung Z-Score untuk Proporsi

\[ Z = \frac{\hat{p} - p}{SE} \]

Digunakan untuk z-test, confidence interval, dan menghitung probabilitas.


4.10 Contoh Studi Kasus

Misal: \(p = 0.40\), \(n = 100\), \(\hat{p} = 0.48\) (48 dari 100).

Cek syarat: * \(np = 100(0.4) = 40 \ge 10\)
* \(n(1-p) = 100(0.6) = 60 \ge 10\)

Hitung SE: \[ SE = \sqrt{\frac{0.4(0.6)}{100}} = \sqrt{0.0024} \approx 0.049 \]

Z-score: \[ Z = \frac{0.48 - 0.4}{0.049} \approx 1.63 \]

Interpretasi: \(\hat{p}\) lebih tinggi dari \(p\), tapi tidak ekstrem (Z ≈ 1.63).


5. Review Sampling Distribution

Review Sampling Distribution

Elemen / Konsep Penjelasan / Inti
Statistik sampel sebagai variabel acak Statistik (mean, proporsi, dsb.) dari tiap sampel bisa berbeda → dianggap variabel acak. Distribusi mereka → sampling distribution. (Wikipedia)
Ukuran sampel & metode sampling (random) Agar sampling distribution valid, sampel harus diambil secara acak, ukuran tetap, dan sampling dilakukan dengan prosedur benar. (syafii.staff.uns.ac.id)
Tipe statistik — Mean, Proporsi, dll. Sampling distribution bisa diterapkan pada berbagai statistik: rata-rata, proporsi, perbedaan rata-rata, selisih proporsi, dsb. (Scribd)
Pengaruh ukuran sampel (n) Semakin besar n → distribusi sampling cenderung “lebih sempit” (variabilitas kecil) → estimasi lebih stabil. (Scribd)
Kaitan dengan estimasi populasi & inferensi statistik Dengan sampling distribution, kita bisa memperkirakan parameter populasi (mean/populasi, proporsi, dsb.) → dasar untuk confidence interval, uji hipotesis. (syafii.staff.uns.ac.id)

Manfaat / Implikasi Penjelasan
Estimasi proporsi populasi Dari distribusi sampel kita bisa lihat seberapa mungkin proporsi sampel mendekati proporsi populasi sebenarnya.
Perhitungan standard error & margin of error Varians sampling distribution menunjukkan seberapa jauh “proporsi sampel” bisa turun-naik — berguna saat kita membuat confidence interval.
Keandalan & representatif sampel Menekankan pentingnya pengambilan sampel acak & ukuran sampel baik — agar distribusi sampling valid.

Berikut kesimpulan paling rapi + referensi akademik untuk bagian Review Sampling Distribution agar bisa langsung kamu tempel ke Rmd:


Kesimpulan — Review Sampling Distribution

Sampling Distribution adalah distribusi dari suatu statistik (seperti mean, proporsi, selisih mean, dll.) ketika kita mengambil banyak sampel acak dari populasi yang sama. Setiap sampel menghasilkan nilai statistik yang berbeda, sehingga statistik tersebut diperlakukan sebagai variabel acak.

Inti konsep penting:

  1. Statistik → variabel acak Karena setiap sampel memberi nilai yang berbeda, maka mean, proporsi, atau statistik lainnya memiliki distribusi tersendiri yang disebut sampling distribution.

  2. Ukuran sampel berpengaruh besar Semakin besar ukuran sampel (n), semakin kecil variabilitas statistik antar sampel. Ini berarti sampling distribution makin sempit → estimasi makin akurat.

  3. Metode sampling harus acak Agar sampling distribution valid, sampel harus benar-benar random dan representatif terhadap populasi.

  4. Terkait erat dengan inferensi statistik Sampling distribution memungkinkan kita membangun:

    • Standard error
    • Margin of error
    • Confidence interval
    • Uji hipotesis (z-test, t-test, proporsi, dll.)
  5. Central Limit Theorem (CLT) Walaupun populasi tidak normal, sampling distribution dari mean akan mendekati distribusi normal jika ukuran sampel cukup besar (umumnya (n )). Ini menjadi dasar mengapa pendekatan normal sering digunakan dalam statistika.

Kesimpulan utama: Sampling Distribution adalah pondasi untuk memahami bagaimana statistik sampel berperilaku, bagaimana kita bisa memperkirakan parameter populasi, dan bagaimana kita melakukan inferensi statistik secara valid. Tanpa konsep ini, confidence interval dan uji hipotesis tidak dapat dibuat.


Referensi

  1. Walpole, R. E., Myers, R. H., Myers, S. L., & Ye, K. (2017). Probability & Statistics for Engineers and Scientists. Pearson.
  2. Rice, J. A. (2006). Mathematical Statistics and Data Analysis. Cengage.
  3. Moore, D. S., McCabe, G. P., & Craig, B. A. (2021). Introduction to the Practice of Statistics. W. H. Freeman.
  4. ProbabilityCourse.com — Chapter 7: Sampling Distributions https://www.probabilitycourse.com/chapter7/7_1_2_central_limit_theorem.php
  5. Wikipedia — Sampling Distribution https://en.wikipedia.org/wiki/Sampling_distribution
  6. Syafii, M. (2010). Distribusi Sampling dan Deskripsi Data. Universitas Sebelas Maret.
  7. Scribd — Distribusi Sampling https://www.scribd.com/document/543561154/Distribusi-Sampling