<div class="logo-inner">
<img src="fotoku.jpg" alt="Nurul Iffah">
</div>
NURUL IFFAH
Program Studi
Sains Data
Universitas
INSTITUT TEKNOLOGI SAINS BANDUNG
Dosen Pengampu
Bakti Siregar, M Sc., CSD
PROBABILITY DISTRIBUTION
Dalam kehidupan sehari-hari, satu percobaan yang sama bisa memberi
hasil berbeda: tinggi tiap orang tidak sama, jumlah chat per hari
berubah, hasil lempar koin acak. Untuk merapikan ketidakpastian itu,
kita pakai variabel acak sebagai wakil hasil, dan distribusi peluang
(probability distribution) untuk menunjukkan seberapa besar kemungkinan
tiap nilai muncul.
Secara garis besar, bab ini mencakup:
Variabel acak diskrit dan kontinu, dan bagaimana
perbedaan tipe data ini memengaruhi cara kita memodelkan
peluang.
Fungsi kepadatan peluang (PDF) dan fungsi distribusi
kumulatif (CDF) untuk variabel kontinu, termasuk cara
menghitung peluang sebagai luas di bawah kurva.
Distribusi sampling untuk statistik seperti rata-rata
sampel \((\bar{X})\) dan
proporsi sampel \((\hat{p})\), yang
menjelaskan mengapa nilai statistik bisa berubah dari sampel ke
sampel.
Teorema Limit Tengah (Central Limit Theorem /
CLT), yang menjelaskan kenapa, untuk sampel cukup besar,
distribusi rata-rata dan proporsi sampel cenderung mendekati
normal.
Distribusi proporsi sampel dan distribusi
binomial, serta kapan kita memakai perhitungan exact (binomial)
dan kapan cukup memakai pendekatan normal (approximate) dengan bantuan
CLT.
NOTE : maaf Mr. B saya tidak mengikuti babnya Mr. B,
karena menurut saya, saya lebih mudah mengerti dengan seperti ini.
VARIABLE
DISKRIT DAN KONTINU
VARIABLE
DISKRIT
Nilainya terhitung (countable): \(0,1,2,3,\ldots\)
Contoh: - jumlah kepala saat lempar 4 koin, - jumlah siswa yang
lulus, - jumlah kelereng hijau yang diambil.
Biasanya digambar pakai bar chart: - tiap nilai
punya batang terpisah, - tinggi batang = peluang \(P(X = k)\).
Untuk variabel diskrit, kita punya fungsi peluang: \(P(X = x)\).
Keterangan:
\(X\) : variabel acak diskrit
(misal jumlah kepala).
\(x\) : satu nilai tertentu yang
mungkin (misal 2).
\(P(X = x)\) : peluang bahwa
\(X\) mengambil nilai tepat \(x\).
Fungsi \(P(X = x)\)
ini disebut PMF (probability mass function).
Di diskrit, peluang di titik \(P(X =
x)\) bisa \(> 0\), misalnya
\(P(X = 2) = 0{,}3\).
VARIABLE
KONTINU
Nilainya terukur, bisa punya desimal tanpa
batas.
Contoh:
tinggi badan, berat badan,
waktu, suhu, umur, kecepatan, jarak.
Nilai di dalam satu interval itu tak hingga banyak (antara 1 dan 2
sudah ada 1.1, 1.11, 1.111, dst).
Biasanya digambar pakai histogram atau kurva
halus, bukan batang terpisah.
Di sini terjadi hal penting: Karena titiknya tak hingga
banyak, peluang di satu titik persis jadi 0. \[
P(X = x) = 0 \text{ untuk semua } x
\] Keterangan:
\(X\) : variabel acak kontinu
(misal tinggi).
\(x\) : satu nilai tertentu
(misal 150 cm).
Rumus ini bilang: peluang tepat di satu titik untuk variabel
kontinu selalu nol (\(P(X = x) =
0\)).
Karena itu, untuk kontinu kita tidak lagi bicara:
tapi kita bicara peluang di interval, misalnya:
DISKRIT -
KONTINUE → PMF ke PDF
Solusinya: kita definisikan fungsi kepadatan peluang
(PDF) \(f(x)\).
PMF (diskrit): \[
P(X = x) = \text{(angka tertentu)}
\]
Keterangan:
PDF (kontinu): \[
f(x) = \text{"kepadatan peluang di sekitar } x\text{ "}
\] Keterangan:
\(f(x)\) peluang, melainkan
kepadatan.
Peluang yang sebenarnya didapat dari luas di bawah kurva \(f(x)\).
Rumus peluang untuk variabel kontinu: \[
P(a \le X \le b) = \int_a^b f(x)\, dx
\] Keterangan:
\(a, b\) : batas bawah dan batas
atas interval.
\(\displaystyle \int_a^b f(x)\,
dx\) : luas di bawah kurva \(f(x)\) dari \(x =
a\) sampai \(x = b\).
Nilai integral ini = peluang bahwa \(X\) jatuh di antara \(a\) dan \(b\).
Secara visual: bar chart diskrit \(\rightarrow\) batang makin banyak dan makin
tipis \(\rightarrow\) lama-lama
membentuk kurva halus \(\rightarrow\)
itulah ide PDF.
Jadi PDF itu seperti “versi kontinu” dari tabel peluang
(PMF).
RANDOM VARIABLE
KONTINU, PDF, dan CDF
RANDOM
VARIABLE KONTINU
Random variable kontinu adalah peubah acak yang bisa ambil nilai apa
pun dalam sebuah interval di garis bilangan real.
Contoh: tinggi, waktu, suhu, umur, tekanan, kecepatan.
Ciri penting:
Nilai ada di interval, misalnya \((a,b)\) atau \((-\infty, +\infty)\).
untuk setiap titik: \[
P(X = x) = 0
\]
Peluang hanya bermakna pada interval: \[
P(a \le X \le b) = \int_a^b f(x)\, dx
\] Keterangan rumus:
\(X\) : variabel acak
kontinu.
\(a, b\) : batas
interval.
\(f(x)\) : PDF.
\(\displaystyle \int_a^b f(x)\,
dx\) : luas di bawah kurva \(f(x)\) → itu yang jadi peluang.
PROABILITY
DENSITY FUNCTION (PDF)
Supaya \(f(x)\) sah sebagai PDF, dua
syarat:
Tidak negatif: \[
f(x) \ge 0 \quad \forall x
\]
Keterangan:
Luas total di bawah kurva = 1: \[
\int_{-\infty}^{+\infty} f(x)\,dx = 1
\] Keterangan:
Integral dari \(-\infty\) sampai
\(+\infty\): menjumlahkan semua “luas
peluang” di seluruh garis bilangan.
Harus sama dengan 1: total peluang untuk semua nilai \(X\) = 1 (pasti terjadi di suatu
tempat).
Interpretasi:
\(f(x)\) memberi tahu seberapa
padat peluang di sekitar \(x\).
Bukan langsung \(P(X =
x)\).
Peluang sebenarnya: \[
P(a \le X \le b) = \int_a^b f(x)\, dx
\]
Keterangan:
Untuk variabel kontinu, peluang interval dihitung sebagai luas di
bawah kurva PDF antara \(a\) dan \(b\).
Ini yang menggantikan “jumlahkan \(P(X
= x)\)” di kasus diskrit.
Contoh PDF: \[
f(x) = 3x^2 \quad \text{untuk } 0 \le x \le 1.
\] Keterangan:
Bentuk kurva: \(3x^2\) → makin
ke kanan, kepadatan makin besar.
PDF ini hanya berlaku di interval \(0
\le x \le 1\). Di luar itu, dianggap \(f(x) = 0\).
Cek validitas: \[
\int_0^1 3x^2\,dx = \left[x^3\right]_0^1 = 1
\] Keterangan:
Integral \(3x^2\) dari 0 ke 1
memberikan luas total = 1.
Artinya, fungsi ini memenuhi syarat PDF (total peluang =
1).
PROBABILITAS
di INTERVAL
Dengan contoh \(f(x) = 3x^2\) di
\([0,1]\):
\[
P(a \le X \le b) = \int_a^b 3x^2\, dx
\]
Keterangan:
Kita cuma boleh ambil \(a, b\)
di antara 0 dan 1.
Integral itu memberi luas di bawah kurva \(3x^2\) dari \(x =
a\) ke \(x = b\) → itulah
peluangnya.
\[
\int_0^1 3x^2\,dx
\]
adalah luas di bawah kurva \(3x^2\)
dari \(x = 0\) sampai \(x = 1\).
Hasilnya \(1\) \(\rightarrow\) berarti fungsi ini PDF yang
sah, karena total peluang = 1.
Contoh spesifik: \[
P(0.5 \le X \le 1)
= \int_{0.5}^1 3x^2\, dx
= \left[x^3\right]_{0.5}^1
= 1 - 0.125
= 0.875
\]
Keterangan:
Kita cuma boleh ambil \(a, b\)
di antara 0 dan 1.
Integral itu memberi luas di bawah kurva \(3x^2\) dari \(x =
a\) ke \(x = b\) \(\rightarrow\) itulah peluangnya.
CUMULATIVE
DISTRIBUTION FUNCTION (CDF)
Definisi CDF: \[
F(x) = P(X \le x)
\]
Keterangan:
CDF sebagai integral dari PDF: \[
F(x) = \int_{-\infty}^{x} f(t)\, dt
\]
Keterangan:
Untuk contoh \(f(t) = 3t^2\) di
\([0,1]\), karena di bawah 0 peluangnya
0, kita bisa tulis: \[
F(x) = \int_{0}^{x} 3t^2\, dt = x^3
\]
Keterangan:
Rumus CDF-nya: \(F(x) = x^3\)
untuk \(0 \le x \le 1\).
Contoh: \(F(0{,}5) = (0{,}5)^3 =
0{,}125\) → peluang \(X \le
0{,}5\) = 12,5%.
Hubungan PDF–CDF: \[
f(x) = F'(x)
\]
Keterangan:
Sebaliknya: \[
F(x) = \int f(x)\, dx \quad \text{(dengan batas yang sesuai)}
\]
Keterangan:
- Kalau kita punya PDF, mengintegralkannya (dengan batas) akan memberi
CDF.
Contoh:
Jika \(F(x) = x^3\), maka \[F'(x) = 3x^2 = f(x).\]
POPULASI,
SAMPLE DAN SAMPLING DISTRIBUTION
Populasi: semua individu yang kita minati.
Mean populasi: \(\mu\)
Simpangan baku populasi: \(\sigma\)
Proporsi populasi: \(p\)
Sampel: sebagian kecil dari populasi (ukuran \(n\)).
Sampling distribution
Ketika kita ambil banyak sampel ukuran \(n\).
Tiap sampel kita hitung statistiknya (misal \(\bar{X}\) atau \(\hat{p}\)).
Kumpulan semua nilai \(\bar{X}\)
ini membentuk: \[\text{Sampling distribution
of the sample mean}\]
Kumpulan semua \(\hat{p}\)
membentuk: \[
\text{Sampling distribution of the sample proportion}
\]
Ini adalah distribusi dari ringkasan data (statistik) dari banyak
sampel. Bukan data mentah.
SAMPLING
DISTRIBUTION of the SAMPLE MEAN & CLT
Misal:
Populasi punya mean \(\mu\) dan
simpangan baku \(\sigma\).
Kita ambil sampel ukuran \(n\).
Statistik: \(\bar{X}\) = mean
sampel.
Mean distribusi sampling: \[
\mu_{\bar{X}} = \mu
\]
Keterangan:
Dalam jangka panjang, rata-rata dari semua \(\bar{X}\) (dari banyak sampel) akan
mendekati mean populasi \(\mu\).
Standard error (simpangan baku distribusi sampling):
\[
\sigma_{\bar{X}} = \frac{\sigma}{\sqrt{n}}
\]
Keterangan:
\(\sigma_{\bar{X}}\) : simpangan
baku (standard error) dari mean sampel \(\bar{X}\).
\(\sigma\) : simpangan baku
populasi.
\(n\) : ukuran sampel.
\(\sqrt{n}\) : akar dari ukuran
sampel.
Semakin besar \(n\), \(\sigma_{\bar{X}}\) makin kecil → mean
sampel antar sampel makin tidak “loncat-loncat”.
Central Limit Theorem (CLT) untuk mean: \[
\bar{X} \approx N\left(\mu, \frac{\sigma}{\sqrt{n}}\right)
\]
Keterangan:
\(\bar{X}\) : mean
sampel.
\(\approx N(\mu, \sigma /
\sqrt{n})\) : kira-kira berdistribusi normal dengan mean \(\mu\) dan sd \(\dfrac{\sigma}{\sqrt{n}}\).
CLT: untuk \(n\) cukup besar, bentuk
distribusi \(\bar{X}\) akan mirip kurva
normal, meskipun distribusi data aslinya tidak normal.
Z-score untuk mean: \[
Z = \frac{\bar{X} - \mu}{\sigma / \sqrt{n}}
\]
Keterangan:
\(Z\) : skor baku dari mean
sampel.
\(\bar{X}\) : mean sampel yang
diamati.
\(\mu\) : mean
populasi.
\(\sigma / \sqrt{n}\) : standard
error mean.
Dipakai untuk mengubah \(\bar{X}\)
ke skala standar, agar bisa pakai tabel Z (normal baku).
SAMPLING
DISTRIBUTION of the SAMPLE PROPORTION & BINOMIAL
Untuk data 0/1 (sukses/gagal):
Keterangan:
\(\hat{p}\) : proporsi sampel
(misalnya 0{,}37).
\(X\) : jumlah sukses di sampel
(misal 37 orang).
\(n\) : ukuran sampel (misal 100
orang).
Mean distribusi sampling proporsi: \[
\mu_{\hat{p}} = p
\]
Keterangan:
Rata-rata semua \(\hat{p}\) (kalau
ambil sampel berkali-kali) akan mendekati proporsi populasi \(p\).
Standard error proporsi: \[
\sigma_{\hat{p}} = \sqrt{\frac{p(1-p)}{n}}
\]
Keterangan:
\(\sigma_{\hat{p}}\) : standard
error dari \(\hat{p}\).
\(p\) : proporsi sukses di
populasi.
\(1 - p\) : proporsi gagal di
populasi.
\(n\) : ukuran sampel.
Semakin besar \(n\), standard error
makin kecil → \(\hat{p}\) antar sampel
makin stabil.
Syarat CLT untuk proporsi: \[
np \ge 10 \quad \text{dan} \quad n(1-p) \ge 10
\]
Keterangan:
\(np\) : banyaknya sukses yang
diharapkan di satu sampel.
\(n(1-p)\) : banyaknya gagal
yang diharapkan di satu sampel.
Kalau dua-duanya \(\ge 10\) →
distribusi \(\hat{p}\) cukup “halus”
untuk didekati normal.
Jika syarat terpenuhi: \[
\hat{p} \approx N\left(p,\ \sqrt{\frac{p(1-p)}{n}}\right)
\]
Z-score untuk proporsi: \[
Z = \frac{\hat{p} - p}{\sqrt{\frac{p(1-p)}{n}}}
\]
Keterangan:
\(\hat{p}\) : proporsi sampel
yang diamati.
\(p\) : proporsi
populasi.
\(\sqrt{\dfrac{p(1-p)}{n}}\) :
standard error proporsi.
\(Z\) : skor baku
proporsi.
Hubungan dengan binomial:
\[
X \sim \text{Binomial}(n, p)
\]
\[
P(X = k) = \binom{n}{k} p^{k} (1 - p)^{n-k}
\]
Keterangan:
\(X\) : jumlah sukses dalam
\(n\) percobaan.
\(\text{Binomial}(n, p)\) :
distribusi binomial dengan parameter \(n\) dan \(p\).
\(P(X = k)\) : peluang tepat
\(k\) sukses.
\(\binom{n}{k}\) : banyaknya
cara memilih \(k\) sukses dari \(n\) percobaan.
Karena \(\hat{p} = \dfrac{X}{n}\),
sifat \(\hat{p}\) turun dari sifat
binomial ini.
Untuk \(n\) kecil → pakai binomial
(exact).
Untuk \(n\) besar → biasanya pakai
pendekatan normal (CLT) karena lebih praktis.
RANGKUMAN
Diskrit \(\rightarrow\) pakai PMF dan “peluang di
titik”: \(P(X = x)\).
Kontinu \(\rightarrow\) pakai PDF dan “peluang di
interval”: \[
P(a \le X \le b) = \int_a^b f(x)\,dx.
\]
Dari PDF, kita bisa bikin CDF: \[
F(x) = P(X \le x).
\]
Populasi vs sampel \(\rightarrow\) kita pakai statistik (\(\bar X, \hat p\)) untuk menebak parameter
(\(\mu, p\)).
Sampling distribution menjelaskan bagaimana
\(\bar X\) dan \(\hat p\) berubah-ubah dari sampel ke
sampel.
CLT:
untuk \(n\) cukup besar, \(\bar X\) dan \(\hat p\) kira-kira berdistribusi
normal
dengan standard error yang bergantung pada \(\sigma\) atau \(p\) dan \(n\): \[
\bar X \approx N\!\left(\mu, \frac{\sigma^2}{n}\right), \qquad
\hat p \approx N\!\left(p, \frac{p(1-p)}{n}\right).
\]
- Binomial adalah cara untuk jumlah sukses, tapi
untuk \(n\) besar kita sering pakai
normal approximation (pakai \(Z\))
karena lebih simple.
REFERENSI
Siregar, B. (t.t.). Introduction to Statistics:
A Data Science Perspective with R. Bookdown. Bagian tentang probability
distributions, random variables kontinu, dan sampling distributions.
Diakses dari: https://bookdown.org/dsciencelabs/intro_statistics/
OpenStax. (2023). Introductory Statistics (2nd
ed.). OpenStax. Bab distribusi peubah acak, Central Limit Theorem, dan
sampling distribution (terutama Chapter 7).
Diez, D. M., Çetinkaya-Rundel, M., & Barr, C. D.
(2019). OpenIntro Statistics (4th ed.). OpenIntro. Bab
distributions of random variables dan foundations for inference
(sampling distribution, CLT, sample mean & sample
proportion).
Shafer, D., & Zhang, J. (t.t.). Introductory
Statistics. LibreTexts. Bagian continuous random variables, probability
density function (PDF), cumulative distribution function (CDF), dan
pengantar sampling distributions.
Hogg, R. V., Tanis, E. A., & Zimmerman, D. L.
(2019). Probability and Statistical Inference (10th ed.).
Pearson. Referensi teori untuk discrete vs continuous random variables,
PDF/CDF, sampling distribution of \(\bar
X\), sample proportion, dan CLT.
Khan Academy. (t.t.). Sampling distributions
& Central limit theorem. Unit online yang menjelaskan sampling
distribution of the sample mean dan sample proportion, syarat \(np \ge 10\), dan penerapan CLT secara
intuitif.
Dinov, I. D., Christou, N., & Sanchez, J. (2008). Central Limit
Theorem: New SOCR Applet and Demonstration Activity. Journal of
Statistics Education. Artikel jurnal yang membahas simulasi CLT dan
sampling distributions untuk membantu pemahaman visual.
Referensi
Video (YouTube)
- Simple Learning Pro. (t.t.). Seri video Probability Distributions
& Sampling Distributions (7.1–7.5) [Video]. YouTube.
```
