PROBABILITY DISTRIBUTION

Tugas Week 11 - Probability Distribution

☀️︎ 🌜

<div class="logo-inner">
  <img src="fotoku.jpg" alt="Nurul Iffah">
</div>
NURUL IFFAH

Program Studi
Sains Data

Universitas
INSTITUT TEKNOLOGI SAINS BANDUNG

Dosen Pengampu
Bakti Siregar, M Sc., CSD


PROBABILITY DISTRIBUTION

Dalam kehidupan sehari-hari, satu percobaan yang sama bisa memberi hasil berbeda: tinggi tiap orang tidak sama, jumlah chat per hari berubah, hasil lempar koin acak. Untuk merapikan ketidakpastian itu, kita pakai variabel acak sebagai wakil hasil, dan distribusi peluang (probability distribution) untuk menunjukkan seberapa besar kemungkinan tiap nilai muncul.

Secara garis besar, bab ini mencakup:

NOTE : maaf Mr. B saya tidak mengikuti babnya Mr. B, karena menurut saya, saya lebih mudah mengerti dengan seperti ini.


1 VARIABLE DISKRIT DAN KONTINU

1.1 VARIABLE DISKRIT

Nilainya terhitung (countable): \(0,1,2,3,\ldots\)

Contoh: - jumlah kepala saat lempar 4 koin, - jumlah siswa yang lulus, - jumlah kelereng hijau yang diambil.

Biasanya digambar pakai bar chart: - tiap nilai punya batang terpisah, - tinggi batang = peluang \(P(X = k)\).

Untuk variabel diskrit, kita punya fungsi peluang: \(P(X = x)\).

Keterangan:

  • \(X\) : variabel acak diskrit (misal jumlah kepala).

  • \(x\) : satu nilai tertentu yang mungkin (misal 2).

  • \(P(X = x)\) : peluang bahwa \(X\) mengambil nilai tepat \(x\).

Fungsi \(P(X = x)\) ini disebut PMF (probability mass function).

Di diskrit, peluang di titik \(P(X = x)\) bisa \(> 0\), misalnya \(P(X = 2) = 0{,}3\).


1.2 VARIABLE KONTINU

Nilainya terukur, bisa punya desimal tanpa batas.

Contoh:

  • tinggi badan, berat badan,

  • waktu, suhu, umur, kecepatan, jarak.

Nilai di dalam satu interval itu tak hingga banyak (antara 1 dan 2 sudah ada 1.1, 1.11, 1.111, dst).

Biasanya digambar pakai histogram atau kurva halus, bukan batang terpisah.

Di sini terjadi hal penting: Karena titiknya tak hingga banyak, peluang di satu titik persis jadi 0. \[ P(X = x) = 0 \text{ untuk semua } x \] Keterangan:

  • \(X\) : variabel acak kontinu (misal tinggi).

  • \(x\) : satu nilai tertentu (misal 150 cm).

  • Rumus ini bilang: peluang tepat di satu titik untuk variabel kontinu selalu nol (\(P(X = x) = 0\)).

Karena itu, untuk kontinu kita tidak lagi bicara:

  • \(P(X = 2)\) berapa?”

tapi kita bicara peluang di interval, misalnya:

  • \(P(1 \le X \le 2)\)

  • \(P(0.5 < X < 0.8)\), dan seterusnya.


1.3 DISKRIT - KONTINUE → PMF ke PDF

  • Diskrit:
    • Kita punya daftar peluang untuk tiap nilai \(\rightarrow\) PMF.

    • Tinggi batang di bar chart = peluang langsung \(P(X = x)\).

  • Kontinu:
    • Tidak bisa “bagi” peluang ke tiap titik (kebagian 0 semua)

    • Tapi kita tetap butuh cara mengukur “seberapa besar peluang di sekitar suatu nilai”.

Solusinya: kita definisikan fungsi kepadatan peluang (PDF) \(f(x)\).


PMF (diskrit): \[ P(X = x) = \text{(angka tertentu)} \]

Keterangan:

  • Memberi peluang langsung pada nilai \(x\).

  • Misalnya \(P(X = 2) = 0{,}3\).


PDF (kontinu): \[ f(x) = \text{"kepadatan peluang di sekitar } x\text{ "} \] Keterangan:

  • \(f(x)\) peluang, melainkan kepadatan.

  • Peluang yang sebenarnya didapat dari luas di bawah kurva \(f(x)\).

Rumus peluang untuk variabel kontinu: \[ P(a \le X \le b) = \int_a^b f(x)\, dx \] Keterangan:

  • \(a, b\) : batas bawah dan batas atas interval.

  • \(\displaystyle \int_a^b f(x)\, dx\) : luas di bawah kurva \(f(x)\) dari \(x = a\) sampai \(x = b\).

  • Nilai integral ini = peluang bahwa \(X\) jatuh di antara \(a\) dan \(b\).

Secara visual: bar chart diskrit \(\rightarrow\) batang makin banyak dan makin tipis \(\rightarrow\) lama-lama membentuk kurva halus \(\rightarrow\) itulah ide PDF.

Jadi PDF itu seperti “versi kontinu” dari tabel peluang (PMF).


2 RANDOM VARIABLE KONTINU, PDF, dan CDF

2.1 RANDOM VARIABLE KONTINU

Random variable kontinu adalah peubah acak yang bisa ambil nilai apa pun dalam sebuah interval di garis bilangan real.

Contoh: tinggi, waktu, suhu, umur, tekanan, kecepatan.

Ciri penting:

  • Nilai ada di interval, misalnya \((a,b)\) atau \((-\infty, +\infty)\).

  • untuk setiap titik: \[ P(X = x) = 0 \]

  • Peluang hanya bermakna pada interval: \[ P(a \le X \le b) = \int_a^b f(x)\, dx \] Keterangan rumus:

  • \(X\) : variabel acak kontinu.

  • \(a, b\) : batas interval.

  • \(f(x)\) : PDF.

  • \(\displaystyle \int_a^b f(x)\, dx\) : luas di bawah kurva \(f(x)\) → itu yang jadi peluang.


2.2 PROABILITY DENSITY FUNCTION (PDF)

Supaya \(f(x)\) sah sebagai PDF, dua syarat:

Tidak negatif: \[ f(x) \ge 0 \quad \forall x \]

Keterangan:

  • Nilai \(f(x)\) tidak boleh negatif untuk nilai \(x\) yang mungkin.

  • Secara gambar: kurva PDF tidak pernah di bawah sumbu x.


Luas total di bawah kurva = 1: \[ \int_{-\infty}^{+\infty} f(x)\,dx = 1 \] Keterangan:

  • Integral dari \(-\infty\) sampai \(+\infty\): menjumlahkan semua “luas peluang” di seluruh garis bilangan.

  • Harus sama dengan 1: total peluang untuk semua nilai \(X\) = 1 (pasti terjadi di suatu tempat).


Interpretasi:

  • \(f(x)\) memberi tahu seberapa padat peluang di sekitar \(x\).

  • Bukan langsung \(P(X = x)\).

  • Peluang sebenarnya: \[ P(a \le X \le b) = \int_a^b f(x)\, dx \]

Keterangan:

  • Untuk variabel kontinu, peluang interval dihitung sebagai luas di bawah kurva PDF antara \(a\) dan \(b\).

  • Ini yang menggantikan “jumlahkan \(P(X = x)\)” di kasus diskrit.


Contoh PDF: \[ f(x) = 3x^2 \quad \text{untuk } 0 \le x \le 1. \] Keterangan:

  • Bentuk kurva: \(3x^2\) → makin ke kanan, kepadatan makin besar.

  • PDF ini hanya berlaku di interval \(0 \le x \le 1\). Di luar itu, dianggap \(f(x) = 0\).

Cek validitas: \[ \int_0^1 3x^2\,dx = \left[x^3\right]_0^1 = 1 \] Keterangan:

  • Integral \(3x^2\) dari 0 ke 1 memberikan luas total = 1.

  • Artinya, fungsi ini memenuhi syarat PDF (total peluang = 1).


2.3 PROBABILITAS di INTERVAL

Dengan contoh \(f(x) = 3x^2\) di \([0,1]\):

\[ P(a \le X \le b) = \int_a^b 3x^2\, dx \]

Keterangan:

  • Kita cuma boleh ambil \(a, b\) di antara 0 dan 1.

  • Integral itu memberi luas di bawah kurva \(3x^2\) dari \(x = a\) ke \(x = b\) → itulah peluangnya.

\[ \int_0^1 3x^2\,dx \]

adalah luas di bawah kurva \(3x^2\) dari \(x = 0\) sampai \(x = 1\).

Hasilnya \(1\) \(\rightarrow\) berarti fungsi ini PDF yang sah, karena total peluang = 1.

Contoh spesifik: \[ P(0.5 \le X \le 1) = \int_{0.5}^1 3x^2\, dx = \left[x^3\right]_{0.5}^1 = 1 - 0.125 = 0.875 \]

Keterangan:

  • Kita cuma boleh ambil \(a, b\) di antara 0 dan 1.

  • Integral itu memberi luas di bawah kurva \(3x^2\) dari \(x = a\) ke \(x = b\) \(\rightarrow\) itulah peluangnya.


2.4 CUMULATIVE DISTRIBUTION FUNCTION (CDF)

Definisi CDF: \[ F(x) = P(X \le x) \]

Keterangan:

  • \(F(x)\) : fungsi distribusi kumulatif (CDF).

  • Menyatakan peluang total bahwa \(X\) kurang dari atau sama dengan \(x\).


CDF sebagai integral dari PDF: \[ F(x) = \int_{-\infty}^{x} f(t)\, dt \]

Keterangan:

  • \(f(t)\) : PDF.

  • Integral dari \(-\infty\) sampai \(x\) menjumlahkan semua peluang dari “ujung kiri” sampai titik \(x\).

  • Hasilnya = \(P(X \le x)\).

Untuk contoh \(f(t) = 3t^2\) di \([0,1]\), karena di bawah 0 peluangnya 0, kita bisa tulis: \[ F(x) = \int_{0}^{x} 3t^2\, dt = x^3 \]

Keterangan:

  • Rumus CDF-nya: \(F(x) = x^3\) untuk \(0 \le x \le 1\).

  • Contoh: \(F(0{,}5) = (0{,}5)^3 = 0{,}125\) → peluang \(X \le 0{,}5\) = 12,5%.


Hubungan PDF–CDF: \[ f(x) = F'(x) \]

Keterangan:

  • \(F'(x)\) : turunan CDF terhadap \(x\).

  • Kalau kita punya CDF, menurunkannya akan menghasilkan PDF.

Sebaliknya: \[ F(x) = \int f(x)\, dx \quad \text{(dengan batas yang sesuai)} \]

Keterangan:

  • Kalau kita punya PDF, mengintegralkannya (dengan batas) akan memberi CDF.

Contoh:

Jika \(F(x) = x^3\), maka \[F'(x) = 3x^2 = f(x).\]


3 POPULASI, SAMPLE DAN SAMPLING DISTRIBUTION

  • Populasi: semua individu yang kita minati.

  • Mean populasi: \(\mu\)

  • Simpangan baku populasi: \(\sigma\)

  • Proporsi populasi: \(p\)

  • Sampel: sebagian kecil dari populasi (ukuran \(n\)).

    • Mean sampel: \(\bar{X}\)

    • Proporsi sampel: \(\hat{p}\)

Sampling distribution

  • Ketika kita ambil banyak sampel ukuran \(n\).

  • Tiap sampel kita hitung statistiknya (misal \(\bar{X}\) atau \(\hat{p}\)).

  • Kumpulan semua nilai \(\bar{X}\) ini membentuk: \[\text{Sampling distribution of the sample mean}\]

Kumpulan semua \(\hat{p}\) membentuk: \[ \text{Sampling distribution of the sample proportion} \]

Ini adalah distribusi dari ringkasan data (statistik) dari banyak sampel. Bukan data mentah.


4 SAMPLING DISTRIBUTION of the SAMPLE MEAN & CLT

Misal:

  • Populasi punya mean \(\mu\) dan simpangan baku \(\sigma\).

  • Kita ambil sampel ukuran \(n\).

  • Statistik: \(\bar{X}\) = mean sampel.

Mean distribusi sampling: \[ \mu_{\bar{X}} = \mu \]

Keterangan:

  • \(\mu_{\bar{X}}\) : mean dari distribusi sampling mean sampel.

  • \(\mu\) : mean populasi.

Dalam jangka panjang, rata-rata dari semua \(\bar{X}\) (dari banyak sampel) akan mendekati mean populasi \(\mu\).


Standard error (simpangan baku distribusi sampling): \[ \sigma_{\bar{X}} = \frac{\sigma}{\sqrt{n}} \]

Keterangan:

  • \(\sigma_{\bar{X}}\) : simpangan baku (standard error) dari mean sampel \(\bar{X}\).

  • \(\sigma\) : simpangan baku populasi.

  • \(n\) : ukuran sampel.

  • \(\sqrt{n}\) : akar dari ukuran sampel.

Semakin besar \(n\), \(\sigma_{\bar{X}}\) makin kecil → mean sampel antar sampel makin tidak “loncat-loncat”.


Central Limit Theorem (CLT) untuk mean: \[ \bar{X} \approx N\left(\mu, \frac{\sigma}{\sqrt{n}}\right) \]

Keterangan:

  • \(\bar{X}\) : mean sampel.

  • \(\approx N(\mu, \sigma / \sqrt{n})\) : kira-kira berdistribusi normal dengan mean \(\mu\) dan sd \(\dfrac{\sigma}{\sqrt{n}}\).

CLT: untuk \(n\) cukup besar, bentuk distribusi \(\bar{X}\) akan mirip kurva normal, meskipun distribusi data aslinya tidak normal.


Z-score untuk mean: \[ Z = \frac{\bar{X} - \mu}{\sigma / \sqrt{n}} \]

Keterangan:

  • \(Z\) : skor baku dari mean sampel.

  • \(\bar{X}\) : mean sampel yang diamati.

  • \(\mu\) : mean populasi.

  • \(\sigma / \sqrt{n}\) : standard error mean.

Dipakai untuk mengubah \(\bar{X}\) ke skala standar, agar bisa pakai tabel Z (normal baku).


5 SAMPLING DISTRIBUTION of the SAMPLE PROPORTION & BINOMIAL

Untuk data 0/1 (sukses/gagal):

  • Populasi:
    • proporsi sukses = \(p\).
  • Sampel:
    • jumlah sukses = \(X\),

    • proporsi sampel: \[\hat{p} = \frac{X}{n}\]

Keterangan:

  • \(\hat{p}\) : proporsi sampel (misalnya 0{,}37).

  • \(X\) : jumlah sukses di sampel (misal 37 orang).

  • \(n\) : ukuran sampel (misal 100 orang).


Mean distribusi sampling proporsi: \[ \mu_{\hat{p}} = p \]

Keterangan:

  • \(\mu_{\hat{p}}\) : mean dari distribusi sampling proporsi sampel.

  • \(p\) : proporsi asli di populasi.

Rata-rata semua \(\hat{p}\) (kalau ambil sampel berkali-kali) akan mendekati proporsi populasi \(p\).


Standard error proporsi: \[ \sigma_{\hat{p}} = \sqrt{\frac{p(1-p)}{n}} \]

Keterangan:

  • \(\sigma_{\hat{p}}\) : standard error dari \(\hat{p}\).

  • \(p\) : proporsi sukses di populasi.

  • \(1 - p\) : proporsi gagal di populasi.

  • \(n\) : ukuran sampel.

Semakin besar \(n\), standard error makin kecil → \(\hat{p}\) antar sampel makin stabil.


Syarat CLT untuk proporsi: \[ np \ge 10 \quad \text{dan} \quad n(1-p) \ge 10 \]

Keterangan:

  • \(np\) : banyaknya sukses yang diharapkan di satu sampel.

  • \(n(1-p)\) : banyaknya gagal yang diharapkan di satu sampel.

  • Kalau dua-duanya \(\ge 10\) → distribusi \(\hat{p}\) cukup “halus” untuk didekati normal.

Jika syarat terpenuhi: \[ \hat{p} \approx N\left(p,\ \sqrt{\frac{p(1-p)}{n}}\right) \]


Z-score untuk proporsi: \[ Z = \frac{\hat{p} - p}{\sqrt{\frac{p(1-p)}{n}}} \]

Keterangan:

  • \(\hat{p}\) : proporsi sampel yang diamati.

  • \(p\) : proporsi populasi.

  • \(\sqrt{\dfrac{p(1-p)}{n}}\) : standard error proporsi.

  • \(Z\) : skor baku proporsi.


Hubungan dengan binomial:

\[ X \sim \text{Binomial}(n, p) \]

\[ P(X = k) = \binom{n}{k} p^{k} (1 - p)^{n-k} \]

Keterangan:

  • \(X\) : jumlah sukses dalam \(n\) percobaan.

  • \(\text{Binomial}(n, p)\) : distribusi binomial dengan parameter \(n\) dan \(p\).

  • \(P(X = k)\) : peluang tepat \(k\) sukses.

  • \(\binom{n}{k}\) : banyaknya cara memilih \(k\) sukses dari \(n\) percobaan.

Karena \(\hat{p} = \dfrac{X}{n}\), sifat \(\hat{p}\) turun dari sifat binomial ini.

Untuk \(n\) kecil → pakai binomial (exact).

Untuk \(n\) besar → biasanya pakai pendekatan normal (CLT) karena lebih praktis.


6 RANGKUMAN

  1. Diskrit \(\rightarrow\) pakai PMF dan “peluang di titik”: \(P(X = x)\).

  2. Kontinu \(\rightarrow\) pakai PDF dan “peluang di interval”: \[ P(a \le X \le b) = \int_a^b f(x)\,dx. \]

  3. Dari PDF, kita bisa bikin CDF: \[ F(x) = P(X \le x). \]

  4. Populasi vs sampel \(\rightarrow\) kita pakai statistik (\(\bar X, \hat p\)) untuk menebak parameter (\(\mu, p\)).

  5. Sampling distribution menjelaskan bagaimana \(\bar X\) dan \(\hat p\) berubah-ubah dari sampel ke sampel.

  6. CLT:

  • untuk \(n\) cukup besar, \(\bar X\) dan \(\hat p\) kira-kira berdistribusi normal

  • dengan standard error yang bergantung pada \(\sigma\) atau \(p\) dan \(n\): \[ \bar X \approx N\!\left(\mu, \frac{\sigma^2}{n}\right), \qquad \hat p \approx N\!\left(p, \frac{p(1-p)}{n}\right). \]

  1. Binomial adalah cara untuk jumlah sukses, tapi untuk \(n\) besar kita sering pakai normal approximation (pakai \(Z\)) karena lebih simple.

7 REFERENSI

  • Siregar, B. (t.t.). Introduction to Statistics: A Data Science Perspective with R. Bookdown. Bagian tentang probability distributions, random variables kontinu, dan sampling distributions. Diakses dari: https://bookdown.org/dsciencelabs/intro_statistics/

  • OpenStax. (2023). Introductory Statistics (2nd ed.). OpenStax. Bab distribusi peubah acak, Central Limit Theorem, dan sampling distribution (terutama Chapter 7).

  • Diez, D. M., Çetinkaya-Rundel, M., & Barr, C. D. (2019). OpenIntro Statistics (4th ed.). OpenIntro. Bab distributions of random variables dan foundations for inference (sampling distribution, CLT, sample mean & sample proportion).

  • Shafer, D., & Zhang, J. (t.t.). Introductory Statistics. LibreTexts. Bagian continuous random variables, probability density function (PDF), cumulative distribution function (CDF), dan pengantar sampling distributions.

  • Hogg, R. V., Tanis, E. A., & Zimmerman, D. L. (2019). Probability and Statistical Inference (10th ed.). Pearson. Referensi teori untuk discrete vs continuous random variables, PDF/CDF, sampling distribution of \(\bar X\), sample proportion, dan CLT.

  • Khan Academy. (t.t.). Sampling distributions & Central limit theorem. Unit online yang menjelaskan sampling distribution of the sample mean dan sample proportion, syarat \(np \ge 10\), dan penerapan CLT secara intuitif.

Dinov, I. D., Christou, N., & Sanchez, J. (2008). Central Limit Theorem: New SOCR Applet and Demonstration Activity. Journal of Statistics Education. Artikel jurnal yang membahas simulasi CLT dan sampling distributions untuk membantu pemahaman visual.


7.1 Referensi Video (YouTube)

```

