Probability Distribution

Exercises ~ Week 11

Haura Azizah Achmad

NIM: 52250027

08 December 2025

Introduction

Distribusi probabilitas akan menggambarkan berbagai kejadian yang berbeda yang mana berkaitan dengan ketidakpastian dari berbagai fenomena atau kejadian tersebut. Probabilitas tidak hanya membantu kita memahami seberapa besar kemungkinan suatu peristiwa terjadi, tetapi juga membentuk dasar dari banyak metode statistik yang digunakan untuk pengambilan keputusan. Memahami bentuk dan sifat dari sebuah distribusi sangat penting karena itu menentukan bagaimana data berperilaku, bagaimana kita menghitung probabilitas, dan bagaimana kita membuat prediksi. Dari distribusi untuk variabel kontinu hingga perilaku statistik seperti rata-rata sampel, distribusi probabilitas berfungsi sebagai inti dari statistik inferensial.

1 Continuous Random

Klik gambar di bawah untuk membuka video di YouTube:

Video ini membahas probabilitas variabel kontinu, tetapi sebelum itu dijelaskan kembali apa itu variabel diskrit agar perbedaannya lebih jelas. Variabel diskrit adalah variabel yang nilainya dapat dihitung, seperti jumlah hasil kepala saat melempar koin, jumlah kelereng biru, atau nilai ujian. Nilainya terbatas dan masuk akal untuk dihitung.

Sebaliknya, variabel kontinu diperoleh dari pengukuran, bukan hitungan. Nilainya dapat berupa angka apa pun dalam suatu rentang, sehingga tidak terbatas dan tidak dapat dihitung. Contohnya usia, berat badan, suhu, dan jarak semuanya bisa diukur hingga banyak angka desimal.

Dalam statistik, variabel diskrit biasanya ditampilkan dengan diagram batang (bar chart) yang memiliki celah antar batang, sedangkan variabel kontinu ditampilkan dengan histogram yang tidak memiliki celah untuk menunjukkan kontinuitas data. Variabel kontinu juga dapat direpresentasikan menggunakan kurva kerapatan (density curve).

Rumus probabilitas untuk variabel diskrit dan kontinu berbeda. Untuk variabel kontinu, probabilitas dihitung melalui luas di bawah kurva kerapatan, termasuk menggunakan distribusi normal.

1.1 Random variable

Variabel acak adalah Kontinus jika dapat mengambil nilai apa pun dalam interval pada garis bilangan real. Contohnya termasuk: tinggi, waktu, suhu, usia, tekanna, dan kecepatan.

Karakteristik Pertama

Variabel mengambil nilai dalam interval seperti $(a, b) atau bahkan $(-\infty, +\infty)$.

1. Probabilitas dari setiap titik tunggal selalu nol:

\[ p(X = x) = 0 \]

2. Probabilitas hanya berarti selama interval:*

\[ P(a \ \le X \le b) = \int_{a}^{b} f(x)\, dx \]

1.2 Probability Density Funct

A function $f(x)$ is a valid Probability Density Function (PDF) if it satisfies:

1. Non-negativity \[ f(x) \ge 0 \quad \forall x \] 2. Total Area Equals 1 \[ \int_{-\infty}^{\infty} f(x)\, dx = 1 \]

Penafsiran

Nilai yang lebih besar dari $f(x)$ menunjukkan kepdatan probabilitas yang lebih tinggi di sekitar nilai itu
Namun, $f(x)$ bukanlah probabilitas; probabilitas berasal dari area di bawah kurva

1.3 Probability on an Interval

Untuk menghitung probabilitas dalam sebuah interval:

\[ P(a \le X \le b) = \int_{a}^{b} 3x^2 \, dx \]

Contoh:

\[ P(0.5 \le X \le 1) \]

1.4 Cumulative Distrubution Funct

1.Fungsi Distribusi Kumulative (CDF) didefinisikan sebagai:

\[ F(x) = P(X \le x) = \int_{0}^{x} 3t^2 \, dt = x^3 \]

2. Hubungan antara PDF dan CDF: \[ f(x) = f'(x) \]

2 Sampling Distribution

Klik gambar di bawah untuk membuka video di YouTube:

Dalam video ini kita akan mempelajari tentang sampling distribution (distribusi sampling). Namun sebelum membahas sampling distribution, kita perlu tahu perbedaan antara sample distribution dan sampling distribution. Mari kita lihat contoh berikut.

Misalkan kita memiliki populasi berjumlah 10.000 orang, dan kita tahu bahwa rata-rata tinggi badan seluruh populasi ini adalah 5’4”. Ingat bahwa sample adalah sebagian kecil dari populasi yang kita ambil untuk diperiksa dan dijadikan dasar kesimpulan.

Dari satu sampel, rata-rata tinggi mungkin 5’3”, tetapi pada sampel lain rata-ratanya bisa 5’7” atau 5’4”. Perhatikan bahwa rata-rata sampel (sample mean) tidak harus selalu sama dengan rata-rata populasi. Ini karena ukuran sampel lebih kecil, lebih bervariasi, mengandung lebih sedikit informasi, dan tidak selalu merepresentasikan populasi secara akurat.

2.1 Perbedaan Sample Distribution dan Sampling Distribution

Sample distribution melibatkan satu sampel dari populasi dan kita menginterpretasikan data dari sampel tersebut.
Sampling distribution adalah distribusi dari suatu statistik (misalnya rata-rata) yang berasal dari banyak sampel acak sederhana yang diambil dari populasi.

Sebagai contoh, jika kita ingin membuat sampling distribution dari sample mean:

Tentukan populasi yang ingin diteliti, misalnya tinggi badan.
Ambil simple random sample berukuran n (misalnya n = 5).
Ukur tinggi masing-masing orang dalam sampel.
Hitung rata-rata tinggi (x̄) untuk sampel tersebut.
Plot nilai x̄ itu ke dalam histogram.

Karena sampling distribution melibatkan pengambilan sampel berulang-ulang, kita harus mengulang proses itu untuk sampel yang berbeda: ambil sampel → hitung x̄ → plot di histogram. Jika dilakukan ratusan atau ribuan kali, kita akan mendapatkan sebuah sampling distribution, yaitu tumpukan nilai x̄.

2.2 Perbedaan Population Distribution dan Sampling Distribution

Population Distribution

Population distribution memiliki rata-rata $\mu$ dan standar deviasi $\sigma$.

1.Jika variabel acak $X$ mengikuti distribusi normal:

\[ X \sim N(\mu, \sigma) \]

2.Rumus standarisasinya adalah:

\[ Z = \frac{X - \mu}{\sigma} \]

Sampling Distribution

Sampling distribution dibentuk dengan mengambil banyak sampel acak, menghitung $\bar{X}$ untuk tiap sampel, lalu menggabungkannya.

1. Dari sampling distribution, rata-rata semua $\bar{X}$ adalah:

\[ \mu_{\bar{X}} = \mu \]

2. Standar deviasi sampling distribution (standard error):

\[ \sigma_{\bar{X}} = \frac{\sigma}{\sqrt{n}} \]

3. Notasi distribusi sampling:

\[ \bar{X} \sim N\left(\mu,\; \frac{\sigma}{\sqrt{n}}\right) \]

4. Rumus standarisasinya menjadi:

\[ Z = \frac{X - \mu}{\sigma / \sqrt{n}} \]

2.3 Contoh

Contoh Soal: Probabilitas Rata-rata Tinggi < 157 cm

Diketahui populasi tinggi warga Kanada berdistribusi normal dengan:

Mean: $\mu = 160$
Standar deviasi: $\sigma = 7$
Ukuran sampel: $n = 10$

1. Standard error:

\[ SE = \frac{7}{\sqrt{10}} = 2.21 \]

2. Pertanyaan:

\[ P(\bar{X} < 157) \]

3. Standarisasi:

\[ Z = \frac{157 - 160}{2.21} = -1.36 \]

Dari tabel Z, area = 0.0869 (8.69%).

3 Central Limit Theorem

Klik gambar di bawah untuk membuka video di YouTube:

3.1 Apa itu Teorema Limit Tengah (CLT)?

Teorema Limit Tengah menyatakan bahwa jika ukuran sampel (n) cukup besar, biasanya n ≥ 30, maka distribusi sampling dari rata-rata sampel akan mendekati distribusi normal, apa pun bentuk distribusi populasi aslinya.

3.2 Mengapa bisa begitu?

Ketika kita mengambil banyak sampel acak dari populasi dan menghitung rata-rata tiap sampel (x̄), sebagian besar x̄ akan berada dekat dengan mean populasi (μ). Meski ada beberapa yang jauh, saat kita menumpuk semua nilai x̄, bentuknya menjadi normal.

3.3 Kapan CLT boleh digunakan?

n ≥ 30 → CLT aman diterapkan → distribusi sampling normal.
n < 30 → CLT tidak berlaku, kecuali:
populasi awal sudah normal, maka distribusi sampling tetap normal.

3.4 Kenapa sampel kecil tidak cukup?

Sampel kecil lebih bervariasi dan kurang presisi, sehingga tidak membentuk distribusi sampling yang stabil.

3.5 Kesimpulan latihan soal

Distribusi sampling akan normal pada pilihan:

C, D, F → karena n ≥ 30
E → karena populasi awal normal meski n < 30 Pilihan A dan B salah karena n < 30 dan populasi tidak normal.

4 Sample Proportion

Klik gambar di bawah untuk membuka video di YouTube:

4.1 Apa itu Proporsi?

Dalam statistika, proportion (proporsi) menggambarkan fraksi dari hasil yang menguntungkan dibandingkan seluruh hasil.

Hasil yang menguntungkan bisa berupa apa saja yang ingin kita ukur, seperti:

tinggi badan,
berat badan,
warna mata,
skor ujian, dan sebagainya.

Jika kita tertarik pada proporsi orang yang bermata hijau, kita bisa mengukurnya dengan:

mengambil sampel, atau
mengukur seluruh populasi.

Rumus proporsi ditulis sebagai:

\[ \hat{p} = \frac{\text{jumlah hasil yang menguntungkan}}{\text{jumlah total}} \]

Contoh perhitungan proporsi:

Sampel 10 orang, 2 orang bermata hijau:

\[ \hat{p} = \frac{2}{10} = 0.2 \]

Populasi 5000 orang, 900 bermata hijau:

\[ p = \frac{900}{5000} = 0.18 \]

Dalam notasi:

Proporsi populasi dilambangkan dengan $p$
Proporsi sampel dilambangkan dengan $\hat{p}$

4.2 Sampling Distribution of the Sample Proportion

Sampling distribution of the sample proportion adalah distribusi dari nilai $\hat{p}$ yang diperoleh dari banyak sampel acak.

Distribusi ini memiliki:

1. Rata-rata \[ \mu_{\hat{p}} = p \]

2. Simpangan baku (Standard Error) \[ \sigma_{\hat{p}} = \sqrt{\frac{p(1 - p)}{n}} \]

dengan:

$p$ = proporsi keberhasilan
$q = 1 - p$ = proporsi kegagalan
$n$ = ukuran sampel

4.3 Distribusi Normal untuk p-hat

1.Jika CLT terpenuhi, maka distribusi $\hat{p}$ mendekati normal dengan: \[ \hat{p} \sim N\left(p,\; \sqrt{\frac{p(1-p)}{n}}\right) \]

2. Kita dapat menghitung skor Z dengan rumus:

\[ Z = \frac{\hat{p} - p}{\sqrt{\frac{p(1 - p)}{n}}} \]

4.4 Syarat CLT untuk Sample Proportion

Berbeda dengan rata-rata sampel, CLT untuk proporsi memiliki dua syarat:

n · p ≥ 10
n · (1 – p) ≥ 10

Jika kedua syarat terpenuhi, maka sampling distribution dari p̂ dapat dianggap normal, sehingga kita dapat menggunakan tabel Z dan aturan probabilitas lainnya.

5 Review Sampling Distribution

Klik gambar di bawah untuk membuka video di YouTube:

5.1 Contoh 1: Mengambil 3 Kelereng (Distribusi Bernoulli)

1. Misalkan terdapat 200 kelereng hijau dan 300 kelereng biru. Probabilitas sukses (mengambil hijau):

\[ p = \frac{200}{500} = 0.4 \]

2. Probabilitas gagal:

\[ q = 1 - p = 0.6 \]

3. Probabilitas urutan GGB:

\[ P(GGB) = 0.4 \times 0.4 \times 0.6 = 0.096 \]

3.Probabilitas total untuk mendapatkan setidaknya dua kelereng hijau:

\[ P(X \ge 2) = P(X = 2) + P(X = 3) \]

\[ P(X=2) = 0.288,\qquad P(X=3) = 0.064 \]

\[ P(X \ge 2) = 0.288 + 0.064 = 0.352 \]

5.2 Contoh 2: 5 Kelereng (Distribusi Binomial)

1. Rumus binomial:

\[ P(X=k) = \binom{n}{k}p^k(1-p)^{n-k} \]

Untuk n = 5, p = 0.4.
Probabilitas mengambil setidaknya 2 kelereng hijau:

\[ P(X \ge 2) = P(X=2) + P(X=3) + P(X=4) + P(X=5) \]

2. Contoh perhitungan:

\[ P(X=2) = \binom{5}{2}(0.4)^2(0.6)^3 = 0.3456 \]

3. Setelah dijumlahkan semuanya:

\[ P(X \ge 2) = 0.6634 \]

5.3 Contoh 3: 100 Kelereng (Sampling Distribution of p-hat)

1. Kita ingin menghitung probabilitas:

\[ \hat{p} \ge 0.35 \]

2. Syarat Central Limit Theorem (CLT)

\[ np = 100 \times 0.4 = 40 \ge 10 \]

\[ n(1-p) = 100 \times 0.6 = 60 \ge 10 \]

Kedua syarat terpenuhi → CLT dapat digunakan.

5.4 Sampling Distribution of the Sample Proportion

1. Jika CLT berlaku, maka:

\[ \hat{p} \sim N\left(p,\; \sqrt{\frac{p(1-p)}{n}}\right) \]

2. Standarisasi:

\[ Z = \frac{\hat{p} - p}{\sqrt{p(1 - p)/n}} \]

3. Masukkan nilai:

\[ Z = \frac{0.35 - 0.4}{\sqrt{0.4(1-0.4)/100}} = -1.02 \]

4. Area di kiri Z = -1.02 adalah:

\[ P(Z < -1.02) = 0.1539 \]

5. Karena kita ingin area di kanan:

\[ P(Z > -1.02) = 1 - 0.1539 = 0.8461 \]

5.5 Hasil Akhir (Aproksimasi)

\[ P(\hat{p} \ge 0.35) \approx 0.8461 \]

Artinya peluang mendekati untuk mendapatkan setidaknya 35 kelereng hijau dari 100 percobaan adalah 84.61%.

6 References

Bakti Siregar, M.Sc., CDS

https://bookdown.org/dsciencelabs/intro_statistics/Preface.html
Salmaa

https://penerbitdeepublish.com/distribusi-probabilitas/amp/