Probability distribution adalah konsep fundamental dalam statistika
yang menggambarkan bagaimana kemungkinan suatu nilai pada variabel acak
tersebar. Distribusi ini memberikan informasi mengenai nilai-nilai apa
saja yang mungkin muncul serta seberapa besar peluang kemunculannya.
Dengan memahami bentuk dan karakteristik distribusi probabilitas, kita
dapat menganalisis pola data, melakukan perhitungan probabilitas, dan
membuat prediksi yang lebih akurat.
2 Countinous Random -
Variabel acak kontinu
Variabel Acak Kontinu
Variabel acak kontinu adalah variabel acak yang dapat mengambil tak
hingga banyak nilai dalam suatu interval pada garis bilangan real.
Nilai-nilai tersebut bersifat kontinu, sehingga peluang tidak dihitung
dari satu titik tertentu, tetapi dari luas area di bawah kurva fungsi
densitas probabilitas (Probability Density Function/PDF) pada interval
tertentu.
2.1 Definisi Formal
Jika \(X\) adalah variabel acak
kontinu dengan fungsi densitas probabilitas \(f(x)\), maka:
\[
P(a \le X \le b) = \int_{a}^{b} f(x)\, dx
\]
Untuk menjadi fungsi densitas yang valid, harus memenuhi:
\[
f(x) \ge 0 \quad \text{untuk seluruh } x
\]
\[
\int_{-\infty}^{\infty} f(x)\, dx = 1
\]
2.2 Variabel Acak Diskrit
dan Kontinu
2.2.1 Variabel Acak
Diskrit
Variabel yang hanya dapat mengambil nilai tertentu
(misal: jumlah anak, lemparan dadu).
2.2.2 Variabel Acak
Kontinu
Variabel yang dapat mengambil nilai pada suatu rentang tertentu
(misal: tinggi badan, waktu, berat
badan).
2.3 Probability Mass
Function (PMF)
PMF digunakan untuk variabel acak **diskrit**.
PMF memberikan probabilitas untuk setiap nilai spesifik \(X = x\).
Probabilitas ditentukan sebagai luas area di bawah kurva
PDF.
Sifat PDF:
\(f(x) \ge 0\)
\(\int_{-\infty}^{\infty} f(x) dx =
1\)
Probabilitas: \[
P(a < X < b) = \int_{a}^{b} f(x)\,dx
\]
Contoh distribusi kontinu:
Normal
Uniform
Eksponensial
2.5 Cumulative
Distribution Function (CDF)
CDF memberikan probabilitas bahwa variabel acak bernilai
kurang dari atau sama dengan suatu nilai \(x\):
\[
F(x) = P(X \le x)
\]
Sifat CDF:
Selalu meningkat
Nilainya antara 0 sampai 1
2.6 Distribusi Umum
2.6.1 Normal
Distribution
- Berbentuk lonceng (*bell-shaped*)
Simetris terhadap mean
Parameter: mean (\(\mu\)) dan
standar deviasi (\(\sigma\))
2.6.2 Uniform
Distribution
Semua nilai dalam interval memiliki probabilitas yang sama
PDF konstan pada interval tersebut
2.6.3 Exponential
Distribution
Model untuk waktu tunggu
Memiliki sifat memoryless
3 Sampling Distribution -
Distribusi Sampel
3.1 Perbedaan Tiga Jenis
Distribusi
3.1.1 Distribusi
Populasi
Data yang digambarkan:
Mengukur semua individu dalam suatu populasi penuh
(contoh: tinggi 10.000 orang).
Statistik kunci:
- Rata-rata populasi: \(\mu\)
- Simpangan baku populasi: \(\sigma\)
3.1.2 Distribusi
Sampel
Data yang digambarkan:
Mengukur semua individu dalam satu sampel yang diambil
dari populasi.
Statistik kunci:
- Rata-rata sampel: \(\bar{x}\)
3.1.3 Distribusi Sampling
(Sampling Distribution)
Data yang digambarkan:
Mengukur statistik (misalnya, \(\bar{x}\)) dari banyak sampel
acak yang diambil berulang dari populasi yang sama.
Statistik kunci:
- Rata-rata distribusi sampling: \(\mu_{\bar{x}}\)
- Standard Error (SE): \(\sigma_{\bar{x}}\)
3.2 Karakteristik Kunci
Distribusi Sampling
3.2.1 ata-rata Distribusi
Sampling
Distribusi sampling memiliki rata-rata:
\[
\mu_{\bar{x}} = \mu
\]
Artinya, rata-rata dari rata-rata sampel selalu sama dengan
rata-rata populasi.
3.2.2 standard Error
(SE)
Variabilitas rata-rata sampel disebut Standard
Error, dan selalu lebih kecil dari simpangan baku populasi.
\[
\sigma_{\bar{x}} = \frac{\sigma}{\sqrt{n}}
\]
di mana:
- \(\sigma\) = simpangan baku
populasi
- \(n\) = ukuran sampel
Semakin besar ukuran sampel → SE semakin kecil → rata-rata sampel
semakin stabil.
3.2.3 Bentuk
Distribusi
Menurut Central Limit Theorem (CLT):
Ketika ukuran sampel cukup besar, distribusi sampling dari \(\bar{x}\) akan mendekati Distribusi
Normal,
meskipun populasi asal tidak normal.
Visual bentuknya adalah kurva lonceng
(bell-shaped).
3.3 Penerapan Rumus
Z-Score pada Distribusi Sampling
Ketika menghitung probabilitas rata-rata sampel, kita menggunakan
rumus Z yang sudah disesuaikan, yaitu mengganti \(\sigma\) dengan Standard Error \(\sigma_{\bar{x}}\):
\[
Z = \frac{\bar{x} - \mu}{\sigma / \sqrt{n}}
\]
Rumus ini digunakan untuk menghitung probabilitas nilai rata-rata
sampel tertentu, sehingga kita bisa memahami karakteristik populasi
tanpa harus mengukur seluruh populasi.
4 Central Limit Theorem -
Teorema Limit Pusat (CLT)
4.1 Inti dari Central
Limit Theorem (CLT)
Central Limit Theorem (CLT) menyatakan bahwa:
Jika kita mengambil sampel acak berukuran cukup besar secara
berulang dari populasi apa pun, maka distribusi rata-rata sampel \({X}\)
akan mendekati Distribusi Normal — terlepas dari bentuk populasi
aslinya.
Dengan: - \(\) = mean populasi
- \(\) = standar deviasi populasi
- \(n\) = ukuran sampel
4.2 turan Umum Ukuran
Sampel (n)
Kapan CLT bekerja dengan baik?
CLT biasanya dianggap valid apabila:
\[
n \ge 30
\]
Jika n < 30, maka distribusi sampling rata-rata
masih dapat bias dan belum mendekati normal, terutama jika populasi awal
sangat miring (skewed).
4.3 Signifikansi CLT
CLT sangat penting dalam statistika karena:
Memungkinkan penggunaan Distribusi Normal untuk
banyak prosedur inferensi.
Membantu menghitung Z-score untuk rata-rata
sampel:
\[
Z = \frac{\bar{X} - \mu}{\sigma / \sqrt{n}}
\]
Memberikan dasar bagi banyak teknik inferensi modern (uji hipotesis,
confidence interval, dsb).
4.4 Ilustrasi Grafik PDF
vs CDF — Distribusi Normal
4.4.1 🔹 Plot PDF
(Probability Density Function)
x <-seq(-4, 4, length =400)y <-dnorm(x, mean =0, sd =1)plot(x, y, type ="l", lwd =3,main ="PDF (Probability Density Function)",xlab ="x", ylab ="f(x)")
x <-seq(-4, 4, length =400)y <-pnorm(x, mean =0, sd =1)plot(x, y, type ="l", lwd =3,main ="CDF (Cumulative Distribution Function)",xlab ="x", ylab ="F(x)")
5 Sample Propotion
5.1 Karakteristik
Distribusi Sampling Proporsi Sampel (P̂)
Distribusi Sampling dari proporsi sampel (P̂) akan mendekati
Distribusi Normal apabila ukuran sampel cukup
besar.
Karakteristik utamanya adalah sebagai berikut:
5.1.1Rata-Rata
(Mean)
\[
\mu_{\hat{P}} = P
\]
Artinya, nilai tengah dari semua proporsi sampel (P̂) sama
dengan proporsi populasi (P).
5.1.2Standard
Error (SE)
\[
\sigma_{\hat{P}} = \sqrt{\frac{P(1-P)}{n}}
\]
Standard Error menunjukkan seberapa besar variasi P̂ antar
sampel.
5.1.3Z-Score
Untuk Proporsi Sampel
\[
Z = \frac{\hat{P} - P}{\sigma_{\hat{P}}}
\]
Rumus ini digunakan untuk menghitung probabilitas bahwa P̂
berada pada jarak tertentu dari P, selama Distribusi Sampling
berdistribusi Normal.
5.2 Kondisi Penerapan CLT
(Normalitas)
Agar P̂ dapat diasumsikan Normal dan bisa memakai rumus
Z-Score, perlu dipenuhi dua syarat utama berikut:
5.2.1Jumlah
Keberhasilan Minimal
\[
n \cdot P \ge 10
\]
5.2.2Jumlah
Kegagalan Minimal
\[
n \cdot (1 - P) \ge 10
\]
Jika kedua syarat terpenuhi → Distribusi Sampling P̂ dianggap
Normal dan analisis probabilitas dengan Z-Score dapat digunakan.
5.3 Tujuan Utama
Materi ini menjelaskan bagaimana statistik digunakan untuk
mengestimasi Proporsi Populasi (P)
(misal: persentase siswa yang suka matematika, persen orang bermata
hijau, dll.)
berdasarkan Proporsi Sampel (P̂) yang diperoleh dari
pengambilan sampel berulang.
Estimasi ini menjadi dasar dalam inferensi statistik untuk
proporsi.
6 Review Sampling
Distribution - Tinjauan Distribusi Sampel
6.1 Probabilitas
Sederhana / Ruang Sampel
Digunakan ketika jumlah percobaan sangat kecil sehingga semua
kemungkinan hasil dapat dituliskan secara eksplisit.
6.1.1 🔹 Kapan
Digunakan
Cocok untuk percobaan kecil, misalnya \(n
= 3\).
6.1.2 🔹
Metode
Menyusun seluruh kemungkinan hasil (ruang sampel).
Menghitung peluang dari hasil yang diinginkan.
6.1.3 🔹
Kelemahan
Tidak efisien ketika \(n\) menjadi
besar, karena jumlah kemungkinan meningkat sangat cepat.
6.2 Distribusi
Binomial
Distribusi Binomial digunakan untuk menghitung probabilitas sejumlah
keberhasilan tertentu dalam percobaan berulang.
6.2.1 🔹 Kapan
Digunakan
Ketika jumlah percobaan kecil–sedang, misalnya \(n = 5\).
Jika \(n\) sangat besar (contoh:
\(n = 100\)) dan pertanyaannya berupa
rentang probabilitas seperti “minimal k”,
maka rumus harus dihitung berkali-kali → tidak
efisien.
6.3 Distribusi Sampling
Proporsi Sampel (Menggunakan CLT)
Ketika ukuran sampel besar, proporsi sampel (P̂) dapat
diperlakukan seolah-olah berdistribusi Normal menggunakan CLT.
6.3.1 🔹 Kapan
Digunakan
Untuk jumlah percobaan yang sangat besar, misalnya \(n = 100\).
6.3.2 🔹 Asumsi
Kunci
Mengandalkan Teorema Limit Pusat (CLT) sehingga
Distribusi Sampling dari P̂ mendekati Normal.
6.3.3 🔹 Syarat
Normalitas
Harus memenuhi dua kondisi: \[
n \cdot P \ge 10
\]\[
n \cdot (1-P) \ge 10
\]
Jika terpenuhi → distribusi P̂ dianggap Normal.
6.3.4 🔹
Perhitungan
Menggunakan Z-Score untuk proporsi: \[
Z = \frac{\hat{P} - P}{\sqrt{\frac{P(1-P)}{n}}}
\]
Probabilitas dihitung menggunakan tabel Z atau fungsi Normal.
6.3.5 🔹
Interpretasi
Metode ini memberikan probabilitas pendekatan
(approximate) yang:
Sangat akurat
Paling efisien
Ideal untuk dataset besar
7 Kesimpulan
library(knitr)library(kableExtra)
## Warning: package 'kableExtra' was built under R version 4.5.2
summary_table <-data.frame(Bagian =c("1. Probability Distribution","2. Variabel Acak","3. Distribusi Umum","4. Distribusi Sampling","5. Central Limit Theorem","6. Sampling Distribution untuk Proporsi" ),Ringkasan =c("Menjelaskan bagaimana probabilitas tersebar pada suatu variabel acak, baik diskrit (PMF) maupun kontinu (PDF).","Variabel acak diskrit memiliki nilai tertentu; kontinu memiliki rentang nilai tak terhingga.","Contoh umum: Normal, Uniform, Exponential, Binomial.","Distribusi statistik dari banyak sampel; rata-rata mendekati populasi dengan Standard Error.","Rata-rata sampel mendekati Normal jika n ≥ 30 menurut CLT.","Proporsi sampel Normal jika nP ≥ 10 dan n(1−P) ≥ 10." ))summary_table %>%kable("html", col.names =c("Bagian", "Ringkasan")) %>%kable_styling(bootstrap_options =c("striped", "hover", "condensed", "responsive"),full_width =FALSE,position ="center" ) %>%column_spec(1, bold =TRUE) %>%column_spec(2)
Bagian
Ringkasan
Probability Distribution
Menjelaskan bagaimana probabilitas tersebar pada suatu variabel acak,
baik diskrit (PMF) maupun kontinu (PDF).
Variabel Acak
Variabel acak diskrit memiliki nilai tertentu; kontinu memiliki rentang
nilai tak terhingga.