NIM: 52250027
08 December 2025
Distribusi probabilitas akan menggambarkan berbagai kejadian yang berbeda yang mana berkaitan dengan ketidakpastian dari berbagai fenomena atau kejadian tersebut. Probabilitas tidak hanya membantu kita memahami seberapa besar kemungkinan suatu peristiwa terjadi, tetapi juga membentuk dasar dari banyak metode statistik yang digunakan untuk pengambilan keputusan. Memahami bentuk dan sifat dari sebuah distribusi sangat penting karena itu menentukan bagaimana data berperilaku, bagaimana kita menghitung probabilitas, dan bagaimana kita membuat prediksi. Dari distribusi untuk variabel kontinu hingga perilaku statistik seperti rata-rata sampel, distribusi probabilitas berfungsi sebagai inti dari statistik inferensial.
Klik gambar di bawah untuk membuka video di YouTube:
Video ini membahas probabilitas variabel kontinu, tetapi sebelum itu dijelaskan kembali apa itu variabel diskrit agar perbedaannya lebih jelas. Variabel diskrit adalah variabel yang nilainya dapat dihitung, seperti jumlah hasil kepala saat melempar koin, jumlah kelereng biru, atau nilai ujian. Nilainya terbatas dan masuk akal untuk dihitung.
Sebaliknya, variabel kontinu diperoleh dari pengukuran, bukan hitungan. Nilainya dapat berupa angka apa pun dalam suatu rentang, sehingga tidak terbatas dan tidak dapat dihitung. Contohnya usia, berat badan, suhu, dan jarak semuanya bisa diukur hingga banyak angka desimal.
Dalam statistik, variabel diskrit biasanya ditampilkan dengan diagram batang (bar chart) yang memiliki celah antar batang, sedangkan variabel kontinu ditampilkan dengan histogram yang tidak memiliki celah untuk menunjukkan kontinuitas data. Variabel kontinu juga dapat direpresentasikan menggunakan kurva kerapatan (density curve).
Rumus probabilitas untuk variabel diskrit dan kontinu berbeda. Untuk variabel kontinu, probabilitas dihitung melalui luas di bawah kurva kerapatan, termasuk menggunakan distribusi normal.
Variabel acak adalah Kontinus jika dapat mengambil nilai apa pun dalam interval pada garis bilangan real. Contohnya termasuk: tinggi, waktu, suhu, usia, tekanna, dan kecepatan.
Karakteristik Pertama
Variabel mengambil nilai dalam interval seperti $(a, b) atau bahkan \((-\infty, +\infty)\).
1. Probabilitas dari setiap titik tunggal selalu nol:
\[ p(X = x) = 0 \]
2. Probabilitas hanya berarti selama interval:*
\[ P(a \ \le X \le b) = \int_{a}^{b} f(x)\, dx \]
A function \(f(x)\) is a valid Probability Density Function (PDF) if it satisfies:
1. Non-negativity \[ f(x) \ge 0 \quad \forall x \] 2. Total Area Equals 1 \[ \int_{-\infty}^{\infty} f(x)\, dx = 1 \]
Penafsiran
Nilai yang lebih besar dari \(f(x)\) menunjukkan kepdatan probabilitas yang lebih tinggi di sekitar nilai itu
Namun, \(f(x)\) bukanlah probabilitas; probabilitas berasal dari area di bawah kurva
Untuk menghitung probabilitas dalam sebuah interval:
\[ P(a \le X \le b) = \int_{a}^{b} 3x^2 \, dx \]
Contoh:
\[ P(0.5 \le X \le 1) \]
1.Fungsi Distribusi Kumulative (CDF) didefinisikan sebagai:
\[ F(x) = P(X \le x) = \int_{0}^{x} 3t^2 \, dt = x^3 \]
2. Hubungan antara PDF dan CDF: \[ f(x) = f'(x) \]
Klik gambar di bawah untuk membuka video di YouTube:
Dalam video ini kita akan mempelajari tentang sampling distribution (distribusi sampling). Namun sebelum membahas sampling distribution, kita perlu tahu perbedaan antara sample distribution dan sampling distribution. Mari kita lihat contoh berikut.
Misalkan kita memiliki populasi berjumlah 10.000 orang, dan kita tahu bahwa rata-rata tinggi badan seluruh populasi ini adalah 5’4”. Ingat bahwa sample adalah sebagian kecil dari populasi yang kita ambil untuk diperiksa dan dijadikan dasar kesimpulan.
Dari satu sampel, rata-rata tinggi mungkin 5’3”, tetapi pada sampel lain rata-ratanya bisa 5’7” atau 5’4”. Perhatikan bahwa rata-rata sampel (sample mean) tidak harus selalu sama dengan rata-rata populasi. Ini karena ukuran sampel lebih kecil, lebih bervariasi, mengandung lebih sedikit informasi, dan tidak selalu merepresentasikan populasi secara akurat.
Sample distribution melibatkan satu sampel dari populasi dan kita menginterpretasikan data dari sampel tersebut.
Sampling distribution adalah distribusi dari suatu statistik (misalnya rata-rata) yang berasal dari banyak sampel acak sederhana yang diambil dari populasi.
Sebagai contoh, jika kita ingin membuat sampling distribution dari sample mean:
Tentukan populasi yang ingin diteliti, misalnya tinggi badan.
Ambil simple random sample berukuran n (misalnya n = 5).
Ukur tinggi masing-masing orang dalam sampel.
Hitung rata-rata tinggi (x̄) untuk sampel tersebut.
Plot nilai x̄ itu ke dalam histogram.
Karena sampling distribution melibatkan pengambilan sampel berulang-ulang, kita harus mengulang proses itu untuk sampel yang berbeda: ambil sampel → hitung x̄ → plot di histogram. Jika dilakukan ratusan atau ribuan kali, kita akan mendapatkan sebuah sampling distribution, yaitu tumpukan nilai x̄.
Population Distribution
Population distribution memiliki rata-rata \(\mu\) dan standar deviasi \(\sigma\).
1.Jika variabel acak \(X\) mengikuti distribusi normal:
\[ X \sim N(\mu, \sigma) \]
2.Rumus standarisasinya adalah:
\[ Z = \frac{X - \mu}{\sigma} \]
Sampling Distribution
Sampling distribution dibentuk dengan mengambil banyak sampel acak, menghitung \(\bar{X}\) untuk tiap sampel, lalu menggabungkannya.
1. Dari sampling distribution, rata-rata semua \(\bar{X}\) adalah:
\[ \mu_{\bar{X}} = \mu \]
2. Standar deviasi sampling distribution (standard error):
\[ \sigma_{\bar{X}} = \frac{\sigma}{\sqrt{n}} \]
3. Notasi distribusi sampling:
\[ \bar{X} \sim N\left(\mu,\; \frac{\sigma}{\sqrt{n}}\right) \]
4. Rumus standarisasinya menjadi:
\[ Z = \frac{X - \mu}{\sigma / \sqrt{n}} \]
Contoh Soal: Probabilitas Rata-rata Tinggi < 157 cm
Diketahui populasi tinggi warga Kanada berdistribusi normal dengan:
1. Standard error:
\[ SE = \frac{7}{\sqrt{10}} = 2.21 \]
2. Pertanyaan:
\[ P(\bar{X} < 157) \]
3. Standarisasi:
\[ Z = \frac{157 - 160}{2.21} = -1.36 \]
Dari tabel Z, area = 0.0869 (8.69%).
Klik gambar di bawah untuk membuka video di YouTube:
Teorema Limit Tengah menyatakan bahwa jika ukuran sampel (n) cukup besar, biasanya n ≥ 30, maka distribusi sampling dari rata-rata sampel akan mendekati distribusi normal, apa pun bentuk distribusi populasi aslinya.
Ketika kita mengambil banyak sampel acak dari populasi dan menghitung rata-rata tiap sampel (x̄), sebagian besar x̄ akan berada dekat dengan mean populasi (μ). Meski ada beberapa yang jauh, saat kita menumpuk semua nilai x̄, bentuknya menjadi normal.
n ≥ 30 → CLT aman diterapkan → distribusi sampling normal.
n < 30 → CLT tidak berlaku, kecuali:
populasi awal sudah normal, maka distribusi sampling tetap normal.
Sampel kecil lebih bervariasi dan kurang presisi, sehingga tidak membentuk distribusi sampling yang stabil.
Distribusi sampling akan normal pada pilihan:
C, D, F → karena n ≥ 30
E → karena populasi awal normal meski n < 30 Pilihan A dan B salah karena n < 30 dan populasi tidak normal.
Klik gambar di bawah untuk membuka video di YouTube:
Dalam statistika, proportion (proporsi) menggambarkan fraksi dari hasil yang menguntungkan dibandingkan seluruh hasil.
Hasil yang menguntungkan bisa berupa apa saja yang ingin kita ukur, seperti:
tinggi badan,
berat badan,
warna mata,
skor ujian, dan sebagainya.
Jika kita tertarik pada proporsi orang yang bermata hijau, kita bisa mengukurnya dengan:
mengambil sampel, atau
mengukur seluruh populasi.
Rumus proporsi ditulis sebagai:
\[ \hat{p} = \frac{\text{jumlah hasil yang menguntungkan}}{\text{jumlah total}} \]
Contoh perhitungan proporsi:
\[ \hat{p} = \frac{2}{10} = 0.2 \]
\[ p = \frac{900}{5000} = 0.18 \]
Dalam notasi:
Sampling distribution of the sample proportion adalah distribusi dari nilai \(\hat{p}\) yang diperoleh dari banyak sampel acak.
Distribusi ini memiliki:
1. Rata-rata \[ \mu_{\hat{p}} = p \]
2. Simpangan baku (Standard Error) \[ \sigma_{\hat{p}} = \sqrt{\frac{p(1 - p)}{n}} \]
dengan:
1.Jika CLT terpenuhi, maka distribusi \(\hat{p}\) mendekati normal dengan: \[ \hat{p} \sim N\left(p,\; \sqrt{\frac{p(1-p)}{n}}\right) \]
2. Kita dapat menghitung skor Z dengan rumus:
\[ Z = \frac{\hat{p} - p}{\sqrt{\frac{p(1 - p)}{n}}} \]
Berbeda dengan rata-rata sampel, CLT untuk proporsi memiliki dua syarat:
n · p ≥ 10
n · (1 – p) ≥ 10
Klik gambar di bawah untuk membuka video di YouTube:
1. Misalkan terdapat 200 kelereng hijau dan 300 kelereng biru. Probabilitas sukses (mengambil hijau):
\[ p = \frac{200}{500} = 0.4 \]
2. Probabilitas gagal:
\[ q = 1 - p = 0.6 \]
3. Probabilitas urutan GGB:
\[ P(GGB) = 0.4 \times 0.4 \times 0.6 = 0.096 \]
3.Probabilitas total untuk mendapatkan setidaknya dua kelereng hijau:
\[ P(X \ge 2) = P(X = 2) + P(X = 3) \]
\[ P(X=2) = 0.288,\qquad P(X=3) = 0.064 \]
\[ P(X \ge 2) = 0.288 + 0.064 = 0.352 \]
1. Rumus binomial:
\[ P(X=k) = \binom{n}{k}p^k(1-p)^{n-k} \]
Untuk n = 5, p = 0.4.
Probabilitas mengambil setidaknya 2 kelereng hijau:
\[ P(X \ge 2) = P(X=2) + P(X=3) + P(X=4) + P(X=5) \]
2. Contoh perhitungan:
\[ P(X=2) = \binom{5}{2}(0.4)^2(0.6)^3 = 0.3456 \]
3. Setelah dijumlahkan semuanya:
\[ P(X \ge 2) = 0.6634 \]
1. Kita ingin menghitung probabilitas:
\[ \hat{p} \ge 0.35 \]
2. Syarat Central Limit Theorem (CLT)
\[ np = 100 \times 0.4 = 40 \ge 10 \]
\[ n(1-p) = 100 \times 0.6 = 60 \ge 10 \]
Kedua syarat terpenuhi → CLT dapat digunakan.
1. Jika CLT berlaku, maka:
\[ \hat{p} \sim N\left(p,\; \sqrt{\frac{p(1-p)}{n}}\right) \]
2. Standarisasi:
\[ Z = \frac{\hat{p} - p}{\sqrt{p(1 - p)/n}} \]
3. Masukkan nilai:
\[ Z = \frac{0.35 - 0.4}{\sqrt{0.4(1-0.4)/100}} = -1.02 \]
4. Area di kiri Z = -1.02 adalah:
\[ P(Z < -1.02) = 0.1539 \]
5. Karena kita ingin area di kanan:
\[ P(Z > -1.02) = 1 - 0.1539 = 0.8461 \]
\[ P(\hat{p} \ge 0.35) \approx 0.8461 \]
Artinya peluang mendekati untuk mendapatkan setidaknya 35 kelereng hijau dari 100 percobaan adalah 84.61%.
Bakti Siregar, M.Sc., CDS
https://bookdown.org/dsciencelabs/intro_statistics/Preface.html
Salmaa