Probability of distribution

tugas 11

1 Pendahuluan – Probability Distribution

Probability distribution adalah konsep fundamental dalam statistika yang menggambarkan bagaimana kemungkinan suatu nilai pada variabel acak tersebar. Distribusi ini memberikan informasi mengenai nilai-nilai apa saja yang mungkin muncul serta seberapa besar peluang kemunculannya. Dengan memahami bentuk dan karakteristik distribusi probabilitas, kita dapat menganalisis pola data, melakukan perhitungan probabilitas, dan membuat prediksi yang lebih akurat.

2 Countinous Random - Variabel acak kontinu

Variabel Acak Kontinu

Variabel acak kontinu adalah variabel acak yang dapat mengambil tak hingga banyak nilai dalam suatu interval pada garis bilangan real. Nilai-nilai tersebut bersifat kontinu, sehingga peluang tidak dihitung dari satu titik tertentu, tetapi dari luas area di bawah kurva fungsi densitas probabilitas (Probability Density Function/PDF) pada interval tertentu.

2.1 Definisi Formal

Jika \(X\) adalah variabel acak kontinu dengan fungsi densitas probabilitas \(f(x)\), maka:

\[ P(a \le X \le b) = \int_{a}^{b} f(x)\, dx \]

Untuk menjadi fungsi densitas yang valid, harus memenuhi:

\[ f(x) \ge 0 \quad \text{untuk seluruh } x \]

\[ \int_{-\infty}^{\infty} f(x)\, dx = 1 \]

2.2 Variabel Acak Diskrit dan Kontinu

2.2.1 Variabel Acak Diskrit

Variabel yang hanya dapat mengambil nilai tertentu  

(misal: jumlah anak, lemparan dadu).

2.2.2 Variabel Acak Kontinu

Variabel yang dapat mengambil nilai pada suatu rentang tertentu
(misal: tinggi badan, waktu, berat badan).


2.3 Probability Mass Function (PMF)

PMF digunakan untuk variabel acak **diskrit**.  

PMF memberikan probabilitas untuk setiap nilai spesifik \(X = x\).

Sifat PMF: - \(P(X = x) \ge 0\) - \(\sum P(X = x) = 1\)

Contoh distribusi diskrit:

  • Binomial
  • Bernoulli
  • Poisson

2.4 Probability Density Function (PDF)

PDF digunakan untuk variabel acak **kontinu**.  

Probabilitas ditentukan sebagai luas area di bawah kurva PDF.

Sifat PDF:

  • \(f(x) \ge 0\)
  • \(\int_{-\infty}^{\infty} f(x) dx = 1\)

Probabilitas: \[ P(a < X < b) = \int_{a}^{b} f(x)\,dx \]

Contoh distribusi kontinu:

  • Normal
  • Uniform
  • Eksponensial

2.5 Cumulative Distribution Function (CDF)

CDF memberikan probabilitas bahwa variabel acak bernilai  

kurang dari atau sama dengan suatu nilai \(x\):

\[
  F(x) = P(X \le x)
  \]

Sifat CDF:

  • Selalu meningkat
  • Nilainya antara 0 sampai 1

2.6 Distribusi Umum

2.6.1 Normal Distribution

- Berbentuk lonceng (*bell-shaped*)  
  • Simetris terhadap mean
  • Parameter: mean (\(\mu\)) dan standar deviasi (\(\sigma\))

2.6.2 Uniform Distribution

  • Semua nilai dalam interval memiliki probabilitas yang sama
  • PDF konstan pada interval tersebut

2.6.3 Exponential Distribution

  • Model untuk waktu tunggu

  • Memiliki sifat memoryless


3 Sampling Distribution - Distribusi Sampel

3.1 Perbedaan Tiga Jenis Distribusi

3.1.1 Distribusi Populasi

Data yang digambarkan:
Mengukur semua individu dalam suatu populasi penuh
(contoh: tinggi 10.000 orang).

Statistik kunci:
- Rata-rata populasi: \(\mu\)
- Simpangan baku populasi: \(\sigma\)


3.1.2 Distribusi Sampel

Data yang digambarkan:
Mengukur semua individu dalam satu sampel yang diambil dari populasi.

Statistik kunci:
- Rata-rata sampel: \(\bar{x}\)


3.1.3 Distribusi Sampling (Sampling Distribution)

Data yang digambarkan:
Mengukur statistik (misalnya, \(\bar{x}\)) dari banyak sampel acak yang diambil berulang dari populasi yang sama.

Statistik kunci:
- Rata-rata distribusi sampling: \(\mu_{\bar{x}}\)
- Standard Error (SE): \(\sigma_{\bar{x}}\)


3.2 Karakteristik Kunci Distribusi Sampling

3.2.1 ata-rata Distribusi Sampling

Distribusi sampling memiliki rata-rata:

\[ \mu_{\bar{x}} = \mu \]

Artinya, rata-rata dari rata-rata sampel selalu sama dengan rata-rata populasi.


3.2.2 standard Error (SE)

Variabilitas rata-rata sampel disebut Standard Error, dan selalu lebih kecil dari simpangan baku populasi.

\[ \sigma_{\bar{x}} = \frac{\sigma}{\sqrt{n}} \]

di mana:
- \(\sigma\) = simpangan baku populasi
- \(n\) = ukuran sampel

Semakin besar ukuran sampel → SE semakin kecil → rata-rata sampel semakin stabil.


3.2.3 Bentuk Distribusi

Menurut Central Limit Theorem (CLT):

Ketika ukuran sampel cukup besar, distribusi sampling dari \(\bar{x}\) akan mendekati Distribusi Normal,
meskipun populasi asal tidak normal.

Visual bentuknya adalah kurva lonceng (bell-shaped).


3.3 Penerapan Rumus Z-Score pada Distribusi Sampling

Ketika menghitung probabilitas rata-rata sampel, kita menggunakan rumus Z yang sudah disesuaikan, yaitu mengganti \(\sigma\) dengan Standard Error \(\sigma_{\bar{x}}\):

\[ Z = \frac{\bar{x} - \mu}{\sigma / \sqrt{n}} \]

Rumus ini digunakan untuk menghitung probabilitas nilai rata-rata sampel tertentu, sehingga kita bisa memahami karakteristik populasi tanpa harus mengukur seluruh populasi.

4 Central Limit Theorem - Teorema Limit Pusat (CLT)

4.1 Inti dari Central Limit Theorem (CLT)

Central Limit Theorem (CLT) menyatakan bahwa:

Jika kita mengambil sampel acak berukuran cukup besar secara berulang dari populasi apa pun, maka distribusi rata-rata sampel \({X}\) akan mendekati Distribusi Normal — terlepas dari bentuk populasi aslinya.

4.1.1 Rumus Inti Distribusi Sampling Rata-rata

Distribusi rata-rata sampel:

\[ \bar{X} \sim N\left(\mu,\; \frac{\sigma}{\sqrt{n}}\right) \]

Dengan: - \(\) = mean populasi
- \(\) = standar deviasi populasi
- \(n\) = ukuran sampel


4.2 turan Umum Ukuran Sampel (n)

Kapan CLT bekerja dengan baik?

  • CLT biasanya dianggap valid apabila:

\[ n \ge 30 \]

Jika n < 30, maka distribusi sampling rata-rata masih dapat bias dan belum mendekati normal, terutama jika populasi awal sangat miring (skewed).


4.3 Signifikansi CLT

CLT sangat penting dalam statistika karena:

  • Memungkinkan penggunaan Distribusi Normal untuk banyak prosedur inferensi.
  • Membantu menghitung Z-score untuk rata-rata sampel:

\[ Z = \frac{\bar{X} - \mu}{\sigma / \sqrt{n}} \]

  • Memberikan dasar bagi banyak teknik inferensi modern (uji hipotesis, confidence interval, dsb).

4.4 Ilustrasi Grafik PDF vs CDF — Distribusi Normal

4.4.1 🔹 Plot PDF (Probability Density Function)

x <- seq(-4, 4, length = 400)
y <- dnorm(x, mean = 0, sd = 1)

plot(x, y, type = "l", lwd = 3,
     main = "PDF (Probability Density Function)",
     xlab = "x", ylab = "f(x)")

x <- seq(-4, 4, length = 400)
y <- pnorm(x, mean = 0, sd = 1)

plot(x, y, type = "l", lwd = 3,
main = "CDF (Cumulative Distribution Function)",
xlab = "x", ylab = "F(x)")

5 Sample Propotion

5.1 Karakteristik Distribusi Sampling Proporsi Sampel ()

Distribusi Sampling dari proporsi sampel () akan mendekati Distribusi Normal apabila ukuran sampel cukup besar.
Karakteristik utamanya adalah sebagai berikut:


5.1.1 Rata-Rata (Mean)

\[ \mu_{\hat{P}} = P \]

Artinya, nilai tengah dari semua proporsi sampel () sama dengan proporsi populasi (P).


5.1.2 Standard Error (SE)

\[ \sigma_{\hat{P}} = \sqrt{\frac{P(1-P)}{n}} \]

Standard Error menunjukkan seberapa besar variasi antar sampel.


5.1.3 Z-Score Untuk Proporsi Sampel

\[ Z = \frac{\hat{P} - P}{\sigma_{\hat{P}}} \]

Rumus ini digunakan untuk menghitung probabilitas bahwa berada pada jarak tertentu dari P, selama Distribusi Sampling berdistribusi Normal.



5.2 Kondisi Penerapan CLT (Normalitas)

Agar dapat diasumsikan Normal dan bisa memakai rumus Z-Score, perlu dipenuhi dua syarat utama berikut:


5.2.1 Jumlah Keberhasilan Minimal

\[ n \cdot P \ge 10 \]

5.2.2 Jumlah Kegagalan Minimal

\[ n \cdot (1 - P) \ge 10 \]

Jika kedua syarat terpenuhi → Distribusi Sampling dianggap Normal dan analisis probabilitas dengan Z-Score dapat digunakan.


5.3 Tujuan Utama

Materi ini menjelaskan bagaimana statistik digunakan untuk mengestimasi Proporsi Populasi (P)
(misal: persentase siswa yang suka matematika, persen orang bermata hijau, dll.)
berdasarkan Proporsi Sampel (P̂) yang diperoleh dari pengambilan sampel berulang.

Estimasi ini menjadi dasar dalam inferensi statistik untuk proporsi.


6 Review Sampling Distribution - Tinjauan Distribusi Sampel

6.1 Probabilitas Sederhana / Ruang Sampel

Digunakan ketika jumlah percobaan sangat kecil sehingga semua kemungkinan hasil dapat dituliskan secara eksplisit.


6.1.1 🔹 Kapan Digunakan

  • Cocok untuk percobaan kecil, misalnya \(n = 3\).

6.1.2 🔹 Metode

  • Menyusun seluruh kemungkinan hasil (ruang sampel).
  • Menghitung peluang dari hasil yang diinginkan.

6.1.3 🔹 Kelemahan

  • Tidak efisien ketika \(n\) menjadi besar, karena jumlah kemungkinan meningkat sangat cepat.


6.2 Distribusi Binomial

Distribusi Binomial digunakan untuk menghitung probabilitas sejumlah keberhasilan tertentu dalam percobaan berulang.


6.2.1 🔹 Kapan Digunakan

  • Ketika jumlah percobaan kecil–sedang, misalnya \(n = 5\).

6.2.2 🔹 Metode

Menggunakan rumus probabilitas Binomial: \[ P(X = k) = \binom{n}{k} p^k (1-p)^{n-k} \]

6.2.3 🔹 Kelemahan

  • Jika \(n\) sangat besar (contoh: \(n = 100\)) dan pertanyaannya berupa rentang probabilitas seperti “minimal k”,
    maka rumus harus dihitung berkali-kali → tidak efisien.


6.3 Distribusi Sampling Proporsi Sampel (Menggunakan CLT)

Ketika ukuran sampel besar, proporsi sampel () dapat diperlakukan seolah-olah berdistribusi Normal menggunakan CLT.


6.3.1 🔹 Kapan Digunakan

  • Untuk jumlah percobaan yang sangat besar, misalnya \(n = 100\).

6.3.2 🔹 Asumsi Kunci

Mengandalkan Teorema Limit Pusat (CLT) sehingga Distribusi Sampling dari mendekati Normal.


6.3.3 🔹 Syarat Normalitas

Harus memenuhi dua kondisi: \[ n \cdot P \ge 10 \] \[ n \cdot (1-P) \ge 10 \]

Jika terpenuhi → distribusi dianggap Normal.


6.3.4 🔹 Perhitungan

Menggunakan Z-Score untuk proporsi: \[ Z = \frac{\hat{P} - P}{\sqrt{\frac{P(1-P)}{n}}} \]

Probabilitas dihitung menggunakan tabel Z atau fungsi Normal.


6.3.5 🔹 Interpretasi

Metode ini memberikan probabilitas pendekatan (approximate) yang:

  • Sangat akurat
  • Paling efisien
  • Ideal untuk dataset besar

7 Kesimpulan

library(knitr)
library(kableExtra)
## Warning: package 'kableExtra' was built under R version 4.5.2
summary_table <- data.frame(
  Bagian = c(
    "1. Probability Distribution",
    "2. Variabel Acak",
    "3. Distribusi Umum",
    "4. Distribusi Sampling",
    "5. Central Limit Theorem",
    "6. Sampling Distribution untuk Proporsi"
  ),
  Ringkasan = c(
    "Menjelaskan bagaimana probabilitas tersebar pada suatu variabel acak, baik diskrit (PMF) maupun kontinu (PDF).",
    "Variabel acak diskrit memiliki nilai tertentu; kontinu memiliki rentang nilai tak terhingga.",
    "Contoh umum: Normal, Uniform, Exponential, Binomial.",
    "Distribusi statistik dari banyak sampel; rata-rata mendekati populasi dengan Standard Error.",
    "Rata-rata sampel mendekati Normal jika n ≥ 30 menurut CLT.",
    "Proporsi sampel Normal jika nP ≥ 10 dan n(1−P) ≥ 10."
  )
)

summary_table %>%
  kable("html", col.names = c("Bagian", "Ringkasan")) %>%
  kable_styling(
    bootstrap_options = c("striped", "hover", "condensed", "responsive"),
    full_width = FALSE,
    position = "center"
  ) %>%
  column_spec(1, bold = TRUE) %>%
  column_spec(2)
Bagian Ringkasan
  1. Probability Distribution
Menjelaskan bagaimana probabilitas tersebar pada suatu variabel acak, baik diskrit (PMF) maupun kontinu (PDF).
  1. Variabel Acak
Variabel acak diskrit memiliki nilai tertentu; kontinu memiliki rentang nilai tak terhingga.
  1. Distribusi Umum
Contoh umum: Normal, Uniform, Exponential, Binomial.
  1. Distribusi Sampling
Distribusi statistik dari banyak sampel; rata-rata mendekati populasi dengan Standard Error.
  1. Central Limit Theorem
Rata-rata sampel mendekati Normal jika n ≥ 30 menurut CLT.
  1. Sampling Distribution untuk Proporsi
Proporsi sampel Normal jika nP ≥ 10 dan n(1−P) ≥ 10.

8 Referensi

Sheldon Ross. A First Course in Probabilit. Stat Trek. (n.d.). Sampling Distributions.

