Probability Distribution

Tugas Week 11

Ni.MD Aurora Sekarningrum

Mahasiswa Institut Teknologi Sains Bandung

Prodi: Sains Data

NIM: 5225072

Tanggal: 2025-12-07

R Programming
Statistics
Data Science

1 About Probability Distribution

Probability distribution membantu menggambarkan bagaimana probabilitas “tersebar” pada setiap nilai yang mungkin dari suatu random variable, sehingga ketidakpastian dalam eksperimen atau proses nyata dapat dimodelkan secara sistematis dan terukur. Konsep ini menjadi fondasi banyak metode statistika modern karena menentukan bagaimana data berperilaku, bagaimana probabilitas dihitung, serta bagaimana prediksi dan keputusan berbasis data dibuat.

Dalam bab ini, fokus utama diberikan pada continuous random variable beserta probability density function (pdf), probabilitas pada suatu interval, dan cumulative distribution function yang merangkum peluang kumulatif hingga titik tertentu. Selanjutnya, pembahasan meluas ke sampling distributions yang menggambarkan perilaku statistik sampel seperti mean dan proportion ketika pengambilan sampel dilakukan berulang kali, dengan Central Limit Theorem sebagai hasil kunci yang menjelaskan kecenderungan distribusi mean sampel menuju distribusi normal.

Selain itu, bab ini menyoroti distribusi sample proportion yang sangat penting dalam analisis survei dan penelitian kuantitatif ketika mengukur persentase suatu karakteristik dalam populasi. Setiap bagian didukung dengan penjelasan konseptual dan contoh terapan sehingga pembaca tidak hanya memahami rumus, tetapi juga intuisi di baliknya. Dengan menguasai materi ini, pembaca diharapkan mampu menganalisis data, membangun model statistik, dan menarik kesimpulan inferensial secara lebih percaya diri dan berlandaskan prinsip probabilitas yang kokoh.

2 Continuous Random

2.1 Variabel Diskrit

Variabel Diskrit

Variabel diskrit hanya dapat mengambil sejumlah nilai yang terhitung (countable). Data diperoleh dengan cara menghitung, bukan mengukur. Nilai-nilai variabel diskrit terbatas dan dapat dihitung, meskipun terkadang nilai tersebut bisa berupa angka desimal (misalnya uang), tetapi tetap memiliki jumlah nilai yang terbatas.

Contoh Variabel Diskrit:

  • Jumlah kepala pada lemparan koin
  • Jumlah kelereng biru dalam kotak
  • Nilai ujian siswa (misal: 5/10)
  • Jumlah anak dalam keluarga (misal: 0, 1, 2, 3, …)
  • Jumlah uang di rekening bank (misal: $420.69)

Rumus Probabilitas untuk Variabel Diskrit:

  1. Distribusi Binomial: \[P(k) = \binom{n}{k} p^k (1-p)^{n-k}\] Di mana \(P(k)\) adalah probabilitas untuk memperoleh \(k\) keberhasilan dalam \(n\) percobaan dengan probabilitas \(p\) untuk setiap percobaan.

  2. Probabilitas Gabungan (Union): \[P(A \cup B) = P(A) + P(B) - P(A \cap B)\]

  3. Probabilitas Bersyarat (Independen): \[P(A \cap B) = P(A) \times P(B)\]


2.2 Variabel Kontinu

Variabel kontinu dapat mengambil setiap nilai dalam suatu rentang nilai pada garis bilangan nyata. Data variabel kontinu diperoleh dengan cara mengukur, dan nilai-nilai tersebut tidak terbatas karena bisa sangat presisi. Variabel kontinu memiliki kemungkinan nilai yang tak terhingga karena pengukuran dapat dilakukan hingga tingkat presisi yang sangat tinggi.

Contoh Variabel Kontinu:

  • Berat badan (misal: 150.305 kg)
  • Usia (misal: 23.5 tahun, bisa diperinci hingga detik, milidetik, dll.)
  • Suhu
  • Jarak
  • Waktu

Distribusi Probabilitas untuk Variabel Kontinu:
Probabilitas untuk variabel kontinu dihitung sebagai luas di bawah kurva Fungsi Kepadatan Probabilitas (PDF). Probabilitas pada variabel kontinu tidak ditentukan untuk nilai tertentu, tetapi untuk rentang nilai.


2.3 Representasi Visual Distribusi Probabilitas

  • Variabel Diskrit:
    Dapat diwakili dengan bar chart, di mana setiap batang mewakili nilai tertentu dari variabel diskrit. Batang pada bar chart terpisah, karena variabel ini memiliki nilai terbatas dan dapat dihitung.
  • Variabel Kontinu:
    Dapat diwakili dengan histogram atau density curve, di mana area di bawah kurva mewakili probabilitas untuk rentang nilai. Pada histogram, batangnya menyatu tanpa jarak antar batang, karena variabel ini mengandung nilai tak terhingga dan diperoleh dari pengukuran.

2.4 Fungsi Kepadatan Probabilitas (PDF)

Untuk variabel kontinu, fungsi kepadatan probabilitas \(f(x)\) harus memenuhi dua syarat dasar:
  1. Non-negativitas: \[f(x) \geq 0 \quad \text{untuk setiap nilai } x\]
  1. Total Luas Sama dengan 1: \[\int_{-\infty}^{\infty} f(x) \, dx = 1\]

Ini berarti area di bawah kurva PDF untuk seluruh rentang nilai harus sama dengan 1, yang mencerminkan total probabilitas.

Contoh PDF:
Untuk PDF \(f(x) = 3x^2\) pada interval \([0, 1]\), kita dapat memverifikasi: \[\int_{0}^{1} 3x^2 \, dx = 1\]


2.5 Probabilitas pada Interval

Untuk menghitung probabilitas dalam interval tertentu pada variabel kontinu, kita menggunakan rumus integral untuk menghitung luas di bawah kurva PDF pada interval tersebut.

Rumus Probabilitas dalam Interval: \[P(a \leq X \leq b) = \int_{a}^{b} f(x) \, dx\]

Contoh:
Menghitung probabilitas untuk rentang \(P(0.5 \leq X \leq 1)\) pada PDF \(f(x) = 3x^2\) pada interval \([0, 1]\).


2.6 Fungsi Distribusi Kumulatif (CDF)

Fungsi distribusi kumulatif (CDF) untuk variabel kontinu adalah integral dari PDF, yang memberikan probabilitas bahwa nilai variabel acak kurang dari atau sama dengan nilai tertentu.

Rumus CDF: \[F(x) = P(X \leq x) = \int_{0}^{x} f(t) \, dt\]

Contoh:
Untuk PDF \(f(x) = 3x^2\), CDF-nya adalah: \[F(x) = x^3\]

3 Sampling Distributions

3.1 Perbedaan Sample Distribution vs Sampling Distribution

Sample Distribution
Distribusi data dari satu sampel saja. Misalnya mengambil 5 orang, lalu menghitung tinggi masing-masing dan rata-ratanya.

Sampling Distribution
Distribusi dari nilai statistik (misalnya rata-rata sampel, \(\bar{x}\)) yang dihitung dari banyak sampel acak ukuran \(n\).

Proses:
1. Ambil sampel 1 → hitung \(\bar{x}_1\)
2. Ambil sampel 2 → hitung \(\bar{x}_2\)
3. Ulangi ratusan atau ribuan kali
4. Plot semua nilai \(\bar{x}\) → itulah sampling distribution.


3.2 Mengapa Rata-rata Sampel Berbeda-beda?

Sampel sifatnya kecil dan tidak selalu mewakili populasi secara sempurna → menyebabkan variabilitas.

Contoh:
Populasi rata-rata tinggi = 5’4”, tapi sampel bisa menghasilkan: - 5’3” - 5’7” - dll.


3.3 Populasi vs Sampling Distribution

3.3.1 Populasi:

  • Mean = \(\mu\)
  • Standard deviation = \(\sigma\)
  • Distribusi: \(X \sim N(\mu, \sigma)\)
  • Z-score:
    \[z = \frac{X - \mu}{\sigma}\]

3.3.2 Sampling Distribution (Mean Sampel \(\bar{X}\)):

  • Mean dari semua \(\bar{X}\) = sama dengan mean populasi:
    \[\mu_{\bar{X}} = \mu\]
  • Standar deviasi lebih kecil dari populasi:
    \[\sigma_{\bar{X}} = \frac{\sigma}{\sqrt{n}} \quad \text{(disebut **standard error**)}\]
  • Distribusi:
    \[\bar{X} \sim N\left(\mu, \frac{\sigma}{\sqrt{n}}\right)\]
  • Z-score sampling distribution:
    \[z = \frac{\bar{X} - \mu}{\sigma / \sqrt{n}}\]

Intinya: Rata-rata lebih stabil dibandingkan data individual, sehingga penyebaran sampling distribution lebih sempit.


3.4 Mengapa Sampling Distribution Penting?

Tidak perlu mengukur seluruh populasi (contoh: 8 miliar manusia).
Cukup ambil banyak sampel kecil, hitung statistiknya, maka distribusi ini dapat digunakan untuk:

  • Mengestimasi parameter populasi
  • Menghitung probabilitas dari nilai rata-rata sampel tertentu

3.5 Contoh Perhitungan

3.5.1 Contoh 1 — Probabilitas Rata-rata 10 Orang Kanada < 157 cm

Diketahui: - \(\mu = 160\) - \(\sigma = 7\) - \(n = 10\)

Standard error:
\[SE = \frac{7}{\sqrt{10}} \approx 2.21\]

Z-score:
\[z = \frac{157 - 160}{2.21} \approx -1.36\]

Lihat tabel Z: area = 0.0869
→ Jadi:
\[P(\bar{X} < 157) = 0.0869 = 8.69\%\]


3.5.2 Contoh 2 — Proporsi Orang dengan Tinggi > 170 cm

Populasi normal:

\[z = \frac{170 - 160}{7} \approx 1.43\]

Area kiri tabel Z = 0.9236
Area kanan (yang diminta):
\[1 - 0.9236 = 0.0764\]

Jadi:
\[P(X > 170) = 0.0764 = 7.64\%\]

4 Central Limit Theorem (CLT)

4.1 Pengantar Review Sampling Distribution

Sebelum memahami CLT, perlu memahami apa itu sampling distribution.

Sampling distribution adalah distribusi nilai suatu statistik (misalnya rata-rata sampel \(\bar{X}\)) yang diperoleh melalui:

  1. Mengambil banyak simple random sample dari suatu populasi.
  2. Menghitung nilai statistik (misal \(\bar{X}\)) dari setiap sampel.
  3. Menggabungkan seluruh nilai tersebut menjadi satu distribusi.

Sampling distribution menggambarkan bagaimana rata-rata sampel dapat berubah-ubah bila kita mengambil sampel berkali-kali.


4.2 Apa Itu Central Limit Theorem (CLT)?

Central Limit Theorem menjelaskan bentuk dari sampling distribution.

Inti CLT:
Jika ukuran sampel \(n\) cukup besar, maka sampling distribution dari rata-rata sampel (\(\bar{X}\)) akan mendekati distribusi normal, tanpa memandang bentuk distribusi populasi.

Artinya: - Populasi boleh skewed, bimodal, atau tidak normal. - Tetapi rata-rata sampel akan membentuk distribusi normal bila \(n\) besar.


4.3 Visualisasi CLT

Jika populasi awal skewed, proses berikut terjadi:

  1. Kita mengambil banyak sampel acak ukuran \(n\).
  2. Setiap sampel menghasilkan nilai \(\bar{X}\).
  3. Sebagian besar sampel akan menghasilkan \(\bar{X}\) dekat dengan mean populasi \(\mu\) (karena rata-rata adalah titik keseimbangan data).
  4. Ada beberapa sampel yang menghasilkan nilai jauh dari \(\mu\), tetapi lebih jarang.
  5. Ketika seluruh nilai \(\bar{X}\) digabungkan, terbentuk kurva yang simetris dan berbentuk normal.

Hasil akhir: sampling distribution normal, meskipun populasi awal tidak normal.
Inilah efek CLT.


4.4 Ukuran Sampel: Kapan CLT Berlaku?

Aturan umum: \(n \geq 30\)

  • Jika ukuran sampel \(\geq 30\), sampling distribution dari rata-rata akan mendekati normal.
  • Jika \(n\) kecil (\(< 30\)):
    • Variabilitas lebih tinggi
    • Risiko memperoleh sampel yang “aneh” lebih besar
    • CLT tidak boleh digunakan (kecuali kondisi tertentu)

Pengecualian penting: Jika populasi sudah normal sejak awal, maka: - Sampling distribution juga normal - Meski ukuran sampel kecil (\(< 30\))

Namun dalam praktik statistik nyata, ukuran sampel yang lebih besar tetap memberikan estimasi yang lebih presisi.


4.5 Mengapa CLT Penting?

Karena CLT memberi dasar bahwa statistik sampel dapat dianalisis menggunakan rumus dan konsep distribusi normal, misalnya:

  • Perhitungan probabilitas
  • Estimasi parameter
  • Confidence interval
  • Uji hipotesis

4.6 Contoh Aplikasi

Diberikan beberapa skenario populasi dan ukuran sampel. Pertanyaannya: kapan sampling distribution akan normal?

Jawaban yang benar: C, D, E, F

Penjelasan:

Opsi Ukuran Sampel Populasi Normal? Kesimpulan
A < 30 Tidak normal Tidak memenuhi CLT
B < 30 Tidak normal Tidak memenuhi CLT
C ≥ 30 Tidak normal CLT berlaku
D ≥ 30 Tidak normal CLT berlaku
E < 30 Normal Sampling distribution normal (populasi normal)
F ≥ 30 Normal/tidak normal CLT berlaku

CLT berlaku ketika: - \(n \geq 30\), atau - populasi sudah normal (meskipun \(n\) kecil

5 Sample Proportion

5.1 Konsep Dasar

Sampling distribution adalah distribusi nilai suatu statistik (misalnya rata-rata \(\bar{X}\) atau proporsi \(\hat{p}\)) yang diperoleh melalui langkah berikut:

  1. Mengambil banyak simple random sample dari populasi.
  2. Menghitung statistik dari tiap sampel (misalnya \(\hat{p}\)).
  3. Menggabungkan semua nilai tersebut ke dalam satu grafik untuk membentuk distribusi.

Distribusi inilah yang disebut sampling distribution.


5.2 Apa Itu Proporsi?

Proporsi menggambarkan bagian (fraction) dari favourable outcome terhadap keseluruhan.

Rumus proporsi: \[ \text{Proporsi} = \frac{\text{jumlah kejadian yang diinginkan}}{\text{total observasi}} \]

Dalam penamaan: - Proporsi populasi = \(p\) - Proporsi sampel = \(\hat{p}\) (dibaca p-hat)

Contoh: - Sampel: 2 dari 10 orang bermata hijau → \(\hat{p} = \frac{2}{10} = 0.2\) - Populasi: 900 dari 5000 orang bermata hijau → \(p = \frac{900}{5000} = 0.18\)

Karena sampel berbeda-beda, nilai \(\hat{p}\) juga bisa berubah: 0.21, 0.19, 0.17, dll.


5.3 Sampling Distribution of the Sample Proportion

Jika kita mengambil banyak sampel dan menghitung \(\hat{p}\) dari setiap sampel, lalu kita plot semuanya, maka terbentuk distribusi dari \(\hat{p}\). Inilah sampling distribution of the sample proportion.

Seperti distribusi lainnya, ia memiliki: - Mean (\(\mu_{\hat{p}}\)) - Standard deviation (\(\sigma_{\hat{p}}\))

Jika sampling distribution mengikuti bentuk normal (CLT), maka berlaku tiga sifat penting:

  1. Mean of sampling distribution: \[\mu_{\hat{p}} = p\] Artinya, rata-rata seluruh nilai \(\hat{p}\) sama dengan proporsi populasi.
  1. Standard deviation (Standard Error): \[\sigma_{\hat{p}} = \sqrt{\frac{p(1-p)}{n}}\] Dengan:
    • \(n\) = ukuran sampel
    • \(p\) = proporsi sukses
    • \(q = 1-p\) = proporsi gagal
  1. Standardization (z-score) untuk proporsi: Jika distribusi normal, maka: \[z = \frac{\hat{p} - p}{\sqrt{\frac{p(1-p)}{n}}}\] Z-score ini dapat digunakan untuk menghitung probabilitas menggunakan tabel z.

5.4 Kondisi CLT untuk Proporsi (Berbeda dari Rata-rata!)

Untuk proporsi, CLT tidak menggunakan syarat \(n \geq 30\) seperti pada rata-rata.

Agar sampling distribution dari \(\hat{p}\) berbentuk normal, harus memenuhi dua kondisi berikut:

Syarat CLT untuk proporsi
\(np \geq 10\)
\(n(1-p) \geq 10\)

Jika kedua kondisi terpenuhi → distribusi normal → boleh gunakan z-score.


5.5 Mengapa Bisa Berbeda-beda?

Setiap sampel mungkin menghasilkan proporsi yang sedikit berbeda, karena:

  • Sampel diambil secara acak
  • Peluang mendapatkan data berbeda-beda
  • Sampel kecil lebih mudah menghasilkan nilai ekstrem

Namun ketika semua \(\hat{p}\) digabungkan, distribusinya stabil dan memiliki pola yang dapat diprediksi melalui CLT.


5.6 Hubungan dengan Distribusi Binomial

Proporsi sampel sangat erat dengan distribusi binomial, karena proporsi merupakan bentuk rescaled dari jumlah sukses dalam \(n\) percobaan.

Namun kapan menggunakan rumus binomial atau rumus normal (z-score) bergantung pada syarat CLT di atas.

6 Review Sampling Distribution

6.1 Konsep Dasar Probability

Probability mengukur peluang terjadinya suatu kejadian:

\[ P(\text{success}) = \frac{\text{jumlah kejadian sukses}}{\text{total kejadian}} \]

Pada kasus video: - Green marbles = 200 - Blue marbles = 300 - Total = 500

Maka: \[ p = P(\text{green}) = \frac{200}{500} = 0.4 \] \[ q = P(\text{blue}) = \frac{300}{500} = 0.6 \]

Karena pengambilan dilakukan dengan pengembalian, tiap percobaan bersifat independen.


6.2 Sample Space dan Probabilitas Dasar (n = 3)

Untuk 3 kali pengambilan, setiap urutan (misalnya GGB, BGB, BBB) memiliki probabilitas:

  • \(P(\text{GGB}) = 0.4 \times 0.4 \times 0.6 = 0.096\)
  • \(P(\text{BBB}) = 0.6^3 = 0.216\)

Soal meminta \(P(\text{minimal 2 green})\): \[ P(X \geq 2) = P(X = 2) + P(X = 3) \]

Dari sample space (3 cara untuk 2 green): \[ P(X = 2) = 0.096 + 0.096 + 0.096 = 0.288 \] \[ P(X = 3) = 0.4^3 = 0.064 \]

Sehingga: \[ P(X \geq 2) = 0.288 + 0.064 = 0.352 \]


6.3 Binomial Distribution for Larger Sample Sizes (n = 5)

Untuk 5 kali pengambilan, sample space terlalu besar → gunakan rumus binomial:

\[ P(X = k) = \binom{n}{k} p^k q^{n-k} \]

Karena soal meminta minimal 2 green: \[ P(X \geq 2) = P(2) + P(3) + P(4) + P(5) \]

Contoh perhitungan untuk \(k = 2\): \[ P(2) = \binom{5}{2} (0.4)^2 (0.6)^3 = 0.3456 \]

Setelah menjumlahkan seluruhnya, diperoleh: \[ P(X \geq 2) = 0.6634 \]


6.4 Menggunakan Sampling Distribution of Sample Proportion (\(\hat{p}\)) pada n yang Besar

Menggunakan binomial untuk menghitung peluang \(X \geq 35\) akan membutuhkan 66 perhitungan → tidak efisien.

Solusi: gunakan sampling distribution of the sample proportion dan Central Limit Theorem (CLT).

6.4.1 Syarat CLT untuk Proporsi

Kedua kondisi harus terpenuhi:

  • \(np \geq 10\)
  • \(n(1-p) \geq 10\)

Untuk kasus: - \(n = 100\) - \(p = 0.4\)

Hitung: - \(np = 40 \geq 10\) ✓ (memenuhi) - \(n(1-p) = 60 \geq 10\) ✓ (memenuhi)

→ Maka sampling distribution normal.


6.5 Sampling Distribution of Sample Proportion

Jika CLT terpenuhi:

  • Mean: \(\mu_{\hat{p}} = p\)
  • Standard Error: \(\sigma_{\hat{p}} = \sqrt{\frac{p(1-p)}{n}}\)
  • Z-score: \(z = \frac{\hat{p} - p}{\sqrt{\frac{p(1-p)}{n}}}\)
Karena “minimal 35 green dari 100”:

\[ \hat{p} = \frac{35}{100} = 0.35 \]

Hitung Z: \[ z = \frac{0.35 - 0.4}{\sqrt{\frac{0.4(1-0.4)}{100}}} = -1.02 \]

Dari tabel Z: \[ P(Z < -1.02) = 0.1539 \]

Karena yang diminta \(P(X \geq 35)\) (area di kanan): \[ P(Z \geq -1.02) = 1 - 0.1539 = 0.8461 \]

Jadi: \[ P(X \geq 35) \approx 0.8461 = 84.61\% \]

Catatan: Ini adalah approximate probability, bukan exact. Exact probability hanya bisa dihitung dengan sample space atau binomial.


6.6 Tabel Ringkasan Rumus

Konsep Rumus
Probability \(P = \frac{\text{sukses}}{\text{total}}\)
Binomial Probability \(P(X = k) = \binom{n}{k} p^k q^{n-k}\)
Proporsi Sampel \(\hat{p} = \frac{x}{n}\)
Mean Sampling Distribution \(\mu_{\hat{p}} = p\)
Standard Error \(\sigma_{\hat{p}} = \sqrt{\frac{pq}{n}}\)
Z-score Proporsi \(z = \frac{\hat{p} - p}{\sqrt{\frac{pq}{n}}}\)
Syarat CLT Proporsi \(np \geq 10\), \(n(1-p) \geq 10\)

7 References

[1] Dsciencelabs. (2025). Probability Distributions. Bookdown. Diakses dari https://bookdown.org/dsciencelabs/intro_statistics/07-Probability_Distributions.html

[2] University of Colorado. (n.d.). Continuous Random Variables and Probability Distributions. Diakses dari https://www.colorado.edu/amath/sites/default/files/attached-files/ch4.pdf

[3] Probability Course. (2024). Probability, Statistics & Random Processes | Free Textbook. Diakses dari https://www.probabilitycourse.com