Probability Distributions

Assignment Week 11

Angelica Florentina M.

52250063

Student Majoring in Data Science at Institut Teknologi Sains Bandung

1 Introduction

Distribusi probabilitas dapat diartikan sebagai fungsi statistik yang bertujuan untuk mendeskripsikan semua kemungkinan nilai dan juga kemungkinan yang dapat diambil dari berbagai variabel acak pada rentang tertentu. Dalam hal ini, kisaran distribusi frekuensi tersebut dibatasi oleh nilai minimum dan nilai maksimum di mana terjadi nilai kemungkinan yang akan diplot tergantung pada jumlah faktornya.

Beberapa faktor yang memengaruhi distribusi probabilitas tersebut di antaranya rata-rata distribusi atau rata-rata, deviasi standar, kemiringan, dan kurtosis. Sehingga dapat disimpulkan bahwa pengertian distribusi probabilitas secara umum adalah suatu distribusi yang menggambarkan tentang peluang dari sekumpulan variasi sebagai pengganti frekuensi.

Ciri-ciri dari distribusi probabilitas.

  1. Distribusi probabilitas memiliki ciri-ciri yakni probabilitas atau peluang dari sebuah hasil berkisar antara 0 sampai dengan 1.

  2. Ciri-ciri selanjutnya yaitu distribusi probabilitas memiliki hasil-hasil, yang mana hasilnya adalah dari kejadian yang tidak terikat antara kejadian yang satu dengan kejadian yang lain.

  3. Terakhir, distribusi probabilitas ini memiliki daftar hasil yang lebih lengkap. Sehingga jumlah dari probabilitas atau peluang dari berbagai kejadian atau peristiwanya adalah 1.

Materi ini akan memandu anda melalui beberapa konsep utama:

  • Continuous Random Variables, untuk variabel kontinu yang menggambarkan kemungkinan nilai pada rentang kontinu.
  • Sampling Distributions, yang mewakili distribusi statistik sampel seperti rata-rata sampel atau proporsi sampel.
  • The Central Limit Theorem (CLT), salah satu hasil terpenting dalam statistik, menjelaskan mengapa distribusi rata-rata sampel cenderung normal terlepas dari bentuk dasar populasi.
  • Sample Proportion Distributions, banyak digunakan dalam analisis survei dan penelitian kuantitatif.

2 Continuous Random Variable

2.1 Variabel Diskrit

Variabel diskrit adalah variabel yang hanya memiliki nilai yang dapat dihitung (countable). Nilai-nilainya terbatas atau dapat dihitung satu per satu.

Ciri-ciri:

  • Datanya didapatkan melalui perhitungan.
  • Nilainya terbatas atau dapat dihitung, meskipun bisa berupa desimal
  • Tidak mungkin memiliki nilai “di antara” yang tidak masuk akal.

Contoh:

  • Hasil nilai ujian siswa
  • Jumah anak dalam keluarga
  • Jumlah kelereng biru dalam kotak
  • Jumlah (H) Head ketika melempar suatu koin

2.2 Variabel Kontinu

Variabel kontinu adalah variabel yang dapat memiliki nilai apa pun dalam suatu rentang, termasuk pecahan sampai tingkat ketelitian tak terbatas. Data kontinu diperoleh melalui pengukuran.

Kenapa disebut kontinu? Karena nilai-nilainya tak hingga dan tidak dapat dihitung satu per satu

Contoh:

  • Usia
  • Berat badan
  • Jarak
  • Suhu

2.3 Perbedaan Variabel Diskrit dan Kontinu

A. Variabel Diskrit

  • Menggunakan bar chart (diagram batang)
  • Biasanya ada celah antara batang, karena nilai diskrit tidak kontinu.
  • Setiap batang mewakili hasil yang dapat dihitung

B. Variabel Kontinu

  • Menggunakan histogram
  • Tidak ada celah antara batang, menunjukkan bahwa data bersifat kontinu
  • Setiap nilai titik dapat ditempatkan di mana saja di sumbu x.
  • Bisa juga menggunakan density plot

2.4 Penyajian Probabilitas

  • Probabilitas suatu nilai x pada variabel diskrit dinyatakan dengan fungsi probabilitas (Probability Mass Function, PMF), yaitu P(X = x).

  • Jumlah semua probabilitas untuk semua nilai yang mungkin adalah 1

\[\sum_{i} P(X = x_i) = 1\]

  • Probabilitas didefinisikan dengan fungsi kerapatan (Probability Density Function, PDF) f(x).

  • Probabilitas berada dalam interval [a,b] adalah luas area dibawah kurva f(x) dari a sampaii b:

\[P(a \leq X \leq b) = \int_{a}^{b} f(x) \, dx\]

  • Fungsi PDF selalu bernilai tidak negatif dan total luas di bawah kurva adalah 1:

\[\int_{-\infty}^{\infty} f(x) \, dx = 1\]

  • Rumus PDF distribusi normal dengan mean μ dan standar deviasi σ:

\[f(x) = \frac{1}{\sigma \sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}\]

  • Grafiknya berbentuk kurva lonceng simetris, probabilitas suatu intervalnya bisa dihitung dengan integral PDF atau menggunakan tabel Z (standar normal).

  • Jika ingin menghitung probabilitas untuk variabel kontinu, pendekatan umum adalah menggunakan fungsi distribusi kumulatif (CDF):

\[F(x) = P(X \leq x) = \int_{-\infty}^{x} f(t) \, dt\]

  • Untuk mendapatkan probabilitas suatu rentang [a,b]:

\[P(a \leq X \leq b) = F(b) - F(a)\]

3 Sampling Distribution

3.1 Pengertian

Distribusi sampel (sample distribution) adalah distribusi data dari satu sampel tunggal yang diambil dari populasi, mencerminkan variabilitas observasi individu dalam sampel tersebut, yang sering kali tidak sepenuhnya mewakili populasi karena ukuran sampel kecil. Sebaliknya, distribusi sampling (sampling distribution) adalah distribusi probabilitas dari statistik sampel (seperti rata-rata atau proporsi) yang dihitung dari banyak sampel acak sederhana yang diambil berulang kali dari populasi yang sama, memungkinkan analisis perilaku statistik secara teoritis.

3.2 Metode Pengambilan Sampel dan Aplikasi

Metode sampling memengaruhi kualitas distribusi, seperti simple random (setiap elemen sama peluangnya), stratified (populasi dibagi strata homogen), systematic (interval tetap), atau cluster (berdasarkan kelompok geografis). Distribusi sampling berguna untuk inferensi: estimasi parameter populasi (misalnya μ) tanpa survei penuh, uji hipotesis, dan interval kepercayaan, karena lebih efisien daripada mengukur seluruh populasi besar. Dalam praktik, faktor koreksi diterapkan jika populasi terbatas (n/N>5%) untuk menyesuaikan varians.

3.3 Perbedaan Utama

Aspek Distribusi Populasi Distribusi Sampel Distribusi Sampling
Sumber Data Seluruh populasi (N elemen) Satu sampel tunggal (n elemen) Banyak sampel acak berulang (statistik seperti \(\bar{x}\))
Ukuran Variabilitas Tinggi (σ) Tinggi, mirip populasi tapi bias Rendah \(\left( \frac{\sigma}{\sqrt{n}} \right)\)
Rata-rata μ (tetap) \(\bar{x}\) (bervariasi) μ (sama dengan populasi)
Aplikasi Deskripsi penuh, jarang praktis Analisis awal satu sampel Inferensi: estimasi, uji hipotesis
Bentuk (jika n besar) Apapun Apapun Normal (Central Limit Theorem)

3.4 Distribusi Sampling Rata-Rata Sampel

Distribusi sampling rata-rata sampel memiliki rata-rata sama dengan rata-rata populasi \[\quad \mu_{\bar{x}} = \mu\] tetapi deviasi standar lebih kecil, yaitu standar error (SE): \[\sigma_{\bar{x}} = \frac{\sigma}{\sqrt{n}}\] karena rata-rata kurang bervariasi daripada observasi individu. Jika sampel cukup banyak, distribusi ini mendekati normal karena Central Limit Theorem, meskipun populasi tidak normal. Notasi untuk distribusi sampling normal adalah \[\bar{x} \sim N\left(\mu, \frac{\sigma}{\sqrt{n}}\right)\] dengan formula standarisasi \[z = \frac{\bar{x} - \mu}{\sigma / \sqrt{n}}\]

3.5 Contoh

Diketahui:

  • Tinggi orang Canada: normal, (μ = 160 cm, σ = 7 cm)
  • n = 10

Ditanya: P(rata-rata < 157)

Langkah:

\[SE = \frac{7}{\sqrt{10}} = 2.21\]

\[Z = \frac{157 - 160}{2.21} = -1.36 => 0.0869\] Maka, probabilitas rata-rata tinggi 10 orang Canada < 157 cm adalah 0.0869.

Distribusi sampling berguna untuk inferensi statistik secara efisien, seperti memperkirakan μ tanpa mengukur seluruh populasi (misalnya tinggi rata-rata 8 miliar orang), serta menghitung probabilitas berdasarkan ukuran sampel.

4 Central Limit Theorem

4.1 Pengertian

Central Limit Theorem (CLT) memprediksi bentuk distribusi sampling berdasarkan ukuran sampel. CLT mengatakan Jika ukuran sampel n cukup besar, maka sampling distribution dari mean akan berbentuk normal, terlepas dari bentuk distribusi asalnya.

Artinya :

  • Populasi awal bisa miring (skewed), tidak simetris atau tidak normal.
  • Tapi, jika n besar -> distribusi rata-rata sampel akan tetap mendekati normal.

4.2 Rumus Matematis CLT

Parameter Rumus Deskripsi
Rata-rata Sampling \(\quad \mu_{\bar{x}} = \mu\) Selalu sama dengan populasi
Standar Error \(\sigma_{\bar{x}} = \frac{\sigma}{\sqrt{n}}\) Mengecil seiring n besar
Z-Score \(z = \frac{\bar{x} - \mu}{\sigma / \sqrt{n}}\) Standarisasi untuk probabilitas
Distribusi \(\bar{x} \sim N\left(\mu, \frac{\sigma}{\sqrt{n}}\right)\) Bentuk akhir CLT

Syarat dan Batasan Lengkap

  1. Jika n ≥ 30:
  • Sampling distribution ≈ normal
  • Bisa menggunakan formula normal seperti z-score.
  1. Jika n < 30:
  • CLT tidak boleh digunakan
  • Sampling distribution belum tentu normal, namun jika populasi sudah normal dari awal meskipun n < 30 hasilnya akan tetap normal.

4.3 Contoh

Kasus: Populasi tinggi Kanada μ = 160 cm, σ = 7 cm, n = 30.

Cari P(rata-rata < 157):

\[SE = \frac{7}{\sqrt{30}} = 1.28 cm\]

\[Z = \frac{157 - 160}{1.28} = - 2.34 => 0.0096\]

Jadi, probabilitasnya yaitu 0.0096 -> 0.96%.

4.4 Aplikasi Praktis CLT

Tujuan Rumus Interval Kepercayaan 95%
Estimasi μ \(\bar{x} \pm 1.96 \times \frac{\sigma}{\sqrt{n}}\)
Margin of Error \(\text{MOE} = z \times \frac{\sigma}{\sqrt{n}}\)
Uji Hipotesis Bandingkan z dengan critical value
  • Estimasi Rata-rata, artinya jika sampel diambil berulang kali dan setiap kali dibuat interval \(\bar{x} \pm 1.96 \times \frac{\sigma}{\sqrt{n}}\) , maka setiap 95% interval tersebut akan memuat nilai rata-rata yang sebenarnya.

  • Margin of Error, artinya makin besar \({\sigma}\) atau makin kecil n, maka \({\sigma}/{\sqrt{n}}\) makin besar sehingga margin of error melebar dan interval kepercayaan menjadi kurang presisi.

  • Uji Hipotesis, di mana statistik uji z dihitung dari data dan kemudian dibandingkan dengan nilai kritis, misalnya \(\pm 1.96\) untuk uji dua sisi dengan \({\alpha}\) = 0.05

5 Sample Proportion

5.1 Pengertian

Distribusi Sampling Proporsi Sampel \(\hat{(p)}\) adalah distribusi probabilitas dari berbagai nilai \(\hat{p}\) yang mungkin dihasilkan dari pengulangan sampel acak sederhana dari populasi biner/sukses-gagal.

5.2 Rumus

  • Populasi:

\[{p} = \frac{X}{N}\]

  • Sample:

\[\hat{p} = \frac{x}{n}\]

  • Mean:

\[\mu_{\hat{p}} = p\]

  • Variance:

\[\sigma_{\hat{p}}^2 = \frac{p(1-p)}{n}\]

  • Standar Error (SE):

\[\sigma_{\hat{p}} = \sqrt{\frac{p(1-p)}{n}}\]

  • Distribusi Normal:

\[\hat{p} \sim N\left(p, \sqrt{\frac{p(1-p)}{n}}\right)\]

  • Z-Score dan Standarisasi:

\[z = \frac{\hat{p} - p}{\sqrt{\frac{p(1-p)}{n}}}\]

  • Faktor Koreksi Populasi Terbatas (n/N > 5%):

\[\sigma_{\hat{p}} = \sqrt{\frac{p(1-p)}{n}} \cdot \sqrt{\frac{N-n}{N-1}}\]

Syarat CLT Proporsi vs Mean

  • Sampling Mean: \(n \geq 10\)
  • Sampling Proporsi: \(np \geq 10, \quad nq\geq 10 {(q = 1-p)}\)

Minimum n tergantung p: Jika p = 0.1, \(n \geq 100\) (karena 100 x 0.1 = 10).

5.3 Contoh

Sebuah survei nasional menemukan bahwa 40% penduduk memiliki kebiasaan berolahraga minimal 3 kali per minggu. Kita melakukan survei acak terhadap n = 100 orang.

Pertanyaan:

  • Tentukan mean dan standard deviation dari sampling distribution
  • Periksa apakah kondisi CLT untuk proporsi terpenuhi.
  • Tentukan distribusi sampling

Diketahui:

  • 𝑝= 0.40
  • 𝑛= 100
  • 𝑞= 1−𝑝= 0.60

\[\mu_{\hat{p}} = p = 0.40\]

\[\sigma_{\hat{p}} = \sqrt{\frac{p(1-p)}{n}} = \sqrt{\frac{0.40 - 0.60}{100}} = \sqrt{\frac{0.24}{100}} = \sqrt{0.0024} ≈ 0.049\]

\[np = {100 . 0.40} = {40 \geq 10}\]

\[nq = {100 . 0.60} = {60 \geq 10}\]

Keduanya terpenuhi → distribusi \(\hat{p}\) dapat dianggap normal.

\[\hat{p} \sim N{(0.40, 0.049)}\]

6 Review Sampling Distribution

6.1 Contoh kasus

Misalnya kita memiliki sebuah toples berisi 200 kelereng hijau dan 300 kelereng biru. Jika sebuah kelereng diambil tiga kali dengan pengembalian, berapa peluang terambilnya setidaknya dua kelereng hijau?

6.2 Probabilitas dasar & Sample space

Nilai Probabilitas: \[{P(Green)} = \frac{200}{500} = 0.4\]

\[{P(Blue)} = \frac{300}{500} = 0.6\]

Outcome (Sample Space) :

  • GGG
  • GGB
  • GBG
  • GBB
  • BGG
  • BGB
  • BBG
  • BBB

Dengan 3 pengambilan, jumlah total outcome -> 2x2x2 = 8 \[{P(GGB)} = 0.4 × 0.4 × 0.6 = 0.096\]

\[{P(BBB)} = 0.6 × 0.6 × 0.6 = 0.216\]

\[{P(\geq 2G)} = {P(2G)} + {P(3G)} = 3 × 0.096 + 0.064 = 0.352 = 35.2\%\]

6.3 Distribusi Binomial

Rumus

\[P(X = k) = \binom{n}{k} \, p^k (1-p)^{n-k}\]

  • P(X = 2)
  • P(X = 3)
  • P(X = 4)
  • P(X = 5)

\[{P(\geq 2G)} = \sum_{k=2}^{5} \binom{5}{k} \, (0.4)^k (0.6)^{5-k} = 0.6634 = 66.34\%\]

  • k = 2: \[\binom{5}{2} \, (0.4)^2 (0.6)^{3} = 0.3456\]

6.4 Distribusi Sampling Proporsi

Kondisi CLT Proporsi:

\(np \geq 10, n(1 - p) \geq 10 -> 100 × 0.4 = 40 \geq 10, 60 \geq 10\)

\[\hat{p} \sim N\left(p, \sqrt{\frac{p(1-p)}{n}}\right)\]

\[{SE} = \sqrt{\frac{0.4 × 0.6}{100}} = 0.049\]

\[z = {\frac{\hat{p} - {p}}{SE}} = {\frac{0.35 - 0.4}{0.049}} = - 1.02\]

\[P(\hat{p} \geq 0.35) = P(Z \geq - 1.02) = 1 - 0.1539 = 0.8461 = 84.61\%\]

6.5 Interpretasi

1. n = 3:

  • Sample Space (Probabilitas Tepat = 0.352 atau 35.2%)
  • Insight: Ada 35.2% kemungkinan mendapat ≥ 2 hijau dalam 3 tarikan with replacement.
  • Konteks: Cocok untuk eksperimen kecil, enumerasi semua 8 outcome memungkinkan.

2. n = 5:

  • Distribusi Binomial (Probabilitas Tepat = 0.6634 atau 66.34%)
  • Interpretasi: 66.34% kemungkinan mendapat ≥ 2 hijau dalam 5 tarikan.
  • Konteks: Efisien untuk n sedang (10 kalkulasi), akurat 100%

3. n = 100:

  • CLT Proporsi (Approx = 0.8461 atau 84.61%)
  • Interpretasi: 84.61% kemungkinan \({\hat p}\) ≥ 0.35 (≥ 35 hijau dari 100).
  • Akurasi: Approx (bukan eksak), tapi sangat dekat untuk n besar.

7 References

[1] Zasendy Rehena Populasi, Sampel dan Distribusi Sampling
https://id.scribd.com/presentation/469254311/POPULASI-SAMPEL-DISTRIBUSI-SAMPLING-STANDAR-ERROR

[2] S. Andilah [2025] “EBOOK DASAR STATISTIK”

[3] Rinaldi Munir (ITB) “Beberapa Distribusi Peluang Kontinu” https://informatika.stei.itb.ac.id/~rinaldi.munir/Probstat/2010-2011/Beberapa%20Distribusi%20Peluang%20Kontinu.pdf

[4] Unikom Repository Distribusi Sampling https://repository.unikom.ac.id/32827/1/DISTRIBUSI%20SAMPLING.pdf

[5] Andi Asari, SIP., S.Kom., M.A., P.hD (C). [Juni 2023] Pengantar Statistika 1 https://www.scribd.com/document/693044474/Andi-Asari-Pengantar-Statistika-1

[6] Dendi Zainuddin Hamidi, S.T., M.M [November 2024] Statistik Dasar

[7] Introduction to Statistics. “7 Probability Distributions.” dsciencelabs. https://bookdown.org/dsciencelabs/intro_statistics/07-Probability_Distributions.html

