Tugas Week 11 ~ Probability Distributions
CHELSEA TESALONIKA PATRICIA HUTAJULU
DATA SCIENCE UNDERGRADUATE STUDENT AT INSTITUT TEKNOLOGI SAINS BANDUNG
Introduction
Probability Distribution atau distribusi probabilitas merupakan konsep penting yang menjelaskan bagaimana peluang berbagai hasil dari suatu percobaan acak tersebar. Secara sederhana, distribusi probabilitas membantu kita memahami seberapa besar kemungkinan suatu nilai muncul pada sebuah variabel acak. Distribusi ini terbagi menjadi dua jenis utama, yaitu distribusi diskrit dan distribusi kontinu. Pada distribusi diskrit, probabilitas setiap nilai tertentu dijelaskan melalui probability mass function (PMF), sementara pada distribusi kontinu probabilitasnya digambarkan melalui probability density function (PDF).
Setiap distribusi probabilitas memiliki parameter yang menentukan karakteristiknya, seperti rataan, variansi, dan tingkat penyebaran data. Pemahaman mengenai berbagai bentuk distribusi ini akan sangat membantu dalam analisis data, terutama ketika ingin memperkirakan peluang suatu kejadian, melakukan simulasi acak, atau menerapkan metode inferensi statistik seperti uji hipotesis dan pembuatan interval kepercayaan. Dengan kata lain, distribusi probabilitas menjadi dasar dalam banyak keputusan yang melibatkan ketidakpastian dan analisis berbasis data.
Material Summary
1. Continuous Random
Variabel acak kontinu (Continuous Random) adalah variabel acak yang dapat mengambil nilai pada suatu rentang tak terputus, seperti seluruh bilangan real atau interval tertentu. Karena nilainya bersifat kontinu, probabilitas pada satu titik tertentu bernilai nol, sehingga probabilitas hanya bisa dihitung pada interval melalui fungsi yang disebut probability density function (PDF).
Discrete Variables
Discrete variable (variabel diskret) adalah variabel acak yang hanya dapat mengambil nilai tertentu yang dapat dihitung (countable). Nilainya biasanya berupa bilangan bulat atau kategori yang jelas batasannya. Setiap nilai yang mungkin memiliki probabilitas tertentu yang dihitung menggunakan Probability Mass Function (PMF).
Variabel diskret digunakan untuk menggambarkan kejadian yang hasilnya terbatas atau dapat dihitung satu per satu, seperti jumlah pelanggan, hasil lemparan dadu, atau jumlah kendaraan yang lewat dalam satu menit. Untuk variabel diskret bisa menggunakan Probability Mass Function (PMF) fungsi yang memberi probabilitas masing-masing nilai spesifik.
Ciri-ciri :
Countable (terhitung) jumlah nilai yang mungkin terbatas.
Tidak ada pecahan atau desimal yang tidak masuk akal dalam konteks.
Diperoleh melalui penghitungan, bukan pengukuran.
Jumlah seluruh probabilitas harus sama dengan 1.
\[ \sum p(x) = 1 \] Contoh :
Jumlah sisi kepala saat melempar koin
Jumlah kelereng biru yang diambil dari kotak
Nilai ujian siswa
Jumlah anak dalam keluarga (0, 1, 2, 3, dst.)
Saldo rekening bank (misalnya, $420,69)
Nilai ujian (misalnya, 5 dari 10)
Continuous Variables
Variabel kontinu (Continuous Variables) adalah variabel yang dapat mengambil nilai numerik apa pun dalam suatu rentang. Untuk variabel kontinu, tidak bisa menggunakan PMF, melainkan Probability Density Function (PDF). Probabilitas bahwa variabel sama persis dengan satu nilai adalah 0 — yang dihitung adalah probabilitas variabel berada dalam rentang interval lewat integral.
Ciri-ciri :
Kemungkinan tak terbatas dan tak terhitung
Diperoleh melalui pengukuran, bukan penghitungan
Dapat diukur hingga angka desimal tak terhingga
Contoh :
Berat: 150 lbs → 150,305482… lbs
Usia: 23 tahun → 23,5 tahun → 23 tahun, 6 bulan, 2 hari, 3 detik…
Suhu
Jarak
Representasi Visual
| Jenis Variabel | Visualisasi | Fitur Utama |
|---|---|---|
| Diskrit | Diagram Batang (Bar Chart) |
|
| Kontinu | Histogram |
|
Rumus
Rumus-rumus umum untuk Discrete Random Variables:
\[ P(k) = {n \choose k} p^k (1-p)^{n-k} \]
\[ P(A \cup B) = P(A) + P(B) - P(A \cap B) \]
\[ P(A \cap B) = P(A) \times P(B) \]
\[ P(A^c) = 1 - P(A) \]
Rumus umum untuk Continuous Random Variables (luas bangun sederhana):
\[ A = L \times W \]
\[ A = \frac{b \times h}{2} \]
Variabel acak diskrit: nilai hasilnya berupa bilangan yang dapat dihitung (contoh: jumlah kemunculan sisi dadu).
Variabel acak kontinu: nilai hasilnya bisa berupa rentang nilai yang tak terbatas (contoh: tinggi badan, waktu, suhu).
| Aspek | Variabel Diskrit | Variabel Kontinu |
|---|---|---|
| Nilai | Dapat dihitung, jumlahnya terbatas | Dapat berupa nilai apa pun dalam rentang tertentu |
| Pengukuran | Menghitung | Mengukur |
| Visualisasi | Diagram batang (ada jarak antar batang) | Histogram (tanpa jarak antar batang) |
| Probabilitas | Menggunakan rumus standar | Luas di bawah kurva kepadatan |
| Contoh | Lempar koin, nilai ujian | Berat badan, usia, suhu |
1.1 Variabel Acak
Variabel acak disebut kontinu kalau nilainya bisa berupa sembarang bilangan di suatu rentang pada garis bilangan real, bukan cuma nilai yang terpisah satu per satu.
Contoh variabel acak kontinu adalah tinggi badan, waktu, suhu, usia, tekanan, dan kecepatan. Nilainya bisa sangat rinci, misalnya 160,2 cm atau 160,25 cm dan seterusnya.
Pada variabel acak kontinu, \(X\) mengambil nilai di suatu interval, misalnya \((a,b)\) atau bahkan seluruh \((-\infty, +\infty)\). Probabilitas tepat di satu titik tunggal selalu nol
\[ P(X = x) = 0 \]
Karena itu, peluang baru punya makna kalau kita hitung untuk suatu interval, misalnya dari \(a\) sampai \(b\). Jika \(f(x)\) adalah fungsi kepekatan peluang (probability density function, pdf), maka
\[ P(a \le X \le b) = \int_a^b f(x)\,dx \]
1.2 Fungsi Kepekatan Peluang (PDF)
Fungsi \(f(x)\) disebut fungsi kepekatan peluang (probability density function, PDF) yang sah kalau memenuhi dua syarat.
Pertama, nilainya tidak negatif
\[ f(x) \ge 0 \quad \text{untuk semua } x \]
Kedua, luas total kurva \(f(x)\) di seluruh garis bilangan real sama dengan 1
\[ \int_{-\infty}^{+\infty} f(x)\,dx = 1 \]
Nilai \(f(x)\) yang lebih besar berarti kerapatan peluang di sekitar \(x\) lebih tinggi. Tapi \(f(x)\) itu sendiri bukan peluang. Peluang baru kita dapat dari luas di bawah kurva \(f(x)\) pada suatu interval.
Sebagai contoh, misalkan di selang \([0,1]\) didefinisikan
\[ f(x) = 3x^2, \quad 0 \le x \le 1 \]
dan di luar selang itu
\[ f(x) = 0, \quad x < 0 \ \text{atau}\ x > 1 \]
Untuk mengecek apakah ini pdf yang valid, kita hitung luas total
\[ \int_0^1 3x^2\,dx = 1 \]
Karena hasil integralnya 1 dan \(f(x) \ge 0\) di semua \(x\), maka \(f(x) = 3x^2\) pada \([0,1]\) adalah fungsi kepekatan peluang yang valid.
1.3 Probabilitas pada Suatu Interval
Kalau \(X\) variabel acak kontinu dengan pdf \(f(x) = 3x^2\) pada \([0,1]\), maka peluang \(X\) berada di antara \(a\) dan \(b\) bisa dihitung dengan
\[ P(a \le X \le b) = \int_a^b 3x^2\,dx \]
Contohnya, untuk
\[ P(0.5 \le X \le 1) \]
kita hitung luas di bawah kurva \(f(x) = 3x^2\) dari \(x = 0{,}5\) sampai \(x = 1\). Nilai integral itu adalah besar peluang bahwa \(X\) jatuh di rentang tersebut.
1.4 Fungsi Distribusi Kumulatif (CDF)
Fungsi distribusi kumulatif (cumulative distribution function, CDF) didefinisikan sebagai
\[ F(x) = P(X \le x) \]
Jadi, untuk setiap \(x\), CDF memberi tahu berapa peluang bahwa \(X\) nilainya kurang dari atau sama dengan \(x\).
Untuk contoh pdf \(f(x) = 3x^2\) pada \([0,1]\), CDF diperoleh dengan mengintegralkan pdf dari batas bawah sampai \(x\)
\[ F(x) = P(X \le x) = \int_0^x 3t^2\,dt = x^3, \quad 0 \le x \le 1 \]
Ada hubungan langsung antara pdf dan cdf
\[ f(x) = F'(x) \]
Artinya, pdf adalah turunan dari CDF terhadap \(x\). Sebaliknya, CDF adalah hasil integral dari pdf.
2. Sampling Distributions
Distribusi sampling adalah distribusi statistik yang dibuat dari beberapa sampel acak sederhana yang diambil dari populasi tertentu. Distribusi sampel melibatkan pengambilan sampel tunggal dari suatu populasi dan menafsirkan data dari satu sampel tersebut.
Distribusi Populasi vs Distribusi Sampel
| Aspek | Distribusi Populasi | Distribusi Sampling |
|---|---|---|
| Rata-rata | \(\mu\) | \(\mu_{\bar{x}} = \mu\) |
| Simpangan baku | \(\sigma\) | \(\sigma_{\bar{x}} = \dfrac{\sigma}{\sqrt{n}}\) |
| Isi | Nilai individu | Rata-rata sampel |
| Variabilitas | Lebih besar | Lebih kecil |
Mengapa Menggunakan Sampling Distribution?
Manfaat Praktis:
- Kepraktisan: Mengukur seluruh populasi sering kali tidak mungkin dilakukan
- Efisiensi: Menghemat waktu, biaya, dan sumber daya
- Perhitungan probabilitas: Memungkinkan kita menghitung peluang mendapatkan hasil tertentu berdasarkan ukuran sampel
Contoh Soal
Soal 1: Distribusi Sampling
Diketahui: Tinggi badan orang Kanada mengikuti \(N(160, 7)\) cm.
Berapakah probabilitas bahwa rata-rata tinggi 10 orang Kanada yang
dipilih acak kurang dari 157 cm?
Langkah Penyelesaian:
Identifikasi parameter:
\(\mu = 160,\ \sigma = 7,\ n = 10\)Hitung standard error:
\[ \frac{7}{\sqrt{10}} = 2.21 \]Standarkan:
\[ z = \frac{157 - 160}{2.21} = -1.36 \]Cari probabilitas:
\[ P(z < -1.36) = 0.0869 \text{ atau } 8.69\% \]
Soal 2: Distribusi Populasi
Diketahui: Populasi yang sama \(N(160, 7)\).
Berapakah proporsi orang yang lebih tinggi dari 170 cm?
Penyelesaian:
Standarkan:
\[ z = \frac{170 - 160}{7} = 1.43 \]Cari area di kiri:
\[ P(z < 1.43) = 0.9236 \]Cari area di kanan:
\[ 1 - 0.9236 = 0.0764\ \text{atau}\ 7.64\% \]
3. Central Limit Theorem
Distribusi sampel melibatkan pengambilan sampel berulang kali dari suatu populasi, menghitung statistik untuk setiap sampel individu, dan menggabungkan informasi tersebut untuk membuat distribusi. Teorema Batas Pusat memprediksikan bentuk distribusi sampel berdasarkan ukuran sampel.
Teorema Limit Pusat adalah salah satu konsep paling fundamental dalam statistika inferensial. CLT menjelaskan bagaimana bentuk distribusi sampling (sampling distribution) akan berperilaku ketika ukuran sampel semakin besar, meskipun data asal (population distribution) tidak berdistribusi normal.
Contoh soal :
Untuk setiap distribusi populasi yang dijelaskan di bawah ini, opsi manakah yang akan menghasilkan distribusi sampling yang kira-kira normal?
distribusi populasi rektangular, ukuran sampel 15
distribusi populasi bimodal, ukuran sampel 29
distribusi populasi miring (skewed), ukuran sampel 40
distribusi populasi segitiga (triangular), ukuran sampel 35
distribusi populasi normal, ukuran sampel 20
distribusi populasi normal, ukuran sampel 30
jawab :
populasi rektangular, n = 15:
Ukuran sampel terlalu kecil (< 30) untuk memastikan kenormalan distribusi sampling jika populasi aslinya tidak normal.populasi bimodal, n = 29:
Ukuran sampel masih di bawah ambang batas umum 30, sehingga belum tentu normal.populasi miring (skewed), n = 40:
Ukuran sampel ini cukup besar (≥ 40) untuk mengatasi kemiringan populasi dan menghasilkan distribusi sampling yang kira-kira normal.populasi segitiga (triangular), n = 35:
Ukuran sampel (≥ 30) cukup besar untuk populasi non-normal (seperti segitiga) agar distribusi samplingnya menjadi normal.populasi normal, n = 20:
Karena populasi aslinya sudah normal, distribusi samplingnya juga akan normal, terlepas dari ukuran sampelnya.populasi normal, n = 30:
Populasi aslinya normal dan ukuran sampelnya juga besar (≥ 30), sehingga distribusi samplingnya pasti normal.
Aturan umum Central Limit Theorem
Sampel kecil ( n < 30) :
Variabilitas lebih tinggi
Presisi lebih rendah
Resiko lebih besar untuk sampel yang tidak biasa secara kebetulan
Tidak dapat menerapkan CLT dengan andal
Sampel besar (n > 30) :
Stabilitas lebih tinggi
Presisi lebih baik
Dapat menerapkan CLT dengan percaya diri
Visualisasi
library(ggplot2)
library(ggpubr)
set.seed(123)
# Populasi skewed
populasi <- rexp(100000, rate = 1/10)
ambil_mean <- function(n, reps = 3000){
replicate(reps, mean(sample(populasi, n, replace = TRUE)))
}
mean_n100 <- ambil_mean(100)
# Plot 1: Populasi
plot_populasi <- ggplot(data.frame(x = populasi), aes(x)) +
geom_histogram(aes(y = ..density..),
bins = 60, fill = "lightblue", color = "white") +
geom_density(color = "darkblue", size = 1.2) +
labs(title = "Distribusi Populasi Asli (Miring)",
x = "Nilai", y = "Densitas") +
theme_minimal(base_size = 14)
# Plot 2: Sampling n=100
plot_sampling <- ggplot(data.frame(x = mean_n100), aes(x)) +
geom_histogram(aes(y = ..density..),
bins = 40, fill = "blue", color = "white") +
geom_density(color = "navy", size = 1.3) +
labs(title = "Distribusi Sampling Rata-rata (Normal)",
x = "Rata-rata Sampel", y = "Densitas") +
theme_minimal(base_size = 14)
# Gabungkan
ggarrange(plot_populasi, plot_sampling,
ncol = 2,
labels = "AUTO")4. Sample Proportion
Sampling distribution
Sampling distribution merupakan distribusi probabilitas yang diperoleh dari nilai-nilai suatu statistik yang dihitung melalui pengambilan sampel secara berulang dari sebuah populasi. Pada setiap sampel yang diambil, dihitung satu statistik tertentu—seperti rata-rata sampel (\(\bar{x}\)) atau proporsi sampel (\(\hat{p}\)). Nilai-nilai statistik dari seluruh sampel tersebut kemudian dikompilasi dan disajikan dalam bentuk grafik sehingga membentuk sebuah distribusi.
Proportion
Proporsi adalah ukuran yang menggambarkan perbandingan antara jumlah kejadian yang memenuhi kriteria tertentu dengan jumlah keseluruhan kejadian. Secara umum, proporsi dihitung dengan membagi jumlah kejadian yang memenuhi syarat dengan total kejadian. Dalam statistika, proporsi populasi dilambangkan dengan \(p\), sedangkan proporsi sampel dilambangkan dengan \(\hat{p}\). Sebagai contoh, jika 2 dari 10 orang dalam sebuah sampel memiliki mata berwarna hijau, maka proporsi sampelnya adalah \(\hat{p} = \frac{2}{10} = 0{.}2\).
Central Limit Theorem Conditions untuk Proporsi Sampel
Untuk distribusi sampling dari proporsi sampel \(\hat{p}\), Central Limit Theorem (CLT) bisa dipakai jika dua syarat berikut terpenuhi.
tabel_clt <- data.frame(
Kondisi = c("Kondisi 1", "Kondisi 2"),
Kebutuhan = c(
"$np \\ge 10$",
"$n(1-p) \\ge 10$"
)
)
knitr::kable(
tabel_clt,
escape = FALSE,
col.names = c("Kondisi", "Kebutuhan"),
align = c("l", "c"),
caption = "Syarat CLT untuk distribusi sampling proporsi sampel \\(\\hat{p}\\)"
)| Kondisi | Kebutuhan |
|---|---|
| Kondisi 1 | \(np \ge 10\) |
| Kondisi 2 | \(n(1-p) \ge 10\) |
5. Review Sampling Distribution
Probabilitas Binomial & Distribusi Sampling
Pengaturan Probabilitas Dasar
Skenario: Sebuah toples berisi 200 kelereng hijau dan 300 kelereng biru (total 500 kelereng).
- Probabilitas sukses (mengambil kelereng hijau):
\[ P(\text{hijau}) = \frac{200}{500} = 0.4 \]
- Probabilitas gagal (mengambil kelereng biru):
\[ P(\text{biru}) = \frac{300}{500} = 0.6 \]
Kasus 1: Tiga Kali Pengambilan dengan Pengembalian
Pertanyaan:
Berapa probabilitas mendapatkan minimal 2 kelereng hijau dalam 3 kali
pengambilan, dengan setiap kelereng yang diambil dikembalikan lagi ke
dalam toples?
Pendekatan Ruang Sampel :
1.Urutankan semua hasil yang mungkin (misalnya: GGB, BGB, BBG, GGG,
dan seterusnya),
di mana G = hijau, B = biru.
- Hitung probabilitas tiap urutan dengan mengalikan probabilitas tiap kejadian:
Contoh:
\[ P(\text{GGB}) = 0.4 \times 0.4 \times 0.6 = 0.096 \]
\[ P(\text{BBB}) = 0.6 \times 0.6 \times 0.6 = 0.216 \]
“Minimal 2 kelereng hijau” berarti kejadian berikut:
Tepatnya 2 kelereng hijau
Tepatnya 3 kelereng hijau
Probabilitas total untuk kejadian ini dapat diperoleh dengan menjumlahkan probabilitas semua urutan yang mengandung tepat 2 G dan tepat 3 G.
Perhitungan Kasus 1 (lanjutan) :
Tepatnya 2 hijau: \(3 \times 0.096 = 0.288\)
Tepatnya 3 hijau: \(0.4 \times 0.4 \times 0.4 = 0.064\)
Probabilitas total: \(0.288 + 0.064 = 0.352\)
Kasus 2: Lima Kali Pengambilan dengan Pengembalian
Jika ruang sampel sudah terlalu besar, kita bisa memakai rumus binomial.
Pendekatan Rumus Binomial:
Rumus binomial menghitung probabilitas tepat \(k\) sukses dalam \(n\) percobaan:
\[ P(X = k) = C(n, k) \times p^k \times (1 - p)^{n-k} \]
dengan:
\(n = 5\) (banyaknya percobaan/pengambilan)
\(p = 0.4\) (probabilitas sukses = mengambil kelereng hijau)
\(k\) = banyaknya sukses (banyak kelereng hijau)
“Minimal 2 hijau” untuk 5 kali pengambilan berarti menghitung
untuk
\(k = 2, 3, 4, 5\) lalu
menjumlahkannya.
Contoh nilai (sesuai ilustrasi):
\(P(X = 2) = 0.3456\)
\(P(X = 3),\ P(X = 4),\ P(X = 5)\) dihitung dengan rumus yang sama
Jawaban akhir: jumlah seluruh probabilitas tersebut adalah
\[ \text{Sum} = 0.6634 \]
Kasus 3: 100 Pengambilan – Pendekatan Normal
Ketika ruang sampel dan rumus binomial sudah tidak praktis, kita bisa
menggunakan
distribusi sampling proporsi sampel dan pendekatan
normal.
Syarat Central Limit Theorem (CLT) :
\(n \times p \ge 10:\quad 100 \times 0.4 = 40 \ge 10 \ \checkmark\)
\(n \times (1-p) \ge 10:\quad 100 \times 0.6 = 60 \ge 10 \ \checkmark\)
Rumus standardisasi untuk proporsi
\[ z = \frac{\hat{p} - p}{\sqrt{\dfrac{p(1-p)}{n}}} \]
Dengan:
\(\hat{p} = 0.35\) (proporsi minimum yang kita minati)
\(p = 0.4\) (proporsi populasi sebenarnya)
\(n = 100\) (ukuran sampel)
Perhitungan :
\[ z = \frac{0.35 - 0.4}{\sqrt{\dfrac{0.4 \times 0.6}{100}}} = \frac{-0.05}{\sqrt{0.0024}} \approx -1.02 \]
Menentukan probabilitas
Luas di sebelah kiri \(z = -1.02\) adalah \(0.1539\).
“Minimal 35 kelereng hijau” = luas di sebelah kanan nilai 35, yaitu
\[ 1 - 0.1539 = 0.8461 \quad \text{atau } 84.61\% \]
Ringkasan Utama
library(knitr)
tabel_ringkasan <- data.frame(
Metode = c("Sample Space", "Rumus Binomial", "Pendekatan Normal"),
"Kapan Dipakai" = c(
"n kecil (n ≤ 3)",
"n sedang (n ≈ 10–20)",
"n besar (n ≥ 30)"
),
"Jenis Hasil" = c(
"Tepat (exact)",
"Tepat (exact)",
"Mendekati (approximate)"
),
check.names = FALSE
)
kable(
tabel_ringkasan,
align = c("l", "c", "c"),
caption = "Ringkasan pemilihan metode perhitungan probabilitas"
)| Metode | Kapan Dipakai | Jenis Hasil |
|---|---|---|
| Sample Space | n kecil (n ≤ 3) | Tepat (exact) |
| Rumus Binomial | n sedang (n ≈ 10–20) | Tepat (exact) |
| Pendekatan Normal | n besar (n ≥ 30) | Mendekati (approximate) |
Reference
[1] Siregar, B. (n.d.). Introduction to statistics: Chapter 7: Probability Distribution. dsciencelabs. https://bookdown.org/dsciencelabs/intro_statistics/07-Probability_Distributions.html
[2] Ross, S. M. (2019). A first course in probability (10th ed.). Pearson. https://www.pearson.com/en-us/subject-catalog/p/first-course-in-probability-a/P200000006334/9780137504589
[3 Hogg, R. V., McKean, J. W., & Craig, A. T. (2019). Introduction to mathematical statistics (8th ed.). Pearson. https://www.pearson.com/en-us/subject-catalog/p/introduction-to-mathematical-statistics/P200000006211/9780137530687
[5] Evans, M. J., & Rosenthal, J. S. (2004). Probability and statistics: The science of uncertainty. W. H. Freeman. https://probability.ca/jeff/probstatbook.html