7 Probality Distribution
M.Fitrah Aidil Harahap
Student Majoring in Data Science
1 Pendahuluan
Probabilitas tidak hanya membantu kita memahami seberapa besar kemungkinan suatu peristiwa terjadi, tetapi juga membentuk dasar dari banyak metode statistik yang digunakan untuk pengambilan keputusan. Ketika suatu proses atau eksperimen menghasilkan berbagai hasil, kita menggunakan variabel acak untuk mewakili hasil tersebut dan distribusi probabilitas untuk menjelaskan bagaimana probabilitas ditetapkan untuk setiap nilai yang mungkin. Memahami bentuk dan sifat distribusi sangat penting karena menentukan bagaimana data berperilaku, bagaimana kita menghitung probabilitas, dan bagaimana kita membuat prediksi. Dari distribusi untuk variabel kontinu hingga perilaku statistik seperti rata-rata sampel, distribusi probabilitas berfungsi sebagai inti dari statistik inferensial
Materi ini akan memandu Anda melalui beberapa konsep utama:
- Variabel Acak Kontinu untuk variabel kontinyu, yang menggambarkan kemungkinan nilai pada rentang kontinyu.
- Distribusi sampel, yang mewakili distribusi statistik sampel seperti rata-rata sampel atau proporsi sampel
- Teorema Batas Pusat (CLT), salah satu hasil terpenting dalam statistik. menjelaskan mengapa distribusi rata-rata sampel cenderung normal terlepas dari bentuk dasar populasi.
- Distribusi proporsi sampel, banyak digunakan dalam analisis survei dan penelitian kuantitatif.
Setiap bagian dilengkapi dengan penjelasan video untuk meningkatkan pemahaman konseptual. Dengan menguasai topik-topik ini, Anda akan lebih siap menganalisis data. membangun model statistik, dan menarik kesimpulan berdasarkan prinsip-prinsip probabilistik yang kuat
2 Continuous Random
Memahami dasar-dasar ini akan memberikan landasan yang kuat saat kita beralih ke topik utama video ini: Variabel Acak Kontinu dan Distribusi Probabilitasnya.
A. Variabel Diskret (Discrete Variables)
Definisi: Variabel yang nilainya dapat dihitung (countable). Nilainya terbatas (finit).
Contoh: Jumlah anak (bukan setengah anak), nilai ujian, atau jumlah uang di rekening.
B. Variabel Kontinu (Continuous Variables)
Definisi: Variabel yang nilainya diperoleh melalui pengukuran dan dapat mengambil nilai numerik apa pun dalam rentang tertentu.
Sifat: Memiliki kemungkinan nilai yang tidak terhingga (uncountable). Contohnya, usia atau berat dapat diperinci hingga tingkat desimal tak terbatas.
Untuk memahami variabel acak kontinu, penting untuk mengetahui bagaimana probabilitas direpresentasikan menggunakan Fungsi Kepadatan Probabilitas (PDF). Tidak seperti variabel acak diskrit, variabel acak kontinu tidak menetapkan probabilitas ke titik-titik individual. Sebaliknya, probabilitas diperoleh dari luas area di bawah kurva PDF.
2.1 Random Variabel
Karakteristik Utama:
Suatu variabel acak dikatakan kontinu jika dapat mengambil nilai apa pun dalam suatu interval pada garis bilangan riil.
- Variabel mengambil nilai dalam interval seperti (a, b) atau bahkan: \((−∞, +∞).\)
Contohnya meliputi: tinggi, waktu, suhu, usia, tekanan, dan kecepatan.
Probabilitas setiap titik tunggal selalu nol: \[𝑃 (𝑋 = 𝑥) = 0 \]
Probabilitas hanya bermakna pada interval: \[𝑃(𝑎 ≤ 𝑋 ≤ 𝑏) =\int_ {a}^{b}𝑓(𝑥) dx \]
2.1.1 Probability Density Funct.
Fungsi 𝑓(𝑥) merupakan Fungsi Kepadatan Probabilitas (PDF) yang valid jika memenuhi:
1. Non-negativity:
\[ 𝑓(𝑥) ≥ 0 ∀𝑥 \] 2. Luas Total Sama Dengan:
\[ \int_ {-∞}^{∞}𝑓(𝑥) 𝑑𝑥 = 1\]
Interpretation: - Nilai 𝑓(𝑥) yang lebih besar menunjukkan kepadatan probabilitas yang lebih tinggi di sekitar nilai tersebut.
- Namun, 𝑓(𝑥) bukan probabilitas; probabilitas berasal dari area di bawah
Contoh PDF: \[𝑓(𝑥) = 3𝑥^2 on [0, 1]\] Pertimbangkan fungsi kepadatan probabilitas: \[𝑓(𝑥) = 3𝑥^2, 0 ≤ 𝑥 ≤ 1\]
Contoh: \[\int_{0}^{1}3𝑥^2𝑑𝑥 = 1\]
2.1.2 Probability on an Interval
Untuk menghitung probabilitas dalam suatu interval: \[𝑃(𝑎 ≤ 𝑋 ≤ 𝑏) = \int_{a}^{b}3𝑥^2 𝑑\]
Contoh: \[𝑃(0.5 ≤ 𝑋 ≤ 1)\]
2.1.3 Cumulative Distribution Funct.
Fungsi Distribusi Kumulatif (CDF) didefinisikan sebagai: \[𝐹(𝑥) = 𝑃 (𝑋 ≤ 𝑥) = \int_ {0}^{𝑥}3𝑡^2 𝑑𝑡 = 𝑥^3\]
Hubungan antara PDF dan CDF: \[𝑓(𝑥) = 𝐹′(𝑥)\]
3 Sampling Distribution
Sebelum membahas konsep distribusi sampling secara lebih mendalam, video ini memberikan penjelasan visual yang jelas tentang bagaimana statistik seperti rata-rata sampel berperilaku ketika diambil berulang kali dari populasi yang sama. Video ini menawarkan dasar intuitif untuk memahami variabilitas, ketidakpastian, dan mengapa distribusi sampling penting dalam inferensi statistik. Silakan tonton video di bawah ini sebelum melanjutkan materi.
3.1 Perbedaan Tiga Distribusi Dasar
Dalam statistik, penting untuk membedakan antara tiga jenis distribusi data:
1. Distribusi Populasi: Distribusi pengukuran dari SEMUA unit observasi yang membentuk populasi secara keseluruhan.
- Parameter: Rata-rata (\(\mu\)) dan Simpangan Baku (\(\sigma\)).
2. Distribusi Sampel (Sample Distribution): Distribusi pengukuran dari SATU sampel tunggal yang diambil dari populasi. Distribusi ini hanya memberikan informasi terbatas karena variabilitasnya tinggi.
- Statistik: Rata-rata Sampel (\(\bar{x}\)) dan Simpangan Baku Sampel (\(s\)).
3. Distribusi Sampling (Sampling Distribution): Distribusi probabilitas dari suatu statistik (misalnya, rata-rata sampel \(\bar{x}\)) yang diperoleh dengan mengambil semua kemungkinan sampel acak sederhana dengan ukuran yang sama (\(n\)) secara berulang kali dari suatu populasi.
3.1.1 Distribusi Sampling Rata-rata Sampel (\(\bar{x}\))
Distribusi Sampling Rata-rata Sampel (\(\bar{x}\)) adalah distribusi yang terbentuk dari rata-rata (\(\bar{x}\)) setiap sampel yang diambil. Karakteristik utamanya diatur oleh dua sifat berikut:
A. Rata-rata Distribusi Sampling (Mean of the Sampling Distribution)
Rumus: \[\mu_{\bar{x}} = \mu\]
interpretasi:
Rata-rata dari distribusi sampling rata-rata sampel (\(\mu_{\bar{x}}\)) adalah SAMA dengan rata-rata populasi (\(\mu\)). Ini menunjukkan bahwa rata-rata sampel (\(\bar{x}\)) adalah penduga tak bias (unbiased estimator) untuk rata-rata populasi.
B. Simpangan Baku Distribusi Sampling (Standard Error of the Mean)
Simpangan baku dari distribusi sampling memiliki nama khusus, yaitu Galat Baku (Standard Error).
Rumus:\[\sigma_{\bar{x}} = \frac{\sigma}{\sqrt{n}}\]
Interpretasi:
Galat Baku (\(\sigma_{\bar{x}}\)) berbanding lurus dengan simpangan baku populasi (\(\sigma\)) dan berbanding terbalik dengan akar kuadrat dari ukuran sampel (\(n\)). Semakin besar ukuran sampel (\(n\)), semakin kecil Galat Baku (\(\sigma_{\bar{x}}\)). Ini berarti distribusi sampling akan semakin sempit (variabilitas rendah) dan rata-rata sampel akan semakin terkonsentrasi di sekitar rata-rata populasi (\(\mu\)).
3.1.2 Teorema Limit Pusat (Central Limit Theorem/CLT)
Ini adalah prinsip kunci yang mendukung penggunaan Distribusi Sampling: Jika populasi sudah berdistribusi normal, maka distribusi sampling rata-rata sampel (\(\bar{x}\)) akan berdistribusi normal untuk ukuran sampel (\(n\)) berapapun.
Jika populasi TIDAK berdistribusi normal, maka distribusi sampling rata-rata sampel (\(\bar{x}\)) akan cenderung berdistribusi normal asalkan ukuran sampel (\(n\)) cukup besar (umumnya \(n \ge 30\) dianggap cukup).
3.1.3 Rumus Standardisasi untuk Menghitung Probabilitas
Untuk menghitung probabilitas bahwa rata-rata sampel (\(\bar{x}\)) akan berada dalam rentang nilai tertentu, kita menggunakan rumus nilai Z (Z-score) untuk distribusi sampling:
Rumus:\[Z = \frac{\bar{x} - \mu}{\sigma_{\bar{x}}} \quad \text{atau} \quad Z = \frac{\bar{x} - \mu}{\sigma/\sqrt{n}}\]
Interpretasi: Nilai Z mengukur sejauh mana rata-rata sampel yang diamati (\(\bar{x}\)) menyimpang dari rata-rata populasi (\(\mu\)), diukur dalam satuan Galat Baku (\(\sigma_{\bar{x}}\)).Setelah \(Z\) dihitung, kita dapat menggunakan Tabel Z (atau kalkulator statistik) untuk menemukan luas di bawah kurva normal (yaitu, probabilitas) yang sesuai dengan nilai \(\bar{x}\) tersebut.
# --- 1. Definisi Parameter dan Simulasi ---
# Mengatur layout plot menjadi 1 baris, 3 kolom
par(mfrow = c(1, 3))
# Parameter Populasi (Distribusi Eksponensial, μ = 5)
lambda <- 0.2
mu_populasi <- 1/lambda
jumlah_simulasi <- 10000
n_sampel_kecil <- 15
n_sampel_besar <- 30
# --- Menghasilkan Data untuk Plot ---
# Data Populasi
data_populasi <- rexp(50000, rate = lambda)
# Data Distribusi Sampel Tunggal (n=15)
data_sampel_tunggal <- rexp(n_sampel_kecil, rate = lambda)
rata_rata_sampel_tunggal <- mean(data_sampel_tunggal)
# Data Distribusi Sampling (n=30)
rata_rata_sampling <- numeric(jumlah_simulasi)
for (i in 1:jumlah_simulasi) {
sampel <- rexp(n_sampel_besar, rate = lambda)
rata_rata_sampling[i] <- mean(sampel)
}
# --- 2. Visualisasi Plot ---
# Plot 1: Distribusi Populasi (Miring)
hist(data_populasi,
main = "1. Distribusi Populasi (Miring)",
xlab = "Nilai",
freq = FALSE,
col = "#FFA07A", # Warna Oranye
border = "white",
xlim = c(0, max(data_populasi) * 0.5))
# Garis Rata-rata Populasi (μ)
abline(v = mu_populasi, col = "red", lwd = 2)
# Plot 2: Distribusi Sampel Tunggal (n=15)
hist(data_sampel_tunggal,
main = paste("2. Distribusi Sampel Tunggal (n=", n_sampel_kecil, ")"),
xlab = "Nilai",
freq = FALSE,
col = "#87CEEB", # Warna Biru Muda
border = "white",
xlim = c(0, max(data_populasi) * 0.5))
# Garis Rata-rata Sampel (x_bar)
abline(v = rata_rata_sampel_tunggal, col = "blue", lwd = 2, lty = 2)
# Garis Rata-rata Populasi (μ)
abline(v = mu_populasi, col = "red", lwd = 2)
# Plot 3: Distribusi Sampling (n=30)
hist(rata_rata_sampling,
main = paste("3. Distribusi Sampling (n=", n_sampel_besar, ")"),
xlab = "Rata-rata Sampel",
freq = FALSE,
col = "#90EE90", # Warna Hijau Muda
border = "white",
xlim = c(0, max(data_populasi) * 0.5))
# Garis Rata-rata Populasi (μ = μ_x_bar)
abline(v = mu_populasi, col = "red", lwd = 2)
# Menambahkan kurva normal
curve(dnorm(x, mean=mean(rata_rata_sampling), sd=sd(rata_rata_sampling)),
col="darkgreen", lwd=2, add=TRUE)Distribusi Populasi
Bentuk: Plot pertama menunjukkan bentuk asli populasi, yaitu Distribusi Eksponensial, yang sangat miring (skewed) ke kanan.
Inti: Ini adalah distribusi dari setiap nilai individu dalam populasi. Rata-ratanya ditunjukkan oleh garis merah (\(\mu=5\)).
Distribusi Sampel Tunggal
Bentuk: Plot kedua menunjukkan hasil dari satu kali pengambilan sampel (hanya 15 titik data). Distribusinya sangat tidak beraturan dan tidak mencerminkan populasi maupun distribusi teoritis.
Inti: Distribusi ini memiliki Rata-rata Sampel (\(\bar{x}\)) (garis biru putus-putus) yang mungkin dekat, namun sering kali berbeda dari \(\mu\). Distribusi ini memiliki variabilitas tinggi.
Distribusi Sampling Rata-rata Sampel
Bentuk: Plot ketiga adalah hasil dari 10.000 kali pengambilan sampel dengan ukuran \(n=30\), dan memplot rata-rata dari setiap sampel. Meskipun populasi awalnya miring, plot ini berbentuk kurva lonceng yang simetris (Distribusi Normal).
Inti:
Teorema Limit Pusat (CLT): Bentuknya normal karena ukuran sampel (\(n=30\)) sudah besar.
Rata-rata: Rata-rata dari semua rata-rata sampel (\(\mu_{\bar{x}}\)) jatuh tepat pada rata-rata populasi (\(\mu=5\), garis merah).
Variabilitas (Standard Error): Distribusinya jauh lebih sempit dibandingkan Plot 1 dan 2. Ini menunjukkan bahwa rata-rata sampel (khususnya dari sampel besar) adalah perkiraan yang sangat andal dan memiliki variasi yang kecil.
4 Central Limit Theorema
4.1 Teorema Limit Pusat
Teorema Limit Pusat (CLT) adalah pondasi dari statistika inferensial modern. Teorema ini menjawab pertanyaan mendasar tentang bentuk distribusi statistik sampel.
4.1.1 Pernyataan dan Konsep
A. Teorema Limit Pusat (CLT) CLT menyatakan bahwa jika sampel acak berukuran \(n\) yang cukup besar diambil berulang kali dari populasi dengan rata-rata \(\mu\) dan simpangan baku \(\sigma\), maka Distribusi Sampling dari rata-rata sampel (\(\bar{x}\)) akan berbentuk mendekati Distribusi Normal, terlepas dari bentuk asli distribusi populasi.
B. Rumus Parameter Distribusi Sampling Berdasarkan CLT, parameter dari distribusi sampling rata-rata sampel (\(\bar{x}\)) adalah:
Rata-rata Distribusi Sampling (\(\mu_{\bar{x}}\)):
\[\mu_{\bar{x}} = \mu\] Interpretasi: Rata-rata dari semua rata-rata sampel sama dengan rata-rata populasi. Ini menunjukkan bahwa \(\bar{x}\) adalah penduga tak bias (unbiased estimator) untuk \(\mu\).
Galat Baku (Standard Error, \(\sigma_{\bar{x}}\)):
\[\sigma_{\bar{x}} = \frac{\sigma}{\sqrt{n}}\] Interpretasi: Semakin besar ukuran sampel (\(n\)), semakin kecil Galat Baku (\(\sigma_{\bar{x}}\)). Ini berarti distribusi sampling menjadi lebih sempit dan rata-rata sampel semakin terkonsentrasi di sekitar \(\mu\), yang meningkatkan presisi estimasi.
Standarisasi (Nilai Z) untuk Distribusi Sampling
Untuk menghitung probabilitas rata-rata sampel:
\[Z = \frac{\bar{x} - \mu}{\sigma/\sqrt{n}}\] Interpretasi: Nilai \(Z\) mengukur seberapa jauh \(\bar{x}\) dari \(\mu\), diukur dalam satuan Galat Baku. Formula ini hanya valid jika distribusi sampling dianggap normal (berdasarkan CLT).
4.1.2 Aturan Penerapan (Rule of Thumb)
Aturan Dasar: Distribusi sampling akan dianggap mendekati normal jika ukuran sampel \(n \ge 30\). Syarat ini berlaku jika bentuk populasi aslinya tidak diketahui atau tidak normal (misalnya, miring/skewed) [Kwak & Kim, 2017; Islam, 2018].
Pengecualian: Jika populasi awal sudah diketahui berdistribusi normal, maka distribusi sampling akan normal untuk ukuran sampel berapapun (\(n\)).
# --- 1. Konfigurasi Awal dan Parameter ---
# Mengatur tata letak plot menjadi 1 baris, 3 kolom
par(mfrow = c(1, 3), mar = c(4, 4, 3, 1))
# Parameter Populasi (Distribusi Eksponensial: μ = 5)
lambda <- 0.2
mu_populasi <- 1/lambda
jumlah_simulasi <- 10000
n_sampel_kecil <- 15 # Ukuran sampel tunggal
n_sampel_besar <- 30 # Ukuran sampel untuk Distribusi Sampling (CLT)
# --- 2. Menghasilkan Data untuk Plot ---
# Data Populasi
data_populasi <- rexp(50000, rate = lambda)
# Data Distribusi Sampel Tunggal (Satu sampel acak n=15)
data_sampel_tunggal <- rexp(n_sampel_kecil, rate = lambda)
# Data Distribusi Sampling (Rata-rata dari 10.000 sampel n=30)
rata_rata_sampling <- numeric(jumlah_simulasi)
for (i in 1:jumlah_simulasi) {
sampel <- rexp(n_sampel_besar, rate = lambda)
rata_rata_sampling[i] <- mean(sampel)
}
# --- 3. Visualisasi Plot (Tiga Distribusi) ---
x_limit <- c(0, max(data_populasi) * 0.4)
# Plot 1: Distribusi Populasi
hist(data_populasi,
main = "1. Distribusi Populasi\n(Miring ke Kanan, μ = 5)",
xlab = "Nilai",
freq = FALSE,
col = "#FFA07A",
border = "white",
xlim = x_limit,
ylim = c(0, 0.25))
# Garis Rata-rata Populasi (μ)
abline(v = mu_populasi, col = "red", lwd = 2)
# Plot 2: Distribusi Sampel Tunggal (n=15)
hist(data_sampel_tunggal,
main = paste("2. Distribusi Sampel Tunggal\n(n=", n_sampel_kecil, ")"),
xlab = "Nilai",
freq = FALSE,
col = "#87CEEB",
border = "white",
xlim = x_limit,
ylim = c(0, 0.25))
abline(v = mu_populasi, col = "red", lwd = 2)
# Plot 3: Distribusi Sampling (n=30)
hist(rata_rata_sampling,
main = paste("3. Distribusi Sampling\n(n=", n_sampel_besar, ") - Normal"),
xlab = "Rata-rata Sampel",
freq = FALSE,
col = "#90EE90",
border = "white",
xlim = x_limit,
ylim = c(0, 1.2))
# Garis Rata-rata Populasi (μ = μ_x_bar)
abline(v = mu_populasi, col = "red", lwd = 2)
# Menambahkan kurva normal (lonceng)
curve(dnorm(x, mean=mean(rata_rata_sampling), sd=sd(rata_rata_sampling)),
col="darkgreen", lwd=2, add=TRUE)5 Sample Proportion
5.1 Konsep Dasar Proporsi
A. Definisi Proporsi:
Proporsi Populasi (\(p\)): Merupakan fraksi atau persentase hasil yang berhasil atau diinginkan dalam seluruh populasi
Proporsi Sampel (\(\hat{p}\)): Merupakan fraksi hasil yang berhasil dalam satu sampel yang diambil dari populasi. Nilai \(\hat{p}\) digunakan sebagai penduga (estimator) untuk \(p\)
\[\hat{p} = \frac{\text{Jumlah Hasil Berjaya (X)}}{\text{Saiz Sampel (n)}}\]
B. Distribusi Sampling Proporsi Sampel
Distribusi Sampling Proporsi Sampel (\(\hat{p}\)) adalah distribusi probabilitas yang terdiri dari semua nilai \(\hat{p}\) yang mungkin dari semua sampel acak berukuran \(n\) yang sama yang dapat ditarik dari populasi yang sama. Distribusi ini berfungsi sebagai jembatan untuk membuat kesimpulan (inferensi) tentang \(p\) populasi.
5.1.1 Parameter Distribusi Sampling dan CLT
Menurut Teorema Limit Pusat untuk Proporsi, jika kondisi tertentu terpenuhi, distribusi sampling \(\hat{p}\) akan mendekati Distribusi Normal. Parameter dari distribusi normal ini adalah:
Rata-rata Distribusi Sampling \(\mu_{\hat{p}}\)\(\mu_{\hat{p}} = p\) Rata-rata dari semua proporsi sampel sama dengan proporsi populasi sejati.
Simpangan Baku / Galat Baku \(\sigma_{\hat{p}}\)\(\sigma_{\hat{p}} = \sqrt{\frac{p(1-p)}{n}}\) Mengukur sebaran dari \(\hat{p}\). Galat baku mengecil seiring bertambahnya saiz sampel (\(n\)), menunjukkan \(\hat{p}\) yang lebih presisi.
5.1.2 Kondisi Normalitas (Aproksimasi Normal)
Penggunaan Distribusi Normal (dan formula Z-skor) untuk Distribusi Sampling \(\hat{p}\) hanya valid jika saiz sampel (\(n\)) cukup besar, yang diverifikasi melalui dua kondisi berikut:
1. \(n p \ge 10\) Jumlah hasil yang berhasil (expected successes) harus minimal 10.
2. \(n (1-p) \ge 10\) Jumlah hasil yang tidak berhasil (expected failures) juga harus minimal 10.
Jika kedua kondisi ini terpenuhi, kita dapat menggunakan Z-skor untuk menghitung probabilitas \(\hat{p}\): \[Z = \frac{\hat{p} - p}{\sigma_{\hat{p}}} = \frac{\hat{p} - p}{\sqrt{\frac{p(1-p)}{n}}}\]
proses pengambilan sampel berulang dan memvisualisasikan bagaimana distribusi dari proporsi sampel (\(\hat{p}\)) membentuk kurva Normal (sesuai Teorema Limit Pusat/CLT).
# --- 1. Definisikan Parameter ---
p_populasi <- 0.6 # Proporsi Populasi (p)
n_sampel <- 50 # Ukuran Sampel (n)
n_simulasi <- 10000 # Jumlah Simulasi Pengambilan Sampel
# --- 2. Perhitungan Teoritis ---
# Rata-rata Distribusi Sampling: mu_p_hat = p
mu_p_hat <- p_populasi
# Galat Baku (Standard Error): sigma_p_hat = sqrt(p(1-p)/n)
sigma_p_hat <- sqrt(p_populasi * (1 - p_populasi) / n_sampel)
# --- 3. Simulasi Pengambilan Sampel Berulang ---
proporsi_sampling <- numeric(n_simulasi)
suppressWarnings({
for (i in 1:n_simulasi) {
# rbinom menghasilkan jumlah sukses (X) dari n ulangan
jumlah_sukses <- rbinom(1, size = n_sampel, prob = p_populasi)
# Proporsi sampel (p_hat)
proporsi_sampling[i] <- jumlah_sukses / n_sampel
}
})
# --- 4. Visualisasi ---
# Mengatur margin plot yang aman
par(mar = c(5, 4, 4, 2) + 0.1)
hist(proporsi_sampling,
main = paste("Distribusi Sampling Proporsi Sampel (n =", n_sampel, ")"),
xlab = "Proporsi Sampel (p̂)",
ylab = "Densitas",
freq = FALSE, # Menggunakan densitas agar bisa ditumpuk dengan kurva normal
col = "#ADD8E6", # Biru Muda
border = "white")
# Tambahkan Kurva Normal Teoritis
curve(dnorm(x, mean = mu_p_hat, sd = sigma_p_hat),
add = TRUE, col = "#8B0000", lwd = 3) # Merah Tua
# Garis Rata-rata (Center of the distribution)
abline(v = mu_p_hat, col = "black", lwd = 2, lty = 2)
# Tambahkan legenda
legend("topright",
legend = c(paste("Rata-rata (p =", mu_p_hat, ")"), "Kurva Normal Teoritis"),
col = c("black", "#8B0000"),
lwd = c(2, 3),
lty = c(2, 1),
cex = 0.8)6 Riview Sample Distribution
6.1 Probabilitas, Distribusi Binomial, dan Distribusi Sampling Proporsi
tiga metode yang digunakan untuk menghitung probabilitas hasil “sukses” dalam eksperimen berulang kali (percobaan Bernoulli), bergantung pada kompleksitas dan ukuran ulangan (\(n\)).
6.1.1 Probabilitas Sederhana (Percobaan Kecil)
Apabila bilangan percubaan (\(n\)) sangat kecil (misalnya, \(n=3\)), probabilitas boleh dikira dengan menyenaraikan dan menjumlahkan semua hasil dalam ruang sampel yang memenuhi syarat yang dikehendaki.
Contoh Video: Mencari probabilitas menarik sekurang-kurangnya dua guli hijau (\(p=0.4\)) dalam tiga tarikan.
Kaedah: Hitung probabilitas setiap urutan (misalnya, GGB) dan jumlahkan probabilitas dari semua urutan yang mungkin (GGB, GBG, BGG, GGG).
6.1.2 Distribusi Binomial (Percobaan Sederhana)
Apabila bilangan percubaan (\(n\)) bertambah (misalnya, \(n=5\)), Distribusi Binomial digunakan untuk mengira probabilitas tepat \(k\) kejayaan dalam \(n\) ulangan tanpa perlu menyenaraikan ruang sampel.
Syarat Distribusi Binomial:
1. Terdapat bilangan ulangan (\(n\)) tetap.
2. Setiap ulangan adalah bebas (independent).
3. Terdapat hanya dua hasil yang mungkin: sukses (kejayaan) atau gagal (kegagalan).
4. Probabilitas sukses (\(p\)) adalah sama untuk setiap ulangan.
Formula Probabilitas Binomial:
\[P(X=k) = C(n, k) \cdot p^k \cdot (1-p)^{n-k}\] Implikasi: Jika soalan memerlukan probabilitas sekurang-kurangnya \(k\) kejayaan (misalnya, \(X \ge 2\)), formula ini mesti digunakan berulang kali untuk \(k, k+1, \dots, n\), dan hasilnya dijumlahkan.
6.1.3 Pendekatan Normal untuk Distribusi Sampling Proporsi (Percobaan Besar)
Apabila bilangan percubaan (\(n\)) sangat besar (misalnya, \(n=100\)), kaedah Binomial menjadi tidak praktikal kerana memerlukan terlalu banyak pengiraan. Dalam kes ini, kita menggunakan Pendekatan Normal (Teorema Limit Pusat/CLT) terhadap Distribusi Sampling Proporsi Sampel (\(\hat{p}\)).
- Kondisi Aproksimasi Normal (Syarat Keberlakuan CLT): Aproksimasi normal sah jika ukuran sampel cukup besar, yang dipastikan dengan dua syarat
1. \(n p \ge 10\)
2. \(n p \ge 10\)
Prosedur Pengiraan:
1. Hitung \(\hat{p}\) (proporsi sampel) yang diminati: \(\hat{p} = X/n\) (misalnya, \(35/100 = 0.35\)).
2. Hitung Galat Baku (Standard Error) proporsi: \(\sigma_{\hat{p}} = \sqrt{\frac{p(1-p)}{n}}\)
3. Hitung Z-skor: \(Z = \frac{\hat{p} - p}{\sigma_{\hat{p}}}\)
4. Gunakan Jadual Z (Z-Table) untuk mencari probabilitas (luas di bawah lengkung normal)
Catatan Penting: Pengiraan melalui CLT menghasilkan probabilitas anggaran (approximate probability), bukan probabilitas tepat.
membandingkan Distribusi Binomial dengan Pendekatan Normal seiring bertambahnya ukuran sampel.
1. Kasus \(n\) Kecil: Distribusi Binomial terlihat diskrit, dan kurva Normal belum sempurna.
2. Kasus \(n\) Besar: Distribusi Binomial mendekati kurva Normal (sesuai Teorema Limit Pusat/CLT).
# --- Parameter Umum ---
p_sukses <- 0.4 # Probabilitas sukses (seperti menarik guli hijau)
min_val <- 0
max_val <- 100
# --- Kasus 1: n Kecil (n=15) ---
n1 <- 15
x1 <- 0:n1
prob1 <- dbinom(x1, size = n1, prob = p_sukses)
mu1 <- n1 * p_sukses
sigma1 <- sqrt(n1 * p_sukses * (1 - p_sukses))
# --- Kasus 2: n Besar (n=100) ---
n2 <- 100
x2 <- 0:n2
prob2 <- dbinom(x2, size = n2, prob = p_sukses)
mu2 <- n2 * p_sukses
sigma2 <- sqrt(n2 * p_sukses * (1 - p_sukses))
# --- Pengaturan Plot ---
par(mfrow = c(1, 2), mar = c(5, 4, 3, 1))
# --- Plot 1: Distribusi Binomial (n=15) ---
plot(x1, prob1, type = "h", # Plot sebagai garis diskrit (histogram)
main = "1. Binomial (n=15) vs. Normal Aproksimasi",
xlab = "Jumlah Sukses (X)",
ylab = "Probabilitas",
col = "#007BA7", # Biru Tua
lwd = 3,
ylim = c(0, 0.25))
points(x1, prob1, pch = 16, col = "#007BA7") # Tambahkan titik di atas garis
# Overlay Kurva Normal Aproksimasi
curve(dnorm(x, mean = mu1, sd = sigma1),
add = TRUE, col = "red", lwd = 2)
# Garis Rata-rata
abline(v = mu1, col = "red", lty = 2)
# --- Plot 2: Distribusi Binomial (n=100) ---
plot(x2, prob2, type = "h",
main = "2. Binomial (n=100) vs. Normal Aproksimasi (CLT)",
xlab = "Jumlah Sukses (X)",
ylab = "Probabilitas",
col = "#228B22", # Hijau Hutan
lwd = 3,
ylim = c(0, 0.09))
points(x2, prob2, pch = 16, col = "#228B22")
# Overlay Kurva Normal Aproksimasi
curve(dnorm(x, mean = mu2, sd = sigma2),
add = TRUE, col = "red", lwd = 2)
# Garis Rata-rata
abline(v = mu2, col = "red", lty = 2) 7 Summary
Hays, William L. 1994 Statistics (5th ed.) Buku klasik yang sering dirujuk untuk menjelaskan dasar-dasar CLT.
Hadi, Sutarto, dkk. 2018 Statistika Inferensial: Teori dan Aplikasinya (Edisi ke-2)
Distribusi Binomial & Aproksimasi Normal Walpole, Ronald E.; Myers, Raymond H. 1995