Undergraduate Student in Data Science at Institut Teknologi Sains Bandung
Dalam kehidupan sehari-hari, kita sering dihadapkan pada berbagai situasi yang melibatkan ketidakpastian. Mulai dari prediksi cuaca, hasil pelemparan koin, hingga ketidakstabilan harga saham, semuanya memiliki elemen acak yang sulit diprediksi dengan pasti. Namun, meskipun bersifat acak, fenomena-fenomena tersebut seringkali menunjukkan pola tertentu yang dapat dipelajari dan dianalisis secara matematis.
Di sinilah konsep distribusi probabilitas menjadi sangat penting. Distribusi probabilitas memberikan kerangka matematis untuk menggambarkan dan menganalisis perilaku variabel acak. Melalui distribusi probabilitas, kita dapat menyatakan kemungkinan terjadinya berbagai hasil dari suatu kejadian acak, sehingga memungkinkan kita untuk membuat prediksi dan pengambilan keputusan yang lebih baik meskipun dalam kondisi ketidakpastian.
Pemahaman tentang distribusi probabilitas menjadi fundamental tidak hanya dalam statistika, tetapi juga dalam berbagai bidang seperti ekonomi, teknik, ilmu sosial, dan sains data. Konsep ini membantu kita untuk tidak hanya mengenali adanya ketidakpastian, tetapi juga untuk mengukur, memodelkan, dan mengambil keputusan berdasarkan informasi probabilistik yang tersedia.
Variabel acak diskrit adalah variabel yang bisa mengambil nilai–nilai tertentu saja, yang bisa dihitung atau dikelompokkan (countable). Contoh nyata: jumlah anak yang dimiliki oleh suatu keluarga, jumlah siswa yang hadir di kelas, hasil lempar dadu, jumlah pelanggan yang datang ke toko dalam sehari, jumlah kepala muncul dari beberapa kali lempar koin, dan lain-lain.
Variabel acak kontinu adalah variabel yang bisa mengambil apa saja dalam rentang tertentu, termasuk bilangan pecahan/desimal, bilangan real dalam sebuah interval. Data untuk variabel continous diperleh dengan mengukur, bukan menghitung, oleh karena itu variabel continuous tidak terbatas dan tidak dapat dihitung. Contoh nyata: berat badan, usia, suhu, dan jarak.
Karakteristik utama:
Dalam statistika, distribusi probabilitas variabel acak diskrit menggunakan bar chart dan variabel acak continous menggunakan histogram.
A.Probability Mass Function (PMF)
PMF digunakan untuk variabel acak diskrit, yaitu variabel yang nilai-nilainya terhitung satu persatu, \(P(X=x)\). Contohnya seperti jumlah anak, sisi dadu, jenis barang, jumlah kecelakaan, dan lain-lain. Distribusi probabilitas variabel acak diskrit disajikan menggunakan bar chart
PMF memiliki 2 syarat:
Visualisasi
library(ggplot2)
# Data PMF
data <- data.frame(
x = factor(c(1, 2, 3, 4, 5)),
pmf = c(0.1, 0.2, 0.4, 0.2, 0.1)
)
ggplot(data, aes(x = x, y = pmf, fill = x)) +
geom_col(width = 0.7) +
scale_y_continuous(
limits = c(0, 0.5),
breaks = seq(0, 0.5, by = 0.1),
expand = c(0, 0)
) +
labs(
title = "Probability Mass Function",
x = "Nilai (x)",
y = "P(X = x)"
) +
scale_fill_brewer(palette = "Blues") +
theme_minimal(base_size = 14) +
theme(
legend.position = "none",
plot.title = element_text(size = 20, face = "bold", hjust = 0.5),
axis.title = element_text(size = 14),
panel.grid.major.x = element_blank(),
panel.grid.minor = element_blank()
)
B.Probability Density Function(PDF)
PDF digunakan untuk variabel acak continuous, yaitu sebuah fungsi \(f(x)\) yang menggambarkan “densitas peluang” di setiap titik \(x\). Sebuah fungsi \(f(x)\) adalah Probability Density Function (PDF) yang valid jika memenuhi:
A.Non-negatif \[f(x) \ge 0 \quad \forall x\]
B.Luas totalnya sama dengan 1 \[\int_{-\infty}^{\infty} f(x)\,dx = 1\]
Interpretasi:
Visualisasi
library(ggplot2)
# Load Data
set.seed(123)
data <- data.frame(
x = rnorm(1000, mean = 50, sd = 10)
)
ggplot(data, aes(x = x)) +
geom_histogram(
aes(y = ..density..),
bins = 30,
fill = "#4A90E2",
color = "white",
alpha = 0.8
) +
stat_function(
fun = dnorm,
args = list(mean = 50, sd = 10),
color = "#003f7f",
size = 1.2
) +
labs(
title = "Probability Density Function",
x = "Nilai",
y = "Density"
) +
theme_minimal(base_size = 14) +
theme(
plot.title = element_text(size = 18, face = "bold", hjust = 0.5),
panel.grid.minor = element_blank()
)
Example
Contoh:
\(f(x)=3x^2\) pada \([0,1]\)
Pertimbangkan fungsi kepadatan probabilitas:\[f(x) = 3x^2,\quad 0 \le x \le 1\]
Validasi: \[\int_0^1 3x^2\,dx = 1\]
C.Cumulative Density Function (CDF)
CDF adalah fungsi yang menunjukkan probabilitas bahwa variabel acak X akan mengambil nilai kurang dari atau sama dengan x tertentu.
Secara matematis:
\[ F_X(x) = P(X \le x) \]>/p>
Dimana:
Properti CDF
1.Nilainya selalu di antara 0 dan 1: \(0 \le F_X(x) \le 1\) untuk semua \(x\).
2.CDF bersifat non-decreasing: jika \(x_1 < x_2\), maka \(F_X(x_1) \le F_X(x_2)\).
3.Limit:
\[ \lim_{x \to -\infty} F_X(x) = 0, \qquad \lim_{x \to +\infty} F_X(x) = 1. \]
a).CDF untuk Variabel Diskrit
Jika \(X\) adalah variabel acak diskrit, misal \(X={x_1, x_2, ...,x_n}\), maka:
\[ F_X(x) = \sum_{x_i \le x} P(X = x_i) \]
b).CDF untuk Variabel Continuous
Jika \(X\) adalah variabel acak continuous dengan Probability Density Function (PDF) \(f_x(x)\), maka:
\[ F_X(x) = \int_{-\infty}^{x} f_X(t)\, dt. \]
Contoh: Misal \(X \sim U(0,1)\) dengan:
\[ f_X(x) = \begin{cases} 1, & 0 \le x \le 1,\\ 0, & \text{lainnya}, \end{cases} \]
Maka CDF-nya adalah:
\[ F_X(x) = \int_0^x 1 \, dt = x, \quad 0 \le x \le 1. \]
Distribusi sample melibatkan pengambilan sample tunggal dari suatu populasi dan menjelaskan datanya, misalnya distribusi tinggi badan dari 50 siswa yang dipilih secara acak. Sedangkan, distribusi sampling adalah distribusi statistik yang dibuat dari beberapa sample acak sederhana yang diambil dari populasi tertentu. Dengan kata lain, distribusi sampling bukan distribusi data sebenarnya, melainkan distribusi dari “hasil statistik” ketika banyak sampel diambil.
Distribusi sampling adalah sekumpulan \(\bar{x}\) yang ditumpuk satu sama lain.
Sifat-sifat Utama:
Misalkan populasi punya rata-rata \(μ\) dan simpangan baku \(σ\). Jika sampel acak berukuran \(n\) diambil, lalu hitung rata-rata sampel \(\bar{x}\), maka:
Artinya, rata-rata sample mendekati rata-rata populasi.
Jika populasi bukan normal, maka kalau \(n\) cukup besar (\(n≥30\)), menurut CLT distribusi sampling rata-rata mendekati normal.
Langkah-langkah membuat distribusi sampling dari rata-rata sample:
1.Menemukan populasi yang diminati
2.Mengambil sample acak berukuran n
3.Menghitung rata-rata \(\bar{x}\) dari sample tersebut.
4.Membuat distribusi frekuensi dari rata-rata sample dengan memplot nilai \(\bar{x}\) untuk sample. Distribusi sampling melibatkan pengambilan beberapa sample, jadi lakukan proses tersebut untuk proses lainnya.
A.Population Distribution
Distribusi populasi adalah bentuk penyebaran data dari seluruh anggota populasi. Distribusi populasi adalah distribusi asli dari data aslinya. Distribusi populasi memiliki mean sebesar \(\mu\), standard deviation sebesar \(\sigma\) dan variabel acak X mengikuti distribusi normal dengan mean \(\mu\) dan deviasi standar sebesar \(\sigma\), maka dapat direpresentasikan oleh notasi berikut: \[\bar{X}∼N(\mu,\sigma)\]
Rumus:
\[z = \frac{x - \mu}{\sigma}\]
Karakteristik Utama:
B.Sampling Distribution
Distribusi sampling adalah distribusi dari suatu statistik (misal rata-rata sampel, proporsi sampel, selisih dua mean, dll) yang dihitung dari semua kemungkinan sampel berukuran sama (n) yang diambil dari populasi. Yang didistribusikan adalah statistika hasil sample (misal: \(\bar{x}\)), bukan datanya.
Rumus:
\[Z=\frac{\bar{x}-\mu}{{\sigma/}\sqrt{n}}\]
Karakteristik Utama:
Soal: Misalkan diketahui bahwa tinggi badan semua orang Kanada mengikuti distribusi normal dengan rata-rata 160 cm dan simpangan baku 7 cm. Berapa probabilitas rata-rata tinggi badan 10 orang Kanada acak kurang dari 157 cm?
Jawab:
Diketahui:
\[ n = 10, \qquad \mu_X = 160, \qquad \sigma = 7 \]
Rata-rata sampel mengikuti distribusi normal dengan:
\[ \sigma_{\bar{X}} = \frac{\sigma}{\sqrt{n}} = \frac{7}{\sqrt{10}} = 2.21 \]
Kita ingin mencari probabilitas:
\[ P(\bar{X} < 157) \]
Hitung z-score:
\[ z = \frac{157 - 160}{2.21} = -1.36 \]
Cari probabilitasnya:
\[ P(\bar{X} < 157) = P(Z < -1.36) \]
Dari tabel distribusi normal:
\[ P(Z < -1.36) = 0.0869 \]
\[ \boxed{P(\bar{X} < 157) = 0.0869} \]
Example 2Soal: Misalkan diketahui bahwa tinggi semua orang Kanada mengikuti distribusi normal dengan rata-rata 160 cm dan deviasi standar 7 cm. Berapa proporsi semua orang yang tingginya lebih dari 170 cm?
Jawab:
Diketahui:
\[ \mu = 160, \qquad \sigma = 7 \]
Kita ingin mencari probabilitas:
\[ P(X > 170) \]
Hitung z-score:
\[ z = \frac{170 - 160}{7} = 1.43 \]
Probabilitasnya adalah:
\[ P(X > 170) = P(Z > 1.43) \]
Dari tabel distribusi normal:
\[ P(Z > 1.43) = 0.0764 \]
\[ \boxed{P(X > 170) = 0.0764} \]
Central limit theorem memprediksi bentuk distribusi sampling berdasarkan ukuran sample. Secara khusus, central limit theorem menyatakan bahwa “Jika ukuran sample n cukup besar, maka distribusi sampling dari sample mean akan mendekati normal.” Meskipun data populasinya tidak normal (skewed, uniform, distribusi tidak normal), setelah rata-rata diambil dari banyak sampel, hasil rata-rata tersebut akan terdistribusi seperti normal (bell curve).
1.\(n≥30\)
Sampling distribution dari rata-rata sampel akan mendekati normal apabila ukuran sampel lebih besar dari 30. Terlepas dari apa distribusi populasi aslinya, distribusi sampling dari mean sample akan selalu normal jika ukuran sample \(n\) cukup besar.
2.\(n<30\)
Jika ukuran sample kecil perkiraan normal tidak akan akurat karena memiliki ukuran sample yang lebih kecil dapat menyebabkan lebih banyak variabilitas, kurangnya presisi dan reliabilitas. Ukuran sample yang lebih kecil juga memiliki resiko lebih besar untuk mendapatkan sample yang tidak biasa hanya secara kebetulan. Singkatnya, ukuran sample yang lebih kecil tidak akan menghasilkan distribusi sampling yang normal dan oleh karena itu untuk ukuran sample kurang dari 30, tidak dapat menerapkan central limit theorem sama sekali.
Visualisasi
library(ggplot2)
library(gridExtra)
library(grid)
set.seed(123)
# Populasi tidak normal (skewed)
populasi <- rexp(100000, rate = 1/10)
ambil_mean <- function(n) mean(sample(populasi, n, replace = TRUE))
# Sampel kecil & besar
df_n10 <- data.frame(mean = replicate(5000, ambil_mean(10)))
df_n30 <- data.frame(mean = replicate(5000, ambil_mean(30)))
# Warna
warna_hist <- "#a8d4ff"
warna_line <- "#003b73"
# Tema rapi
tema_cantik <- theme_classic() +
theme(
plot.subtitle = element_text(size = 14, color = "#003b73"),
plot.title = element_blank(),
axis.title = element_text(size = 13, color = "#003b73"),
axis.text = element_text(size = 11, color = "#003b73"),
plot.margin = margin(10, 10, 10, 10)
)
# ---- Plot 1: n < 30 ----
plot_n10 <- ggplot(df_n10, aes(mean)) +
geom_histogram(aes(y = ..density..),
bins = 50,
fill = warna_hist,
color = NA,
alpha = 0.8) +
geom_density(color = warna_line, linewidth = 1.4) +
labs(
subtitle = "Sampling Distribution n < 30",
x = "Sample Means",
y = "Density"
) +
tema_cantik
# ---- Plot 2: n ≥ 30 ----
plot_n30 <- ggplot(df_n30, aes(mean)) +
geom_histogram(aes(y = ..density..),
bins = 50,
fill = warna_hist,
color = NA,
alpha = 0.8) +
geom_density(color = warna_line, linewidth = 1.4) +
labs(
subtitle = "Sampling Distribution n ≥ 30",
x = "Sample Means",
y = "Density"
) +
tema_cantik
# ---- Judul Tengah ----
judul <- textGrob(
"Central Limit Theorem Visualization",
gp = gpar(fontsize = 20, fontface = "bold", col = "#003b73")
)
# ---- Gabungkan ----
grid.arrange(
judul,
arrangeGrob(plot_n10, plot_n30, ncol = 2),
heights = c(0.12, 1)
)
Example
Soal: Untuk setiap distribusi populasi yang dijelaskan di bawah ini, opsi mana yang akan menghasilkan distribusi sampel yang mendekati normal?
a)Distribusi populasi persegi panjang, ukuran sampel 15
b)Distribusi populasi bimodal, ukuran sampel 29
c)Distribusi populasi miring, ukuran sampel 40
d)Distribusi populasi segitiga, ukuran sampel 35
e)Distribusi populasi normal, ukuran sampel 20
f)Distribusi populasi normal, ukuran sampel 30
Jawab:
Distribusi sampling adalah pengambilan sample berulang kali dari suatu populasi, menghitung statistik untuk setiap sample individu seperti \(\bar{x}\) atau \(\hat{p}\) dan menggabungkan informasi pada grafik untuk membuat distribusi sampling.
Dalam statistik, proporsi menggambarkan fraksi hasil yang menguntungkan dalam kaitannya dengan keseluruhan. Hasil yang menguntungkan hanyalah variabel apapun, misalnya tinggi badan, berat badan, warna mata, atau skor yang diperoleh waktu ujian. Ini semua variabel terukur yang dapat dicatat dari suatu populasi atau sample.
Rumus:
\[\text{Proportion} = \frac{\text{number of favourable outcomes}}{\text{total number of outcomes}}\]
Example
Jika suatu sample memiliki ukuran sample 10 dan hanya 2 orang dalam sample yang bermata hijau, maka proporsi nya 2/10 atau 0.2
Untuk populasi, jika ukuran populasi 5000 dan hanya 900 orang yang memiliki mata hijau maka proporsi nya 900/5000 atau 0.18
Visualisasi
library(ggplot2)
library(grid)
library(gridExtra)
library(scales) # untuk persen
# Data
prop_sample <- 2/10
prop_pop <- 900/5000
df <- data.frame(
Kategori = c("Proporsi Sampel", "Proporsi Populasi"),
Proporsi = c(prop_sample, prop_pop)
)
# Plot vertikal dengan persentase
p <- ggplot(df, aes(x = Kategori, y = Proporsi, fill = Kategori)) +
geom_col(width = 0.6) +
geom_text(aes(label = percent(Proporsi, accuracy = 1)),
vjust = -0.5,
size = 6) +
scale_fill_manual(values = c("#4DB6E2", "#9AD1B4")) +
scale_y_continuous(labels = percent_format(accuracy = 1), limits = c(0, 0.3)) +
labs(
x = "",
y = "Proporsi"
) +
theme_minimal(base_size = 14) +
theme(
plot.title = element_text(face = "bold", hjust = 0.5),
legend.position = "none"
)
# Title grob
main_title <- textGrob(
"Visualisasi Proporsi Mata Hijau (Sample vs Populasi)",
gp = gpar(fontsize = 18, fontface = "bold")
)
# Arrange
grid.arrange(main_title, p, heights = c(0.12, 1))
Interpretasi:
Dari visualisasi bar chart, terlihat bahwa proporsi orang dengan mata hijau di sample adalah 20% (2 dari 10 orang), sedangkan proporsi di populasi adalah 18% (900 dari 5000 orang). Meskipun proporsi sample sedikit lebih tinggi dibanding populasi, perbedaan ini relatif kecil dan dapat dijelaskan oleh ukuran sample yang terbatas. Sample yang kecil cenderung mengalami fluktuasi acak, sehingga nilai proporsinya tidak selalu sama persis dengan proporsi populasi.
Penting untuk diingat bahwa dalam suatu populasi proporsi dilambangkan dengan simbol \(p\) dan dalam proportion sample dilambangkan dengan simbol \(\hat{p}\). Nilai \(\hat{p}\) bergantung pada data yang dikumpulkan dari sample dan setiap sample berbeda karena probabilitas namun jika \(\hat{p}\) diambil semua dan menaruhnya ke dalam grafik, maka akan mendapatkan distribusi \(\hat{p}\) atau sampling distribution of the sample proportion.
Sampling distribution of the sample proportion adalah sebuah distribusi statistik \(\hat{p}\) yang dibuat dari pengambilan sample acak berulang kali, distribusi ini berisi nilai mean dan nilai standard deviation karena distribusi ini pada dasarnya terdiri dari sekumpulan \(\hat{p}\). Kita dapat menyatakan bahwa mean dari distribusi sampling sebagai \(\mu\hat{p}\) dan standard deviation sebagai \(\sigma\hat{p}\).
Jika distribusi sampling dari proporsi sample normal dan mengikuti central limit theorem, maka akan menemukan 3 hal:
1.\(\mu\hat{p}\), artinya rata-rata dari semua \(\hat{p}\) yang digabungkan sama dengan proporsi populasi \(p\).
2.\(\sigma\hat{p} = \sqrt{\frac{p(1 - p)}{n}}\)
Keterangan:
3.Jika distribusi sampling dari proporsi sample mengikuti distribusi normal dengan mean \(p\) dan standard deviation \[\hat{p} \approx N\left(p,\ \sqrt{\frac{p(1 - p)}{n}}\right)\]
Maka kita dapat menggunakan tabel z score dan standardization formula. Untuk rumus standardization \[z = \frac{\hat{p} - p}{\sqrt{\frac{p(1 - p)}{n}}}\]
Penting untuk dicatat bahwa central limit theorem diterapkan secara berbeda dalam sampling distribution of the sample mean dengan sampling distribution of the sample proportion.
Sampling distribution of the sample proportion (\(\hat{p}\)) memiliki 2 success-failure condition:
1.\(np≥10\)
2.\(n(1-p)≥10\)
Jika kedua kondisi terpenuhi maka central limit theorem dapat diterapkan dan jika central limit theorem dapat diterapkan tabel z score dapat digunakan dengan menggunakan rumus standardization yang sesuai.
Example
Soal: Sebuah perusahaan melakukan survei terhadap \((n = 200)\) pelanggan untuk mengetahui tingkat kepuasan terhadap layanan mereka. Dari survei tersebut, sebanyak \(x = 154\) pelanggan menyatakan puas> Hitunglah proporsi sampel, standard error, dan distribusi sampling dari proporsi tersebut.
Jawab:
Cek success-failures condition:
\[\hat{p} = \frac{x}{n} = \frac{154}{200} = 0.77\]
\[np=200×0.77=154\] (terpenuhi karena 154≥10)
\[n(1−p)=200×0.23=46\] (terpenuhi karena 46≥10)
Hitung standard deviation:
\[ \sigma\hat{p} = \sqrt{\frac{p(1 - p)}{n}} = \sqrt{\frac{0.77(1 - 0.77)}{200}} = \sqrt{\frac{0.77 \times 0.23}{200}} = \sqrt{0.0008855} \approx 0.02975 \]
Maka distribusi sampling dari proporsi dapat didekati dengan distribusi normal:
\[\hat{p} \approx N\left(0.77,\ 0.02975\right)\]
Jadi, proporsi sampel adalah \(0.77\), standard deviation nya sekitar \(0.02975\), dan distribusi sampling-nya mengikuti distribusi normal dengan mean \(0.77\).
Probabilitas keberhasilan: \[\text{p(success)} = \frac{\text{number of successful outcomes}}{\text{total number of outcomes}}\]
Probabilitas kegagalan: \[\text{p(failure)} = \frac{\text{number of unsuccessful outcomes}}{\text{total number of outcomes}}\]
Metode simple probability dan sample spaces tidak cocok untuk ukuran sampel yang besar karena jumlah kemungkinan meningkat sangat cepat (bersifat eksponensial), sehingga ruang sampelnya menjadi terlalu banyak untuk dituliskan atau dihitung satu per satu. Prosesnya memakan banyak waktu, tidak efisien, dan sering kali tidak layak digunakan.
Example
Soal: Diketahui sebuah toples berisi 200 kelereng hijau dan 300 kelereng biru (total 500). Satu kelereng ditarik sebanyak 3 kali dengan pengembalian. Hitung peluang memperoleh sedikitnya dua kelereng hijau.
Jawab:
Karena pengambilan dilakukan , tiap percobaan bersifat independen. Probabilitas memperoleh manik hijau pada satu tarikan adalah
\[ p = \frac{200}{500} = 0.4. \]
Misalkan \(X\) = jumlah manik hijau dalam \(n=3\) tarikan. Maka \(X\) mengikuti distribusi binomial
\[ X \sim \mathrm{Bin}(n=3, p=0.4). \]
Kita cari \(P(X \ge 2) = P(X=2) + P(X=3)\). Dengan rumus binomial:
\[ P(X=k)=\binom{n}{k} p^k (1-p)^{n-k}. \]
Sehingga
\[ \begin{aligned} P(X=2) &= \binom{3}{2}(0.4)^2(0.6)^1 = 3 \cdot 0.16 \cdot 0.6 = 0.288,\\[6pt] P(X=3) &= \binom{3}{3}(0.4)^3(0.6)^0 = 1 \cdot 0.064 = 0.064. \end{aligned} \]
Jadi
\[ P(X \ge 2) = 0.288 + 0.064 = 0.352 = \frac{44}{125}. \]
\[ \boxed{P(\text{sedikitnya 2 hijau}) = 0.352 \; (=44/125).} \]
Bagaimana jika ukuran sample banyak dan tidak ingin hitung manual yang membutuhkan banyak waktu? Jika ukuran sample banyak, maka sebagai gantinya kita dapat menggunakan rumus binomial untuk menyelesaikan kasus seperti itu. Metode ini cocok untuk
\[ P(X=k)=\binom{n}{k} p^k (1-p)^{\,n-k}. \]
Keterangan:
Example
Soal: Sebuah toples berisi 200 kelereng hijau dan 300 kelereng biru (total 500). Satu manik ditarik sebanyak \(n=5\) kali dengan pengembalian. Tentukan peluang bahwa dari lima tarikan tersebut diperoleh sedikitnya dua kelereng hijau.
Jawab:
Probabilitas memperoleh manik hijau pada satu tarikan:
\[ p = \frac{200}{500} = 0.4. \]
Misalkan \(X\) = banyaknya manik hijau dalam \(n=5\) tarikan. Karena tiap tarikan independen dan hanya ada dua kemungkinan (hijau atau bukan), maka \(X \sim \mathrm{Bin}(n=5,\; p=0.4)\).
\[ P(X \ge 2) = 1 - P(X \le 1) = 1 - \big( P(X=0) + P(X=1) \big). \]
Rumus probabilitas binomial:
\[ P(X=k)=\binom{n}{k} p^k (1-p)^{\,n-k}. \]
Hitung masing-masing:
\[ \begin{aligned} P(X=0) &= \binom{5}{0} (0.4)^0 (0.6)^5 = (0.6)^5 = 0.07776,\\[6pt] P(X=1) &= \binom{5}{1} (0.4)^1 (0.6)^4 = 5 \cdot 0.4 \cdot (0.6)^4 = 0.25920. \end{aligned} \]
Sehingga
\[ P(X \le 1) = 0.07776 + 0.25920 = 0.33696, \] dan
\[ P(X \ge 2) = 1 - 0.33696 = 0.66304. \]
Sebagai pengecekan, kita juga dapat menjumlahkan langsung:
\[ \begin{aligned} P(X=2) &= \binom{5}{2} (0.4)^2 (0.6)^3 = 10 \cdot 0.16 \cdot 0.216 = 0.34560,\\[4pt] P(X=3) &= \binom{5}{3} (0.4)^3 (0.6)^2 = 10 \cdot 0.064 \cdot 0.36 = 0.23040,\\[4pt] P(X=4) &= \binom{5}{4} (0.4)^4 (0.6)^1 = 5 \cdot 0.0256 \cdot 0.6 = 0.07680,\\[4pt] P(X=5) &= \binom{5}{5} (0.4)^5 (0.6)^0 = 0.4^5 = 0.01024. \end{aligned} \]
Menjumlahkan \(P(X=2)+P(X=3)+P(X=4)+P(X=5)=0.66304\), sama dengan hasil di atas.
\[ \boxed{P(\text{sedikitnya 2 hijau}) = 0.66304 \approx 0.663} \]
“Sebuah toples berisi 200 kelereng hijau dan 300 kelereng biru (total 500). Satu kelereng ditarik sebanyak n = 100 kali dengan pengembalian. Tentukan probabilitas bahwa diperoleh setidaknya 35 kelereng hijau!” Bagaimana dengan kasus yang seperti ini?
Ada 3 cara untuk menyelesaikan kasus seperti itu.
1.Sample Spaces
Kita dapat menghitung jawabannya dengan sample spaces tetapi tidak efektif karena membutuhkan banyak waktu dan pengerjaan.
2.Binomial Formula
Kita juga dapat menghitung dengan menggunakan binomial formula tapi cara ini tidak efektif karena harus menghitung probabilitas keberhasilan sebanyak 65 kali. Harus menghitung keberhasilan untuk mengambil 35 kelereng hijau, 36 kelereng hijau, 37 kelereng hijau, dan seterusnya sampai 100 kelereng hijau.
3.Sampling Distribution of the Sample Proportion.
Kita dapat menggunakan cara ini karena lebih efisien dibanding cara-cara sebelumnya. Namun, kita harus cek apakah central limit theorem dapat diterapkan atau tidak?
Sampling distribution of the sample proportion yang perlu mengikuti 2 kondisi agar central limit theorem dapat diterapkan:
1.\(np≥10\)
2.\(n(1-p)≥10\)
Example
Soal: Sebuah toples berisi 200 kelereng hijau dan 300 kelereng biru (total 500). Satu kelereng ditarik sebanyak \(n=100\) kali dengan pengembalian. Tentukan probabilitas bahwa diperoleh setidaknya 35 kelereng hijau!
Jawab:
Probabilitas memperoleh manik hijau pada satu tarikan adalah/p>
\[ p = \frac{200}{500} = 0.4. \]
Jika \(X\) menyatakan banyaknya manik hijau dalam \(n=100\) tarikan, maka
\[ X \sim \mathrm{Bin}(n=100,\; p=0.4). \]
Kita ingin menghitung
\[ P(X \ge 35) = 1 - P(X \le 34). \]
Karena \(n\) besar, kita dapat menggunakan pendekatan normal (CLT / normal approximation to the binomial).
Rata-rata dan simpangan baku dari \(X\) adalah
\[ \mu = np = 100 \times 0.4 = 40, \qquad \sigma = \sqrt{np(1-p)} = \sqrt{100 \times 0.4 \times 0.6} = \sqrt{24} \approx 4.89898. \]
Untuk pendekatan yang lebih akurat, gunakan batas kontinuitas:
\[ P(X \ge 35) \approx P\big( X > 34.5 \big) \approx P\!\left( Z > \frac{34.5 - \mu}{\sigma} \right), \] dengan \(Z\sim N(0,1)\).
Hitung nilai \(z\):
\[ z = \frac{34.5 - 40}{\sqrt{24}} = \frac{-5.5}{4.89898} \approx -1.1225. \]
Maka
\[ P(X \ge 35) \approx 1 - \Phi(-1.1225) = \Phi(1.1225). \]
Dari tabel distribusi normal standar atau kalkulator normal:
\[ \Phi(1.1225) \approx 0.8686. \]
Jadi,
\[ \boxed{\,P(X \ge 35) \approx 0.869\,} \]
\[ z = \frac{35 - 40}{\sqrt{24}} \approx -1.020 \quad\Rightarrow\quad P(X\ge 35)\approx 1-\Phi(-1.02)\approx 0.846. \]
Continuity correction umumnya memberikan aproksimasi binomial yang lebih akurat.
\(\;P(X \ge 35)=\sum_{k=35}^{100}\binom{100}{k}0.4^k 0.6^{100-k}\,\) dengan bantuan komputer.
Dari seluruh materi dari discrete–continuous variables, PMF–PDF, probability distribution, hingga sampling distribution, Central Limit Theorem, dan sample proportion menunjukkan satu alur besar bahwa statistik bekerja dengan cara memahami bagaimana data menyebar dan bagaimana sampel bisa mewakili populasi.
Mulai dari mengenali jenis variabel dan cara menghitung peluangnya. Setelah itu, melihat bahwa ketika pengambilan sampel dilakukan berulang kali, statistik seperti rata-rata dan proporsi membentuk distribusi baru, yaitu sampling distribution. Melalui Central Limit Theorem, kita belajar bahwa distribusi sampling ini cenderung berbentuk normal saat ukuran sampel cukup besar, sehingga memungkinkan menggunakan pendekatan normal untuk berbagai analisis.Pada proporsi, mengajarkan bagaimana konsep-konsep ini diterapkan secara langsung: menghitung \(\hat{p}\), standard error, dan memastikan syarat normal approximation terpenuhi.
Secara keseluruhan, materi ini memberikan gambaran bahwa statistik bukan hanya menghitung peluang, tetapi juga menarik kesimpulan tentang populasi berdasarkan sampel secara sistematis dan terukur.
Siregar, B. (t.t.). Introduction to Statistics: Chapter 7 Probability Distributions. dsciencelabs. Diakses dari https://bookdown.org/dsciencelabs/intro_statistics/07-Probability_Distributions.html
Illowsky, B., & Dean, S. (2020). Statistics [E-book]. Houston, Texas: OpenStax. https://openstax.org/books/statistics/pages/1-introduction
Sudaryono. (2025). Distribusi Sampling. Tangerang: Universitas Raharja. Diakses dari https://raharja.ac.id/distribusi-sampling/