ULIN NIKMAH (52250042)
INSTITUT TEKNOLOGI SAINS BANDUNG
Mata Kuliah: Statistika Dasar Program Studi: Sains Data Dosen Pengampu: Bakti Siregar, M.SC., CDS.
Distribusi probabilitas adalah konsep dasar dalam statistik yang digunakan untuk menggambarkan bagaimana kemungkinan hasil dari suatu percobaan acak tersebar. Dengan kata lain, distribusi ini memberi tahu kita peluang setiap hasil yang mungkin terjadi, sehingga kita dapat memahami pola dan ketidakpastian dalam data atau fenomena yang diamati. Pemahaman distribusi probabilitas sangat penting karena menjadi dasar dari banyak metode statistik, termasuk penghitungan rata-rata, variansi, dan prediksi, serta digunakan luas dalam berbagai bidang seperti sains, teknologi, ekonomi, dan data science.
Distribusi probabilitas terbagi menjadi dua jenis utama, yaitu distribusi diskrit dan distribusi kontinu. Distribusi diskrit memiliki nilai yang terputus atau terbatas, sedangkan distribusi kontinu memiliki nilai yang bisa berada di mana saja dalam suatu interval tertentu. Kedua jenis distribusi ini memiliki fungsi matematis yang berbeda, namun tujuan utamanya sama, yaitu membantu kita memahami bagaimana kemungkinan hasil tersebar dan bagaimana kita bisa membuat keputusan atau prediksi berdasarkan data.
Secara keseluruhan, mempelajari distribusi probabilitas memungkinkan kita untuk “membaca pola kemungkinan” dalam berbagai situasi dan fenomena, sehingga analisis data menjadi lebih sistematis dan prediksi yang dihasilkan lebih dapat diandalkan.
Materi ini membahas konsep variabel kontinu dalam probabilitas, termasuk perbedaan dengan variabel diskrit, cara visualisasi distribusi, fungsi kepadatan probabilitas (PDF), fungsi distribusi kumulatif (CDF), dan perhitungan probabilitas pada interval. Pemahaman materi ini penting agar kita dapat menganalisis data yang diukur secara kontinu dan membuat prediksi yang tepat.
Variabel Diskrit adalah variabel yang hanya dapat mengambil sejumlah nilai yang dapat dihitung. Nilainya terbatas dan spesifik, serta tidak termasuk nilai pecahan yang tidak masuk akal dalam konteksnya. Misalnya: jumlah kepala pada lemparan koin, jumlah kelereng biru, nilai ujian, jumlah anak dalam keluarga, atau saldo rekening bank. Variabel diskrit bisa memiliki nilai desimal jika masih dapat dihitung secara logis, misalnya 5,5 buah barang jika barangnya bisa dibagi. Variabel Diskrit menggunakan visualisasi Bar Chart untuk menampilkan distribusi nya, dimana Setiap batang mewakili satu nilai yang dapat dihitung, dan ada celah antar batang.
Contoh: menghitung jumlah kepala pada 4 lemparan koin (0, 1, 2, 3, 4). Celah menunjukkan tidak ada nilai “setengah kepala”.library(ggplot2)
# Probabilitas jumlah kepala pada 4 lemparan koin (Binomial p=0.5)
x <- 0:4
prob <- dbinom(x, size = 4, prob = 0.5)
df <- data.frame(
heads = x,
probability = prob
)
ggplot(df, aes(x = factor(heads), y = probability)) +
geom_bar(
stat = "identity",
fill = "#4A90E2",
color = "black",
width = 0.7
) +
labs(
title = "Diagram Batang: Distribusi Jumlah Kepala (4 Lemparan Koin)",
x = "Jumlah Kepala",
y = "Probabilitas"
) +
theme_minimal(base_size = 14) +
theme(
plot.title = element_text(face = "bold", hjust = 0.5),
axis.title = element_text(face = "bold")
)
Interpretasi:
Diagram batang menunjukkan peluang munculnya jumlah kepala dari 4 kali lemparan koin. Batang tertinggi berada di nilai 2 kepala, artinya hasil ini paling mungkin terjadi. Batang di nilai 0 dan 4 kepala paling pendek, menandakan hasil tersebut lebih jarang terjadi.
Variabel Kontinu dapat mengambil nilai numerik apa pun dalam suatu rentang, diperoleh melalui pengukuran, dan memiliki jumlah nilai yang tak terhingga. Contohnya: berat badan, usia, suhu, dan jarak. Variabel kontinu biasanya dapat diukur dengan presisi hingga desimal tertentu. Variabel Kontinu menggunakan Histogram untuk menampilkan distribusi nya, dimana batang-batang menyentuh satu sama lain (tanpa celah) karena nilai dapat berada di mana saja dalam interval. Jumlah batang bisa sangat banyak, meniru sifat “tak terhingga” dari variabel kontinu.
Contoh: distribusi berat badan mahasiswa.library(ggplot2)
# Contoh data: berat badan mahasiswa (kg) — variabel kontinu
set.seed(123)
berat <- rnorm(200, mean = 60, sd = 8) # 200 mahasiswa
df <- data.frame(berat = berat)
ggplot(df, aes(x = berat)) +
geom_histogram(
bins = 20, # jumlah batang banyak agar menyerupai kontinu
fill = "#4A90E2",
color = "black"
) +
labs(
title = "Histogram: Distribusi Berat Badan Mahasiswa",
x = "Berat Badan (kg)",
y = "Frekuensi"
) +
theme_minimal(base_size = 14) +
theme(
plot.title = element_text(face = "bold", hjust = 0.5),
axis.title = element_text(face = "bold")
)
Interpretasi:
Histogram menunjukkan sebaran berat badan mahasiswa, di mana nilai berkumpul di sekitar 60 kg, sehingga itu adalah rentang yang paling umum. Batang-batang saling menempel karena berat badan adalah variabel kontinu. Semakin jauh dari pusat (terlalu ringan atau terlalu berat), frekuensinya makin sedikit.
PDF, atau Probability Density Function, menggambarkan distribusi probabilitas variabel kontinu.
Syarat sah PDF:Menurut Walpole (2012), fungsi kepadatan probabilitas memiliki peran penting dalam memahami variabel acak kontinu karena:
Dalam praktik statistika, terutama analisis rekayasa dan sains, PDF digunakan untuk menentukan:
Walpole juga menekankan bahwa probabilitas suatu titik tunggal selalu nol karena jumlah nilai kontinu tak terhingga—ini selaras dengan definisi integrasi pada PDF.
Contoh PDF: \[f(x) = 3x^2,\quad 0 \le x \le 1\]
PDF ini memenuhi syarat karena \[\int_0^1 3x^2\,dx = 1.\]
Untuk variabel kontinu, probabilitas dihitung pada interval \([a,b]\): \[ P(a \le X \le b) = \int_a^b f(x)\,dx \]
Contoh perhitungan: \[ P(0.5 \le X \le 1) = \int_{0.5}^{1} 3x^2\,dx = \left[ x^3 \right]_{0.5}^{1} = 1^3 - 0.5^3 = 0.875 \]
Kurva kepadatan atau density curve adalah bentuk visual dari PDF yang menunjukkan bagaimana probabilitas tersebar pada nilai-nilai variabel kontinu. Area di bawah kurva pada sebuah interval mewakili probabilitas interval tersebut. Dari konsep inilah muncul CDF, yaitu total area yang terkumpul dari kiri hingga titik tertentu. \[ F(x) = P(X \le x) = \int_{0}^{x} f(t)\,dt \]
Karena CDF mengumpulkan area secara bertahap, grafiknya selalu meningkat dari 0 menuju 1. Hubungan PDF dan CDF sangat erat: PDF merupakan turunan dari CDF, sedangkan CDF merupakan integral dari PDF, sehingga perubahan bentuk PDF langsung memengaruhi bentuk CDF. Secara matematis, \(f(x)=F'(x)\).
Sebagai contoh, misal \(f(x)=3x^2\) untuk \(0 \le x \le 1\). Maka \(F(x)=\int_0^x 3t^2\,dt = x^3\), dan turunannya adalah \(F'(x)=3x^2=f(x)\). Kurva PDF semakin naik ke kanan sehingga nilai mendekati 1 memiliki peluang lebih besar, dan ketika diintegralkan diperoleh CDF \(F(x)=x^3\) yang menunjukkan akumulasi probabilitas meningkat semakin cepat seiring bertambahnya \(x\).
library(ggplot2)
# Membuat data x dan fungsi f(x) = 3x^2
x <- seq(0, 1, length.out = 500)
fx <- 3 * x^2
df <- data.frame(x = x, fx = fx)
ggplot(df, aes(x, fx)) +
geom_line(color = "#1B76D1", linewidth = 1.5) +
geom_area(fill = "#1B76D1", alpha = 0.25) +
labs(
title = "Kurva Kepadatan: f(x) = 3x² pada Interval [0,1]",
x = "x",
y = "f(x)"
) +
theme_minimal(base_size = 14) +
theme(
plot.title = element_text(face = "bold", hjust = 0.5),
axis.title = element_text(face = "bold")
)
Interpretasi:
Kurva \(f(x)=3x^2\) naik tajam ke kanan, menunjukkan bahwa nilai \(x\) yang lebih besar (mendekati 1) memiliki kepadatan lebih tinggi. Area di bawah kurva dari titik A ke B menggambarkan peluang x berada di interval tersebut.
| Aspek | Variabel Diskrit | Variabel Kontinu |
|---|---|---|
| Sifat | Dapat dihitung | Dapat diukur |
| Nilai | Terbatas, spesifik | Tak terhingga, sebarang nilai |
| Contoh | Koin, kelereng | Berat badan, usia, suhu |
| Visualisasi | Diagram batang dengan celah | Histogram tanpa celah, kepadatan kurva |
| Probabilitas | Rumus standar | Rumus kurva / PDF |
Materi ini membahas Distribusi Sampling, termasuk perbedaan antara populasi, sampel, dan distribusi sampling, cara membangun distribusi sampling, Teorema Limit Tengah (CLT), standar error, serta aplikasi praktis. Pemahaman materi ini penting untuk bisa mengambil kesimpulan statistik dari sampel dan memperkirakan probabilitas dengan tepat.
Populasi: Semua anggota dari suatu grup, misalnya seluruh penduduk suatu negara. Sampel: Bagian kecil dari populasi yang digunakan untuk analisis. Distribusi sampel: Statistik (misal rata-rata) yang diperoleh dari banyak sampel acak sederhana dari populasi yang sama.
Perbedaan utama:
| Aspek | Distribusi Populasi | Distribusi Sampling |
|---|---|---|
| Mean (Rata-rata) | 𝜇 | x̄ |
| Standar Deviasi | 𝜎 | Standar Error \[SE \;=\; \frac{\sigma}{\sqrt{n}}\] |
| Komposisi | Observasi individu | Statistik (rata-rata) dari sampel |
| Variabilitas | Lebih tinggi | Lebih rendah (lebih stabil) |
# Install jika belum ada
# install.packages("ggplot2")
# install.packages("reshape2")
library(ggplot2)
library(reshape2)
# Parameter
mu <- 0
sigma <- 1
n <- 30
se <- sigma / sqrt(n)
# Range nilai
x <- seq(-4, 4, length.out = 400)
# Distribusi
pop <- dnorm(x, mean = mu, sd = sigma)
samp <- dnorm(x, mean = mu, sd = se)
# Data frame
df <- data.frame(
x = x,
Populasi = pop,
Sampling = samp
)
df_melt <- melt(df, id.vars = "x", variable.name = "Tipe", value.name = "Density")
# Plot dengan judul rata tengah
ggplot(df_melt, aes(x = x, y = Density, color = Tipe)) +
geom_line(size = 1.2) +
labs(
title = "Perbandingan Distribusi Populasi vs Distribusi Sampling",
x = "Nilai",
y = "Kepadatan"
) +
theme_minimal(base_size = 14) +
theme(
plot.title = element_text(face = "bold", hjust = 0.05) # judul rata tengah
)
Interpretasi:
Perbandingan dua kurva: Kurva populasi lebih lebar, kurva distribusi sampling lebih sempit, menegaskan bahwa standar error distribusi sampling lebih kecil daripada standar deviasi populasi.
Langkah-langkah:
Properti penting:
# Install package jika belum ada
# install.packages("ggplot2")
library(ggplot2)
set.seed(42) # agar hasil sama setiap dijalankan
# Parameter populasi
population_mean <- 0
population_sd <- 1
# Parameter sampling
n <- 5 # ukuran tiap sampel
num_samples <- 1000 # jumlah pengambilan sampel
# Generate rata-rata sampel
sample_means <- replicate(num_samples, {
samp <- rnorm(n, mean = population_mean, sd = population_sd)
mean(samp)
})
# Data frame
df <- data.frame(means = sample_means)
# Plot histogram
ggplot(df, aes(x = means)) +
geom_histogram(aes(y = ..density..), bins = 30, fill = "orange", color = "black") +
labs(
title = "Simulasi Distribusi Sampling (n = 5, 1000 sampel)",
x = "Rata-rata Sampel",
y = "Kepadatan"
) +
theme_minimal(base_size = 14) +
theme(
plot.title = element_text(face = "bold", hjust = 0.5) # judul tengah
)
Interpretasi:
Histogram menunjukkan bahwa rata-rata sampel dari banyak pengambilan sampel membentuk pola menyerupai distribusi normal. Ini membuktikan Teorema Limit Tengah (CLT), dan menunjukkan bahwa rata-rata sampel memiliki variasi lebih kecil dibandingkan data populasi.
Standar Error (SE): Simpangan baku dari distribusi sampling, dihitung: \[SE \;=\; \frac{\sigma}{\sqrt{n}}\]
Standardisasi:
Distribusi Populasi: \[Z \;=\; \frac{X - \mu}{\sigma}\]
Distribusi Sampling: \[ Z \;=\; \frac{\overline{X} - \mu}{SE} \;=\; \frac{\overline{X} - \mu}{\sigma / \sqrt{n}} \;=\; \frac{\overline{X} - \mu}{\dfrac{\sigma}{\sqrt{n}}} \]
Soal: Berapa peluang rata-rata tinggi 10 orang acak kurang dari 157 cm, jika tinggi badan mengikuti distribusi normal dengan rata-rata 𝜇 dan standar deviasi 𝜎?
Langkah-langkah:
Pertanyaan lanjutan: Berapa proporsi warga yang tinggi badannya >170 cm?
Gunakan distribusi populasi.
library(ggplot2)
mu <- 160
sigma <- 6.995
n <- 10
SE <- sigma / sqrt(n)
# Z-score & Probabilitas
z_sample <- (157 - mu) / SE
prob_sample <- pnorm(z_sample)
z_population <- (170 - mu) / sigma
prob_population_right <- 1 - pnorm(z_population)
theme_minimal_custom <- theme_minimal(base_size = 14) +
theme(
plot.title = element_text(
face = "bold", size = 16, color = "#1A1A1A",
hjust = 0.5 # <--- CENTER TITLE
),
axis.title = element_text(face = "bold", size = 13),
axis.text = element_text(size = 12),
panel.grid.minor = element_blank()
)
# GRAPHIC 1: DISTRIBUSI SAMPLING
x_samp <- seq(mu - 4*SE, mu + 4*SE, length.out = 500)
df_samp <- data.frame(
x = x_samp,
y = dnorm(x_samp, mean = mu, sd = SE)
)
ggplot(df_samp, aes(x, y)) +
geom_line(color = "#1B76D1", linewidth = 1.3) +
geom_area(
data = subset(df_samp, x <= 157),
aes(x, y),
fill = "#1B76D1", alpha = 0.35
) +
geom_vline(
xintercept = 157,
color = "#D11B66",
linetype = "dashed",
linewidth = 1
) +
labs(
title = "Distribusi Sampling — P(mean < 157)",
x = "Rata-rata Sampel (cm)",
y = "Kepadatan"
) +
annotate(
"text",
x = 157 + 0.5,
y = max(df_samp$y)*0.6,
label = paste0(
"157 cm\nZ = ", round(z_sample, 3),
"\nP = ", round(prob_sample, 4)
),
hjust = 0,
size = 4.5
) +
theme_minimal_custom
Interpretasi:
Grafik menunjukkan bahwa peluang rata-rata tinggi 10 orang acak kurang dari 157 cm adalah kecil, karena 157 cm berada cukup jauh di bawah rata-rata populasi (160 cm). Area biru yang sempit menandakan bahwa kejadian ini jarang terjadi hanya sebagian kecil sampel yang akan menghasilkan rata-rata serendah itu.
# GRAPHIC 2: DISTRIBUSI POPULASI
x_pop <- seq(mu - 4*sigma, mu + 4*sigma, length.out = 500)
df_pop <- data.frame(
x = x_pop,
y = dnorm(x_pop, mean = mu, sd = sigma)
)
ggplot(df_pop, aes(x, y)) +
geom_line(color = "#1B76D1", linewidth = 1.3) +
geom_area(
data = subset(df_pop, x >= 170),
aes(x, y),
fill = "#1B76D1", alpha = 0.35
) +
geom_vline(
xintercept = 170,
color = "#D11B66",
linetype = "dashed",
linewidth = 1
) +
labs(
title = "Distribusi Populasi — P(X > 170)",
x = "Tinggi (cm)",
y = "Kepadatan"
) +
annotate(
"text",
x = 170 + 1,
y = max(df_pop$y)*0.6,
label = paste0(
"170 cm\nZ = ", round(z_population, 3),
"\nP = ", round(prob_population_right, 4)
),
hjust = 0,
size = 4.5
) +
theme_minimal_custom
Interpretasi:
Grafik menunjukkan bahwa peluang seseorang memiliki tinggi lebih dari 170 cm itu kecil, karena 170 cm berada jauh di atas rata-rata populasi (160 cm). Area biru di kanan yang sempit menandakan bahwa hanya sebagian kecil warga yang memiliki tinggi melebihi 170 cm.
Menurut OpenStax Statistics (2020), distribusi rata-rata sampel ̄X mendekati normal bila n cukup besar, terlepas dari bentuk distribusi populasi.
Penelitian “Quantifying Central Limit Theorem Convergence” (IJRISS, 2025) menunjukkan bahwa ukuran sampel minimum bisa jauh lebih besar dari 30, tergantung distribusi populasi.
Ini menegaskan bahwa aturan n ≥ 30 adalah pedoman kasar; ukuran sampel optimal perlu disesuaikan dengan karakteristik data.
Teorema Limit Sentral (Central Limit Theorem / CLT) adalah salah satu konsep terpenting dalam statistika, terutama ketika kita bekerja dengan distribusi sampling. CLT membantu menjelaskan bagaimana rata-rata sampel berperilaku ketika kita mengambil banyak sampel dari suatu populasi, bahkan ketika populasi tersebut tidak berdistribusi normal.
Catatan ini merangkum inti dari CLT, pengaruh ukuran sampel, alasan mengapa distribusi sampling dapat mendekati normal, serta penerapan praktisnya dalam analisis data.
Distribusi semua rata-rata sampel yang dihasilkan adalah distribusi sampling.
library(ggplot2)
set.seed(123)
# Populasi: berat badan 1000 mahasiswa (kg)
pop <- rnorm(1000, mean = 60, sd = 8)
n_samp <- 10 # ukuran tiap sampel
n_rep <- 1000 # jumlah pengulangan
# Simulasi distribusi sampling
sample_means <- replicate(n_rep, mean(sample(pop, n_samp)))
df <- data.frame(mean_samp = sample_means)
# Plot histogram distribusi sampling
ggplot(df, aes(x = mean_samp)) +
geom_histogram(
bins = 30,
fill = "#7FB3D5", # biru pastel
color = "black",
alpha = 0.6
) +
labs(
title = "Distribusi Sampling: Rata-Rata Sampel (n = 10)",
x = "Rata-Rata Sampel (kg)",
y = "Frekuensi"
) +
theme_minimal(base_size = 14) +
theme(
plot.title = element_text(face = "bold", hjust = 0.5),
axis.title = element_text(face = "bold")
)
Interpretasi:
Histogram menunjukkan rata-rata sampel dari 1000 sampel
ukuran 10.
Meskipun populasi tidak sempurna normal, rata-rata sampel
membentuk kurva menyerupai distribusi normal, sesuai
Central Limit Theorem. Area puncak histogram
menunjukkan rata-rata paling umum, sedangkan nilai ekstrem jarang
terjadi.
Teorema Limit Sentral menyatakan bahwa bila ukuran sampel (n) cukup besar, maka distribusi sampling dari rata-rata sampel akan mendekati normal, terlepas dari bentuk distribusi populasi asal.
Menurut Draper & Guo (2021), CLT tetap menjadi landasan dalam banyak penerapan statistika dan data‑sains modern. Tulisan mereka menekankan pentingnya pemahaman kapan jumlah data sudah cukup agar aproksimasi normal menjadi layak, serta memperingatkan bahwa “cukup besar” bisa berbeda‑beda tergantung bentuk distribusi asal. Dengan demikian, CLT bukan sekedar aturan baku “n ≥ 30”, tapi perlu pertimbangan konteks dan karakteristik data.
Poin Pentinglibrary(ggplot2)
set.seed(123)
# Populasi skewed (misal distribusi eksponensial)
pop <- rexp(1000, rate = 0.1) # rata-rata ~10, skewed ke kanan
# Ukuran sampel dan jumlah pengulangan
n_samp <- 30
n_rep <- 1000
# Distribusi sampling
sample_means <- replicate(n_rep, mean(sample(pop, n_samp)))
df <- data.frame(
value = c(pop, sample_means),
type = rep(c("Populasi", "Sampling Mean"), c(length(pop), length(sample_means)))
)
# Plot
ggplot(df, aes(x = value, fill = type)) +
geom_histogram(aes(y = ..density..), bins = 30, color = "black", alpha = 0.5, position = "identity") +
scale_fill_manual(values = c("Populasi" = "#F5B", "Sampling Mean" = "#7FB3D5")) + # pink & biru pastel
labs(
title = "Populasi Skewed dan Distribusi Sampling Rata-Rata",
x = "Nilai",
y = "Kepadatan"
) +
theme_minimal(base_size = 14) +
theme(
plot.title = element_text(face = "bold", hjust = 0.7),
axis.title = element_text(face = "bold"),
legend.title = element_blank()
)
Interpretasi:
library(ggplot2)
set.seed(123)
# Populasi skewed
pop <- rexp(1000, rate = 0.1)
mu_pop <- mean(pop)
# Ukuran sampel & jumlah pengulangan
n_samp <- 30
n_rep <- 1000
# Hitung rata-rata sampel
sample_means <- replicate(n_rep, mean(sample(pop, n_samp)))
df <- data.frame(mean_samp = sample_means)
# Plot titik rata-rata sampel
ggplot(df, aes(x = mean_samp, y = 0)) +
geom_jitter(height = 0, width = 0.1, color = "#7FB3D5", alpha = 0.6, size = 2) +
geom_vline(xintercept = mu_pop, color = "#F5B7B1", linetype = "dashed", linewidth = 1.2) +
labs(
title = "Penyebaran Rata-Rata Sampel di Sekitar \u03BC Populasi",
x = "Rata-Rata Sampel",
y = "",
caption = "Garis putus-putus = rata-rata populasi (\u03BC)"
) +
theme_minimal(base_size = 14) +
theme(
plot.title = element_text(face = "bold", hjust = 0.5),
axis.title.y = element_blank(),
axis.text.y = element_blank(),
axis.ticks.y = element_blank()
)
Interpretasi:
| Kondisi | CLT Berlaku? | Penjelasan |
|---|---|---|
| (n ≥ 30) | Ya | Aturan umum untuk menerapkan CLT |
| (n < 30) | Tidak | Sampel kecil menghasilkan variabilitas tinggi dan hasil kurang dapat diandalkan |
| (n < 30) tetapi populasinya normal | Ya | Jika populasi sudah normal, distribusi sampling tetap normal |
library(ggplot2)
library(dplyr)
set.seed(123)
# Populasi skewed (misal eksponensial)
pop <- rexp(1000, rate = 0.1)
# Ukuran sampel berbeda
sample_sizes <- c(5, 30, 100)
n_rep <- 1000
# Hitung rata-rata sampel untuk setiap ukuran n
df_list <- lapply(sample_sizes, function(n) {
means <- replicate(n_rep, mean(sample(pop, n)))
data.frame(mean_samp = means, n = paste0("n = ", n))
})
df <- bind_rows(df_list)
# Plot histogram per ukuran sampel
ggplot(df, aes(x = mean_samp, fill = n)) +
geom_histogram(aes(y = ..density..), bins = 30, color = "black", alpha = 0.5, position = "identity") +
scale_fill_manual(values = c("n = 5" = "#F5B", "n = 30" = "#7FB", "n = 100" = "#82E")) +
labs(
title = "Perbandingan Distribusi Sampling Berdasarkan Ukuran Sampel",
x = "Rata-Rata Sampel",
y = "Kepadatan",
fill = "Ukuran Sampel"
) +
theme_minimal(base_size = 14) +
theme(
plot.title = element_text(face = "bold", hjust = 0.1),
axis.title = element_text(face = "bold")
)
Interpretasi:
Distribusi sampling adalah konsep penting dalam statistik yang membantu kita memahami bagaimana statistik sampel (misalnya proporsi) bervariasi ketika kita mengambil banyak sampel dari populasi yang sama. Dengan memahami distribusi sampling, kita bisa menaksir probabilitas hasil sampel, menghitung simpangan baku, dan menerapkan Teorema Limit Tengah untuk membuat inferensi tentang populasi secara lebih akurat.
Distribusi sampling: mengambil banyak sampel berulang-ulang, menghitung statistik (mis. p̂) untuk setiap sampel, lalu membentuk distribusi.
Proporsi: fraksi hasil yang diinginkan dibandingkan seluruh populasi.
| Istilah | Simbol | Penjelasan |
|---|---|---|
| Proporsi populasi | 𝑝 | Proporsi sebenarnya dalam seluruh populasi |
| Proporsi sampel | p̂ | Proporsi yang diperoleh dari sampel |
Menurut Statistika Dasar, distribusi sampling untuk proporsi sampel p̂ memiliki mean sama dengan proporsi populasi p, dan simpangan baku (standard error): \[\sigma_{\hat{p}} = \sqrt{\frac{p(1-p)}{n}}\]
Standard error ini menunjukkan seberapa besar variasi proporsi sampel jika kita mengambil banyak sampel acak secara berulang.
Contohlibrary(ggplot2)
# Parameter binomial
n <- 10 # ukuran sampel
p <- 0.18 # proporsi populasi
x <- 0:n
# Probabilitas binomial
prob <- dbinom(x, size = n, prob = p)
df <- data.frame(
x = x,
prob = prob
)
# Plot
ggplot(df, aes(x = factor(x), y = prob)) +
geom_bar(stat = "identity", fill = "#7FB3D5", color = "black", width = 0.7) +
labs(
title = "Distribusi Binomial:Jumlah Orang dengan Mata Hijau (n = 10, p = 0.18)",
x = "Jumlah Orang dengan Mata Hijau",
y = "Probabilitas"
) +
theme_minimal(base_size = 12) +
theme(
plot.title = element_text(face = "bold", hjust = 0.55),
axis.title = element_text(face = "bold")
)
Interpretasi:
Simpangan baku: \[\sigma_{\hat{p}} = \sqrt{\frac{p(1-p)}{n}}\]
Standardisasi (z-score): \[Z = \frac{\hat{p} - p}{\sigma_{\hat{p}}}\] Memungkinkan penggunaan tabel Z untuk menghitung probabilitas.
Menurut OpenStax (2023), proporsi sampel p̂ memiliki mean sama dengan proporsi populasi p, dengan simpangan baku:
\[\sigma_{\hat{p}} = \sqrt{\frac{p(1-p)}{n}}\]
Jika syarat CLT terpenuhi, distribusi p̂ mendekati distribusi normal sehingga Z-score dapat digunakan untuk menghitung probabilitas.
set.seed(123)
# Parameter
p <- 0.18
n <- 10
n_rep <- 1000
# Simulasi sampel
sample_props <- replicate(n_rep, mean(rbinom(n, 1, p)))
df <- data.frame(prop = sample_props)
# 1. Distribusi Sampling 𝑝̂
ggplot(df, aes(x = prop)) +
geom_histogram(aes(y = ..density..), bins = n+1, fill = "#7FB3D5", color = "black", alpha = 0.6) +
labs(
title = "Distribusi Sampling Proporsi (p̂) dari Sampel n=10",
x = "Proporsi Sampel (p̂)",
y = "Kepadatan"
) +
theme_minimal(base_size = 14) +
theme(plot.title = element_text(face="bold", hjust = 0.5),
axis.title = element_text(face="bold"))
# 2. Aproksimasi Kurva Normal
se <- sqrt(p*(1-p)/n) # simpangan baku 𝜎𝑝^
x_vals <- seq(0, 1, length.out = 500)
y_vals <- dnorm(x_vals, mean = p, sd = se)
df_norm <- data.frame(x = x_vals, y = y_vals)
ggplot(df, aes(x = prop)) +
geom_histogram(aes(y = ..density..), bins = n+1, fill = "#7FB3D5", color = "black", alpha = 0.6) +
geom_line(data = df_norm, aes(x = x, y = y), color = "#F5B7B1", linewidth = 1.5) +
labs(
title = "Aproksimasi Kurva Normal pada Distribusi Sampling (p̂)",
x = "Proporsi Sampel (p̂)",
y = "Kepadatan"
) +
theme_minimal(base_size = 14) +
theme(plot.title = element_text(face="bold", hjust = 0.5),
axis.title = element_text(face="bold"))
# 3. Standardisasi Z-score
z_scores <- (sample_props - p)/se
df_z <- data.frame(z = z_scores)
ggplot(df_z, aes(x = z)) +
geom_histogram(aes(y = ..density..), bins = 20, fill = "#7FB3D5", color = "black", alpha = 0.6) +
geom_density(color = "#F5B7B1", linewidth = 1.5) +
labs(
title = "Distribusi Z-score dari Proporsi Sampel (p̂)",
x = "Z-score",
y = "Kepadatan"
) +
theme_minimal(base_size = 14) +
theme(plot.title = element_text(face="bold", hjust = 0.5),
axis.title = element_text(face="bold"))
Interpretasi:
Visualisasi ini memperlihatkan hubungan antara distribusi sampel, normalisasi, dan probabilitas kumulatif secara intuitif.
| Syarat | Persyaratan |
|---|---|
| 1 | 𝑛𝑝 ≥ 10 |
| 2 | 𝑛(1−𝑝) ≥ 10 |
Sebagaimana dijelaskan dalam Metode Statistik, syarat n p ≥ 10 dan n (1 − p) ≥ 10 diperlukan agar aproksimasi normal pada distribusi proporsi valid.
Jika syarat ini terpenuhi, distribusi p̂ akan cenderung berbentuk normal sehingga kita bisa menggunakan tabel Z untuk memperkirakan probabilitas.
Bandingkan dengan distribusi rata-rata, yang memerlukan n ≥ 30 untuk CLT.)
library(ggplot2)
# Parameter contoh
p <- 0.18
n <- 100
np <- n * p
n1p <- n * (1 - p)
df <- data.frame(
condition = c("n*p", "n*(1-p)"),
value = c(np, n1p)
)
# Plot bar
ggplot(df, aes(x = condition, y = value, fill = condition)) +
geom_bar(stat = "identity", color = "black", width = 0.5) +
geom_hline(yintercept = 10, linetype = "dashed", color = "#D11B66", linewidth = 1) +
annotate("text", x = 1.5, y = 11, label = "Batas CLT ≥ 10", color = "#D11B66", size = 4) +
scale_fill_manual(values = c("n*p" = "#7FB3D5", "n*(1-p)" = "#82E0AA")) +
labs(
title = "Ilustrasi Syarat CLT untuk Proporsi Sampel",
x = "Kondisi",
y = "Nilai",
fill = ""
) +
theme_minimal(base_size = 14) +
theme(
plot.title = element_text(face="bold", hjust = 0.5),
axis.title = element_text(face="bold")
)
Interpretasi:
Distribusi sampling p̂ pada dasarnya merupakan normalisasi dari distribusi binomial. Ketika syarat CLT terpenuhi, distribusi p̂ mendekati distribusi normal sehingga tabel Z dapat digunakan.
Distribusi sampling baik untuk rata‑rata maupun proporsi merupakan pilar inferensi statistik menurut buku‑buku klasik. Dengan menggunakan sampling acak dan ukuran sampel yang sesuai, kita bisa memperkirakan karakteristik populasi dan mengukur ketidakpastian menggunakan standard error. Ini menjadikan distribusi sampling alat penting dalam penelitian, survei, dan aplikasi statistik lainnya.
Di video ini, kita akan mereview materi penting dari bagian 1 sampai 4. Kita akan menelusuri konsep distribusi sampling, probabilitas, variasi sampel, hingga bagaimana Teorema Limit Tengah membantu kita memahami distribusi rata-rata sampel. Semua yang kamu pelajari sebelumnya akan kita rangkum dan lihat kaitannya, jadi lebih mudah diingat dan dipahami.
Probabilitas keberhasilan: \[P(\text{Sukses}) = \frac{\text{jumlah hasil yang berhasil}}{\text{total percobaan}}\]
Probabilitas kegagalan: \[P(\text{Gagal}) = 1 - P(\text{Sukses})\]
Metode Ruang Sampel: dipakai untuk kasus n kecil, memberi probabilitas eksak dari semua kemungkinan hasil.
Masalah probabilitas setidaknya k keberhasilan = jumlah probabilitas untuk tepat k, k+1, … hingga n keberhasilan.
Memberikan peluang mendapatkan keberhasilan yang tepat dalam sejumlah percobaan tetap.
Komponen:
N = jumlah percobaan
k = jumlah
keberhasilan
P = probabilitas keberhasilan
Q = probabilitas
kegagalan (1 − P)
Cocok untuk n menengah (5–30) dan hasil probabilitas tepat (eksak).
Distribusi proporsi sampel (p̂) terbentuk dari banyak sampel acak, dihitung proporsinya, dan digabung menjadi distribusi.
Simpangan baku proporsi sampel: \[\sigma_{\hat{p}} = \sqrt{\frac{p(1-p)}{n}}\]
Standardisasi (Z-score): \[Z = \frac{\hat{p} - p}{\sigma_{\hat{p}}}\]
Syarat CLT untuk proporsi: n⋅p ≥ 10
n⋅(1−p) ≥
10
Distribusi (p̂) mendekati normal jika syarat CLT terpenuhi, memungkinkan penggunaan tabel Z untuk probabilitas.
| Metode | Kasus Pakai | Akurasi |
|---|---|---|
| Ruang Sampel | n kecil (Exact) | Akurat |
| Rumus Binomial | n menengah (5–30) | Akurat |
| Pendekatan Normal | n besar (>30) + syarat CLT | Perkiraan |
| No. | Soal | Penjelasan Singkat |
|---|---|---|
| 1 | Ruang Sampel (n = 3) – Toples berisi 200 marmer hijau & 300 biru (total 500). Ambil 3 kelereng. Hitung probabilitas ≥ 2 hijau. |
|
| 2 | Distribusi Binomial (n = 5) – p = 0,4 (hijau). Hitung probabilitas ≥ 2 hijau. |
|
| 3 | Pendekatan Normal (n = 100) – Populasi p = 0,4. Dari 100 tarikan, 35 hijau → 𝑝̂ = 0,35. Hitung z‑score & probabilitas ≥ 35 hijau. |
|
| 4 | Cek Syarat CLT – Apakah kondisi CLT terpenuhi? |
|
library(ggplot2)
library(gridExtra)
set.seed(123)
# --- 1. Ruang Sampel n=3 ---
n1 <- 3
p1 <- 0.4
x1 <- 0:n1
prob1 <- dbinom(x1, size = n1, prob = p1)
df1 <- data.frame(x = x1, prob = prob1)
plot1 <- ggplot(df1, aes(x = factor(x), y = prob)) +
geom_bar(stat="identity", fill="#F5B7B1", color="black", width=0.6) +
labs(title="1. Ruang Sampel (n=3)", x="Jumlah Hijau", y="Probabilitas") +
theme_minimal(base_size = 12) +
theme(plot.title=element_text(face="bold", hjust=0.5))
# --- 2. Distribusi Binomial n=5 ---
n2 <- 5
p2 <- 0.4
x2 <- 0:n2
prob2 <- dbinom(x2, size = n2, prob = p2)
df2 <- data.frame(x = x2, prob = prob2)
plot2 <- ggplot(df2, aes(x = factor(x), y = prob)) +
geom_bar(stat="identity", fill="#7FB3D5", color="black", width=0.6) +
labs(title="2. Distribusi Binomial (n=5)", x="Jumlah Hijau", y="Probabilitas") +
theme_minimal(base_size = 12) +
theme(plot.title=element_text(face="bold", hjust=0.5))
# --- 3. Pendekatan Normal n=100 ---
n3 <- 100
p3 <- 0.4
p_hat <- 35/100
se3 <- sqrt(p3*(1-p3)/n3)
z <- (p_hat - p3)/se3
x3 <- seq(0, 1, length.out = 500)
y3 <- dnorm(x3, mean=p3, sd=se3)
df3 <- data.frame(x=x3, y=y3)
plot3 <- ggplot(df3, aes(x=x, y=y)) +
geom_line(color="#82E0AA", size=1.5) +
geom_vline(xintercept = p_hat, color="#D11B66", linetype="dashed", size=1) +
labs(title="3. Pendekatan Normal (n=100)", x="Proporsi Sampel", y="Kepadatan") +
annotate("text", x=p_hat+0.03, y=max(y3)*0.8,
label=paste0("p̂=0.35\nZ=", round(z,2)), color="#D11B66") +
theme_minimal(base_size = 12) +
theme(plot.title=element_text(face="bold", hjust=0.5))
# --- 4. Cek Syarat CLT ---
np <- n3 * p3
n1p <- n3 * (1-p3)
df4 <- data.frame(cond=c("n*p","n*(1-p)"), value=c(np,n1p))
plot4 <- ggplot(df4, aes(x=cond, y=value, fill=cond)) +
geom_bar(stat="identity", width=0.5, color="black") +
geom_hline(yintercept = 10, linetype="dashed", color="#D11B66", size=1) +
annotate("text", x=1.5, y=11, label="Batas CLT ≥ 10", color="#D11B66", size=4) +
scale_fill_manual(values=c("n*p"="#7FB3D5","n*(1-p)"="#82E0AA")) +
labs(title="4. Cek Syarat CLT", x="", y="Nilai") +
theme_minimal(base_size = 12) +
theme(plot.title=element_text(face="bold", hjust=0.5),
axis.title=element_text(face="bold"),
legend.position="none")
# Gabungkan semua plot
grid.arrange(plot1, plot2, plot3, plot4, ncol=1)
Materi ini membahas variabel kontinu, PDF, CDF, distribusi sampling rata-rata dan proporsi, distribusi binomial, serta pendekatan probabilitas menggunakan Teorema Limit Tengah (CLT). Pemahaman konsep-konsep ini memungkinkan kita menghitung probabilitas pada interval, menganalisis variasi statistik sampel, menggunakan standardisasi Z-score, serta membuat inferensi yang lebih akurat terhadap populasi. Visualisasi seperti histogram, kurva kepadatan, dan kurva normal membantu memudahkan interpretasi distribusi sampel dan kumulatif probabilitas.