Probability Distribution
Assignment ~ Week 11
Arya Fharezi
NIM Mahasiswa : 522500081 About Probability Distribution
Distribusi probabilitas bukan sekadar alat prediksi, melainkan jantung dari statistik inferensial yang menjadi fondasi utama pengambilan keputusan berbasis data. Melalui penggunaan variabel acak, kita dapat memetakan pola penyebaran hasil eksperimen untuk memahami perilaku data yang sesungguhnya. Pemahaman mendalam mengenai pola distribusi ini sangat krusial, karena memungkinkan kita tidak hanya menghitung peluang saat ini, tetapi juga menarik kesimpulan dan memprediksi tren masa depan dengan akurasi tinggi.
Materi ini dirancang untuk mengupas tuntas empat konsep esensial: Variabel Acak Kontinu, Distribusi Sampel, Teorema Limit Pusat (CLT), dan Distribusi Proporsi Sampel. Untuk memastikan pemahaman yang utuh, setiap topik diperkaya dengan video instruksional yang membantu visualisasi konsep abstrak. Dengan menguasai pilar-pilar ini, kita akan memiliki landasan yang kokoh untuk melakukan analisis data yang tajam, membangun model statistik yang presisi, serta menghasilkan kesimpulan yang dapat dipertanggungjawabkan secara ilmiah.
2 Continuous Random
Konsep Dasar
Dalam mempelajari probabilitas, langkah pertamanya adalah membedakan asal data, apakah didapat dari menghitung atau mengukur. Pembedaan ini membagi variabel menjadi dua jenis, yaitu Diskrit dan Kontinu. Pemahaman ini sangat krusial karena menjadi gerbang masuk untuk memahami topik utama kita saat ini, yaitu Variabel Kontinu.
2.1 Variabel Diskrit
Definisi Variabel Diskrit
Variabel diskrit adalah jenis data yang dapat dihitung (Countable) yaitu yang nilainya didapatkan melalui proses pencacahan atau penghitungan. Karakteristik utamanya adalah nilainya terbatas (finite) dan terpisah satu sama lain.
Analogi Variabel Diskrit
Anak Tangga 3
Anak Tangga 2
Anak Tangga 1
✗ = “Anak tangga ke-1,5” tidak mungkin
Bayangkan sebuah tangga. Anda hanya bisa berdiri di anak tangga ke-1, ke-2, atau ke-3. Anda tidak bisa berdiri di “anak tangga ke-1,5”. Sama halnya dengan variabel diskrit, datanya “melompat” dari satu angka ke angka berikutnya.
Memahami Variabel Diskrit
Biar gampang, coba bayangkan kita lagi mendata jumlah anak dalam satu keluarga. Jawabannya pasti angka bulat seperti 0, 1, atau 2. Secara logika, nggak mungkin dong ada keluarga yang punya 0,73 anak. Tapi jangan sampai terkecoh mengira variabel diskrit itu wajib bilangan bulat tanpa koma.
Contohnya uang, misalnya saldo $420,69, Walaupun ada desimalnya, angka ini tetap disebut diskrit. Kenapa? Karena nilainya punya mentoknya, yaitu berhenti di dua digit (sen). Kita nggak bisa memecah uang terus-terusan menjadi pecahan yang tak terhingga (tidak ada uang 0,001 sen). Jadi intinya, selama angkanya berhenti dan langkah hitungannya jelas, itu tetap masuk kategori diskrit.
2.2 Variabel Kontinu
Definisi Variabel Kontinu
Variabel kontinu adalah jenis data yang didapatkan melalui proses pengukuran (Measuring), bukan penghitungan. Karakteristik utamanya adalah memiliki nilai yang tak terhingga (Infinite) dalam suatu rentang, artinya data ini bisa berupa angka pecahan atau desimal yang sangat presisi dan tidak terputus.
Analogi Konsep Kontinu
Konsep infinity ini dijelaskan dengan analogi yang sangat cerdas tentang Usia. Coba bayangkan kita sedang melihat umur seseorang menggunakan lensa kamera yang bisa di-zoom terus-menerus:
Saat pertama melihat, kita hanya bilang umur dia “23 tahun”. Terlihat bulat dan sederhana.
Saat kita perbesar, ternyata angka itu tidak bulat. Ada detailnya: “23 tahun, 6 bulan”.
Kalau kita zoom lagi sampai level mikroskopis, angkanya menjadi sangat panjang: 23 tahun, 6 bulan, 2 hari, 3 jam, 1 detik, 5 nanodetik… dan seterusnya.
Ternyata, di antara angka 23 dan 24 itu ada ruang kosong yang sangat luas. Waktu, berat, atau jarak bisa dipecah terus-menerus sampai kepingan terkecil tanpa ujung. Karena datanya bersambung terus tanpa putus (unbroken), makanya disebut Kontinu.
Variabel Acak Kontinu
Suatu variabel acak dikategorikan sebagai kontinu apabila variabel tersebut dapat mengambil nilai apa pun dalam suatu interval pada garis bilangan riil (tidak terbatas pada bilangan bulat).
Karakteristik :
- Nilai dalam Interval: Variabel mengambil nilai dalam rentang
tertentu (misalnya \(a < x < b\)
atau \(-\infty < x <
\infty\)).
- Probabilitas Titik adalah Nol: Probabilitas terjadinya suatu titik
tunggal spesifik selalu bernilai nol (\(P(X=c)
= 0\)). Oleh karena itu, probabilitas hanya bermakna jika
dihitung dalam suatu interval.
Fungsi Kepadatan Probabilitas (PDF)
Fungsi \(f(x)\) dinyatakan sebagai PDF
yang valid jika memenuhi dua syarat mutlak:
1. Non-negatif: \(f(x) \ge 0\) untuk semua nilai \(x\).
2. Luas Total Unit: Integral
seluruh area di bawah kurva harus sama dengan 1.
\[\int_{-\infty}^{\infty} f(x) \,dx =
1\]
Catatan: Nilai \(f(x)\) mencerminkan kepadatan peluang,
bukan nilai probabilitas langsung. Probabilitas hanya diperoleh dari
luas area di bawah kurva.
Perhitungan Probabilitas pada Interval
Probabilitas variabel acak \(X\) berada
dalam rentang \(a\) hingga \(b\) dihitung dengan mengintegralkan fungsi
PDF pada interval tersebut:
\[P(a \le X
\le b) = \int_{a}^{b} f(x) \,dx\]
Fungsi Distribusi Kumulatif (CDF)
Definisi dari CDF adalah Fungsi yang menghitung total peluang dari nilai
terendah hingga titik \(x\)
tertentu.\[F(x) = P(X \le x)\]
Hubungan matematisnya adalah PDF merupakan turunan dari CDF: \[f(x) = F'(x)\]
2.3 Perbedaan Grafik
Dalam statistik, distribusi probabilitas variabel acak diskrit dan variabel acak kontinu disajikan secara berbeda. Satu dapat disajikan menggunakan diagram batang (bar chart) dan yang lainnya dapat disajikan menggunakan histogram.
Bar Chart vs. Histogram
Sifat data yang berbeda menuntut grafik yang berbeda
Diskrit = Terpisah
Kontinu = Bersambung
2.4 Hubungan Dengan Probabilitas
Dalam statistika, metode penyajian distribusi probabilitas dan perhitungan peluang dibedakan secara fundamental berdasarkan jenis variabel acaknya. Hal ini dikarenakan karakteristik data diskrit yang terputus-putus berbeda dengan data kontinu yang bersambung tanpa henti.
Variabel Acak Diskrit
\(P(k) = \binom{n}{k} p^k (1-p)^{n-k}\)
Menghitung peluang sukses sebanyak \(k\) kali dari total \(n\) percobaan.
\(P(A \cup B) = P(A) + P(B) - P(A \cap B)\)
Menghitung peluang kejadian A atau B (salah satu terjadi).
\(P(A \cap B) = P(A) \times P(B)\)
Menghitung peluang kejadian A dan B terjadi bersamaan (independen).
\(P(A^c) = 1 - P(A)\)
Menghitung peluang kejadian A tidak terjadi.
Variabel Acak Kontinu
\(A = L \times W\)
Dipakai kalau grafik peluangnya bentuk kotak rata (Distribusi Seragam).
\(A = \frac{b \times h}{2}\)
Dipakai kalau grafik density curve-nya berbentuk segitiga. Kita cari luas segitiganya buat dapat peluangnya.
\(Z = \frac{x - \mu}{\sigma}\)
Mengubah nilai data asli (\(x\)) menjadi Skor Standar (\(z\)).
3 Sampling Distributions
3.1 Konsep Dasar
Definisi Distribusi Populasi
Distribusi Populasi adalah representasi grafis dari data mentah keseluruhan individu atau objek yang menjadi fokus penelitian. Ini mencakup semua orang atau objek yang ada dalam kelompok yang diteliti (misalnya, tinggi badan semua 10.000 orang), sehingga grafik ini dianggap sebagai distribusi data aslinya.
Definisi Distribusi Sampel
Distribusi Sampel (Sample Distribution) adalah nilai-nilai individu yang kita kumpulkan hanya dari satu kelompok kecil yang ditarik dari populasi. Jika kita mengambil 5 orang dan mengukur tinggi mereka satu per satu, grafik yang kita buat dari 5 data tersebut adalah Distribusi Sampel. Distribusi ini hanya memberikan gambaran tentang sampel itu saja dan dicirikan oleh \(\bar{x}\) (rata-rata sampel) dan \(s\) (simpangan baku sampel).
Definisi Distribusi Sampling
Distribusi Sampling (Sampling Distribution). Bayangkan kamu mengambil sampel misal 10 orang, hitung rata-ratanya (\(\bar{x}\)), lalu catat. Terus kamu ulangi lagi: ambil 10 orang lain, hitung rata-ratanya, catat lagi. Lakukan ini ratusan kali sampai kamu punya tumpukan data rata-rata. Grafik dari tumpukan rata-rata inilah yang disebut Sampling Distribution. Intinya Sampling Distribution adalah distribusi dari kumpulan statistik (seperti rata-rata) yang diambil berulang kali dari populasi.
3.2 Perbandingan Distribusi Populasi vs Distribusi Sampling
| Aspek | Distribusi Populasi | Distribusi Sampling |
|---|---|---|
| Fokus Data | Mengukur setiap individu (\(X\)) | Mengukur rata-rata sampel (\(\bar{x}\)) dari banyak sampel |
| Mean (Rata-rata) | \(\mu\) (Mu) | \(\mu_{\bar{x}} = \mu\) (Sama persis dengan populasi) |
| Sebaran | Lebar (Variasi tinggi) | Sempit (Variasi rendah karena rata-rata lebih stabil) |
| Standar Deviasi | \(\sigma\) (Sigma) | Standard Error (\(\sigma_{\bar{x}}\)) = \(\frac{\sigma}{\sqrt{n}}\) |
| Rumus Z-Score | \(Z = \frac{x - \mu}{\sigma}\) | \(Z = \frac{\bar{x} - \mu}{\frac{\sigma}{\sqrt{n}}}\) |
Catatan
Standar deviasi di Sampling Distribution disebut Standard Error. Nilainya selalu lebih kecil karena dibagi akar \(n\).
3.3 Contoh Perhitungan
Standard Error =
\(7 / \sqrt{10} = 2.21\).
Z-Score = \((157 - 160) / 2.21 = -1.36\).
peluangnya adalah 8.69%.
Z-Score = \((170 - 160) / 7 = 1.43\).
proporsinya adalah
7.64%.
Jika soal bertanya tentang peluang untuk satu individu, gunakan \(\sigma\). Jika soal bertanya tentang peluang untuk rata-rata sekelompok (\(n\)), gunakan \(\sigma / \sqrt{n}\).
4 Central Limit Theorem (CLT)
4.1 Definisi Central Limit Theorem
Definisi
Central Limit Theorem (CLT) atau Teorema Batas Pusat adalah prinsip dasar dalam statistik yang menyatakan bahwa distribusi sampling dari rata-rata sampel (sample means) akan mendekati Distribusi Normal (berbentuk kurva lonceng) seiring dengan bertambahnya ukuran sampel (\(n\)), terlepas dari bagaimanapun bentuk distribusi populasi aslinya.
Bunyi Teorema
“Jika ukuran sampel (\(n\)) cukup besar, maka sampling distribution dari rata-rata sampel (\(\bar{x}\)) akan berbentuk Distribusi Normal (kurva lonceng), tidak peduli apa pun bentuk distribusi populasi aslinya”
4.2 Aturan Umum Central Limit Theorem
Aturan Praktis (Rule of Thumb): “The Magic Number 30”
Jika ukuran sampel yang diambil adalah 30 atau lebih, dampaknya Teorema Limit Pusat berlaku sepenuhnya. Distribusi sampling dari rata-rata sampel (\(\bar{x}\)) diasumsikan berdistribusi Normal.Pada tingkat ini, variabilitas rata-rata sampel menjadi stabil. Sekalipun populasi aslinya sangat miring (skewed), rata-rata dari banyak sampel berukuran besar akan tetap membentuk kurva lonceng yang simetris. otomatis jadi rapi (lonceng).
Jika ukuran sampel yang diambil kurang dari 30 dampaknya, Teorema Limit Pusat umumnya tidak berlaku. Distribusi sampling kemungkinan besar tidak akan berbentuk normal, melainkan mengikuti ketidakaturan bentuk populasi aslinya. Risikonya menggunakan rumus statistik parametrik (seperti uji-Z) pada kondisi ini berisiko menghasilkan kesimpulan yang tidak akurat karena asumsi normalitas tidak terpenuhi.
Pengecualian Penting
Terdapat satu pengecualian, jika diketahui bahwa populasi aslinya sudah berdistribusi normal, maka distribusi sampling akan selalu normal, berapapun ukuran sampelnya (bahkan untuk \(n < 30\)).
Tabel untuk menentukan kapan distribusi sampling (\(\bar{x}\)) dianggap normal.
| Bentuk Distribusi Populasi Asli | Ukuran Sampel (n) | Bentuk Distribusi Sampling (\(\bar{x}\))) | Keterangan |
|---|---|---|---|
| Miring / Tidak Beraturan | \(n \geq 30\) | Normal | Memenuhi syarat CLT (Sampel Besar). |
| Miring / Tidak Beraturan | \(n < 30\) | Tidak Normal | Tidak memenuhi syarat CLT. |
| Normal | \(n < 30\) | Normal | Mengikuti sifat populasi asal. |
| Normal | \(n \geq 30\) | Normal | Sangat valid (Populasi normal & sampel besar). |
library(ggplot2)
library(gridExtra)
library(patchwork)
library(moments) # Untuk skewness()
set.seed(123)
n_population <- 10000
populasi <- 15 - rexp(n_population, rate = 0.5)
n_simulasi <- 10000
ukuran_sampel <- 30
rata_rata_sampel <- numeric(n_simulasi)
for (i in 1:n_simulasi) {
sampel <- sample(populasi, ukuran_sampel, replace = TRUE)
rata_rata_sampel[i] <- mean(sampel)
}
library(ggplot2)
library(patchwork)
library(grid)
# KURVA DISTRIBUSI MIRING (POPULASI)
x1 <- seq(-3, 2, length.out = 100)
y1 <- dgamma(x1 + 3, shape = 2, scale = 0.5) # Kurva miring kiri
plot_populasi <- ggplot() +
geom_area(aes(x = x1, y = y1),
fill = "#FF6B8B", alpha = 0.7, color = "#C2185B", size = 1) +
labs(title = "DISTRIBUSI POPULASI ASLI",
subtitle = "(Miring / Tidak Beraturan)",
x = "Nilai",
y = "Densitas") +
theme_minimal() +
theme(
plot.title = element_text(face = "bold", size = 16, hjust = 0.5, color = "#800000"),
plot.subtitle = element_text(hjust = 0.5, color = "#666666"),
panel.grid.minor = element_blank(),
plot.background = element_rect(fill = "white", color = NA)
) +
scale_x_continuous(limits = c(-3, 3)) +
annotate("text", x = -1, y = max(y1)*0.8,
label = "POPULASI\nMIRING",
color = "#800000", fontface = "bold", size = 5)
# KURVA DISTRIBUSI NORMAL (SAMPLING)
x2 <- seq(-3, 3, length.out = 100)
y2 <- dnorm(x2, mean = 0, sd = 0.8)
plot_sampling <- ggplot() +
geom_area(aes(x = x2, y = y2),
fill = "#2196F3", alpha = 0.7, color = "#0D47A1", size = 1) +
labs(title = "DISTRIBUSI SAMPLING RATA-RATA",
subtitle = "(Mendekati Distribusi Normal)",
x = "Rata-rata Sampel",
y = "Densitas") +
theme_minimal() +
theme(
plot.title = element_text(face = "bold", size = 16, hjust = 0.5, color = "#0D47A1"),
plot.subtitle = element_text(hjust = 0.5, color = "#666666"),
panel.grid.minor = element_blank(),
plot.background = element_rect(fill = "white", color = NA)
) +
scale_x_continuous(limits = c(-3, 3)) +
annotate("text", x = 0, y = max(y2)*0.8,
label = "SAMPLING\nNORMAL",
color = "#0D47A1", fontface = "bold", size = 5)
# PLOT DENGAN PANAH TRANSFORMASI
# canvas kosong untuk panah
plot_arrow <- ggplot() +
annotate("segment",
x = 0, xend = 1, y = 0.5, yend = 0.5,
arrow = arrow(type = "closed", length = unit(0.3, "inches")),
size = 2, color = "#FF9800") +
annotate("text", x = 0.5, y = 0.7,
label = expression(bold("CLT: n" >= "30")),
color = "#FF9800", fontface = "bold", size = 6) +
theme_void() +
theme(plot.background = element_rect(fill = "white", color = NA))
# 4. LAYOUT FINAL
final_plot <- plot_populasi + plot_arrow + plot_sampling +
plot_layout(ncol = 3, widths = c(1, 0.3, 1)) +
plot_annotation(
title = 'VISUALISASI CENTRAL LIMIT THEOREM',
subtitle = 'Transformasi dari populasi miring ke distribusi normal melalui sampling',
caption = 'Asumsi: Ukuran sampel cukup besar (n ≥ 30)',
theme = theme(
plot.title = element_text(size = 24, face = "bold", hjust = 0.5,
color = "#800000", margin = margin(t = 10, b = 5)),
plot.subtitle = element_text(size = 14, hjust = 0.5,
color = "#444444", margin = margin(b = 15)),
plot.caption = element_text(size = 12, hjust = 0.5,
color = "#666666", margin = margin(t = 10)),
plot.background = element_rect(fill = "white", color = NA),
plot.margin = margin(20, 20, 20, 20)
)
)
print(final_plot)
ggsave("CLT_Visual_Konseptual.png",
plot = final_plot,
width = 16,
height = 8,
dpi = 300,
bg = "white")Interpretasi Visualisasi
Visualisasi ini membuktikan mekanisme kerja Central Limit Theorem, meskipun Populasi Asli (grafik kiri) memiliki bentuk yang miring atau tidak beraturan, pengambilan sampel dengan ukuran besar (\(n \ge 30\)) mampu menetralkan ketidakaturan tersebut. Hasilnya, Distribusi Sampling (grafik kanan) bertransformasi menjadi bentuk kurva lonceng (Normal) yang simetris dan stabil, sehingga valid untuk dianalisis menggunakan metode statistik standar tanpa memandang bentuk data awalnya.
4.3 Urgensi Central Limit Theorem
Mengapa Teorema Ini Penting dalam Analisis Data Statistik?
Dalam dunia nyata, data populasi jarang sekali berdistribusi normal sempurna, data seringkali miring (skewed) atau berantakan.
CLT memungkinkan peneliti untuk tetap menggunakan metode statistik yang berbasis distribusi normal (seperti menghitung probabilitas, interval kepercayaan, dll.) pada populasi yang tidak normal, asalkan syarat ukuran sampel (\(n \geq 30\)) terpenuhi.
Tanpa CLT, analisis statistik akan sangat terbatas karena mayoritas data dunia nyata tidak normal. CLT memberikan “jalan keluar” praktis untuk tetap menggunakan metode statistik normal pada data non-normal.
4.4 Implementasi Soal
6 Contoh Soal Central Limit Theorem (CLT)
Tidak Normal (n < 30)
Normal
5 Sample Proportion
5.1 Distribusi Sampling
Definisi Distribusi Sampling
Distribusi sampling melibatkan pengambilan sampel secara berulang dari suatu populasi, menghitung statistik untuk setiap sampel individu (seperti \(\bar{x}\) atau \(\hat{p}\)), dan kemudian menggabungkan informasi tersebut ke dalam grafik untuk membuat distribusi. Distribusi inilah yang disebut distribusi sampling.
5.2 Proporsi
Definisi Proporsi
Dalam statistik, proporsi menggambarkan pecahan dari hasil yang diinginkan (favorable outcomes) dalam kaitannya dengan keseluruhan. Hasil yang diinginkan hanyalah variabel apa pun yang sedang kamu coba pelajari. Contohnya: tinggi seseorang, berat badan, warna mata, atau nilai tes yang mereka dapatkan. Ini semua adalah variabel terukur yang bisa kita catat dari populasi atau sampel.
Metode Pengukuran Proporsi
Metode 1: Menggunakan Sampel
Mengambil sampel dan melihat berapa banyak orang yang memiliki mata hijau dalam sampel tersebut.
Metode 2: Menggunakan Populasi
Mewawancarai seluruh populasi dan mencatat berapa banyak orang yang memiliki mata hijau.
Rumus Dasar Proporsi
\[\text{Proporsi} = \frac{\text{jumlah hasil yang menguntungkan}}{\text{jumlah total hasil}}\]
• \(\hat{p}\) dibaca “P-hat” (P
topi). Nilainya berubah-ubah tergantung sampel yang diambil.
• \(p\) adalah nilai tetap dari populasi yang
sebenarnya (jika diketahui).
Perhitungan Proporsi
Contoh: Ukuran sampel = 10 orang, 2 orang bermata hijau
\(\hat{p} = \frac{2}{10} = 0.2\)
Proporsi sampel = 20% orang bermata hijau dalam sampel
Contoh: Populasi = 5.000 orang, 900 orang bermata hijau
\(p = \frac{900}{5000} = 0.18\)
Proporsi populasi = 18% orang bermata hijau dalam populasi
• Perhitungan proporsi menggunakan rumus yang sama: jumlah sukses ÷
total.
• Perbedaan hanya pada sumber data: sampel (n) vs populasi
(N).
• Dalam contoh: sampel menunjukkan 20%, populasi sebenarnya
18%.
5.3 Distribusi Sampling dari Proporsi Sampel
Jika pengambilan sampel dilakukan berulang kali dari populasi asli dan nilai \(\hat{p}\) dihitung untuk setiap sampel, akan ditemukan banyak hasil yang berbeda.
0.21 0.19 0.17
Kemungkinannya tidak terbatas. Nilai \(\hat{p}\) bergantung pada data yang dikumpulkan dari sampel, dan setiap sampel dapat berbeda akibat faktor probabilitas.Jika seluruh nilai \(\hat{p}\) ini diambil dan diletakkan ke dalam sebuah grafik, akan terbentuk distribusi sampling dari proporsi sampel. Ini didefinisikan sebagai distribusi statistik \(\hat{p}\) yang dibuat dari pengambilan sampel acak secara berulang. Sama seperti distribusi lainnya, distribusi ini memiliki nilai untuk Rata-rata (Mean) dan Standar Deviasi.
Kumpulan semua nilai \(\hat{p}\) membentuk distribusi dengan parameter khusus:
- Nilai Mean: \(\mu_{\hat{p}} = p\)
Artinya, rata-rata dari semua \(\hat{p}\) yang digabungkan setara dengan
proporsi populasi \(p\).
- Nilai Standar Deviasi: \(\sigma_{\hat{p}}\) = \(pq / n\).
Dimana :
\(n\) = ukuran sampel.
\(p\) = proporsi hasil sukses.
\(q\) = proporsi hasil tidak sukses (\(q = 1 - p\)). - Penggunaan Tabel Z: \(\sigma_{\hat{p}}\) = \(\sqrt{p(1-p)/n}\)), maka Tabel Z-Score dan rumus standardisasi dapat digunakan untuk menghitung luas area terkait.
Berdasarkan landasan pada poin ketiga di atas, untuk menggunakan Tabel Z, nilai proporsi sampel (\(\hat{p}\)) harus distandarisasi terlebih dahulu menggunakan rumus berikut:\[Z = \frac{\hat{p} - p}{\sqrt{\frac{p(1-p)}{n}}}\]
Contoh Penerapan & Visualisasi Histogram
library(ggplot2)
library(scales)
set.seed(123)
# Parameter sesuai referensi
p <- 0.10 # p = 0.10
n <- 100 # n = 100
simulasi <- 5000
# Simulasi
data <- data.frame(
p_hat = rbinom(simulasi, n, p) / n
)
# Hitung proporsi > 0.15
prop_diatas_15 <- mean(data$p_hat > 0.15) * 100
# Visualisasi
ggplot(data, aes(x = p_hat)) +
# Histogram
geom_histogram(aes(y = ..density..),
bins = 25,
fill = "#e3f2fd",
color = "#1976d2",
alpha = 0.8) +
# Kurva normal
stat_function(fun = dnorm,
args = list(mean = p, sd = sqrt(p*(1-p)/n)),
color = "#1976d2",
size = 1.2) +
# Garis p = 0.10
geom_vline(xintercept = p,
color = "#d32f2f",
size = 1.5) +
# Area ekor > 0.15
geom_area(data = subset(data.frame(x = seq(0, 0.25, length.out = 200),
y = dnorm(seq(0, 0.25, length.out = 200),
mean = p,
sd = sqrt(p*(1-p)/n))),
x > 0.15),
aes(x = x, y = y),
fill = "#ffcdd2",
alpha = 0.6) +
# Garis batas 0.15
geom_vline(xintercept = 0.15,
color = "#ff5722",
size = 1,
linetype = "dashed") +
# Anotasi minimal
annotate("text", x = 0.10, y = 15,
label = "Mean = 0.10",
color = "#d32f2f",
size = 4.5,
fontface = "bold") +
annotate("text", x = 0.18, y = 8,
label = paste0("Ekor > 0.15\n", round(prop_diatas_15, 1), "%"),
color = "#ff5722",
size = 4) +
annotate("text", x = 0.22, y = 12,
label = expression(paste("n = 100")),
color = "#1976d2",
size = 4.5,
fontface = "bold") +
# Kosmetik
labs(x = expression(hat(p)),
y = "Densitas",
title = expression(paste("Distribusi Sampling ", hat(p), " (n=100, p=0.10)"))) +
theme_minimal() +
theme(
plot.title = element_text(hjust = 0.5, size = 14, face = "bold"),
panel.grid.minor = element_blank()
) +
scale_x_continuous(labels = percent,
limits = c(0, 0.25),
breaks = seq(0, 0.25, by = 0.05))Interpretasi Visualisasi
Grafik distribusi sampling ini menggambarkan pola probabilitas dari pengambilan sampel acak berukuran 100 (\(n=100\)) dari populasi dengan proporsi klaim awal 10% (\(p=0.10\)), di mana kurva lonceng menunjukkan bahwa sebagian besar hasil sampel seharusnya berkumpul di sekitar rata-rata 0.10. Namun, fokus utama visualisasi ini adalah pada nilai observasi sampel sebesar 15% (\(\hat{p}=0.15\)) yang ditandai garis putus-putus, di mana area merah di sebelah kanannya menunjukkan bahwa peluang (p-value) untuk mendapatkan hasil setinggi itu atau lebih secara kebetulan hanyalah 3.6%. Karena probabilitas kejadian ini sangat kecil (di bawah standar umum 5%), grafik ini memberikan bukti statistik bahwa temuan 15% tersebut merupakan penyimpangan yang signifikan dan bukan sekadar faktor keberuntungan, sehingga memicu dugaan kuat bahwa proporsi populasi yang sebenarnya mungkin lebih tinggi dari 10%.
5.4 Syarat Central Limit Theorem
6 Review Sampling Distribution
Studi Kasus: Toples Kelereng
Parameter Populasi Awal
• Kombinasi 2 hijau: (H,H,B), (H,B,H), (B,H,H) → 3 cara
\(3 × (0.4 × 0.4 × 0.6) = 0.288\)
•
Kombinasi 3 hijau: (H,H,H) → 1 cara
\(1 × (0.4 × 0.4 × 0.4) = 0.064\)
\(P(k) = \binom{n}{k} p^k (1-p)^{n-k}\)
\(P(2) = \binom{5}{2} (0.4)^2
(0.6)^3\)
0.3456
\(P(3) = \binom{5}{3} (0.4)^3
(0.6)^2\)
0.2304
\(P(4) = \binom{5}{4} (0.4)^4
(0.6)^1\)
0.0768
\(P(5) = \binom{5}{5} (0.4)^5
(0.6)^0\)
0.0102
\(n×p = 100×0.4\)
40 (≥10 ✓)
\(n×q = 100×0.6\)
60 (≥10 ✓)
\(Z = \dfrac{0.35 - 0.40}{\sqrt{\dfrac{0.4×0.6}{100}}} = -1.02\)
Tabel Z (Z=-1.02)
0.1539
Area
kiri
Area kanan
\(1 - 0.1539\)
Minimal 35
hijau
7 References
[1]Diez, D., Çetinkaya-Rundel, M., & Barr, C. D. (2019). OpenIntro Statistics (4th ed.). OpenIntro. Tautan: https://www.openintro.org/book/os/
[2]Ismay, C., & Kim, A. Y. (2019). ModernDive: Statistical Inference via Data Science. CRC Press. Tautan: https://moderndive.com/
[3]Illowsky, B., & Dean, S. (2021). Introductory Statistics. OpenStax. Tautan: https://openstax.org/details/books/introductory-statistics