Tugas 11 ~ Probability Distribution

Lulu Najla Salsabila

Student Majoring in Data Science

1 Introduction

Distribusi probabilitas adalah konsep dasar dalam teori probabilitas dan statistik yang menggambarkan bagaimana probabilitas dibagi di antara semua kemungkinan hasil dari sebuah variabel acak (random variable). Pada dasarnya, distribusi probabilitas memberikan fungsi (atau aturan) yang menetapkan probabilitas untuk tiap nilai (atau rentang nilai) yang mungkin diambil oleh variabel acak tersebut — sehingga total probabilitas dari seluruh hasil sama dengan 1. Untuk variabel acak diskrit, distribusi direpresentasikan oleh fungsi massa probabilitas (PMF — Probability Mass Function); untuk variabel acak kontinu, digunakan fungsi kerapatan probabilitas (PDF — Probability Density Function). Distribusi probabilitas memungkinkan kita menghitung ukuran-ukuran statistik penting seperti nilai harapan (expected value), varians, dan probabilitas kejadian dalam interval tertentu, serta menjadi dasar bagi inferensi statistik dan analisis data. Selain itu, distribusi probabilitas membantu memodelkan ketidakpastian dan variabilitas dalam fenomena acak—dari hasil pelemparan dadu, jumlah kejadian dalam interval waktu, hingga variabel fisik seperti berat, tinggi, atau hasil eksperimen. Pemilihan jenis distribusi yang sesuai (misalnya, distribusi diskrit vs kontinu, distribusi khusus seperti binomial, poisson, normal, dsb.) sangat penting agar model probabilitas mencerminkan karakteristik fenomena yang ingin dipahami

2 Countinuous Random

Dalam memahami probabilitas, penting untuk membedakan antara variabel diskrit dan variabel kontinu, karena masing-masing memiliki sifat, contoh, serta cara penyajian data yang berbeda.

2.1 Variabel Diskrit

Variabel diskrit adalah variabel yang hanya dapat mengambil nilai yang dapat dihitung (countable). Nilai-nilainya muncul dalam bentuk bilangan terpisah, tidak dapat berada di antara dua angka. Contohnya termasuk jumlah sisi kepala saat melempar koin, jumlah anak dalam keluarga, jumlah kelereng biru dalam kotak, atau nilai ujian. Semua contoh tersebut menunjukkan bahwa variabel diskrit berkaitan dengan proses menghitung, bukan mengukur.

Walaupun sebagian variabel diskrit dapat melibatkan angka desimal—misalnya saldo rekening sebesar 420,69 atau nilai tes 7,5—angka tersebut tetap termasuk diskrit selama jumlah kemungkinan nilainya terbatas dan dapat dihitung.

2.2 Variabel Kontinu

Berbeda dengan diskrit, variabel kontinu merupakan variabel yang diperoleh dari pengukuran dan karena itu dapat mengambil nilai numerik apa pun dalam suatu rentang tertentu. Sifatnya tidak terbatas (uncountable), karena nilai dapat terus dipecah menjadi desimal yang semakin detail.

Contoh variabel kontinu adalah usia, berat badan, suhu, dan jarak. Misalnya, seseorang mungkin berusia 23 tahun, tetapi secara lebih teliti dapat berusia 23 tahun 6 bulan 2 hari dan seterusnya. Hal yang sama berlaku untuk berat badan yang dapat diukur hingga desimal berapa pun.

Karena kemungkinannya tak terbatas, variabel kontinu tidak dapat dihitung satu per satu, tetapi dianalisis melalui rentang nilai.

2.3 Perbedaan Penyajian: Diagram Batang vs Histogram

Dalam statistik, data dari masing-masing jenis variabel disajikan dengan cara berbeda:

Variabel diskrit disajikan menggunakan diagram batang, dengan ciri adanya celah antar batang. Celah ini menunjukkan bahwa nilai-nilai bersifat terpisah atau tidak berkesinambungan.

# Data variabel diskrit
nilai_diskrit <- c(0, 1, 2, 3, 4)
frekuensi <- c(5, 12, 18, 10, 5)

# Diagram batang
barplot(
  height = frekuensi,
  names.arg = nilai_diskrit,
  main = "Diagram Batang untuk Variabel Diskrit",
  xlab = "Jumlah Kepala",
  ylab = "Frekuensi",
  col = "orange",
  border = "black"
)

Variabel kontinu disajikan menggunakan histogram, di mana tidak ada celah antar batang, mencerminkan bahwa data bersifat berkelanjutan dan dapat berada di titik mana saja dalam suatu rentang.

# Contoh variabel kontinu
set.seed(123)
data_kontinu <- rnorm(500, mean = 50, sd = 10)

# Histogram
hist(
  data_kontinu,
  breaks = 20,
  main = "Histogram untuk Variabel Kontinu",
  xlab = "Nilai",
  ylab = "Frekuensi",
  col = "orange",
  border = "black"
)

Selain histogram, variabel kontinu juga dapat direpresentasikan melalui kurva kepadatan (density curve). Pada variabel kontinu, probabilitas ditentukan oleh luas area di bawah kurva, bukan dari nilai tunggal seperti pada variabel diskrit. Kurva kepadatan yang paling dikenal adalah distribusi normal, yang akan sering digunakan pada pembahasan probabilitas lanjutan.

# Kurva kepadatan
plot(
  density(data_kontinu),
  main = "Kurva Kepadatan (Density Curve)",
  xlab = "Nilai",
  ylab = "Kepadatan",
  col = "blue",
  lwd = 2
)

2.4 Rumus Probabilitas

Rumus probabilitas yang digunakan untuk variabel diskrit dan kontinu berbeda:

1. Variabel Acak Diskrit — Probabilitas Nilai Tunggal

Untuk variabel acak diskrit, probabilitas didefinisikan sebagai:

\[ P(X = x) = \text{probabilitas bahwa } X \text{ mengambil nilai } x \]

Jika ruang sampel memiliki hasil yang saling lepas dan jumlahnya terbatas, maka:

\[ \sum_x P(X = x) = 1 \]

2. Fungsi Massa Probabilitas (Probability Mass Function / PMF)

PMF didefinisikan sebagai:

\[ f(x) = P(X = x) \]

Sifat-sifat PMF:

\[ f(x) \ge 0, \qquad \sum_x f(x) = 1 \]

3. Variabel Acak Kontinu — Probabilitas dari Rentang Nilai

Untuk variabel kontinu, probabilitas tidak dinilai pada titik tunggal, tetapi melalui luas area di bawah kurva:

\[ P(a \le X \le b) = \int_{a}^{b} f(x)\,dx \]

4. Fungsi Kepadatan Probabilitas (Probability Density Function, PDF)

PDF digunakan untuk variabel kontinu:

\[ f(x) \ge 0, \qquad \int_{-\infty}^{\infty} f(x)\,dx = 1 \]

Dan untuk satu titik:

\[ P(X = x) = 0 \] Karena kemungkinan nilai kontinu tidak terbatas.

3 Sampling Distributions

Distribusi sampel (sampling distribution) adalah konsep penting dalam statistika yang menjelaskan bagaimana nilai statistik—seperti rata-rata sampel—akan berubah apabila kita mengambil banyak sampel dari populasi yang sama. Melalui konsep ini, kita dapat memahami mengapa rata-rata sampel cenderung mendekati rata-rata populasi, serta bagaimana penyebarannya menjadi semakin sempit ketika ukuran sampel bertambah besar.

Distribusi sampel juga menjadi dasar bagi Teorema Limit Pusat (Central Limit Theorem), yang menyatakan bahwa distribusi dari rata-rata sampel akan mendekati distribusi normal, bahkan jika populasi asalnya tidak berdistribusi normal, selama ukuran sampel cukup besar. Konsep ini sangat penting dalam pengujian hipotesis, pembuatan interval kepercayaan, dan analisis data secara umum.

3.1 Distribusi Populasi

Distribusi populasi adalah distribusi yang menggambarkan semua nilai dari setiap individu dalam suatu populasi. Pada distribusi ini, seluruh anggota populasi diukur sehingga pola penyebaran datanya mencerminkan variasi nyata yang ada pada populasi tersebut. Bila variabel acak X mengikuti distribusi normal dengan mean μ dan deviasi standar σ, maka:

\[ X \sim N(\mu, \sigma^2) \]

Rumus standardisasi untuk populasi:

\[ Z = \frac{x - \mu}{\sigma} \]

3.2 Distribusi Sample

Distribusi sampel adalah distribusi yang menggambarkan nilai-nilai dalam satu sampel yang diambil dari populasi. Sampel hanya merupakan sebagian kecil populasi, sehingga nilai-nilai di dalamnya — seperti rata-rata sampel (x̄) — sering kali berbeda dari rata-rata populasi. Variasi nilai dalam satu sampel bisa lebih besar karena ukuran sampel kecil dan tidak selalu mewakili populasi dengan sempurna. Distribusi sampel hanya menggambarkan data dari satu kali pengambilan sampel, bukan dari banyak sampel.

3.3 Distribusi Sampling

Distribusi sampling adalah distribusi dari nilai-nilai statistik sampel (umumnya rata-rata sampel, x̄) yang diperoleh dari banyak sampel acak berulang yang diambil dari populasi yang sama. Setiap sampel memiliki rata-rata yang berbeda, dan ketika seluruh rata-rata ini dikumpulkan dan diplot, muncullah distribusi sampling.

Temuan penting:

Mean distribusi sampling selalu sama dengan mean populasi:

\[ \mu_{\bar{X}} = \mu \]

Deviasi standar distribusi sampling (disebut Standard Error / SE) lebih kecil daripada deviasi standar populasi:

\[ \sigma_{\bar{X}} = \frac{\sigma}{\sqrt{n}} \]

Distribusi sampling semakin mendekati normal asalkan jumlah sampel yang diambil cukup banyak (Teorema Limit Pusat).

Standardisasi untuk rata-rata sampel:

\[ Z = \frac{\bar{x} - \mu}{\sigma / \sqrt{n}} \]

3.4 Contoh

1. Diketahui bahwa tinggi semua orang Kanada mengikuti distribusi normal dengan mean 160 cm dan standar deviasi 7 cm. Berapa probabilitas bahwa rata-rata tinggi 10 orang Kanada yang dipilih secara acak kurang dari 157 cm?

Diketahui:

\[ \mu = 160,\quad \sigma = 7,\quad n = 10 \]

Ditanya: Probabilitas rata-rata tinggi 10 orang Kanada < 157 cm

Langkah 1 — Hitung Error Standar (SE)

\[ SE = \frac{7}{\sqrt{10}} = 2.21 \]

Langkah 2 — Hitung Z-score

\[ Z = \frac{157 - 160}{2.21} = -1.36 \] Langkah 3 — Lihat tabel Z

\[ P(Z < -1.36) = 0.0869 \] Jawaban: \[ P(\bar{X} < 157) = 0.0869 = 8.69\% \]

# Install and load package jika belum ada
# install.packages("ggplot2")

library(ggplot2)

# Parameter
mu <- 160
sigma <- 7
n <- 10
SE <- sigma / sqrt(n)

# Range x
x <- seq(130, 190, length.out = 400)

# ================================
# 1. Distribusi Populasi vs Sampling
# ================================
df1 <- data.frame(
  x = rep(x, 2),
  density = c(dnorm(x, mu, sigma), dnorm(x, mu, SE)),
  group = factor(rep(c("Populasi", "Distribusi Sampling (n=10)"), each = length(x)))
)

ggplot(df1, aes(x, density, color = group)) +
  geom_line(size = 1.2) +
  labs(
    title = "Perbandingan Distribusi Populasi dan Distribusi Sampling",
    x = "Tinggi Badan (cm)", y = "Kepadatan"
  ) +
  theme_minimal() +
  theme(text = element_text(size = 14))

2. Berapa proporsi semua orang Kanada yang memiliki tinggi lebih dari 170 cm?

Langkah 1: Hitung z-score (menggunakan rumus populasi)

\[ Z = \frac{170 - 160}{7} = 1.43 \]

Dari tabel Z:

\[ P(Z < 1.43) = 0.9236 \]

Langkah 2: Mencari area di kanan (lebih dari 170 cm)

\[ P(Z > 1.43) = 1 - 0.9236 = 0.0764 \] Jawaban:

\[ P(X > 170) = 0.0764 \approx 7.64\% \]

# ================================
# 2. Area untuk x > 170 (Probabilitas)
# ================================
df2 <- data.frame(
  x = x,
  density = dnorm(x, mu, sigma)
)

# Data untuk shading area
shade_x <- seq(170, 190, length.out = 200)
shade_df <- data.frame(
  x = shade_x,
  density = dnorm(shade_x, mu, sigma)
)

ggplot(df2, aes(x, density)) +
  geom_line(size = 1.2, color = "blue") +  # tambahkan color
  geom_area(data = shade_df, aes(x, density), alpha = 0.3, fill = "red") +
  labs(
    title = "Probabilitas Tinggi Badan > 170 cm",
    x = "Tinggi Badan (cm)", y = "Kepadatan"
  ) +
  theme_minimal() +
  theme(text = element_text(size = 14))

4 Central Limit Theorem

Teorema Limit Pusat (Central Limit Theorem/CLT) merupakan konsep fundamental dalam statistik inferensial yang menjelaskan perilaku distribusi rata-rata sampel. CLT menyatakan bahwa jika ukuran sampel cukup besar, distribusi rata-rata sampel akan mendekati distribusi normal, terlepas dari bentuk distribusi populasi asalnya. Hal ini memungkinkan peneliti untuk melakukan estimasi parameter populasi, uji hipotesis, dan perhitungan interval kepercayaan hanya berdasarkan data sampel. Distribusi sampling yang dihasilkan memperlihatkan bahwa rata-rata sampel cenderung berkumpul di sekitar mean populasi ( μ), dengan variasi yang diperkecil oleh ukuran sampel \(\sigma_{\bar{X}} = \frac{\sigma}{\sqrt{n}}\). CLT memiliki peran penting dalam analisis data besar dan aplikasi statistik praktis, karena memberikan dasar teoritis untuk penggunaan metode statistik berbasis normal bahkan pada populasi yang tidak normal. Pengetahuan tentang CLT memungkinkan pengambilan keputusan yang lebih akurat dan interpretasi data yang lebih dapat diandalkan.

4.1 Definisi

Teorema Limit Pusat (Central Limit Theorem) adalah prinsip mendasar dalam statistik yang menjelaskan bagaimana bentuk distribusi sampling dari mean sampel akan berperilaku ketika proses pengambilan sampel dilakukan berulang kali. Teorema ini menyatakan bahwa jika ukuran sampel cukup besar—umumnya dianggap n≥30—maka distribusi sampling dari mean sampel akan cenderung mendekati distribusi normal, meskipun distribusi populasi asal tidak berbentuk normal.

Beberapa hal penting dari CLT:

Rata-rata distribusi sampling \(\mu_{\bar{X}}\)
sama dengan rata-rata populasi (𝜇)
Simpangan baku distribusi sampling disebut standard error, yaitu \(\sigma_{\bar{X}} = \frac{\sigma}{\sqrt{n}}\)
Ukuran sampel yang cukup besar biasanya \(n \ge 30\)

Catatan Penting

Jika ukuran sampel kecil (<30) dan populasi tidak normal → CLT tidak berlaku → distribusi sampling tidak normal
Jika populasi awal sudah normal, distribusi sampling tetap normal bahkan untuk sampel kecil
CLT sangat berguna untuk analisis data besar karena memungkinkan kita menebak distribusi sampling dan membuat inferensi statistik.

4.2 Rumus Teorema Limit Pusat

1. Mean Distribusi Sampling

\[ \mu_{\bar{X}} = \mu \]

Keterangan Simbol

\(\mu_{\bar{X}}\)

Disebut mean of the sampling distribution of the sample mean — yaitu rata-rata dari seluruh mean sampel yang diperoleh dari proses pengambilan sampel berulang kali.

\(\bar{X}\)

Ini adalah mean sampel (sample mean), yaitu rata-rata dari satu sampel tertentu yang kita ambil dari populasi.

\(\mu\)

Ini adalah mean populasi, yaitu nilai rata-rata dari seluruh anggota populasi.

2. Standard Error (SE) atau Simpangan Baku Distribusi Sampling \[ \sigma_{\bar{X}} = \frac{\sigma}{\sqrt{n}} \]

Keterangan Simbol

\(\sigma_{\bar{X}}\)

Ini adalah Standard Error (SE), yaitu simpangan baku dari distribusi sampling. Standard Error menunjukkan seberapa jauh mean sampel bisa menyimpang dari mean populasi.

\(\sigma\)

Ini adalah simpangan baku populasi, yang menggambarkan variasi data asli dalam populasi.

\(n\)

Ini adalah ukuran sampel, yaitu berapa banyak data yang kita ambil dalam satu sampel.

4.3 Contoh

Untuk setiap bentuk distribusi populasi yang dijelaskan di bawah ini, tentukan opsi mana yang akan menghasilkan distribusi sampling yang mendekati normal.

Distribusi populasi berbentuk persegi/rectangular, ukuran sampel 15
Distribusi populasi bimodal, ukuran sampel 29
Distribusi populasi miring (skewed), ukuran sampel 40
Distribusi populasi segitiga (triangular), ukuran sampel 35
Distribusi populasi normal, ukuran sampel 20
Distribusi populasi normal, ukuran sampel 30

jawaban

(rectangular, n = 15) → n < 30 → tidak normal
(bimodal, n = 29) → n < 30 → tidak normal
(skewed, n = 40) → n ≥ 30 → CLT berlaku → sampling normal
(triangular, n = 35) → n ≥ 30 → CLT berlaku
(normal, n = 20) → populasi normal → selalu menghasilkan sampling normal
(normal, n = 30) → populasi normal → sampling normal

4.4 Visualisasi Teorema limit

library(ggplot2)
library(dplyr)

set.seed(999)

pop <- rexp(100000, rate = 1/10)

sample_dist <- function(n) {
  data.frame(
    mean = replicate(3000, mean(sample(pop, n, replace = TRUE))),
    n = paste("n =", n)
  )
}

df <- bind_rows(sample_dist(5), sample_dist(30), sample_dist(100))

ggplot(df, aes(x = mean, fill = n)) +
  geom_density(alpha = 0.45) +
  facet_wrap(~ n, scales = "free") +
  labs(title = "Evolusi Teorema Limit Pusat", x = "Rata-rata Sampel") +
  theme_minimal()

Interpretasi : Visualisasi tersebut menunjukkan bagaimana Teorema Limit Pusat (Central Limit Theorem/CLT) bekerja ketika ukuran sampel diperbesar, meskipun populasi awal memiliki distribusi yang sangat miring. Pada grafik pertama dengan ukuran sampel n = 5, distribusi rata-rata sampel masih tampak mirip dengan distribusi populasi exponential yang miring ke kanan, sehingga bentuknya belum simetris dan belum menyerupai distribusi normal. Ketika ukuran sampel meningkat menjadi n = 30, distribusi rata-rata sampel mulai terlihat lebih stabil, lebih simetris, dan mulai mendekati bentuk kurva normal. Ini menunjukkan bahwa CLT mulai bekerja, sebab semakin banyak elemen yang dirata-ratakan, semakin kecil pengaruh kemiringan populasi asal. Pada panel terakhir dengan n = 100, distribusi mean sampel terlihat hampir sepenuhnya normal: simetris, puncaknya jelas, dan variansinya mengecil karena rata-rata makin stabil. Hal ini menegaskan inti dari CLT, yaitu bahwa tidak peduli seberapa miring atau tidak normal bentuk populasi aslinya, distribusi rata-rata sampel akan selalu mendekati distribusi normal apabila ukuran sampel cukup besar.

5 Sample Proportion

Distribusi sampling proporsi merupakan konsep dasar dalam statistika inferensial yang menggambarkan perilaku nilai proporsi sampel \(\hat{p}\) ketika proses pengambilan sampel dari suatu populasi dilakukan secara berulang. Melalui distribusi ini, peneliti dapat memahami bagaimana variasi acak dalam sampel memengaruhi estimasi proporsi populasi yang sebenarnya. Distribusi sampling proporsi memiliki karakteristik yang terdefinisi dengan baik, yaitu rata-rata yang sama dengan proporsi populasi \(p\) dan deviasi standar yang mengikuti rumus \(\frac{p(1 - p)}{n}\). Ketika syarat Teorema Limit Pusat terpenuhi, distribusi sampling proporsi mendekati distribusi normal, sehingga memungkinkan penggunaan tabel Z dan teknik standardisasi untuk menentukan probabilitas serta melakukan inferensi. Pemahaman mengenai distribusi sampling proporsi sangat penting dalam analisis statistik, terutama dalam estimasi parameter, uji hipotesis, dan pengambilan keputusan berbasis data yang melibatkan variabel proporsi.

5.1 Definisi Distribusi sampling dan Proporsi Sample

Distribusi sampling dari proporsi sampel adalah distribusi yang terbentuk ketika kita mengambil sampel dari populasi secara berulang, kemudian menghitung proporsi hasil yang menguntungkan \(\hat{p}\) untuk masing-masing sampel. Nilai-nilai proporsi ini kemudian digabungkan ke dalam grafik sehingga membentuk pola distribusi tertentu. Distribusi ini membantu peneliti memahami perkiraan proporsi populasi \(p\) dan variasi yang mungkin muncul antar sampel.

Proporsi sendiri menggambarkan fraksi hasil yang menguntungkan terhadap total hasil. Dalam populasi, proporsi dilambangkan dengan \(p\) sedangkan dalam sampel dilambangkan dengan \(\hat{p}\)

Proporsi sampel dihitung dengan rumus:

\[ \hat{p} = \frac{\text{jumlah hasil yang menguntungkan}}{\text{jumlah total hasil}} \]

Contoh:

1. jika dari 10 orang dalam sampel, 2 memiliki mata hijau, maka \[ \hat{p} = \frac{2}{10} = 0.2 \]

2. Untuk populasi dengan 5.000 orang, jika 900 memiliki mata hijau, proporsinya adalah

\[ p = \frac{900}{5000} = 0.18 \]

Jika kita mengambil sampel berulang kali, nilai \(\hat{p}\) akan berbeda-beda karena unsur peluang. Namun, jika semua nilai \(\hat{p}\) dikumpulkan, kita akan memperoleh distribusi sampling proporsi, yang memiliki rata-rata dan deviasi standar tertentu.

5.2 tiga hal yang ditemukan dalam distribusi sampling dari proporsi sampel

1. Rata-rata:

\[ \mu_{\hat{p}} = p \]

Artinya, rata-rata semua proporsi sampel sama dengan proporsi populasi.

2. Deviasi standar:

\[ \sigma_{\hat{p}} = \sqrt{\frac{p(1-p)}{n}} \]

Semakin besar ukuran sampel \(n\), semakin kecil deviasi standar, sehingga proporsi sampel lebih stabil.

3. Standardisasi (Z-score):

\[ z = \frac{\hat{p} - p}{\sqrt{\frac{p(1-p)}{n}}} \]

Digunakan untuk menghitung probabilitas tertentu atau area di bawah kurva distribusi normal.

5.3 Central Limit Theorem

Teorema Limit Pusat (Central Limit Theorem / CLT) diterapkan pada dua jenis distribusi sampling:

1. Distribusi Rata Rata Sampel

CLT menyatakan bahwa jika ukuran sampel \(n \ge 30\), distribusi sampling mean sampel akan mendekati distribusi normal, terlepas dari bentuk distribusi populasi.

2. Distribusi Sampling Proporsi

CLT juga berlaku untuk distribusi proporsi, tetapi dengan syarat khusus:

\[ n \cdot p \ge 10 \]

\[ n \cdot (1-p) \ge 10 \]

Jika syarat ini terpenuhi, distribusi sampling proporsi dianggap mendekati distribusi normal. Kita bisa menggunakan standardisasi Z:

\[ z = \frac{\hat{p} - p}{\sqrt{\frac{p(1-p)}{n}}} \]

5.4 Visualisasi Distribusi Sampling Proporsi

# Load library
library(ggplot2)
library(dplyr)

set.seed(123)

# ============================
# Parameter Populasi
# ============================
p <- 0.6          # proporsi sebenarnya di populasi
n <- 30           # ukuran sampel
num_samples <- 3000  # jumlah sampel yang diambil

# ============================
# Fungsi untuk mengambil sampel
# ============================
sample_proportion <- function(n, p) {
  mean(rbinom(n, size = 1, prob = p))  # menghasilkan proporsi sampel
}

# ============================
# Ambil banyak sampel
# ============================
sample_props <- replicate(num_samples, sample_proportion(n, p))
df <- data.frame(p_hat = sample_props)

# ============================
# Visualisasi Distribusi Sampling Proporsi
# ============================
ggplot(df, aes(x = p_hat)) +
  geom_histogram(aes(y = ..density..), bins = 30, fill = "skyblue", color = "black", alpha = 0.7) +
  geom_density(color = "red", size = 1.2) +
  geom_vline(xintercept = p, linetype = "dashed", color = "blue", size = 1) +
  labs(title = "Distribusi Sampling Proporsi",
       subtitle = paste("Proporsi Populasi p =", p, ", Ukuran Sampel n =", n),
       x = "Proporsi Sampel (p̂)",
       y = "Density") +
  theme_minimal()

Visualisasi distribusi sampling proporsi menunjukkan bagaimana proporsi sampel (p̂) tersebar ketika kita mengambil banyak sampel dari populasi dengan proporsi sebenarnya p = 0.6. Histogram biru menampilkan frekuensi proporsi sampel dari 3000 sampel, menunjukkan bahwa sebagian besar proporsi sampel berkumpul di sekitar nilai populasi. Garis merah yang merupakan kurva kepadatan memberikan gambaran bentuk distribusi sampling yang halus dan simetris seperti lonceng, sesuai dengan Teorema Limit Pusat, yang menyatakan bahwa distribusi proporsi sampel mendekati normal saat ukuran sampel cukup besar. Garis putus-putus biru menunjukkan proporsi populasi sebenarnya, yang menjadi pusat distribusi, menandakan bahwa proporsi sampel merupakan estimator tidak bias dari proporsi populasi. Selain itu, semakin besar ukuran sampel, distribusi proporsi sampel akan semakin sempit, sehingga estimasi menjadi lebih presisi. Secara keseluruhan, visualisasi ini memperlihatkan bahwa rata-rata proporsi sampel mendekati proporsi populasi dan variasinya dipengaruhi oleh ukuran sampel.

6 Riview Sampling Distribution

6.1 Contoh 1

1. Bayangkan kita memiliki toples yang memiliki 200 kelereng hijau dan 300 kelereng biru. Jika kelereng diambil tiga kali dengan pengembalian, berapakah peluang mengambil setidaknya dua kelereng hijau?

Langkah Penyelesaian:

Menentukan probabilitas sukses (menulis hijau):

\[ P(\text{hijau}) = \frac{200}{500} = 0.4 \]

Probabilitas gagal (menulis biru):

\[ P(\text{biru}) = \frac{300}{500} = 0.6 \]

2. Membuat ruang sampel

Semua kombinasi 3 ulasan dengan penggantian:

GGB, GBG, BGG → 2 hijau + 1 biru

GBB, BGB, BBG → 1 hijau + 2 biru

BBB → 3 biru

GGG → 3 hijau

3. Menghitung probabilitas setiap kombinasi:

Contoh: GBB → \(0.4 \times 0.6 \times 0.6 = 0.144\)

Menjumlahkan semua kombinasi yang sesuai dengan syarat setidaknya 2 hijau, misalnya:

2 hijau + 1 biru: 0.096 + 0.096 + 0.096 = 0.288

3 hijau: 0.064 → Total: 0.288 + 0.064 = 0.352

Kesimpulan: Probabilitas menulis setidaknya 2 ulasan hijau dari 3 percobaan adalah 0.352 atau 35.2%

6.2 Contoh 2

1. Apa yang terjadi jika lima kelereng diambil dan bukan tiga? Jadi jika lima kelereng diambil dengan pengembalian, berapakah peluang mengambil setidaknya dua kelereng hijau?

Jawab:

Langkah 1: Gunakan Rumus Binomial

Rumus distribusi binomial:

\[ P(X = k) = \binom{n}{k} p^{k}(1-p)^{\,n-k} \]

Dimana:

\(n = 5\) (jumlah percobaan)

\(k = 0, 1, 2, 3, 4, 5\) (jumlah sukses hijau)

\(p = 0.4\) (probabilitas sukses hijau)

\(\binom{n}{k} = \frac{n!}{k!(n-k)!}\) (kombinasi)

Kita ingin setidaknya 2 hijau, berarti \(k \ge 2\)

\[ P(X \ge 2) = P(X = 2) + P(X = 3) + P(X = 4) + P(X = 5) \]

Langkah 2: Hitung setiap probabilitas

1. \(P(X = 2)\)

\[ \binom{5}{2} = \frac{5!}{2! \, 3!} = 10 \]

\[ P(X = 2) = 10 \cdot (0.4)^2 \cdot (0.6)^3 \]

\[ = 10 \cdot 0.16 \cdot 0.216 = 0.3456 \]

2. \(P(X = 3)\)

\[ \binom{5}{3} = \frac{5!}{3! \, 2!} = 10 \]

\[ P(X = 3) = 10 \cdot (0.4)^3 \cdot (0.6)^2 \]

\[ = 10 \cdot 0.064 \cdot 0.36 = 0.2304 \]

3. \(P(X = 4)\)

\[ \binom{5}{4} = \frac{5!}{4! \, 1!} = 5 \]

\[ P(X = 4) = 5 \cdot (0.4)^4 \cdot (0.6) \]

\[ = 5 \cdot 0.0256 \cdot 0.6 = 0.0768 \]

4. \(P(X = 5)\)

\[ \binom{5}{5} = 1 \]

\[ P(X = 5) = 1 \cdot (0.4)^5 \cdot (0.6)^0 \]

\[ = 1 \cdot 0.01024 \cdot 1 = 0.01024 \]

Langkah 3: Jumlahkan untuk \(k \ge 2\)

\[ P(X \ge 2) = 0.3456 + 0.2304 + 0.0768 + 0.01024 \]

\[ P(X \ge 2) = 0.66304 \]

Jawaban

\[ P(X \ge 2) \approx 0.663 \quad \text{atau} \quad 66.3\% \]

6.3 Contoh 3

1. Jika sebuah kelereng diambil 100 kali dengan pengembalian, berapakah peluang mengambil setidaknya 35 kelereng hijau?

Jawab:

Gunakan Distribusi Sampling Proporsi dan Teorema Limit Pusat (Central Limit Theorem / CLT)

1. Periksa syarat CLT:

\(n \cdot p \ge 10 \Rightarrow 100 \times 0.4 = 40 \ge 10\) ✅

\(n \cdot (1-p) \ge 10 \Rightarrow 100 \times 0.6 = 60 \ge 10 \ ✅\)

Kedua syarat terpenuhi → CLT dapat diterapkan.

2. Standarisasi proporsi (Z-score):

\[ Z = \frac{\hat{p} - p}{\sqrt{\frac{p(1-p)}{n}}} \]

Dimana:

\(\hat{p} = 0.35\) — proporsi sampel

\(p = 0.4\) — proporsi populasi

\(n = 100\) — ukuran sampel

3. Hitung Z-score:

\[ Z = \frac{0.35 - 0.4}{\sqrt{\frac{0.4 \times 0.6}{100}}} = -1.02 \]

4. Cari probabilitas area di sebelah kiri Z-score:

Nilai dari tabel Z → \(P(Z < -1.02) = 0.1539\)

5. Probabilitas setidaknya 35 hijau:

Karena kita ingin area kanan Z, gunakan:

\[ P(X \ge 35) = 1 - 0.1539 = 0.8461 \]

Hasil: Probabilitas setidaknya 35 hijau dari 100 percobaan ≈ 84.61%

7 Reference

Modul daring dari Universitas Jember tentang “Distribusi Sampling”. https://statslab-rshiny.fmipa.unej.ac.id/
Application of Three Probability Distributions to Justify Central Limit Theorem — https://abjournals.org/ajmss/papers/volume-6/issue-4/application-of-three-probability-distributions-to-justify-central-limit-theorem/?utm_source
https://en.wikipedia.org/wiki/Central_limit_theorem?utm_source
Artikel/metode yang membahas distribusi sampling, standard error, dan aplikasi CLT dalam inferensi statistik. https://paggalih.github.io/