ULIN NIKMAH (52250042)

INSTITUT TEKNOLOGI SAINS BANDUNG

Mata Kuliah: Statistika Dasar Program Studi: Sains Data Dosen Pengampu: Bakti Siregar, M.SC., CDS.

1. Pendahuluan

Distribusi probabilitas adalah konsep dasar dalam statistik yang digunakan untuk menggambarkan bagaimana kemungkinan hasil dari suatu percobaan acak tersebar. Dengan kata lain, distribusi ini memberi tahu kita peluang setiap hasil yang mungkin terjadi, sehingga kita dapat memahami pola dan ketidakpastian dalam data atau fenomena yang diamati. Pemahaman distribusi probabilitas sangat penting karena menjadi dasar dari banyak metode statistik, termasuk penghitungan rata-rata, variansi, dan prediksi, serta digunakan luas dalam berbagai bidang seperti sains, teknologi, ekonomi, dan data science.

Distribusi probabilitas terbagi menjadi dua jenis utama, yaitu distribusi diskrit dan distribusi kontinu. Distribusi diskrit memiliki nilai yang terputus atau terbatas, sedangkan distribusi kontinu memiliki nilai yang bisa berada di mana saja dalam suatu interval tertentu. Kedua jenis distribusi ini memiliki fungsi matematis yang berbeda, namun tujuan utamanya sama, yaitu membantu kita memahami bagaimana kemungkinan hasil tersebar dan bagaimana kita bisa membuat keputusan atau prediksi berdasarkan data.

Secara keseluruhan, mempelajari distribusi probabilitas memungkinkan kita untuk “membaca pola kemungkinan” dalam berbagai situasi dan fenomena, sehingga analisis data menjadi lebih sistematis dan prediksi yang dihasilkan lebih dapat diandalkan.

2. Probability Distribution

2.1 Continuous Random

Materi ini membahas konsep variabel kontinu dalam probabilitas, termasuk perbedaan dengan variabel diskrit, cara visualisasi distribusi, fungsi kepadatan probabilitas (PDF), fungsi distribusi kumulatif (CDF), dan perhitungan probabilitas pada interval. Pemahaman materi ini penting agar kita dapat menganalisis data yang diukur secara kontinu dan membuat prediksi yang tepat.

2.1.1 Variabel Diskrit vs Variabel Kontinu

Variabel Diskrit adalah variabel yang hanya dapat mengambil sejumlah nilai yang dapat dihitung. Nilainya terbatas dan spesifik, serta tidak termasuk nilai pecahan yang tidak masuk akal dalam konteksnya. Misalnya: jumlah kepala pada lemparan koin, jumlah kelereng biru, nilai ujian, jumlah anak dalam keluarga, atau saldo rekening bank. Variabel diskrit bisa memiliki nilai desimal jika masih dapat dihitung secara logis, misalnya 5,5 buah barang jika barangnya bisa dibagi. Variabel Diskrit menggunakan visualisasi Bar Chart untuk menampilkan distribusi nya, dimana Setiap batang mewakili satu nilai yang dapat dihitung, dan ada celah antar batang.

Contoh: menghitung jumlah kepala pada 4 lemparan koin (0, 1, 2, 3, 4). Celah menunjukkan tidak ada nilai “setengah kepala”.
library(ggplot2)

# Probabilitas jumlah kepala pada 4 lemparan koin (Binomial p=0.5)
x <- 0:4
prob <- dbinom(x, size = 4, prob = 0.5)

df <- data.frame(
  heads = x,
  probability = prob
)

ggplot(df, aes(x = factor(heads), y = probability)) +
  geom_bar(
    stat = "identity",
    fill = "#4A90E2",
    color = "black",
    width = 0.7
  ) +
  labs(
    title = "Diagram Batang: Distribusi Jumlah Kepala (4 Lemparan Koin)",
    x = "Jumlah Kepala",
    y = "Probabilitas"
  ) +
  theme_minimal(base_size = 14) +
  theme(
    plot.title = element_text(face = "bold", hjust = 0.5),
    axis.title = element_text(face = "bold")
  )

Interpretasi:

Diagram batang menunjukkan peluang munculnya jumlah kepala dari 4 kali lemparan koin. Batang tertinggi berada di nilai 2 kepala, artinya hasil ini paling mungkin terjadi. Batang di nilai 0 dan 4 kepala paling pendek, menandakan hasil tersebut lebih jarang terjadi.

Variabel Kontinu dapat mengambil nilai numerik apa pun dalam suatu rentang, diperoleh melalui pengukuran, dan memiliki jumlah nilai yang tak terhingga. Contohnya: berat badan, usia, suhu, dan jarak. Variabel kontinu biasanya dapat diukur dengan presisi hingga desimal tertentu. Variabel Kontinu menggunakan Histogram untuk menampilkan distribusi nya, dimana batang-batang menyentuh satu sama lain (tanpa celah) karena nilai dapat berada di mana saja dalam interval. Jumlah batang bisa sangat banyak, meniru sifat “tak terhingga” dari variabel kontinu.

Contoh: distribusi berat badan mahasiswa.
library(ggplot2)

# Contoh data: berat badan mahasiswa (kg) — variabel kontinu
set.seed(123)
berat <- rnorm(200, mean = 60, sd = 8)  # 200 mahasiswa

df <- data.frame(berat = berat)

ggplot(df, aes(x = berat)) +
  geom_histogram(
    bins = 20,                 # jumlah batang banyak agar menyerupai kontinu
    fill = "#4A90E2",
    color = "black"
  ) +
  labs(
    title = "Histogram: Distribusi Berat Badan Mahasiswa",
    x = "Berat Badan (kg)",
    y = "Frekuensi"
  ) +
  theme_minimal(base_size = 14) +
  theme(
    plot.title = element_text(face = "bold", hjust = 0.5),  
    axis.title = element_text(face = "bold")
  )

Interpretasi:

Histogram menunjukkan sebaran berat badan mahasiswa, di mana nilai berkumpul di sekitar 60 kg, sehingga itu adalah rentang yang paling umum. Batang-batang saling menempel karena berat badan adalah variabel kontinu. Semakin jauh dari pusat (terlalu ringan atau terlalu berat), frekuensinya makin sedikit.

2.1.2. Variabel Acak Kontinu

Definisi: Variabel acak kontinu adalah variabel yang dapat mengambil nilai numerik apa pun dalam suatu interval dan diperoleh melalui pengukuran. Karakteristik utama:
  • Memiliki tak terhingga banyaknya nilai dalam rentang tertentu.
  • Probabilitas pada titik tunggal selalu nol: \(P(X = x) = 0.\)

2.1.3 Fungsi Kepadatan Probabilitas (PDF)

PDF, atau Probability Density Function, menggambarkan distribusi probabilitas variabel kontinu.

Syarat sah PDF:
  1. Non-negatif (untuk semua x):
    \(f(x) \ge 0 \quad \text{untuk semua } x.\).
  2. Total area = 1:
    \[ \int_{-\infty}^{\infty} f(x)\,dx = 1. \]
Interpretasi:
  • Nilai \(f(x)\) yang lebih besar menunjukkan kepadatan probabilitas yang lebih tinggi di sekitar \(x\).
  • Namun, \(f(x)\) bukan probabilitas langsung; probabilitas diperoleh dari area di bawah kurva PDF.

Menurut Walpole (2012), fungsi kepadatan probabilitas memiliki peran penting dalam memahami variabel acak kontinu karena:

  • PDF memberikan gambaran bagaimana probabilitas “tersebar” pada seluruh nilai kontinu.
  • Walaupun f(x) tidak menyatakan probabilitas, tinggi kurva menunjukkan tingkat kepadatan — area yang lebih tinggi menggambarkan nilai yang lebih mungkin muncul.

Dalam praktik statistika, terutama analisis rekayasa dan sains, PDF digunakan untuk menentukan:

  • peluang pada interval tertentu,
  • ekspektasi (mean) distribusi,
  • ragam dan simpangan baku populasi.

Walpole juga menekankan bahwa probabilitas suatu titik tunggal selalu nol karena jumlah nilai kontinu tak terhingga—ini selaras dengan definisi integrasi pada PDF.

Contoh PDF: \[f(x) = 3x^2,\quad 0 \le x \le 1\]

PDF ini memenuhi syarat karena \[\int_0^1 3x^2\,dx = 1.\]

2.1.4 Probabilitas pada Interval

Untuk variabel kontinu, probabilitas dihitung pada interval \([a,b]\): \[ P(a \le X \le b) = \int_a^b f(x)\,dx \]

Contoh perhitungan: \[ P(0.5 \le X \le 1) = \int_{0.5}^{1} 3x^2\,dx = \left[ x^3 \right]_{0.5}^{1} = 1^3 - 0.5^3 = 0.875 \]

2.1.5 Fungsi Distribusi Kumulatif (CDF)

Kurva kepadatan atau density curve adalah bentuk visual dari PDF yang menunjukkan bagaimana probabilitas tersebar pada nilai-nilai variabel kontinu. Area di bawah kurva pada sebuah interval mewakili probabilitas interval tersebut. Dari konsep inilah muncul CDF, yaitu total area yang terkumpul dari kiri hingga titik tertentu. \[ F(x) = P(X \le x) = \int_{0}^{x} f(t)\,dt \]

Karena CDF mengumpulkan area secara bertahap, grafiknya selalu meningkat dari 0 menuju 1. Hubungan PDF dan CDF sangat erat: PDF merupakan turunan dari CDF, sedangkan CDF merupakan integral dari PDF, sehingga perubahan bentuk PDF langsung memengaruhi bentuk CDF. Secara matematis, \(f(x)=F'(x)\).

Sebagai contoh, misal \(f(x)=3x^2\) untuk \(0 \le x \le 1\). Maka \(F(x)=\int_0^x 3t^2\,dt = x^3\), dan turunannya adalah \(F'(x)=3x^2=f(x)\). Kurva PDF semakin naik ke kanan sehingga nilai mendekati 1 memiliki peluang lebih besar, dan ketika diintegralkan diperoleh CDF \(F(x)=x^3\) yang menunjukkan akumulasi probabilitas meningkat semakin cepat seiring bertambahnya \(x\).

library(ggplot2)

# Membuat data x dan fungsi f(x) = 3x^2
x <- seq(0, 1, length.out = 500)
fx <- 3 * x^2

df <- data.frame(x = x, fx = fx)

ggplot(df, aes(x, fx)) +
  geom_line(color = "#1B76D1", linewidth = 1.5) +
  geom_area(fill = "#1B76D1", alpha = 0.25) +
  labs(
    title = "Kurva Kepadatan: f(x) = 3x² pada Interval [0,1]",
    x = "x",
    y = "f(x)"
  ) +
  theme_minimal(base_size = 14) +
  theme(
    plot.title = element_text(face = "bold", hjust = 0.5),
    axis.title = element_text(face = "bold")
  )

Interpretasi:

Kurva \(f(x)=3x^2\) naik tajam ke kanan, menunjukkan bahwa nilai \(x\) yang lebih besar (mendekati 1) memiliki kepadatan lebih tinggi. Area di bawah kurva dari titik A ke B menggambarkan peluang x berada di interval tersebut.

2.1.6 Ringkasan Materi

  • Variabel kontinu → diukur, memiliki tak terhingga nilai, probabilitas dihitung lewat integral.
  • PDF → harus non-negatif, total area = 1; probabilitas diperoleh dari area di bawah kurva.
  • Probabilitas interval → integralkan PDF pada batas interval yang diinginkan.
  • CDF → akumulasi probabilitas hingga titik x; turunan CDF memberi PDF kembali.
Aspek Variabel Diskrit Variabel Kontinu
Sifat Dapat dihitung Dapat diukur
Nilai Terbatas, spesifik Tak terhingga, sebarang nilai
Contoh Koin, kelereng Berat badan, usia, suhu
Visualisasi Diagram batang dengan celah Histogram tanpa celah, kepadatan kurva
Probabilitas Rumus standar Rumus kurva / PDF

2.2 Sampling Distributions

Materi ini membahas Distribusi Sampling, termasuk perbedaan antara populasi, sampel, dan distribusi sampling, cara membangun distribusi sampling, Teorema Limit Tengah (CLT), standar error, serta aplikasi praktis. Pemahaman materi ini penting untuk bisa mengambil kesimpulan statistik dari sampel dan memperkirakan probabilitas dengan tepat.

2.2.1 Populasi, Sampel, dan Distribusi Sampling

Populasi: Semua anggota dari suatu grup, misalnya seluruh penduduk suatu negara. Sampel: Bagian kecil dari populasi yang digunakan untuk analisis. Distribusi sampel: Statistik (misal rata-rata) yang diperoleh dari banyak sampel acak sederhana dari populasi yang sama.

Perbedaan utama:

  • Rata-rata sampel tidak selalu sama dengan rata-rata populasi karena variasi alami.
  • Variabilitas rata-rata sampel lebih rendah daripada variabilitas data individu di populasi.
Aspek Distribusi Populasi Distribusi Sampling
Mean (Rata-rata) 𝜇
Standar Deviasi 𝜎 Standar Error \[SE \;=\; \frac{\sigma}{\sqrt{n}}\]
Komposisi Observasi individu Statistik (rata-rata) dari sampel
Variabilitas Lebih tinggi Lebih rendah (lebih stabil)
# Install jika belum ada
# install.packages("ggplot2")
# install.packages("reshape2")

library(ggplot2)
library(reshape2)

# Parameter
mu <- 0
sigma <- 1
n <- 30
se <- sigma / sqrt(n)

# Range nilai
x <- seq(-4, 4, length.out = 400)

# Distribusi
pop <- dnorm(x, mean = mu, sd = sigma)
samp <- dnorm(x, mean = mu, sd = se)

# Data frame
df <- data.frame(
  x = x,
  Populasi = pop,
  Sampling = samp
)

df_melt <- melt(df, id.vars = "x", variable.name = "Tipe", value.name = "Density")

# Plot dengan judul rata tengah
ggplot(df_melt, aes(x = x, y = Density, color = Tipe)) +
  geom_line(size = 1.2) +
  labs(
    title = "Perbandingan Distribusi Populasi vs Distribusi Sampling",
    x = "Nilai",
    y = "Kepadatan"
  ) +
  theme_minimal(base_size = 14) +
  theme(
    plot.title = element_text(face = "bold", hjust = 0.05)  # judul rata tengah
  )

Interpretasi:

Perbandingan dua kurva: Kurva populasi lebih lebar, kurva distribusi sampling lebih sempit, menegaskan bahwa standar error distribusi sampling lebih kecil daripada standar deviasi populasi.

2.2.2. Membangun Distribusi Sampling

Langkah-langkah:

  1. Tentukan populasi fokus (misal tinggi badan).
  2. Ambil sampel acak berukuran n (misal n = 5).
  3. Ukur karakteristik tiap individu dalam sampel.
  4. Hitung rata-rata sampel x̄.
  5. Plot nilai pada histogram.
  6. Ulangi proses ratusan atau ribuan kali.

Properti penting:

  • Dengan jumlah sampel yang cukup, distribusi sampling cenderung berbentuk normal berkat Teorema Limit Tengah (CLT).
  • Distribusi sampling memiliki variabilitas lebih rendah dibanding distribusi populasi.
# Install package jika belum ada
# install.packages("ggplot2")

library(ggplot2)

set.seed(42)  # agar hasil sama setiap dijalankan

# Parameter populasi
population_mean <- 0
population_sd <- 1

# Parameter sampling
n <- 5              # ukuran tiap sampel
num_samples <- 1000 # jumlah pengambilan sampel

# Generate rata-rata sampel
sample_means <- replicate(num_samples, {
  samp <- rnorm(n, mean = population_mean, sd = population_sd)
  mean(samp)
})

# Data frame
df <- data.frame(means = sample_means)

# Plot histogram
ggplot(df, aes(x = means)) +
  geom_histogram(aes(y = ..density..), bins = 30, fill = "orange", color = "black") +
  labs(
    title = "Simulasi Distribusi Sampling (n = 5, 1000 sampel)",
    x = "Rata-rata Sampel",
    y = "Kepadatan"
  ) +
  theme_minimal(base_size = 14) +
  theme(
    plot.title = element_text(face = "bold", hjust = 0.5) # judul tengah
  )

Interpretasi:

Histogram menunjukkan bahwa rata-rata sampel dari banyak pengambilan sampel membentuk pola menyerupai distribusi normal. Ini membuktikan Teorema Limit Tengah (CLT), dan menunjukkan bahwa rata-rata sampel memiliki variasi lebih kecil dibandingkan data populasi.

2.2.3. Standard Error dan Z-Score

Standar Error (SE): Simpangan baku dari distribusi sampling, dihitung: \[SE \;=\; \frac{\sigma}{\sqrt{n}}\]

Standardisasi:

Distribusi Populasi: \[Z \;=\; \frac{X - \mu}{\sigma}\]

Distribusi Sampling: \[ Z \;=\; \frac{\overline{X} - \mu}{SE} \;=\; \frac{\overline{X} - \mu}{\sigma / \sqrt{n}} \;=\; \frac{\overline{X} - \mu}{\dfrac{\sigma}{\sqrt{n}}} \]

2.2.4. Contoh Praktis

Soal: Berapa peluang rata-rata tinggi 10 orang acak kurang dari 157 cm, jika tinggi badan mengikuti distribusi normal dengan rata-rata 𝜇 dan standar deviasi 𝜎?

Langkah-langkah:

  1. Identifikasi distribusi → distribusi sampling karena memakai rata-rata.
  2. Hitung standar error: \[SE \;=\; \frac{\sigma}{\sqrt{10}}\]
  3. Standarisasi: \[Z \;=\; \frac{\overline{157} - \mu}{SE}\]
  4. Cari area di tabel Z → probabilitas ≈ 0,0869 atau 8,69 %.

Pertanyaan lanjutan: Berapa proporsi warga yang tinggi badannya >170 cm?

Gunakan distribusi populasi.

  1. Standarisasi: \[Z \;=\; \frac{170 - \mu}{\sigma}\]→ area kanan = 1 - area kiri.
  2. Hasil ≈ 0,0764 atau 7,64 %.
library(ggplot2)

mu <- 160
sigma <- 6.995
n <- 10
SE <- sigma / sqrt(n)

# Z-score & Probabilitas
z_sample <- (157 - mu) / SE
prob_sample <- pnorm(z_sample)

z_population <- (170 - mu) / sigma
prob_population_right <- 1 - pnorm(z_population)

theme_minimal_custom <- theme_minimal(base_size = 14) +
  theme(
    plot.title = element_text(
      face = "bold", size = 16, color = "#1A1A1A",
      hjust = 0.5        # <--- CENTER TITLE
    ),
    axis.title = element_text(face = "bold", size = 13),
    axis.text = element_text(size = 12),
    panel.grid.minor = element_blank()
  )

# GRAPHIC 1: DISTRIBUSI SAMPLING

x_samp <- seq(mu - 4*SE, mu + 4*SE, length.out = 500)
df_samp <- data.frame(
  x = x_samp,
  y = dnorm(x_samp, mean = mu, sd = SE)
)

ggplot(df_samp, aes(x, y)) +
  geom_line(color = "#1B76D1", linewidth = 1.3) +
  geom_area(
    data = subset(df_samp, x <= 157),
    aes(x, y),
    fill = "#1B76D1", alpha = 0.35
  ) +
  geom_vline(
    xintercept = 157,
    color = "#D11B66",
    linetype = "dashed",
    linewidth = 1
  ) +
  labs(
    title = "Distribusi Sampling — P(mean < 157)",
    x = "Rata-rata Sampel (cm)",
    y = "Kepadatan"
  ) +
  annotate(
    "text",
    x = 157 + 0.5,
    y = max(df_samp$y)*0.6,
    label = paste0(
      "157 cm\nZ = ", round(z_sample, 3),
      "\nP = ", round(prob_sample, 4)
    ),
    hjust = 0,
    size = 4.5
  ) +
  theme_minimal_custom

Interpretasi:

Grafik menunjukkan bahwa peluang rata-rata tinggi 10 orang acak kurang dari 157 cm adalah kecil, karena 157 cm berada cukup jauh di bawah rata-rata populasi (160 cm). Area biru yang sempit menandakan bahwa kejadian ini jarang terjadi hanya sebagian kecil sampel yang akan menghasilkan rata-rata serendah itu.

# GRAPHIC 2: DISTRIBUSI POPULASI

x_pop <- seq(mu - 4*sigma, mu + 4*sigma, length.out = 500)
df_pop <- data.frame(
  x = x_pop,
  y = dnorm(x_pop, mean = mu, sd = sigma)
)

ggplot(df_pop, aes(x, y)) +
  geom_line(color = "#1B76D1", linewidth = 1.3) +
  geom_area(
    data = subset(df_pop, x >= 170),
    aes(x, y),
    fill = "#1B76D1", alpha = 0.35
  ) +
  geom_vline(
    xintercept = 170,
    color = "#D11B66",
    linetype = "dashed",
    linewidth = 1
  ) +
  labs(
    title = "Distribusi Populasi — P(X > 170)",
    x = "Tinggi (cm)",
    y = "Kepadatan"
  ) +
  annotate(
    "text",
    x = 170 + 1,
    y = max(df_pop$y)*0.6,
    label = paste0(
      "170 cm\nZ = ", round(z_population, 3),
      "\nP = ", round(prob_population_right, 4)
    ),
    hjust = 0,
    size = 4.5
  ) +
  theme_minimal_custom

Interpretasi:

Grafik menunjukkan bahwa peluang seseorang memiliki tinggi lebih dari 170 cm itu kecil, karena 170 cm berada jauh di atas rata-rata populasi (160 cm). Area biru di kanan yang sempit menandakan bahwa hanya sebagian kecil warga yang memiliki tinggi melebihi 170 cm.

2.2.5. Catatan dan Ringkasan Materi

Menurut OpenStax Statistics (2020), distribusi rata-rata sampel ̄X mendekati normal bila n cukup besar, terlepas dari bentuk distribusi populasi.

Penelitian “Quantifying Central Limit Theorem Convergence” (IJRISS, 2025) menunjukkan bahwa ukuran sampel minimum bisa jauh lebih besar dari 30, tergantung distribusi populasi.

Ini menegaskan bahwa aturan n ≥ 30 adalah pedoman kasar; ukuran sampel optimal perlu disesuaikan dengan karakteristik data.

  • Distribusi populasi: Semua individu dalam populasi.
  • Distribusi sampel: Semua individu dalam satu sampel.
  • Distribusi sampling: Banyak sampel digabung menjadi distribusi statistik (biasanya rata-rata).
  • Standar error \[SE \;=\; \frac{\sigma}{\sqrt{n}}\], selalu lebih kecil dari 𝜎.
  • Teorema Limit Tengah (CLT): Dengan cukup banyak sampel, distribusi sampling cenderung normal.
  • Distribusi sampling memungkinkan perhitungan probabilitas lebih efisien tanpa harus mengukur seluruh populasi.

2.3 Central Limit Theorem

Teorema Limit Sentral (Central Limit Theorem / CLT) adalah salah satu konsep terpenting dalam statistika, terutama ketika kita bekerja dengan distribusi sampling. CLT membantu menjelaskan bagaimana rata-rata sampel berperilaku ketika kita mengambil banyak sampel dari suatu populasi, bahkan ketika populasi tersebut tidak berdistribusi normal.

Catatan ini merangkum inti dari CLT, pengaruh ukuran sampel, alasan mengapa distribusi sampling dapat mendekati normal, serta penerapan praktisnya dalam analisis data.

2.3.1. Membuat Distribusi Sampling Rata-Rata Sampel

  1. Ambil sampel acak sederhana dari populasi.
  2. Hitung rata-rata sampel x̄ untuk sampel itu.
  3. Plot nilai rata-rata pada grafik.
  4. Ulangi proses ini berkali-kali.

Distribusi semua rata-rata sampel yang dihasilkan adalah distribusi sampling.

library(ggplot2)

set.seed(123)

# Populasi: berat badan 1000 mahasiswa (kg)
pop <- rnorm(1000, mean = 60, sd = 8)

n_samp <- 10          # ukuran tiap sampel
n_rep <- 1000         # jumlah pengulangan

# Simulasi distribusi sampling
sample_means <- replicate(n_rep, mean(sample(pop, n_samp)))

df <- data.frame(mean_samp = sample_means)

# Plot histogram distribusi sampling
ggplot(df, aes(x = mean_samp)) +
  geom_histogram(
    bins = 30,
    fill = "#7FB3D5",   # biru pastel
    color = "black",
    alpha = 0.6
  ) +
  labs(
    title = "Distribusi Sampling: Rata-Rata Sampel (n = 10)",
    x = "Rata-Rata Sampel (kg)",
    y = "Frekuensi"
  ) +
  theme_minimal(base_size = 14) +
  theme(
    plot.title = element_text(face = "bold", hjust = 0.5),
    axis.title = element_text(face = "bold")
  )

Interpretasi:

Histogram menunjukkan rata-rata sampel dari 1000 sampel ukuran 10.
Meskipun populasi tidak sempurna normal, rata-rata sampel membentuk kurva menyerupai distribusi normal, sesuai Central Limit Theorem. Area puncak histogram menunjukkan rata-rata paling umum, sedangkan nilai ekstrem jarang terjadi.

2.3.2. Teorema Limit Sentral (CLT)

Teorema Limit Sentral menyatakan bahwa bila ukuran sampel (n) cukup besar, maka distribusi sampling dari rata-rata sampel akan mendekati normal, terlepas dari bentuk distribusi populasi asal.

Menurut Draper & Guo (2021), CLT tetap menjadi landasan dalam banyak penerapan statistika dan data‑sains modern. Tulisan mereka menekankan pentingnya pemahaman kapan jumlah data sudah cukup agar aproksimasi normal menjadi layak, serta memperingatkan bahwa “cukup besar” bisa berbeda‑beda tergantung bentuk distribusi asal. Dengan demikian, CLT bukan sekedar aturan baku “n ≥ 30”, tapi perlu pertimbangan konteks dan karakteristik data.

Poin Penting
  • Berlaku tanpa mempedulikan bentuk distribusi populasi.
  • Distribusi sampling menjadi normal bila ukuran sampel cukup besar.
  • Masih berlaku bila populasinya miring (skewed).
library(ggplot2)

set.seed(123)

# Populasi skewed (misal distribusi eksponensial)
pop <- rexp(1000, rate = 0.1)   # rata-rata ~10, skewed ke kanan

# Ukuran sampel dan jumlah pengulangan
n_samp <- 30
n_rep <- 1000

# Distribusi sampling
sample_means <- replicate(n_rep, mean(sample(pop, n_samp)))
df <- data.frame(
  value = c(pop, sample_means),
  type = rep(c("Populasi", "Sampling Mean"), c(length(pop), length(sample_means)))
)

# Plot
ggplot(df, aes(x = value, fill = type)) +
  geom_histogram(aes(y = ..density..), bins = 30, color = "black", alpha = 0.5, position = "identity") +
  scale_fill_manual(values = c("Populasi" = "#F5B", "Sampling Mean" = "#7FB3D5")) +  # pink & biru pastel
  labs(
    title = "Populasi Skewed dan Distribusi Sampling Rata-Rata",
    x = "Nilai",
    y = "Kepadatan"
  ) +
  theme_minimal(base_size = 14) +
  theme(
    plot.title = element_text(face = "bold", hjust = 0.7),
    axis.title = element_text(face = "bold"),
    legend.title = element_blank()
  )

Interpretasi:

    Kurva merah muda → populasi asli skewed ke kanan (tidak normal).
  • Kurva biru → distribusi rata-rata sampel menjadi normal, walau populasinya miring, karena ukuran sampel cukup besar (n=30).
  • Ini menunjukkan Central Limit Theorem: distribusi sampling rata-rata mendekati normal tanpa mempedulikan bentuk populasi.

2.3.3. Contoh Visual

  • Saat men-sampling dari populasi yang miring: Kebanyakan nilai datang dari bagian utama (probabilitas tinggi).
  • Nilai lebih sedikit dari area kecil (probabil).
  • Rata-rata sampel x̄ cenderung berkumpul di sekitar rata-rata populasi µ.
  • Beberapa sampel memang memiliki rata-rata yang lebih jauh dari µ karena kebetulan.
library(ggplot2)

set.seed(123)

# Populasi skewed
pop <- rexp(1000, rate = 0.1)
mu_pop <- mean(pop)

# Ukuran sampel & jumlah pengulangan
n_samp <- 30
n_rep <- 1000

# Hitung rata-rata sampel
sample_means <- replicate(n_rep, mean(sample(pop, n_samp)))
df <- data.frame(mean_samp = sample_means)

# Plot titik rata-rata sampel
ggplot(df, aes(x = mean_samp, y = 0)) +
  geom_jitter(height = 0, width = 0.1, color = "#7FB3D5", alpha = 0.6, size = 2) +
  geom_vline(xintercept = mu_pop, color = "#F5B7B1", linetype = "dashed", linewidth = 1.2) +
  labs(
    title = "Penyebaran Rata-Rata Sampel di Sekitar \u03BC Populasi",
    x = "Rata-Rata Sampel",
    y = "",
    caption = "Garis putus-putus = rata-rata populasi (\u03BC)"
  ) +
  theme_minimal(base_size = 14) +
  theme(
    plot.title = element_text(face = "bold", hjust = 0.5),
    axis.title.y = element_blank(),
    axis.text.y = element_blank(),
    axis.ticks.y = element_blank()
  )

Interpretasi:

  • Titik biru pastel → rata-rata tiap sampel dari populasi miring.
  • Titik-titik mengumpul di sekitar rata-rata populasi (µ) → sebagian besar sampel cenderung mendekati µ.
  • Titik yang lebih jauh → rata-rata ekstrem akibat kebetulan.
  • Visualisasi ini menekankan bahwa rata-rata sampel stabil di sekitar µ, walau populasi asli miring.
  • 2.3.4. Persyaratan Ukuran Sampel

    Kondisi CLT Berlaku? Penjelasan
    (n ≥ 30) Ya Aturan umum untuk menerapkan CLT
    (n < 30) Tidak Sampel kecil menghasilkan variabilitas tinggi dan hasil kurang dapat diandalkan
    (n < 30) tetapi populasinya normal Ya Jika populasi sudah normal, distribusi sampling tetap normal
    library(ggplot2)
    library(dplyr)
    
    set.seed(123)
    
    # Populasi skewed (misal eksponensial)
    pop <- rexp(1000, rate = 0.1)
    
    # Ukuran sampel berbeda
    sample_sizes <- c(5, 30, 100)
    n_rep <- 1000
    
    # Hitung rata-rata sampel untuk setiap ukuran n
    df_list <- lapply(sample_sizes, function(n) {
      means <- replicate(n_rep, mean(sample(pop, n)))
      data.frame(mean_samp = means, n = paste0("n = ", n))
    })
    
    df <- bind_rows(df_list)
    
    # Plot histogram per ukuran sampel
    ggplot(df, aes(x = mean_samp, fill = n)) +
      geom_histogram(aes(y = ..density..), bins = 30, color = "black", alpha = 0.5, position = "identity") +
      scale_fill_manual(values = c("n = 5" = "#F5B", "n = 30" = "#7FB", "n = 100" = "#82E")) +
      labs(
        title = "Perbandingan Distribusi Sampling Berdasarkan Ukuran Sampel",
        x = "Rata-Rata Sampel",
        y = "Kepadatan",
        fill = "Ukuran Sampel"
      ) +
      theme_minimal(base_size = 14) +
      theme(
        plot.title = element_text(face = "bold", hjust = 0.1),
        axis.title = element_text(face = "bold")
      )

    Interpretasi:

  • n = 5 (merah muda) → distribusi sampling lebar & miring, variabilitas tinggi → CLT kurang akurat.
  • n = 30 (hijau) → distribusi lebih rapi dan mulai menyerupai normal → CLT mulai berlaku.
  • n = 100 (ungu) → distribusi sampling sangat normal, variabilitas rendah → CLT jelas berlaku.
    Visualisasi ini menegaskan pengaruh ukuran sampel pada Central Limit Theorem: semakin besar n, distribusi sampling semakin normal dan stabil.
  • 2.3.5. Mengapa Ukuran Sampel Penting?

    Sampel kecil ((n) kecil)
    • Lebih banyak variabilitas
    • Kurang presisi & visibilitas
    • Risiko memperoleh sampel tidak biasa secara kebetulan
    • Tidak dapat menerapkan CLT kec
    Sampel besar ((n) besar)
    • Hasil distribusi sampling normal
    • Pengumuman penggunaan rumus distribusi normal
    • Mempermudah interpretasi data

    2.3.6. Manfaat

    CLT berguna untuk menganalisis data besar karena mengetahui bahwa distribusi sampling bersifat normal memungkinkan kita:
    • Menggunakan rumus distribusi normal
    • Membuat inferensi statistik
    • Menafsirkan data dengan lebih efektif

    2.4 Sample Proportion

    Distribusi sampling adalah konsep penting dalam statistik yang membantu kita memahami bagaimana statistik sampel (misalnya proporsi) bervariasi ketika kita mengambil banyak sampel dari populasi yang sama. Dengan memahami distribusi sampling, kita bisa menaksir probabilitas hasil sampel, menghitung simpangan baku, dan menerapkan Teorema Limit Tengah untuk membuat inferensi tentang populasi secara lebih akurat.

    2.4.1. Distribusi Sampling Proporsi Sampel

    Distribusi sampling: mengambil banyak sampel berulang-ulang, menghitung statistik (mis. p̂) untuk setiap sampel, lalu membentuk distribusi.

    Proporsi: fraksi hasil yang diinginkan dibandingkan seluruh populasi.

    Istilah Simbol Penjelasan
    Proporsi populasi 𝑝 Proporsi sebenarnya dalam seluruh populasi
    Proporsi sampel Proporsi yang diperoleh dari sampel

    Menurut Statistika Dasar, distribusi sampling untuk proporsi sampel memiliki mean sama dengan proporsi populasi p, dan simpangan baku (standard error): \[\sigma_{\hat{p}} = \sqrt{\frac{p(1-p)}{n}}\]

    Standard error ini menunjukkan seberapa besar variasi proporsi sampel jika kita mengambil banyak sampel acak secara berulang.

    Contoh
    • Sampel 10 orang → 2 orang memiliki mata hijau → p̂ = 2/10 = 0.2
    • Populasi 5.000 orang → 900 orang memiliki mata hijau → 𝑝 = 900/5000 = 0.18
    library(ggplot2)
    
    # Parameter binomial
    n <- 10        # ukuran sampel
    p <- 0.18      # proporsi populasi
    x <- 0:n
    
    # Probabilitas binomial
    prob <- dbinom(x, size = n, prob = p)
    
    df <- data.frame(
      x = x,
      prob = prob
    )
    
    # Plot
    ggplot(df, aes(x = factor(x), y = prob)) +
      geom_bar(stat = "identity", fill = "#7FB3D5", color = "black", width = 0.7) +
      labs(
        title = "Distribusi Binomial:Jumlah Orang dengan Mata Hijau (n = 10, p = 0.18)",
        x = "Jumlah Orang dengan Mata Hijau",
        y = "Probabilitas"
      ) +
      theme_minimal(base_size = 12) +
      theme(
        plot.title = element_text(face = "bold", hjust = 0.55),
        axis.title = element_text(face = "bold")
      )

    Interpretasi:

  • Histogram menunjukkan probabilitas jumlah orang dengan mata hijau dari sampel 10 orang.
  • Puncak batang berada di 1–2 orang, sesuai dengan proporsi populasi p = 0.18.
    Distribusi ini mulai menyerupai distribusi proporsi saat kita mempertimbangkan banyak sampel dan ukuran sampel yang lebih besar.
  • 2.4.2. Properti Distribusi Sampling (dengan syarat CLT)

    Simpangan baku: \[\sigma_{\hat{p}} = \sqrt{\frac{p(1-p)}{n}}\]

    Standardisasi (z-score): \[Z = \frac{\hat{p} - p}{\sigma_{\hat{p}}}\] Memungkinkan penggunaan tabel Z untuk menghitung probabilitas.

    Menurut OpenStax (2023), proporsi sampel memiliki mean sama dengan proporsi populasi p, dengan simpangan baku:

    \[\sigma_{\hat{p}} = \sqrt{\frac{p(1-p)}{n}}\]

    Jika syarat CLT terpenuhi, distribusi mendekati distribusi normal sehingga Z-score dapat digunakan untuk menghitung probabilitas.

    set.seed(123)
    
    # Parameter
    p <- 0.18
    n <- 10
    n_rep <- 1000
    
    # Simulasi sampel
    sample_props <- replicate(n_rep, mean(rbinom(n, 1, p)))
    
    df <- data.frame(prop = sample_props)
    
    # 1. Distribusi Sampling 𝑝̂
    ggplot(df, aes(x = prop)) +
      geom_histogram(aes(y = ..density..), bins = n+1, fill = "#7FB3D5", color = "black", alpha = 0.6) +
      labs(
        title = "Distribusi Sampling Proporsi (p&#770;) dari Sampel n=10",
        x = "Proporsi Sampel (p&#770;)",
        y = "Kepadatan"
      ) +
      theme_minimal(base_size = 14) +
      theme(plot.title = element_text(face="bold", hjust = 0.5),
            axis.title = element_text(face="bold"))

    # 2. Aproksimasi Kurva Normal
    se <- sqrt(p*(1-p)/n)  # simpangan baku 𝜎𝑝^
    
    x_vals <- seq(0, 1, length.out = 500)
    y_vals <- dnorm(x_vals, mean = p, sd = se)
    df_norm <- data.frame(x = x_vals, y = y_vals)
    
    ggplot(df, aes(x = prop)) +
      geom_histogram(aes(y = ..density..), bins = n+1, fill = "#7FB3D5", color = "black", alpha = 0.6) +
      geom_line(data = df_norm, aes(x = x, y = y), color = "#F5B7B1", linewidth = 1.5) +
      labs(
        title = "Aproksimasi Kurva Normal pada Distribusi Sampling (p&#770;)",
        x = "Proporsi Sampel (p&#770;)",
        y = "Kepadatan"
      ) +
      theme_minimal(base_size = 14) +
      theme(plot.title = element_text(face="bold", hjust = 0.5),
            axis.title = element_text(face="bold"))

    # 3. Standardisasi Z-score
    z_scores <- (sample_props - p)/se
    df_z <- data.frame(z = z_scores)
    
    ggplot(df_z, aes(x = z)) +
      geom_histogram(aes(y = ..density..), bins = 20, fill = "#7FB3D5", color = "black", alpha = 0.6) +
      geom_density(color = "#F5B7B1", linewidth = 1.5) +
      labs(
        title = "Distribusi Z-score dari Proporsi Sampel (p&#770;)",
        x = "Z-score",
        y = "Kepadatan"
      ) +
      theme_minimal(base_size = 14) +
      theme(plot.title = element_text(face="bold", hjust = 0.5),
            axis.title = element_text(face="bold"))

    Interpretasi:

    • Distribusi Sampling (p̂) → Menunjukkan proporsi sampel dari banyak pengambilan sampel. Bentuknya mirip distribusi binomial, tetapi dapat divisualisasikan sebagai histogram.
    • Aproksimasi Normal → Distribusi 𝑝̂ mulai menyerupai kurva normal sesuai CLT, meskipun ukuran sampel relatif kecil.
    • Z-score → Standardisasi memungkinkan penggunaan tabel Z dalam menghitung probabilitas, sehingga kurva distribusi Z mendekati normal standar.

    Visualisasi ini memperlihatkan hubungan antara distribusi sampel, normalisasi, dan probabilitas kumulatif secara intuitif.

    2.4.3. Syarat CLT untuk Proporsi Sampel

    Syarat Persyaratan
    1 𝑛𝑝 ≥ 10
    2 𝑛(1−𝑝) ≥ 10

    Sebagaimana dijelaskan dalam Metode Statistik, syarat n p ≥ 10 dan n (1 − p) ≥ 10 diperlukan agar aproksimasi normal pada distribusi proporsi valid.

    Jika syarat ini terpenuhi, distribusi akan cenderung berbentuk normal sehingga kita bisa menggunakan tabel Z untuk memperkirakan probabilitas.

    Bandingkan dengan distribusi rata-rata, yang memerlukan n ≥ 30 untuk CLT.)

    library(ggplot2)
    
    # Parameter contoh
    p <- 0.18
    n <- 100
    
    np <- n * p
    n1p <- n * (1 - p)
    
    df <- data.frame(
      condition = c("n*p", "n*(1-p)"),
      value = c(np, n1p)
    )
    
    # Plot bar
    ggplot(df, aes(x = condition, y = value, fill = condition)) +
      geom_bar(stat = "identity", color = "black", width = 0.5) +
      geom_hline(yintercept = 10, linetype = "dashed", color = "#D11B66", linewidth = 1) +
      annotate("text", x = 1.5, y = 11, label = "Batas CLT ≥ 10", color = "#D11B66", size = 4) +
      scale_fill_manual(values = c("n*p" = "#7FB3D5", "n*(1-p)" = "#82E0AA")) +
      labs(
        title = "Ilustrasi Syarat CLT untuk Proporsi Sampel",
        x = "Kondisi",
        y = "Nilai",
        fill = ""
      ) +
      theme_minimal(base_size = 14) +
      theme(
        plot.title = element_text(face="bold", hjust = 0.5),
        axis.title = element_text(face="bold")
      )

    Interpretasi:

  • np dan n(1-p) masing-masing ≥ 10 → CLT dapat diterapkan pada distribusi proporsi.
  • Garis putus-putus merah → batas CLT = 10.
  • Nilai di atas garis → distribusi sampel proporsi dapat diasumsikan mendekati normal.
  • Visualisasi ini menekankan kapan ukuran sampel cukup untuk CLT pada proporsi.
  • 2.4.4. Kaitan dengan Distribusi Binomial

    Distribusi sampling p̂ pada dasarnya merupakan normalisasi dari distribusi binomial. Ketika syarat CLT terpenuhi, distribusi p̂ mendekati distribusi normal sehingga tabel Z dapat digunakan.

    2.4.5. Ringkasan Materi

    • Distribusi Sampling: Banyak sampel → hitung p̂ → bentuk distribusi.
    • Proporsi: Bagian dari populasi yang memiliki karakteristik tertentu.
    • Simpangan Baku: Mengukur sebaran p̂ → \[\sigma_{\hat{p}} = \sqrt{\frac{p(1-p)}{n}} \]
    • Standardisasi: Ubah p̂ menjadi Z-score untuk menghitung probabilitas → \[Z = \frac{\hat{p} - p}{\sigma_{\hat{p}}}\]
    • Syarat CLT: n𝑝 ≥ 10 dan n(1−p) ≥ 10.
    • Hubungan dengan Binomial: Distribusi 𝑝^ mendekati normal jika syarat CLT terpenuhi.

    Distribusi sampling baik untuk rata‑rata maupun proporsi merupakan pilar inferensi statistik menurut buku‑buku klasik. Dengan menggunakan sampling acak dan ukuran sampel yang sesuai, kita bisa memperkirakan karakteristik populasi dan mengukur ketidakpastian menggunakan standard error. Ini menjadikan distribusi sampling alat penting dalam penelitian, survei, dan aplikasi statistik lainnya.

    2.5 Riview Sampling Distribution

    Di video ini, kita akan mereview materi penting dari bagian 1 sampai 4. Kita akan menelusuri konsep distribusi sampling, probabilitas, variasi sampel, hingga bagaimana Teorema Limit Tengah membantu kita memahami distribusi rata-rata sampel. Semua yang kamu pelajari sebelumnya akan kita rangkum dan lihat kaitannya, jadi lebih mudah diingat dan dipahami.

    2.5.1. Dasar-Dasar Probabilitas

    Probabilitas keberhasilan: \[P(\text{Sukses}) = \frac{\text{jumlah hasil yang berhasil}}{\text{total percobaan}}\]

    Probabilitas kegagalan: \[P(\text{Gagal}) = 1 - P(\text{Sukses})\]

    Metode Ruang Sampel: dipakai untuk kasus n kecil, memberi probabilitas eksak dari semua kemungkinan hasil.

    Masalah probabilitas setidaknya k keberhasilan = jumlah probabilitas untuk tepat k, k+1, … hingga n keberhasilan.

    2.5.2. Distribusi Binomial

    Memberikan peluang mendapatkan keberhasilan yang tepat dalam sejumlah percobaan tetap.

    Komponen:
    N = jumlah percobaan
    k = jumlah keberhasilan
    P = probabilitas keberhasilan
    Q = probabilitas kegagalan (1 − P)

    Cocok untuk n menengah (5–30) dan hasil probabilitas tepat (eksak).

    2.5.3. Distribusi Sampling Proporsi Sampel

    Distribusi proporsi sampel (p̂) terbentuk dari banyak sampel acak, dihitung proporsinya, dan digabung menjadi distribusi.

    Simpangan baku proporsi sampel: \[\sigma_{\hat{p}} = \sqrt{\frac{p(1-p)}{n}}\]

    Standardisasi (Z-score): \[Z = \frac{\hat{p} - p}{\sigma_{\hat{p}}}\]

    Syarat CLT untuk proporsi: n⋅p ≥ 10
    n⋅(1−p) ≥ 10

    Distribusi (p̂) mendekati normal jika syarat CLT terpenuhi, memungkinkan penggunaan tabel Z untuk probabilitas.

    2.5.4. Perbedaan Metode Perhitungan

    Metode Kasus Pakai Akurasi
    Ruang Sampel n kecil (Exact) Akurat
    Rumus Binomial n menengah (5–30) Akurat
    Pendekatan Normal n besar (>30) + syarat CLT Perkiraan
    Intisari:
    • Metode distribusi sampling memberikan perkiraan.
    • Perhitungan binomial memberikan hasil eksak.
    • Probabilitas adalah dasar untuk memahami distribusi sampel dan melakukan inferensi statistik.

    2.5.5. Contoh Soal

    No. Soal Penjelasan Singkat
    1 Ruang Sampel (n = 3) – Toples berisi 200 marmer hijau & 300 biru (total 500). Ambil 3 kelereng. Hitung probabilitas ≥ 2 hijau.
    • Buat kemungkinan pohon: setiap penarikan hijau = 0,4; biru = 0,6.
    • Probabilitas satu urutan “GGB” = 0,4 × 0,4 × 0,6 = 0,096.
    • Kombinasi tepat 2 hijau = GGB, GBG, BGG → 3 × 0,096 = 0,288.
    • Probabilitas 3 hijau = 0,4³ = 0,064.
    • Jawaban: 0,288 + 0,064 = 0,352
    2 Distribusi Binomial (n = 5) – p = 0,4 (hijau). Hitung probabilitas ≥ 2 hijau.
    • Gunakan rumus binomial:\[P(X = k) = \binom{n}{k}\, p^{k}\,(1-p)^{\,n-k}\].
    • Hitung P(X=0) dan P(X=1), lalu P(≥2) = 1 - [P(0)+P(1)].
    • Hasil: ≈ 0,6634
    3 Pendekatan Normal (n = 100) – Populasi p = 0,4. Dari 100 tarikan, 35 hijau → 𝑝̂ = 0,35. Hitung z‑score & probabilitas ≥ 35 hijau.
    • Rumus umum:

      \[ z = \frac{\hat{p} - p}{\sqrt{\frac{p(1-p)}{n}}} \]

      Substitusi nilai:

      \[ z = \frac{0,35 - 0,40}{\sqrt{\frac{0,4 \cdot 0,6}{100}}} \]

      Hasil:

      \[ z \approx -1,02 \]

    • Dari tabel Z, luas kanan z = -1,02 ≈ 0,846 (84,6%).
    • Interpretasi: Probabilitas ≥ 35 hijau ≈ 84%
    4 Cek Syarat CLT – Apakah kondisi CLT terpenuhi?
    • np = 100 × 0,4 = 40 ≥ 10
    • n(1-p) = 100 × 0,6 = 60 ≥ 10
    • Jawaban: Ya, kedua syarat terpenuhi → pendekatan normal dapat digunakan
    library(ggplot2)
    library(gridExtra)
    
    set.seed(123)
    
    # --- 1. Ruang Sampel n=3 ---
    n1 <- 3
    p1 <- 0.4
    x1 <- 0:n1
    prob1 <- dbinom(x1, size = n1, prob = p1)
    df1 <- data.frame(x = x1, prob = prob1)
    
    plot1 <- ggplot(df1, aes(x = factor(x), y = prob)) +
      geom_bar(stat="identity", fill="#F5B7B1", color="black", width=0.6) +
      labs(title="1. Ruang Sampel (n=3)", x="Jumlah Hijau", y="Probabilitas") +
      theme_minimal(base_size = 12) +
      theme(plot.title=element_text(face="bold", hjust=0.5))
    
    # --- 2. Distribusi Binomial n=5 ---
    n2 <- 5
    p2 <- 0.4
    x2 <- 0:n2
    prob2 <- dbinom(x2, size = n2, prob = p2)
    df2 <- data.frame(x = x2, prob = prob2)
    
    plot2 <- ggplot(df2, aes(x = factor(x), y = prob)) +
      geom_bar(stat="identity", fill="#7FB3D5", color="black", width=0.6) +
      labs(title="2. Distribusi Binomial (n=5)", x="Jumlah Hijau", y="Probabilitas") +
      theme_minimal(base_size = 12) +
      theme(plot.title=element_text(face="bold", hjust=0.5))
    
    # --- 3. Pendekatan Normal n=100 ---
    n3 <- 100
    p3 <- 0.4
    p_hat <- 35/100
    se3 <- sqrt(p3*(1-p3)/n3)
    z <- (p_hat - p3)/se3
    
    x3 <- seq(0, 1, length.out = 500)
    y3 <- dnorm(x3, mean=p3, sd=se3)
    df3 <- data.frame(x=x3, y=y3)
    
    plot3 <- ggplot(df3, aes(x=x, y=y)) +
      geom_line(color="#82E0AA", size=1.5) +
      geom_vline(xintercept = p_hat, color="#D11B66", linetype="dashed", size=1) +
      labs(title="3. Pendekatan Normal (n=100)", x="Proporsi Sampel", y="Kepadatan") +
      annotate("text", x=p_hat+0.03, y=max(y3)*0.8, 
               label=paste0("p̂=0.35\nZ=", round(z,2)), color="#D11B66") +
      theme_minimal(base_size = 12) +
      theme(plot.title=element_text(face="bold", hjust=0.5))
    
    # --- 4. Cek Syarat CLT ---
    np <- n3 * p3
    n1p <- n3 * (1-p3)
    df4 <- data.frame(cond=c("n*p","n*(1-p)"), value=c(np,n1p))
    
    plot4 <- ggplot(df4, aes(x=cond, y=value, fill=cond)) +
      geom_bar(stat="identity", width=0.5, color="black") +
      geom_hline(yintercept = 10, linetype="dashed", color="#D11B66", size=1) +
      annotate("text", x=1.5, y=11, label="Batas CLT ≥ 10", color="#D11B66", size=4) +
      scale_fill_manual(values=c("n*p"="#7FB3D5","n*(1-p)"="#82E0AA")) +
      labs(title="4. Cek Syarat CLT", x="", y="Nilai") +
      theme_minimal(base_size = 12) +
      theme(plot.title=element_text(face="bold", hjust=0.5),
            axis.title=element_text(face="bold"),
            legend.position="none")
    
    # Gabungkan semua plot
    grid.arrange(plot1, plot2, plot3, plot4, ncol=1)
    Interpretasi
    1. n kecil (3) → distribusi sangat diskrit dan terbatas, probabilitas dihitung manual.
    2. Binomial n=5 → distribusi mulai membentuk pola probabilitas, batang masih diskrit.
    3. n besar (100) → Normal → distribusi proporsi sampel dapat diasumsikan normal; Z-score memudahkan perhitungan probabilitas.
    4. Syarat CLT → np dan n(1-p) ≥ 10 → CLT berlaku, distribusi normal aproksimasi valid.

    3. Penutup

    Materi ini membahas variabel kontinu, PDF, CDF, distribusi sampling rata-rata dan proporsi, distribusi binomial, serta pendekatan probabilitas menggunakan Teorema Limit Tengah (CLT). Pemahaman konsep-konsep ini memungkinkan kita menghitung probabilitas pada interval, menganalisis variasi statistik sampel, menggunakan standardisasi Z-score, serta membuat inferensi yang lebih akurat terhadap populasi. Visualisasi seperti histogram, kurva kepadatan, dan kurva normal membantu memudahkan interpretasi distribusi sampel dan kumulatif probabilitas.

    4. Referensi