Tugas Week 11 ~ Probability Distributions

logo week 10

Nazwa Nur Ramadhani

Undergraduate Student in Data Science at Institut Teknologi Sains Bandung

7 Probability Distributions

Dalam kehidupan sehari-hari, kita sering dihadapkan pada berbagai situasi yang melibatkan ketidakpastian. Mulai dari prediksi cuaca, hasil pelemparan koin, hingga ketidakstabilan harga saham, semuanya memiliki elemen acak yang sulit diprediksi dengan pasti. Namun, meskipun bersifat acak, fenomena-fenomena tersebut seringkali menunjukkan pola tertentu yang dapat dipelajari dan dianalisis secara matematis.

Di sinilah konsep distribusi probabilitas menjadi sangat penting. Distribusi probabilitas memberikan kerangka matematis untuk menggambarkan dan menganalisis perilaku variabel acak. Melalui distribusi probabilitas, kita dapat menyatakan kemungkinan terjadinya berbagai hasil dari suatu kejadian acak, sehingga memungkinkan kita untuk membuat prediksi dan pengambilan keputusan yang lebih baik meskipun dalam kondisi ketidakpastian.

Pemahaman tentang distribusi probabilitas menjadi fundamental tidak hanya dalam statistika, tetapi juga dalam berbagai bidang seperti ekonomi, teknik, ilmu sosial, dan sains data. Konsep ini membantu kita untuk tidak hanya mengenali adanya ketidakpastian, tetapi juga untuk mengukur, memodelkan, dan mengambil keputusan berdasarkan informasi probabilistik yang tersedia.

7.1 Continuous Random

7.1.1 Discrete Variables

Variabel acak diskrit adalah variabel yang bisa mengambil nilai–nilai tertentu saja, yang bisa dihitung atau dikelompokkan (countable). Contoh nyata: jumlah anak yang dimiliki oleh suatu keluarga, jumlah siswa yang hadir di kelas, hasil lempar dadu, jumlah pelanggan yang datang ke toko dalam sehari, jumlah kepala muncul dari beberapa kali lempar koin, dan lain-lain.

7.1.2 Continuous Variables

Variabel acak kontinu adalah variabel yang bisa mengambil apa saja dalam rentang tertentu, termasuk bilangan pecahan/desimal, bilangan real dalam sebuah interval. Data untuk variabel continous diperleh dengan mengukur, bukan menghitung, oleh karena itu variabel continuous tidak terbatas dan tidak dapat dihitung. Contoh nyata: berat badan, usia, suhu, dan jarak.

Karakteristik utama:

  • Variabel mengambil nilai dalam interval seperti \((a,b)\) atau bahkan \((-\infty, +\infty)\).

  • Probabilitas setiap titik tunggal selalu nol: \[P(X=x)=0\]

  • Probabilitas hanya bermakna pada interval: \[P(a \le X \le b) = \int_a^b f(x)\,dx\]

7.1.3 Comparison: Probability Distribution

Dalam statistika, distribusi probabilitas variabel acak diskrit menggunakan bar chart dan variabel acak continous menggunakan histogram.

A.Probability Mass Function (PMF)

PMF digunakan untuk variabel acak diskrit, yaitu variabel yang nilai-nilainya terhitung satu persatu, \(P(X=x)\). Contohnya seperti jumlah anak, sisi dadu, jenis barang, jumlah kecelakaan, dan lain-lain. Distribusi probabilitas variabel acak diskrit disajikan menggunakan bar chart

PMF memiliki 2 syarat:

  • Untuk tiap nilai \(x\), \(0≤P(X=x)≤1\)

  • Total semua peluang harus = 1

Visualisasi

library(ggplot2)

# Data PMF
data <- data.frame(
  x = factor(c(1, 2, 3, 4, 5)),
  pmf = c(0.1, 0.2, 0.4, 0.2, 0.1)
)

ggplot(data, aes(x = x, y = pmf, fill = x)) +
  geom_col(width = 0.7) +
  scale_y_continuous(
    limits = c(0, 0.5),
    breaks = seq(0, 0.5, by = 0.1),
    expand = c(0, 0)
  ) +
  labs(
    title = "Probability Mass Function",
    x = "Nilai (x)",
    y = "P(X = x)"
  ) +
  scale_fill_brewer(palette = "Blues") +
  theme_minimal(base_size = 14) +
  theme(
    legend.position = "none",
    plot.title = element_text(size = 20, face = "bold", hjust = 0.5),
    axis.title = element_text(size = 14),
    panel.grid.major.x = element_blank(),
    panel.grid.minor = element_blank()
  )

B.Probability Density Function(PDF)

PDF digunakan untuk variabel acak continuous, yaitu sebuah fungsi \(f(x)\) yang menggambarkan “densitas peluang” di setiap titik \(x\). Sebuah fungsi \(f(x)\) adalah Probability Density Function (PDF) yang valid jika memenuhi:

A.Non-negatif \[f(x) \ge 0 \quad \forall x\]

B.Luas totalnya sama dengan 1 \[\int_{-\infty}^{\infty} f(x)\,dx = 1\]

Interpretasi:

  • Nilai yang lebih besar dari \(f(x)\) menunjukkan kepadatan probabilitas yang lebih tinggi di sekitar nilai tersebut.

  • \(f(x)\) bukan merupakan probabilitas; probabilitas berasal dari area di bawah kurva.

Visualisasi

library(ggplot2)

# Load Data
set.seed(123)
data <- data.frame(
  x = rnorm(1000, mean = 50, sd = 10)
)

ggplot(data, aes(x = x)) +
  geom_histogram(
    aes(y = ..density..),
    bins = 30,
    fill = "#4A90E2",
    color = "white",
    alpha = 0.8
  ) +
  stat_function(
    fun = dnorm,
    args = list(mean = 50, sd = 10),
    color = "#003f7f",
    size = 1.2
  ) +
  labs(
    title = "Probability Density Function",
    x = "Nilai",
    y = "Density"
  ) +
  theme_minimal(base_size = 14) +
  theme(
    plot.title = element_text(size = 18, face = "bold", hjust = 0.5),
    panel.grid.minor = element_blank()
  )

Example

Contoh:

\(f(x)=3x^2\) pada \([0,1]\)

Pertimbangkan fungsi kepadatan probabilitas:\[f(x) = 3x^2,\quad 0 \le x \le 1\]

Validasi: \[\int_0^1 3x^2\,dx = 1\]

C.Cumulative Density Function (CDF)

CDF adalah fungsi yang menunjukkan probabilitas bahwa variabel acak X akan mengambil nilai kurang dari atau sama dengan x tertentu.

Secara matematis:

\[ F_X(x) = P(X \le x) \]>/p>

Dimana:

  • \(X\) = variabel acak (discrete atau continuous)

  • \(FX(x)\) = probabilitas kumulatif hingga nilai \(x\)

Properti CDF

1.Nilainya selalu di antara 0 dan 1: \(0 \le F_X(x) \le 1\) untuk semua \(x\).

2.CDF bersifat non-decreasing: jika \(x_1 < x_2\), maka \(F_X(x_1) \le F_X(x_2)\).

3.Limit:

\[ \lim_{x \to -\infty} F_X(x) = 0, \qquad \lim_{x \to +\infty} F_X(x) = 1. \]

a).CDF untuk Variabel Diskrit

Jika \(X\) adalah variabel acak diskrit, misal \(X={x_1, x_2, ...,x_n}\), maka:

\[ F_X(x) = \sum_{x_i \le x} P(X = x_i) \]

b).CDF untuk Variabel Continuous

Jika \(X\) adalah variabel acak continuous dengan Probability Density Function (PDF) \(f_x(x)\), maka:

\[ F_X(x) = \int_{-\infty}^{x} f_X(t)\, dt. \]

Contoh: Misal \(X \sim U(0,1)\) dengan:

\[ f_X(x) = \begin{cases} 1, & 0 \le x \le 1,\\ 0, & \text{lainnya}, \end{cases} \]

Maka CDF-nya adalah:

\[ F_X(x) = \int_0^x 1 \, dt = x, \quad 0 \le x \le 1. \]

7.2 Sampling Distributions

7.2.1 Sample Distribution vs Sampling Distribution

Distribusi sample melibatkan pengambilan sample tunggal dari suatu populasi dan menjelaskan datanya, misalnya distribusi tinggi badan dari 50 siswa yang dipilih secara acak. Sedangkan, distribusi sampling adalah distribusi statistik yang dibuat dari beberapa sample acak sederhana yang diambil dari populasi tertentu. Dengan kata lain, distribusi sampling bukan distribusi data sebenarnya, melainkan distribusi dari “hasil statistik” ketika banyak sampel diambil.

7.2.2 Sampling Distribution of the Sample Mean

Distribusi sampling adalah sekumpulan \(\bar{x}\) yang ditumpuk satu sama lain.

Sifat-sifat Utama:

Misalkan populasi punya rata-rata \(μ\) dan simpangan baku \(σ\). Jika sampel acak berukuran \(n\) diambil, lalu hitung rata-rata sampel \(\bar{x}\), maka:

  • Rata-rata distribusi sampling:\[μ\bar{x}=μ\]

    Artinya, rata-rata sample mendekati rata-rata populasi.

  • Simpangan baku dari distribusi sampling (disebut standard error, SE): \[\sigma\bar{X}=\frac{\sigma}{\sqrt{n}}\]

  • Jika populasi asal normal, maka distribusi sampling rata-rata juga normal untuk semua \(n\). \[\bar{X}∼N(\mu,\sigma^2/n)\]

Jika populasi bukan normal, maka kalau \(n\) cukup besar (\(n≥30\)), menurut CLT distribusi sampling rata-rata mendekati normal.

Langkah-langkah membuat distribusi sampling dari rata-rata sample:

1.Menemukan populasi yang diminati

2.Mengambil sample acak berukuran n

3.Menghitung rata-rata \(\bar{x}\) dari sample tersebut.

4.Membuat distribusi frekuensi dari rata-rata sample dengan memplot nilai \(\bar{x}\) untuk sample. Distribusi sampling melibatkan pengambilan beberapa sample, jadi lakukan proses tersebut untuk proses lainnya.

7.2.3 Population Distribution vs Sampling Distribution

A.Population Distribution

Distribusi populasi adalah bentuk penyebaran data dari seluruh anggota populasi. Distribusi populasi adalah distribusi asli dari data aslinya. Distribusi populasi memiliki mean sebesar \(\mu\), standard deviation sebesar \(\sigma\) dan variabel acak X mengikuti distribusi normal dengan mean \(\mu\) dan deviasi standar sebesar \(\sigma\), maka dapat direpresentasikan oleh notasi berikut: \[\bar{X}∼N(\mu,\sigma)\]

Rumus:

\[z = \frac{x - \mu}{\sigma}\]

Karakteristik Utama:

  • Berisi semua nilai dalam populasi.

  • Bentuk distribusinya bebas. Bisa berbentuk normal, miring, bimodal, uniform.

  • Parameter yang digunakan adalah parameter populasi:mean (\(\mu\)), standard deviation(\(\sigma\))

B.Sampling Distribution

Distribusi sampling adalah distribusi dari suatu statistik (misal rata-rata sampel, proporsi sampel, selisih dua mean, dll) yang dihitung dari semua kemungkinan sampel berukuran sama (n) yang diambil dari populasi. Yang didistribusikan adalah statistika hasil sample (misal: \(\bar{x}\)), bukan datanya.

Rumus:

\[Z=\frac{\bar{x}-\mu}{{\sigma/}\sqrt{n}}\]

Karakteristik Utama:

  • Mean sampling distribution: \[μ\bar{X}=μ\]

  • Standard error: \[\sigma\bar{X}=\frac{\sigma}{\sqrt{n}}\]

  • Bentuk sampling distribution akan menjadi mendekati normal jika \(n\) cukup besar (CLT).

7.2.4 Sampling Distribution Uses

  • Membantu memahami variabilitas statistik. Misalnya seberapa berbeda rata-rata sampel jika diambil sampel berbeda.

  • Karena populasi besar dan tidak bisa ambil semua data, maka butuh sampling dan distribusi sampling agar bisa lakukan generalisasi dari sampel ke populasi.

  • Distribusi sampling pasti useful jika sampel cukup besar. Menurut CLT, distribusi sampling rata-rata mendekati normal akan memudahkan perhitungan probabilitas, interpretasi statistik, dan sebagainya.

Example 1

Soal: Misalkan diketahui bahwa tinggi badan semua orang Kanada mengikuti distribusi normal dengan rata-rata 160 cm dan simpangan baku 7 cm. Berapa probabilitas rata-rata tinggi badan 10 orang Kanada acak kurang dari 157 cm?

Jawab:

Diketahui:

\[ n = 10, \qquad \mu_X = 160, \qquad \sigma = 7 \]

Rata-rata sampel mengikuti distribusi normal dengan:

\[ \sigma_{\bar{X}} = \frac{\sigma}{\sqrt{n}} = \frac{7}{\sqrt{10}} = 2.21 \]

Kita ingin mencari probabilitas:

\[ P(\bar{X} < 157) \]

Hitung z-score:

\[ z = \frac{157 - 160}{2.21} = -1.36 \]

Cari probabilitasnya:

\[ P(\bar{X} < 157) = P(Z < -1.36) \]

Dari tabel distribusi normal:

\[ P(Z < -1.36) = 0.0869 \]

\[ \boxed{P(\bar{X} < 157) = 0.0869} \]

Example 2

Soal: Misalkan diketahui bahwa tinggi semua orang Kanada mengikuti distribusi normal dengan rata-rata 160 cm dan deviasi standar 7 cm. Berapa proporsi semua orang yang tingginya lebih dari 170 cm?

Jawab:

Diketahui:

\[ \mu = 160, \qquad \sigma = 7 \]

Kita ingin mencari probabilitas:

\[ P(X > 170) \]

Hitung z-score:

\[ z = \frac{170 - 160}{7} = 1.43 \]

Probabilitasnya adalah:

\[ P(X > 170) = P(Z > 1.43) \]

Dari tabel distribusi normal:

\[ P(Z > 1.43) = 0.0764 \]

\[ \boxed{P(X > 170) = 0.0764} \]

7.3 Central Limit Theorem

7.3.1 Central Limit Theorem

Central limit theorem memprediksi bentuk distribusi sampling berdasarkan ukuran sample. Secara khusus, central limit theorem menyatakan bahwa “Jika ukuran sample n cukup besar, maka distribusi sampling dari sample mean akan mendekati normal.” Meskipun data populasinya tidak normal (skewed, uniform, distribusi tidak normal), setelah rata-rata diambil dari banyak sampel, hasil rata-rata tersebut akan terdistribusi seperti normal (bell curve).

7.3.2 Central Limit Theorem, General Rules of Thumb

1.\(n≥30\)

Sampling distribution dari rata-rata sampel akan mendekati normal apabila ukuran sampel lebih besar dari 30. Terlepas dari apa distribusi populasi aslinya, distribusi sampling dari mean sample akan selalu normal jika ukuran sample \(n\) cukup besar.

2.\(n<30\)

Jika ukuran sample kecil perkiraan normal tidak akan akurat karena memiliki ukuran sample yang lebih kecil dapat menyebabkan lebih banyak variabilitas, kurangnya presisi dan reliabilitas. Ukuran sample yang lebih kecil juga memiliki resiko lebih besar untuk mendapatkan sample yang tidak biasa hanya secara kebetulan. Singkatnya, ukuran sample yang lebih kecil tidak akan menghasilkan distribusi sampling yang normal dan oleh karena itu untuk ukuran sample kurang dari 30, tidak dapat menerapkan central limit theorem sama sekali.

Visualisasi

library(ggplot2)
library(gridExtra)
library(grid)

set.seed(123)

# Populasi tidak normal (skewed)
populasi <- rexp(100000, rate = 1/10)

ambil_mean <- function(n) mean(sample(populasi, n, replace = TRUE))

# Sampel kecil & besar
df_n10  <- data.frame(mean = replicate(5000, ambil_mean(10)))
df_n30  <- data.frame(mean = replicate(5000, ambil_mean(30)))

# Warna
warna_hist <- "#a8d4ff"
warna_line <- "#003b73"

# Tema rapi
tema_cantik <- theme_classic() +
  theme(
    plot.subtitle = element_text(size = 14, color = "#003b73"),
    plot.title    = element_blank(),
    axis.title    = element_text(size = 13, color = "#003b73"),
    axis.text     = element_text(size = 11, color = "#003b73"),
    plot.margin   = margin(10, 10, 10, 10)
  )

# ---- Plot 1: n < 30 ----
plot_n10 <- ggplot(df_n10, aes(mean)) +
  geom_histogram(aes(y = ..density..),
                 bins = 50,
                 fill = warna_hist,
                 color = NA,
                 alpha = 0.8) +
  geom_density(color = warna_line, linewidth = 1.4) +
  labs(
    subtitle = "Sampling Distribution n < 30",
    x = "Sample Means",
    y = "Density"
  ) +
  tema_cantik

# ---- Plot 2: n ≥ 30 ----
plot_n30 <- ggplot(df_n30, aes(mean)) +
  geom_histogram(aes(y = ..density..),
                 bins = 50,
                 fill = warna_hist,
                 color = NA,
                 alpha = 0.8) +
  geom_density(color = warna_line, linewidth = 1.4) +
  labs(
    subtitle = "Sampling Distribution n ≥ 30",
    x = "Sample Means",
    y = "Density"
  ) +
  tema_cantik

# ---- Judul Tengah ----
judul <- textGrob(
  "Central Limit Theorem Visualization",
  gp = gpar(fontsize = 20, fontface = "bold", col = "#003b73")
)

# ---- Gabungkan ----
grid.arrange(
  judul,
  arrangeGrob(plot_n10, plot_n30, ncol = 2),
  heights = c(0.12, 1)
)

Example

Soal: Untuk setiap distribusi populasi yang dijelaskan di bawah ini, opsi mana yang akan menghasilkan distribusi sampel yang mendekati normal?

a)Distribusi populasi persegi panjang, ukuran sampel 15

b)Distribusi populasi bimodal, ukuran sampel 29

c)Distribusi populasi miring, ukuran sampel 40

d)Distribusi populasi segitiga, ukuran sampel 35

e)Distribusi populasi normal, ukuran sampel 20

f)Distribusi populasi normal, ukuran sampel 30

Jawab:

  • Jawaban a dan b salah karena ukuran sample kurang dari 30, central limit theorem tidak dapat diterapkan. Jadi, tidak dapat dikatakan bahwa distribusi sampling akan mendekati normal.

  • Jawaban c, d, dan f benar karena ukuran sample lebih besar dari atau sama dengan 30, maka central limit theorem dapat diterapkan. Jadi, dapat dikatakan bahwa distribusi sampling akan mendekati normal.

  • Jawaban e benar karena distribusi populasi nya sudah normal sejak awal, maka distribusi sampling juga akan normal meskipun ukuran samplenya kurang dari 30.

7.4 Sample Proportion

7.4.1 Proportions

Distribusi sampling adalah pengambilan sample berulang kali dari suatu populasi, menghitung statistik untuk setiap sample individu seperti \(\bar{x}\) atau \(\hat{p}\) dan menggabungkan informasi pada grafik untuk membuat distribusi sampling.

Dalam statistik, proporsi menggambarkan fraksi hasil yang menguntungkan dalam kaitannya dengan keseluruhan. Hasil yang menguntungkan hanyalah variabel apapun, misalnya tinggi badan, berat badan, warna mata, atau skor yang diperoleh waktu ujian. Ini semua variabel terukur yang dapat dicatat dari suatu populasi atau sample.

Rumus:

\[\text{Proportion} = \frac{\text{number of favourable outcomes}}{\text{total number of outcomes}}\]

Example

Jika suatu sample memiliki ukuran sample 10 dan hanya 2 orang dalam sample yang bermata hijau, maka proporsi nya 2/10 atau 0.2

Untuk populasi, jika ukuran populasi 5000 dan hanya 900 orang yang memiliki mata hijau maka proporsi nya 900/5000 atau 0.18

Visualisasi

library(ggplot2)
library(grid)
library(gridExtra)
library(scales)  # untuk persen

# Data

prop_sample <- 2/10
prop_pop <- 900/5000

df <- data.frame(
Kategori = c("Proporsi Sampel", "Proporsi Populasi"),
Proporsi = c(prop_sample, prop_pop)
)

# Plot vertikal dengan persentase

p <- ggplot(df, aes(x = Kategori, y = Proporsi, fill = Kategori)) +
geom_col(width = 0.6) +
geom_text(aes(label = percent(Proporsi, accuracy = 1)),
vjust = -0.5,
size = 6) +
scale_fill_manual(values = c("#4DB6E2", "#9AD1B4")) +
scale_y_continuous(labels = percent_format(accuracy = 1), limits = c(0, 0.3)) +
labs(
x = "",
y = "Proporsi"
) +
theme_minimal(base_size = 14) +
theme(
plot.title = element_text(face = "bold", hjust = 0.5),
legend.position = "none"
)

# Title grob

main_title <- textGrob(
"Visualisasi Proporsi Mata Hijau (Sample vs Populasi)",
gp = gpar(fontsize = 18, fontface = "bold")
)

# Arrange

grid.arrange(main_title, p, heights = c(0.12, 1))

Interpretasi:

Dari visualisasi bar chart, terlihat bahwa proporsi orang dengan mata hijau di sample adalah 20% (2 dari 10 orang), sedangkan proporsi di populasi adalah 18% (900 dari 5000 orang). Meskipun proporsi sample sedikit lebih tinggi dibanding populasi, perbedaan ini relatif kecil dan dapat dijelaskan oleh ukuran sample yang terbatas. Sample yang kecil cenderung mengalami fluktuasi acak, sehingga nilai proporsinya tidak selalu sama persis dengan proporsi populasi.

7.4.2 Sampling Distribution of the Sample Proportion

Penting untuk diingat bahwa dalam suatu populasi proporsi dilambangkan dengan simbol \(p\) dan dalam proportion sample dilambangkan dengan simbol \(\hat{p}\). Nilai \(\hat{p}\) bergantung pada data yang dikumpulkan dari sample dan setiap sample berbeda karena probabilitas namun jika \(\hat{p}\) diambil semua dan menaruhnya ke dalam grafik, maka akan mendapatkan distribusi \(\hat{p}\) atau sampling distribution of the sample proportion.

Sampling distribution of the sample proportion adalah sebuah distribusi statistik \(\hat{p}\) yang dibuat dari pengambilan sample acak berulang kali, distribusi ini berisi nilai mean dan nilai standard deviation karena distribusi ini pada dasarnya terdiri dari sekumpulan \(\hat{p}\). Kita dapat menyatakan bahwa mean dari distribusi sampling sebagai \(\mu\hat{p}\) dan standard deviation sebagai \(\sigma\hat{p}\).

Jika distribusi sampling dari proporsi sample normal dan mengikuti central limit theorem, maka akan menemukan 3 hal:

1.\(\mu\hat{p}\), artinya rata-rata dari semua \(\hat{p}\) yang digabungkan sama dengan proporsi populasi \(p\).

2.\(\sigma\hat{p} = \sqrt{\frac{p(1 - p)}{n}}\)

Keterangan:

  • \(n=\) ukuran sample

  • \(p=\) proporsi hasil yang berhasil

3.Jika distribusi sampling dari proporsi sample mengikuti distribusi normal dengan mean \(p\) dan standard deviation \[\hat{p} \approx N\left(p,\ \sqrt{\frac{p(1 - p)}{n}}\right)\]

Maka kita dapat menggunakan tabel z score dan standardization formula. Untuk rumus standardization \[z = \frac{\hat{p} - p}{\sqrt{\frac{p(1 - p)}{n}}}\]

7.4.3 Central Limit Theorem

Penting untuk dicatat bahwa central limit theorem diterapkan secara berbeda dalam sampling distribution of the sample mean dengan sampling distribution of the sample proportion.

Sampling distribution of the sample proportion (\(\hat{p}\)) memiliki 2 success-failure condition:

1.\(np≥10\)

2.\(n(1-p)≥10\)

Jika kedua kondisi terpenuhi maka central limit theorem dapat diterapkan dan jika central limit theorem dapat diterapkan tabel z score dapat digunakan dengan menggunakan rumus standardization yang sesuai.

Example

Soal: Sebuah perusahaan melakukan survei terhadap \((n = 200)\) pelanggan untuk mengetahui tingkat kepuasan terhadap layanan mereka. Dari survei tersebut, sebanyak \(x = 154\) pelanggan menyatakan puas> Hitunglah proporsi sampel, standard error, dan distribusi sampling dari proporsi tersebut.

Jawab:

Cek success-failures condition:

\[\hat{p} = \frac{x}{n} = \frac{154}{200} = 0.77\]

\[np=200×0.77=154\] (terpenuhi karena 154≥10)

\[n(1−p)=200×0.23=46\] (terpenuhi karena 46≥10)

Hitung standard deviation:

\[ \sigma\hat{p} = \sqrt{\frac{p(1 - p)}{n}} = \sqrt{\frac{0.77(1 - 0.77)}{200}} = \sqrt{\frac{0.77 \times 0.23}{200}} = \sqrt{0.0008855} \approx 0.02975 \]

Maka distribusi sampling dari proporsi dapat didekati dengan distribusi normal:

\[\hat{p} \approx N\left(0.77,\ 0.02975\right)\]

Jadi, proporsi sampel adalah \(0.77\), standard deviation nya sekitar \(0.02975\), dan distribusi sampling-nya mengikuti distribusi normal dengan mean \(0.77\).

7.5 Review Sampling Distribution

7.5.1 Review: Simple Probability and Sample Spaces

Probabilitas keberhasilan: \[\text{p(success)} = \frac{\text{number of successful outcomes}}{\text{total number of outcomes}}\]

Probabilitas kegagalan: \[\text{p(failure)} = \frac{\text{number of unsuccessful outcomes}}{\text{total number of outcomes}}\]

Catatan!

Metode simple probability dan sample spaces tidak cocok untuk ukuran sampel yang besar karena jumlah kemungkinan meningkat sangat cepat (bersifat eksponensial), sehingga ruang sampelnya menjadi terlalu banyak untuk dituliskan atau dihitung satu per satu. Prosesnya memakan banyak waktu, tidak efisien, dan sering kali tidak layak digunakan.

Example

Soal: Diketahui sebuah toples berisi 200 kelereng hijau dan 300 kelereng biru (total 500). Satu kelereng ditarik sebanyak 3 kali dengan pengembalian. Hitung peluang memperoleh sedikitnya dua kelereng hijau.

Jawab:

Karena pengambilan dilakukan , tiap percobaan bersifat independen. Probabilitas memperoleh manik hijau pada satu tarikan adalah

\[ p = \frac{200}{500} = 0.4. \]

Misalkan \(X\) = jumlah manik hijau dalam \(n=3\) tarikan. Maka \(X\) mengikuti distribusi binomial

\[ X \sim \mathrm{Bin}(n=3, p=0.4). \]

Kita cari \(P(X \ge 2) = P(X=2) + P(X=3)\). Dengan rumus binomial:

\[ P(X=k)=\binom{n}{k} p^k (1-p)^{n-k}. \]

Sehingga

\[ \begin{aligned} P(X=2) &= \binom{3}{2}(0.4)^2(0.6)^1 = 3 \cdot 0.16 \cdot 0.6 = 0.288,\\[6pt] P(X=3) &= \binom{3}{3}(0.4)^3(0.6)^0 = 1 \cdot 0.064 = 0.064. \end{aligned} \]

Jadi

\[ P(X \ge 2) = 0.288 + 0.064 = 0.352 = \frac{44}{125}. \]

\[ \boxed{P(\text{sedikitnya 2 hijau}) = 0.352 \; (=44/125).} \]

7.5.2 Review: the Binomial Distribution Formula

Bagaimana jika ukuran sample banyak dan tidak ingin hitung manual yang membutuhkan banyak waktu? Jika ukuran sample banyak, maka sebagai gantinya kita dapat menggunakan rumus binomial untuk menyelesaikan kasus seperti itu. Metode ini cocok untuk

\[ P(X=k)=\binom{n}{k} p^k (1-p)^{\,n-k}. \]

Keterangan:

  • \(n\) = jumlah percobaan

  • \(k\) = jumlah sukses yang dicari

  • \(p\) = peluang sukses

  • \((1-p)\) = peluang gagal

  • \({n \choose k}\) = kombinasi

Example

Soal: Sebuah toples berisi 200 kelereng hijau dan 300 kelereng biru (total 500). Satu manik ditarik sebanyak \(n=5\) kali dengan pengembalian. Tentukan peluang bahwa dari lima tarikan tersebut diperoleh sedikitnya dua kelereng hijau.

Jawab:

Probabilitas memperoleh manik hijau pada satu tarikan:

\[ p = \frac{200}{500} = 0.4. \]

Misalkan \(X\) = banyaknya manik hijau dalam \(n=5\) tarikan. Karena tiap tarikan independen dan hanya ada dua kemungkinan (hijau atau bukan), maka \(X \sim \mathrm{Bin}(n=5,\; p=0.4)\).

\[ P(X \ge 2) = 1 - P(X \le 1) = 1 - \big( P(X=0) + P(X=1) \big). \]

Rumus probabilitas binomial:

\[ P(X=k)=\binom{n}{k} p^k (1-p)^{\,n-k}. \]

Hitung masing-masing:

\[ \begin{aligned} P(X=0) &= \binom{5}{0} (0.4)^0 (0.6)^5 = (0.6)^5 = 0.07776,\\[6pt] P(X=1) &= \binom{5}{1} (0.4)^1 (0.6)^4 = 5 \cdot 0.4 \cdot (0.6)^4 = 0.25920. \end{aligned} \]

Sehingga

\[ P(X \le 1) = 0.07776 + 0.25920 = 0.33696, \] dan

\[ P(X \ge 2) = 1 - 0.33696 = 0.66304. \]

Sebagai pengecekan, kita juga dapat menjumlahkan langsung:

\[ \begin{aligned} P(X=2) &= \binom{5}{2} (0.4)^2 (0.6)^3 = 10 \cdot 0.16 \cdot 0.216 = 0.34560,\\[4pt] P(X=3) &= \binom{5}{3} (0.4)^3 (0.6)^2 = 10 \cdot 0.064 \cdot 0.36 = 0.23040,\\[4pt] P(X=4) &= \binom{5}{4} (0.4)^4 (0.6)^1 = 5 \cdot 0.0256 \cdot 0.6 = 0.07680,\\[4pt] P(X=5) &= \binom{5}{5} (0.4)^5 (0.6)^0 = 0.4^5 = 0.01024. \end{aligned} \]

Menjumlahkan \(P(X=2)+P(X=3)+P(X=4)+P(X=5)=0.66304\), sama dengan hasil di atas.

\[ \boxed{P(\text{sedikitnya 2 hijau}) = 0.66304 \approx 0.663} \]

7.5.3 Review: Sampling Distribution of the Sample Proportion

“Sebuah toples berisi 200 kelereng hijau dan 300 kelereng biru (total 500). Satu kelereng ditarik sebanyak n = 100 kali dengan pengembalian. Tentukan probabilitas bahwa diperoleh setidaknya 35 kelereng hijau!” Bagaimana dengan kasus yang seperti ini?

Ada 3 cara untuk menyelesaikan kasus seperti itu.

1.Sample Spaces

Kita dapat menghitung jawabannya dengan sample spaces tetapi tidak efektif karena membutuhkan banyak waktu dan pengerjaan.

2.Binomial Formula

Kita juga dapat menghitung dengan menggunakan binomial formula tapi cara ini tidak efektif karena harus menghitung probabilitas keberhasilan sebanyak 65 kali. Harus menghitung keberhasilan untuk mengambil 35 kelereng hijau, 36 kelereng hijau, 37 kelereng hijau, dan seterusnya sampai 100 kelereng hijau.

3.Sampling Distribution of the Sample Proportion.

Kita dapat menggunakan cara ini karena lebih efisien dibanding cara-cara sebelumnya. Namun, kita harus cek apakah central limit theorem dapat diterapkan atau tidak?

Sampling distribution of the sample proportion yang perlu mengikuti 2 kondisi agar central limit theorem dapat diterapkan:

1.\(np≥10\)

2.\(n(1-p)≥10\)

Example

Soal: Sebuah toples berisi 200 kelereng hijau dan 300 kelereng biru (total 500). Satu kelereng ditarik sebanyak \(n=100\) kali dengan pengembalian. Tentukan probabilitas bahwa diperoleh setidaknya 35 kelereng hijau!

Jawab:

Probabilitas memperoleh manik hijau pada satu tarikan adalah/p>

\[ p = \frac{200}{500} = 0.4. \]

Jika \(X\) menyatakan banyaknya manik hijau dalam \(n=100\) tarikan, maka

\[ X \sim \mathrm{Bin}(n=100,\; p=0.4). \]

Kita ingin menghitung

\[ P(X \ge 35) = 1 - P(X \le 34). \]

Karena \(n\) besar, kita dapat menggunakan pendekatan normal (CLT / normal approximation to the binomial).

Rata-rata dan simpangan baku dari \(X\) adalah

\[ \mu = np = 100 \times 0.4 = 40, \qquad \sigma = \sqrt{np(1-p)} = \sqrt{100 \times 0.4 \times 0.6} = \sqrt{24} \approx 4.89898. \]

Untuk pendekatan yang lebih akurat, gunakan batas kontinuitas:

\[ P(X \ge 35) \approx P\big( X > 34.5 \big) \approx P\!\left( Z > \frac{34.5 - \mu}{\sigma} \right), \] dengan \(Z\sim N(0,1)\).

Hitung nilai \(z\):

\[ z = \frac{34.5 - 40}{\sqrt{24}} = \frac{-5.5}{4.89898} \approx -1.1225. \]

Maka

\[ P(X \ge 35) \approx 1 - \Phi(-1.1225) = \Phi(1.1225). \]

Dari tabel distribusi normal standar atau kalkulator normal:

\[ \Phi(1.1225) \approx 0.8686. \]

Jadi,

\[ \boxed{\,P(X \ge 35) \approx 0.869\,} \]

Catatan!

  • Jika tidak menggunakan continuity correction, perhitungan memberi nilai sedikit berbeda:

    \[ z = \frac{35 - 40}{\sqrt{24}} \approx -1.020 \quad\Rightarrow\quad P(X\ge 35)\approx 1-\Phi(-1.02)\approx 0.846. \]

    Continuity correction umumnya memberikan aproksimasi binomial yang lebih akurat.

  • Untuk keakuratan penuh dapat dihitung nilai binomial eksak

    \(\;P(X \ge 35)=\sum_{k=35}^{100}\binom{100}{k}0.4^k 0.6^{100-k}\,\) dengan bantuan komputer.

Penutup

Dari seluruh materi dari discrete–continuous variables, PMF–PDF, probability distribution, hingga sampling distribution, Central Limit Theorem, dan sample proportion menunjukkan satu alur besar bahwa statistik bekerja dengan cara memahami bagaimana data menyebar dan bagaimana sampel bisa mewakili populasi.

Mulai dari mengenali jenis variabel dan cara menghitung peluangnya. Setelah itu, melihat bahwa ketika pengambilan sampel dilakukan berulang kali, statistik seperti rata-rata dan proporsi membentuk distribusi baru, yaitu sampling distribution. Melalui Central Limit Theorem, kita belajar bahwa distribusi sampling ini cenderung berbentuk normal saat ukuran sampel cukup besar, sehingga memungkinkan menggunakan pendekatan normal untuk berbagai analisis.Pada proporsi, mengajarkan bagaimana konsep-konsep ini diterapkan secara langsung: menghitung \(\hat{p}\), standard error, dan memastikan syarat normal approximation terpenuhi.

Secara keseluruhan, materi ini memberikan gambaran bahwa statistik bukan hanya menghitung peluang, tetapi juga menarik kesimpulan tentang populasi berdasarkan sampel secara sistematis dan terukur.

Referensi

Siregar, B. (t.t.). Introduction to Statistics: Chapter 7 Probability Distributions. dsciencelabs. Diakses dari https://bookdown.org/dsciencelabs/intro_statistics/07-Probability_Distributions.html

Illowsky, B., & Dean, S. (2020). Statistics [E-book]. Houston, Texas: OpenStax. https://openstax.org/books/statistics/pages/1-introduction

Sudaryono. (2025). Distribusi Sampling. Tangerang: Universitas Raharja. Diakses dari https://raharja.ac.id/distribusi-sampling/