Tugas Week 11 ~ Probability Distribution

Foto Profil

Fifi Muthia Pitaloka

NIM: 52250038

Dosen Pengampu: Bakti Siregar, M.Sc., CDS.

Mata Kuliah: Statistika Dasar

Program Studi: Sains Data

Institut Teknologi Sains Bandung

1 Pendahuluan

Apa itu Distribusi Probabilitas?

Distribusi probabilitas merupakan salah satu konsep paling penting dalam statistika karena menggambarkan bagaimana peluang dari setiap kemungkinan hasil suatu variabel acak tersebar. melalui distribusi probabilitas, karakteristik suatu fenomena acak dapat dipahami secara lebih terstruktur dan matematis, sehingga memungkinkan proses analisis, pemodelan, serta pengambilan keputusan berbasis data.

Bab mengenai Probabilitas Distribution membahas berbahai jenis variabel acak, mulai dari disktrit maupun kontinu, serta fungsi yang menggambarkannya, yaitu Probability Mass Fungtion (PMF), Probability Density Function (PDF), dan Cumulative Distribution Funtion (CDF). Selain itu, konsep nilai harapan (expected value) dan variansi turut menjadi dasar dalam memahami sifat suatu distribusi dan bagaimana distribusi tersebut digunakan dalam konteks aplikasi nyata baik di bidang ekonomi, teknik, kesehatan, maupun penelitian sosial.

Kajian mengenai distribusi probabilitas juga menjadi fondasi dalam statistika inferensial, terutama ketika menganalisis data sampel untuk menarik kesimpulan mengenai populasi melalui teori distribusi sampling dan Central Limit Theorem (CLT). Dengan pemahaman distribusi probabilitas yang kuat, analisis data dapat dilakukan secara lebih akuran dan bermakna.

2 Continuous Random

Probability of Continuous Variables

Variabel Diskrit

Variabel diskrit adalah variabel yang memiliki jumlah nilai yang dapat dihitung dan terbatas. Nilai-nilainya muncul dari proses menghitung (counting).

Contoh:

• Jumlah anak dalam keluarga (0,1,2,3,…)

• Jumlah lemparan koin yang menghasilkan gambar

• Nilai ujian (0–100)

Variabel Kontinu

Variabel kontinu adalah variabel yang dapat mengambil nilai apa pun pada suatu rentang, dan diperoleh melalui proses pengukuran (measuring).

Contoh:

• Berat badan (misal: 51.2 kg, 51.23 kg, 51.231 kg, …)

• Usia (17 tahun, 17.4 tahun, 17.425 tahun, …)

• Suhu udara (27.1°C, 27.14°C, …)

Perbedaan Utama

Variabel Diskrit Variabel Kontinu
Dihitung (counting) Diukur (measuring)
Nilai terpisah dan terbatas Nilai berkesinambungan tak hingga
Umumnya divisualisasikan dengan bar chart Umumnya divisualisasikan dengan histogram
Peluang untuk nilai tertentu Peluang untuk rentang nilai
Finite / countable outcomes Infinite / uncountable outcomes

Perhitungan Probabilitas

Jenis Variabel Cara Menghitung Peluang
Diskrit Peluang dihitung untuk nilai spesifik menggunakan rumus probabilitas diskrit
Kontinu Peluang dihitung untuk rentang nilai melalui kurva densitas (density curve)

Pada variabel kontinu, peluang digambarkan sebagai luas area di bawah kurva densitas, misalnya pada distribusi normal. Karena jumlah nilai tak hingga, maka probabilitas tepat satu nilai tunggal (misalnya 50 kg) = 0, sehingga probabilitas dihitung untuk sebuah interval.

Contoh Aplikasi

Diskrit: Peluang mendapatkan 2 kepala dari 4 kali lemparan koin.

Kontinu: Peluang tinggi siswa berada pada rentang 160–170 cm dihitung melalui area kurva normal.

Variabel Acak (Random Variable)

Variabel acak adalah variabel yang nilainya dipengaruhi oleh hasil suatu percobaan acak, sehingga dapat berubah setiap kali percobaan dilakukan. Variabel acak memetakan setiap hasil percobaan ke suatu nilai numerik sehingga dapat dianalisis secara statistik.

Terdapat dua jenis variabel acak:

1. Variabel acak diskrit: memiliki nilai yang dapat dihitung dan terbatas. Contoh: jumlah anak dalam keluarga, jumlah lemparan koin yang menghasilkan gambar.

2. Variabel acak kontinu: diperoleh melalui proses pengukuran dan memiliki nilai tak hingga dalam suatu interval. Contoh: berat badan, tinggi badan, waktu, suhu.

Fungsi Densitas Probabilitas (Probability Density Function / PDF)

Untuk variabel acak kontinu, probabilitas tidak dapat ditentukan untuk satu nilai tunggal seperti \(P(X = 5)\), karena terdapat tak hingga nilai dalam rentang kontinu. Oleh karena itu digunakan Probability Density Function (PDF) yang dinotasikan sebagai \(f(x)\).

Sifat PDF:

\(f(x) \ge 0\) untuk seluruh \(x\)

• Luas total area di bawah kurva PDF sama dengan 1
\[\int_{-\infty}^{+\infty} f(x)\,dx = 1\]

Probabilitas suatu interval dihitung sebagai:

\[P(a < X < b) = \int_{a}^{b} f(x)\,dx\]

Probabilitas pada Interval (Probability on an Interval)

Pada variabel kontinu, probabilitas ditentukan untuk suatu rentang nilai, bukan satu nilai tunggal. Karena peluang tepat pada satu nilai (misal 165.00 cm) mendekati 0.

\[P(a < X < b) = \int_{a}^{b} f(x)\,dx\]

Fungsi Distribusi Kumulatif (Cumulative Distribution Function / CDF)

Fungsi Distribusi Kumulatif atau CDF menyatakan probabilitas bahwa variabel acak \(X\) memiliki nilai kurang dari atau sama dengan suatu nilai tertentu \(x\):

\[F(x) = P(X \le x)\]

Untuk variabel kontinu, CDF diperoleh dari integral PDF:

\[F(x) = \int_{-\infty}^{x} f(t)\,dt\]

CDF bersifat meningkat (monoton naik), dimulai dari 0 dan mendekati 1 saat \(x\) semakin besar. Dengan CDF, probabilitas rentang dapat dihitung tanpa integral manual:

\[P(a < X \le b) = F(b) - F(a)\]

3 Sampling Distributions

Pengertian dan Konsep Dasar

Distribusi sampling adalah distribusi probabilitas dari suatu statistik (seperti rata-rata, proporsi, varians, atau median) yang dihitung dari banyak sampel acak berukuran sama yang diambil dari suatu populasi. Ketika kita mengambil sampel secara berulang dan menghitung nilai statistik dari setiap sampel, maka kumpulan nilai-nilai statistik tersebut akan membentuk suatu distribusi sampling.

Distribusi ini menggambarkan bagaimana suatu statistik bervariasi dari satu sampel ke sampel lainnya, sebuah variasi yang dikenal sebagai sampling variability. Perbedaan nilai statistik sampel dengan parameter populasi adalah hal yang wajar, dan pola variasinya dapat dipelajari serta diprediksi menggunakan teori probabilitas.

Distribusi sampling berbeda dari distribusi populasi (yang menggambarkan seluruh anggota populasi) maupun distribusi satu sampel, karena fokusnya berada pada perilaku statistik dari banyak sampel, bukan pada data individunya.

Jenis-Jenis Statistik pada Distribusi Sampling

Statistik Sampel Parameter Populasi Fungsi
Rata-rata (\(\bar{X}\)) Mean populasi (\(\mu\)) Representasi pusat data
Proporsi (\(\hat{p}\)) Proporsi populasi (\(p\)) Menilai persentase kejadian
Varians (\(S^2\)) Varians populasi (\(\sigma^2\)) Mengukur penyebaran data
Selisih dua rata-rata (\(\bar{X}_1 - \bar{X}_2\)) \(\mu_1 - \mu_2\) Membandingkan dua kelompok

Komponen Utama Distribusi Sampling

Beberapa sifat penting dari distribusi sampling rata-rata:

  • Rataan (mean) dari distribusi sampling sama dengan rata-rata populasi:
    \[\mu_{\bar{X}} = \mu\] Artinya, rata-rata semua rata-rata sampel sama dengan rata-rata populasi. Jadi, rata-rata sampel merupakan penduga tidak bias (unbiased estimator).
  • Standard Error (SE) adalah simpangan baku populasi dibagi akar kuadrat ukuran sampel:
    \[SE = \frac{\sigma}{\sqrt{n}}\] SE menunjukkan seberapa jauh rata-rata sampel mungkin menyimpang dari rata-rata populasi. Faktor yang memengaruhi SE:
    • Semakin besar ukuran sampel (\(n\)), SE semakin kecil dan estimasi lebih akurat.
    • Semakin besar variasi populasi (\(\sigma\)), SE semakin besar.
  • Central Limit Theorem (CLT): Ketika ukuran sampel cukup besar, distribusi sampling rata-rata akan mendekati distribusi normal, meskipun populasi asal tidak berdistribusi normal.

Karena sifat-sifat ini, distribusi sampling memungkinkan kita melakukan inferensi statistik: memperkirakan parameter populasi, menghitung probabilitas, membuat interval kepercayaan, dan melakukan uji hipotesis.

Contoh Soal

Soal:

Sebuah penelitian mengukur jumlah waktu (dalam jam per minggu) yang dihabiskan mahasiswa untuk belajar. Diasumsikan populasi mahasiswa memiliki rata-rata waktu belajar \(\mu = 15\) jam/minggu dan simpangan baku \(\sigma = 6\) jam. Jika diambil sampel acak sebanyak \(n = 49\):

  1. Berapa standard error rata-rata sampel?
  2. Berapa probabilitas bahwa rata-rata sampel kurang dari 14 jam/minggu?

Penyelesaian:

  1. Hitung standard error (SE): \[SE = \frac{\sigma}{\sqrt{n}} = \frac{6}{\sqrt{49}} = \frac{6}{7} = 0.857\]
  2. Hitung skor \(Z\): \[Z = \frac{14 - 15}{SE} = \frac{-1}{0.857} \approx -1.17\]
  3. Cari probabilitas: \[P(\bar{X} < 14) = P(Z < -1.17) \approx 0.1210\] Artinya terdapat peluang sekitar 12.1% bahwa rata-rata sampel kurang dari 14 jam/minggu.

4 Central Limit Theorem

Pengertian dan Konsep Dasar

Central Limit Theorem (CLT) merupakan salah satu konsep fundamental dalam statistika inferensial yang menjelaskan perilaku rata-rata sampel ketika ukuran sampel dan jumlah pengambilannya besar. Teorema ini menyatakan bahwa jika kita mengambil banyak sampel acak berukuran sama dari suatu populasi, lalu menghitung rata-rata untuk tiap sampel, maka distribusi sampling dari rata-rata sampel akan mendekati distribusi normal, meskipun populasi asalnya tidak normal atau sangat skewed.

Distribusi sampling menjelaskan bagaimana nilai rata-rata sampel dapat bervariasi antar sampel variasi alami ini disebut sampling variability. Semakin besar ukuran sampel, semakin kecil variasinya, sehingga estimasi rata-rata semakin stabil.

CLT menjadi dasar utama dari banyak teknik statistik modern seperti uji hipotesis, interval kepercayaan, regresi linier, dan pengujian mean populasi. Tanpa CLT, sulit menggunakan pendekatan normal dalam inferensi ketika populasi tidak diketahui distribusinya.

Sifat-Sifat Penting CLT

  • Mean distribusi sampling: \[\mu_{\bar{X}} = \mu\] Artinya rata-rata dari semua rata-rata sampel akan mendekati rata-rata populasi (unbiased estimator).
  • Standard Error (SE): \[SE = \frac{\sigma}{\sqrt{n}}\] Semakin besar ukuran sampel (\(n\)), SE semakin kecil → rata-rata sampel mendekati nilai populasi secara konsisten.
  • Bentuk distribusi sampling: \[\bar{X} \sim N\left(\mu, \frac{\sigma}{\sqrt{n}}\right)\] Distribusi sampling akan berbentuk kurva normal (bell-shaped) meskipun populasi awal mungkin:
    • skewed kanan / kiri
    • memiliki outlier
    • berdistribusi eksponensial, binomial, atau uniform

Aturan Praktis (Rule of Thumb)

  • \(n \ge 30\) umumnya dianggap cukup agar CLT berlaku.
  • Jika populasi awal normal, distribusi sampling normal untuk berapapun \(n\).
  • Jika populasi awal ekstrem (skew/heavy-tail), dibutuhkan \(n\) lebih besar dari 30.
  • Semakin besar ukuran sampel, semakin kecil varian distribusi sampling.

Contoh

Sebuah perusahaan logistik mencatat waktu pengiriman paket (dalam jam). Distribusi waktu sangat skewed ke kanan karena beberapa keterlambatan ekstrem. Rata-rata populasi sekitar 48 jam.

Lakukan simulasi sampling dengan ukuran sampel n = 40 diulang 300 kali. Bandingkan bentuk histogram populasi vs distribusi sampling mean.

library(ggplot2)
library(dplyr)

set.seed(123)

# Populasi skewed kanan (waktu pengiriman barang dalam jam)
pop <- rexp(5000, rate = 1/48)

# Sampling mean (n = 40, diulang 300 kali)
means <- replicate(300, mean(sample(pop, 40, replace = TRUE)))

# Buat data frame gabungan untuk 1 plot
df <- data.frame(
  value = c(pop, means),
  type = c(rep("Populasi", length(pop)), rep("Sampling Mean", length(means)))
)

ggplot(df, aes(x = value, fill = type)) +
  geom_histogram(alpha = 0.6, bins = 40, position = "identity", color = "white") +
  scale_fill_manual(values = c("Populasi" = "#ff9ecb", "Sampling Mean" = "#a6c8ff")) +
  labs(title = "Populasi Skewed Kanan vs Distribusi Sampling Rata-Rata",
       x = "Nilai", y = "Kepadatan") +
  theme_minimal(base_size = 14) +
  theme(plot.title = element_text(face = "bold"),
        legend.title = element_blank())

Intepretasi:

Kurva merah muda menunjukkan distribusi populasi yang skewed ke kanan dan jauh dari normal. Namun, setelah dilakukan pengambilan sampel berulang dan menghitung rata-rata sampel, kurva biru terlihat jauh lebih sempit, rendah, dan simetris membentuk lonceng yang mendekati distribusi normal. Distribusi rata-rata sampel menjadi lebih mengerucut karena variansi mengecil akibat pembagian akar n, sehingga penyebarannya jauh lebih kecil dibandingkan populasi. Hal ini sepenuhnya konsisten dengan Central Limit Theorem (CLT), yang menyatakan bahwa meskipun populasi awal tidak berdistribusi normal, distribusi rata-rata sampel akan mendekati normal jika ukuran sampel cukup besar (n ≥ 30). Semakin banyak sampel yang diambil, distribusi rata-rata akan semakin stabil dan semakin mendekati nilai populasi sebenarnya.

Contoh Aplikasi CLT

  • Menentukan efektivitas obat dalam riset klinis.
  • Estimasi waktu produksi rata-rata di pabrik.
  • Survei opini publik (pemilu, kepuasan pelanggan).
  • Prediksi return harian saham.
  • Estimasi rata-rata nilai ujian nasional dari sampel.

Kesimpulan CLT

Teorema Limit Tengah membuktikan bahwa semakin besar ukuran sampel, distribusi rata-rata sampel akan semakin mendekati distribusi normal, tidak peduli bagaimana bentuk populasi aslinya.

5 Sample Proportion

Distribusi Sampling dari Proposi Sampel (\(\hat{p}\))

Distribusi sampling adalah distribusi probabilitas yang dibangun dari hasil mengambil banyak sampel acak dengan ukuran yang sama dari suatu populasi, kemudian menghitung suatu statistik untuk setiap sampel. Dalam konteks proporsi, statistik yang dihitung adalah proporsi sampel (hp).

Walaupun proporsi populasi (p) adalah tetap, tetapi nilai sampel (hp) akan bervariasi antar sampel. Variasi ini disebut sampling variability.

.

Definisi dan Notasi

Simbol Penjelasan
p Proporsi populasi (parameter)
ĥp Proporsi sampel (statistik)
n Ukuran sampel

Rumus proporsi sampel:

\[hp=\frac{X}{n}\]

Dimana X = banyaknya “sukses” pada sampel.

Tujuan Distribusi Sampling (HP)

  • Menilai ketidakpastian hasil sampel
  • Mengestimasi parameter populasi
  • Menyusun interval kepercayaan
  • Melakukan uji hipotesis proporsi
  • Menentukan apakah perbedaan signifikan secara statistik

Sifat-Sifat Distribusi Sampling dari HP

Sifat Rumus Penjelsan
Mean μĥp = p Rataan dari semua nilai ĥp sama dengan proporsi populasi.
Standard Error (SE) SE = √( p(1-p) / n ) Menunjukkan tingkat variasi proporsi sampel

Intepretasi penting: Semakin besar n, semakin kecil SE = hasil sampel lebih stabil dan akurat.

Central Limit Theorem (CLT) untuk Proporsi

Distribusi sampling hp akan mendekati distribusi normal apabila syarat berikut terpenuhi:

\(np \geq 10\) dan \(n(1-p) \geq 10\)

Jika terpenuhi, maka: \(hp \sim N(p, \sqrt(\frac{p(1-p))}{n}\)

Rumus Standarisasi (Z-Score

\[Z = \frac{hp-p}{\sqrt\frac{p(1-p)}{n}}\]

Digunakan untuk menghitung probabilitas dan melakukan uji hipotesis proporsi.

Contoh Soal

Kasus: Dinas Kota melakukan survei kepuasan pelayanan publik. Secara historis, proporsi penduduk yang puas adalah \(p=0.65\). Survei dilakukan pada \(n=250\) responden dan diperoleh 100 responden puas.

Pertanyaan:

  1. Berapa nilai ĥp?
  2. Berapa Standard Error distribusi sampling?
  3. Hitung probabilitas bahwa proporsi responden puas ≥ 72%.

Penyelesaian:

1. Hitung ĥp

ĥp = 180 / 250 = 0.72

2. Standard Error

SE = √( 0.65×0.35 / 250 ) = √(0.00091) = 0.0302

3. Hitung nilai Z

Z = (0.72 − 0.65) / 0.0302 = 2.32

Probabilitas Z ≥ 2.32 ≈ 0.0102

Inepretasi

Peluang proporsi responden puas mencapai 72% atau lebih hanya sekitar 1.02%. Artinya peningkatan kepuasan yang terlihat pada sampel sangat kecil kemungkinan terjadi hanya karena variasi sampling. Ini menunjukkan adanya peningkatan nyata tingkat kepuasan populasi.

6 Review Sampling Distribution

Pengantar Materi

Dari pembahasan probabilitas dasar, distribusi binomial, dan review sampling distribution of the sample proportion, dapat disimpulkan bahwa:

  • Probabilitas adalah landasan untuk memperkirakan peluang suatu peristiwa.
  • Distribusi binomial cocok untuk menghitung peluang jumlah kejadian diskrit pada sejumlah percobaan (n) dengan probabilitas sukses tetap (p).
  • Central Limit Theorem (CLT) memungkinkan pendekatan normal pada distribusi proporsi sampel \(\hat{p}\) saat ukuran sampel besar, sehingga memudahkan perhitungan probabilitas menggunakan z-score.

Intinya: probabilitas → binomial → sampling distribution & CLT membentuk rangkaian logis yang membuat inferensi statistik dari sampel ke populasi menjadi mungkin dan praktis.

Contoh:

Kasus: Dari 100 pengundian kelereng (dengan pengembalian) di toples berisi 200 hijau dan 300 biru, berapa probabilitas memperoleh ≥ 35 kelereng hijau?

Langkah 1 — Tentukan parameter

  1. Total kelereng: 500 → proporsi populasi hijau \[p = \frac{200}{500} = 0.40\].
  2. Jumlah trial: \[n = 100\].
  3. Jumlah keberhasilan yang diamati/ditanyakan: \[k = 35\] → proporsi sampel target \[\hat{p} = 35/100 = 0.35\].

Langkah 2 — Periksa syarat CLT (kondisi sukses-gagal)

  • Hitung n × p = 100 × 0.40 = 40 → ≥ 10 ✓
  • Hitung n (1 − p) = 100 × 0.60 = 60$ → ≥ 10 ✓
  • Kesimpulan: normal approximation diperbolehkan.

Langkah 3 — Hitung Standard Error (SE)

  1. Gunakan rumus: \[SE =\sqrt{p (1 − p)}{n}\].
  2. Substitusi: \[SE =\sqrt{0.40 × 0.60}{100}\].
  3. Kalkulasi: \[0.40 × 0.60 = 0.24 → \frac{0.24}{100} = 0.0024 → SE = \sqrt(0.0024) ≈ 0.0490\].

Langkah 4 — Standardisasi menjadi Z

  1. Rumus Z untuk proporsi: \[Z = \frac{(\hat{p} − p)}{SE}\].
  2. Substitusi: \[Z = \frac{(0.35 − 0.40)}{0.0490} = \frac{−0.05}{0.0490} ≈ −1.02\].

Langkah 5 — Cari probabilitas dari tabel normal

  1. Nilai Z = −1.02 → area kiri (P(Z ≤ −1.02)) ≈ 0.1539.
  2. Soal menanyakan \[P(≥ 35 hijau) = P( \hat{p} ≥ 0.35 ) = 1 − P( \hat{p} < 0.35 )\].
  3. Karena \[Z(0.35) = −1.02\]
  4. maka \[P(\hat{p} < 0.35) = 0.1539 → P(\hat{p} ≥ 0.35) ≈ 1 − 0.1539 = 0.8461 (≈ 84.61%)\].

Catatan: Ini adalah pendekatan mendekati (approximation). Untuk probabilitas yang sangat tepat pada n kecil gunakan distribusi binomial exact.

Interpretasi

Dari hasil perhitungan, probabilitas memperoleh ≥ 35 kelereng hijau dalam 100 percobaan adalah sekitar 84.61%. Ini menunjukkan bahwa hasil tersebut sangat mungkin terjadi dan bukan kejadian langka. Artinya, variasi yang muncul pada sampel bersifat wajar dan masih konsisten dengan proporsi populasi sebenarnya (p = 0.40).

Hal ini membuktikan peran penting Central Limit Theorem: ketika ukuran sampel besar dan syarat terpenuhi, distribusi proporsi sampel mendekati normal sehingga perhitungan probabilitas dapat dilakukan secara lebih cepat melalui z-score, tanpa harus menghitung peluang binomial satu per satu.

Sampling distribution membantu menjembatani data sampel dengan kesimpulan untuk seluruh populasi.

7 Penutup

Sebagai penutup, pemahaman mengenai probabilitas dasar, distribusi binomial, serta sampling distribution of the sample proportion memberikan dasar yang kuat dalam menganalisis data dan menarik kesimpulan statistik yang akurat. Melalui penerapan konsep binomial, kita dapat menghitung peluang kejadian diskrit secara matematis, sementara Central Limit Theorem (CLT) memberikan pendekatan praktis untuk memodelkan distribusi proporsi sampel sebagai distribusi normal ketika ukuran sampel besar dan memenuhi syarat np ≥ 10 dan n(1 – p) ≥ 10. Pendekatan ini memungkinkan penggunaan z-score untuk estimasi probabilitas secara efisien, terutama ketika perhitungan binomial manual menjadi kompleks.

Melalui contoh-contoh perhitungan yang diterapkan pada kasus pengambilan kelereng, dapat disimpulkan bahwa semakin besar ukuran sampel, distribusi proporsi sampel semakin mendekati bentuk normal, sehingga estimasi yang diperoleh semakin mendekati parameter populasi sebenarnya. Konsep ini memiliki peran penting dalam analisis berbasis data nyata, seperti survei statistik, penelitian ilmiah, kontrol kualitas produk, hingga pembuatan kebijakan publik.

Dengan demikian, penguasaan konsep probabilitas dan sampling distribution merupakan fondasi utama dalam menghasilkan analisis yang valid, terpercaya, dan mendukung pengambilan keputusan yang berbasis bukti.

8 Referensi