Tugas Week 11 ~ Probability Distributions

CHELSEA TESALONIKA PATRICIA HUTAJULU

DATA SCIENCE UNDERGRADUATE STUDENT AT INSTITUT TEKNOLOGI SAINS BANDUNG

Introduction

Probability Distribution atau distribusi probabilitas merupakan konsep penting yang menjelaskan bagaimana peluang berbagai hasil dari suatu percobaan acak tersebar. Secara sederhana, distribusi probabilitas membantu kita memahami seberapa besar kemungkinan suatu nilai muncul pada sebuah variabel acak. Distribusi ini terbagi menjadi dua jenis utama, yaitu distribusi diskrit dan distribusi kontinu. Pada distribusi diskrit, probabilitas setiap nilai tertentu dijelaskan melalui probability mass function (PMF), sementara pada distribusi kontinu probabilitasnya digambarkan melalui probability density function (PDF).

Setiap distribusi probabilitas memiliki parameter yang menentukan karakteristiknya, seperti rataan, variansi, dan tingkat penyebaran data. Pemahaman mengenai berbagai bentuk distribusi ini akan sangat membantu dalam analisis data, terutama ketika ingin memperkirakan peluang suatu kejadian, melakukan simulasi acak, atau menerapkan metode inferensi statistik seperti uji hipotesis dan pembuatan interval kepercayaan. Dengan kata lain, distribusi probabilitas menjadi dasar dalam banyak keputusan yang melibatkan ketidakpastian dan analisis berbasis data.

Material Summary

1. Continuous Random

Variabel acak kontinu (Continuous Random) adalah variabel acak yang dapat mengambil nilai pada suatu rentang tak terputus, seperti seluruh bilangan real atau interval tertentu. Karena nilainya bersifat kontinu, probabilitas pada satu titik tertentu bernilai nol, sehingga probabilitas hanya bisa dihitung pada interval melalui fungsi yang disebut probability density function (PDF).

Discrete Variables

Discrete variable (variabel diskret) adalah variabel acak yang hanya dapat mengambil nilai tertentu yang dapat dihitung (countable). Nilainya biasanya berupa bilangan bulat atau kategori yang jelas batasannya. Setiap nilai yang mungkin memiliki probabilitas tertentu yang dihitung menggunakan Probability Mass Function (PMF).

Variabel diskret digunakan untuk menggambarkan kejadian yang hasilnya terbatas atau dapat dihitung satu per satu, seperti jumlah pelanggan, hasil lemparan dadu, atau jumlah kendaraan yang lewat dalam satu menit. Untuk variabel diskret bisa menggunakan Probability Mass Function (PMF) fungsi yang memberi probabilitas masing-masing nilai spesifik.

Ciri-ciri :

  • Countable (terhitung) jumlah nilai yang mungkin terbatas.

  • Tidak ada pecahan atau desimal yang tidak masuk akal dalam konteks.

  • Diperoleh melalui penghitungan, bukan pengukuran.

  • Jumlah seluruh probabilitas harus sama dengan 1.

\[ \sum p(x) = 1 \] Contoh :

  • Jumlah sisi kepala saat melempar koin

  • Jumlah kelereng biru yang diambil dari kotak

  • Nilai ujian siswa

  • Jumlah anak dalam keluarga (0, 1, 2, 3, dst.)

  • Saldo rekening bank (misalnya, $420,69)

  • Nilai ujian (misalnya, 5 dari 10)

Continuous Variables

Variabel kontinu (Continuous Variables) adalah variabel yang dapat mengambil nilai numerik apa pun dalam suatu rentang. Untuk variabel kontinu, tidak bisa menggunakan PMF, melainkan Probability Density Function (PDF). Probabilitas bahwa variabel sama persis dengan satu nilai adalah 0 — yang dihitung adalah probabilitas variabel berada dalam rentang interval lewat integral.

Ciri-ciri :

  • Kemungkinan tak terbatas dan tak terhitung

  • Diperoleh melalui pengukuran, bukan penghitungan

  • Dapat diukur hingga angka desimal tak terhingga

Contoh :

  • Berat: 150 lbs → 150,305482… lbs

  • Usia: 23 tahun → 23,5 tahun → 23 tahun, 6 bulan, 2 hari, 3 detik…

  • Suhu

  • Jarak

Representasi Visual

Jenis Variabel Visualisasi Fitur Utama
Diskrit Diagram Batang (Bar Chart)
  • Batang-batang terpisah dengan jarak antar batang
  • Setiap batang mewakili hasil yang berbeda dan dapat dihitung
  • Menunjukkan entitas-entitas yang terpisah dalam ruang sampel
Kontinu Histogram
  • Tidak ada jarak antar batang
  • Mewakili kesinambungan data
  • Dapat menampilkan nilai apa pun pada rentang pengukuran

Rumus

Rumus-rumus umum untuk Discrete Random Variables:

\[ P(k) = {n \choose k} p^k (1-p)^{n-k} \]

\[ P(A \cup B) = P(A) + P(B) - P(A \cap B) \]

\[ P(A \cap B) = P(A) \times P(B) \]

\[ P(A^c) = 1 - P(A) \]

Rumus umum untuk Continuous Random Variables (luas bangun sederhana):

\[ A = L \times W \]

\[ A = \frac{b \times h}{2} \]

  • Variabel acak diskrit: nilai hasilnya berupa bilangan yang dapat dihitung (contoh: jumlah kemunculan sisi dadu).

  • Variabel acak kontinu: nilai hasilnya bisa berupa rentang nilai yang tak terbatas (contoh: tinggi badan, waktu, suhu).

Perbedaan Utama antara Variabel Diskrit dan Variabel Kontinu
Aspek Variabel Diskrit Variabel Kontinu
Nilai Dapat dihitung, jumlahnya terbatas Dapat berupa nilai apa pun dalam rentang tertentu
Pengukuran Menghitung Mengukur
Visualisasi Diagram batang (ada jarak antar batang) Histogram (tanpa jarak antar batang)
Probabilitas Menggunakan rumus standar Luas di bawah kurva kepadatan
Contoh Lempar koin, nilai ujian Berat badan, usia, suhu

1.1 Variabel Acak

Variabel acak disebut kontinu kalau nilainya bisa berupa sembarang bilangan di suatu rentang pada garis bilangan real, bukan cuma nilai yang terpisah satu per satu.

Contoh variabel acak kontinu adalah tinggi badan, waktu, suhu, usia, tekanan, dan kecepatan. Nilainya bisa sangat rinci, misalnya 160,2 cm atau 160,25 cm dan seterusnya.

Pada variabel acak kontinu, \(X\) mengambil nilai di suatu interval, misalnya \((a,b)\) atau bahkan seluruh \((-\infty, +\infty)\). Probabilitas tepat di satu titik tunggal selalu nol

\[ P(X = x) = 0 \]

Karena itu, peluang baru punya makna kalau kita hitung untuk suatu interval, misalnya dari \(a\) sampai \(b\). Jika \(f(x)\) adalah fungsi kepekatan peluang (probability density function, pdf), maka

\[ P(a \le X \le b) = \int_a^b f(x)\,dx \]

1.2 Fungsi Kepekatan Peluang (PDF)

Fungsi \(f(x)\) disebut fungsi kepekatan peluang (probability density function, PDF) yang sah kalau memenuhi dua syarat.

Pertama, nilainya tidak negatif

\[ f(x) \ge 0 \quad \text{untuk semua } x \]

Kedua, luas total kurva \(f(x)\) di seluruh garis bilangan real sama dengan 1

\[ \int_{-\infty}^{+\infty} f(x)\,dx = 1 \]

Nilai \(f(x)\) yang lebih besar berarti kerapatan peluang di sekitar \(x\) lebih tinggi. Tapi \(f(x)\) itu sendiri bukan peluang. Peluang baru kita dapat dari luas di bawah kurva \(f(x)\) pada suatu interval.

Sebagai contoh, misalkan di selang \([0,1]\) didefinisikan

\[ f(x) = 3x^2, \quad 0 \le x \le 1 \]

dan di luar selang itu

\[ f(x) = 0, \quad x < 0 \ \text{atau}\ x > 1 \]

Untuk mengecek apakah ini pdf yang valid, kita hitung luas total

\[ \int_0^1 3x^2\,dx = 1 \]

Karena hasil integralnya 1 dan \(f(x) \ge 0\) di semua \(x\), maka \(f(x) = 3x^2\) pada \([0,1]\) adalah fungsi kepekatan peluang yang valid.

1.3 Probabilitas pada Suatu Interval

Kalau \(X\) variabel acak kontinu dengan pdf \(f(x) = 3x^2\) pada \([0,1]\), maka peluang \(X\) berada di antara \(a\) dan \(b\) bisa dihitung dengan

\[ P(a \le X \le b) = \int_a^b 3x^2\,dx \]

Contohnya, untuk

\[ P(0.5 \le X \le 1) \]

kita hitung luas di bawah kurva \(f(x) = 3x^2\) dari \(x = 0{,}5\) sampai \(x = 1\). Nilai integral itu adalah besar peluang bahwa \(X\) jatuh di rentang tersebut.

1.4 Fungsi Distribusi Kumulatif (CDF)

Fungsi distribusi kumulatif (cumulative distribution function, CDF) didefinisikan sebagai

\[ F(x) = P(X \le x) \]

Jadi, untuk setiap \(x\), CDF memberi tahu berapa peluang bahwa \(X\) nilainya kurang dari atau sama dengan \(x\).

Untuk contoh pdf \(f(x) = 3x^2\) pada \([0,1]\), CDF diperoleh dengan mengintegralkan pdf dari batas bawah sampai \(x\)

\[ F(x) = P(X \le x) = \int_0^x 3t^2\,dt = x^3, \quad 0 \le x \le 1 \]

Ada hubungan langsung antara pdf dan cdf

\[ f(x) = F'(x) \]

Artinya, pdf adalah turunan dari CDF terhadap \(x\). Sebaliknya, CDF adalah hasil integral dari pdf.

2. Sampling Distributions

Distribusi sampling adalah distribusi statistik yang dibuat dari beberapa sampel acak sederhana yang diambil dari populasi tertentu. Distribusi sampel melibatkan pengambilan sampel tunggal dari suatu populasi dan menafsirkan data dari satu sampel tersebut.

Distribusi Populasi vs Distribusi Sampel

Perbandingan Distribusi Populasi dan Distribusi Sampling
Aspek Distribusi Populasi Distribusi Sampling
Rata-rata \(\mu\) \(\mu_{\bar{x}} = \mu\)
Simpangan baku \(\sigma\) \(\sigma_{\bar{x}} = \dfrac{\sigma}{\sqrt{n}}\)
Isi Nilai individu Rata-rata sampel
Variabilitas Lebih besar Lebih kecil

Mengapa Menggunakan Sampling Distribution?

Manfaat Praktis:

  • Kepraktisan: Mengukur seluruh populasi sering kali tidak mungkin dilakukan
  • Efisiensi: Menghemat waktu, biaya, dan sumber daya
  • Perhitungan probabilitas: Memungkinkan kita menghitung peluang mendapatkan hasil tertentu berdasarkan ukuran sampel

Contoh Soal

Soal 1: Distribusi Sampling

Diketahui: Tinggi badan orang Kanada mengikuti \(N(160, 7)\) cm.
Berapakah probabilitas bahwa rata-rata tinggi 10 orang Kanada yang dipilih acak kurang dari 157 cm?

Langkah Penyelesaian:

  1. Identifikasi parameter:
    \(\mu = 160,\ \sigma = 7,\ n = 10\)

  2. Hitung standard error:
    \[ \frac{7}{\sqrt{10}} = 2.21 \]

  3. Standarkan:
    \[ z = \frac{157 - 160}{2.21} = -1.36 \]

  4. Cari probabilitas:
    \[ P(z < -1.36) = 0.0869 \text{ atau } 8.69\% \]

Soal 2: Distribusi Populasi

Diketahui: Populasi yang sama \(N(160, 7)\).
Berapakah proporsi orang yang lebih tinggi dari 170 cm?

Penyelesaian:

  1. Standarkan:
    \[ z = \frac{170 - 160}{7} = 1.43 \]

  2. Cari area di kiri:
    \[ P(z < 1.43) = 0.9236 \]

  3. Cari area di kanan:
    \[ 1 - 0.9236 = 0.0764\ \text{atau}\ 7.64\% \]

3. Central Limit Theorem

Distribusi sampel melibatkan pengambilan sampel berulang kali dari suatu populasi, menghitung statistik untuk setiap sampel individu, dan menggabungkan informasi tersebut untuk membuat distribusi. Teorema Batas Pusat memprediksikan bentuk distribusi sampel berdasarkan ukuran sampel.

Teorema Limit Pusat adalah salah satu konsep paling fundamental dalam statistika inferensial. CLT menjelaskan bagaimana bentuk distribusi sampling (sampling distribution) akan berperilaku ketika ukuran sampel semakin besar, meskipun data asal (population distribution) tidak berdistribusi normal.

Contoh soal :

Untuk setiap distribusi populasi yang dijelaskan di bawah ini, opsi manakah yang akan menghasilkan distribusi sampling yang kira-kira normal?

  1. distribusi populasi rektangular, ukuran sampel 15

  2. distribusi populasi bimodal, ukuran sampel 29

  3. distribusi populasi miring (skewed), ukuran sampel 40

  4. distribusi populasi segitiga (triangular), ukuran sampel 35

  5. distribusi populasi normal, ukuran sampel 20

  6. distribusi populasi normal, ukuran sampel 30

jawab :

  1. populasi rektangular, n = 15:
    Ukuran sampel terlalu kecil (< 30) untuk memastikan kenormalan distribusi sampling jika populasi aslinya tidak normal.

  2. populasi bimodal, n = 29:
    Ukuran sampel masih di bawah ambang batas umum 30, sehingga belum tentu normal.

  3. populasi miring (skewed), n = 40:
    Ukuran sampel ini cukup besar (≥ 40) untuk mengatasi kemiringan populasi dan menghasilkan distribusi sampling yang kira-kira normal.

  4. populasi segitiga (triangular), n = 35:
    Ukuran sampel (≥ 30) cukup besar untuk populasi non-normal (seperti segitiga) agar distribusi samplingnya menjadi normal.

  5. populasi normal, n = 20:
    Karena populasi aslinya sudah normal, distribusi samplingnya juga akan normal, terlepas dari ukuran sampelnya.

  6. populasi normal, n = 30:
    Populasi aslinya normal dan ukuran sampelnya juga besar (≥ 30), sehingga distribusi samplingnya pasti normal.

Aturan umum Central Limit Theorem

Sampel kecil ( n < 30) :

  1. Variabilitas lebih tinggi

  2. Presisi lebih rendah

  3. Resiko lebih besar untuk sampel yang tidak biasa secara kebetulan

  4. Tidak dapat menerapkan CLT dengan andal

Sampel besar (n > 30) :

  1. Stabilitas lebih tinggi

  2. Presisi lebih baik

  3. Dapat menerapkan CLT dengan percaya diri

Visualisasi

library(ggplot2)
library(ggpubr)
set.seed(123)

# Populasi skewed
populasi <- rexp(100000, rate = 1/10)

ambil_mean <- function(n, reps = 3000){
  replicate(reps, mean(sample(populasi, n, replace = TRUE)))
}

mean_n100 <- ambil_mean(100)

# Plot 1: Populasi
plot_populasi <- ggplot(data.frame(x = populasi), aes(x)) +
  geom_histogram(aes(y = ..density..),
                 bins = 60, fill = "lightblue", color = "white") +
  geom_density(color = "darkblue", size = 1.2) +
  labs(title = "Distribusi Populasi Asli (Miring)",
       x = "Nilai", y = "Densitas") +
  theme_minimal(base_size = 14)

# Plot 2: Sampling n=100
plot_sampling <- ggplot(data.frame(x = mean_n100), aes(x)) +
  geom_histogram(aes(y = ..density..),
                 bins = 40, fill = "blue", color = "white") +
  geom_density(color = "navy", size = 1.3) +
  labs(title = "Distribusi Sampling Rata-rata (Normal)",
       x = "Rata-rata Sampel", y = "Densitas") +
  theme_minimal(base_size = 14)

# Gabungkan
ggarrange(plot_populasi, plot_sampling,
          ncol = 2,
          labels = "AUTO")

4. Sample Proportion

Sampling distribution

Sampling distribution merupakan distribusi probabilitas yang diperoleh dari nilai-nilai suatu statistik yang dihitung melalui pengambilan sampel secara berulang dari sebuah populasi. Pada setiap sampel yang diambil, dihitung satu statistik tertentu—seperti rata-rata sampel (\(\bar{x}\)) atau proporsi sampel (\(\hat{p}\)). Nilai-nilai statistik dari seluruh sampel tersebut kemudian dikompilasi dan disajikan dalam bentuk grafik sehingga membentuk sebuah distribusi.

Proportion

Proporsi adalah ukuran yang menggambarkan perbandingan antara jumlah kejadian yang memenuhi kriteria tertentu dengan jumlah keseluruhan kejadian. Secara umum, proporsi dihitung dengan membagi jumlah kejadian yang memenuhi syarat dengan total kejadian. Dalam statistika, proporsi populasi dilambangkan dengan \(p\), sedangkan proporsi sampel dilambangkan dengan \(\hat{p}\). Sebagai contoh, jika 2 dari 10 orang dalam sebuah sampel memiliki mata berwarna hijau, maka proporsi sampelnya adalah \(\hat{p} = \frac{2}{10} = 0{.}2\).

Central Limit Theorem Conditions untuk Proporsi Sampel

Untuk distribusi sampling dari proporsi sampel \(\hat{p}\), Central Limit Theorem (CLT) bisa dipakai jika dua syarat berikut terpenuhi.

tabel_clt <- data.frame(
  Kondisi = c("Kondisi 1", "Kondisi 2"),
  Kebutuhan = c(
    "$np \\ge 10$",
    "$n(1-p) \\ge 10$"
  )
)

knitr::kable(
  tabel_clt,
  escape = FALSE,
  col.names = c("Kondisi", "Kebutuhan"),
  align = c("l", "c"),
  caption = "Syarat CLT untuk distribusi sampling proporsi sampel \\(\\hat{p}\\)"
)
Syarat CLT untuk distribusi sampling proporsi sampel \(\hat{p}\)
Kondisi Kebutuhan
Kondisi 1 \(np \ge 10\)
Kondisi 2 \(n(1-p) \ge 10\)

5. Review Sampling Distribution

Probabilitas Binomial & Distribusi Sampling

Pengaturan Probabilitas Dasar

Skenario: Sebuah toples berisi 200 kelereng hijau dan 300 kelereng biru (total 500 kelereng).

  • Probabilitas sukses (mengambil kelereng hijau):

\[ P(\text{hijau}) = \frac{200}{500} = 0.4 \]

  • Probabilitas gagal (mengambil kelereng biru):

\[ P(\text{biru}) = \frac{300}{500} = 0.6 \]

Kasus 1: Tiga Kali Pengambilan dengan Pengembalian

Pertanyaan:
Berapa probabilitas mendapatkan minimal 2 kelereng hijau dalam 3 kali pengambilan, dengan setiap kelereng yang diambil dikembalikan lagi ke dalam toples?

Pendekatan Ruang Sampel :

1.Urutankan semua hasil yang mungkin (misalnya: GGB, BGB, BBG, GGG, dan seterusnya),
di mana G = hijau, B = biru.

  1. Hitung probabilitas tiap urutan dengan mengalikan probabilitas tiap kejadian:

Contoh:

\[ P(\text{GGB}) = 0.4 \times 0.4 \times 0.6 = 0.096 \]

\[ P(\text{BBB}) = 0.6 \times 0.6 \times 0.6 = 0.216 \]

“Minimal 2 kelereng hijau” berarti kejadian berikut:

  • Tepatnya 2 kelereng hijau

  • Tepatnya 3 kelereng hijau

Probabilitas total untuk kejadian ini dapat diperoleh dengan menjumlahkan probabilitas semua urutan yang mengandung tepat 2 G dan tepat 3 G.

Perhitungan Kasus 1 (lanjutan) :

  • Tepatnya 2 hijau: \(3 \times 0.096 = 0.288\)

  • Tepatnya 3 hijau: \(0.4 \times 0.4 \times 0.4 = 0.064\)

  • Probabilitas total: \(0.288 + 0.064 = 0.352\)

Kasus 2: Lima Kali Pengambilan dengan Pengembalian

Jika ruang sampel sudah terlalu besar, kita bisa memakai rumus binomial.

Pendekatan Rumus Binomial:

Rumus binomial menghitung probabilitas tepat \(k\) sukses dalam \(n\) percobaan:

\[ P(X = k) = C(n, k) \times p^k \times (1 - p)^{n-k} \]

dengan:

  • \(n = 5\) (banyaknya percobaan/pengambilan)

  • \(p = 0.4\) (probabilitas sukses = mengambil kelereng hijau)

  • \(k\) = banyaknya sukses (banyak kelereng hijau)

“Minimal 2 hijau” untuk 5 kali pengambilan berarti menghitung untuk
\(k = 2, 3, 4, 5\) lalu menjumlahkannya.

Contoh nilai (sesuai ilustrasi):

  • \(P(X = 2) = 0.3456\)

  • \(P(X = 3),\ P(X = 4),\ P(X = 5)\) dihitung dengan rumus yang sama

Jawaban akhir: jumlah seluruh probabilitas tersebut adalah

\[ \text{Sum} = 0.6634 \]

Kasus 3: 100 Pengambilan – Pendekatan Normal

Ketika ruang sampel dan rumus binomial sudah tidak praktis, kita bisa menggunakan
distribusi sampling proporsi sampel dan pendekatan normal.

Syarat Central Limit Theorem (CLT) :

  1. \(n \times p \ge 10:\quad 100 \times 0.4 = 40 \ge 10 \ \checkmark\)

  2. \(n \times (1-p) \ge 10:\quad 100 \times 0.6 = 60 \ge 10 \ \checkmark\)

Rumus standardisasi untuk proporsi

\[ z = \frac{\hat{p} - p}{\sqrt{\dfrac{p(1-p)}{n}}} \]

Dengan:

  • \(\hat{p} = 0.35\) (proporsi minimum yang kita minati)

  • \(p = 0.4\) (proporsi populasi sebenarnya)

  • \(n = 100\) (ukuran sampel)

Perhitungan :

\[ z = \frac{0.35 - 0.4}{\sqrt{\dfrac{0.4 \times 0.6}{100}}} = \frac{-0.05}{\sqrt{0.0024}} \approx -1.02 \]

Menentukan probabilitas

  • Luas di sebelah kiri \(z = -1.02\) adalah \(0.1539\).

  • “Minimal 35 kelereng hijau” = luas di sebelah kanan nilai 35, yaitu

\[ 1 - 0.1539 = 0.8461 \quad \text{atau } 84.61\% \]

Ringkasan Utama

library(knitr)

tabel_ringkasan <- data.frame(
  Metode = c("Sample Space", "Rumus Binomial", "Pendekatan Normal"),
  "Kapan Dipakai" = c(
    "n kecil (n ≤ 3)",
    "n sedang (n ≈ 10–20)",
    "n besar (n ≥ 30)"
  ),
  "Jenis Hasil" = c(
    "Tepat (exact)",
    "Tepat (exact)",
    "Mendekati (approximate)"
  ),
  check.names = FALSE
)

kable(
  tabel_ringkasan,
  align = c("l", "c", "c"),
  caption = "Ringkasan pemilihan metode perhitungan probabilitas"
)
Ringkasan pemilihan metode perhitungan probabilitas
Metode Kapan Dipakai Jenis Hasil
Sample Space n kecil (n ≤ 3) Tepat (exact)
Rumus Binomial n sedang (n ≈ 10–20) Tepat (exact)
Pendekatan Normal n besar (n ≥ 30) Mendekati (approximate)

Reference

[1] Siregar, B. (n.d.). Introduction to statistics: Chapter 7: Probability Distribution. dsciencelabs. https://bookdown.org/dsciencelabs/intro_statistics/07-Probability_Distributions.html

[2] Ross, S. M. (2019). A first course in probability (10th ed.). Pearson. https://www.pearson.com/en-us/subject-catalog/p/first-course-in-probability-a/P200000006334/9780137504589

[3 Hogg, R. V., McKean, J. W., & Craig, A. T. (2019). Introduction to mathematical statistics (8th ed.). Pearson. https://www.pearson.com/en-us/subject-catalog/p/introduction-to-mathematical-statistics/P200000006211/9780137530687

[5] Evans, M. J., & Rosenthal, J. S. (2004). Probability and statistics: The science of uncertainty. W. H. Freeman. https://probability.ca/jeff/probstatbook.html