Probability Distribution

Tugas Week 11 ~ Probability Distribution

Naychila Adelia Zahrah

Data Science Undergraduate Student

R Programming Data Science Statistics

1 Pendahuluan

Probabilitas memiliki peran yang melampaui sekadar mengukur seberapa sering suatu kejadian dapat terjadi; ia juga membentuk basis fundamental dari berbagai metode statistik yang krusial untuk proses pengambilan keputusan. Ketika kita melakukan eksperimen atau proses apa pun yang hasilnya menunjukkan variasi, kita memanfaatkan variabel acak untuk merepresentasikan hasil-hasil tersebut.

Konsep Distribusi Probabilitas kemudian digunakan untuk memetakan atau menggambarkan bagaimana probabilitas dibagi atau dialokasikan untuk setiap nilai yang mungkin dari variabel acak tersebut. Memahami karakteristik dan bentuk suatu distribusi adalah hal yang sangat vital karena hal tersebut menentukan metode yang akan kita gunakan untuk:

  • Menganalisis perilaku data.

  • Menghitung probabilitas.

  • Membuat prediksi yang akurat.

Distribusi probabilitas, mulai dari yang sederhana hingga yang kompleks (misalnya, distribusi untuk variabel kontinu), berfungsi sebagai inti atau jantung dari statistik inferensial.

Konsep-Konsep Utama dalam Distribusi Materi ini akan mengarahkan Anda untuk menguasai beberapa konsep penting yang berkaitan dengan distribusi probabilitas:

  • Variabel Acak Kontinu: Digunakan untuk memodelkan variabel yang nilainya dapat berupa sembarang nilai dalam suatu interval atau rentang kontinu. Ini menggambarkan kemungkinan berbagai nilai yang tak terhingga.

  • Distribusi Sampel: Ini adalah distribusi probabilitas dari suatu statistik sampel (seperti mean sampel atau proporsi sampel) yang dihitung dari sejumlah besar sampel yang diambil dari populasi yang sama.

  • Teorema Batas Pusat (CLT - Central Limit Theorem): Dianggap sebagai salah satu hasil terpenting dalam teori statistik. Teorema ini menjelaskan mengapa, terlepas dari bentuk populasi asalnya, distribusi dari mean sampel cenderung mendekati distribusi normal asalkan ukuran sampelnya cukup besar.

  • Distribusi Proporsi Sampel: Alat yang sangat sering digunakan dalam analisis survei dan berbagai jenis penelitian kuantitatif. Konsep ini fokus pada distribusi persentase atau rasio hasil tertentu dalam sampel.

Setiap bagian pembahasan dilengkapi dengan materi pendukung berupa video penjelasan untuk memperkuat pemahaman konseptual Anda. Dengan menguasai topik-topik ini, Anda akan memiliki kesiapan yang lebih matang untuk melakukan analisis data, merancang model statistik, dan menarik kesimpulan yang valid berdasarkan prinsip-prinsip probabilitas yang kuat dan teruji.

2 Acak Berkelanjutaan

  • Rangkuman

2.1 Variabel Acak

Sebuah variabel acak diklasifikasikan sebagai kontinu jika variabel tersebut mampu mengambil nilai apa pun dalam suatu rentang atau interval pada garis bilangan riil. Artinya, tidak ada “lompatan” atau celah di antara nilai-nilai yang mungkin.

Contoh-contoh variabel acak kontinu yang umum dijumpai meliputi: tinggi badan, durasi waktu, suhu, usia, tekanan, dan kecepatan.

Karakteristik utama yang mendefinisikan variabel acak kontinu adalah:

  • Rentang Nilai: Variabel ini dapat mengambil setiap nilai dalam suatu interval terbuka \((a, b)\) atau bahkan pada seluruh garis bilangan riil \((-\infty, +\infty)\).

  • Probabilitas pada Titik Tunggal: Probabilitas bahwa variabel acak kontinu \(X\) mengambil tepat satu nilai tertentu (\(P(X = x)\)) adalah selalu nol. Hal ini disebabkan karena ada jumlah titik yang tak terhingga dalam suatu interval.

  • Probabilitas dalam Interval: Probabilitas hanya dapat diukur selama variabel tersebut berada dalam suatu interval tertentu, yang dihitung menggunakan integral:\[P(a \le X \le b) = \int_{a}^{b} f(x) \,dx\]

2.2 Kepadatan Probabilitas Meliputi

Untuk variabel acak kontinu, probabilitas tidak dihitung pada titik tunggal, melainkan melalui sebuah fungsi yang dikenal sebagai Fungsi Kepadatan Probabilitas (PDF), dilambangkan sebagai \(f(x)\).

Sebuah fungsi \(f(x)\) diakui sebagai PDF yang valid jika memenuhi dua kriteria dasar berikut:

1. Kondisi Non-negatif

Fungsi harus selalu bernilai positif atau nol untuk semua kemungkinan nilai \(x\) dalam domainnya.\[f(x) \ge 0 \quad \text{untuk semua } x\] Ini memastikan bahwa kepadatan (density) probabilitas tidak pernah memiliki nilai negatif.

2. Total Luas Area Sama dengan 1

Luas total area di bawah kurva fungsi \(f(x)\) di seluruh domain variabel harus tepat sama dengan satu (1). Hal ini merefleksikan kepastian bahwa variabel acak harus mengambil suatu nilai dalam rentang kemungkinan yang ada.\[\int_{-\infty}^{\infty} f(x) \,dx = 1\]

Penting untuk memahami bagaimana menginterpretasikan nilai \(f(x)\):

  • Bukan Probabilitas: Nilai \(f(x)\) itu sendiri bukanlah probabilitas. Probabilitas hanya dapat diukur melalui luas area di bawah kurva PDF untuk suatu interval tertentu.

  • Mengukur Kepadatan: Nilai \(f(x)\) yang lebih besar mengindikasikan kepadatan probabilitas yang lebih tinggi di sekitar nilai \(x\) tersebut. Secara intuitif, ini berarti kemungkinan variabel acak jatuh pada dekat nilai tersebut lebih besar.

Contoh PDF

Pertimbangkan fungsi berikut sebagai contoh Fungsi Kepadatan Probabilitas:\[f(x) = 3x^2 \quad \text{untuk } 0 \le x \le 1\] Validasi:Untuk memastikan validitasnya, kita hitung luas area di bawah kurva dalam interval yang ditentukan:\[\int_{0}^{1} 3x^2 \,dx\] Hasil dari integral ini harus sama dengan 1, yang mengonfirmasi bahwa fungsi tersebut adalah PDF yang sah.

2.3 Probabilitas Pada Interval

Karena probabilitas pada titik tunggal untuk variabel acak kontinu selalu nol, kita hanya dapat menghitung probabilitas variabel acak \(X\) jatuh di antara dua nilai, yaitu dalam suatu interval \([a, b]\).

Untuk menghitung probabilitas dalam interval tersebut, kita menggunakan integral dari Fungsi Kepadatan Probabilitas (PDF), \(f(x)\), yang merepresentasikan luas area di bawah kurva dalam batas-batas interval yang diminati:\[P(a \le X \le b) = \int_{a}^{b} f(x) \,dx\] Contoh Perhitungan:Dengan menggunakan PDF contoh sebelumnya, \(f(x) = 3x^2\) untuk \(0 \le x \le 1\), jika kita ingin mencari probabilitas \(X\) berada di antara \(0.5\) dan \(1\), kita akan menghitung integral berikut:\[P(0.5 \le X \le 1) = \int_{0.5}^{1} 3x^2 \,dx\]

2.4 Distribusi Kumulatif

Fungsi Distribusi Kumulatif (CDF), dilambangkan sebagai \(F(x)\), memberikan probabilitas kumulatif bahwa variabel acak kontinu \(X\) mengambil nilai yang kurang dari atau sama dengan nilai tertentu \(x\).

Sama seperti PDF, CDF juga didefinisikan menggunakan integral, tetapi batas atas integralnya adalah nilai \(x\) itu sendiri: \[F(x) = P(X \le x) = \int_{0}^{x} 3t^2 \,dt = x^3\] Hubungan antara PDF dan CDF

Terdapat hubungan matematis yang erat dan saling timbal balik antara CDF dan PDF. Berdasarkan Teorema Dasar Kalkulus, Fungsi Kepadatan Probabilitas (\(f(x)\)) adalah turunan dari Fungsi Distribusi Kumulatif (\(F(x)\)):\[f(x) = F'(x)\] Hubungan ini memungkinkan kita untuk beralih dari fungsi probabilitas kumulatif ke fungsi kepadatan probabilitas, dan sebaliknya.

3 Distribusi Sample

  • Rangkuman

3.1 Definisi dan Perbedaan

Tabel Perbedaan Konsep Distribusi
Konsep Definisi
Distribusi Sampel Distribusi yang dibuat dari satu sampel tunggal yang diambil dari populasi.
Distribusi Sampling Distribusi yang dibuat dari statistik (misalnya, rata-rata \(\bar{x}\)) yang dihitung dari berbagai sampel acak sederhana berganda yang ditarik dari populasi tertentu. Distribusi ini pada dasarnya adalah kumpulan nilai \(\bar{x}\) yang dikumpulkan dan digambarkan dalam satu plot.
Distribusi Populasi Distribusi yang dibuat untuk mengukur setiap individu dalam populasi secara keseluruhan.

3.2 Perbandingan Distribusi Populasi vs Distribusi Sampling

membandingkan karakteristik Distribusi Populasi dengan Distribusi Sampling dari Rata-Rata Sampel (\(\bar{x}\))

Tabel Karakteristik Distribusi Populasi vs Distribusi Sampling
Karakteristik Distribusi Populasi (Setiap Individu \(x\)) Distribusi Sampling (Rata-Rata Sampel \(\bar{x}\))
Rata-Rata (Mean) \(\mu\) \(\mu_{\bar{x}} = \mu\) (Sama dengan rata-rata populasi)
Simpangan Baku (Standard Deviation) \(\sigma\) \(\sigma_{\bar{x}}\) (Standard Error). Selalu lebih kecil dari \(\sigma\) karena rata-rata kurang bervariasi dibanding observasi individu.

3.3 Tujuan Distribusi Sampling

Kegunaan utama dari Distribusi Sampling adalah:

  • Kenyamanan dan Efisiensi: Memungkinkan kita mendapatkan ide tentang nilai rata-rata populasi (\(\mu\)) tanpa harus mengukur setiap individu, yang sangat menghemat waktu, biaya, dan tenaga (misalnya, mengukur tinggi badan 8 miliar orang di bumi) .
  • Menghitung Probabilitas: Memungkinkan kita untuk menghitung probabilitas mendapatkan hasil sampel tertentu berdasarkan ukuran sampel (\(n\)) yang digunakan

rumus-rumus utama untuk notasi dan standardisasi yang digunakan pada Distribusi Sampling:

1. Simpangan Baku Distribusi Sampling (Standard Error)

Simpangan baku dari distribusi sampling rata-rata sampel (\(\sigma_{\bar{x}}\)) dikenal sebagai Standard Error dan dihitung dengan membagi simpangan baku populasi dengan akar kuadrat dari ukuran sampel (\(n\)):\[\text{Standard Error: } \sigma_{\bar{x}} = \frac{\sigma}{\sqrt{n}}\] 2. Notasi dan Karakteristik Distribusi Sampling

Ketika ukuran sampel (\(n\)) cukup besar (berdasarkan Central Limit Theorem, yang dibahas singkat), Distribusi Sampling rata-rata sampel dapat didekati dengan Distribusi Normal.\[\bar{X} \sim N\left(\mu, \frac{\sigma}{\sqrt{n}}\right)\]

  • \(\mu\): Rata-rata populasi.

  • \(\frac{\sigma}{\sqrt{n}}\): Standard Error (\(\sigma_{\bar{x}}\)).

3.Rumus Standardisasi (Skor-Z) untuk Distribusi Sampling

Untuk menghitung probabilitas suatu rata-rata sampel (\(\bar{x}\)), kita menggunakan rumus Skor-Z yang distandardisasi menggunakan Standard Error sebagai pembagi:\[\text{Skor-Z: } Z = \frac{\bar{x} - \mu_{\bar{x}}}{\sigma_{\bar{x}}} = \frac{\bar{x} - \mu}{\sigma / \sqrt{n}}\] Sebagai perbandingan, rumus Skor-Z untuk data individu (\(x\)) dalam Distribusi Populasi adalah:\[Z = \frac{x - \mu}{\sigma}\]

4 Teorema Limit Pusat

  • Rangkuman

4.1 Teorema Batas Pusat (Central Limit Theorem / CLT)

CLT adalah teorema yang memprediksi bentuk dari Distribusi Sampling berdasarkan ukuran sampel (\(n\)).

A. Pernyataan Utama

CLT menyatakan bahwa jika ukuran sampel (\(n\)) cukup besar, maka Distribusi Sampling dari Rata-Rata Sampel (\(\bar{x}\)) akan berbentuk Distribusi Normal, terlepas dari bentuk Distribusi Populasi aslinya.

B. Aturan Umum (Rule of Thumb)

Untuk menerapkan CLT (yaitu, untuk menganggap Distribusi Sampling normal), ada dua kondisi yang harus dipenuhi:

  • Jika Distribusi Populasi Tidak Diketahui atau Tidak Normal: Ukuran sampel harus besar (umumnya \(n \ge 30\)).

  • Jika Distribusi Populasi Sudah Normal: Distribusi Sampling akan selalu Normal, bahkan dengan ukuran sampel yang kecil (\(n < 30\)).

C. Notasi Distribusi Sampling (Dampak CLT)

Bila \(n \ge 30\) (atau populasi awal sudah Normal), Distribusi Sampling dapat menggunakan notasi Normal:\[\bar{X} \sim N\left(\mu, \frac{\sigma}{\sqrt{n}}\right)\]

4.2 Tinjauan Distribusi Sampling (Review: Sampling Distribution)

Distribusi Sampling adalah distribusi yang dibentuk dari statistik (misalnya, rata-rata \(\bar{x}\)) yang dihitung dari berbagai sampel acak berganda yang ditarik dari suatu populasi.

Proses Pembentukan Distribusi Sampling dari Rata-Rata Sampel (\(\bar{x}\)):

  1. Ambil sampel acak sederhana dari populasi.
  2. Hitung rata-rata sampel (\(\bar{x}\)) untuk sampel tersebut.
  3. Plot nilai \(\bar{x}\) tersebut ke dalam sebuah grafik (histogram).
  4. Ulangi langkah 1-3 berkali-kali (ratusan hingga ribuan kali).
  5. Hasil akumulasi dari plot \(\bar{x}\) inilah yang membentuk Distribusi Sampling.

Rumus Terkait Distribusi Sampling

library(knitr)

data <- data.frame(
  Konsep = c("Rata-Rata Distribusi Sampling", "Simpangan Baku (Standard Error)"),
  Rumus = c("$\\mu_{\\bar{x}} = \\mu$", "$\\sigma_{\\bar{x}} = \\frac{\\sigma}{\\sqrt{n}}$"),
  Keterangan = c(
    "Rata-rata dari semua rata-rata sampel sama dengan rata-rata populasi.",
    "$\\sigma$: Simpangan baku populasi. $n$: Ukuran sampel."
  )
)

kable(data, escape = FALSE)
Konsep Rumus Keterangan
Rata-Rata Distribusi Sampling \(\mu_{\bar{x}} = \mu\) Rata-rata dari semua rata-rata sampel sama dengan rata-rata populasi.
Simpangan Baku (Standard Error) \(\sigma_{\bar{x}} = \frac{\sigma}{\sqrt{n}}\) \(\sigma\): Simpangan baku populasi. \(n\): Ukuran sampel.

4.3 Rumus Standardisasi (Skor-Z)

Untuk menghitung probabilitas rata-rata sampel tertentu, digunakan rumus Skor-Z dengan Standard Error (\(\sigma_{\bar{x}}\)) sebagai pembagi:\[\text{Skor-Z: } Z = \frac{\bar{x} - \mu}{\sigma / \sqrt{n}}\]

5 Proporsi Sampel

  • Rangkuman

5.1 Definisi Proporsi dan Distribusi Sampling

Dalam statistika, proporsi (\(p\)) adalah pecahan yang menggambarkan fraksi hasil yang diinginkan (sukses) berbanding dengan keseluruhan hasil.

  • Proporsi Populasi dilambangkan dengan \(p\).

  • Proporsi Sampel dilambangkan dengan \(\hat{p}\).

Distribusi Sampling Proporsi Sampel (\(\hat{p}\)) dibentuk dengan melakukan proses berulang: mengambil banyak sampel acak dari populasi, menghitung \(\hat{p}\) untuk setiap sampel, dan kemudian memplot semua nilai \(\hat{p}\) tersebut pada sebuah grafik. Distribusi ini adalah distribusi dari statistik \(\hat{p}\).

5.2 Karakteristik Distribusi Sampling Proporsi

Distribusi \(\hat{p}\) memiliki karakteristik rata-rata dan simpangan baku (standard error):

  • Rata-Rata (\(\mu_{\hat{p}}\)): Rata-rata dari semua proporsi sampel (\(\hat{p}\)) yang dikumpulkan akan sama dengan proporsi populasi (\(p\)) yang sebenarnya.\[\mu_{\hat{p}} = p\]
  • Simpangan Baku (Standard Error, \(\sigma_{\hat{p}}\)): Standard error mengukur seberapa tersebar rata-rata proporsi sampel di sekitar rata-rata populasi. Nilainya akan mengecil seiring bertambahnya ukuran sampel (\(n\)).\[\sigma_{\hat{p}} = \sqrt{\frac{p(1-p)}{n}}\]

5.3 Teorema Batas Pusat (CLT) untuk Proporsi

Sama seperti rata-rata sampel, Distribusi Sampling Proporsi (\(\hat{p}\)) akan mendekati Distribusi Normal jika kondisi CLT terpenuhi. Hal ini penting karena memungkinkan kita menggunakan tabel Z-score dan rumus Distribusi Normal.

Kondisi Penerapan CLT:Untuk proporsi, kondisi agar Distribusi Sampling dianggap Normal adalah:

  • Jumlah hasil sukses harus besar: \(n \cdot p \ge 10\)

  • Jumlah hasil gagal harus besar: \(n \cdot (1-p) \ge 10\)

5.4 Rumus Standardisasi (Skor-Z)

Jika kondisi CLT terpenuhi, kita dapat menggunakan rumus Z-Score untuk mencari probabilitas \(\hat{p}\) tertentu:\[\text{Skor-Z: } Z = \frac{\hat{p} - p}{\sigma_{\hat{p}}} = \frac{\hat{p} - p}{\sqrt{\frac{p(1-p)}{n}}}\]

6 Tinjauan Distribusi Sampel

  • Rangkuman

6.1 Metode Probabilitas Dasar (Ruang Sampel)

Metode ini digunakan ketika jumlah percobaan (\(n\)) sangat kecil. Probabilitas dihitung dengan membuat ruang sampel lengkap dari semua hasil yang mungkin dan menjumlahkan probabilitas hasil yang relevan.

  • Kasus: Penarikan kelereng \(n=3\) kali.

  • Pertanyaan: Berapa probabilitas mendapatkan minimal 2 kelereng hijau?

  • Langkah: Hitung \(P(\text{tepat 2 H})\) dan \(P(\text{tepat 3 H})\) menggunakan perkalian probabilitas dan menjumlahkan hasilnya.

Rumus Terkait:

  1. Probabilitas Sukses (\(p\)): \[p = \frac{\text{Jumlah Hasil Sukses}}{\text{Total Hasil}} = \frac{200}{500} = 0.4\]
  2. Probabilitas Hasil Spesifik (tanpa pengulangan):\[P(\text{H-H-B}) = p \times p \times (1-p) = 0.4 \times 0.4 \times 0.6\]

6.2 Metode Distribusi Binomial

Metode ini digunakan ketika \(n\) meningkat, sehingga membuat ruang sampel menjadi tidak praktis, tetapi jumlah perhitungan masih dapat dikelola. Distribusi Binomial menghitung probabilitas mendapatkan tepat \(k\) sukses dalam \(n\) percobaan.

  • Kasus:Penarikan kelereng \(n=5\) kali.

  • Pertanyaan: Berapa probabilitas mendapatkan minimal 2 kelereng hijau?

  • Langkah: Hitung \(P(X=2) + P(X=3) + P(X=4) + P(X=5)\) menggunakan rumus Binomial untuk setiap nilai \(k\).

Rumus Terkait:

Rumus Probabilitas Binomial (Mencari probabilitas tepat k sukses dalam n percobaan): \[P(k) = \mathbf{\binom{n}{k}} P^k (1-P)^{n-k}\]

6.3 Metode Aproksimasi Normal (CLT)

Metode ini digunakan ketika \(n\) sangat besar, sehingga perhitungan menggunakan Binomial menjadi terlalu banyak (tidak feasible). Metode ini memanfaatkan Teorema Batas Pusat (CLT) untuk mengaproksimasi probabilitas menggunakan Distribusi Normal dan Z-Score.

  • Kasus: Penarikan kelereng \(n=100\) kali.

  • Pertanyaan: Berapa aproksimasi probabilitas mendapatkan minimal 35 kelereng hijau?

  • Langkah:

  1. Cek apakah Kondisi CLT terpenuhi.
  2. Hitung Standard Error (\(\sigma_{\hat{p}}\)).
  3. Hitung Z-Score untuk proporsi \(\hat{p} = 35/100 = 0.35\).
  4. Gunakan tabel Z-Score untuk mencari probabilitas (luas area di bawah kurva).

Rumus Terkait:

1. Kondisi Penerapan CLT (Proporsi):

  • \(n \cdot p \ge 10\)

  • \(n \cdot (1-p) \ge 10\)

2. Standard Error Distribusi Proporsi:\[\sigma_{\hat{p}} = \sqrt{\frac{p(1-p)}{n}}\] 3. Rumus Z-Score Distribusi Proporsi:\[Z = \frac{\hat{p} - p}{\sigma_{\hat{p}}} = \frac{\hat{p} - p}{\sqrt{\frac{p(1-p)}{n}}}\]

7 Referensi

  • A First Course in Probability
  • Statistika Matematika
  • Statistika untuk Penelitian