PROBABILITY DISTRIBUTION (WEEK 11)
R Programming Data Science Statistics
1 Pendahuluan
Dalam statistik, probabilitas tidak hanya digunakan untuk menghitung peluang suatu peristiwa terjadi, tetapi juga menjadi dasar penting dalam proses pengambilan keputusan berbasis data. Ketika suatu percobaan menghasilkan berbagai kemungkinan nilai, kita menggunakan variabel acak (random variable) untuk merepresentasikan hasilnya, dan distribusi probabilitas (probability distribution) untuk menggambarkan bagaimana probabilitas tersebar pada setiap nilai yang mungkin terjadi.
Memahami bentuk dan karakteristik distribusi probabilitas sangatlah penting karena berpengaruh pada bagaimana data dianalisis, bagaimana probabilitas dihitung, serta bagaimana prediksi dan kesimpulan statistik dibuat. Mulai dari variabel acak kontinu hingga perilaku statistik dari rata-rata sampel, distribusi probabilitas merupakan inti dari analisis data dan statistik inferensial.
Pada materi ini, mahasiswa akan mempelajari konsep-konsep fundamental
yang menjadi dasar dalam penerapan statistik lebih lanjut, lengkap
dengan video penjelasan untuk mendukung pemahaman.
poin-poin yang di bahas:
1. Variable Acak Kontinu Variabel acak kontinu yang
memiliki nilai dalam rentang tertentu dan dihubungkan dengan fungsi
kepadatan probabilitas.
2. Sampel Distribusi Distribusi dari statistik sampel, seperti rata-rata atau proporsi, yang diperoleh dari pengambilan sampel berulang dari suatu populasi.
3. Teorema Limit Pusat Teorema penting dalam statistik yang menyatakan bahwa distribusi rata-rata sampel akan mendekati distribusi normal, meskipun populasi asal tidak berdistribusi normal.
4. Sample Proporsi Distribusi Distribusi probabilitas untuk proporsi suatu karakteristik dalam sampel, sering digunakan dalam survei dan penelitian kuantitatif.
2 Variable Acak Kontinu
1. Riview
Definisi Variabel Diskrit:
Variabel yang hanya dapat mengambil sejumlah nilai yang dapat dihitung
(countable). Variabel diskrit hanya mengambil nilai bilangan bulat
(misalnya, jumlah anak) atau nilai terhingga/terhitung (misalnya, jumlah
uang di rekening bank).
contoh:jumlah kepala saat melempar koin, jumlah
kelereng biru, nilai ujian.
Representasi Diskrit: Dapat disajikan menggunakan
diagram batang (bar chart). Menampilkan setiap hasil sebagai entitas
individual yang dapat dihitung, dan biasanya ada celah di antara setiap
batang
2. Variabel Kontinu
Definisi Variabel kontinu:
Variabel yang dapat mengambil nilai numerik apa pun dalam rentang
tertentu. Datanya diperoleh dengan mengukur (measuring) daripada
menghitung (counting).
contoh: Berat, usia, suhu, dan jarak.
Representasi Kontinu: Dapat disajikan menggunakan
histogram.Tidak memiliki celah di antara setiap batang untuk
mencerminkan kesinambungan data (continuity).Variabel acak kontinu juga
dapat direpresentasikan menggunakan kurva kerapatan.
2.1 Variable acak
Definisi Variabel Acak Kontinu:
Sebuah variabel acak adalah kontinu jika dapat mengambil nilai apa pun
dalam sebuah interval pada garis bilangan riil.
contoh: Tinggi, waktu, suhu, usia, tekanan, dan
kecepatan.
karakteristik kunci:
• Variabel mengambil nilai dalam sebuah interval, seperti \((a, b)\) atau \((-\infty, +\infty)\).
• Probabilitas pada satu titik tunggal selalu nol: \(P(X=x) = 0\).
• Probabilitas hanya bermakna dalam sebuah interval.
\[P(a \le X \le b) = \int_{a}^{b} f(x) \,
dx\]
2.2 Fungsi kerapatan peluang
Definisi:
Untuk variabel acak kontinu, probabilitas diperoleh dari area di bawah
kurva PDF (\(f(x)\)), bukan dari
penugasan probabilitas pada titik individu.
Fungsi Kerapatan Peluang di katakan sah jika memenuhi dua kriteria
utama:
• Non-negativity (Tidak Negatif): Nilai fungsi harus selalu non-negatif:
\(f(x) \ge 0\) untuk semua \(x\).
• Total Area Equals 1 (Total Luas Sama dengan 1): Luas total di bawah
kurva di seluruh rentang harus sama dengan 1.
\[\int_{-\infty}^{\infty} f(x) \, dx =
1\]
Interpretasi:
• Nilai \(f(x)\) yang lebih besar
menunjukkan kerapatan probabilitas (probability density) yang lebih
tinggi di sekitar nilai tersebut.
• Namun, perlu diingat bahwa \(f(x)\)
bukanlah probabilitas; probabilitas berasal dari area di bawah
kurva.
2.3 probabilitas pada suatu interval
Perhitungan Probabilitas:
Untuk menghitung probabilitas bahwa variabel acak \(X\) jatuh dalam interval \([a, b]\), Anda menggunakan integral tentu
dari fungsi kepadatan probabilitas \(f(x)\).\[P(a \le
X \le b) = \int_{a}^{b} f(x) \, dx\]
2.4 Fungsi distribusi Kumulatif
Definisi:
Fungsi Distribusi Kumulatif (CDF), dilambangkan \(F(z)\), didefinisikan sebagai probabilitas
bahwa variabel acak \(X\) kurang dari
atau sama dengan nilai \(z\).\[F(z) = P(X \le z) = \int_{-\infty}^{z} f(t) \,
dt\] (Dalam contoh yang diberikan menggunakan variabel dummy
\(t\) dalam integral).
Hubungan antara PDF dan CDF: PDF adalah turunan pertama dari CDF.\[f(z) = F'(z)\]
3 Distribusi Sample
1. Perbedaan Tiga Jenis Distribusi
• Distribusi Populasi (Population Distribution):
Distribusi dari seluruh individu dalam populasi. Memiliki rata-rata
(\(\mu\)) dan simpangan baku (\(\sigma\)).
• Distribusi Sampel (Sample Distribution):
Distribusi data dari satu sampel tunggal yang diambil dari
populasi.
• Distribusi Sampling (Sampling Distribution):
Distribusi dari statistik (misalnya, rata-rata \(\bar{x}\)) yang dibuat dari banyak sampel
acak sederhana yang ditarik dari populasi yang sama.
2. Proses Pembentukan Distribusi Sampling
Distribusi sampling dibuat dengan langkah-langkah berulang:
• Ambil sampel acak sederhana pertama dengan ukuran \(n\).
• Hitung rata-rata sampel (\(\bar{x}\))
untuk sampel tersebut.
• Plot \(\bar{x}\) tersebut sebagai
satu titik data pada histogram.
• Ulangi langkah 1-3 ratusan hingga ribuan kali, sehingga terbentuklah
distribusi dari semua \(\bar{x}\)
tersebut.
3. Karakteristik Distribusi Sampling Rata-Rata (\(\bar{x}\))
Distribusi sampling rata-rata (\(\bar{x}\)) memiliki karakteristik khusus
yang berbeda dari populasi aslinya:
Kenapa Simpangan Baku Lebih Kecil? Rata-rata sampel (\(\bar{x}\)) cenderung memiliki variabilitas yang lebih kecil dibandingkan observasi individu dalam populasi
4. Teorema Limit Pusat
jika memiliki cukup data, distribusi sampling akan cenderung
terdistribusi normal (berbentuk lonceng), terlepas dari bentuk
distribusi populasi aslinya.
5. Tujuan dan Kegunaan Distribusi Sampling
• Kenyamanan dan Efisiensi: Memungkinkan peneliti untuk memperkirakan
nilai rata-rata populasi (\(\mu\))
tanpa perlu mengukur setiap individu dalam populasi (misalnya, mengukur
tinggi 8 miliar orang di bumi)
• Perhitungan Probabilitas: Memungkinkan perhitungan probabilitas untuk
mendapatkan rata-rata sampel (\(\bar{x}\)) tertentu berdasarkan ukuran
sampel (\(n\)) yang digunakan.
A. Untuk Distribusi Populasi
Digunakan ketika pertanyaannya mengenai individu (misalnya, probabilitas
seseorang memiliki tinggi tertentu).\[Z =
\frac{x - \mu}{\sigma}\]
B. Untuk Distribusi Sampling
Digunakan ketika pertanyaannya mengenai rata-rata sekelompok/sampel
(misalnya, probabilitas rata-rata tinggi 10 orang kurang dari…).\[Z = \frac{\bar{x} - \mu}{\sigma_{\bar{x}}} \quad
\text{atau} \quad Z = \frac{\bar{x} -
\mu}{\frac{\sigma}{\sqrt{n}}}\]
4 Teorema Limit Pusat
1. Distribusi Sampling (Sampling Distribution)
• Distribusi sampling melibatkan pengambilan sampel secara berulang dari
suatu populasi.
• Untuk setiap sampel, dihitung sebuah statistik, seperti rata-rata
sampel (\(\bar{x}\)).
• Informasi dari statistik ini kemudian digabungkan untuk membuat suatu
distribusi.
2. Definisi Teorema Batas Pusat (CLT)
Teorema Batas Pusat memprediksi bentuk dari distribusi sampling
berdasarkan ukuran sampel (\(n\)):
• CLT menyatakan bahwa jika ukuran sampel (\(n\)) cukup besar, maka distribusi sampling
dari rata-rata sampel akan menjadi mendekati normal (berdistribusi
normal).
• Hal ini berlaku terlepas dari bagaimana bentuk distribusi populasi
aslinya.
3. Aturan Ukuran Sampel
Pertanyaan utamanya adalah: seberapa besar ukuran sampel (\(n\)) agar CLT dapat diterapkan?
• Aturan umum (Rule of Thumb) yang digunakan adalah bahwa CLT aman
diterapkan ketika ukuran sampel (\(n\))
lebih besar atau sama dengan 30 (\(\mathbf{n}
\ge \mathbf{30}\)).
• Jika \(n < 30\), perkiraan
normalitas mungkin tidak akurat karena adanya variabilitas yang lebih
besar.
pengecualian:
Jika distribusi populasi aslinya sudah berdistribusi normal sejak awal,
maka distribusi sampling akan normal meskipun ukuran sampelnya kecil
(\(n < 30\)).
4. Kegunaan CLT
• CLT sangat berguna untuk menganalisis kumpulan data yang besar.
• Dengan mengetahui bahwa distribusi sampling akan menjadi normal, kita
dapat menggunakan rumus-rumus yang berkaitan dengan distribusi normal
untuk membantu menafsirkan data.
5 Sampel Proporsi
1. Konsep Dasar
Distribusi Sampling
distribusi sampling adalah distribusi yang dibuat dengan mengambil
sampel berulang kali dari suatu populasi, menghitung statistik (seperti
rata-rata (\(\bar{x}\)) atau proporsi
(\(\hat{P}\)) dari setiap sampel, dan
kemudian memplot semua nilai statistik tersebut.
proporsi
• Proporsi adalah fraksi atau rasio dari hasil yang “menguntungkan”
(favorable) dibandingkan dengan total keseluruhan.
• Proporsi Populasi (\(\mathbf{P}\)):
Proporsi dari seluruh populasi (nilai yang biasanya tidak diketahui)
Proporsi Sampel (\(\mathbf{\hat{P}}\)):
Proporsi yang dihitung dari satu sampel. Nilai \(\hat{P}\) bervariasi dari satu sampel ke
sampel lainnya.
2. Distribusi Sampling Proporsi Sampel (\(\hat{P}\))
Distribusi Sampling Proporsi Sampel adalah distribusi yang tersusun dari
banyak nilai \(\hat{P}\) yang diambil
dari sampel-sampel yang berbeda. Distribusi ini memiliki karakteristik
sebagai berikut:
Rata-rata (\(\mu_{\hat{P}}\))
Rata-rata dari semua proporsi sampel (\(\hat{P}\)) adalah sama dengan proporsi
populasi (\(P\)):
\[\mathbf{\mu_{\hat{P}} = P}\]
Simpangan Baku / Galat Baku (Standard Error, \(\sigma_{\hat{P}}\))
Simpangan baku dari distribusi sampling proporsi sampel disebut Galat
Baku, yang dihitung dengan rumus:\[\mathbf{\sigma_{\hat{P}} = \sqrt{\frac{P \cdot
Q}{n}} \quad atau \quad \sqrt{\frac{P(1-P)}{n}}}\]
• \(n\): Ukuran sampel
• \(P\): Proporsi populasi
• \(Q\): Proporsi kegagalan (dihitung
sebagai \(\mathbf{1 - P}\))
3. Syarat Penerapan Teorema Batas Pusat (TBP)
Agar distribusi sampling proporsi sampel dapat dianggap mendekati normal
(sehingga dapat menggunakan tabel Z atau rumus normalisasi), dua kondisi
berikut harus terpenuhi:
1. Jumlah keberhasilan dalam sampel harus cukup besar:\[\mathbf{n \cdot P \ge 10}\]
2. Jumlah kegagalan dalam sampel juga harus cukup besar:\[\mathbf{n \cdot (1-P) \ge 10}\]
4. Rumus Standardisasi (Z-Score)
Jika kondisi TBP terpenuhi, distribusi \(\hat{P}\) dapat distandardisasi menggunakan
rumus Z-score untuk menghitung probabilitas, mirip dengan distribusi
normal lainnya:\[\mathbf{Z = \frac{\hat{P} -
P}{\sigma_{\hat{P}}} = \frac{\hat{P} -
P}{\sqrt{\frac{P(1-P)}{n}}}}\]
Rumus ini memungkinkan kita untuk menggunakan tabel Z untuk menemukan
area atau probabilitas yang terkait dengan nilai \(\hat{P}\) tertentu.
6 Ringkasan Sampel Distribusi
ulasan untuk menggabungkan tiga konsep statistika, yaitu Probabilitas Dasar, Distribusi Binomial, dan Distribusi Sampling Proporsi Sampel, dengan fokus pada kapan menggunakan setiap metode, terutama saat ukuran sampel (n) bertambah besar.
6.1 Probabilitas Dasar (Untuk \(n\) Kecil)
contoh
soal menggunakan \(n=3\) kali
percobaan:
Soal:
Sebuah stoples berisi 200 kelereng hijau (\(P=0.4\)) dan 300 kelereng biru (\(Q=0.6\)). Jika diambil 3 kali dengan
pengembalian, berapa probabilitas mendapatkan minimal 2 kelereng
hijau?
Metode:
Karena \(n\) kecil, solusi dapat
ditemukan dengan membuat daftar semua kemungkinan hasil dan menjumlahkan
probabilitasnya:
• \(P(\text{tepat 2 hijau}) = P(\text{GGB})
+ P(\text{GBG}) + P(\text{BGG}) = 3 \times (0.4 \times 0.4 \times 0.6) =
0.288\).
• \(P(\text{tepat 3 hijau}) = P(\text{GGG}) =
0.4 \times 0.4 \times 0.4 = 0.064\).
Hasil:
\(P(\ge 2 \text{ hijau}) = 0.288 + 0.064 =
\mathbf{0.352}\).
6.2 Distribusi Binomial (Untuk n Sedang)
meningkatkan ukuran sampel menjadi \(n=5\) kali percobaan:
Soal:
Jika diambil 5 kali dengan pengembalian, berapa probabilitas mendapatkan
minimal 2 kelereng hijau?
Metode:
Mendaftar semua kemungkinan hasil akan memakan waktu. Solusi yang lebih
efisien adalah menggunakan Rumus Distribusi Binomial untuk menghitung
probabilitas tepat \(k\) kali sukses,
lalu menjumlahkannya.
\(P(\ge 2 \text{ hijau}) = P(k=2) + P(k=3) +
P(k=4) + P(k=5)\).
Kesimpulan:
Distribusi Binomial digunakan untuk mencari probabilitas yang eksak pada
jumlah percobaan (\(n\)) yang masih
memungkinkan perhitungan.
6.3 Distribusi Sampling Proporsi Sampel: Aproksimasi Normal (Untuk \(n\) Besar)
membahas skenario dengan \(n=100\)
kali percobaan:
Soal:
Jika diambil 100 kali dengan pengembalian, berapa perkiraan probabilitas
mendapatkan minimal 35 kelereng hijau?
Tantangan:
Menggunakan Rumus Binomial akan memerlukan perhitungan sebanyak 66 kali
(\(k=35\) hingga \(k=100\)), yang tidak praktis.
Metode:
Untuk \(n\) yang besar, digunakan
Aproksimasi Normal ke Distribusi Binomial melalui Distribusi Sampling
Proporsi Sampel (\(\hat{P}\)).
A. Memeriksa Syarat Teorema Batas Pusat (TBP)
TBP dapat diterapkan pada proporsi jika dua kondisi ini terpenuhi:
1. \(n \cdot P \ge 10\) (\(100 \times 0.4 = 40 \ge 10\))
2.\(n \cdot (1-P) \ge 10\) (\(100 \times 0.6 = 60 \ge 10\)) Karena syarat
terpenuhi, distribusi dianggap mendekati normal.
B. Menghitung Z-Score
Proporsi sampel yang dicari adalah \(\hat{P} =
35/100 = 0.35\).Rumus Z-score untuk proporsi digunakan:\[Z = \frac{\hat{P} -
P}{\sqrt{\frac{P(1-P)}{n}}}\] • \(Z =
\frac{0.35 - 0.40}{\sqrt{\frac{0.40 \cdot 0.60}{100}}} \approx
-1.02\)
C. Menghitung Probabilitas
Nilai \(Z = -1.02\) digunakan pada
tabel Z untuk mencari area. Karena soal mencari minimal 35 (area ke
kanan), probabilitasnya adalah:
• \(P(Z \ge -1.02) = 1 - P(Z <
-1.02)\) • \(P(\ge 35 \text{ hijau}) =
1 - 0.1539 = \mathbf{0.8461}\) (atau 84.61%)
D. Kesimpulan Penting
Metode Aproksimasi Normal ini memberikan probabilitas perkiraan
(approximate probability), bukan probabilitas yang eksak. Namun, hasil
perkiraan ini sudah dianggap sangat dekat dan memadai untuk statistika
pengantar ketika berhadapan dengan ukuran sampel yang besar.
7 Referensi
• A First Course in Probability (Sheldon Ross)
• Statistics for Business and Economics (Anderson, Sweeney,
Williams)
• Dasar-dasar Probabilitas dan Statistika (oleh Walpole, Myers, dan
lainnya).
• Introduction to Mathematical Statistics (Hogg, McKean,
Craig)