DISTRIBUSI PROBABILITAS
Tugas Week 11
Adam Richie Wijaya
Detail Profil Mahasiswa
Program Studi
Sains DataUniversitas
Institut Teknologi Sains Bandung (ITSB)Mata Kuliah
Statistik DasarDosen Pengampu
BAKTI SIREGAR, M.Sc., CDS.Keahlian Utama
1 ). Pendahuluan
Probabilitas tidak hanya membantu kita memahami seberapa besar kemungkinan suatu peristiwa terjadi, tetapi juga membentuk dasar dari banyak metode statistik yang digunakan untuk pengambilan keputusan. Ketika suatu proses atau eksperimen menghasilkan berbagai hasil, kita menggunakan variabel acak untuk merepresentasikan hasil tersebut dan distribusi probabilitas untuk menjelaskan bagaimana probabilitas ditetapkan untuk setiap nilai yang mungkin. Memahami bentuk dan sifat distribusi sangat penting karena menentukan bagaimana data berperilaku, bagaimana kita menghitung probabilitas, dan bagaimana kita membuat prediksi. Dari distribusi untuk variabel kontinu hingga perilaku statistik seperti rata-rata sampel, distribusi probabilitas berfungsi sebagai inti dari statistik inferensial.
2 ). kontinu Acak
2.1 ⏩Perhitungan Probabilitas
Perhitungan probabilitas untuk kedua jenis variabel ini juga menggunakan formula yang berbeda:
Variabel Diskret: Probabilitas dihitung menggunakan formula probabilitas standar yang berhubungan dengan hasil yang dapat dihitung.
Variabel Kontinu: Probabilitas dihitung menggunakan formula yang berhubungan dengan Kurva Kepadatan (Density Curve). Area di bawah kurva kepadatan merepresentasikan probabilitas atau proporsi pengamatan dalam kisaran hasil yang berkelanjutan.
Yang terpenting, bahwa formula yang terkait dengan Distribusi Normal (Normal Distribution) akan banyak digunakan, karena Distribusi Normal itu sendiri adalah Kurva Kepadatan.
2.2 ⏩Konsep Dasar Rumus Variabel Kontinu
Untuk variabel acak kontinu \(X\) dengan Fungsi Kepadatan Probabilitas \(f(x)\), probabilitas bahwa \(X\) berada di antara dua nilai \(a\) dan \(b\) adalah:\[P(a \le X \le b) = \int_{a}^{b} f(x) dx\]
\(f(x)\) adalah Fungsi Kepadatan Probabilitas (PDF). Fungsi ini berbeda untuk setiap jenis distribusi (Normal, Uniform, Eksponensial, dll.).
\(\int_{a}^{b} f(x) dx\) (Integral) adalah cara matematis untuk menghitung luas daerah di bawah kurva \(f(x)\) dari titik \(a\) hingga \(b\). Luas inilah yang mewakili probabilitas.
2.3 ⏩Rumus Penting: Distribusi Normal
Seperti yang disebutkan dalam video, Distribusi Normal adalah distribusi kontinu yang paling umum digunakan dan memiliki rumus PDF yang sangat spesifik:
\[f(x) = \frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2}\]
\(x\): Variabel acak.
\(\mu\) (\(\text{mu}\)): Nilai rata-rata (mean) dari distribusi.
\(\sigma\) (\(\text{sigma}\)): Nilai simpangan baku (standard deviation) dari distribusi.
Rumus Praktis: Nilai \(Z\) (Standardisasi)Karena menghitung integral dari rumus Normal sangat rumit, dalam praktik, kita menggunakan Distribusi Normal Baku (Standard Normal Distribution) dengan \(\mu=0\) dan \(\sigma=1\).Kita menggunakan Nilai \(Z\) (Z-score) untuk mengubah nilai \(X\) dari distribusi normal apa pun menjadi nilai yang sesuai pada kurva standar, yang kemudian dapat dicari probabilitasnya menggunakan Tabel \(Z\):\[\text{Nilai } Z = \frac{X - \mu}{\sigma}\] Kesimpulan: Probabilitas variabel kontinu (seperti waktu, berat, atau usia) secara matematis dihitung menggunakan Integral dari fungsi probabilitas yang relevan, seperti yang ditunjukkan oleh \(\int_{a}^{b} f(x) dx\). Namun, dalam kasus yang paling sering ditemui (Distribusi Normal), kita praktis menggunakan rumus Nilai \(Z\) untuk menstandarisasi data dan mencari luas (probabilitas) di bawah kurva menggunakan tabel.
probabilitas variabel kontinu
3 ). Distribusi Sampel
3.1 ⏩Perbedaan Tiga Jenis Distribusi
- Distribusi Populasi
Data yang Digambarkan: Mengukur semua individu dalam keseluruhan populasi (misalnya, tinggi 10.000 orang).
Statistik Kunci: \(\mu\) (Rata-Rata Populasi) dan \(\sigma\) (Simpangan Baku Populasi).
- Distribusi Sampel
Data yang Digambarkan: Mengukur semua individu dalam satu sampel tunggal yang diambil dari populasi.
Statistik Kunci: \(\bar{x}\) (Rata-Rata Sampel)
- Distribusi Sampling
Data yang Digambarkan: Mengukur statistik (misalnya, nilai \(\bar{x}\)) dari berbagai sampel acak yang diambil berulang kali dari populasi yang sama.
Statistik Kunci: \(\mu_{\bar{x}}\) (Rata-Rata Rata-Rata Sampel) dan \(\sigma_{\bar{x}}\) (Standard Error).
3.2 ⏩Karakteristik Kunci Distribusi Sampling
Distribusi Sampling Rata-Rata Sampel memiliki hubungan yang jelas dengan Distribusi Populasi asalnya:
Rata-rata Rata-rata dari Distribusi Sampling (\(\mu_{\bar{x}}\)) selalu sama dengan rata-rata populasi (\(\mu\)).\[\mu_{\bar{x}} = \mu\]
Variabilitas (Standard Error) Variabilitas dalam Distribusi Sampling, yang disebut Standard Error (Kesalahan Baku) (\(\sigma_{\bar{x}}\)), selalu lebih kecil daripada simpangan baku populasi (\(\sigma\)). Ini karena nilai rata-rata cenderung kurang bervariasi daripada nilai observasi individu.
\[{\text{Standard Error ($\sigma_{\bar{x}}$)}} = \frac{\sigma}{\sqrt{n}}\]Dimana \(n\) adalah ukuran sampel.
- Bentuk Jika proses pengambilan sampel dilakukan berulang kali,
Distribusi Sampling cenderung memiliki bentuk Distribusi Normal (Kurva
Lonceng), terlepas dari bentuk populasi aslinya. Fenomena ini dijelaskan
oleh Teorema Limit Pusat (Central Limit Theorem).
Distribusi Normal (Kurva Lonceng)
3.3 ⏩Penerapan Rumus (\(Z\)-Score)
ketika menghitung probabilitas pada Distribusi Sampling, kita harus menggunakan rumus standardisasi (\(Z\)-score) yang berbeda, di mana simpangan baku populasi (\(\sigma\)) diganti dengan Standard Error (\(\sigma_{\bar{x}}\)):
Rumus \(Z\) untuk Distribusi Sampling:\[Z = \frac{\bar{x} - \mu}{\sigma/\sqrt{n}}\]
Rumus ini memungkinkan peneliti untuk menghitung probabilitas mendapatkan rata-rata sampel (\(\bar{x}\)) tertentu, yang pada akhirnya memberikan ide tentang karakteristik populasi tanpa perlu melakukan pengukuran yang luas dan mahal.
4 ). Teorema Limit Pusat (CLT)
4.1 ⏩Inti dari CLT
CLT adalah aturan fundamental yang memprediksi bentuk dari Distribusi Sampling Rata-Rata Sampel (\(\bar{x}\)).
Pernyataan Kunci: Jika Anda mengambil sampel yang cukup besar secara berulang dari suatu populasi, Distribusi Sampling rata-rata sampel akan berdistribusi Normal (Kurva Lonceng), terlepas dari bentuk populasi aslinya.
4.2 ⏩Aturan Umum Ukuran Sampel (\(n\))
Kapan \(n\) dianggap “cukup besar” agar CLT dapat diterapkan?
Aturan Praktis (Rule of Thumb): Umumnya, CLT dianggap aman untuk diterapkan ketika ukuran sampel (\(n\)) lebih besar atau sama dengan 30 (\(\mathbf{n \ge 30}\)).
Jika \(n < 30\), perkiraan Normal (berdasarkan CLT) tidak akan akurat karena variabilitas yang lebih besar.
4.3 ⏩Signifikansi
CLT sangat penting karena memungkinkan kita untuk:
Menggunakan rumus dan teknik statistik Distribusi Normal (seperti perhitungan \(Z\)-score).
Membuat kesimpulan statistik (inferensi) yang akurat tentang populasi (\(\mu\)) hanya dengan mengandalkan data sampel (\(\bar{x}\)).
population pyramid shapes
5 ). Proporsi sampel
5.1 ⏩Karakteristik Distribusi Sampling \(\hat{P}\)
Jika Distribusi Sampling Proporsi Sampel berdistribusi Normal, ia memiliki karakteristik berikut:
Rata-Rata (\(\mu_{\hat{P}}\)): Sama dengan proporsi populasi (\(P\)). \(\mu_{\hat{P}} = P\).
Standard Error (\(\sigma_{\hat{P}}\)): Simpangan baku distribusi ini. \(\sigma_{\hat{P}} = \sqrt{\frac{P(1-P)}{n}}\).
Z-Score: Rumus yang digunakan untuk menghitung probabilitas proporsi sampel adalah: \(Z = \frac{\hat{P} - P}{\sigma_{\hat{P}}}\).
5.2 ⏩Kondisi Penerapan CLT (Normalitas)
Untuk dapat mengasumsikan Distribusi Sampling \(\hat{P}\) bersifat Normal dan menggunakan rumus \(Z\), dua kondisi harus dipenuhi:
Jumlah keberhasilan (sukses) harus minimal 10: \(\mathbf{n \cdot P \ge 10}\).
Jumlah kegagalan (nonsukses) harus minimal 10: \(\mathbf{n \cdot (1-P) \ge 10}\).
Jika kedua syarat ini terpenuhi, maka kita bisa menggunakan Distribusi Normal untuk analisis probabilitas proporsi.
Tujuan Utama ini menjelaskan cara statistik digunakan untuk mengestimasi Proporsi Populasi (\(P\)) (seperti persentase orang bermata hijau) berdasarkan Proporsi Sampel (\(\hat{P}\)) yang dihitung dari sampel berulang.
6 ). Tinjauan Distribusi Sampel
6.1 ⏩Probabilitas Sederhana / Ruang Sampel
Kapan Digunakan: Ketika jumlah percobaan (\(n\)) sangat kecil (misalnya, \(n=3\)).
Metode: Mendaftar semua kemungkinan hasil individu (ruang sampel) dan menghitung total probabilitas hasil yang diinginkan.
Kelemahan: Menjadi tidak efisien dan tidak praktis seiring bertambahnya \(n\).
6.2 ⏩Distribusi Binomial
Kapan Digunakan: Ketika jumlah percobaan (\(n\)) relatif kecil hingga sedang (misalnya, \(n=5\)).
Metode: Menggunakan Rumus Binomial untuk menghitung probabilitas tepat sejumlah keberhasilan (\(k\)).
Kelemahan: Jika \(n\) sangat besar (misalnya, \(n=100\)) dan pertanyaannya adalah tentang rentang probabilitas (“minimal \(k\)”), metode ini mengharuskan penghitungan rumus binomial berulang kali (misalnya, puluhan kali), yang tidak efisien.
6.3 ⏩Distribusi Sampling Proporsi Sampel (Menggunakan CLT)
Kapan Digunakan: Ketika jumlah percobaan (\(n\)) sangat besar (misalnya, \(n=100\)).
Asumsi Kunci: Menggunakan Teorema Limit Pusat (CLT) untuk mengasumsikan Distribusi Sampling proporsi (\(\hat{P}\)) adalah Normal.
Syarat Normalitas: Harus memenuhi: \(n \cdot P \ge 10\) dan \(n \cdot (1-P) \ge 10\).
Perhitungan: Menggunakan \(Z\)-score untuk proporsi dan Tabel \(Z\).
Interpretasi: Metode ini memberikan probabilitas perkiraan (approximate) yang sangat akurat, dan merupakan cara yang paling efisien untuk memecahkan masalah probabilitas pada set data besar.
7 ). Kesimpulan
Kesimpulan utama dari pembelajaran tentang Distribusi Probabilitas adalah bahwa distribusi probabilitas berfungsi sebagai kerangka kerja dasar untuk membuat kesimpulan (inferensi) statistik mengenai populasi besar, dengan hanya mengandalkan data yang diamati dari sampel.
Pembelajaran ini bergerak dari memahami jenis data yang berbeda hingga menerapkan Teorema Limit Pusat (CLT) untuk membuat perkiraan yang efisien.
Pembelajaran ini menyimpulkan bahwa statistik bukanlah tentang mengetahui setiap data, melainkan tentang membangun model matematika (Distribusi Normal) yang dapat memperkirakan probabilitas hasil masa depan berdasarkan sampel yang terbatas, berkat Teorema Limit Pusat.
8 ). References
Ronald E. Walpole, Raymond H. Myers, Sharon L. Myers, dan Keying Ye. Probability and Statistics for Engineers and Scientists.
Sheldon Ross. A First Course in Probabilit.