PROBABILITY DISTRIBUTION (WEEK 11)

Khafizatun Nisa
Data Science undergraduate student

R Programming Data Science Statistics

1 Pendahuluan

Dalam statistik, probabilitas tidak hanya digunakan untuk menghitung peluang suatu peristiwa terjadi, tetapi juga menjadi dasar penting dalam proses pengambilan keputusan berbasis data. Ketika suatu percobaan menghasilkan berbagai kemungkinan nilai, kita menggunakan variabel acak (random variable) untuk merepresentasikan hasilnya, dan distribusi probabilitas (probability distribution) untuk menggambarkan bagaimana probabilitas tersebar pada setiap nilai yang mungkin terjadi.

Memahami bentuk dan karakteristik distribusi probabilitas sangatlah penting karena berpengaruh pada bagaimana data dianalisis, bagaimana probabilitas dihitung, serta bagaimana prediksi dan kesimpulan statistik dibuat. Mulai dari variabel acak kontinu hingga perilaku statistik dari rata-rata sampel, distribusi probabilitas merupakan inti dari analisis data dan statistik inferensial.

Pada materi ini, mahasiswa akan mempelajari konsep-konsep fundamental yang menjadi dasar dalam penerapan statistik lebih lanjut, lengkap dengan video penjelasan untuk mendukung pemahaman.
poin-poin yang di bahas:
1. Variable Acak Kontinu Variabel acak kontinu yang memiliki nilai dalam rentang tertentu dan dihubungkan dengan fungsi kepadatan probabilitas.

2. Sampel Distribusi Distribusi dari statistik sampel, seperti rata-rata atau proporsi, yang diperoleh dari pengambilan sampel berulang dari suatu populasi.

3. Teorema Limit Pusat Teorema penting dalam statistik yang menyatakan bahwa distribusi rata-rata sampel akan mendekati distribusi normal, meskipun populasi asal tidak berdistribusi normal.

4. Sample Proporsi Distribusi Distribusi probabilitas untuk proporsi suatu karakteristik dalam sampel, sering digunakan dalam survei dan penelitian kuantitatif.

2 Variable Acak Kontinu

1. Riview
Definisi Variabel Diskrit:
Variabel yang hanya dapat mengambil sejumlah nilai yang dapat dihitung (countable). Variabel diskrit hanya mengambil nilai bilangan bulat (misalnya, jumlah anak) atau nilai terhingga/terhitung (misalnya, jumlah uang di rekening bank).
contoh:jumlah kepala saat melempar koin, jumlah kelereng biru, nilai ujian.
Representasi Diskrit: Dapat disajikan menggunakan diagram batang (bar chart). Menampilkan setiap hasil sebagai entitas individual yang dapat dihitung, dan biasanya ada celah di antara setiap batang

2. Variabel Kontinu
Definisi Variabel kontinu:
Variabel yang dapat mengambil nilai numerik apa pun dalam rentang tertentu. Datanya diperoleh dengan mengukur (measuring) daripada menghitung (counting).
contoh: Berat, usia, suhu, dan jarak.
Representasi Kontinu: Dapat disajikan menggunakan histogram.Tidak memiliki celah di antara setiap batang untuk mencerminkan kesinambungan data (continuity).Variabel acak kontinu juga dapat direpresentasikan menggunakan kurva kerapatan.

2.1 Variable acak

Definisi Variabel Acak Kontinu:
Sebuah variabel acak adalah kontinu jika dapat mengambil nilai apa pun dalam sebuah interval pada garis bilangan riil.
contoh: Tinggi, waktu, suhu, usia, tekanan, dan kecepatan.
karakteristik kunci:
• Variabel mengambil nilai dalam sebuah interval, seperti \((a, b)\) atau \((-\infty, +\infty)\).
• Probabilitas pada satu titik tunggal selalu nol: \(P(X=x) = 0\).
• Probabilitas hanya bermakna dalam sebuah interval.
\[P(a \le X \le b) = \int_{a}^{b} f(x) \, dx\]

2.2 Fungsi kerapatan peluang

Definisi:
Untuk variabel acak kontinu, probabilitas diperoleh dari area di bawah kurva PDF (\(f(x)\)), bukan dari penugasan probabilitas pada titik individu.
Fungsi Kerapatan Peluang di katakan sah jika memenuhi dua kriteria utama:
• Non-negativity (Tidak Negatif): Nilai fungsi harus selalu non-negatif: \(f(x) \ge 0\) untuk semua \(x\).
• Total Area Equals 1 (Total Luas Sama dengan 1): Luas total di bawah kurva di seluruh rentang harus sama dengan 1.
\[\int_{-\infty}^{\infty} f(x) \, dx = 1\]

Interpretasi:
• Nilai \(f(x)\) yang lebih besar menunjukkan kerapatan probabilitas (probability density) yang lebih tinggi di sekitar nilai tersebut.
• Namun, perlu diingat bahwa \(f(x)\) bukanlah probabilitas; probabilitas berasal dari area di bawah kurva.

2.3 probabilitas pada suatu interval

Perhitungan Probabilitas:
Untuk menghitung probabilitas bahwa variabel acak \(X\) jatuh dalam interval \([a, b]\), Anda menggunakan integral tentu dari fungsi kepadatan probabilitas \(f(x)\).\[P(a \le X \le b) = \int_{a}^{b} f(x) \, dx\]

2.4 Fungsi distribusi Kumulatif

Definisi:
Fungsi Distribusi Kumulatif (CDF), dilambangkan \(F(z)\), didefinisikan sebagai probabilitas bahwa variabel acak \(X\) kurang dari atau sama dengan nilai \(z\).\[F(z) = P(X \le z) = \int_{-\infty}^{z} f(t) \, dt\] (Dalam contoh yang diberikan menggunakan variabel dummy \(t\) dalam integral).

Hubungan antara PDF dan CDF: PDF adalah turunan pertama dari CDF.\[f(z) = F'(z)\]

3 Distribusi Sample

1. Perbedaan Tiga Jenis Distribusi
• Distribusi Populasi (Population Distribution):
Distribusi dari seluruh individu dalam populasi. Memiliki rata-rata (\(\mu\)) dan simpangan baku (\(\sigma\)).
• Distribusi Sampel (Sample Distribution):
Distribusi data dari satu sampel tunggal yang diambil dari populasi.
• Distribusi Sampling (Sampling Distribution):
Distribusi dari statistik (misalnya, rata-rata \(\bar{x}\)) yang dibuat dari banyak sampel acak sederhana yang ditarik dari populasi yang sama.

2. Proses Pembentukan Distribusi Sampling
Distribusi sampling dibuat dengan langkah-langkah berulang:
• Ambil sampel acak sederhana pertama dengan ukuran \(n\).
• Hitung rata-rata sampel (\(\bar{x}\)) untuk sampel tersebut.
• Plot \(\bar{x}\) tersebut sebagai satu titik data pada histogram.
• Ulangi langkah 1-3 ratusan hingga ribuan kali, sehingga terbentuklah distribusi dari semua \(\bar{x}\) tersebut.

3. Karakteristik Distribusi Sampling Rata-Rata (\(\bar{x}\))
Distribusi sampling rata-rata (\(\bar{x}\)) memiliki karakteristik khusus yang berbeda dari populasi aslinya:

Kenapa Simpangan Baku Lebih Kecil? Rata-rata sampel (\(\bar{x}\)) cenderung memiliki variabilitas yang lebih kecil dibandingkan observasi individu dalam populasi

4. Teorema Limit Pusat
jika memiliki cukup data, distribusi sampling akan cenderung terdistribusi normal (berbentuk lonceng), terlepas dari bentuk distribusi populasi aslinya.

5. Tujuan dan Kegunaan Distribusi Sampling
• Kenyamanan dan Efisiensi: Memungkinkan peneliti untuk memperkirakan nilai rata-rata populasi (\(\mu\)) tanpa perlu mengukur setiap individu dalam populasi (misalnya, mengukur tinggi 8 miliar orang di bumi)
• Perhitungan Probabilitas: Memungkinkan perhitungan probabilitas untuk mendapatkan rata-rata sampel (\(\bar{x}\)) tertentu berdasarkan ukuran sampel (\(n\)) yang digunakan.

A. Untuk Distribusi Populasi
Digunakan ketika pertanyaannya mengenai individu (misalnya, probabilitas seseorang memiliki tinggi tertentu).\[Z = \frac{x - \mu}{\sigma}\]

B. Untuk Distribusi Sampling
Digunakan ketika pertanyaannya mengenai rata-rata sekelompok/sampel (misalnya, probabilitas rata-rata tinggi 10 orang kurang dari…).\[Z = \frac{\bar{x} - \mu}{\sigma_{\bar{x}}} \quad \text{atau} \quad Z = \frac{\bar{x} - \mu}{\frac{\sigma}{\sqrt{n}}}\]

4 Teorema Limit Pusat

1. Distribusi Sampling (Sampling Distribution)
• Distribusi sampling melibatkan pengambilan sampel secara berulang dari suatu populasi.
• Untuk setiap sampel, dihitung sebuah statistik, seperti rata-rata sampel (\(\bar{x}\)).
• Informasi dari statistik ini kemudian digabungkan untuk membuat suatu distribusi.

2. Definisi Teorema Batas Pusat (CLT)
Teorema Batas Pusat memprediksi bentuk dari distribusi sampling berdasarkan ukuran sampel (\(n\)):
• CLT menyatakan bahwa jika ukuran sampel (\(n\)) cukup besar, maka distribusi sampling dari rata-rata sampel akan menjadi mendekati normal (berdistribusi normal).
• Hal ini berlaku terlepas dari bagaimana bentuk distribusi populasi aslinya.

3. Aturan Ukuran Sampel
Pertanyaan utamanya adalah: seberapa besar ukuran sampel (\(n\)) agar CLT dapat diterapkan?
• Aturan umum (Rule of Thumb) yang digunakan adalah bahwa CLT aman diterapkan ketika ukuran sampel (\(n\)) lebih besar atau sama dengan 30 (\(\mathbf{n} \ge \mathbf{30}\)).
• Jika \(n < 30\), perkiraan normalitas mungkin tidak akurat karena adanya variabilitas yang lebih besar.
pengecualian:
Jika distribusi populasi aslinya sudah berdistribusi normal sejak awal, maka distribusi sampling akan normal meskipun ukuran sampelnya kecil (\(n < 30\)).

4. Kegunaan CLT
• CLT sangat berguna untuk menganalisis kumpulan data yang besar.
• Dengan mengetahui bahwa distribusi sampling akan menjadi normal, kita dapat menggunakan rumus-rumus yang berkaitan dengan distribusi normal untuk membantu menafsirkan data.

5 Sampel Proporsi

1. Konsep Dasar

Distribusi Sampling
distribusi sampling adalah distribusi yang dibuat dengan mengambil sampel berulang kali dari suatu populasi, menghitung statistik (seperti rata-rata (\(\bar{x}\)) atau proporsi (\(\hat{P}\)) dari setiap sampel, dan kemudian memplot semua nilai statistik tersebut.
proporsi
• Proporsi adalah fraksi atau rasio dari hasil yang “menguntungkan” (favorable) dibandingkan dengan total keseluruhan.
• Proporsi Populasi (\(\mathbf{P}\)): Proporsi dari seluruh populasi (nilai yang biasanya tidak diketahui) Proporsi Sampel (\(\mathbf{\hat{P}}\)): Proporsi yang dihitung dari satu sampel. Nilai \(\hat{P}\) bervariasi dari satu sampel ke sampel lainnya.

2. Distribusi Sampling Proporsi Sampel (\(\hat{P}\))
Distribusi Sampling Proporsi Sampel adalah distribusi yang tersusun dari banyak nilai \(\hat{P}\) yang diambil dari sampel-sampel yang berbeda. Distribusi ini memiliki karakteristik sebagai berikut:
Rata-rata (\(\mu_{\hat{P}}\))
Rata-rata dari semua proporsi sampel (\(\hat{P}\)) adalah sama dengan proporsi populasi (\(P\)):
\[\mathbf{\mu_{\hat{P}} = P}\] Simpangan Baku / Galat Baku (Standard Error, \(\sigma_{\hat{P}}\))
Simpangan baku dari distribusi sampling proporsi sampel disebut Galat Baku, yang dihitung dengan rumus:\[\mathbf{\sigma_{\hat{P}} = \sqrt{\frac{P \cdot Q}{n}} \quad atau \quad \sqrt{\frac{P(1-P)}{n}}}\]

\(n\): Ukuran sampel
\(P\): Proporsi populasi
\(Q\): Proporsi kegagalan (dihitung sebagai \(\mathbf{1 - P}\))

3. Syarat Penerapan Teorema Batas Pusat (TBP)
Agar distribusi sampling proporsi sampel dapat dianggap mendekati normal (sehingga dapat menggunakan tabel Z atau rumus normalisasi), dua kondisi berikut harus terpenuhi:
1. Jumlah keberhasilan dalam sampel harus cukup besar:\[\mathbf{n \cdot P \ge 10}\]
2. Jumlah kegagalan dalam sampel juga harus cukup besar:\[\mathbf{n \cdot (1-P) \ge 10}\]

4. Rumus Standardisasi (Z-Score)
Jika kondisi TBP terpenuhi, distribusi \(\hat{P}\) dapat distandardisasi menggunakan rumus Z-score untuk menghitung probabilitas, mirip dengan distribusi normal lainnya:\[\mathbf{Z = \frac{\hat{P} - P}{\sigma_{\hat{P}}} = \frac{\hat{P} - P}{\sqrt{\frac{P(1-P)}{n}}}}\]
Rumus ini memungkinkan kita untuk menggunakan tabel Z untuk menemukan area atau probabilitas yang terkait dengan nilai \(\hat{P}\) tertentu.

6 Ringkasan Sampel Distribusi

ulasan untuk menggabungkan tiga konsep statistika, yaitu Probabilitas Dasar, Distribusi Binomial, dan Distribusi Sampling Proporsi Sampel, dengan fokus pada kapan menggunakan setiap metode, terutama saat ukuran sampel (n) bertambah besar.

6.1 Probabilitas Dasar (Untuk \(n\) Kecil)

contoh
soal menggunakan \(n=3\) kali percobaan:
Soal:
Sebuah stoples berisi 200 kelereng hijau (\(P=0.4\)) dan 300 kelereng biru (\(Q=0.6\)). Jika diambil 3 kali dengan pengembalian, berapa probabilitas mendapatkan minimal 2 kelereng hijau?
Metode:
Karena \(n\) kecil, solusi dapat ditemukan dengan membuat daftar semua kemungkinan hasil dan menjumlahkan probabilitasnya:

\(P(\text{tepat 2 hijau}) = P(\text{GGB}) + P(\text{GBG}) + P(\text{BGG}) = 3 \times (0.4 \times 0.4 \times 0.6) = 0.288\).
\(P(\text{tepat 3 hijau}) = P(\text{GGG}) = 0.4 \times 0.4 \times 0.4 = 0.064\).

Hasil:
\(P(\ge 2 \text{ hijau}) = 0.288 + 0.064 = \mathbf{0.352}\).

6.2 Distribusi Binomial (Untuk n Sedang)

meningkatkan ukuran sampel menjadi \(n=5\) kali percobaan:
Soal:
Jika diambil 5 kali dengan pengembalian, berapa probabilitas mendapatkan minimal 2 kelereng hijau?
Metode:
Mendaftar semua kemungkinan hasil akan memakan waktu. Solusi yang lebih efisien adalah menggunakan Rumus Distribusi Binomial untuk menghitung probabilitas tepat \(k\) kali sukses, lalu menjumlahkannya.
\(P(\ge 2 \text{ hijau}) = P(k=2) + P(k=3) + P(k=4) + P(k=5)\).
Kesimpulan:
Distribusi Binomial digunakan untuk mencari probabilitas yang eksak pada jumlah percobaan (\(n\)) yang masih memungkinkan perhitungan.

6.3 Distribusi Sampling Proporsi Sampel: Aproksimasi Normal (Untuk \(n\) Besar)

membahas skenario dengan \(n=100\) kali percobaan:
Soal:
Jika diambil 100 kali dengan pengembalian, berapa perkiraan probabilitas mendapatkan minimal 35 kelereng hijau?
Tantangan:
Menggunakan Rumus Binomial akan memerlukan perhitungan sebanyak 66 kali (\(k=35\) hingga \(k=100\)), yang tidak praktis.
Metode:
Untuk \(n\) yang besar, digunakan Aproksimasi Normal ke Distribusi Binomial melalui Distribusi Sampling Proporsi Sampel (\(\hat{P}\)).

A. Memeriksa Syarat Teorema Batas Pusat (TBP)
TBP dapat diterapkan pada proporsi jika dua kondisi ini terpenuhi:
1. \(n \cdot P \ge 10\) (\(100 \times 0.4 = 40 \ge 10\))
2.\(n \cdot (1-P) \ge 10\) (\(100 \times 0.6 = 60 \ge 10\)) Karena syarat terpenuhi, distribusi dianggap mendekati normal.

B. Menghitung Z-Score
Proporsi sampel yang dicari adalah \(\hat{P} = 35/100 = 0.35\).Rumus Z-score untuk proporsi digunakan:\[Z = \frac{\hat{P} - P}{\sqrt{\frac{P(1-P)}{n}}}\]\(Z = \frac{0.35 - 0.40}{\sqrt{\frac{0.40 \cdot 0.60}{100}}} \approx -1.02\)

C. Menghitung Probabilitas
Nilai \(Z = -1.02\) digunakan pada tabel Z untuk mencari area. Karena soal mencari minimal 35 (area ke kanan), probabilitasnya adalah:
\(P(Z \ge -1.02) = 1 - P(Z < -1.02)\)\(P(\ge 35 \text{ hijau}) = 1 - 0.1539 = \mathbf{0.8461}\) (atau 84.61%)

D. Kesimpulan Penting
Metode Aproksimasi Normal ini memberikan probabilitas perkiraan (approximate probability), bukan probabilitas yang eksak. Namun, hasil perkiraan ini sudah dianggap sangat dekat dan memadai untuk statistika pengantar ketika berhadapan dengan ukuran sampel yang besar.

7 Referensi

• A First Course in Probability (Sheldon Ross)
• Statistics for Business and Economics (Anderson, Sweeney, Williams)
• Dasar-dasar Probabilitas dan Statistika (oleh Walpole, Myers, dan lainnya).
• Introduction to Mathematical Statistics (Hogg, McKean, Craig)