Rangkuman Informasi Akademik Mahasiswa

DISTRIBUSI PROBABILITAS

Tugas Week 11

Foto Profil Mahasiswa

Adam Richie Wijaya

Detail Profil Mahasiswa

Program Studi

Sains Data

Universitas

Institut Teknologi Sains Bandung (ITSB)

Mata Kuliah

Statistik Dasar

Dosen Pengampu

BAKTI SIREGAR, M.Sc., CDS.

Keahlian Utama

Data Science R Studio Statistika Exel Python Public Speaking

1 ). Pendahuluan

Probabilitas tidak hanya membantu kita memahami seberapa besar kemungkinan suatu peristiwa terjadi, tetapi juga membentuk dasar dari banyak metode statistik yang digunakan untuk pengambilan keputusan. Ketika suatu proses atau eksperimen menghasilkan berbagai hasil, kita menggunakan variabel acak untuk merepresentasikan hasil tersebut dan distribusi probabilitas untuk menjelaskan bagaimana probabilitas ditetapkan untuk setiap nilai yang mungkin. Memahami bentuk dan sifat distribusi sangat penting karena menentukan bagaimana data berperilaku, bagaimana kita menghitung probabilitas, dan bagaimana kita membuat prediksi. Dari distribusi untuk variabel kontinu hingga perilaku statistik seperti rata-rata sampel, distribusi probabilitas berfungsi sebagai inti dari statistik inferensial.

2 ). kontinu Acak

2.1 ⏩Perhitungan Probabilitas

Perhitungan probabilitas untuk kedua jenis variabel ini juga menggunakan formula yang berbeda:

  • Variabel Diskret: Probabilitas dihitung menggunakan formula probabilitas standar yang berhubungan dengan hasil yang dapat dihitung.

  • Variabel Kontinu: Probabilitas dihitung menggunakan formula yang berhubungan dengan Kurva Kepadatan (Density Curve). Area di bawah kurva kepadatan merepresentasikan probabilitas atau proporsi pengamatan dalam kisaran hasil yang berkelanjutan.

Yang terpenting, bahwa formula yang terkait dengan Distribusi Normal (Normal Distribution) akan banyak digunakan, karena Distribusi Normal itu sendiri adalah Kurva Kepadatan.

2.2 ⏩Konsep Dasar Rumus Variabel Kontinu

Untuk variabel acak kontinu \(X\) dengan Fungsi Kepadatan Probabilitas \(f(x)\), probabilitas bahwa \(X\) berada di antara dua nilai \(a\) dan \(b\) adalah:\[P(a \le X \le b) = \int_{a}^{b} f(x) dx\]

  • \(f(x)\) adalah Fungsi Kepadatan Probabilitas (PDF). Fungsi ini berbeda untuk setiap jenis distribusi (Normal, Uniform, Eksponensial, dll.).

  • \(\int_{a}^{b} f(x) dx\) (Integral) adalah cara matematis untuk menghitung luas daerah di bawah kurva \(f(x)\) dari titik \(a\) hingga \(b\). Luas inilah yang mewakili probabilitas.

2.3 ⏩Rumus Penting: Distribusi Normal

Seperti yang disebutkan dalam video, Distribusi Normal adalah distribusi kontinu yang paling umum digunakan dan memiliki rumus PDF yang sangat spesifik:

\[f(x) = \frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2}\]

  • \(x\): Variabel acak.

  • \(\mu\) (\(\text{mu}\)): Nilai rata-rata (mean) dari distribusi.

  • \(\sigma\) (\(\text{sigma}\)): Nilai simpangan baku (standard deviation) dari distribusi.

Rumus Praktis: Nilai \(Z\) (Standardisasi)Karena menghitung integral dari rumus Normal sangat rumit, dalam praktik, kita menggunakan Distribusi Normal Baku (Standard Normal Distribution) dengan \(\mu=0\) dan \(\sigma=1\).Kita menggunakan Nilai \(Z\) (Z-score) untuk mengubah nilai \(X\) dari distribusi normal apa pun menjadi nilai yang sesuai pada kurva standar, yang kemudian dapat dicari probabilitasnya menggunakan Tabel \(Z\):\[\text{Nilai } Z = \frac{X - \mu}{\sigma}\] Kesimpulan: Probabilitas variabel kontinu (seperti waktu, berat, atau usia) secara matematis dihitung menggunakan Integral dari fungsi probabilitas yang relevan, seperti yang ditunjukkan oleh \(\int_{a}^{b} f(x) dx\). Namun, dalam kasus yang paling sering ditemui (Distribusi Normal), kita praktis menggunakan rumus Nilai \(Z\) untuk menstandarisasi data dan mencari luas (probabilitas) di bawah kurva menggunakan tabel.


probabilitas variabel kontinu

3 ). Distribusi Sampel

3.1 ⏩Perbedaan Tiga Jenis Distribusi

  • Distribusi Populasi

Data yang Digambarkan: Mengukur semua individu dalam keseluruhan populasi (misalnya, tinggi 10.000 orang).

Statistik Kunci: \(\mu\) (Rata-Rata Populasi) dan \(\sigma\) (Simpangan Baku Populasi).

  • Distribusi Sampel

Data yang Digambarkan: Mengukur semua individu dalam satu sampel tunggal yang diambil dari populasi.

Statistik Kunci: \(\bar{x}\) (Rata-Rata Sampel)

  • Distribusi Sampling

Data yang Digambarkan: Mengukur statistik (misalnya, nilai \(\bar{x}\)) dari berbagai sampel acak yang diambil berulang kali dari populasi yang sama.

Statistik Kunci: \(\mu_{\bar{x}}\) (Rata-Rata Rata-Rata Sampel) dan \(\sigma_{\bar{x}}\) (Standard Error).

3.2 ⏩Karakteristik Kunci Distribusi Sampling

Distribusi Sampling Rata-Rata Sampel memiliki hubungan yang jelas dengan Distribusi Populasi asalnya:

  1. Rata-rata Rata-rata dari Distribusi Sampling (\(\mu_{\bar{x}}\)) selalu sama dengan rata-rata populasi (\(\mu\)).\[\mu_{\bar{x}} = \mu\]

  2. Variabilitas (Standard Error) Variabilitas dalam Distribusi Sampling, yang disebut Standard Error (Kesalahan Baku) (\(\sigma_{\bar{x}}\)), selalu lebih kecil daripada simpangan baku populasi (\(\sigma\)). Ini karena nilai rata-rata cenderung kurang bervariasi daripada nilai observasi individu.

\[{\text{Standard Error ($\sigma_{\bar{x}}$)}} = \frac{\sigma}{\sqrt{n}}\]Dimana \(n\) adalah ukuran sampel.

  1. Bentuk Jika proses pengambilan sampel dilakukan berulang kali, Distribusi Sampling cenderung memiliki bentuk Distribusi Normal (Kurva Lonceng), terlepas dari bentuk populasi aslinya. Fenomena ini dijelaskan oleh Teorema Limit Pusat (Central Limit Theorem).

    Distribusi Normal (Kurva Lonceng)

3.3 ⏩Penerapan Rumus (\(Z\)-Score)

ketika menghitung probabilitas pada Distribusi Sampling, kita harus menggunakan rumus standardisasi (\(Z\)-score) yang berbeda, di mana simpangan baku populasi (\(\sigma\)) diganti dengan Standard Error (\(\sigma_{\bar{x}}\)):

Rumus \(Z\) untuk Distribusi Sampling:\[Z = \frac{\bar{x} - \mu}{\sigma/\sqrt{n}}\]

Rumus ini memungkinkan peneliti untuk menghitung probabilitas mendapatkan rata-rata sampel (\(\bar{x}\)) tertentu, yang pada akhirnya memberikan ide tentang karakteristik populasi tanpa perlu melakukan pengukuran yang luas dan mahal.

4 ). Teorema Limit Pusat (CLT)

4.1 ⏩Inti dari CLT

CLT adalah aturan fundamental yang memprediksi bentuk dari Distribusi Sampling Rata-Rata Sampel (\(\bar{x}\)).

Pernyataan Kunci: Jika Anda mengambil sampel yang cukup besar secara berulang dari suatu populasi, Distribusi Sampling rata-rata sampel akan berdistribusi Normal (Kurva Lonceng), terlepas dari bentuk populasi aslinya.

4.2 ⏩Aturan Umum Ukuran Sampel (\(n\))

Kapan \(n\) dianggap “cukup besar” agar CLT dapat diterapkan?

  • Aturan Praktis (Rule of Thumb): Umumnya, CLT dianggap aman untuk diterapkan ketika ukuran sampel (\(n\)) lebih besar atau sama dengan 30 (\(\mathbf{n \ge 30}\)).

  • Jika \(n < 30\), perkiraan Normal (berdasarkan CLT) tidak akan akurat karena variabilitas yang lebih besar.

4.3 ⏩Signifikansi

CLT sangat penting karena memungkinkan kita untuk:

  • Menggunakan rumus dan teknik statistik Distribusi Normal (seperti perhitungan \(Z\)-score).

  • Membuat kesimpulan statistik (inferensi) yang akurat tentang populasi (\(\mu\)) hanya dengan mengandalkan data sampel (\(\bar{x}\)).


population pyramid shapes

5 ). Proporsi sampel

5.1 ⏩Karakteristik Distribusi Sampling \(\hat{P}\)

Jika Distribusi Sampling Proporsi Sampel berdistribusi Normal, ia memiliki karakteristik berikut:

  • Rata-Rata (\(\mu_{\hat{P}}\)): Sama dengan proporsi populasi (\(P\)). \(\mu_{\hat{P}} = P\).

  • Standard Error (\(\sigma_{\hat{P}}\)): Simpangan baku distribusi ini. \(\sigma_{\hat{P}} = \sqrt{\frac{P(1-P)}{n}}\).

  • Z-Score: Rumus yang digunakan untuk menghitung probabilitas proporsi sampel adalah: \(Z = \frac{\hat{P} - P}{\sigma_{\hat{P}}}\).

5.2 ⏩Kondisi Penerapan CLT (Normalitas)

Untuk dapat mengasumsikan Distribusi Sampling \(\hat{P}\) bersifat Normal dan menggunakan rumus \(Z\), dua kondisi harus dipenuhi:

  1. Jumlah keberhasilan (sukses) harus minimal 10: \(\mathbf{n \cdot P \ge 10}\).

  2. Jumlah kegagalan (nonsukses) harus minimal 10: \(\mathbf{n \cdot (1-P) \ge 10}\).

Jika kedua syarat ini terpenuhi, maka kita bisa menggunakan Distribusi Normal untuk analisis probabilitas proporsi.

Tujuan Utama ini menjelaskan cara statistik digunakan untuk mengestimasi Proporsi Populasi (\(P\)) (seperti persentase orang bermata hijau) berdasarkan Proporsi Sampel (\(\hat{P}\)) yang dihitung dari sampel berulang.

6 ). Tinjauan Distribusi Sampel

6.1 ⏩Probabilitas Sederhana / Ruang Sampel

  • Kapan Digunakan: Ketika jumlah percobaan (\(n\)) sangat kecil (misalnya, \(n=3\)).

  • Metode: Mendaftar semua kemungkinan hasil individu (ruang sampel) dan menghitung total probabilitas hasil yang diinginkan.

  • Kelemahan: Menjadi tidak efisien dan tidak praktis seiring bertambahnya \(n\).

6.2 ⏩Distribusi Binomial

  • Kapan Digunakan: Ketika jumlah percobaan (\(n\)) relatif kecil hingga sedang (misalnya, \(n=5\)).

  • Metode: Menggunakan Rumus Binomial untuk menghitung probabilitas tepat sejumlah keberhasilan (\(k\)).

  • Kelemahan: Jika \(n\) sangat besar (misalnya, \(n=100\)) dan pertanyaannya adalah tentang rentang probabilitas (“minimal \(k\)”), metode ini mengharuskan penghitungan rumus binomial berulang kali (misalnya, puluhan kali), yang tidak efisien.

6.3 ⏩Distribusi Sampling Proporsi Sampel (Menggunakan CLT)

  • Kapan Digunakan: Ketika jumlah percobaan (\(n\)) sangat besar (misalnya, \(n=100\)).

  • Asumsi Kunci: Menggunakan Teorema Limit Pusat (CLT) untuk mengasumsikan Distribusi Sampling proporsi (\(\hat{P}\)) adalah Normal.

  • Syarat Normalitas: Harus memenuhi: \(n \cdot P \ge 10\) dan \(n \cdot (1-P) \ge 10\).

  • Perhitungan: Menggunakan \(Z\)-score untuk proporsi dan Tabel \(Z\).

  • Interpretasi: Metode ini memberikan probabilitas perkiraan (approximate) yang sangat akurat, dan merupakan cara yang paling efisien untuk memecahkan masalah probabilitas pada set data besar.

7 ). Kesimpulan

  • Kesimpulan utama dari pembelajaran tentang Distribusi Probabilitas adalah bahwa distribusi probabilitas berfungsi sebagai kerangka kerja dasar untuk membuat kesimpulan (inferensi) statistik mengenai populasi besar, dengan hanya mengandalkan data yang diamati dari sampel.

  • Pembelajaran ini bergerak dari memahami jenis data yang berbeda hingga menerapkan Teorema Limit Pusat (CLT) untuk membuat perkiraan yang efisien.

  • Pembelajaran ini menyimpulkan bahwa statistik bukanlah tentang mengetahui setiap data, melainkan tentang membangun model matematika (Distribusi Normal) yang dapat memperkirakan probabilitas hasil masa depan berdasarkan sampel yang terbatas, berkat Teorema Limit Pusat.

8 ). References

  1. Ronald E. Walpole, Raymond H. Myers, Sharon L. Myers, dan Keying Ye. Probability and Statistics for Engineers and Scientists.

  2. Sheldon Ross. A First Course in Probabilit.