Tugas Week 11 ~ Probability Distribution
VANESSA ZIBA ARDELIA
DATA SCIENCE 25 – ITSB
Dosen Pengampu : Bakti Siregar, M.Sc., CDS.
Mata Kuliah : Statistika Dasar
1 Pendahuluan
Distribusi probabilitas adalah suatu pola atau fungsi yang menggambarkan bagaimana peluang (probability) dari setiap kemungkinan nilai suatu variabel acak tersebar. Dengan kata lain, distribusi probabilitas menunjukkan seberapa besar kemungkinan sebuah hasil muncul dalam suatu percobaan acak.
Distribusi ini membantu kita memahami:
- nilai apa saja yang dapat muncul.
- seberapa sering atau seberapa besar peluang kemunculannya.
- bagaimana bentuk sebaran data tersebut (merata, miring, simetris, dsb).
Distribusi probabilitas dibagi menjadi dua jenis utama:
Distribusi Probabilitas Diskrit Untuk variabel acak yang nilai-nilainya dapat dihitung (contoh: jumlah anak, jumlah pelanggan, lemparan dadu).
Distribusi Probabilitas Kontinu Untuk variabel acak yang nilainya berupa rentang tak terhingga (contoh: tinggi badan, waktu, kecepatan).
Contoh distribusi yang sering digunakan:
- Distribusi Binomial
- Distribusi Poisson
- Distribusi Normal
- Distribusi Uniform
2 Rangkuman Materi
2.1 Countinous Random
Variabel Diskrit vs. Kontinu
Variabel acak kontinu adalah variabel yang mengambil nilai dalam interval real, memiliki PDF yang terintegrasi menjadi 1, dan probabilitas suatu kejadian dihitung sebagai luas di bawah kurva PDF. Distribusi kontinu penting termasuk uniform, exponential, dan normal, serta memiliki karakteristik yang dianalisis menggunakan integral seperti mean, varian, dan CDF.
Definisi Utama
- Variabel diskrit: hanya dapat mengambil jumlah nilai yang dapat dihitung.
- Variabel kontinu: dapat mengambil sebarang nilai numerik dalam rentang tertentu.
Variabel Diskrit
Karakteristik
- Nilai dapat dihitung (terbatas).
- Data diperoleh dengan menghitung, bukan mengukur.
Contoh:
- Jumlah sisi atas pada lemparan koin.
- Jumlah kelereng biru yang diambil dari kotak.
- Nilai ujian siswa.
- Jumlah anak dalam sebuah keluarga (0,1,2,3,4,dst..).
Catatan penting: Nilai diskrit tidak harus bilangan bulat; misalnya:
- Saldo rekening bank: $420,69
- Nilai ujian: 5 dari 10
Variabel Kontinu
Karakteristik
- Dapat mengambil sebarang nilai dalam rentang (tak terhingga, tidak dapat dihitung).
- Data diperoleh dengan mengukur, bukan menghitung.
Contoh:
- Berat: 150 pon → 150,305482…pon.
- Usia: 23 tahun → 23,5 tahun → 23 tahun 6 bulan 2 hari 3 detik… (tak berakhir).
- Temperatur.
- Jarak
Representasi Visual
Variabel Diskrit – Diagram Batang
- Setiap batang mewakili entitas terpisah.
- Ada celah di antara batang, menandakan tidak ada nilai di antara mereka.
- Cocok untuk menampilkan hasil yang dapat dihitung.
Variabel Kontinu – Histogram
- Tidak ada celah antara batang, mencerminkan kontinuitas data.
- Dapat memplot setiap nilai terukur di mana saja.
- Mengakomodasi tak terbatasnya kemungkinan hasil.
- Kurva kepadatan juga dapat menggambarkan variabel kontinu.
Rumus Probabilitas
1. Untuk Variabel Diskrit
- Menggunakan rumus probabilitas diskrit (yang telah dibahas sebelumnya).
- Menghitung peluang untuk hasil yang dapat dihitung secara spesifik.
2. untuk Variabel Kontinu
- Menggunakan rumus kurva kepadatan.
- Luas di bawah kurva kepadatan mewakili probabilitas.
- Rentang hasil bersifat kontinu.
- Distribusi normal adalah contoh umum kurva kepadatan.
Ringkasan Utama
| Aspek | Variabel Diskrit | Variabel Kontinu |
|---|---|---|
| Pengumpulan Data | Menghitung | Mengukur |
| Nilai | Dapat dihitung, terbatas | Tidak dapat dihitung, tak terbatas |
| Visualisasi | Diagram batang dengan celah | Histogram tanpa celah |
| Probabilitas | Rumus diskrit | Rumus kurva kepadatan |
| Contoh | Lempar koin, nilai ujian | Berat, usia, temperatur |
2.1.1 Variabel Acak
Sebuah variabel acak disebut kontinu jika dapat
mengambil nilai apa pun dalam suatu interval pada garis bilangan
real.
Contoh variabel kontinu: tinggi badan, waktu, temperatur, usia,
tekanan, kecepatan.
Karakteristik utama:
Variabel dapat mengambil nilai dalam interval seperti \((a, b)\) atau bahkan \((-\infty, +\infty)\).
Probabilitas pada satu titik selalu nol: \[ P(X = x) = 0 \]
Probabilitas hanya bermakna pada interval: \[ P(a \le X \le b) = \int_{a}^{b} f(x)\, dx \]
2.1.2 Fungsi Kerapatan Probabilitas (PDF)
Sebuah fungsi \(f(x)\) disebut Probability Density Function (PDF) jika memenuhi:
1. Tidak Negatif = \[ f(x) \ge 0 \quad \forall x \] 2. Luas Total = 1
\[ \int_{-\infty}^{\infty} f(x)\, dx = 1 \]
2.1.3 Interpretasi:
- Nilai \(f(x)\) yang lebih besar menunjukkan kepadatan probabilitas yang lebih tinggi di sekitar nilai itu.
- Namun, \(f(x)\)
bukan probabilitas!
Probabilitas berasal dari luas di bawah kurva.
Contoh PDF
Misalkan \(f(x) = 3x^2\) pada interval \([0,1]\).
Validasi:
\[ \int_{0}^{1} 3x^2\, dx = 1 \]
2.1.4 Probabilitas pada Suatu Interval
Untuk menghitung probabilitas pada interval: \[ P(a \le X \le b) = \int_{a}^{b} 3x^2\, dx \]
Contoh: \[ P(0.5 \le X \le 1) \]
2.1.5 Fungsi Distribusi Kumulatif (CDF)
CDF didefinisikan sebagai: \[ F(x) = P(X \le x) = \int_{0}^{x} 3t^2\, dt = x^3 \]
Hubungan PDF dan CDF \[ f(x) = F'(x) \]
2.2 Sampling Distributions
Sampling distribution adalah distribusi dari statistik yang diperoleh dari pengambilan sampel berulang. Mean dari sampling distribution sama dengan mean populasi, sedangkan standar deviasinya adalah standar error. Dengan ukuran sampel cukup besar, sampling distribution of the mean menjadi normal sesuai Central Limit Theorem. Konsep ini mendasari perhitungan probabilitas, interval kepercayaan, dan uji hipotesis.
Distribusi sampel: Mengambil satu sampel dari populasi dan menganalisis data dari sampel tersebut. Distribusi sampel: Distribusi dari statistik (misalnya rata‑rata) yang dihasilkan dari banyak sampel acak sederhana yang diambil dari populasi yang sama.
Contoh Skenario
Populasi: 10.000 orang dengan tinggi rata‑rata 5’4”.
Sampel pertama memberi rata‑rata 5’3”.
Sampel kedua memberi rata‑rata 5’7”.
Rata‑rata sampel tidak selalu sama dengan rata‑rata populasi karena variabilitas sampel.
Membuat Distribusi Sampel
Proses Langkah‑demi‑Langkah
Identifikasi populasi yang ingin dipelajari (misalnya tinggi badan).
Ambil sampel acak dengan ukuran (n) (contoh: (n = 30)).
Ukur tiap individu dalam sampel.
Hitung rata‑rata sampel \((\bar{x})\) untuk sampel tersebut.
Buat distribusi frekuensi dengan memplot nilai \((\bar{x})\).
Ulangi proses tersebut ratusan atau ribuan kali.
Gabungkan semua rata‑rata sampel untuk memperoleh distribusi sampel.
Intuisi Kunci
Dengan cukup banyak data, distribusi sampel akan menjadi berbentuk normal berkat Teorema Limit Tengah.
Distribusi Populasi vs. Distribusi Sampel
Distribusi Populasi
- Mean: μ
- Standar deviasi: σ
- Notasi: X ~ N (μ, σ )
- Rumus standardisasi:
\[ Z = \frac{X - \mu}{\sigma} \]
Distribusi Sampel
- Mean: \[ \mu_{\bar{x}} = \mu \]
- Standar deviasi: \[ \sigma_{\bar{x}} =\frac{\sigma}{\sqrt{n}} \]
- Notasi: \[ \sigma_{\bar{x}} = \frac{\sigma}{\sqrt{n}} \]
- Rumus standardisasi: \[ Z = \frac{X - \mu}{\dfrac{\sigma}{\sqrt{n}}} \]
Perbedaan Utama
| Fitur | Distribusi Populasi | Distribusi Sampel |
|---|---|---|
| Penyebaran | Variabilitas lebih besar | Penyebaran lebih kecil |
| Komposisi | Observasi individu | Rata-rata sampel (averages) |
| Variabilitas | Lebih tinggi | Lebih rendah |
Aplikasi Praktis
- Efisiensi: Mengukur 8 miliar orang tidak realistis.
- Biaya: Memerlukan sumber daya jauh lebih sedikit.
- Waktu: Proses jauh lebih cepat dibandingkan mengukur seluruh populasi.
- Perhitungan probabilitas: Memungkinkan penentuan peluang hasil sampel tertentu.
Soal Latihan 1
Diberikan: Tinggi badan warga Kanada berdistribusi normal dengan rata‑rata μ = 160 cm, σ = 7 cm Pertanyaan: Berapa probabilitas bahwa rata‑rata tinggi 10 warga Kanada acak kurang dari 157 cm?
Penyelesaian:
Parameter:
- \(\mu = 160 \text{ cm}\)
- \(\sigma = 7 \text{ cm}\)
- \(n = 10\)
- Need to find: \(P(\bar{X} < 157)\)
Standard error:
\[ \sigma_{\bar{x}} = \frac{\sigma}{\sqrt{n}} = \frac{7}{\sqrt{10}} = 2.21\ \text{cm} \]
Standarisasi: \[ Z = \frac{157 - 160}{2.21} = -1.36 \]
Cari Probabilitas: \(P(Z < -1.36) = 0.0869\)
Jawaban: 0.0869 atau 8.69%
Soal Latihan 2
Pertanyaan: Berapa proporsi seluruh warga Kanada yang memiliki tinggi lebih dari 170 cm?
Penyelesaian:
Gunakan distribusi populasi (bukan distribusi sampel).
Standarisasi: \[ Z = \frac{170 - 160}{7} = 1.43 \]
Cari area :
\(P(Z < 1.43) = 0.9236\)
\(P(Z > 1.43) = 1 - 0.9236 = 0.0764\)
Jawaban: 0.0764 atau 7.64%
2.3 Central Limit Theorem
Central Limit Theorem menyatakan bahwa rata-rata sampel akan mengikuti distribusi normal ketika ukuran sampel besar, tanpa mempedulikan bentuk distribusi populasi. Mean sampling distribution sama dengan mean populasi, sedangkan deviasi standarnya adalah \(\sigma / \sqrt{n}\) CLT memungkinkan penggunaan distribusi normal, perhitungan probabilitas, dan analisis inferensial pada hampir semua bidang statistik. Konsep ini dijelaskan dalam berbagai buku statistik seperti Ross, Casella–Berger, Rice, dan DeGroot.
Distribusi Sampling
Distribusi sampling diperoleh dengan mengambil banyak sampel acak dari populasi, menghitung statistik (misalnya rata‑rata) untuk tiap sampel, lalu menggabungkannya menjadi satu distribusi.
- Langkah‑langkah membuat distribusi sampling rata‑rata:
- Ambil sampel acak sederhana dari populasi.
- Hitung rata‑rata sampel tersebut.
- Plot nilai rata‑rata pada grafik.
- Ulangi proses dengan banyak sampel.
Distribusi sampling terbentuk dari pengambilan sampel berulang‑ulang dan pemetaan statistik yang dihitung.
Teorema Limit Tengah
CLT menyatakan bahwa jika ukuran sampel cukup besar, distribusi sampling rata‑rata akan mendekati distribusi normal, tidak tergantung bentuk distribusi populasi asal.
Poin Penting
- Tidak tergantung bentuk distribusi populasi.
- Jika ukuran sampel cukup besar, distribusi sampling menjadi normal.
Contoh Visual
Bahkan bila populasi sangat miring (skewed), distribusi sampling rata‑rata menjadi normal ketika ukuran sampelnya cukup besar.
Persyaratan Ukuran Sampel
Aturan praktis:
CLT dapat diterapkan dengan aman bila n ≥ 30 (atau ukuran yang dianggap “cukup besar”)
Mengapa Ukuran Sampel Penting?
- Sampel kecil (n<30):
- Variabilitas tinggi.
- Ketidakpresisian dan keandalan rendah
- Risiko mendapatkan sampel yang tidak biasa
- Distribusi sampling tidak normal
Pengecualian
Jika populasi sudah berdistribusi normal, distribusi sampling juga normal meski n kecil.
| Kondisi | Distribusi Sampling |
|---|---|
| n ≥ 30 (apapun distribusi populasi) | Mendekati normal |
| Populasi normal (apapun n) | Normal |
| n < 30 dan populasi tidak normal | Tidak normal |
Panduan Notasi \(\bar{x} \\\mu \\n\)
Penerapan Praktis
CLT memudahkan analisis data besar karena kita dapat:
- Mengasumsikan distribusi sampling normal.
- Menggunakan rumus‑rumus distribusi normal.
- Menafsirkan data statistik dengan lebih tepat.
Contoh Soal Latihan
Pertanyaan: Kondisi apa yang menghasilkan distribusi sampling yang kira‑kira normal?
Jawaban Benar:
n≥30 (tanpa memperhatikan bentuk populasi). Populasi sudah normal (meskipun n kecil).
Jawaban Salah:
n<30 dan populasi tidak normal.
2.4 Sampling Proportions
Sampling Proportions adalah proporsi yang dihitung dari sebuah sampel untuk memperkirakan proporsi populasi. Proporsi sampel dilambangkan dengan: \(\hat{p} = \frac{x}{n}\)
di mana:
- \(x\) = jumlah kejadian “sukses”
dalam sampel
- \(n\) = ukuran sampel
Menurut Agresti & Finlay (2009), proporsi sampel merupakan statistik yang paling umum digunakan untuk menganalisis data kategorik karena \(\hat{p}\) adalah unbiased estimator dari proporsi populasi \(p\).
Nilai harapan proporsi sampel memenuhi: \(E(\hat{p}) = p\)
Hal ini berarti bahwa rata-rata proporsi sampel dari banyak sampel acak akan sama dengan nilai proporsi populasi.
Distribusi Sampling Proporsi Sampel
Memahami Distribusi Sampling
Distribusi sampling terbentuk dengan:
- Mengambil sampel berulang‑ulang dari populasi.
- Menghitung statistik misalnya \(\bar{x} \text{ or } \hat{p}\) untuk tiap sampel.
- Menyusun semua statistik yang dihitung pada sebuah grafik, membentuk distribusi.
Distribusi sampling memperlihatkan bagaimana statistik sampel bervariasi di antara sampel‑sampel yang diambil dari populasi yang sama.
Proporsi dalam Statistik
Proporsi menggambarkan fraksi hasil yang menguntungkan dibandingkan total keseluruhan.
Contoh variabel yang dapat diukur:
- Tinggi Badan
- Berat Badan
- Warna Mata
- Nilai Test
Rumus menghitung proporsi: \(\text{Proportion} = \frac{\text{Number of favorable outcomes}}{\text{Total number of outcomes}}\)
Contoh perhitungan:
Sampel: 2 orang dari 10 memiliki mata hijau → \(\hat{p} = \frac{2}{10} = 0.2\)
Populasi: 900 orang dari 5.000 memiliki mata hijau → \(p = \frac{900}{5000} = 0.18\)
Simbol:
- Proporsi populasi: (p)
- Proporsi sampel:\(\hat{p}\)
Membuat Distribusi Sampling: \(\hat{p}\)
Saat secara berulang mengambil sampel dan menghitung \(\hat{p}\) untuk tiap sampel:
- Setiap sampel menghasilkan nilai \(\hat{p}\) yang berbeda (mis. 0,21; 0,19; 0,17).
- Variasi ini muncul karena probabilitas dan pengambilan sampel acak.
- Menggambar semua nilai \(\hat{p}\) membentuk distribusi sampling proporsi sampel.
Sifat‑sifat Distribusi Sampling \(\hat{p}\)
Seperti distribusi lain, distribusi sampling ini memiliki:
Mean (rata‑rata):\(\mu_{\hat{p}}\)
Standard deviation (deviasi standar):\(\sigma_{\hat{p}}\)
Syarat‑syarat Teorema Limit Tengah
Jika distribusi sampling mendekati normal dan memenuhi Teorema Limit Tengah, tiga hal penting muncul:
- Mean distribusi sampling
- Nilai rata‑rata semua proporsi sampel = proporsi populasi ((p))
- Standard deviation distribusi sampling
- \[ \sigma_{\hat{p}} = \sqrt{\frac{pq}{n}} \]
- Dimana :
- = ukuran sampel
- = proporsi keberhasilan
- (q = 1-p) = proporsi kegagalan
- Standardisasi untuk menghitung z‑score
\[z = \frac{\hat{p} - p}{\sigma_{\hat{p}}} = \frac{\hat{p} - p}{\sqrt{\frac{p(1-p)}{n}}}\]
Dengan nilai z ini, kita dapat menggunakan tabel z untuk inferensi.
Aturan Penerapan Teorema Limit Tengah
| Jenis Distribusi | Syarat agar TLT dapat diterapkan |
|---|---|
| Rata-rata Sampel \(\bar{x}\) | \(n \ge 30\) atau populasi berdistribusi hampir normal |
| Proporsi Sampel \(\hat{p}\) |
Harus memenuhi dua kondisi: 1. \(n \times p \ge 10\) 2. \(n \times (1 - p) \ge 10\) |
2.5 Review Sampling Distribution
Review Sampling Distribution membahas kembali konsep pembentukan distribusi statistik (seperti proporsi dan jumlah sukses) dari sampel-sampel acak. Untuk n kecil, ruang sampel atau distribusi binomial digunakan. Untuk n menengah, rumus binomial digunakan secara langsung. Untuk n besar, proporsi sampel \(\hat{p}\) mendekati distribusi normal jika syarat CLT terpenuhi. Konsep-konsep ini dijelaskan dalam berbagai literatur statistik seperti Montgomery & Runger, Devore, Rice, dan Casella–Berger.
Tinjauan Probabilitas: Distribusi Binomial & Proporsi Sampel
Contoh 1: Menggambar Kelereng dengan Penggantian
Diberikan: Jar berisi 200 kelereng hijau dan 300 kelereng biru (total 500 kelereng).
Pertanyaan: Jika kelereng diambil 3 kali dengan penggantian, berapa peluang mendapatkan setidaknya dua kelereng hijau?
Penyelesaian:
Peluang sukses (kelereng hijau) = \(p = \frac{200}{500} = 0.4\)
Peluang gagal (kelereng biru) = \(1 - p = \frac{300}{500} = 0.6\)
Ruang sampel untuk 3 tarikan:
| Outcome | Pattern | Probability |
|---|---|---|
| GGB | Hijau, Hijau, Biru | \(0.4 \times 0.4 \times 0.6 = 0.096\) |
| GBG | Hijau, Biru, Hijau | \(0.4 \times 0.6 \times 0.4 = 0.096\) |
| BGG | Biru, Hijau, Hijau | \(0.6 \times 0.4 \times 0.4 = 0.096\) |
| GGG | Hijau, Hijau, Hijau | \(0.4 \times 0.4 \times 0.4 = 0.064\) |
Setidaknya dua kelereng hijau berarti:
Tepat 2 kelereng hijau:
\(3 \times 0.096 = 0.288\)Tepat 3 kelereng hijau:
\(0.064\)
Jawaban akhir:
> \(0.288 + 0.064 = 0.352\)
atau 35.2%
Contoh 2: Menggunakan Rumus Binomial
Saat metode ruang sampel menjadi tidak praktis (≥5 percobaan), gunakan rumus binomial:
Rumus peluang untuk mendapatkan \(k\) keberhasilan adalah:
\[ P(k \text{ successes}) = \binom{n}{k} p^{k} (1 - p)^{\,n-k} \]
Skenario baru: 5 pengambilan dengan penggantian, peluang mendapatkan setidaknya 2 kelereng hijau.
Pendekatan penyelesaian: \(P(\ge 2) = P(2) + P(3) + P(4) + P(5)\)
Dengan:
- \(n = 5\) (jumlah percobaan)
- \(p = 0.4\) (peluang sukses / kelereng hijau)
- \(k = 2, 3, 4, 5\) (jumlah keberhasilan)
Hasil perhitungan: \(0.6634 \text{ atau } 66.34\%\)
Contoh 3: Menggunakan Distribusi Sampel
Saat kedua metode di atas tidak praktis (≥100 percobaan), pakai distribusi sampel proporsi.
Skenario: 100 tarikan, hitung peluang setidaknya 35 hijau.
Langkah 1: Periksa kondisi Teorema Limit Tengah (CLT)
\(n \times p \ge 10\)
\(100 \times 0.4 = 40 \checkmark\)\(n \times (1-p) \ge 10\)
\(100 \times 0.6 = 60 \checkmark\)
Step 2: Terapkan Rumus Standardisasi
Rumus standardisasi:
\[ z = \frac{\hat{p} - p}{\sigma_{\hat{p}}} \]
Dengan:
- \(\hat{p} = 0.35\) (proporsi
sampel)
- \(p = 0.4\) (proporsi
populasi)
- \[ \sigma_{\hat{p}} = \sqrt{\frac{p(1-p)}{n}}= \sqrt{\frac{0.4 \times 0.6}{100}}= 0.049 \]
Perhitungan: \(z = \frac{0.35 - 0.4}{0.049} = -1.02\)
Step 3: Cari Probabilitas
Luas di kiri \(z = -1.02\): 0.1539
Luas di kanan (yang dicari): \(1 - 0.1539 = 0.8461\)
Jawaban akhir:
\(\mathbf{0.8461 \text{ atau } 84.61\%}\)
Ringkasan Kunci
Metode ruang sampel: Cocok untuk jumlah percobaan kecil (≤3).
Rumus binomial: Cocok untuk jumlah percobaan menengah (4‑30).
Distribusi sampel: Cocok untuk jumlah percobaan besar (≥30) bila syarat CLT terpenuhi.
Catatan penting: Menggunakan CLT memberi probabilitas aproksimasi, bukan nilai eksak.
3 Referensi
[1] Rice, J. A. (2007). Mathematical Statistics and Data Analysis (3rd ed.). Thomson Brooks/Cole.
[2] Casella & Berger (2002). Statistical Inference.
[3] Montgomery & Runger (2014). Applied Statistics and Probability for Engineers.
[4] DeGroot & Schervish (2012). Probability and Statistics.
[5] Ross, S. (2014). Introduction to Probability Models.
[6] Agresti, A., & Finlay, B. (2009). Statistical Methods for the Social Sciences (4th ed.). Pearson.
[7] Devore, J. L. (2015). Probability and Statistics for Engineering and the Sciences.