Tugas Week 11 ~ Probability Distribution
Naisya Hafizh Mufidah
NIM = 52250040
Dosen Pengampu = Mr. Bakti Siregar, M.Sc., CDS.
1 Introduction
1.1 Probability Distributions
Distribusi probabilitas menjelaskan bagaimana peluang tersebar pada setiap nilai yang dapat dihasilkan oleh suatu variabel acak. Setiap peristiwa akan mempunyai peluang masing-masing, dan peluang terjadinya peristiwa tersebut akan mempunyai penyebaran yang mengikuti suatu pola tertentu yang disebut dengan distribusi probabilitas. Distribusi probabilitas adalah bagaimana nilai probabilitas didistribusikan pada data. Melalui konsep ini, kita dapat memahami pola ketidakpastian, mempelajari bagaimana data muncul, serta memperkirakan kemungkinan suatu hasil.
Dalam bab ini, Kita akan mempelajari beberapa konsep utama, yaitu:
- Continuous Random, menggambarkan peluang untuk nilai-nilai pada suatu rentang.
- Sampling Distributions, yaitu pola persebaran statistik yang dihitung dari sampel.
- Central Limit Theorem, menunjukkan bahwa rata-rata sampel cenderung mendekati distribusi normal.
- Sample Proportion, banyak digunakan dalam penelitian dan analisis survei.
2 Material and Explaining
2.1 Continuous Random
2.1.1 Variabel Diskrit
Ciri-ciri
- Nilainya terpisah, bukan dalam bentuk rentang.
- Diperoleh dari proses menghitung (counting).
- Tidak harus bilangan bulat, tapi tetap jumlahnya terbatas atau bisa dihitung.
Contoh:
- Jumlah kelereng biru dalam kotak.
- Nilai ujian siswa.
- Jumlah anak dalam keluarga.
- Jumlah uang di rekening (meski ada desimal, nilainya tetap bisa dihitung satu per satu).
Note: Uang dianggap diskrit karena nilainya terbentuk dari satuan yang bisa dihitung (misalnya rupiah atau sen), meskipun ditulis dengan desimal.
2.1.2 Variabel Kontinu
Ciri-ciri
- Nilainya mengalir terus dan tidak terpisah seperti variabel diskrit.
- Didapat dari pengukuran, bukan hitungan.
- Bisa memiliki desimal sebanyak apa pun, tidak ada batasnya.
Contoh
- Berat badan ( 50 kg, 50.3 kg, 50.32 kg, dan seterusnya).
- Usia dapat dinyatakan dalam tahun, bulan, hari, jam, bahkan detik.
- Suhu tubuh atau suhu udara.
- Jarak antar dua tempat.
Prinsip penting: Karena pengukuran bisa dibuat semakin rinci, nilai variabel kontinu dianggap tidak terhitung jumlahnya, atau tak hingga.
2.1.3 Representasi Visual
Diagram Batang (Bar Chart) - Variabel Diskrit
Histogram - Variabel Kontinu
Perbedaan Utama:
2.1.4 Rumus Probabilitas
- Variabel Diskrit
Rumus-rumus Probabilitas
- \[ P(A \cap B) = P(A) \times P(B) \] - \[ P(A^c) = 1 - P(A) \]
- \[
P(A \cup B) = P(A) + P(B) - P(A \cap B)
\]
- \[
P(k) = \binom{n}{k} \times p^{k} \times (1 - p)^{n-k}
\]
- \[
\text{etc...}
\]
- Variabel Kontinu
1. Rumus Luas Persegi / Persegi Panjang \[ A = L \times W \] Digunakan saat variabel kontinu berupa pengukuran panjang dan lebar untuk menghitung luas. Kedua nilai ini bisa berupa bilangan desimal tak hingga.
2. Rumus Luas Segitiga \[ A = \frac{b \cdot h}{2} \] Digunakan ketika variabel kontinu berupa alas (b) dan tinggi (h) yang merupakan hasil pengukuran. Karena pengukuran bersifat kontinu, nilai luas juga kontinu.
3. Rumus Z-score \[ z = \frac{x - \mu}{\sigma} \]
- x = nilai pengamatan
- μ = rata-rata
- σ = simpangan baku
Rumus ini dipakai untuk mengubah nilai kontinu menjadi skala standar (Z-score)
\[etc\]
masih banyak rumus lain yang juga berbasis pengukuran kontinu seperti kecepatan, volume, waktu, suhu, jarak, dll.
2.1.5 Random Variable
Ciri-ciri utama
- Nilai bisa berada dalam suatu interval, misalnya (a,b) atau bahkan (−∞,+∞).
- Probabilitas tepat pada satu titik selalu nol: \[ P(X = x) = 0 \]
- Yang punya makna adalah probabilitas pada rentang nilai, misalnya: \[ P(a \le X \le b) = \int_{a}^{b} f(x) \, dx \] yang dihitung dari luas di bawah kurva PDF pada interval tersebut.
2.1.6 Probability Density Funct. (PDF)
Sebuah fungsi f(x) disebut PDF jika memenuhi dua syarat:
- Tidak boleh negatif \[ f(x) \ge 0 \] \[ \text{untuk semua nilai x} \]
- Luas total di bawah kurva sama dengan 1 \[ \int_{-\infty}^{\infty} f(x)\,dx = 1 \]
Keterangan:
- Nilai f(x) yang lebih besar berarti daerah itu punya kepadatan lebih tinggi.
- Tapi f(x) bukan probabilitas. Probabilitas hanya diperoleh dari luas di bawah kurva pada interval tertentu.
Contoh:
\[ f(x) = 4x^3,\quad 0 < x < 1 \]
\[ \int_{0}^{1} 4x^3\,dx = 4 \left[ \frac{x^4}{4} \right]_{0}^{1} = 1 \]
Karena luas total = 1, maka fungsi ini merupakan PDF yang valid.
2.1.7 Probability on an Interval
Untuk variabel kontinu, probabilitas dihitung dari luas di bawah kurva PDF pada rentang tertentu.
Contoh: \[ f(x) = 4x^3,\quad 0 < x < 1 \] Jika \(X\) adalah variabel acak kontinu, probabilitas bahwa \(X\) akan berada di antara dua nilai \(a\) dan \(b\) diberikan oleh integral dari fungsi kepadatan probabilitas (PDF) pada interval tersebut. Secara matematis, hal ini dinyatakan sebagai: \[ P(0.5 < X < 1) = \int_{0.5}^{1} 4x^3\, dx \]
2.1.8 Cumulative Distribution Funct. (CDF)
CDF menunjukkan peluang bahwa X bernilai kurang dari z.
Didefinisikan sebagai: \[ F(x) = P(X < x) = \int_{0}^{x} 4t^3\, dt = x^4 \]
Hubungan PDF dan CDF: \[ f(x) = F'(x) \] Hubungan \(f(x) = F'(x)\) (PDF adalah turunan dari CDF) dan kebalikannya, \(F(x) = \int f(t) dt\) (CDF adalah integral dari PDF), adalah salah satu teorema dasar dalam Probabilitas Kontinu dan secara langsung merupakan aplikasi dari Teorema Dasar Kalkulus (Fundamental Theorem of Calculus).
- PDF (\(f(x)\)): Menunjukkan tingkat perubahan (densitas) probabilitas pada setiap titik. Ini adalah laju di mana peluang terakumulasi.
- CDF (\(F(x)\)): Menunjukkan akumulasi total probabilitas dari \(-\infty\) hingga titik \(x\).
2.2 Sampling Distributions
Sampel adalah sebagian kecil dari populasi yang kita tarik kesimpulannya.
Contoh:
Populasi 10.000 orang dengan rata-rata tinggi 5’4”
- Sampel 1: Rata-rata tinggi 5’3”
- Sampel 2: Rata-rata tinggi 5’7”
- Sampel 3: Rata-rata tinggi 5’4”
2.2.1 Perbedaan Distribusi Sampel dan Distribusi Sampling
Saat kita mengambil satu sampel dari populasi, kita hanya mendapatkan satu set data dan satu nilai statistik (misalnya rata-rata). Ini disebut distribusi sampel biasa. Sampel terdiri dari nilai-nilai observasi yang diambil dari populasi, dan distribusinya mencerminkan perilaku observasi tersebut.
Tapi ketika kita mengambil banyak sampel acak dari populasi yang sama, lalu menghitung statistiknya (seperti mean) berkali-kali, kumpulan nilai statistik itu akan membentuk pola. Pola itulah yang disebut distribusi sampling. Distribusi sampling adalah distribusi probabilitas suatu statistik yang diperoleh dari sampel berulang dengan ukuran yang sama dari suatu populasi.1. Tentukan Populasi Misalnya kita ingin menganalisis tinggi badan suatu kelompok orang.
2. Ambil Satu Sampel Acak Berukuran n Contoh: ambil 5 orang secara acak dari populasi (n = 5).
3. Catat Nilai pada Sampel Ukur tinggi kelima orang tersebut.
4. Hitung Rata-rata Sampel Dapatkan nilai rata-rata tinggi dari sampel pertama.
5. Simpan Nilai Rata-rata
6. Ulangi Ambil sampel baru lagi (misal 500 atau 1000 kali), hitung rata-ratanya, dan simpan setiap hasilnya.
7. Buat Grafik dari Semua Rata-rata Sampel Nilai rata-rata yang terkumpul akan membentuk distribusi baru.
Jika jumlah sampel yang diambil banyak, distribusi nilai rata-rata sampel akan membentuk pola mirip distribusi normal. Ini terjadi karena Teorema Limit Sentral (Central Limit Theorem).2.2.2 Distribusi Populasi vs Distrribusi Sampel
2.2.3 Rangkuman
- Distribusi Sampel adalah Distribusi yang dibuat untuk mengukur setiap individu dalam sampel.
- Distribusi Populasi adalah Distribusi yang dibuat untuk mengukur setiap individu dalam populasi.
- Distribusi Sampling adalah Distribusi yang mengambil sampel berulang kali dan menghitung statistik setiap sampel individu lalu menggabungkan informasi tersebut.2.2.4 Tujuan Distribusi Sampling
Distribusi sampling berguna karena:
- Hemat waktu dan tenaga = kita tidak perlu mengukur seluruh populasi, misal 8 miliar orang.
- Memperkirakan parameter populasi = bisa menebak rata-rata atau standar deviasi populasi dari sampel.
- Menghitung probabilitas = memungkinkan analisis peluang berdasarkan data sampel.
2.2.5 Contoh Soal
- Diketahui tinggi semua orang di kanada mengikuti distribusi normal dengan rata-rata 160 cm dan simpangan baku 7 cm. Berapa probabilitas bahwa tinggi rata-rata 10 orang kanada secara acak kurang dari 157 cm?
Diketahui:
- μ = 160 cm
- σ = 7 cm
- Sampel / n = 10 orang
- x = 157
Ditanya:
P(X̄ < 157)?
Jawab:
Karena soal menanyakan rata-rata sampel (X̄) dari 10 orang, maka ini distribusi sampling, bukan distribusi populasi. Distribusi sampling memiliki:
\[ μₓ̄ = μ = 160 \]
\[ σₓ̄ = \frac{σ}{√n} \]
\[ \frac{7}{√10} \] \[ 2.213 \]
Jadi,
\[ \text{Z-score: } Z = \frac{\bar{X} - \mu}{\sigma_{\bar{X}}} = \frac{157 - 160}{2.213} \approx -1.36 \]
- Lihat tabel Z-score
- Diketahui tinggi semua orang di kanada mengikuti distribusi normal dengan rata-rata 160 cm dan simpangan baku 7 cm. Berapa proporsi semua orang yang memiliki tinggi lebih dari 170 cm?
Diketahui:
- μ = 160 cm
- σ = 7 cm
Ditanya:
Proporsi orang dengan tinggi > 170 cm?
Jawab:
Karena soal menanyakan proporsi individu yang tinggi > 170 cm, maka ini distribusi populasi.
\[ μₓ̄ = μ = 160 \]
\[ X = 170 \]
Jadi,
\[ \text{Z-score: } Z = \frac{X - \mu}{\sigma} = \frac{170 - 160}{7} \approx 1.43 \] - Lihat tabel Z-score
Note: Tabel Z-score hanya menunjukkan proporsi di sebelah kiri dari nilai Z. Untuk Z = 1,43, tabel menunjukkan 0,9236 di sebelah kiri. Namun, kita menginginkan jumlah area yang ada di sebelah kanannya nilai Z.
Ingat bahwa total area distribusi normal = 100% atau 1
Oleh karena itu,
\[ P(X > 170) = 1 - P(Z < 1.43) \]
\[ P(X > 170) = 1 - 0.9236 \approx 0.0764 \approx 7.64\% \]2.3 Central Limit Theorem
Sebelumnya, mari kita me-review kembali apa itu Distribusi Sampling.
2.3.1 Distribusi Sampling
Cara membuat Distribusi Sampling
- Ambil sampel acak sederhana dari populasi.
- Hitung (rata-rata sampel) untuk setiap sampel.
- Plot semua nilai ke dalam grafik.
- Ulangi prosesnya berkali-kali (tergantung banyaknya sampel yang diambil) untuk membentuk distribusi.
Teorema Limit Pusat menyatakan:
Jika ukuran sampel n cukup besar, maka distribusi rata-rata sampel akan mendekati distribusi normal, meskipun populasi aslinya tidak normal.
Poin-Poin Kunci:
- Berlaku untuk apapun bentuk distribusi populasi, termasuk skewed.
- Bentuk distribusi populasi tidak mempengaruhi distribusi rata-rata sampel.
- Semakin besar n, semakin mendekati normal distribusi sampling.
Ilustrasi CLT (Populasi Skewed)
- Ambil banyak sampel berulang kali dari populasi yang skewed.
- Hitung rata-rata tiap sampel.
- Sebagian besar rata-rata sampel akan mendekati rata-rata populasi (μ).
- Sampel yang jauh dari rata-rata populasi masih mungkin, tapi jarang terjadi.
- Hasil akhirnya: distribusi rata-rata sampel normal, meski populasi asli skewed.
Interpretasi
Interpretasi
2.3.2 Aturan Ukuran Sampel
Aturan Umum
- Jika ukuran sampel 30 atau lebih = kita bisa menggunakan Teorema Limit Pusat (CLT).
- Jika ukuran sampel kurang dari 30 = sebaiknya tidak menggunakan CLT, kecuali…
Kecuali Khusus:
Jika populasi sudah normal dari awal, maka distribusi rata-rata sampel tetap normal meskipun ukuran sampel kecil (<30).Masalah kalau sampelnya sedikit:
- Hasilnya bisa sangat berbeda-beda = kurang akurat
- Lebih besar kemungkinan sampel yang diambil aneh atau tidak mewakili populasi
- Sulit menaksir karakteristik populasi dengan tepat
- Distribusi rata-rata sampel tidak mengikuti bentuk normal
Manfaat CLT (Central Limit Theorem) untuk Praktik
Kenapa CLT penting kalau sampelnya cukup besar:
- Memudahkan analisis data besar
- Bisa menggunakan asumsi distribusi normal untuk menafsirkan data
- Hasil inferensi statistik jadi lebih valid
- Bisa menghitung peluang/probabilitas menggunakan distribusi normal
2.4 Sample Proportion
2.4.1 Distribusi Sampling
2.4.2 Proporsi
Rumusnya:
\[ \hat{p} = \frac{\text{jumlah hasil yang menguntungkan}}{\text{jumlah total hasil}} \] Note: \(\hat{p}\) itu untuk sampel. Sedangkan \(p\) itu untuk populasi.
Contoh
Sampel: 10 orang, 2 berwarna mata hijau \[ \hat{p} = \frac{2}{10} = 0.2 \]
Populasi: 5.000 orang, 900 berwarna mata hijau \[ p = \frac{900}{5000} = 0.18 \]
2.4.3 Distribusi Sampling Proporsi Sampel
Distribusi sampling proporsi sampel adalah distribusi dari statistik \(\hat{p}\) yang diperoleh dari pengambilan sampel acak secara berulang. Distribusi \(\hat{p}\) bisa disimulasikan: ketika banyak sampel acak diambil dari populasi dengan proporsi p, nilai-nilai \(\hat{p}\) akan membentuk distribusi yang rata-rata (center) sama dengan p, simpangan baku (standard error) \(\sqrt{p(1−p)}/n\), dan jika \(np≥10\) & \(n(1−p)≥10\), distribusinya mendekati bentuk normal.
Karakteristik Distribusi Jadi setiap kali kita ambil sampel:
- kita hitung proporsinya,
- proporsinya berubah-ubah,
- dan semua hasil itu membentuk distribusi.
Jika Distribusi Sampling dari Proporsi Sampel Normal dan mengikuti Teorema Limit Pusat. Ditemukan:
Rata-rata (Mean) \[ \mu_{\hat{p}} = p \] Artinya: rata-rata proporsi dari banyak sampel akan mendekati proporsi sebenarnya di populasi.
Standar Deviasi \[ \sigma_{\hat{p}} = \sqrt{\frac{p(1 - p)}{n}} \]
dimana:
- n = ukuran sampel
- p = proporsi hasil yang sukses
- q = 1 - p = proporsi hasil yang tidak sukses
Semakin besar n -> semakin kecil simpangan bakunya -> hasil sampel lebih stabil.
- Standarisasi dengan Z-Score
Agar proporsi sampel bisa dibandingkan dengan distribusi normal, kita melakukan standarisasi. Rumusnya:
\[ Z = \frac{\hat{p} - p}{\sqrt{\frac{p(1 - p)}{n}}} \]
2.4.4 Teorema Limit Sentral untuk Proporsi
CLT bisa diterapkan pada Distribusi Sampling Proporsi Sampel asal dua syarat ini terpenuhi:
1. \(np \ge 10\)
2. \(n(1-p) \ge 10\)
Distribusi Sampling Proporsi Sampel bisa dikaitkan dengan Distribusi Binomial dan Aturan Probabilitas.2.5 Review Sampling Distribution
2.5.1 Probability
Rumus dasar: \[ P(A) = \frac{n(A)}{n(S)} \]
- \(n(A)\)
= jumlah hasil yang mendukung kejadian A
- \(n(S)\) = jumlah seluruh kemungkinan
di ruang sampel
Contoh Soal:
Dalam sebuah toples berisi 200 kelereng hijau, dan 300 kelereng biru. jika pengambilan kelereng sebanyak 3 kali dengan pengembalian, berapa kemungkinan terambilnya paling sedikit 2 kelereng hijau?
Jawab:
Langkah penyelesaian:
Tentukan probabilitas dasar
- P(green) = 200 / 500 = 0,4 Peluang Sukses
- P(blue) = 300 / 500 = 0,6 Peluang Gagal
Ruang sampel (semua urutan 3 bola):
GGG, GGB, GBG, BGG, BBG, BGB, GBB, BBB
- Hitung tiap kejadian minimal 2 hijau
2 hijau: GGB, GBG, BGG
\[P = 0,4 × 0,4 × 0,6 = 0,096\]
Karena ada 3 kemungkinan:
\[3 × 0,096= 0,288\]
3 hijau: GGG
\[P = 0,4^3 = 0,064\]
- Total probabilitas
\[P{\text{(minimal 2 hijau)}} = 0,288 + 0,064 = 0,352\]
2.5.2 Distribusi Binomial
Untuk disebut sebagai percobaan binomial, suatu eksperimen harus memenuhi empat kondisi:
Jumlah percobaan tetap - nilai n harus tetap
Hanya dua kemungkinan hasil - sukses atau gagal
Probabilitas sukses konstan - P(sukses) sama untuk setiap percobaan
Percobaan independen - hasil satu percobaan tidak memengaruhi percobaan lainnya
Rumus:
\[ P(k) = \binom{n}{k} \times p^{k} \times (1 - p)^{n-k} \]
- n = jumlah percobaan
- k = jumlah sukses
- \(p^{k}\) = Peluang munculnya keberhasilan
- \((1-p)^{n-k}\) = Peluang munculnya kegagalan
Contoh Soal Dalam sebuah toples berisi 200 kelereng hijau, dan 300 kelereng biru. Jika sebuah kelereng diambil lima kali dengan pengembalian, berapa peluang untuk mengambil setidaknya dua kelereng hijau?
Jawab:
Soal ini bisa dijawab dengan cara yang sama pada soal sebelumnya (probabilitas). Tapi membutuhkan waktu yang lama dan harus super teliti dalam menghitung probabilitasnya. Jadi, kita akan menggunaka rumus Distribusi Binomial untuk menjawab pertanyaan ini.
Diketahui:
P(green) = 0.4
n = 5
2 hijau \[ P(k = 2) = \binom{5}{2} \times 0.4^{2} \times (1 - 0.4)^{5-2} \] \[ P(k = 2) = 0.3456 \]
3 hijau \[ P(k = 3) = \binom{5}{3} \times 0.4^{3} \times (1 - 0.4)^{5-3} \]
\[ P(k = 3) = 0.2304 \]4 hijau \[ P(k = 4) = \binom{5}{4} \times 0.4^{4} \times (1 - 0.4)^{5-4} \]
\[ P(k = 4) = 0,0768 \]5 hijau \[ P(k = 5) = \binom{5}{5} \times 0.4^{5} \times (1 - 0.4)^{5-5} \]
\[ P(k = 5) = 0.01024 \] Total: \[ 0.3456 + 0.2304 + 0.0768 + 0.01024 = 0.66304 \approx {0.663} \]
Jadi, Peluang terambilnya paling sedikit 2 kelereng hijau dalam 5 kali pengambilan dengan pengembalian adalah \(0.663\)
2.5.3 Distribusi Sampling dari Proporsi Sampel
Distribusi sampling proporsi sampel adalah distribusi dari statistik \(\hat{p}\) yang diperoleh dari pengambilan sampel acak secara berulang.
Jadi setiap kali kita ambil sampel:
- kita hitung proporsinya,
- proporsinya berubah-ubah,
- dan semua hasil itu membentuk distribusi.
Contoh soal
Dalam sebuah toples berisi 200 kelereng hijau, dan 300 kelereng biru. Jika sebuah kelereng diambil 100 kali dengan pengembalian, berapa perkiraan peluang terambilnya setidaknya 35 kelereng hijau?
Jawab:
Ada beberapa cara dalam menjawab soal ini:
- Ruang Sampel (probabilitas seperti soal pertama) = Tapi terlalu rumit dan tidak layak digunakan.
- Rumus Binomial (seperti soal kedua) = Tapi tidak layak untuk digunakan karena kita akan menghitung probabilitas dari k = 35…sampai dengan k = 100 yang akan memakan waktu cukup lama dan tidak efisien.
- Distribusi Sampling dari Proporsi Sampel Bisa digunakan. Tapi, harus memenuhi 2 syarat pada aturan Teorema Limit Pusat, yaitu:
- np ≥ 10
- n(1-p) ≥ 10
Uji coba:
Diketahui:
n = 100
p(green) = 0.4
np ≥ 10 \[100\times 0.4 = 40\] MEMENUHI
n(1-p) ≥ 10 \[ 100(1 - 0.4) = 60 \] MEMENUHI
Berarti untuk menjawab soal ini Teorema Limit Pusat bisa digunakan dengan standardisasi.
Jadi,
\[ Z = \frac{\hat{p} - p}{\sqrt{\frac{p(1 - p)}{n}}} \]
Dengan:
- \(\hat{p}\) = 35/100 = 0.35
- p = 0.4
- n = 100
\[ Z = \frac{{0.35} - 0.4}{\sqrt{\frac{0.4(1 - 0.4)}{100}}} \] \[ Z = -1.02 \] Lihat pada tabel Z-score
Luas kiri = \(0,1539\)
Luas kanan = \(1 - 0,1539\) = \(0,8461 \approx 84.6\%\)