Tugas week 11 ~ Probability Distribution

ITSB

Syafif Azmi Lontoh (52250060)

Student Major in Data Science


1 Continuos Random

perbedaan variabel acak diskrit dan kontinu, cara menampilkan distribusi probabilitasnya, dan menghubungkannya dengan konsep density curve serta distribusi normal dalam statistik.

1.1 Diskrit vs kontinu

Variabel diskrit hanya bisa mengambil nilai yang dapat dihitung, misalnya jumlah anak, jumlah kepala saat melempar koin, jumlah kelereng biru, saldo rekening (dalam satuan sen), atau skor ujian tertentu.

Variabel kontinu dapat mengambil sembarang nilai real pada suatu selang, datanya diperoleh dengan mengukur, contohnya umur, berat badan, suhu, dan jarak, yang secara teori bisa dipecah hingga banyak desimal tanpa batas.

1.2 Representasi distribusi probabilitas

Distribusi probabilitas variabel diskrit biasanya ditampilkan dengan bar chart, di mana tiap batang mewakili satu kemungkinan nilai yang terpisah dan biasanya diberi jarak antar batang untuk menegaskan ketidakkontinuan.

Distribusi probabilitas variabel kontinu direpresentasikan dengan histogram tanpa celah atau dengan kurva kerapatan (density curve), karena kemungkinan nilai bersifat kontinu dan tidak terputus antara satu nilai dan nilai lain.

1.3 Rumus

  • Continuos Random: Untuk variabel kontinu, peluang di satu titik selalu nol, \(P(X=x)=0\), dan peluang hanya bermakna untuk selang, misalnya \(P(a≤X≤b)\).

  • PDF dan perhitungan peluang: Probabilitas dinyatakan melalui fungsi kerapatan peluang \(f(x)\) (Probability Density Function/PDF), dengan syarat f ( x ) 0 dan f ( x ) d x = 1

  • Peluang pada selang dihitung dengan integral, misalnya P ( a X b ) = a b f ( x ) d x

  • Fungsi distribusi kumulatif (CDF): didefinisikan F ( x ) = P ( X x ) = x f ( t ) d t

1.4 Hubungan dengan distribusi normal

Distribusi normal adalah salah satu contoh penting density curve untuk variabel acak kontinu, sehingga peluang suatu rentang nilai pada variabel normal diperoleh dari luas di bawah kurva normal pada rentang tersebut.

2 Sampling Distribution

Sampling distribution muncul ketika dari satu populasi diambil banyak sampel acak (ukuran sama), lalu untuk tiap sampel dihitung suatu statistik (misalnya mean \(\bar{X}\) ); kumpulan semua nilai statistik itu membentuk distribusi baru.

Simpangan baku dari sampling distribution suatu statistik disebut standard error; misalnya untuk mean, standard error adalah σ n .

2.1 Sampling distribution of \(\bar{x}\)

Untuk membuat sampling distribution dari mean:​​

  1. Tentukan populasi (misalnya tinggi manusia).

  2. Ambil sampel acak berukuran n, ukur semua, hitung \(\bar{x}\).

  3. Ulangi langkah di atas ratusan/ribuan kali, plot semua nilai \(\bar{x}\) pada histogram.

  • Rata‑rata sampling distribution sama dengan rata‑rata populasi: μ X ¯ = μ .

  • Simpangan baku sampling distribution (standard error) lebih kecil: σ X ¯ = σ n .

  • Jika data cukup banyak, sampling distribution cenderung normal (Central Limit Theorem).

2.2 Contoh 1: Rata-Rata Tinggi Orang Kanada

Tinggi semua orang Kanada berdistribusi normal dengan mean 160 cm dan simpangan baku 7 cm. Ditanya peluang rata-rata tinggi 10 orang Kanada yang diambil secara acak (n = 10) kurang dari 157 cm, yaitu P ( X ¯ < 157 ) .

  • Mean sampling distribution : μ X ¯ = 160

  • Standard error : σ X ¯ = 7 10 2.21

  • Hitung nilai z untuk \(\bar{x}\) : z = X ¯ μ X ¯ σ X ¯ = 157 160 2.21 1.36

  • Interpretasi: hanya sekitar 8–9% sampel ukuran 10 yang akan punya rata‑rata kurang dari 157 cm, kalau benar populasi punya μ=160 dan σ=7

3 Central Limit Theorem

CLT: jika ukuran sampel n cukup besar, maka distribusi rata‑rata sampel \(\bar{x}\) akan mendekati distribusi normal, tidak peduli bentuk distribusi populasi (bisa miring, uniform, dsb.).

3.1 Aturan praktis ukuran sampel (rule of thumb)

Aturan umum: CLT dianggap aman digunakan jika n≥30; pada titik ini bentuk sampling distribution of \(\bar{x}\) biasanya sudah cukup mendekati normal.

Jika n<30 dan populasi tidak normal (misalnya sangat skewed), distribusi \(\bar{x}\) belum tentu normal, sehingga asumsi normalitas untuk \(\bar{x}\) bisa keliru.

3.2 Kasus khusus: populasi sudah normal

Jika populasi dari awal berdistribusi normal, maka untuk sembarang n, mean sampel \(\bar{x}\) tetap berdistribusi normal dengan μ X¯ = μ σ X¯ = σ n

Karena itu, banyak buku/dosen mengizinkan pakai CLT (normal) meskipun sampel kecil, asalkan eksplisit diketahui populasi normal; tetapi secara praktik, sampel besar tetap lebih disukai untuk meningkatkan presisi estimasi.

3.3 Rumus penting yang dipakai

  • Mean sampling distribution: μ X¯ = μ

  • Standard Error Mean : σ X¯ = σ n

  • Z-Score untuk Mean Sampel : z = x¯ μ / σ n

Rumus ini dipakai untuk menghitung probabilitas \(\bar{x}\) berada di atas/bawah nilai tertentu dengan tabel normal.

3.4 Contoh soal 1: hanya CTL dan parameter

Misal suatu populasi punya mean μ=50 dan simpangan baku σ=8. Diambil sampel acak berukuran n=36. Tentukan mean dan standard error dari distribusi \(\bar{x}\) dan jelaskan apakah \(\bar{x}\) bisa dianggap normal.

  • Karena n=36≥30, maka berdasarkan CLT, \(\bar{x}\) dapat dianggap berdistribusi normal.

  • Mean sampling distribution: μ\(\bar{x}\) =μ=50

  • Standard error: σ X¯ = σ n = 8 36 = 8 6 1.33

Jadi, \(\bar{x}\) ∼N(50,1,33) secara aproksimasi.

3.5 Contoh 2: pakai z score dan mean sampel

Misal waktu proses suatu mesin punya μ=12 menit dan σ=3 menit. Diambil sampel acak 36 proses (n=36). Hitung probabilitas rata‑rata waktu sampel lebih besar dari 13 menit, P ( X¯ > 13 )

Cek CLT: karena n=36≥30, distribusi \(\bar{x}\) dapat dianggap normal.

Hitung mean dan standard error: - μ X¯ = 12

  • σ X¯ = σ n = 3 36 = 3 6 = 0.5

Hitung z‑score: z = x¯ μ X¯ / σ X¯ = 13 12 / 0.5 = 1 0.5 = 2

4 Sample Proportion

proporsi adalah Menggambarkan fraksi hasil yang menguntungkan, dalam kaitannya dengan keseluruhan.

4.1 Proporsi, p dan \(\hat{p}\)

Proporsi menggambarkan bagian “sukses” dibandingkan total, dengan rumus jumlah sukses dibagi total observasi. Di populasi proporsi dilambangkan p, sedangkan di sampel dilambangkan \(\hat{p}\); misalnya 2 dari 10 orang bermata hijau memberi \(\hat{p}\)=0,2, sedangkan 900 dari 5000 orang bermata hijau memberi p=0,18

4.2 Sampling distribution dari \(\hat{p}\)

Jika kita berulang kali mengambil sampel acak dari populasi dan menghitung \(\hat{p}\) tiap sampel, kita akan mendapat banyak nilai \(\hat{p}\) yang berbeda-beda, dan kumpulan nilainya membentuk sampling distribution dari \(\hat{p}\). Distribusi ini memiliki mean dan simpangan baku sendiri, karena ia adalah distribusi dari sebuah statistik, bukan dari data mentah.

4.3 Mean dan standar deviasi \(\hat{p}\)

Untuk sampling distribution dari \(\hat{p}\) yang memenuhi kondisi Teorema Limit Pusat, mean distribusinya adalah μ\(\hat{p}\)=\({p}\), artinya rata-rata dari semua \(\hat{p}\) (jika sampel diulang sangat banyak) akan sama dengan proporsi populasi. Simpangan bakunya adalah σ p ˆ = p ( 1 - p ) n , dengan n ukuran sampel, p proporsi sukses, dan 1−p proporsi gagal.

4.4 Central Limit Theorem dan syaratnya

Distribusi \(\hat{p}\) dapat didekati dengan distribusi normal jika syarat Teorema Limit Pusat untuk proporsi terpenuhi. Syarat yang dipakai di video adalah \(np≥10\) dan \(n(1−p)≥10\); jika dua syarat ini terpenuhi, distribusi \(\hat{p}\) kira‑kira normal dengan mean p dan standar deviasi p ( 1 p ) n

4.5 Rumus z-score untuk proporsi

Jika distribusi \(\hat{p}\) sudah bisa dianggap normal, maka probabilitas yang berhubungan dengan \(\hat{p}\) dapat dihitung dengan z‑score dan tabel z. Rumus standarisasi yang digunakan adalah z = p^ p p ( 1 p ) n
, dan dengan z ini kita bisa mencari peluang area di bawah kurva normal untuk pertanyaan tentang proporsi sampel.

5 Review Sampling DIstribution

5.1 Peluang sederhana dan ruang sampel

Contoh: toples berisi 200 kelereng hijau dan 300 biru, diambil 3 kali dengan pengembalian.

Peluang sukses (hijau) \(p=200/500=0,4\), gagal (biru) \(q=0,6\), lalu semua kemungkinan urutan (ruang sampel) seperti GGB, BGB, BBB dihitung dengan mengalikan peluang tiap percobaan karena independen.

5.2 Distribusi binomial

Untuk kasus 5 kali pengambilan dengan pengembalian, peluang “setidaknya 2 hijau” tidak lagi dihitung lewat daftar ruang sampel, tapi memakai rumus binomial untuk peluang “tepat k sukses”.

Dihitung berturut-turut untuk \(k=2,3,4,5\) dan dijumlahkan, sehingga konsep “setidaknya” diartikan sebagai penjumlahan beberapa peluang “tepat \(k\)”.

5.3 Distribusi sampling proporsi

Jika pengambilan diulang 100 kali, peluang “setidaknya 35 hijau” didekati dengan distribusi sampling proporsi \(\hat{p}\) daripada menghitung binomial untuk 35 sampai 100. Dicek syarat CLT: \(np≥10\) dan \(n(1−p)≥10\); jika terpenuhi, \(\hat{p}\) berdistribusi normal dengan mean \(p\) dan simpangan baku p ( 1 p ) n

, lalu dihitung z-score dan luas di bawah kurva normal.

5.4 Peran Central Limit Theorem

CLT dipakai untuk menyatakan bahwa distribusi \(\hat{p}\) akan mendekati normal jika ukuran sampel besar dan syarat \(np\) dan \(n(1−p)\) cukup besar.​

Dengan normal aproksimasi ini, diperoleh peluang “mendekati” (approximate) untuk peristiwa seperti “setidaknya 35 hijau”, bukan peluang eksak, tetapi biasanya cukup akurat untuk statistika pengantar.


Reference - “Introductory Statistics” – Prem S. Mann - “Introduction to Probability and Statistics” – Mendenhall, Beaver & Beaver - David S. Moore, George P. McCabe, dkk. – Introduction to the Practice of Statistics,