Probability Distributions
Assignment ~ Week 11
Yosef Teofani Tamba
Data science undergraduate at ITSB with lecturer Mr. Bakti Siregar, M.Sc., CDS
1 Pendahuluan
Dalam statistika, Distribusi Probabilitas adalah hal yang penting dipelajari sebagai fundamental dalam Statistika. Dalam kehidupan sehari-hari, probabilitas tidak hanya dapat membantu kita untuk menghitung seberapa besar kemungkinan yang terjadi dalam suatu peristiwa, tetapi juga dapat membentuk dasar dari metode statistik yang digunakan dalam pengambilan keputusan. Dalam rangkuman kali ini, terdapat 5 video yang menjelaskan tentang distribusi probabilitas, yaitu:
- Probability of Continuous Variable:Untuk menggambarkan kemungkinan nilai pada rentang kontiniu.
- Sampling Distribution:Mencari distribusi sampel seperti rata-rata sampel atau proporsi sampel.
- Central Limit Theorem:Menjelaskan mengapa distribusi rata-rata sampel cenderung normal terlepas dari bentuk dasar sebuah populasi
- Sample Proportion:Biasanya banyak digunakan untuk analisis survei dan juga penelitian kuantitatif.
- Review Sampling Distribution
2 Continuous Random
Dalam video tersebut menjelaskan tentang variabel kontiniu, diawal video menjelaskan tentang variabel diskrit untuk memahami perbedaan kedua konsep tersebut dengan baik. Setelah memahami variabel diskrit lalu menjelaskan tentang variabel kontiniu.
2.1 Discrete Variables
Variabel disrkit adalah sebuah variabel kuantitatif(Numerik) yang nilai nya dapat dihitung.
Contohnya adalah ketika mengambil data dari banyaknya anak yang dimiliki oleh tiap keluarga, dimana jumlah anak yang dimiliki tiap keluarga kemungkinan satu atau, dua, tiga, dan seterusnya. Karena hal tersebut dapat dihitung, sehingga dapat dikatakan bahwa hal itu adalah variabel diskrit. Tetapi tidak hanya bilangan bulat, bilangan desimal juga termasuk kedalam variabel diskrit, contohnya jumlah uang yang ada pada bank atau skor dalam sebuah test.
Dalam variabel diskrit biasanya digunakan visualisasi Bar Chart untuk melihat seberapa besar jumlah perhitungan yang ada. Contoh: ketika ingin melempar koin sebanyak 4 kali, dapat divisualisasikan seberapa banyak untuk mendapatkan nilai head/tails.
Variabel diskrit memiliki beberapa rumus:
- \(P(k)=\binom{k}{n}p^k(1-p)^{n-k}\)
- \(P(A\cup B)=P(A)+P(B)-P(A\cap B)\)
- \(P(A\cap B)=P(A)\times P(B)\)
- \(P(A^c)=1-P(A)\)
- dan seterusnya..
2.2 Continuous Variable
Variabel kontiniu adalah variabel yang dapat diperoleh dari nilai apa pun yang dimana nilai nya dicari dengan cara diukur dan tidak dapat dihitung karena memiliki nilai yang tidak terbatas. Hal yang biasanya diukur kontiniu variable adalah berat badan, usia, suhu, dan jarak. Variable acak kontiniu diperoleh dari luas area yang ada di bawah kurva Probability Density Function (PDf).
Variabel kontiniu menggunakan visualisasi Histogram karena dalam histogram tidak ada celah pada data untuk mencerminkan kontiniutas data.
2.2.1 Random Variable
Random variable dapat dikatakan kontiniu jika dapat mengambil nilai apapun yang ada pada interval pada garis bilangan rill
Karakteristik utama:
- Variabel mengambil nilai dalam interval seperti(a,b) atau bahkan (\(-\infty,\, + \infty\)).
- Probabilitas setiap titik tunggal selalu nol:
\[ P(X=x)=0 \]
- Probabilitas bermakna pada interval:
\[ P(a\leq X \leq b)= \int_{a}^{b} f(x)\, dx \]
Random variable kontiniu memiliki beberapa rumus seperti:
- \(A=L\times W\)
- \(A=\frac{b\,h}{2}\)
- \(z=\frac{x-\mu}{\sigma}\)
2.2.2 Probability Density Funct
sebuah fungsi \(f(x)\) adalah Probability Density Function(PDF) yang valid jika memenuhi:
Non-Negatif \[ f(x) \geq 0\, \forall x \]
Luas Totalnya sama dengan 1 \[ \int_{-\infty}^{\infty} \]
Penjelasan:
Nilai yang lebih besar dari \(f(x)\) menunjukkan kepadatan dari probabilitas yang lebih tinggi di sekitar nilai tersebut
Namun, \(f(x)\) bukan merupakan probabilitas ; probabilitas berasal dari area dibawah kurva
Contoh dari PDF: \(f(x)=3x^2\) pada titik [0,1] pertimbangan dari probability density function: \[ f(x)=3x^2,\, \, 0\leq x \leq \] dengan validasi: \[ \int_{0}^{1}3x^2dx=1 \]
2.2.3 Probability on an Interval
Untuk variabel acak kontinu, probabilitas bahwa suatu nilai tepat terjadi adalah 0. Yang bermakna hanya probabilitas pada suatu interval.
Menghitung probabilitas dalam interval dapat menggunakan rumus: \[ P(a\leq X\leq b)=\int_{a}^{b}3x^2dx \] contoh nya: \[ P(0.5\leq X\leq 1) \]
2.2.4 Cumulative Distribution Funct
Cumulative Distribution Function (CDF) dapat di definisikan dengan: \[ F(x)=P(X\leq x)=\int_{0}^{x}3t^2dt=x^3 \]
Hubungan antara PDF dan juga CDF: \[ f(x)=F'(x) \]
3 Sampling Distributions
Di video tersebut menjelaskan tentang sampling distribution dan membahas perbedaan dari distribusi sample dan distribusi sampling. Dengan memahami perbedaan kedua konsep tersebut, dapat menghitung dan memahami variablitias, ketidakpastian, dan mengapa distribusi sampling penting dalam inferensi statistik.
3.1 Sample Distribution
Sample Distribution adalah distribusi dari sebuah sample yang diambil dari sebuah populasi secara acak, dimana setiap individu diukur dan membuat distribusi dari nilai tersebut. Kelemahan dari sample distribusi adalah lebih banyaknya variabilitas mengandung sedikit informasi dan tidak selalu mewakili Populasi karena terkadang sample x dan sample y memiliki nilai yang berbeda walau dari satu populasi.
Contoh: Ketika menghitung tinggi badan dari sebuah populasi sebanyak 10.000 dan mengambil sebuah sample secara acak. sample pertama bisa menghasilkan rata-rata dengan nilai 5.4 namun ketika mengambil sample lagi, bisa menjadi 5.3 ; 5.7 ; dan seterusnya. Sehingga sample distribution tidak selalu mewakili dari populasi.
3.2 Sampling Distribution of the Sample mean
Sampling Distribution adalah distribusi sample dari beberapa sample acak yang didapatkan dari sebuah populasi.
Berikut hal yang harus diperhatikan dalam mencari distribusi sampel dari rata-rata sampel:
- Menentukan populasi
- Mencari sampel acak dari populasi
- menghitung rata-rata sample dari sampel yang ditemukan.
- membuat distribusi frekuensi dari perhitungan rata-rata sampel.
Kesimpulan: Sehingga untuk mendapatkan nilai yang lebih akurat, hal tersebut harus dilakukan berulang kali sehingga mendapatkan distribusi sampling dan membentuk dsitribusi normal yang dimana distribusi normal terjadi karena teorema limit pusat.
3.2.1 Hubungan Population Distribution dengan Sampling Distribution
Population Distribution adalah distribusi keseluruhan dari sebuah populasi dengan rata-rata \(\mu\) dan simpangan baku nya \(\sigma\) rumus untuk Populasi Distribusi adalh \[ z=\frac{x-\mu}{\sigma} \]
Sampling Distribution adalah distribusi rata-rata dari sample dengan \(\mu_{\bar x}=\mu\) dan simpangan baku nya \(\sigma_{\bar x}=\frac{\sigma}{\sqrt n}\) dapat disebut juga dengan Standard Error (SE)
hubungan antara distribusi populasi dan distribusi sampling:
Dapat dilihat bahwa \(\mu\) populasi dan \(\mu_{\bar{x}}\) sampling distribution adalah sama. Sehingga dapat dibuat sebagai berikut \[ \mu_{\bar x}=\mu \]
Untuk simpangan baku nya(\(\sigma\)) dapat dilihat bahwa sebaran dari distribusi populasi lebih besar daripada sebaran distribus sampel. Sehingga dapat ditulis sebagai berikut: \[ \mu_{\bar x}\leq \mu \]
Contoh soal: Misal tinggai badan semua orang Kanada berdistribusi normal dengan \(\mu = 160\, cm\) dan \(\sigma = 7\, cm\). - Pertanyaan 1: Berapa proabbilitas rata-rata tinggi acak dari 10 orang Kanada yang kurang dari 157cm?
- Menggunakan rumus sampling distribution:
\[ \sigma_{\bar x}=\frac{7}{\sqrt 10}\approx 2.21 \] \[ z=\frac{157-160}{2.21}\approx-1.36 \] - Cari nilai area di bawah \(z=-1.36\) dari tabel distribusi z : sekitar 0.0869 atau 8.69%
4 Central Limit Theorem
Theorema Limit central memprediksi bentuk distribusi sampling berdasarkan ukuran sampel. Theorema limit central menyatakan bahwa jika ukuran sampel n cukup besar, maka distribusi rata-rata dari sampel akan mendekati normal. Artinya, terlepas seperti apa distribusi populasi awal, jika ukuran sampel n cukup besar maka distribusi sampling akan terdistribusi normal.
Contoh: Misal diberikan populasi yang miring (Skewed Population) dan ingin membuat distribusi sampling dari mean sampel, maka perlu mengambil sampel acak sederhana secar berulang kali dan menghitung \(\bar x\) untuk setiap sampel dan menggabungkan seluruh informasi sehingga membentuk distribusi normal.
Aturan dalam Theorema Pengukuran Sampel:
- Theorema berlaku jika \(n\geq 30\). Jika \(n\leq30\) maka perkiraan normal tidak akan akurat karena dapat menyebabkan lebih banyak variabilitas dan presisi yang kurang sehingga tidak menghasilkan ditribusi sampling normal.
- Jika distribusi populasi sudah normal dari awal, maka sampel yang ingin diambil dapat memperoleh distribusi sampling yang normal walaupun \(n<30\)
Sehingga, teorema ini sangat berguna untuk analisis statistik karena dapat memungkinkan untuk menggunakan rumus dari distribusi normal dalam menghitung probabilitas dan membuat estimasi parameter populasi bahkan jika populasi yang diberikan tidak normal.
Theorema memiliki rumus: \[ z=\frac{\bar x-\mu}{\sigma/\sqrt n} \]
dan
\[ z=\frac{\hat p-p}{\sqrt{\frac{pq}{n}}} \]
5 Sample Proportion
Dalam video tersebut, memberikan penjelasan review ulang dari distribusi sampling dan memberikan penjelasan tentang Sample Proportion. Untuk memahami materi dengan baik, penting untuk memahami dulu apa itu distribusi sampling pada penjelasan sebelumnya karena pada penjelasan ini hanya akan berfokus terhadap Sample Proportion.
5.1 Proportion
Dalam Statistika, proporsi menunjukkan seberapa besar nilai dari sampel dibandingkan dengan populasi. Misalnya ingin mencari berat badan, tinggi badan, warna mata, skor tes dari seseorang. Hal tersebut adalah variabel terukur yang didapatkan dari suatu populasi atau sampel.
Rumus untuk menghitung proporsi adalah: \[ Proportion=\frac{jumlah\,hasil\,yang\,diinginkan}{jumlah\,total\,hasil} \] Contoh:Misal ingin mengukur proporsi orang yang memiliki warna mata hijau, Hal tersebut dapat dilakukan dengan 2 cara yaitu dengan mengukur sampel dan populasi nya.
- Proporsi Sampel (\(\hat p\)): Porporsi dar i sampel yang memiliki karakteristik tertentu.
Contoh: jika ingin mengambil proporsi orang yang bermata hijau dari jumlah sampel 10 dan hanya 2 orang yang bermata hijau, maka proporsi nya adalah \(\frac{2}{10}\) atau 0.2
- Proporsi Populasi (p): Proporsi dari seluruh populasi yang memiliki karakteristik tertentu.
Contoh: jika ingin mengambil proporsi orang yang bermata hijau dari populasi sebanyak 5000 dan hanya 900 orang yang memiliki mata hijau, maka proporsi nya \(\frac{900}{5000}\) atau 0.18
5.2 Sampling Distribution of the Sample Proportion
Distribusi Sampel dari Sample Proportion adalah distribusi satistik \(\hat p\) yang dibuat dari sampel acak secara berulang kali. Dalam distribusi ini, terdapat nilai mean (\(\mu_{\hatp}\)) dan juga nilai Standard Deviation (\(\sigma_{\hat p}\)).
Ada 3 hal yang dapat dilihat jika distribusi sampling dari proporsi sampel normal dan mengikuti theorema limit pusat, yaitu:
- \(\mu_{\hat p}=p\) memiliki arti bahwa seluruh rata-rata \(\hat p\) yang digabungkan sama dengan proporsi populasi.
- \(\sigma_{\hat p}=\sqrt{\frac{p(1-p)}{n}}\)
- \(\hat p \approx N(p\cdot \sqrt{\frac{p(1-p)}{n}})\)
Ketika sudah didapatkan hasil, maka dapat menggunakan tabel distribusi z untuk membantu menghitung area yang terkait dengan skor z tertentu.
dengan distribusi normal, dapat menggunakan rumus standarisasi: \[ z=\frac{\hat p-p}{\sigma_{\hat p}} \]
6 Review Sampling Distribution
Dalam video tersebut memberikan pemahaman tentang seluruh konsep dari Probability, Biinomial Distribution, dan Sampling Distribution of the Sample Proportion, dan bagaimana cara menyatukan seluruh konsep dengan menggunakan pertanyaan latihan sehingga dapat dengan mudah memahaminya.
SOAL UTAMA: Misal terdapat 200 kelereng hijau dan 300 kelereng biru.
6.1 Probability
Probabilitas adalah ukuran kemungkinan suatu kejadian terjadi, sementara ruang sampel adalah kumpulan dari semua kemungkinan hasil dari suatu percobaan.
Mengikuti soal utama, jika kelereng ditarik sebanyak tiga kali pengembalian, berapa probabilitas menarik setidaknya dua kelereng hijau? \[ P(Hijau)=\frac{jumlah\,hasil\,yang\,diinginkan}{jumlah\,total\,hasil} \] \[ = \frac{200}{500} \] \[ P(Hijau)=0.4 \]
dan menghitung Probabilitas kelereng biru: \[ P(Biru)=\frac{jumlah\,hasil\,yang\,gagal}{jumlah\,total\,hasil} \] \[ =\frac{300}{500} \] \[ P(Biru)=0.6 \]
Sehingga kemungkinan hasil dari:
- 2 hijau, 1 biru: \(2(0.4)\times 0.6=0.096\)
- 3 hijau: $3(0.4)=0.064 $
dan ada 3 cara untuk mendapatkan 2 hijau: \(3\times 0.096=0.288\)
Sehingga total probabilitas minimal dua hijau adalah: \(0.288+0.064=0.352\)
6.2 Distribusi Binomial
Distribusi Binomial digunakan untuk menghitung probabilitas jumlah kejadian sukses dalam sebuah percobaan independen, dengan probabilitas suksesnya tetap untuk setiap percobaan.
Mengikuti soal utama, jika diambbiil 5 kelereng dengan pengembalian, berapa probabilitas mendapatkan tepat 2 kelereng hijau?
Menggunakan rumus distribusi binomial: \[ P(X=k)=\binom{n}{k}p^k(1-p)^{n-k} \] dimana diketahui bahwa n=5; k=2; p=0.4 sehingga \(P(X=2)=\binom{5}{2}(0.4)^2(0.6)^3=10\times 0.16\times 0.216=0.3456\)
6.3 Sampling Distribution of the Sample proportion
Distribusi sampling proporsi sampel adalah distribusi dari nilai proporsi sampel (\(\hat p\)) yang diambil dari banyaknya sampel acak sebuah populasi
Mengikuti soal utama, jika diambil 100 kelereng dengan pengembalian, berapa probabilitas proporsi kelereng hijau lebih dari 35%?
Proporsi populasi \(p=0.4\)
Ukuran sampel \(n=100\)
Syarat CLT untuk terpenuhi: \(n\cdot p=40\geq10,\, n\cdot (1-p)=60\geq 10\)
Menggunakan rumus standarisasi: \[ z=\frac{\hat p-p}{\sqrt{\frac{p(1-p)}{n}}}=\frac{0.35-0.4}{\sqrt{\frac{0.4\times 0.6}{100}}}=-1.02 \]
Area dikanan \(z=-1.02\) adalah 0.846, sehingga probabilitas proporsi lebih dari 355 adalah 84.61%
7 Referensi
[1] Sudjana. (2004). Metode Statistika. Bandung: Tarsito.
[2] Munir, R. (2010). Probabilitas dan Statistika. Bandung: Informatika ITB
[3] Siregar, Bakti. (2025). Introduction to Statistics. [Manuscript in preparation].
[4] Walpole, R. E., Myers, R.H., Myers, S.L., & Ye,K. (2012). Probability & Statistics for Engineers and Scientist (9th ed.). Boston: Pearson