Probability Distributions
Tugas ~ Week 11
Risky Nurhidayah
Aspiring Data Scientist and undergraduate at ITSB, lecturer by Mr. Bakti Siregar, M.Sc., CDS.
1 Pendahuluan
Dalam kehidupan sehari-hari, distribusi probabilitas memiliki peran penting dalam memahami ketidakpastian suatu kejadian. Berbagai fenomena seperti tinggi badan seseorang, waktu tunggu pelayanan, hasil survei, hingga peluang keberhasilan suatu produksi tidak selalu memiliki hasil yang pasti. Oleh karena itu, diperlukan konsep distribusi probabilitas untuk menggambarkan bagaimana peluang suatu kejadian tersebar pada nilai-nilai tertentu secara sistematis dan matematis.
Distribusi probabilitas juga sangat penting dalam berbagai bidang seperti sains, ekonomi, teknik, kesehatan, hingga kecerdasan buatan. Dalam analisis data modern, distribusi probabilitas digunakan untuk membangun model prediktif, memahami perilaku data, memperkirakan parameter populasi, serta menjadi dasar dalam pengujian hipotesis dan pengambilan keputusan berbasis data.
Pada pembahasan ini, akan dipelajari beberapa konsep penting yang berkaitan dengan distribusi probabilitas, mulai dari variabel acak kontinu hingga distribusi sampling dan pendekatan normal. Berikut adalah poin-poin utama yang akan dibahas:
- Variabel Acak Berkelanjutan
- Fungsi Kepadatan Probabilitas (PDF)
- Probabilitas pada Interval
- Fungsi Distribusi Kumulatif (CDF)
- Distribusi Sampel
- Teorema Limit Pusat
- Proporsi Sampel
- Tinjauan Distribusi Sampel
2 Continuous Random
Dalam memahami variabel kontinu, penting untuk mengetahui bagaimana probabilitas direpresentasikan menggunakan Probability Density Function (PDF).
Tidak seperti variabel acak diskrit, variabel acak kontinu tidak menetapkan probabilitas titik-titik individual. Sebaliknya, probabilitas diperoleh dari luas area dibawah kurva PDF.
2.1 Variabel Acak
Suatu variabel dikatakan kontinu jika dapat mengambil nilai apa pun dalam suatu interval pada garis bilangan riil. Dalam video tersebut menjelaskan bahwa pada variabel kontinu, probabilitas selalu diperlakukan sebagai area, bukan hitungan kasus individu, karena terdapat tak hingga banyak nilai dalam interval mana pun. Oleh sebab itu, probabilitas titik tunggal tidak mungkin memiliki nilai positif.
Karakteristik Utama:
Variabel mengambil nilai dalam interval seperti (\(a,b\)) atau bahkan (\(-\infty , +\infty\))
Probabilitas setiap titik tunggal selalu nol: \[ P(X=x)=0 \]
Probabilitas bermakna pada interval:
\[ P(a\leq X \leq b)= \int_{a}^{b} f(x)\, dx \]
2.2 Fungsi Kepadatan Probabilitas (PDF)
Sebuah fungsi \(f(x)\) adalah fungsi kepadatan probabilitas yang valid jika memenuhi:
Non-Negatif \[ f(x) \geq 0\, \forall x \]
Luas Totalnya sama dengan 1 \[ \int_{-\infty}^{\infty} f(x)\,dx = 1 \]
Penjelasan:
Nilai yang lebih besar dari \(f(x)\) menunjukkan kepadatan dari probabilitas yang lebih tinggi di sekitar nilai tersebut
Namun, \(f(x)\) bukan merupakan probabilitas ; probabilitas berasal dari area dibawah kurva
Contoh dari PDF: \(f(x)=3x^2\) pada titik [0,1] pertimbangan dari probability density function: \[ f(x)=3x^2,\, \, 0\leq x \leq 1 \] dengan validasi: \[ \int_{0}^{1}3x^2dx=1 \]
Sehingga, walaupun PDF dapat bernilai lebih dari 1, hal tersebut tetap valid selama luas total area = 1. Ini sering terjadi pada interval yang sangat sempit.
2.3 Probabilitas pada Interval
Kozak menjelaskan bahwa probabilitas pada variabel kontinu selalu digambarkan sebagai area berarsir (shaded area) di bawah kurva. Pendekatan visual ini membantu pemula memahami integral sebagai “jumlah area”, bukan perhitungan abstrak.
Untuk menghitung probabilitas dalam suatu interval: \[ P(a\leq X\leq b)=\int_{a}^{b}3x^2dx \]
contoh: \[ P(0.5\leq X\leq 1) \]
2.4 Fungsi Distribusi Kumulatif
Fungsi Distribusi Kumulatif (CDF) didefinisikan sebagai: \[ F(x)=P(X\leq x)=\int_{0}^{x}3t^2dt=x^3 \]
Hubungan antara PDF dan juga CDF: \[ f(x)=F'(x) \]
3 Distribusi Sampel
Sebelum membahas konsep distribusi sampling secara lebih mendalam, Video ini memberikan penjelasan visual yang lengkap tentang bagaimana statistik seperti rata-rata sampel berperilaku ketika diambil berulang kali dari populasi yang sama. Dengan memahami perbedaan kedua konsep tersebut, dapat menghitung dan memahami variabilitas, ketidakpastian, dan mengapa distribusi sampling penting dalam inferensi statistik.
3.1 Konsep Dasar Distribusi Populasi dan Sampel
Distribusi populasi dan distribusi sampel digunakan untuk memahami bagaimana nilai-nilai suatu karakteristik (misalnya tinggi badan) tersebar baik pada seluruh kelompok maupun pada sebagian kecil kelompok tersebut.
Karakteristik utama:
Distribusi populasi menggambarkan seluruh anggota dalam kelompok besar, sehingga parameter seperti mean (μ) dan standar deviasi (σ) bersifat tetap. Contoh: tinggi badan seluruh warga Kanada.
Distribusi sampel menggambarkan nilai-nilai dari sekelompok kecil yang diambil dari populasi. Nilai rata-ratanya ({x}) dapat berbeda dari rata-rata populasi (\(\mu\)) karena ukuran sampel lebih kecil dan terdapat variasi alami antarindividu.
Setiap sampel dapat menghasilkan rata-rata yang berbeda, sehingga dua sampel dengan ukuran sama bisa memiliki hasil yang tidak identik.
Proses pembentukan sampling distribution dilakukan dengan mengambil banyak sampel dari populasi, menghitung rata-rata tiap sampel, kemudian menggambarkannya sehingga membentuk distribusi baru yang disebut sampling distribution of the mean.
Rumus dasar rata-rata sampel: \[ \bar{x} = \frac{\sum_{i=1}^{n} x_i}{n} \]
3.2 Distribusi Sampling secara otomatis
Distribusi sampling menjelaskan bagaimana nilai rata-rata sampel berubah ketika kita mengambil banyak sampel dari populasi yang sama. Bentuk dan sifatnya dapat dihitung secara matematis sehingga sangat penting untuk inferensi statistik.
Karakteristik utama:
- Rata-rata distribusi sampel sama dengan rata-rata populasi: \[ \mu_{\bar x}=\mu \]
Interpretasi: Jika kita mengambil banyak sekali sampel dan menghitung rata-rata tiap sampel, lalu merata-ratakannya lagi, hasilnya akan sama dengan rata-rata populasi sebenarnya. Ini menunjukkan bahwa rata-rata sampel adalah estimator yang tidak bias untuk rata-rata populasi.
- Variabilitas distribusi sampel lebih kecil dibanding variabilitas populasi.
- Standar deviasi distribusi sampel disebut Standard Error (SE): \[ SE=\frac{\sigma}{\sqrt n} \]
Interpretasi: SE menunjukkan seberapa jauh rata-rata sampel dapat menyimpang dari rata-rata populasi. Jika ukuran sampel \(n\) besar, maka nilai SE menjadi kecil sehingga rata-rata sampel cenderung mendekati \(\mu\). Sebaliknya, jika \(n\) kecil, maka SE menjadi besar sehingga rata-rata sampel lebih mudah menyimpang dari \(\mu\).
- Variansi distribusi sampel: \[ \sigma^2_{\bar{x}} = SE^2 = \left(\frac{\sigma}{\sqrt{n}}\right)^2 = \frac{\sigma^2}{n} \]
Variansi mengecil seiring bertambahnya ukuran sampel. Ini menegaskan bahwa pengambilan sampel yang lebih besar menghasilkan estimasi yang lebih stabil dan dapat diandalkan.
- Distribusi sampling menjadi semakin sempit ketika ukuran sampel meningkat.
contoh : Jika standar deviasi populasi tinggi badan σ = 6 cm dan ukuran sampel n = 10 \[ SE=\frac{6}{\sqrt 10}=1.897 \]
Rata-rata tinggi dari sampel berisi 10 orang biasanya hanya berbeda sekitar ±1,9 cm dari rata-rata populasi.
3.3 Standardisasi (Z-score) pada Populasi dan Distribusi Sampel
Standardisasi digunakan untuk mengubah nilai tinggi, rata-rata sampel, atau data lainnya ke dalam satuan standar (Z-score) sehingga dapat dihitung peluangnya menggunakan tabel distribusi normal.
- Z-score untuk nilai individu dalam populasi: \[ Z=\frac{X-\mu}{\sigma} \]
Rumus ini menunjukkan seberapa jauh nilai X berada dari rata-rata populasi, diukur dalam satuan standar deviasi.
Z-score untuk rata-rata sampel: \[ Z=\frac{\bar X-\mu}{SE} \]
Standardisasi memungkinkan kita menghitung peluang suatu nilai atau rata-rata tertentu dengan menggunakan tabel Z (normal standar).
CONTOH: Misalkan rata-rata tinggi populasi μ = 162 cm dan standar deviasi σ = 6 cm. Jika rata-rata sampel 10 orang adalah 157 cm, maka:
Hitung SE: \[ SE=\frac{6}{\sqrt 10}=1.897 \]
Hitung Z-score \[ Z=\frac{157-162}{1.897}=-2.63 \] Jadi Z = –2.63 berarti rata-rata sampel tersebut sangat jauh di bawah rata-rata populasi, sehingga peluangnya terjadi secara acak sangat kecil.
3.4 Teorema Batas Tengah (Central Limit Theorem/ CLT)
Teorema Batas Tengah menjelaskan mengapa rata-rata sampel cenderung mengikuti distribusi normal, bahkan ketika data populasi tidak berdistribusi normal.
Karakteristik utama:
Jika ukuran sampel cukup besar (umumnya n ≥ 30), distribusi rata-rata sampel mendekati distribusi normal.
Distribusi sampling yang terbentuk memiliki rumus: \(\mu_\bar x=\mu\) dan \(SE=\frac{\sigma}{\sqrt n}\)
CLT membuat perhitungan probabilitas menjadi jauh lebih mudah, karena kita bisa menggunakan tabel Z untuk menganalisis rata-rata sampel.
Contoh sederhana:
Meskipun tinggi badan populasi sedikit miring ke satu sisi (tidak normal sempurna), rata-rata dari sampel 10 orang akan mendekati bentuk kurva normal jika diambil berulang kali.
3.5 Contoh Penerapan:
Probabilitas rata-rata tinggi < 157cm
Contoh di video memperlihatkan cara menghitung peluang bahwa rata-rata tinggi 10 orang yang dipilih acak kurang dari 157 cm.
Langkah-langkah utama:
Hitung Standard Error (SE): \(SE=\frac{\sigma}{\sqrt n}\)
Hitung Z-score untuk rata-rata sampel: \(Z = \frac{\bar{X} - \mu}{SE}\)
Gunakan tabel Z untuk mendapatkan probabilitas.
contoh : Jika μ = 162 cm, σ = 6 cm, dan n = 10 Probabilitas Z < –2.63 sangat kecil.
4 Teorema Limit Pusat
Sebelum mendalami perhitungan dan aplikasi distribusi sampling, teorema limit pusat (Central Limit Theorem/CLT) memberikan dasar teori yang sangat penting untuk memahami bagaimana rata-rata sampel berperilaku. Video ini menjelaskan bahwa meskipun bentuk distribusi populasi dapat miring, tidak simetris, atau bahkan tidak normal, distribusi dari rata-rata sampel akan cenderung membentuk pola yang mendekati distribusi normal apabila ukuran sampel cukup besar. Konsep visual ini membantu memperjelas mengapa rata-rata sampel sering kali stabil, terpusat, dan mengikuti pola tertentu meskipun data populasi aslinya kompleks.
CLT memberikan intuisi mengenai variabilitas, probabilitas, dan alasan mengapa teknik-teknik inferensi statistic seperti estimasi parameter, interval kepercayaan, dan pengujian hipotesis dapat diterapkan secara luas. Dengan memahami teorema ini, kita dapat melihat bagaimana rata-rata dari banyak sampel dapat digunakan untuk menyimpulkan karakteristik populasi tanpa harus mengukur seluruh anggota populasi. Silakan tonton video pendahuluan berikut untuk membangun intuisi sebelum melanjutkan ke materi berikutnya.
4.1 Intuisi Teorema Limit Pusat
CLT dapat dipahami secara intuitif melalui visual. Ketika sampel diambil berulang kali dari populasi yang miring atau tidak normal, nilai rata-rata sampel (x̄) lebih sering muncul di sekitar mean populasi (μ), dan lebih jarang muncul jauh dari μ. Kumpulan semua nilai x̄ ini membentuk pola menyerupai kurva normal.
Poin-poin utama:
- Sampel lebih sering mengambil data dari bagian populasi yang paling padat.
- \(\bar x\) berkumpul di sekitar μ.
- \(\bar x\) yang ekstrem jarang muncul.
- Hasil akhirnya menyerupai kurva normal.
Visualisasi
Penjelasan kurva:
Kurva Populasi Miring(Skewed Population): menampilkan distribusi populasi yang tidak simetris. Kurva ini menunjukkan bahwa:
- Nilai kecil ada banyak
- Nilai besarnya semakin kecil
- Bentuk kurva juga miring ke kanan (right-skewed) Artinya populasi tidak normal dan kondisi tersebut sesuai untuk didemonstrasikan Teorema Limit Pusat
Proses Pengambilan Sampel: Memperlihatkan contoh satu sampel acak yang diambil dari populasi miring. Proses nya meliputi:
- Mengambil sampel sebanyak 40
- Melakukan proses secara berulang sebanyak 5000 kali
- Setiap sampel memiliki nilai rata-rata tersendiri
Distribusi rata-rata sampel menjadi normal: Visualisasi terakhir menunjukkan rata-rata dari seluruh sampel yang memiliki hasil:
- Bentuk kurva semakin simetris
- Grafik histogram mendekati bentuk lonceng
- Distribusi rata-rata menjadi normal walau populasi di awal berbentuk miring
5 Proporsi Sampel
Bab ini membahas bagaimana proporsi sampel \(\hat p\) terbentuk melalui proses pengambilan sampel berulang, bagaimana distribusinya berperilaku, serta bagaimana Teorema Limit Pusat (CLT) memungkinkan distribusi proporsi diperlakukan sebagai distribusi normal dalam kondisi tertentu. Materi ini menjadi dasar dalam penghitungan probabilitas, estimasi proporsi populasi, dan aplikasi inferensi statistik.
5.1 Definisi Sampling Distribution dan Proporsi Sampel
Sampling distribution adalah distribusi nilai suatu statistik (misalnya rata-rata atau proporsi) yang diperoleh dari pengambilan sampel berulang dari populasi yang sama.
Pada data kategorik (ya/tidak, berhasil/gagal), statistik yang digunakan adalah proporsi sampel, yaitu fraksi kejadian yang memenuhi kondisi tertentu.
Rumus proporsi sampel: \[ \hat p=\frac{x}{n} \]
5.2 Variasi Proporsi Sampel dan Pembentukan Sampling Distribution
Jika kita mengambil sampel berkali-kali, nilai \(\hat p\) tidak akan selalu sama. Misalnya:
- 0.21
- 0.19
- 0.17
- 0.23 dan seterusnya.
Kumpulan nilai \(\hat p\) ini membentuk sampling distribution of the sample proportion.
Distribusi ini memiliki dua parameter penting:
- Rata-rata (mean): \[ \mu_\hat p=p \]
- Deviasi Standar (Standar Error): \[ \sigma_{\hat p}=\sqrt{\frac{p(1-p)}{n}} \]
5.3 Teorema Limit Pusat untuk Proporsi Sampel
Teorema Limit Pusat menyatakan bahwa distribusi proporsi sampel akan mendekati normal jika syarat tertentu terpenuhi.
Tiga sifat utama ketika CLT berlaku:
Mean sampling distribution: \[ \mu_\hat p=p \]
Standar Error: \[ \sigma_{\hat p}=\sqrt{\frac{p(1-p)}{n}} \]
Distribusi Sampling Proporsi dapat menggunakan Z-Score: \[ Z=\frac{\hat p-p}{\sqrt{\frac{p(1-p)}{n}}} \]
5.4 Syarat CLT untuk Proporsi Sampel
Berbeda dengan rata-rata sampel \((\bar x)\) yang cukup menggunakan n ≥ 30, proporsi sampel memiliki dua syarat wajib:
- np ≥ 10
- n(1−p) ≥ 10 Jika kedua syarat terpenuhi, maka distribusi proporsi dapat dianggap normal.
Jika tidak terpenuhi, analisis harus menggunakan distribusi binomial.
5.5 Standardisasi Z untuk Proporsi Sampel
Jika distribusi sampling proporsi normal, maka nilai (\(\hat p\)) dapat diubah menjadi Z-score: \[ Z=\frac{\hat p-p}{\sqrt{\frac{p(1-p)}{n}}} \] Standardisasi ini digunakan untuk menghitung probabilitas, interval kepercayaan, dan uji hipotesis tentang proporsi.
6 Tinjauan Distribusi Sampel
Bagian ini memberikan tinjauan menyeluruh mengenai bagaimana distribusi sampel terbentuk dari proses pengambilan sampel berulang, serta bagaimana probabilitas dapat dimodelkan menggunakan distribusi binomial dan kemudian didekati menggunakan distribusi sampling proporsi. Penjelasan utama didasarkan pada video SimpleLearningPoo (2023), sementara teori formal dan definisi matematis diperkuat melalui OpenIntro Statistics (Diez et al., 2019) dan Bluman (2018).
6.1 Distribusi Sampel dari Percobaan Berulang
Video memperkenalkan konsep bahwa ketika suatu percobaan dilakukan berulang secara independen, hasilnya membentuk pola probabilitas yang dapat dimodelkan dengan distribusi tertentu. Untuk dua hasil (sukses/gagal), distribusi yang sesuai adalah distribusi binomial (SimpleLearningPoo, 2023).
Secara teoretis, distribusi binomial menggambarkan banyaknya keberhasilan dalam percobaan Bernoulli berulang (Diez et al., 2019; Bluman, 2018).
6.2 Contoh Distribusi Binomial: Probabilitas Minimal Dua Keberhasilan
Video memberikan contoh penggunaan distribusi binomial dengan pengambilan tiga mutiara secara independen. Probabilitas minimal dua hijau dihitung dari kombinasi pola: P(≥2) = 0.352
Contoh ini menunjukkan bagaimana distribusi sampel dari percobaan kecil dapat dihitung secara eksplisit.
6.3 Distribusi Sampel Ketika Ukuran Sampel Meningkat
Ketika jumlah percobaan meningkat menjadi lima, video menunjukkan bahwa metode manual tidak efisien. Oleh karena itu diperlukan rumus baku distribusi binomial: \[ P(X=k)=\binom{n}{k}p^k(1-p)^{n-k} \]
Total probabilitas minimal dua hijau: P(X ≥ 2)=0.6634
Menurut Diez et al. (2019), distribusi binomial merupakan pondasi dari distribusi sampling proporsi.
6.4 Transisi ke Distribusi Sampling: Ketika n Besar
Video menunjukkan bahwa ketika n=100, menghitung peluang secara binomial menjadi sangat tidak praktis. Di sinilah distribusi sampel proporsi (\(\hat p\)) digunakan sebagai representasi statistik yang lebih efisien.
Tmemungkinkan distribusi tersebut didekati dengan distribusi normal apabila syarat berikut terpenuhi (Diez et al., 2019; Bluman, 2018), yaitu np≥10 dan n(1−p)≥10. Pada kasus yang dibahas dalam video, kedua syarat tersebut terpenuhi.
7 Referensi
[1] Diez, D. M., Barr, C. D., & Çetinkaya-Rundel, M. (2019). OpenIntro Statistics (4th ed.). OpenIntro. https://www.openintro.org/book/os/
[2] Bluman, A. G. (2018). Elementary Statistics: A Step-by-Step Approach (10th ed.). McGraw-Hill Education. PDF: https://www.gacbe.ac.in/images/E%20books/ElementaryStatisticsbb.pdf
[3] Illowsky, B., & Dean, S. (2018). Introductory Statistics. PDF: https://openstax.org/details/books/introductory-statistics
[4] Kozak, K. (2014). Statistics Using Technology. PDF: https://www.openintro.org/stat/textbook.php?stat_book=Statistics_Using_Technology