Student Majoring in Data Science at Institut Teknologi Sains Bandung
1 Introduction
Distribusi probabilitas dapat diartikan sebagai fungsi statistik yang
bertujuan untuk mendeskripsikan semua kemungkinan nilai dan juga
kemungkinan yang dapat diambil dari berbagai variabel acak pada rentang
tertentu. Dalam hal ini, kisaran distribusi frekuensi tersebut dibatasi
oleh nilai minimum dan nilai maksimum di mana terjadi nilai kemungkinan
yang akan diplot tergantung pada jumlah faktornya.
Beberapa faktor yang memengaruhi distribusi probabilitas tersebut di
antaranya rata-rata distribusi atau rata-rata, deviasi standar,
kemiringan, dan kurtosis. Sehingga dapat disimpulkan bahwa pengertian
distribusi probabilitas secara umum adalah suatu distribusi yang
menggambarkan tentang peluang dari sekumpulan variasi sebagai pengganti
frekuensi.
Ciri-ciri dari distribusi probabilitas.
Distribusi probabilitas memiliki ciri-ciri yakni probabilitas
atau peluang dari sebuah hasil berkisar antara 0 sampai dengan
1.
Ciri-ciri selanjutnya yaitu distribusi probabilitas memiliki
hasil-hasil, yang mana hasilnya adalah dari kejadian yang tidak terikat
antara kejadian yang satu dengan kejadian yang lain.
Terakhir, distribusi probabilitas ini memiliki daftar hasil yang
lebih lengkap. Sehingga jumlah dari probabilitas atau peluang dari
berbagai kejadian atau peristiwanya adalah 1.
Materi ini akan memandu anda melalui beberapa konsep utama:
Continuous Random Variables, untuk variabel kontinu yang
menggambarkan kemungkinan nilai pada rentang kontinu.
Sampling Distributions, yang mewakili distribusi statistik sampel
seperti rata-rata sampel atau proporsi sampel.
The Central Limit Theorem (CLT), salah satu hasil terpenting dalam
statistik, menjelaskan mengapa distribusi rata-rata sampel cenderung
normal terlepas dari bentuk dasar populasi.
Sample Proportion Distributions, banyak digunakan dalam analisis
survei dan penelitian kuantitatif.
2 Continuous Random
Variable
2.1 Variabel Diskrit
Variabel diskrit adalah variabel yang hanya memiliki nilai yang dapat
dihitung (countable). Nilai-nilainya terbatas atau dapat dihitung satu
per satu.
Ciri-ciri:
Datanya didapatkan melalui perhitungan.
Nilainya terbatas atau dapat dihitung, meskipun bisa berupa
desimal
Tidak mungkin memiliki nilai “di antara” yang tidak masuk
akal.
Contoh:
Hasil nilai ujian siswa
Jumah anak dalam keluarga
Jumlah kelereng biru dalam kotak
Jumlah (H) Head ketika melempar suatu koin
2.2 Variabel Kontinu
Variabel kontinu adalah variabel yang dapat memiliki nilai apa pun
dalam suatu rentang, termasuk pecahan sampai tingkat ketelitian tak
terbatas. Data kontinu diperoleh melalui pengukuran.
Kenapa disebut kontinu? Karena nilai-nilainya tak hingga dan tidak
dapat dihitung satu per satu
Contoh:
Usia
Berat badan
Jarak
Suhu
2.3 Perbedaan Variabel
Diskrit dan Kontinu
A. Variabel Diskrit
Menggunakan bar chart (diagram batang)
Biasanya ada celah antara batang, karena nilai diskrit tidak
kontinu.
Setiap batang mewakili hasil yang dapat dihitung
B. Variabel Kontinu
Menggunakan histogram
Tidak ada celah antara batang, menunjukkan bahwa data bersifat
kontinu
Setiap nilai titik dapat ditempatkan di mana saja di sumbu x.
Bisa juga menggunakan density plot
2.4 Penyajian
Probabilitas
Probabilitas suatu nilai x pada variabel diskrit
dinyatakan dengan fungsi probabilitas (Probability Mass Function, PMF),
yaitu P(X = x).
Jumlah semua probabilitas untuk semua nilai yang mungkin adalah
1
\[\sum_{i} P(X = x_i) = 1\]
Probabilitas didefinisikan dengan fungsi kerapatan (Probability
Density Function, PDF) f(x).
Probabilitas berada dalam interval [a,b] adalah luas
area dibawah kurva f(x) dari a sampaii
b:
\[P(a \leq X \leq b) = \int_{a}^{b} f(x)
\, dx\]
Fungsi PDF selalu bernilai tidak negatif dan total luas di bawah
kurva adalah 1:
\[\int_{-\infty}^{\infty} f(x) \, dx =
1\]
Rumus PDF distribusi normal dengan mean μ dan standar
deviasi σ:
Grafiknya berbentuk kurva lonceng simetris, probabilitas suatu
intervalnya bisa dihitung dengan integral PDF atau menggunakan tabel Z
(standar normal).
Jika ingin menghitung probabilitas untuk variabel kontinu,
pendekatan umum adalah menggunakan fungsi distribusi kumulatif
(CDF):
Untuk mendapatkan probabilitas suatu rentang [a,b]:
\[P(a \leq X \leq b) = F(b) -
F(a)\]
3 Sampling
Distribution
3.1 Pengertian
Distribusi sampel (sample distribution) adalah distribusi data dari
satu sampel tunggal yang diambil dari populasi, mencerminkan
variabilitas observasi individu dalam sampel tersebut, yang sering kali
tidak sepenuhnya mewakili populasi karena ukuran sampel kecil.
Sebaliknya, distribusi sampling (sampling distribution) adalah
distribusi probabilitas dari statistik sampel (seperti rata-rata atau
proporsi) yang dihitung dari banyak sampel acak sederhana yang diambil
berulang kali dari populasi yang sama, memungkinkan analisis perilaku
statistik secara teoritis.
3.2 Metode Pengambilan
Sampel dan Aplikasi
Metode sampling memengaruhi kualitas distribusi, seperti simple
random (setiap elemen sama peluangnya), stratified (populasi dibagi
strata homogen), systematic (interval tetap), atau cluster (berdasarkan
kelompok geografis). Distribusi sampling berguna untuk inferensi:
estimasi parameter populasi (misalnya μ) tanpa survei penuh,
uji hipotesis, dan interval kepercayaan, karena lebih efisien daripada
mengukur seluruh populasi besar. Dalam praktik, faktor koreksi
diterapkan jika populasi terbatas (n/N>5%) untuk
menyesuaikan varians.
3.3 Perbedaan Utama
Aspek
Distribusi Populasi
Distribusi Sampel
Distribusi Sampling
Sumber Data
Seluruh populasi (N elemen)
Satu sampel tunggal (n elemen)
Banyak sampel acak berulang (statistik seperti \(\bar{x}\))
Ukuran Variabilitas
Tinggi (σ)
Tinggi, mirip populasi tapi bias
Rendah \(\left( \frac{\sigma}{\sqrt{n}}
\right)\)
Rata-rata
μ (tetap)
\(\bar{x}\) (bervariasi)
μ (sama dengan populasi)
Aplikasi
Deskripsi penuh, jarang praktis
Analisis awal satu sampel
Inferensi: estimasi, uji hipotesis
Bentuk (jika n besar)
Apapun
Apapun
Normal (Central Limit Theorem)
3.4 Distribusi Sampling
Rata-Rata Sampel
Distribusi sampling rata-rata sampel memiliki rata-rata sama dengan
rata-rata populasi \[\quad \mu_{\bar{x}} =
\mu\] tetapi deviasi standar lebih kecil, yaitu standar error
(SE): \[\sigma_{\bar{x}} =
\frac{\sigma}{\sqrt{n}}\] karena rata-rata kurang bervariasi
daripada observasi individu. Jika sampel cukup banyak, distribusi ini
mendekati normal karena Central Limit Theorem, meskipun populasi tidak
normal. Notasi untuk distribusi sampling normal adalah \[\bar{x} \sim N\left(\mu,
\frac{\sigma}{\sqrt{n}}\right)\] dengan formula standarisasi
\[z = \frac{\bar{x} - \mu}{\sigma /
\sqrt{n}}\]
3.5 Contoh
Diketahui:
Tinggi orang Canada: normal, (μ = 160 cm, σ = 7 cm)
n = 10
Ditanya: P(rata-rata < 157)
Langkah:
\[SE = \frac{7}{\sqrt{10}} =
2.21\]
\[Z = \frac{157 - 160}{2.21} = -1.36 =>
0.0869\] Maka, probabilitas rata-rata tinggi 10 orang Canada <
157 cm adalah 0.0869.
Distribusi sampling berguna untuk inferensi statistik secara efisien,
seperti memperkirakan μ tanpa mengukur seluruh populasi
(misalnya tinggi rata-rata 8 miliar orang), serta menghitung
probabilitas berdasarkan ukuran sampel.
4 Central Limit
Theorem
4.1 Pengertian
Central Limit Theorem (CLT) memprediksi bentuk distribusi sampling
berdasarkan ukuran sampel. CLT mengatakan Jika ukuran sampel n cukup
besar, maka sampling distribution dari mean akan berbentuk normal,
terlepas dari bentuk distribusi asalnya.
Artinya :
Populasi awal bisa miring (skewed), tidak simetris atau tidak
normal.
Tapi, jika n besar -> distribusi rata-rata sampel akan tetap
mendekati normal.
Estimasi Rata-rata, artinya jika sampel diambil berulang kali dan
setiap kali dibuat interval \(\bar{x} \pm 1.96
\times \frac{\sigma}{\sqrt{n}}\) , maka setiap 95% interval
tersebut akan memuat nilai rata-rata yang sebenarnya.
Margin of Error, artinya makin besar \({\sigma}\) atau makin kecil n,
maka \({\sigma}/{\sqrt{n}}\) makin
besar sehingga margin of error melebar dan interval kepercayaan menjadi
kurang presisi.
Uji Hipotesis, di mana statistik uji z dihitung dari
data dan kemudian dibandingkan dengan nilai kritis, misalnya \(\pm 1.96\) untuk uji dua sisi dengan \({\alpha}\) = 0.05
5 Sample Proportion
5.1 Pengertian
Distribusi Sampling Proporsi Sampel \(\hat{(p)}\) adalah distribusi probabilitas
dari berbagai nilai \(\hat{p}\) yang
mungkin dihasilkan dari pengulangan sampel acak sederhana dari populasi
biner/sukses-gagal.
Minimum n tergantung p: Jika p = 0.1,
\(n \geq 100\) (karena 100 x 0.1 =
10).
5.3 Contoh
Sebuah survei nasional menemukan bahwa 40% penduduk memiliki
kebiasaan berolahraga minimal 3 kali per minggu. Kita melakukan survei
acak terhadap n = 100 orang.
Pertanyaan:
Tentukan mean dan standard deviation dari sampling distribution
Periksa apakah kondisi CLT untuk proporsi terpenuhi.
Keduanya terpenuhi → distribusi \(\hat{p}\) dapat dianggap normal.
\[\hat{p} \sim N{(0.40,
0.049)}\]
6 Review Sampling
Distribution
6.1 Contoh kasus
Misalnya kita memiliki sebuah toples berisi 200 kelereng hijau dan
300 kelereng biru. Jika sebuah kelereng diambil tiga kali dengan
pengembalian, berapa peluang terambilnya setidaknya dua kelereng
hijau?
6.2 Probabilitas dasar
& Sample space
Nilai Probabilitas: \[{P(Green)} =
\frac{200}{500} = 0.4\]
\[{P(Blue)} = \frac{300}{500} =
0.6\]
Outcome (Sample Space) :
GGG
GGB
GBG
GBB
BGG
BGB
BBG
BBB
Dengan 3 pengambilan, jumlah total outcome -> 2x2x2 = 8 \[{P(GGB)} = 0.4 × 0.4 × 0.6 = 0.096\]