Clara Maisie Wanghili
52250039
Student Major in Data Science at
Institut Teknologi Sains Bandung
Introduction
Probability Distribution
Probabilitas tidak hanya membantu kita memahami seberapa besar
kemungkinan suatu peristiwa terjadi, tetapi juga membentuk dasar dari
banyak metode statistik yang digunakan untuk pengambilan keputusan.
Ketika suatu proses atau eksperimen menghasilkan berbagai hasil, kita
menggunakan variabel acak untuk merepresentasikan hasil tersebut dan
distribusi probabilitas untuk menjelaskan bagaimana probabilitas
ditetapkan untuk setiap nilai yang mungkin. Memahami bentuk dan sifat
distribusi sangat penting karena menentukan bagaimana data berperilaku,
bagaimana kita menghitung probabilitas, dan bagaimana kita membuat
prediksi. Dari distribusi untuk variabel kontinu hingga perilaku
statistik seperti rata-rata sampel, distribusi probabilitas berfungsi
sebagai inti dari statistik inferensial.
Setiap bagian dilengkapi dengan penjelasan video untuk meningkatkan pemahaman konseptual. Dengan menguasai topik-topik ini, Anda akan lebih siap menganalisis data, membangun model statistik, dan menarik kesimpulan berdasarkan prinsip-prinsip probabilistik yang kuat.
1 Continuous Random
1.1 Variabel Acak
Suatu variabel acak dikatakan kontinu jika dapat mengambil nilai apa pun
dalam suatu interval pada garis bilangan riil. Contohnya meliputi:
tinggi, waktu, suhu, usia, tekanan, dan kecepatan.
Karakteristik utama:
- Variabel mengambil nilai dalam interval seperti \((a,b)\) atau bahkan \((-\infty ,+\infty )\).
- Probabilitas setiap titik tunggal selalu nol: \[(P(X=x)=0)\]
- Probabilitas hanya bermakna pada interval: \[(P(a\le X\le b)=\int
_{a}^{b}f(x)\,dx)\]
ini adalah fungsi densitas probabilitas (PDF). Variabel acak dibagi menjadi 2 jenis yaitu variabel acak diskret dan variabel acak kontinu.
1.2 Variabel Acak Diskret (Discrete Random Variable)
Variabel yang hanya bisa mengambil nilai diskret, nilainya terbatas dan
terpisah, (contohnya jumlah orang, dan hasil lemparan dadu).
Untuk
variabel diskret, kita bisa hitung probabilitas langsung bahwa variabel
= nilai tertentu, misalnya \(P(X =
3)\).
Maka bentuk distribusinya bukan lagi “distribusi
peluang diskret”, melainkan fungsi densitas probabilitas (probability
density function, PDF).
Untuk variabel diskret kita pakai
rumus–rumus probabilitas konvensional (jumlah cara, peluang tiap
kejadian.
1.3 Variabel Acak Kontinu (Continuous Random Variable)
Variabel yang bisa mengambil nilai dalam rentang kontinu, nilainya dapat
mengambil apa pun dalam interval tertentu pada garis bilangan
real/pecahan, misal: tinggi badan, waktu, suhu, dan tekanan.
Untuk
variabel kontinu, probabilitas bahwa variabel tepat sama dengan satu
nilai spesifik adalah hampir nol. Oleh karena itu kita berbicara soal
probabilitas dalam interval atau rentang nilai. Contoh: P( X berada
antara 170.0 sampai 180.0 cm ).
Untuk variabel kontinu, kita tidak
menggunakan “rumus probabilitas diskret” langsung, melainkan menggunakan
konsep distribusi kontinyu + integrasi (area di bawah kurva densitas)
untuk menghitung probabilitas dalam rentang nilai. Oleh sebab itu
dibutuhkan pendekatan atau distribusi densitas (PDF) & integrasi
(area) yang berbeda dari probabilitas diskret.
1.4 Rumus Probabilitas Untuk Dua Jenis Variabel
\[P(k)={n \choose
k}p^{k}(1-p)^{n-k}\] Ini adalah rumus untuk distribusi
binomial, yang menghitung probabilitas mendapatkan tepat \(k\) keberhasilan dalam \(n\) percobaan independen, di mana \(p\) adalah probabilitas keberhasilan
tunggal.
\[P(A\cup B)=P(A)+P(B)–P(A\cap B)\] Ini adalah aturan penjumlahan untuk probabilitas, yang menghitung probabilitas terjadinya kejadian A atau B (atau keduanya).
\[P(A\cap B)=P(A)\times P(B)\] Ini adalah aturan perkalian untuk probabilitas terjadinya kejadian A dan B, berlaku jika A dan B adalah kejadian independen (saling bebas).
\[P(A^{c})=1-P(A)\] Ini
adalah rumus untuk probabilitas komplemen dari suatu kejadian A (\(A^{c}\)), yang berarti probabilitas bahwa
kejadian A tidak terjadi.
\[A= {L}\times{W}\] Rumus luas persegi panjang, digunakan dalam konteks probabilitas untuk menghitung luas di bawah kurva fungsi kepadatan probabilitas seragam (uniform probability density function). \[A = \frac{bh}{2}\] Probabilitas dihitung dengan mencari area di bawah fungsi kepadatan untuk rentang nilai yang diminati. Karena bentuknya segitiga atau trapesium (jika probabilitas yang dicari tidak mencakup puncak), rumus geometri standar digunakan.
\[Z = \frac{\mathbf{x-\mu }}{\mathbf{\sigma }}\] Ini adalah rumus z-score atau nilai standar, yang mengukur berapa standar deviasi jarak antara nilai mentah (x) dari rata-rata populasi (\(\mathbf{\mu }\)), di mana σ adalah standar deviasi. Ini sangat penting dalam distribusi normal.2 Sampling Distributions
2.1 Distribusi Sampel dan Distribusi Sampling
Distribusi Sampel
Distribusi sampel adalah distribusi data yang diperoleh dari satu sampel
tunggal dari populasi.
Contoh: kita mengambil 10 mahasiswa dari
universitas dan mencatat tinggi badannya. Data dari 10 orang ini adalah
sample distribution.
Distribusi Sampling
Distribusi sampling adalah distribusi teoretis dari suatu statistik (misalnya rata-rata sampel yang diperoleh jika kita mengambil banyak sampel acak sederhana berulang kali dari populasi yang sama. Rata-rata tiap sampel (\(\bar{x}\)) dapat berbeda-beda dan tidak selalu sama dengan rata-rata populasi (\(\mu\)).
2.2 Perbedaan Distribusi Sampel dan Distribusi Sampling
| Aspek | Distribusi_Populasi | Distribusi_Sampling |
|---|---|---|
| Definisi | Penyebaran nilai dari seluruh individu dalam populasi. | Distribusi rata-rata sampel dari banyak sampel acak berulang. |
| Mean (Rata-rata) | Menggunakan mean populasi (µ). | Rata-rata distribusi sampling = µ. |
| Standar Deviasi | Menggunakan standar deviasi populasi (σ). | Menggunakan standard error (σ / √n). |
| Variabilitas | Variabilitas tinggi karena mencakup semua individu. | Variabilitas lebih kecil dan lebih stabil. |
| Contoh Penggunaan | Menentukan proporsi tinggi > nilai tertentu. | Menghitung peluang rata-rata sampel tertentu. |
rata-rata dari semua rata-rata sampel (\(\bar{x}\)) akan sama persis dengan rata-rata populasi (\(\mu\)), tetapi penyebaran data dalam distribusi sampling (diukur dengan standard error) lebih sempit dibandingkan penyebaran data individu dalam populasi.
2.3 Formula Standarirasi (Z Score)
Formula Z-score digunakan untuk mengukur seberapa jauh suatu nilai dari
rata-rata dalam satuan simpangan baku. Formulanya berbeda tergantung
pada distribusi mana yang digunakan:
\[ Z = \frac{\bar{x} - \mu}{\sigma / \sqrt{n}} \]
Distribusi sampling sangat berguna untuk mengestimasi \(\mu\) tanpa perlu mengukur seluruh populasi dan untuk menghitung probabilitas hasil sampel tertentu berdasarkan ukuran sampel (\(n\)).2.4 Contoh Perhitungan
Contoh 1: Menggunakan Distribusi Sampling (melibatkan rata-rata n=10 orang)
Menghitung probabilitas rata-rata tinggi 10 orang Kanada kurang dari 157
cm (\(\mu =160\) cm, \(\sigma =7\) cm).
Jawab:
1. Hitung Standard Error:
\[\frac{\sigma
}{\sqrt{n}}=\frac{7}{\sqrt{10}}\approx 2.21 cm\] 2.
Hitung Z-score untuk rata-rata 157 cm: \[Z=\frac{157-160}{2.21}\approx -1.36\]
Probabilitas yang didapat adalah 0.0869.
Contoh 2: Menggunakan Distribusi Populasi (melibatkan tinggi 1 orang individu)
Menghitung proporsi semua orang dengan tinggi lebih dari 170 cm
(menggunakan data individu).
Jawab:
1.
Hitung Z-score untuk tinggi 170 cm (menggunakan \(\sigma\) penuh): \[Z=\frac{170-160}{7}\approx 1.43\]
2. Menggunakan tabel Z, area ke kiri adalah 0.9236.
3. Area ke kanan (\(P(X>170)\)) adalah \(1-0.9236=0.0764\).
Proporsi
orang di populasi tersebut yang memiliki tinggi lebih dari 170 cm adalah
sekitar 7.64%.
3 Central Limit Theorem
3.1 Definisi Central Limit Theorem (CLT)
Central Limit Theorem (CLT) atau Teorema Batas Pusat memprediksi bentuk distribusi dari rata-rata sampel berdasarkan ukuran sampel (\(n\)). Teorema ini menyatakan bahwa jika ukuran sampel cukup besar, maka distribusi rata-rata sampel akan mendekati distribusi normal, apa pun bentuk distribusi populasi aslinya. Sekalipun populasi aslinya memiliki distribusi yang miring (skewed) atau tidak beraturan, distribusi rata-rata sampel yang dihasilkan akan cenderung berbentuk normal jika jumlah sampelnya mencukupi.
3.2 Aturan Umum Central Limit Theorem
Distribusi sampling dari rata-rata sampel akan mendekati normal
ketika ukuran sampel lebih besar dari atau sama dengan 30.
Aproksimasi normal tidak akan akurat kita tidak bisa menerapkan
teorema batas pusat, karena variabilitas yang meningkat dan risiko
sampel yang tidak biasa muncul secara kebetulan.
Jika distribusi populasi tempat yang dipilih mengambil sampel yang sudah terdistribusi normal sejak awal, maka distribusi sampling akan normal bahkan dengan ukuran sampel yang lebih kecil.
3.3 Contoh Soal
Untuk setiap distribusi populasi yang dijelaskan di bawah ini, pilihan
mana yang akan menghasilkan distribusi sampling yang kira-kira
normal?
a. distribusi populasi persegi panjang, ukuran sampel 15
b. distribusi populasi bimodal, ukuran sampel 29
c. distribusi
populasi miring, ukuran sampel 40
d. distribusi populasi segitiga,
ukuran sampel 35
e. distribusi populasi normal, ukuran sampel 20
f. distribusi populasi normal, ukuran sampel 30
Jawab:
a. persegi panjang, \(n=15\): Tidak menghasilkan distribusi
normal ( \(n<30\)).
b. bimodal,
\(n=29\): Tidak menghasilkan distribusi
normal ( \(n<30\)).
c. miring,
\(n=40\): Menghasilkan distribusi
normal ( \(n\ge 30\)).
d. segitiga,
\(n=35\): Menghasilkan distribusi
normal ( \(n\ge 30\)).
e. normal,
\(n=20\): Menghasilkan distribusi
normal (populasi sudah normal, aturan \(n\ge
30\) tidak diperlukan).
f. normal, \(n=30\): Menghasilkan distribusi normal
(populasi sudah normal dan \(n\ge 30\)
terpenuhi).
3.4 Visualisasi Central Limit Theorem
library(ggplot2)
library(gridExtra)
library(grid)
set.seed(123)
# Parameter Simulasi
pop_size <- 100000 # Ukuran populasi besar
sample_size <- 30 # Ukuran sampel
num_samples <- 1000 # Jumlah sampel yang diambil
# a. Buat Populasi Asli (menggunakan Distribusi Gamma yang miring/skewed)
# Mean = shape * scale = 2 * 1 = 2
population <- rgamma(pop_size, shape = 2, scale = 1)
pop_mean <- mean(population)
# b. Ambil Rata-rata Sampel Berulang Kali
sample_means <- replicate(num_samples, mean(sample(population, size = sample_size, replace = TRUE)))
# Menggabungkan data ke dalam data frame untuk ggplot
df_pop <- data.frame(value = population)
df_means <- data.frame(value = sample_means)
# Visualisasi
color_pop <- "#AED6F1"
color_means <- "#F9E79F"
# Plot 1: Distribusi Populasi Asli (Miring)
plot_pop <- ggplot(df_pop, aes(x = value)) +
geom_histogram(aes(y = after_stat(density)), bins = 50, fill = color_pop, color = "white", alpha = 0.8) +
geom_density(color = "darkred", linewidth = 1) +
labs(title = "Distribusi Populasi Asli (Miring)",
x = "Nilai",
y = "Densitas") +
theme_minimal() +
theme(plot.title = element_text(hjust = 0.5, face = "bold", size = 10, margin = margin(t = 10, b = 10))) +
theme(plot.margin = margin(t = 20, r = 5, b = 5, l = 5, unit = "pt"))
# Plot 2: Distribusi Sampling Rata-rata Sampel (Normal)
plot_means <- ggplot(df_means, aes(x = value)) +
geom_histogram(aes(y = after_stat(density)), bins = 30, fill = color_means, color = "white", alpha = 0.8) +
geom_density(color = "darkblue", linewidth = 1) +
# Tambahkan kurva normal ideal di atasnya untuk perbandingan
stat_function(fun = dnorm, args = list(mean = mean(sample_means), sd = sd(sample_means)), color = "black", linetype = "dashed", linewidth = 1) +
labs(title = paste0("Distribusi Sampling Rata-rata (Normal)"),
x = "Rata-rata Sampel",
y = "Densitas") +
theme_minimal() +
theme(plot.title = element_text(hjust = 0.5, face = "bold", size = 10, margin = margin(t = 10, b = 10))) +
theme(plot.margin = margin(t = 20, r = 5, b = 5, l = 5, unit = "pt"))
# Tampilkan kedua plot secara berdampingan
grid.arrange(plot_pop, plot_means, ncol =2,
top = textGrob("Visualisasi Central Limit Theorem",
gp = gpar(fontsize = 16, fontface = "bold")),
padding = unit(10, "mm"))
Visualisasi kiri (Distribusi Populasi Asli) menunjukkan bahwa data asli dalam populasi bisa berbentuk miring (tidak normal/tidak simetris). Sedangkan visualisasi kanan (Distribusi Sampling Rata-rata) menunjukkan bahwa ketika Anda mengambil banyak sampel dari populasi miring tersebut dan memplot rata-rata dari setiap sampel, distribusinya secara otomatis berubah menjadi normal (berbentuk lonceng) dan simetris. Dengan kata lain, visualisasi ini menunjukkan bahwa rata-rata sampel cenderung terdistribusi normal, tidak peduli bentuk populasi aslinya, asalkan ukuran sampelnya cukup besar.
4 Sampel Proportion
4.1 Definisi Dasar
Distribusi Sampling
Ini adalah distribusi
probabilitas dari suatu statistik (seperti rata-rata sampel \(\bar{x}\) atau proporsi sampel \(\hat{p}\)) yang diperoleh dengan mengambil
sampel berulang kali dari populasi yang sama. Jika Anda mengambil banyak
sampel dan memplot proporsi dari setiap sampel, Anda akan mendapatkan
distribusi sampling proporsi.
4.2 Proporsi
Proporsi adalah fraksi dari hasil yang menguntungkan terhadap keseluruhan, yaitu ukuran yang menunjukkan bagian relatif dari hasil yang diinginkan. Misalnya, proporsi dapat dihitung sebagai jumlah orang bermata hijau dibagi dengan total jumlah orang dalam sampel.
• \(\hat{p}\) p-hat (p-topi): Proporsi Sampel (dari data yang dikumpulkan).
• \(p\): Proporsi Populasi (nilai sebenarnya yang ingin diperkirakan).
• Rumus untuk menghitung proporsi:
\(\frac{\text{jumlah hasil yang
menguntungkan}}{\text{jumlah total hasil}}\)
4.3 Distribusi Sampling dari Proporsi Sampel
ini sebuah distribusi statistik \(\hat{p}\), yang dibuat dari pengambilan sampel acak berulang kali. Seperti distribusi apapun itu akan berisi nilai untuk mean dan nilai untuk standar deviasi, karena distribusi ini pada dasarnya terdiri dari sekelompok p-hat \(\hat{p}\).
Mean dan standar deviasi dapat dinyatakan sebagai:
• Mean (rata-rata) = \(\mu_{\hat{p}}\)
• standar deviasi = \(\sigma_{\hat{p}}\)
Standar deviasi dapat dinyatakan sebagai Sigma p-hat jika distribusi sampling dari proposi sampel normal dan mengikuti Central Limit Theorem.
4.4 Ada 3 Hal yang akan ditemukan pada Distribusi Sampling dari Proporsi Sampel
1. \(\mu_{\hat{p}}=
p\)
bahwa mu p-hat = p, ini berarti rata-rata dari
semua p-hat yang digabungkan sama dengan proporsi populasi p.
2. \(\sigma
_{\hat{p}}=\sqrt{\frac{pq}{n}}\)
ini berarti standar
deviasi sigma p-hat sama dengan akar kuadrat dari \({\frac{pq}{n}}\)
dimana:
• n = ukuran sampel
• p = proporsi hasil yang sukses
• q = proporsi gagal
3. \(\sigma _{\hat{p}}=\sqrt{\frac{p(1-p)}{n}}\)bahwa distribusi sampling dari proporsi sampel mengikuti distribusi normal dengan mean p dan standar deviasi kuadrat dari \({p}\times{1}-\frac{p}{n}\) maka dapat menggunakan tabel z-score untuk membantu menghitung area tertentu.
Rumus:
\[z=\frac{\hat{p}-p}{\sqrt{\frac{p(1-p)}{n}}}\] dimana:
• z = Skor standar, yang mengukur berapa kali simpangan baku jarak \(\hat{p}\) dari rata-rata populasi \(p\).
• \(\hat{p}-p\) = Perbedaan antara proporsi sampel yang diamati dan proporsi populasi yang sebenarnya.
• \(\sqrt{\frac{p(1-p)}{n}}\) = Pembagi (standard deviasi) yang digunakan untuk menstandardisasi perbedaan tersebut.
4.5 Central Limit Theorem
Central Limit Theorem (Teorema Batas Pusat) diterapkan secara berbeda
dalam Distribusi Sampling.
1. Distribusi Sampling Rata-rata
Sampel (\(\bar{x}\))
\(n\ge 30\) = ini berlaku ketika ukuran
sampel n lebih besar atau sama dengan 30.
2. Distribusi
Sampling Proporsi Sampel (\(\hat{p}\))
proporsi sampel
p-hat harus memenuhi kondisi:
• \(np\ge 10\)
• \(n(1-p)\ge 10\)
Jika kedua kondisi ini terpenuhi maka Teorema Batas Pusat dapat diterapkan dan tabel z-score dapat digunakan menggunakan standar deviasi.4.6 Visualisasi Sample Proportion
library(ggplot2)
p_populasi <- 0.6
ukuran_sampel <- 50
jumlah_simulasi <- 1000
# Melakukan simulasi
hasil_counts <- rbinom(n = jumlah_simulasi, size = ukuran_sampel, prob = p_populasi)
proporsi_sampel <- hasil_counts / ukuran_sampel
data_simulasi <- data.frame(p_hat = proporsi_sampel)
# Visualisasi
mean_teoritis <- p_populasi
se_teoritis <- sqrt(p_populasi * (1 - p_populasi) / ukuran_sampel)
ggplot(data_simulasi, aes(x = p_hat)) +
geom_histogram(aes(y = after_stat(density)),
binwidth = 0.01,
fill = "#CCEEFF",
color = "#666666",
alpha = 0.8) +
stat_function(fun = dnorm,
args = list(mean = mean_teoritis, sd = se_teoritis),
color = "#FF9999",
lwd = 1.5) +
geom_vline(xintercept = mean_teoritis,
color = "#88CCEE",
linetype = "dashed",
lwd = 1) +
labs(title = "Visualisasi Distribusi Sampling Proporsi",
subtitle = paste("Populasi p =", p_populasi, "| Ukuran Sampel n =", ukuran_sampel, "|", jumlah_simulasi, "Simulasi"),
x = "Proporsi Sampel (p-hat)",
y = "Densitas") +
theme_minimal() +
theme(
plot.title = element_text(size = 16, face = "bold", color = "#555555", hjust = 0.5),
plot.subtitle = element_text(color = "#777777", hjust = 0.5),
axis.title = element_text(color = "#555555")
)
Visualisasi pada gambar menunjukkan hasil dari 1000 simulasi pengambilan sampel proporsi dari populasi dengan proporsi asli \(p=0.6\). Histogram yang dihasilkan membentuk kurva lonceng yang simetris, membuktikan bahwa Teorema Batas Pusat berlaku untuk distribusi sampling proporsi. Puncak kurva yang berada tepat di angka 0.6 (ditunjukkan oleh garis putus-putus vertikal) mengindikasikan bahwa rata-rata dari semua proporsi sampel tersebut secara akurat memprediksi proporsi populasi yang sebenarnya. Sebaran atau lebar kurva di sekitar nilai tengah menunjukkan variabilitas alami yang mungkin terjadi saat kita mengambil sampel acak dari populasi tersebut.
5 Review sampling Distributions
Contoh Soal
Contoh 1
Misalkan kita memiliki toples yang berisi 200 kelereng hijau, dan 300
kelereng biru. Jika sebuah kelereng diambil tiga kali dengan
pengembalian, berapa probabilitas mengambil setidaknya dua kelereng
hijau?
Jawab:
\(P(\text{Hijau})=\frac{\text{jumlah hasil yang
berhasil}}{\text{jumlah total hasil}} =\frac{200}{500}\)
\(P(\text{Hijau})=0.4\)
\(P(\text{Biru})=\frac{\text{jumlah hasil
yang tidak berhasil}}{\text{jumlah total
hasil}}=\frac{300}{500}\)
\(P(\text{Biru})=0.6\)
\(P(\text{tepat 2 Hijau})=\mathbf{0.288}\)
\(P(\text{tepat 3 Hijau})=\mathbf{0.064}\)
Total Probabilitas = \(0.288+0.064=\mathbf{0.352}\)
Contoh 2
Misalkan kita memiliki toples yang berisi 200 kelereng hijau, dan 300
kelereng biru. Jika sebuah kelereng diambil lima kali dengan
berulang-ulang, berapa probabilitas mengambil setidaknya dua kelereng
hijau?
Jawab:
\(P(\text{Hijau})=0.4\)
\(P(\text{Biru})=0.6\)
Untuk ini
menggunakan rumus probabilitas binomial:
\[P(k)={n \choose k}p^{k}(1-p)^{n-k}\]
dimana:
• k = jumlah sukses
• n = jumlah
percobaan
• p = peluang sukses
Kita ingin mencari probabilitas mengambil setidaknya dua kelereng
hijau, yaitu \(P(k\ge 2)\). Ini berarti
kita harus menjumlahkan probabilitas dari \(k=2\), \(k=3\), \(k=4\), dan \(k=5\).
\[P(2)={5 \choose 2}(0.4)^{2}(0.6)^{5-2}=10\cdot 0.16\cdot 0.216=0.3456\] 2. P(k=3)
\[P(3)={5 \choose 3}(0.4)^{3}(0.6)^{5-3}=10\cdot 0.064\cdot 0.36=0.2304\] 3. P(k=4)
\[P(4)={5 \choose 4}(0.4)^{4}(0.6)^{5-4}=5\cdot 0.0256\cdot 0.6=0.0768\] 4. P(k=5)
\[P(5)={5 \choose 5}(0.4)^{5}(0.6)^{5-5}=1\cdot 0.01024\cdot 1=0.01024\] 5. Jumlahkan semua probabilitas
\[P(k\ge 2)=P(k=2)+P(k=3)+P(k=4)+P(k=5)\] \[P(k\ge 2)=0.3456+0.2304+0.0768+0.01024 =0.66304\] Total probabilitas mengambil setidaknya dua kelereng hijau adalah 0.66304 atau 66.304%.
Contoh 3
Misalkan kita memiliki toples yang berisi 200 kelereng hijau, dan 300
kelereng biru. Jika sebuah kelereng diambil 100 kali dengan
berulang-ulang, berapa perkiraan probabilitas mengambil setidaknya 35
kelereng hijau?
Ini bisa menggunakan cara distribusi sampling dari
proporsi sampel, tapi sebelum itu kita perlu memeriksa apakah central
limit theorem (teorema batas pusat) dapat diterapkan untuk distribusi
sampling dari proporsi sampel.
1. \(np\ge 10\)
2. \(n(1-p)\ge
10\)
Diketahui:
\(P(\text{Hijau})=0.4\)
\(P(\text{Biru})=0.6\)
\(n = 100\)
Jawab:
1. \(np\ge
10\) \[np\ge 10 =
{100}\times{0.4} = 40\] 2. \(n(1-p)\ge 10\) \[n(1-p)\ge 10 = {100}\times(1-0.4) = 60\]
Karena kedua kondisi ini terpenuhi central limit theorem dapat
diterapkan dan tabel z-score dapat digunakan dengan menggunakan rumus
standar deviasi.
Karena kurva lonceng ini adalah kurva kepadatan, ini berarti luas
total sama dengan 1 atau 100%, jadi kita akan melakukan: \[1-0.1539 = 0.8461\] yang itu berarti luas
yang ada di sebelah kanan, 35 sebagai hasilnya, probabilitas perkiraan
untuk mengambil sekiranya 35 kelereng hijau adalah 0.8461 atau
84,61%.
Penting untuk diketahui bahwa ini adalah probabilitas
perkiraan , bukan probabilitas pasti, namun hasilnya memang cukup dekat
dengan jawaban sebenarnya, dan itu sudah cukup baik.
Conclusion
Secara Keseluruhan:
• Dengan memahami jenis variabel acak (diskret vs kontinu) dan
distribusi probabilitas, kita bisa secara tepat memodelkan fenomena
acak, misalnya banyaknya keberhasilan dalam percobaan, atau distribusi
tinggi badan di populasi.
• Dengan konsep distribusi sampling + CLT, kita bisa membuat
inferensi, yaitu menarik kesimpulan tentang populasi besar berdasarkan
satu sampel. Kita tidak perlu mengukur seluruh populasi (sering tidak
mungkin). Cukup dengan analisis statistik terhadap sampel.
• Dengan distribusi sampling proporsi, kita bisa memperkirakan
proporsi populasi berdasarkan data sampel (berguna dalam survei,
polling, epidemiologi, riset masyarakat, dsb).
Secara umum ini adalah landasan statistik inferensial, yaitu membuat prediksi, estimasi, uji hipotesis dengan kerangka probabilitas yang kuat.
References
[1] Siregar, B. (n.d.). Introduction to statistics: Chapter 7: Probability Distribution. dsciencelabs. https://bookdown.org/dsciencelabs/intro_statistics/07-Probability_Distributions.html
[2] Rice University. Introductory Statistic: 7.3 Using the Central Limit Theorem. openstax. https://openstax.org/books/introductory-statistics/pages/7-3-using-the-central-limit-theorem