Probability Distribution

Logo

Distribusi Probabilitas

Probabilitas tidak hanya membantu kita memahami seberapa besar kemungkinan suatu kejadian terjadi, tetapi juga menjadi dasar dari banyak metode statistik yang digunakan untuk pengambilan keputusan. Ketika suatu proses atau percobaan menghasilkan berbagai kemungkinan hasil, kita menggunakan variabel acak untuk merepresentasikan hasil-hasil tersebut, dan distribusi probabilitas untuk menjelaskan bagaimana probabilitas diberikan pada setiap nilai yang mungkin. Memahami bentuk dan sifat distribusi sangat penting karena menentukan bagaimana data berperilaku, bagaimana kita menghitung probabilitas, dan bagaimana kita membuat prediksi. Mulai dari distribusi untuk variabel kontinu hingga perilaku statistik seperti rata-rata sampel, distribusi probabilitas menjadi inti dari statistik inferensial.

Materi yang Akan Dibahas
1
Variabel Acak Kontinu
menjelaskan kemungkinan nilai-nilai dalam suatu rentang kontinu.
2
Distribusi Sampling
merepresentasikan distribusi dari statistik sampel seperti rata-rata sampel atau proporsi sampel.
3
Teorema Limit Pusat (Central Limit Theorem/CLT)
menjelaskan mengapa distribusi rata-rata sampel cenderung normal meskipun bentuk distribusi populasi dasarnya berbeda.
4
Distribusi Proporsi Sampel
Banyak digunakan dalam analisis survei dan penelitian kuantitatif.

1 Variabel Acak Kontinu

Untuk memahami variabel acak kontinu, penting untuk mengetahui bagaimana probabilitas direpresentasikan menggunakan Fungsi Kepadatan Probabilitas (Probability Density Function / PDF). Berbeda dengan variabel acak diskrit, variabel acak kontinu tidak memberikan probabilitas pada titik-titik individu. Sebagai gantinya, probabilitas diperoleh dari luas di bawah kurva PDF.

1.1 Variabel Acak

Sebuah variabel acak disebut kontinu jika variabel tersebut dapat mengambil nilai apa pun dalam suatu interval pada garis bilangan real. Contohnya meliputi: tinggi badan, waktu, suhu, umur, tekanan, dan kecepatan.

Karakteristik utamanya:

  • Variabel tersebut dapat mengambil nilai-nilai dalam suatu interval seperti (a, b) atau bahkan (-∞, ∞).

  • Probabilitas pada satu titik tertentu selalu bernilai nol:

\[P(X = x) = 0\]

  • Probabilitas hanya bermakna jika dihitung pada sebuah interval:

\[P(a \le X \le b) = \int_{a}^{b} f(x)\, dx\]

1.2 Fungsi Kepadatan Probabilitas

Fungsi f(x) disebut sebagai Probability Density Function (PDF) yang valid jika memenuhi syarat berikut:

  • Tidak Bernilai Negatif

\[f(x) \ge 0 \quad \forall x\]

  • Luas total sama dengan 1

\[\int_{-\infty}^{\infty} f(x)\, dx = 1\]

Interpretasi:

Nilai f(x) yang lebih besar menunjukkan kepadatan probabilitas yang lebih tinggi di sekitar nilai tersebut.

Namun, f(x) bukanlah probabilitas; probabilitas diperoleh dari luas di bawah kurva (area under the curve).

1.3 Probabilitas Pada Interval

Untuk menghitung probabilitas dalam suatu interval

\[P(a \le X \le b) = \int_{a}^{b} 3x^{2}\, dx\]

Contoh :

\[P(0.5 \le X \le 1)\]

1.4 Fungsi Distribusi Kumulatif (CDF)

Fungsi Distribusi Kumulatif (CDF) didefinisikan sebagai:

\[F(x) = P(X \leq x) = \int_{0}^{x} 3t^{2} \, dt = x^{3}\]

Hubungan antara PDF (Probability Density Function) dan CDF ((Cumulative Distribution Function))

\[f(x) = F'(x)\]

Interpretasi :

Rumus ini menunjukkan hubungan fundamental antara PDF (Probability Density Function) f(x) dan CDF (Cumulative Distribution Function) F(x), di mana PDF merupakan turunan dari CDF.

2 Distribusi Sampling

Sebelum mempelajari konsep distribusi sampling secara mendetail, video ini memberikan penjelasan visual yang jelas tentang bagaimana statistik, seperti rata-rata sampel, berperilaku ketika diambil berulang kali dari populasi yang sama. Video ini memberikan dasar yang intuitif untuk memahami variabilitas, ketidakpastian, dan mengapa distribusi sampling sangat penting dalam inferensi statistik.

2.1 Sampel

Sampel adalah sebagian kecil dari populasi yang kita periksa untuk menarik kesimpulan. Rata-rata sampel tidak selalu sama dengan rata-rata populasi. Hal ini karena sampel berskala lebih kecil, memiliki variabilitas lebih tinggi, informasi yang terbatas, dan tidak selalu mewakili populasi secara akurat.

2.2 Distribusi Sampling

Distribusi sampling adalah suatu distribusi yang diperoleh dengan mengambil sampel secara berulang dari sebuah populasi, kemudian menghitung suatu statistik (seperti mean,dan standar deviasi) untuk setiap sampel. Nilai-nilai statistik tersebut kemudian digabungkan sehingga membentuk sebuah distribusi yang menggambarkan statistik tersebut di seluruh kemungkinan sampel.

Kegunaan Distribusi Sampling

Distribusi Sampling digunakan karena Kemudahan dan Efisiensinya. contohnya Jika kita ingin mengetahui rata-rata tinggi seluruh manusia di bumi, secara teori kita harus mengukur dan mencatat tinggi setiap individu. Proses tersebut tentu memerlukan tenaga, waktu, dan biaya yang sangat besar. Di sinilah distribusi sampling menjadi berguna. Dengan mengambil sebagian kecil populasi (sampel) dan memahami distribusi sampling, kita dapat memperkirakan parameter populasi secara efisien serta menghitung probabilitas memperoleh hasil tertentu berdasarkan ukuran sampel yang digunakan. Distribusi sampling membuat proses estimasi jauh lebih praktis tanpa harus mengumpulkan data dari seluruh populasi.

Cara Membuat dan menghitung Distribusi Sampling dari Rata-rata Sampel

  • Menentukan Object yang akan di evaluasi. contohnya tinggi badan, berat badan, warna bola mata, dan nilai ulangan. Kali ini kita akan membuat contoh rata rata tinggi badan di sebuah wilayah.

  • Tentukan Ukuran Sampel yang akan dihitung. contoh kita membutuhkan 1000 orang dalam perhitungan rata rata tinggi badan. lalu kelompokkan lagi menjadi skala yang lebih kecil misalnya 50 orang untuk sekali perhitungan.

Catatan : Semakin besar n, distribusi sampling rata-rata akan mendekati distribusi normal (Teorema Limit Pusat).

  • Mengumpulkan data yang kita perlukan. Pada evaluasi kali ini kita membutuhkan data berupa tinggi badan setiap orang yang terlibat.

  • Hitung Rata Rata setiap 10 orang dengan rumus :

\[ \bar{x} = \frac{\text{Jumlah tinggi badan dalam sampel}}{n} \]

  • Ulangi kalkulasi dengan hal serupa hingga seluruh random sampling telah terhitung

  • Buat Distribusi Frekuensi dari Rata-rata Sampel. Hasilnya adalah sampling distribution of the sample mean.

Contoh Distribusi Frekuensi

library(ggplot2)

set.seed(123)

# Parameter
pop_mean <- 165
pop_sd <- 8
n <- 50
n_samples <- 1000

# Generate sampling distribution
sampling_means <- replicate(n_samples, {
  mean(rnorm(n, pop_mean, pop_sd))
})

# Plot sederhana
ggplot(data.frame(means = sampling_means), aes(x = means)) +
  geom_histogram(aes(y = ..density..), 
                 bins = 25, 
                 fill = "#800000", 
                 alpha = 0.7) +
  geom_density(color = "#000080", size = 1.2) +
  geom_vline(xintercept = pop_mean, 
             color = "green", 
             size = 1.5, 
             linetype = "dashed") +
  labs(title = "Distribusi Sampling Rata-rata Tinggi Badan",
       subtitle = paste("n =", n, "| Berdasarkan", n_samples, "sampel"),
       x = "Rata-rata Sampel (cm)",
       y = "Frekuensi Relatif") +
  theme_minimal() +
  theme(
    plot.title = element_text(size = 16, face = "bold", hjust = 0.5),
    plot.subtitle = element_text(size = 12, hjust = 0.5)
  )

2.3 Perbedaan Distribusi Sampling dan Distribusi Populasi

Perbedaan Distribusi Populasi dan Distribusi Sampling

Perbedaan Distribusi Populasi dan Distribusi Sampling

Parameter Distribusi Populasi Distribusi Sampling
Rata-rata μ μ = μ
Standar Deviasi σ σ = σ/√n
Notasi Distribusi (Ketika variable acak x mengikuti distribusi normal dengan mean) X ~ N(μ, σ) X̄ ~ N(μ, σ/√n)
Standardisasi z = (x-μ)/σ z = (x̄-μ)/(σ/√n)

Karakteristik Sebaran:

Distribusi Populasi

Sebarannya lebih besar karena terdiri dari nilai-nilai individu yang bervariasi satu sama lain.

Distribusi Sampling

Sebaran distribusi sampling lebih kecil karena rata-rata sampel tidak bervariasi sejauh nilai individu. Rata-rata dari setiap sampel akan cenderung mendekati μ, sehingga distribusi sampling menjadi lebih sempit..

Ringkasan

  • Populasi distribusi adalah distribusi yang menggambarkan nilai suatu karakteristik untuk seluruh individu dalam populasi.

  • Distribusi sampel adalah distribusi yang menunjukkan nilai karakteristik untuk individu-individu yang ada di dalam suatu sampel.

  • Distribusi sampling dibuat dengan cara mengambil banyak sampel secara berulang, menghitung statistik dari setiap sampel (misalnya mean), lalu menggabungkan semua nilai statistik tersebut hingga membentuk sebuah distribusi baru.

2.4 Studi Kasus

Studi Kasus 1

Tinggi rata rata orang kanada mengikuti normal distribusi memiliki rerata 160cm dan standart deviasi nya 7 cm. berapa peluang rata rata tinggi 10 orang acak yang kurang dari 157cm ?

Probabilitas Rata-rata Tinggi Badan

Probabilitas Rata-rata Tinggi Badan

Distribusi normal: μ = 160 cm, σ = 7 cm
Sampel: n = 10 orang
Peluang rata-rata tinggi < 157 cm?
1. Parameter Distribusi Sampling
μ = μ = 160 cm
σ = σ/√n = 7/√10
= 7/3.16227766
= 2.2136 cm
2. Hitung Z-score
Z = (x̄ - μ) / σ
= (157 - 160) / 2.2136
= (-3) / 2.2136
= -1.35534
3. Cari Nilai di Tabel Z Standard
P(Z < -1.355) = ?
Z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177
1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319
Untuk Z = -1.355:

1. Cari P(Z < 1.355) dari tabel:
Z = 1.355 = 1.35 + 0.005
P(Z < 1.35) = 0.9115 (dari baris 1.3, kolom 0.05)
P(Z < 1.36) = 0.9131 (dari baris 1.3, kolom 0.06)

2. Interpolasi linier untuk Z = 1.355:
P(Z < 1.355) = 0.9115 + 0.5×(0.9131 - 0.9115)
= 0.9115 + 0.0008 = 0.9123

3. Karena simetris:
P(Z < -1.355) = 1 - P(Z < 1.355)
= 1 - 0.9123 = 0.0877
Hasil: P(x̄ < 157) = 0.0877 atau 8.77%
Peluang rata-rata tinggi badan 10 orang kurang dari 157 cm adalah 8.77%
library(ggplot2)
library(gridExtra)

mu <- 160
sigma <- 7
n <- 10
sigma_xbar <- sigma / sqrt(n)
x_cut <- 157

# Z-score
Z <- (x_cut - mu) / sigma_xbar  # -1.35534

# Probabilitas
p_val <- pnorm(Z)   # 0.0877



# DATA DISTRIBUSI X-BAR

x <- seq(150, 170, length = 500)
y <- dnorm(x, mu, sigma_xbar)
df1 <- data.frame(x, y)
df1_shade <- subset(df1, x <= x_cut)



# DATA DISTRIBUSI Z

z <- seq(-4, 4, length = 500)
dz <- dnorm(z)
df2 <- data.frame(z, dz)
df2_shade <- subset(df2, z <= Z)



# PLOT 1: DISTRIBUSI X-BAR

p1 <- ggplot(df1, aes(x, y)) +
  geom_area(data = df1_shade, aes(x, y), fill = "navy", alpha = 0.55) +
  geom_line(color = "black", linewidth = 0.9) +
  geom_vline(xintercept = x_cut, color = "maroon", linewidth = 1) +
  annotate("text", x = x_cut, y = max(y)*0.9, label = "157",
           color = "maroon", hjust = -0.2, size = 4.5) +
  labs(
    title = "Distribusi X̄ (mean sampel)",
    subtitle = "Area biru = P(X̄ < 157)",
    x = "X̄",
    y = "Density"
  ) +
  theme_minimal(base_size = 14) +
  theme(
    plot.background = element_rect(fill = "#dce7f9", color = NA),
    panel.background = element_rect(fill = "#dce7f9"),
    plot.title = element_text(color = "navy", face = "bold", size = 16),
    plot.subtitle = element_text(color = "maroon")
  )



# PLOT 2: DISTRIBUSI Z

p2 <- ggplot(df2, aes(z, dz)) +
  geom_area(data = df2_shade, aes(z, dz), fill = "navy", alpha = 0.55) +
  geom_line(color = "black", linewidth = 0.9) +
  geom_vline(xintercept = Z, color = "maroon", linewidth = 1) +
  annotate("text", x = Z, y = max(dz)*0.9, 
           label = sprintf("%.2f", Z),
           color = "maroon", hjust = -0.2, size = 4.5) +
  labs(
    title = "Distribusi Z",
    subtitle = sprintf("Area biru = P(Z < %.2f) = %.4f", Z, p_val),
    x = "Z",
    y = "Density"
  ) +
  theme_minimal(base_size = 14) +
  theme(
    plot.background = element_rect(fill = "#dce7f9", color = NA),
    panel.background = element_rect(fill = "#dce7f9"),
    plot.title = element_text(color = "navy", face = "bold", size = 16),
    plot.subtitle = element_text(color = "maroon")
  )


# GABUNG 2 PLOT (ATAS–BAWAH)

grid.arrange(p1, p2, ncol = 1)

Berdasarkan grafik distribusi sampling rata-rata (X̄), area yang diarsir menunjukkan peluang bahwa rata-rata tinggi badan dari sampel berukuran 10 orang bernilai kurang dari 157 cm. Hasil perhitungan menunjukkan bahwa nilai tersebut berada 1.355 standar deviasi di bawah mean populasi, sehingga peluangnya adalah P(X̄ < 157) = 0.0877. Nilai ini berarti bahwa hanya sekitar 8.77% sampel berukuran 10 orang yang akan memiliki rata-rata kurang dari 157 cm apabila populasi sebenarnya memiliki mean 160 cm dan standar deviasi 7 cm. Dengan demikian, rata-rata 157 cm termasuk dalam kategori kejadian yang cukup jarang, karena berada pada bagian ekor kiri distribusi normal.

Studi Kasus 2

Tinggi rata rata orang kanada mengikuti normal distribusi dengan rerata 160cm dan stndart deviasi nya 7 cm. berapa proporsi semua orang yang memiliki tinggi badan lebih dari 170 cm ?

Proporsi Tinggi Badan Kanada

Proporsi Tinggi Badan Kanada

Distribusi normal: μ = 160 cm, σ = 7 cm
Proporsi orang dengan tinggi > 170 cm?
1. Hitung Z-score
Z = (X - μ) / σ
= (170 - 160) / 7
= 10 / 7
= 1.42857
2. Cari Nilai di Tabel Z
Z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319
Z = 1.42857 ≈ 1.43
P(Z < 1.43) = 0.9236
3. Hitung Proporsi yang Diinginkan
P(X > 170) = P(Z > 1.42857)
= 1 - P(Z < 1.42857)
= 1 - 0.9236
= 0.0764
4. Perhitungan Lebih Akurat
Z = 10/7 = 1.4285714
P(Z < 1.4285714) = 0.9234
P(X > 170) = 1 - 0.9234 = 0.0766
Proporsi = 0.0766 (7.66%)
Sekitar 7.66% orang Kanada memiliki tinggi > 170 cm
library(ggplot2)
library(gridExtra)


# PARAMETER SESUAI GAMBAR

mu <- 50
sigma <- 10
n <- 36
sigma_xbar <- sigma / sqrt(n)  
x_cut <- 47                   # nilai batas

# Z-score
Z <- (x_cut - mu) / sigma_xbar

# Probabilitas
p_val <- pnorm(Z)



# DISTRIBUSI XBAR

x <- seq(30, 70, length = 500)
y <- dnorm(x, mu, sigma_xbar)
df1 <- data.frame(x, y)
df1_shade <- subset(df1, x <= x_cut)



# DISTRIBUSI Z

z <- seq(-4, 4, length = 500)
dz <- dnorm(z)
df2 <- data.frame(z, dz)
df2_shade <- subset(df2, z <= Z)



# PLOT 1 – XBAR

p1 <- ggplot(df1, aes(x, y)) +
  geom_area(data = df1_shade, aes(x, y), fill = "navy", alpha = 0.55) +
  geom_line(color = "black", linewidth = 0.9) +
  geom_vline(xintercept = x_cut, color = "maroon", linewidth = 1) +
  annotate("text", x = x_cut, y = max(y)*0.9,
           label = x_cut, color = "maroon",
           hjust = -0.2, size = 4.5) +
  labs(
    title = "Distribusi X̄",
    subtitle = paste0("Area biru = P(X̄ < ", x_cut, ")"),
    x = "X̄",
    y = "Density"
  ) +
  theme_minimal(base_size = 14) +
  theme(
    plot.background = element_rect(fill = "#dce7f9", color = NA),
    panel.background = element_rect(fill = "#dce7f9"),
    plot.title = element_text(color = "navy", face = "bold", size = 16),
    plot.subtitle = element_text(color = "maroon")
  )



# PLOT 2 – Z

p2 <- ggplot(df2, aes(z, dz)) +
  geom_area(data = df2_shade, aes(z, dz), fill = "navy", alpha = 0.55) +
  geom_line(color = "black", linewidth = 0.9) +
  geom_vline(xintercept = Z, color = "maroon", linewidth = 1) +
  annotate("text", x = Z, y = max(dz)*0.9,
           label = sprintf("%.2f", Z),
           color = "maroon", hjust = -0.2, size = 4.5) +
  labs(
    title = "Distribusi Z",
    subtitle = sprintf("Area biru = P(Z < %.2f) = %.4f", Z, p_val),
    x = "Z",
    y = "Density"
  ) +
  theme_minimal(base_size = 14) +
  theme(
    plot.background = element_rect(fill = "#dce7f9", color = NA),
    panel.background = element_rect(fill = "#dce7f9"),
    plot.title = element_text(color = "navy", face = "bold", size = 16),
    plot.subtitle = element_text(color = "maroon")
  )



# GABUNG PLOT
grid.arrange(p1, p2, ncol = 1)

Berdasarkan hasil perhitungan dan grafik, diperoleh bahwa probabilitas rata-rata sampel ((X)) bernilai kurang dari 157 hanya sebesar sekitar 0.0869 atau 8.69%. Nilai ini didapat dari konversi ke Z-score sebesar (-1.36), yang menunjukkan bahwa 157 berada cukup jauh di bawah rata-rata distribusi sampel. Area biru pada kedua grafik—baik distribusi (X) maupun distribusi Z menggambarkan bagian kecil di sebelah kiri kurva normal, sehingga memperlihatkan bahwa kejadian (X < 157) tergolong jarang terjadi. Dengan demikian, nilai 157 bukan representasi yang biasa muncul dari sampel apabila rata-rata populasi berada di sekitar nilai pusat distribusi.

3 Teori Limit Pusat

3.1 Distribusi Sampling

Distrribusi yang melibatkaan pengambilan sampel berulang kali dari populasi dan menghitung statistic untuk setiap sampel individdu dan kemudian menggabungkan informasi untuk membuat distribusi

3.2 Teori Limit Pusat / Teorema Limit Tengah

Teorema Limit Tengah menyatakan bahwa jika ukuran sampel (n) cukup besar, maka distribusi rata-rata sampel akan mendekati distribusi normal. Artinya, apa pun bentuk distribusi populasi awal, distribusi dari rata-rata sampelnya tetap akan cenderung normal ketika sampelnya besar.Teorema Limit Tengah sangat membantu dalam menganalisis data berukuran besar.Karena distribusi sampling akan mendekati normal, kita bisa memakai rumus-rumus statistik yang memang dibuat untuk distribusi normal. Dengan begitu, proses membaca, menghitung, dan menarik kesimpulan dari data menjadi lebih mudah dan jelas.

Dalam Video, populasi awal memiliki distribusi yang miring ke kanan. Namun, setelah kita mengambil banyak sampel dan menghitung rata-rata dari masing-masing sampel, distribusinya menjadi lebih simetris dan mendekati normal. Hal ini terjadi karena proses pengambilan rata-rata mampu mengurangi pengaruh nilai pencilan (outliers), sehingga sebaran data menjadi lebih stabil. Dengan ukuran sampel yang memadai, distribusi sampling mean akan mengikuti pola normal sesuai dengan Teorema Limit Tengah.

Panduan Ukuran Sampel pada Teorema Limit Pusat

  • n≥30 dianggap cukup aman untuk menerapkan Teorema Limit Tengah (Central Limit Theorem/CLT). Ketika ukuran sampel memenuhi syarat ini, distribusi rata-rata sampel akan mendekati distribusi normal apa pun bentuk distribusi populasi awalnya.

  • Jika n<30, maka:

    • Distribusi sampling mean mungkin belum berbentuk normal.

    • Hasil estimasi bisa lebih mudah meleset (lebih sensitif terhadap outliers dan bentuk distribusi populasi).

    • Semakin kecil sampelnya, semakin terlihat bentuk asli distribusi populasi pada distribusi sampling.

  • Namun, terdapat pengecualian, Jika populasi awal memang sudah berdistribusi normal, maka distribusi sampling mean akan tetap normal meskipun ukuran sampel kecil, bahkan untuk sampel sekecil n=5 atau n=10.

3.3 Studi Kasus

Teorema Limit Pusat

Analisis Distribusi Sampling

Soal: Opsi mana yang menghasilkan distribusi sampling mendekati normal?

a) Distribusi populasi persegi panjang, n = 15 TIDAK
n = 15 < 30, ukuran sampel terlalu kecil
b) Distribusi populasi bimodal, n = 29 TIDAK
n = 29 < 30, ukuran sampel terlalu kecil
c) Distribusi populasi miring, n = 40 BISA
n = 40 ≥ 30, cukup besar
d) Distribusi populasi segitiga, n = 35 BISA
n = 35 ≥ 30, cukup besar
e) Distribusi populasi normal, n = 20 BISA
Populasi normal → normal untuk semua n
f) Distribusi populasi normal, n = 30 BISA
Populasi normal → normal untuk semua n

4 Proporsi Sampel

4.1 Proporsi

Proporsi adalah ukuran yang menunjukkan bagian atau fraksi dari suatu kategori tertentu dibandingkan dengan keseluruhan jumlah data. Proporsi biasanya digunakan untuk data kategorikal misalnya warna bola mata, jenis kelamin, atau nilai.

Rumus Proporsi

\[ \text{Proporsi} = \frac{\text{jumlah yang menguntungkan}}{\text{total angka yang keluar}} \]

4.2 Distribusi Sampling dari Proporsi Sampel

Distribusi Sampling dari Proporsi Sampel adalah Distribusi Sampling dari Proporsi Sampel adalah distribusi statistik \(\hat{p}\) (proporsi sampel) yang dibentuk melalui proses pengambilan sampel acak secara berulang-ulang dari populasi asalnya.

Jika distribusi sampling dari proporsi sampel memiliki distribusi normal dan mengikuti teorema limit tengah

Konsep Rumus Keterangan
Mean Distribusi Sampling μ = p Rata-rata dari distribusi sampling proporsi sama dengan proporsi populasi.
Standar Deviasi Distribusi Sampling σ = √[p(1-p)/n] Mengukur variabilitas proporsi sampel antar sampel yang berbeda.
Rumus Standarisasi (Z-score) z = (p̂ - p) / σ Mengubah proporsi sampel menjadi nilai Z untuk analisis distribusi normal.
Perbandingan Penerapan CLT
Perbandingan Penerapan Teorema Limit Pusat (CLT)
1. Untuk Rata-rata Sampel (x̄)
Teorema Limit Pusat berlaku ketika:
Ukuran sampel (n) ≥ 30
Artinya distribusi sampling dari rata-rata sampel akan mendekati distribusi normal jika ukuran sampel minimal 30
2. Untuk Proporsi Sampel (p̂)
Teorema Limit Pusat memerlukan 2 kondisi:
np ≥ 10
n(1-p) ≥ 10
Artinya distribusi sampling dari proporsi sampel akan mendekati distribusi normal jika kedua kondisi terpenuhi

5 Ulasan Distribusi Sampling

5.1 Studi Kasus 1

Probabilitas Kelereng

Probabilitas Kelereng

Kaleng berisi 200 kelereng hijau dan 300 kelereng biru
Diambil 3 kelereng tanpa pengembalian
Peluang mendapatkan setidaknya 2 kelereng hijau?
Peluang Awal
Total = 500 kelereng
P(H) = 200/500 = 0.4
P(B) = 300/500 = 0.6
Ruang Sampel (3 pengambilan)
H-H-H
H-H-B
H-B-H
B-H-H
H-B-B
B-H-B
B-B-H
B-B-B
Hitung Probabilitas (tanpa pengembalian)
H-H-H: 0.4 × 199/499 × 198/498 = 0.0634
H-H-B: 0.4 × 199/499 × 0.6 = 0.0957
H-B-H: 0.4 × 0.6 × 199/498 = 0.0959
B-H-H: 0.6 × 200/499 × 199/498 = 0.0961
Kasus dengan ≥2 Hijau
H-H-H = 0.0634
H-H-B = 0.0957
H-B-H = 0.0959
B-H-H = 0.0961

Total = 0.0634 + 0.0957 + 0.0959 + 0.0961
Peluang ≥2 kelereng hijau = 0.3511 (35.11%)

5.2 Studi Kasus 2

Probabilitas Binomial Kelereng

Probabilitas Binomial Kelereng

Kaleng: 200 hijau + 300 biru
Diambil 5 kelereng tanpa pengembalian
Peluang mendapatkan setidaknya 2 kelereng hijau
Parameter Binomial
n = 5 (percobaan)
p = 200/500 = 0.4 (peluang hijau)
q = 1 - p = 0.6 (peluang biru)
Rumus Binomial
P(X = k) = C(n,k) × pk × qn-k
C(n,k) = n! / [k!(n-k)!]
Kalkulasi Kasus Per Kasus
Hitung untuk k = 2, 3, 4, 5 (≥2 hijau)
k = 2 hijau
C(5,2) = 10
P = 10 × (0.4)² × (0.6)³
= 10 × 0.16 × 0.216
= 0.3456
k = 3 hijau
C(5,3) = 10
P = 10 × (0.4)³ × (0.6)²
= 10 × 0.064 × 0.36
= 0.2304
k = 4 hijau
C(5,4) = 5
P = 5 × (0.4)⁴ × (0.6)¹
= 5 × 0.0256 × 0.6
= 0.0768
k = 5 hijau
C(5,5) = 1
P = 1 × (0.4)⁵ × (0.6)⁰
= 1 × 0.01024 × 1
= 0.01024
Total Probabilitas (≥2 hijau)
P(X ≥ 2) = P(X=2) + P(X=3) + P(X=4) + P(X=5)
= 0.3456 + 0.2304 + 0.0768 + 0.01024
Total = 0.66304 (66.30%)

5.3 Studi Kasus 3

Peluang Kelereng - Distribusi Proporsi Sampel

Peluang Kelereng - Distribusi Proporsi Sampel

Kaleng: 200 hijau + 300 biru
Ambil 100 kelereng
Peluang ≥35 hijau?
1. Parameter
p = 200/500 = 0.4
n = 100
2. Standard Error
σ = √[p(1-p)/n]
= √[(0.4×0.6)/100]
= 0.0490
3. Z-score
p̂ = 35/100 = 0.35
Z = (0.35 - 0.4) / 0.0490
= -1.0204
4. Tabel Z
z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
-1.0 0.1587 0.1562 0.1539 0.1515 0.1492 0.1469 0.1446 0.1423 0.1401 0.1379
-1.1 0.1357 0.1335 0.1314 0.1292 0.1271 0.1251 0.1230 0.1210 0.1190 0.1170
Z = -1.0204 ≈ -1.02
P(Z < -1.02) = 0.1539
5. Probabilitas
P(p̂ ≥ 0.35) = P(Z ≥ -1.02)
= 1 - 0.1539
= 0.8461
Peluang = 0.8461 (84.61%)
library(ggplot2)

# Data untuk distribusi normal
x <- seq(-3, 3, length.out = 1000)
y <- dnorm(x)
df <- data.frame(x = x, y = y)

# Nilai dari gambar
z_score <- -1.0206
area_left <- 0.1539
area_right <- 0.8461

# Buat plot
ggplot(df, aes(x = x)) +
  # Area distribusi normal dasar
  geom_area(aes(y = y), fill = "#F5F5F5", alpha = 0.9) +
  
  # Area kiri (maroon)
  geom_area(data = subset(df, x <= z_score),
            aes(y = y), fill = "#800000", alpha = 0.7) +
  
  # Area kanan (navy)
  geom_area(data = subset(df, x >= z_score),
            aes(y = y), fill = "#000080", alpha = 0.7) +
  
  # Garis vertikal di Z = -1.0206
  geom_vline(xintercept = z_score, 
             color = "#333333", 
             size = 1, 
             linetype = "dashed") +
  
  # Garis mean (Z = 0)
  geom_vline(xintercept = 0, 
             color = "#333333", 
             size = 0.5) +
  
  # Kurva distribusi normal
  geom_line(aes(y = y), color = "#333333", size = 0.8) +
  
  # Anotasi Z-score
  annotate("text", x = z_score - 0.15, y = 0.02,
           label = paste("Z =", round(z_score, 2)),
           color = "#800000", fontface = "bold", size = 4,
           angle = 90) +
  
  # Anotasi area kiri
  annotate("text", x = -2, y = 0.15,
           label = paste("Area Kiri =", area_left),
           color = "#800000", fontface = "bold", size = 4.5) +
  
  # Anotasi area kanan
  annotate("text", x = 1.8, y = 0.15,
           label = paste("Area Kanan =", area_right),
           color = "#000080", fontface = "bold", size = 4.5) +
  
  # Anotasi SE = 0.049
  annotate("text", x = 2.5, y = 0.3,
           label = "SE = 0.049",
           color = "#333333", size = 4) +
  
  # Skala sumbu x
  scale_x_continuous(
    breaks = c(-3, -2, -1, round(z_score, 2), 0, 1, 2, 3),
    labels = c("-3", "-2", "-1", round(z_score, 2), "0", "1", "2", "3")
  ) +
  
  # Judul dan label
  labs(
    title = "Distribusi Normal Standard",
    subtitle = paste("Z =", round(z_score, 4), "| Area Kiri =", area_left, "| Area Kanan =", area_right),
    x = "Z-Score",
    y = "Densitas"
  ) +
  
  # Tema
  theme_minimal(base_size = 14) +
  theme(
    plot.title = element_text(hjust = 0.5, face = "bold", color = "#800000"),
    plot.subtitle = element_text(hjust = 0.5, color = "#000080"),
    axis.title = element_text(color = "#333333"),
    axis.text = element_text(color = "#333333"),
    panel.grid.major = element_line(color = "#E0E0E0", size = 0.3),
    panel.grid.minor = element_blank(),
    plot.background = element_rect(fill = "white", color = NA),
    panel.background = element_rect(fill = "white", color = NA)
  )

# Simpan plot
ggsave("distribusi_z_score.png", width = 10, height = 6, dpi = 300)

Berdasarkan grafik distribusi normal standar, nilai Z sebesar –1.0206 berada di sebelah kiri mean (Z = 0), sehingga area di kiri garis tersebut sebesar 0.1539 atau sekitar 15.39%. Ini berarti bahwa hanya 15.39% nilai dalam distribusi normal yang berada lebih kecil daripada Z = –1.0206. Sementara itu, area di kanan garis tersebut sebesar 0.8461 atau 84.61%, menunjukkan bahwa sebagian besar observasi berada di atas nilai tersebut. Dengan demikian, Z = –1.0206 merupakan nilai yang masih cukup dekat dengan mean tetapi tetap berada pada sisi kiri distribusi, sehingga peluang mendapatkan nilai lebih besar dari Z ini jauh lebih tinggi dibandingkan peluang mendapatkan nilai yang lebih kecil.

5.4 Penggunaan Metode Penyelesaian

  • Metode 1: Ruang Sampel (Perhitungan Langsung) digunakan ketika jumlah percobaan sangat kecil, biasanya ( n ). Pada situasi ini, seluruh kemungkinan hasil dapat dituliskan satu per satu, kemudian probabilitas dihitung dengan menjumlahkan semua hasil yang memenuhi syarat. Dalam video, metode ini digunakan untuk menghitung ( P(X ) ) ketika jumlah kelereng hanya ( n = 3 ). Karena ruang sampel masih sederhana, metode ini memberikan hasil yang tepat dan paling mudah dilakukan.

  • Metode 2: Distribusi Binomial dipakai ketika jumlah percobaan sudah lebih besar, umumnya antara ( n = 5 ) hingga ( n = 30 ). Pada kondisi ini, perhitungan langsung sudah tidak efisien lagi sehingga digunakan rumus binomial ( C(n,k)p^k q^{n-k} ) untuk menghitung probabilitas keberhasilan ( k ) kali dari ( n ) percobaan. Dalam video, metode ini diterapkan untuk menghitung ( P(X ) ) ketika jumlah kelereng meningkat menjadi ( n = 5 ). Hasil yang diperoleh tetap akurat karena distribusi binomial memberikan nilai pasti untuk kasus tersebut.

  • Metode 3: Aproksimasi Normal digunakan ketika jumlah percobaan sangat besar, misalnya ( n ), dan syarat Teorema Limit Tengah terpenuhi, yaitu ( n p ) dan ( n q ). Pada kondisi ini, distribusi binomial dapat didekati oleh distribusi normal sehingga perhitungan probabilitas lebih mudah menggunakan Z-score dan tabel Z. Dalam video, metode ini digunakan untuk menghitung ( P(X ) ) pada ( n = 100 ). Metode ini memberikan hasil pendekatan, bukan nilai pasti, namun akurasinya tinggi ketika syarat-syaratnya terpenuhi.

6 Reference

[1] R. Yanti, I. Suryani, dan I. Putri, Statistik dan Probabilitas Dasar. Indonesia: Serasi Media Teknologi, 2024. ISBN: 978-623-100-0217.

[2] M. R. Spiegel, R. A. Srinivasan, dan J. J. Schiller, Probability and Statistics. New York: McGraw-Hill, 2000. ISBN: 978-0071350044.

[3] J. Amalia, I. Fitriyaningsih, dan Y. Agnesia, Statistika. Indonesia: Nas Media Pustaka, 2023. ISBN: 978-623-351-9410.