Probability Distribution

Assignment ~ Week 11

Arya Fharezi

Arya Fharezi

NIM Mahasiswa : 52250008
Mahasiswa Sains Data Institut Teknologi Sains Bandung
Informasi Akademik
Mata Kuliah
:
Statistik Dasar
Dosen
:
Bakti Siregar, M.Sc., CDS.
Mahasiswa Aktif - Semester 1


1 About Probability Distribution

Distribusi probabilitas bukan sekadar alat prediksi, melainkan jantung dari statistik inferensial yang menjadi fondasi utama pengambilan keputusan berbasis data. Melalui penggunaan variabel acak, kita dapat memetakan pola penyebaran hasil eksperimen untuk memahami perilaku data yang sesungguhnya. Pemahaman mendalam mengenai pola distribusi ini sangat krusial, karena memungkinkan kita tidak hanya menghitung peluang saat ini, tetapi juga menarik kesimpulan dan memprediksi tren masa depan dengan akurasi tinggi.

Materi ini dirancang untuk mengupas tuntas empat konsep esensial: Variabel Acak Kontinu, Distribusi Sampel, Teorema Limit Pusat (CLT), dan Distribusi Proporsi Sampel. Untuk memastikan pemahaman yang utuh, setiap topik diperkaya dengan video instruksional yang membantu visualisasi konsep abstrak. Dengan menguasai pilar-pilar ini, kita akan memiliki landasan yang kokoh untuk melakukan analisis data yang tajam, membangun model statistik yang presisi, serta menghasilkan kesimpulan yang dapat dipertanggungjawabkan secara ilmiah.


2 Continuous Random

Konsep Dasar

Dalam mempelajari probabilitas, langkah pertamanya adalah membedakan asal data, apakah didapat dari menghitung atau mengukur. Pembedaan ini membagi variabel menjadi dua jenis, yaitu Diskrit dan Kontinu. Pemahaman ini sangat krusial karena menjadi gerbang masuk untuk memahami topik utama kita saat ini, yaitu Variabel Kontinu.

2.1 Variabel Diskrit

Definisi Variabel Diskrit

Variabel diskrit adalah jenis data yang dapat dihitung (Countable) yaitu yang nilainya didapatkan melalui proses pencacahan atau penghitungan. Karakteristik utamanya adalah nilainya terbatas (finite) dan terpisah satu sama lain.

Analogi Variabel Diskrit

Anak Tangga 3

Anak Tangga 2

Anak Tangga 1

✗ = “Anak tangga ke-1,5” tidak mungkin

Bayangkan sebuah tangga. Anda hanya bisa berdiri di anak tangga ke-1, ke-2, atau ke-3. Anda tidak bisa berdiri di “anak tangga ke-1,5”. Sama halnya dengan variabel diskrit, datanya “melompat” dari satu angka ke angka berikutnya.

Memahami Variabel Diskrit

Biar gampang, coba bayangkan kita lagi mendata jumlah anak dalam satu keluarga. Jawabannya pasti angka bulat seperti 0, 1, atau 2. Secara logika, nggak mungkin dong ada keluarga yang punya 0,73 anak. Tapi jangan sampai terkecoh mengira variabel diskrit itu wajib bilangan bulat tanpa koma.

Contohnya uang, misalnya saldo $420,69, Walaupun ada desimalnya, angka ini tetap disebut diskrit. Kenapa? Karena nilainya punya mentoknya, yaitu berhenti di dua digit (sen). Kita nggak bisa memecah uang terus-terusan menjadi pecahan yang tak terhingga (tidak ada uang 0,001 sen). Jadi intinya, selama angkanya berhenti dan langkah hitungannya jelas, itu tetap masuk kategori diskrit.

2.2 Variabel Kontinu

Definisi Variabel Kontinu

Variabel kontinu adalah jenis data yang didapatkan melalui proses pengukuran (Measuring), bukan penghitungan. Karakteristik utamanya adalah memiliki nilai yang tak terhingga (Infinite) dalam suatu rentang, artinya data ini bisa berupa angka pecahan atau desimal yang sangat presisi dan tidak terputus.

Analogi Konsep Kontinu

Konsep infinity ini dijelaskan dengan analogi yang sangat cerdas tentang Usia. Coba bayangkan kita sedang melihat umur seseorang menggunakan lensa kamera yang bisa di-zoom terus-menerus:

1
Pandangan Awam

Saat pertama melihat, kita hanya bilang umur dia “23 tahun”. Terlihat bulat dan sederhana.

2
Mulai Zoom-In

Saat kita perbesar, ternyata angka itu tidak bulat. Ada detailnya: “23 tahun, 6 bulan”.

3
Zoom-In Maksimal

Kalau kita zoom lagi sampai level mikroskopis, angkanya menjadi sangat panjang: 23 tahun, 6 bulan, 2 hari, 3 jam, 1 detik, 5 nanodetik… dan seterusnya.

Kesimpulannya

Ternyata, di antara angka 23 dan 24 itu ada ruang kosong yang sangat luas. Waktu, berat, atau jarak bisa dipecah terus-menerus sampai kepingan terkecil tanpa ujung. Karena datanya bersambung terus tanpa putus (unbroken), makanya disebut Kontinu.

Variabel Acak Kontinu

Suatu variabel acak dikategorikan sebagai kontinu apabila variabel tersebut dapat mengambil nilai apa pun dalam suatu interval pada garis bilangan riil (tidak terbatas pada bilangan bulat).

Karakteristik :

  1. Nilai dalam Interval: Variabel mengambil nilai dalam rentang tertentu (misalnya \(a < x < b\) atau \(-\infty < x < \infty\)).
  2. Probabilitas Titik adalah Nol: Probabilitas terjadinya suatu titik tunggal spesifik selalu bernilai nol (\(P(X=c) = 0\)). Oleh karena itu, probabilitas hanya bermakna jika dihitung dalam suatu interval.

Fungsi Kepadatan Probabilitas (PDF)

Fungsi \(f(x)\) dinyatakan sebagai PDF yang valid jika memenuhi dua syarat mutlak:
1. Non-negatif: \(f(x) \ge 0\) untuk semua nilai \(x\).
2. Luas Total Unit: Integral seluruh area di bawah kurva harus sama dengan 1.
\[\int_{-\infty}^{\infty} f(x) \,dx = 1\]
Catatan: Nilai \(f(x)\) mencerminkan kepadatan peluang, bukan nilai probabilitas langsung. Probabilitas hanya diperoleh dari luas area di bawah kurva.

Perhitungan Probabilitas pada Interval

Probabilitas variabel acak \(X\) berada dalam rentang \(a\) hingga \(b\) dihitung dengan mengintegralkan fungsi PDF pada interval tersebut:
\[P(a \le X \le b) = \int_{a}^{b} f(x) \,dx\]

Fungsi Distribusi Kumulatif (CDF)

Definisi dari CDF adalah Fungsi yang menghitung total peluang dari nilai terendah hingga titik \(x\) tertentu.\[F(x) = P(X \le x)\]
Hubungan matematisnya adalah PDF merupakan turunan dari CDF: \[f(x) = F'(x)\]

2.3 Perbedaan Grafik

Dalam statistik, distribusi probabilitas variabel acak diskrit dan variabel acak kontinu disajikan secara berbeda. Satu dapat disajikan menggunakan diagram batang (bar chart) dan yang lainnya dapat disajikan menggunakan histogram.

Bar Chart vs. Histogram

Sifat data yang berbeda menuntut grafik yang berbeda

Bar Chart (Untuk Diskrit)

A
B
C

Ada Celah (Gaps) antar batang
Untuk data Diskrit (yang bisa dihitung), kita gunakan Bar Chart dengan celah antar batang untuk menunjukkan keterpisahan data.

Histogram (Untuk Kontinu)

Antar batang Menempel (No Gaps)
Untuk data Kontinu, kita gunakan Histogram tanpa celah atau Density Curve untuk menunjukkan bahwa nilainya bersambung terus tanpa putus.

Diskrit = Terpisah

Kontinu = Bersambung

2.4 Hubungan Dengan Probabilitas

Dalam statistika, metode penyajian distribusi probabilitas dan perhitungan peluang dibedakan secara fundamental berdasarkan jenis variabel acaknya. Hal ini dikarenakan karakteristik data diskrit yang terputus-putus berbeda dengan data kontinu yang bersambung tanpa henti.

Variabel Acak Diskrit

Distribusi Binomial

\(P(k) = \binom{n}{k} p^k (1-p)^{n-k}\)

Menghitung peluang sukses sebanyak \(k\) kali dari total \(n\) percobaan.

Aturan Penjumlahan

\(P(A \cup B) = P(A) + P(B) - P(A \cap B)\)

Menghitung peluang kejadian A atau B (salah satu terjadi).

Aturan Perkalian

\(P(A \cap B) = P(A) \times P(B)\)

Menghitung peluang kejadian A dan B terjadi bersamaan (independen).

Komplemen

\(P(A^c) = 1 - P(A)\)

Menghitung peluang kejadian A tidak terjadi.

Variabel Acak Kontinu

Luas Persegi

\(A = L \times W\)

Dipakai kalau grafik peluangnya bentuk kotak rata (Distribusi Seragam).

Luas Segitiga

\(A = \frac{b \times h}{2}\)

Dipakai kalau grafik density curve-nya berbentuk segitiga. Kita cari luas segitiganya buat dapat peluangnya.

Z-Score

\(Z = \frac{x - \mu}{\sigma}\)

Mengubah nilai data asli (\(x\)) menjadi Skor Standar (\(z\)).


3 Sampling Distributions

3.1 Konsep Dasar

Definisi Distribusi Populasi

Distribusi Populasi adalah representasi grafis dari data mentah keseluruhan individu atau objek yang menjadi fokus penelitian. Ini mencakup semua orang atau objek yang ada dalam kelompok yang diteliti (misalnya, tinggi badan semua 10.000 orang), sehingga grafik ini dianggap sebagai distribusi data aslinya.

Definisi Distribusi Sampel

Distribusi Sampel (Sample Distribution) adalah nilai-nilai individu yang kita kumpulkan hanya dari satu kelompok kecil yang ditarik dari populasi. Jika kita mengambil 5 orang dan mengukur tinggi mereka satu per satu, grafik yang kita buat dari 5 data tersebut adalah Distribusi Sampel. Distribusi ini hanya memberikan gambaran tentang sampel itu saja dan dicirikan oleh \(\bar{x}\) (rata-rata sampel) dan \(s\) (simpangan baku sampel).

Definisi Distribusi Sampling

Distribusi Sampling (Sampling Distribution). Bayangkan kamu mengambil sampel misal 10 orang, hitung rata-ratanya (\(\bar{x}\)), lalu catat. Terus kamu ulangi lagi: ambil 10 orang lain, hitung rata-ratanya, catat lagi. Lakukan ini ratusan kali sampai kamu punya tumpukan data rata-rata. Grafik dari tumpukan rata-rata inilah yang disebut Sampling Distribution. Intinya Sampling Distribution adalah distribusi dari kumpulan statistik (seperti rata-rata) yang diambil berulang kali dari populasi.

3.2 Perbandingan Distribusi Populasi vs Distribusi Sampling

Aspek Distribusi Populasi Distribusi Sampling
Fokus Data Mengukur setiap individu (\(X\)) Mengukur rata-rata sampel (\(\bar{x}\)) dari banyak sampel
Mean (Rata-rata) \(\mu\) (Mu) \(\mu_{\bar{x}} = \mu\) (Sama persis dengan populasi)
Sebaran Lebar (Variasi tinggi) Sempit (Variasi rendah karena rata-rata lebih stabil)
Standar Deviasi \(\sigma\) (Sigma) Standard Error (\(\sigma_{\bar{x}}\)) = \(\frac{\sigma}{\sqrt{n}}\)
Rumus Z-Score \(Z = \frac{x - \mu}{\sigma}\) \(Z = \frac{\bar{x} - \mu}{\frac{\sigma}{\sqrt{n}}}\)

Catatan

Standar deviasi di Sampling Distribution disebut Standard Error. Nilainya selalu lebih kecil karena dibagi akar \(n\).

3.3 Contoh Perhitungan

Kasus 1
Data: Rata-rata (\(\mu\)) = 160 cm, Standar Deviasi (\(\sigma\)) = 7 cm.Berapa peluang rata-rata tinggi dari 10 orang kurang dari 157 cm?“

Standard Error = \(7 / \sqrt{10} = 2.21\).
Z-Score = \((157 - 160) / 2.21 = -1.36\). peluangnya adalah 8.69%.

Kasus 2
Berapa proporsi satu orang (individu) yang tingginya lebih dari 170 cm?

Z-Score = \((170 - 160) / 7 = 1.43\).
proporsinya adalah 7.64%.

Kesimpulan:

Jika soal bertanya tentang peluang untuk satu individu, gunakan \(\sigma\). Jika soal bertanya tentang peluang untuk rata-rata sekelompok (\(n\)), gunakan \(\sigma / \sqrt{n}\).


4 Central Limit Theorem (CLT)

4.1 Definisi Central Limit Theorem

Definisi

Central Limit Theorem (CLT) atau Teorema Batas Pusat adalah prinsip dasar dalam statistik yang menyatakan bahwa distribusi sampling dari rata-rata sampel (sample means) akan mendekati Distribusi Normal (berbentuk kurva lonceng) seiring dengan bertambahnya ukuran sampel (\(n\)), terlepas dari bagaimanapun bentuk distribusi populasi aslinya.

Bunyi Teorema

“Jika ukuran sampel (\(n\)) cukup besar, maka sampling distribution dari rata-rata sampel (\(\bar{x}\)) akan berbentuk Distribusi Normal (kurva lonceng), tidak peduli apa pun bentuk distribusi populasi aslinya”

4.2 Aturan Umum Central Limit Theorem

Aturan Praktis (Rule of Thumb): “The Magic Number 30”

Zona Aman (\(n \geq 30\))

Jika ukuran sampel yang diambil adalah 30 atau lebih, dampaknya Teorema Limit Pusat berlaku sepenuhnya. Distribusi sampling dari rata-rata sampel (\(\bar{x}\)) diasumsikan berdistribusi Normal.Pada tingkat ini, variabilitas rata-rata sampel menjadi stabil. Sekalipun populasi aslinya sangat miring (skewed), rata-rata dari banyak sampel berukuran besar akan tetap membentuk kurva lonceng yang simetris. otomatis jadi rapi (lonceng).

Zona Rawan (\(n < 30\))

Jika ukuran sampel yang diambil kurang dari 30 dampaknya, Teorema Limit Pusat umumnya tidak berlaku. Distribusi sampling kemungkinan besar tidak akan berbentuk normal, melainkan mengikuti ketidakaturan bentuk populasi aslinya. Risikonya menggunakan rumus statistik parametrik (seperti uji-Z) pada kondisi ini berisiko menghasilkan kesimpulan yang tidak akurat karena asumsi normalitas tidak terpenuhi.

Pengecualian Penting

Terdapat satu pengecualian, jika diketahui bahwa populasi aslinya sudah berdistribusi normal, maka distribusi sampling akan selalu normal, berapapun ukuran sampelnya (bahkan untuk \(n < 30\)).

Normalitas Distribusi Sampling

Tabel untuk menentukan kapan distribusi sampling (\(\bar{x}\)) dianggap normal.

Bentuk Distribusi Populasi Asli Ukuran Sampel (n) Bentuk Distribusi Sampling (\(\bar{x}\))) Keterangan
Miring / Tidak Beraturan \(n \geq 30\) Normal Memenuhi syarat CLT (Sampel Besar).
Miring / Tidak Beraturan \(n < 30\) Tidak Normal Tidak memenuhi syarat CLT.
Normal \(n < 30\) Normal Mengikuti sifat populasi asal.
Normal \(n \geq 30\) Normal Sangat valid (Populasi normal & sampel besar).
library(ggplot2)
library(gridExtra)
library(patchwork)
library(moments)  # Untuk skewness()

set.seed(123)

n_population <- 10000
populasi <- 15 - rexp(n_population, rate = 0.5)

n_simulasi <- 10000
ukuran_sampel <- 30
rata_rata_sampel <- numeric(n_simulasi)

for (i in 1:n_simulasi) {
  sampel <- sample(populasi, ukuran_sampel, replace = TRUE)
  rata_rata_sampel[i] <- mean(sampel)
}

library(ggplot2)
library(patchwork)
library(grid)

# KURVA DISTRIBUSI MIRING (POPULASI)
x1 <- seq(-3, 2, length.out = 100)
y1 <- dgamma(x1 + 3, shape = 2, scale = 0.5)  # Kurva miring kiri

plot_populasi <- ggplot() +
  geom_area(aes(x = x1, y = y1), 
            fill = "#FF6B8B", alpha = 0.7, color = "#C2185B", size = 1) +
  labs(title = "DISTRIBUSI POPULASI ASLI",
       subtitle = "(Miring / Tidak Beraturan)",
       x = "Nilai",
       y = "Densitas") +
  theme_minimal() +
  theme(
    plot.title = element_text(face = "bold", size = 16, hjust = 0.5, color = "#800000"),
    plot.subtitle = element_text(hjust = 0.5, color = "#666666"),
    panel.grid.minor = element_blank(),
    plot.background = element_rect(fill = "white", color = NA)
  ) +
  scale_x_continuous(limits = c(-3, 3)) +
  annotate("text", x = -1, y = max(y1)*0.8, 
           label = "POPULASI\nMIRING", 
           color = "#800000", fontface = "bold", size = 5)

# KURVA DISTRIBUSI NORMAL (SAMPLING)
x2 <- seq(-3, 3, length.out = 100)
y2 <- dnorm(x2, mean = 0, sd = 0.8)

plot_sampling <- ggplot() +
  geom_area(aes(x = x2, y = y2), 
            fill = "#2196F3", alpha = 0.7, color = "#0D47A1", size = 1) +
  labs(title = "DISTRIBUSI SAMPLING RATA-RATA",
       subtitle = "(Mendekati Distribusi Normal)",
       x = "Rata-rata Sampel",
       y = "Densitas") +
  theme_minimal() +
  theme(
    plot.title = element_text(face = "bold", size = 16, hjust = 0.5, color = "#0D47A1"),
    plot.subtitle = element_text(hjust = 0.5, color = "#666666"),
    panel.grid.minor = element_blank(),
    plot.background = element_rect(fill = "white", color = NA)
  ) +
  scale_x_continuous(limits = c(-3, 3)) +
  annotate("text", x = 0, y = max(y2)*0.8, 
           label = "SAMPLING\nNORMAL", 
           color = "#0D47A1", fontface = "bold", size = 5)

# PLOT DENGAN PANAH TRANSFORMASI
# canvas kosong untuk panah
plot_arrow <- ggplot() +
  annotate("segment", 
           x = 0, xend = 1, y = 0.5, yend = 0.5,
           arrow = arrow(type = "closed", length = unit(0.3, "inches")),
           size = 2, color = "#FF9800") +
  annotate("text", x = 0.5, y = 0.7, 
           label = expression(bold("CLT: n" >= "30")),
           color = "#FF9800", fontface = "bold", size = 6) +
  theme_void() +
  theme(plot.background = element_rect(fill = "white", color = NA))

# 4. LAYOUT FINAL
final_plot <- plot_populasi + plot_arrow + plot_sampling +
  plot_layout(ncol = 3, widths = c(1, 0.3, 1)) +
  plot_annotation(
    title = 'VISUALISASI CENTRAL LIMIT THEOREM',
    subtitle = 'Transformasi dari populasi miring ke distribusi normal melalui sampling',
    caption = 'Asumsi: Ukuran sampel cukup besar (n ≥ 30)',
    theme = theme(
      plot.title = element_text(size = 24, face = "bold", hjust = 0.5, 
                                color = "#800000", margin = margin(t = 10, b = 5)),
      plot.subtitle = element_text(size = 14, hjust = 0.5, 
                                   color = "#444444", margin = margin(b = 15)),
      plot.caption = element_text(size = 12, hjust = 0.5, 
                                  color = "#666666", margin = margin(t = 10)),
      plot.background = element_rect(fill = "white", color = NA),
      plot.margin = margin(20, 20, 20, 20)
    )
  )

print(final_plot)

ggsave("CLT_Visual_Konseptual.png", 
       plot = final_plot, 
       width = 16, 
       height = 8, 
       dpi = 300,
       bg = "white")

Interpretasi Visualisasi

Visualisasi ini membuktikan mekanisme kerja Central Limit Theorem, meskipun Populasi Asli (grafik kiri) memiliki bentuk yang miring atau tidak beraturan, pengambilan sampel dengan ukuran besar (\(n \ge 30\)) mampu menetralkan ketidakaturan tersebut. Hasilnya, Distribusi Sampling (grafik kanan) bertransformasi menjadi bentuk kurva lonceng (Normal) yang simetris dan stabil, sehingga valid untuk dianalisis menggunakan metode statistik standar tanpa memandang bentuk data awalnya.

4.3 Urgensi Central Limit Theorem

Mengapa Teorema Ini Penting dalam Analisis Data Statistik?

Realita Data

Dalam dunia nyata, data populasi jarang sekali berdistribusi normal sempurna, data seringkali miring (skewed) atau berantakan.

Solusi

CLT memungkinkan peneliti untuk tetap menggunakan metode statistik yang berbasis distribusi normal (seperti menghitung probabilitas, interval kepercayaan, dll.) pada populasi yang tidak normal, asalkan syarat ukuran sampel (\(n \geq 30\)) terpenuhi.

Inti Penting

Tanpa CLT, analisis statistik akan sangat terbatas karena mayoritas data dunia nyata tidak normal. CLT memberikan “jalan keluar” praktis untuk tetap menggunakan metode statistik normal pada data non-normal.

4.4 Implementasi Soal

6 Contoh Soal Central Limit Theorem (CLT)

Skenario A
Populasi: Rectangular
n = 15
Tidak Normal
n < 30
Skenario B
Populasi: Bimodal
n = 29
Tidak Normal
n < 30
Skenario C
Populasi: Skewed
n = 40
Normal
n ≥ 30
Skenario D
Populasi: Triangular
n = 35
Normal
n ≥ 30
Skenario E
Populasi: Normal
n = 20
Normal
Pengecualian
Skenario F
Populasi: Normal
n = 30
Normal
Aman banget

Tidak Normal (n < 30)

Normal


5 Sample Proportion

5.1 Distribusi Sampling

Definisi Distribusi Sampling

Distribusi sampling melibatkan pengambilan sampel secara berulang dari suatu populasi, menghitung statistik untuk setiap sampel individu (seperti \(\bar{x}\) atau \(\hat{p}\)), dan kemudian menggabungkan informasi tersebut ke dalam grafik untuk membuat distribusi. Distribusi inilah yang disebut distribusi sampling.

5.2 Proporsi

Definisi Proporsi

Dalam statistik, proporsi menggambarkan pecahan dari hasil yang diinginkan (favorable outcomes) dalam kaitannya dengan keseluruhan. Hasil yang diinginkan hanyalah variabel apa pun yang sedang kamu coba pelajari. Contohnya: tinggi seseorang, berat badan, warna mata, atau nilai tes yang mereka dapatkan. Ini semua adalah variabel terukur yang bisa kita catat dari populasi atau sampel.

Metode Pengukuran Proporsi

Metode 1: Menggunakan Sampel

Mengambil sampel dan melihat berapa banyak orang yang memiliki mata hijau dalam sampel tersebut.

Metode 2: Menggunakan Populasi

Mewawancarai seluruh populasi dan mencatat berapa banyak orang yang memiliki mata hijau.

Rumus Dasar Proporsi

\[\text{Proporsi} = \frac{\text{jumlah hasil yang menguntungkan}}{\text{jumlah total hasil}}\]

Jenis Simbol Rumus Keterangan
Sampel \(\hat{p}\) \(\hat{p} = \frac{x}{n}\) \(x\) = Jumlah kejadian sukses
\(n\) = Ukuran sampel total
Populasi \(p\) \(p = \frac{X}{N}\) \(X\) = Jumlah sukses di populasi
\(N\) = Ukuran populasi total
Catatan:

\(\hat{p}\) dibaca “P-hat” (P topi). Nilainya berubah-ubah tergantung sampel yang diambil.
\(p\) adalah nilai tetap dari populasi yang sebenarnya (jika diketahui).

Perhitungan Proporsi

Untuk Sampel

Contoh: Ukuran sampel = 10 orang, 2 orang bermata hijau

\(\hat{p} = \frac{2}{10} = 0.2\)

Proporsi sampel = 20% orang bermata hijau dalam sampel

Untuk Populasi

Contoh: Populasi = 5.000 orang, 900 orang bermata hijau

\(p = \frac{900}{5000} = 0.18\)

Proporsi populasi = 18% orang bermata hijau dalam populasi

Kesimpulan:

• Perhitungan proporsi menggunakan rumus yang sama: jumlah sukses ÷ total.
• Perbedaan hanya pada sumber data: sampel (n) vs populasi (N).
• Dalam contoh: sampel menunjukkan 20%, populasi sebenarnya 18%.

5.3 Distribusi Sampling dari Proporsi Sampel

Variabilitas Sampel

Jika pengambilan sampel dilakukan berulang kali dari populasi asli dan nilai \(\hat{p}\) dihitung untuk setiap sampel, akan ditemukan banyak hasil yang berbeda.

0.21 0.19 0.17

Kemungkinannya tidak terbatas. Nilai \(\hat{p}\) bergantung pada data yang dikumpulkan dari sampel, dan setiap sampel dapat berbeda akibat faktor probabilitas.Jika seluruh nilai \(\hat{p}\) ini diambil dan diletakkan ke dalam sebuah grafik, akan terbentuk distribusi sampling dari proporsi sampel. Ini didefinisikan sebagai distribusi statistik \(\hat{p}\) yang dibuat dari pengambilan sampel acak secara berulang. Sama seperti distribusi lainnya, distribusi ini memiliki nilai untuk Rata-rata (Mean) dan Standar Deviasi.

Distribusi Sampling Proporsi

Kumpulan semua nilai \(\hat{p}\) membentuk distribusi dengan parameter khusus:

\(\mu_{\hat{p}}\)
Mean (Mu P-hat)
\(\sigma_{\hat{p}}\)
Standar Deviasi (Sigma P-hat)
Sifat Distribusi Normal:
  1. Nilai Mean: \(\mu_{\hat{p}} = p\) Artinya, rata-rata dari semua \(\hat{p}\) yang digabungkan setara dengan proporsi populasi \(p\).
  2. Nilai Standar Deviasi: \(\sigma_{\hat{p}}\) = \(pq / n\).
    Dimana :
    \(n\) = ukuran sampel.
    \(p\) = proporsi hasil sukses.
    \(q\) = proporsi hasil tidak sukses (\(q = 1 - p\)).
  3. Penggunaan Tabel Z: \(\sigma_{\hat{p}}\) = \(\sqrt{p(1-p)/n}\)), maka Tabel Z-Score dan rumus standardisasi dapat digunakan untuk menghitung luas area terkait.

Berdasarkan landasan pada poin ketiga di atas, untuk menggunakan Tabel Z, nilai proporsi sampel (\(\hat{p}\)) harus distandarisasi terlebih dahulu menggunakan rumus berikut:\[Z = \frac{\hat{p} - p}{\sqrt{\frac{p(1-p)}{n}}}\]

Contoh Penerapan & Visualisasi Histogram

library(ggplot2)
library(scales)

set.seed(123)

# Parameter sesuai referensi
p <- 0.10  # p = 0.10
n <- 100   # n = 100
simulasi <- 5000

# Simulasi
data <- data.frame(
  p_hat = rbinom(simulasi, n, p) / n
)

# Hitung proporsi > 0.15
prop_diatas_15 <- mean(data$p_hat > 0.15) * 100

# Visualisasi
ggplot(data, aes(x = p_hat)) +
  # Histogram
  geom_histogram(aes(y = ..density..),
                 bins = 25,
                 fill = "#e3f2fd",
                 color = "#1976d2",
                 alpha = 0.8) +
  
  # Kurva normal
  stat_function(fun = dnorm,
                args = list(mean = p, sd = sqrt(p*(1-p)/n)),
                color = "#1976d2",
                size = 1.2) +
  
  # Garis p = 0.10
  geom_vline(xintercept = p,
             color = "#d32f2f",
             size = 1.5) +
  
  # Area ekor > 0.15
  geom_area(data = subset(data.frame(x = seq(0, 0.25, length.out = 200),
                                     y = dnorm(seq(0, 0.25, length.out = 200), 
                                               mean = p, 
                                               sd = sqrt(p*(1-p)/n))),
                          x > 0.15),
            aes(x = x, y = y),
            fill = "#ffcdd2",
            alpha = 0.6) +
  
  # Garis batas 0.15
  geom_vline(xintercept = 0.15,
             color = "#ff5722",
             size = 1,
             linetype = "dashed") +
  
  # Anotasi minimal
  annotate("text", x = 0.10, y = 15,
           label = "Mean = 0.10",
           color = "#d32f2f",
           size = 4.5,
           fontface = "bold") +
  
  annotate("text", x = 0.18, y = 8,
           label = paste0("Ekor > 0.15\n", round(prop_diatas_15, 1), "%"),
           color = "#ff5722",
           size = 4) +
  
  annotate("text", x = 0.22, y = 12,
           label = expression(paste("n = 100")),
           color = "#1976d2",
           size = 4.5,
           fontface = "bold") +
  
  # Kosmetik
  labs(x = expression(hat(p)), 
       y = "Densitas",
       title = expression(paste("Distribusi Sampling ", hat(p), " (n=100, p=0.10)"))) +
  
  theme_minimal() +
  theme(
    plot.title = element_text(hjust = 0.5, size = 14, face = "bold"),
    panel.grid.minor = element_blank()
  ) +
  
  scale_x_continuous(labels = percent, 
                     limits = c(0, 0.25),
                     breaks = seq(0, 0.25, by = 0.05))

Interpretasi Visualisasi

Grafik distribusi sampling ini menggambarkan pola probabilitas dari pengambilan sampel acak berukuran 100 (\(n=100\)) dari populasi dengan proporsi klaim awal 10% (\(p=0.10\)), di mana kurva lonceng menunjukkan bahwa sebagian besar hasil sampel seharusnya berkumpul di sekitar rata-rata 0.10. Namun, fokus utama visualisasi ini adalah pada nilai observasi sampel sebesar 15% (\(\hat{p}=0.15\)) yang ditandai garis putus-putus, di mana area merah di sebelah kanannya menunjukkan bahwa peluang (p-value) untuk mendapatkan hasil setinggi itu atau lebih secara kebetulan hanyalah 3.6%. Karena probabilitas kejadian ini sangat kecil (di bawah standar umum 5%), grafik ini memberikan bukti statistik bahwa temuan 15% tersebut merupakan penyimpangan yang signifikan dan bukan sekadar faktor keberuntungan, sehingga memicu dugaan kuat bahwa proporsi populasi yang sebenarnya mungkin lebih tinggi dari 10%.


5.4 Syarat Central Limit Theorem

Jenis Distribusi Syarat Penerapan CLT
Rata-rata Sampel (\(\bar{x}\)) Ukuran sampel \(n \ge 30\)
Proporsi Sampel (\(\hat{p}\)) Harus memenuhi dua kondisi sekaligus:
1. \(n \times p \ge 10\)
2. \(n \times (1 - p) \ge 10\)
Jika kedua kondisi ini terpenuhi Central Limit Theorem (CLT) dapat diterapkan dan tabel z-score dapat digunakan menggunakan standar deviasi.

6 Review Sampling Distribution

Studi Kasus: Toples Kelereng

Parameter Populasi Awal

Total Kelereng
500
Hijau (p)
0.4
200 kelereng
Biru (q)
0.6
300 kelereng
1. Sampel Kecil (\(n=3\))
Metode: Ruang Sampel
Peluang minimal 2 hijau dari 3 kelereng
Perhitungan:

• Kombinasi 2 hijau: (H,H,B), (H,B,H), (B,H,H) → 3 cara
    \(3 × (0.4 × 0.4 × 0.6) = 0.288\)
• Kombinasi 3 hijau: (H,H,H) → 1 cara
    \(1 × (0.4 × 0.4 × 0.4) = 0.064\)

Hasil:
0.352 (35.2%)
Metode manual akurat untuk sampel kecil
2. Sampel Sedang (\(n=5\))
Metode: Distribusi Binomial
Peluang minimal 2 hijau dari 5 kelereng
Rumus:

\(P(k) = \binom{n}{k} p^k (1-p)^{n-k}\)

Perhitungan:

\(P(2) = \binom{5}{2} (0.4)^2 (0.6)^3\)
0.3456

\(P(3) = \binom{5}{3} (0.4)^3 (0.6)^2\)
0.2304

\(P(4) = \binom{5}{4} (0.4)^4 (0.6)^1\)
0.0768

\(P(5) = \binom{5}{5} (0.4)^5 (0.6)^0\)
0.0102

Hasil:
0.6634 (66.34%)
Presisi untuk ukuran sampel sedang
3. Sampel Besar (\(n=100\))
Metode: Aproksimasi Normal
Peluang minimal 35 hijau dari 100 kelereng (\(\hat{p} ≥ 0.35\))
Cek Syarat Normalitas (CLT):

\(n×p = 100×0.4\)
40 (≥10 ✓)

\(n×q = 100×0.6\)
60 (≥10 ✓)

Z-score:

\(Z = \dfrac{0.35 - 0.40}{\sqrt{\dfrac{0.4×0.6}{100}}} = -1.02\)

Mencari Probabilitas:

Tabel Z (Z=-1.02)
0.1539
Area kiri

Area kanan
\(1 - 0.1539\)
Minimal 35 hijau

Hasil:
0.8461 (84.61%)
Efisien dan akurat untuk sampel besar

7 References

[1]Diez, D., Çetinkaya-Rundel, M., & Barr, C. D. (2019). OpenIntro Statistics (4th ed.). OpenIntro. Tautan: https://www.openintro.org/book/os/

[2]Ismay, C., & Kim, A. Y. (2019). ModernDive: Statistical Inference via Data Science. CRC Press. Tautan: https://moderndive.com/

[3]Illowsky, B., & Dean, S. (2021). Introductory Statistics. OpenStax. Tautan: https://openstax.org/details/books/introductory-statistics