📚 Tugas Week 11
Probability Distribution

📊 Statistik

RAIHANIA SYAH PUTRI

52250054

Data Science Student

Institut Teknologi Sains Bandung

R Programming Data Science Statistics

1 Pendahuluan

Sebelum memahami berbagai konsep seperti distribusi sampel, distribusi sampling, peluang rata-rata sampel, hingga perbedaan antara analisis populasi dan sampel, penting bagi kita untuk menyadari bahwa data yang kita amati di dunia nyata selalu memiliki variasi. Dua sampel yang diambil dari populasi yang sama bisa menghasilkan rata-rata yang berbeda, dan hasil-hasil inilah yang perlu kita pahami cara kerjanya. Dengan memahami bagaimana data berubah ketika diambil berulang kali, serta bagaimana rata-rata sampel membentuk pola tertentu, kita akan lebih mudah mengerti kenapa ada distribusi sampling, kenapa ada standard error, dan bagaimana semua itu dipakai untuk menghitung peluang dan membuat kesimpulan statistik.

2 Continous Random

Dalam mempelajari statistik dan probabilitas, terdapat dua jenis variabel utama yang perlu dipahami: variabel diskrit dan variabel kontinu. Sebelum kita mendalami tentang probabilitas variabel kontinu.

mustahil mengukur seluruh populasi (semua penduduk, seluruh produk, dll.)—terlalu mahal, lama, dan tidak praktis. Oleh karena itu, kita menggunakan sampel (sebagian kecil populasi) untuk memperkirakan karakteristik populasi (seperti rata-rata tinggi, persentase pengguna internet, atau efektivitas obat). Namun, sebelum menganalisis data, kita harus pahami jenis variabelnya: variabel diskrit dan variabel kontinu, karena pemahaman ini menentukan metode pengumpulan data, teknik analisis, dan interpretasi hasil yang tepat sebelum melangkah ke konsep distribusi dan inferensi statistik yang lebih kompleks.

2.1 Variabel Diskrit (Dapat Dihitung)

Variabel yang nilainya bisa dihitung satu per satu, hasilnya dari perhitungan (counting).

Ciri-ciri:

Nilai terbatas dan terpisah
Bisa berupa bilangan bulat atau desimal tertentu
Contoh: “Berapa anak kamu?” → 1, 2, 3 (tidak 2.5)

Contoh nyata:

Jumlah kepala dalam lempar koin: 0, 1, 2, 3, 4
Nilai ujian: 0, 1, 2, …, 100 (atau 87.5, karena terbatas sampai 100 saja)
Jumlah produk cacat: 0, 1, 2, …

Rumus probabilitas diskrit:

\[ P(X = x) = \frac{\text{Jumlah kemungkinan } x}{\text{Total kemungkinan}} \]

Contoh: Peluang dadu = 6 → \(P(X=6) = \frac{1}{6}\)

2.2 Variabel Kontinu (Dapat Diukur)

Variabel yang nilainya bisa berupa angka apa saja dalam rentang, hasilnya didapat dari pengukuran (measuring).

Ciri-ciri:

Nilai tak terbatas dalam rentang
Bisa diukur sampai desimal tak hingga
Contoh: “Berapa berat kamu?” → 60 kg, 60.5 kg, 60.5321 kg, dst.

Contoh nyata:

Tinggi badan: 170 cm, 170.2 cm, 170.25 cm, …
Waktu tempuh: 10 detik, 10.1 detik, 10.15 detik, …
Suhu: 25°C, 25.7°C, 25.73°C, …

Probabilitas kontinu:

1. tak terhingga kemungkinan

\[ P(X = \text{tepat } x) = 0 \]

Contoh:

P(tinggi = 170.0000… cm) = 0

2. Yang PENTING: RENTANG NILAI:

\[ P(a < X < b) = \text{Luas area di bawah kurva} \]

Contoh:

P(tinggi antara 169-171 cm) = luas kurva antara 169 dan 171

3. Cara Hitungnya:

\[ P(a < X < b) = \int_a^b f(x) dx \]

Artinya:

“Probabilitas bahwa variabel acak kontinu X berada di antara a dan b sama dengan LUAS AREA di bawah kurva dari a ke b.”

2.2.1 Perbedaan Visual variabel diskrit dan variabel kontinu

Perbandingan Variabel Diskrit vs Kontinu
Aspek	Variabel Diskrit	Variabel Kontinu
Jenis Grafik	Diagram Batang (Bar Chart)	Histogram
Bentuk Batang	Batang terpisah (ada jarak)	Batang menyatu (tanpa jarak)
Alasan	Nilai-nilai terpisah/distinct	Nilai-nilai bersambung/continuous
Contoh Data	Jumlah anak per keluarga: 0, 1, 2, 3, 4, 5+	Tinggi badan (cm): interval 130-135, 135-140, …

2.2.2 Perbedaan Distribusi Populas, Sampel, Sampling

Perbandingan Lengkap Tiga Jenis Distribusi
Kategori	Populasi	Sampel	Sampling
Data yang Dianalisis	Semua individu dalam populasi	Satu kelompok sampel saja	Banyak nilai rata-rata dari banyak sampel
Tujuan Analisis	Menghitung karakteristik sebenarnya dari seluruh kelompok	Menggambarkan karakteristik dari sebagian data yang diambil	Memperkirakan karakteristik populasi berdasarkan beberapa sampel
Simbol Mean	μ (mu)	x̄ (x-bar)	μ (sama seperti populasi)
Simbol Standar Deviasi	σ (sigma)	s	σ/√n (Standard Error)
Rumus Mean	μ = ΣX / N	x̄ = Σx / n	μ_x̄ = μ
Rumus Standar Deviasi	σ = √[Σ(X-μ)² / N]	s = √[Σ(x-x̄)² / (n-1)]	SE = σ / √n
Ukuran yang Dibagi	N (ukuran populasi)	n-1 (derajat kebebasan)	√n (untuk standard error)
Inferensi Statistik	Tidak dilakukan (sudah data lengkap)	Tidak bisa (hanya deskripsi)	Bisa dilakukan (estimasi parameter)
Contoh Data	Tinggi semua 10.000 mahasiswa di kampus	Tinggi 50 mahasiswa yang disurvei	Rata-rata tinggi dari 100 kelompok survei

2.2.3 Perbedaan Langkah Perhitungan Macam-macam Distribusi

2.2.3.1 1. Distribusi Populasi → Hitung Parameter

X = nilai tiap individu dalam populasi
N = jumlah total individu dalam populasi
μ (mu) = rata-rata populasi
σ (sigma) = standar deviasi populasi

Contoh :

Data 5 siswa: 165, 168, 170, 172, 175 cm
- X₁ = 165, X₂ = 168, X₃ = 170, X₄ = 172, X₅ = 175
- N = 5 (total ada 5 siswa)

Hitung μ: \[ \mu = \frac{\sum X}{N} = \frac{X_1 + X_2 + X_3 + X_4 + X_5}{N} = \frac{165 + 168 + 170 + 172 + 175}{5} = 170 \text{ cm} \]

Hitung σ:

Hitung selisih tiap X dengan μ:

\(X_1 - \mu = 165 - 170 = -5\)
\(X_2 - \mu = 168 - 170 = -2\)
\(X_3 - \mu = 170 - 170 = 0\)
\(X_4 - \mu = 172 - 170 = 2\)
\(X_5 - \mu = 175 - 170 = 5\)

Kuadratkan:

\((-5)^2 = 25\)
\((-2)^2 = 4\)
\(0^2 = 0\)
\(2^2 = 4\)
\(5^2 = 25\)

Jumlahkan: \(25 + 4 + 0 + 4 + 25 = 58\)
Bagi dengan N: \(\frac{58}{5} = 11.6\)
Akar kuadrat: \(\sqrt{11.6} \approx 3.41\)

\[ \boxed{\mu = 170 \text{ cm}, \quad \sigma = 3.41 \text{ cm}} \]

2.2.3.2 2. Distribusi Sampel → Hitung Statistik Deskriptif

x = nilai tiap individu dalam sampel
n = jumlah individu dalam sampel
x̄ (x-bar) = rata-rata sampel
s = standar deviasi sampel

Contoh:

Sampel 3 siswa: 165, 170, 175 cm
- x₁ = 165, x₂ = 170, x₃ = 175
- n = 3 (hanya 3 siswa dalam sampel ini)

Hitung x̄: \[ \bar{x} = \frac{\sum x}{n} = \frac{x_1 + x_2 + x_3}{n} = \frac{165 + 170 + 175}{3} = 170 \text{ cm} \]

Hitung s: 1. Hitung selisih tiap x dengan x̄: - \(x_1 - \bar{x} = 165 - 170 = -5\) - \(x_2 - \bar{x} = 170 - 170 = 0\) - \(x_3 - \bar{x} = 175 - 170 = 5\)

Kuadratkan:

\((-5)^2 = 25\)
\(0^2 = 0\)
\(5^2 = 25\)

Jumlahkan: \(25 + 0 + 25 = 50\)
Bagi dengan (n-1) bukan n! \(\frac{50}{3-1} = \frac{50}{2} = 25\)
Akar kuadrat: \(\sqrt{25} = 5\)

\[ \boxed{\bar{x} = 170 \text{ cm}, \quad s = 5 \text{ cm}} \]

Kenapa bagi (n-1)? Karena x̄ sendiri dihitung dari data ini, jadi kita “kehilangan 1 derajat kebebasan”.

2.2.3.3 3. Distribusi Sampling → Hitung Probabilitas & Inferensi

X̄ (X-bar) = rata-rata dari sebuah sampel
n = ukuran setiap sampel
μ = rata-rata populasi (dari bagian 1)
σ = standar deviasi populasi (dari bagian 1)
SE = Standard Error
Z = Z-score

Contoh:

Pertanyaan: “Berapa probabilitas rata-rata sampel 3 siswa > 172 cm?”

Data dari populasi: μ = 170 cm, σ = 3.41 cm
n = 3 (setiap sampel berisi 3 siswa)

Hitung Standard Error (SE): \[ SE = \frac{\sigma}{\sqrt{n}} = \frac{3.41}{\sqrt{3}} = \frac{3.41}{1.732} \approx 1.97 \text{ cm} \]

Distribusi sampling: Semua nilai X̄ yang mungkin mengikuti: \[ \bar{X} \sim N\left(\mu, SE\right) = N(170, 1.97) \]

Misal kita dapat satu sampel dengan X̄ = 172 cm, hitung Z-score: \[ Z = \frac{\bar{X} - \mu}{SE} = \frac{172 - 170}{1.97} = \frac{2}{1.97} \approx 1.02 \]

Interpretasi Z = 1.02:

Artinya: X̄ = 172 cm berada 1.02 Standard Error di atas μ
Dari tabel Z: P(Z > 1.02) = 0.1539

\[ \boxed{P(\bar{X} > 172) = 0.1539 = 15.39\%} \]

2.3 Distribusi Probabilitas Variabel Kontinu

Untuk memahami variabel acak kontinu, penting untuk mengetahui bagaimana probabilitas direpresentasikan menggunakan Fungsi Kepadatan Probabilitas (PDF). Tidak seperti variabel acak diskrit, variabel acak kontinu tidak menetapkan probabilitas ke titik-titik individual. Sebaliknya, probabilitas diperoleh dari luas area di bawah kurva PDF.

2.4 Variabel Acak

Suatu variabel acak dikatakan kontinu jika dapat mengambil nilai apa pun dalam suatu interval pada garis bilangan riil. Contohnya meliputi: tinggi, waktu, suhu, usia, tekanan, dan kecepatan.

Sifat penting:
- Peluang satu titik selalu nol:
\[ P(X = a) = 0 \]
- Peluang hanya berarti untuk interval:
\[ P(a < X < b) \]

2.4.1 Fungsi Kepadatan Probabilitas (PDF)

Fungsi \(f(x)\) disebut PDF valid jika:

Syarat 1: Selalu non-negatif
\[ f(x) \geq 0 \quad \text{untuk semua } x \]

Syarat 2: Luas total di bawah kurva = 1
\[ \int_{-\infty}^{\infty} f(x) \, dx = 1 \]

Catatan:

\(f(x)\) bukan peluang, tapi kepadatan
Peluang diperoleh dari luas di bawah kurva \(f(x)\)

2.4.2 Probabilitas pada Interval

Untuk menghitung peluang \(X\) berada antara \(a\) dan \(b\): \[ P(a < X < b) = \int_{a}^{b} f(x) \, dx \]

Cara kerja:
1. Tentukan batas bawah \(a\) dan batas atas \(b\)
2. Integralkan \(f(x)\) dari \(a\) ke \(b\)
3. Hasil integral = peluang yang dicari

2.4.3 Contoh

Diketahui fungsi: \[ f(x) = \begin{cases} k x^2, & 0 \leq x \leq 3 \\ 0, & \text{untuk } x \text{ lainnya} \end{cases} \]

(a) Tentukan nilai \(k\) agar \(f(x)\) merupakan fungsi kepadatan peluang:

Langkah 1: Integralkan di seluruh rentang
\[ \int_{0}^{3} k x^2 \, dx = 1 \]

Langkah 2: Selesaikan integral
\[ k \left[ \frac{x^3}{3} \right]_{0}^{3} = 1 \] \[ k \left( \frac{3^3}{3} - 0 \right) = 1 \] \[ k \cdot 9 = 1 \]

Langkah 3: Cari nilai \(k\)
\[ k = \frac{1}{9} \]

Jawaban: \(k = \frac{1}{9}\)

(b) Hitung peluang \(P(2 < X < 3)\):

Langkah 1: Tulis fungsi lengkap dengan \(k\)
\[ f(x) = \begin{cases} \frac{1}{9} x^2, & 0 \leq x \leq 3 \\ 0, & \text{lainnya} \end{cases} \]

Langkah 2: Hitung integral dari 2 ke 3
\[ P(2 < X < 3) = \int_{2}^{3} \frac{1}{9} x^2 \, dx \]

Langkah 3: Selesaikan integral
\[ = \frac{1}{9} \left[ \frac{x^3}{3} \right]_{2}^{3} = \frac{1}{27} \left( x^3 \bigg|_{2}^{3} \right) \]

Langkah 4: Substitusi batas
\[ = \frac{1}{27} (27 - 8) = \frac{19}{27} \]

Jawaban: \(P(2 < X < 3) = \frac{19}{27}\)

2.4.4 Fungsi Distribusi Kumulatif (CDF)

Fungsi yang menyatakan peluang kumulatif sampai suatu titik \(x\).

Definisi:
\[ F(x) = P(X \leq x) = \int_{-\infty}^{x} f(t) \, dt \]

Hubungan dengan PDF:
\[ f(x) = \frac{d}{dx} F(x) \]

Contoh: Untuk \(f(x) = 3x^2\) pada interval \([0, 1]\):

Langkah 1: Hitung CDF
\[ F(x) = \int_{0}^{x} 3t^2 \, dt = \left[ t^3 \right]_{0}^{x} = x^3 \]

Langkah 2: Verifikasi hubungan dengan PDF
\[ f(x) = \frac{d}{dx} (x^3) = 3x^2 \]

Jawaban: \(F(x) = x^3\) untuk \(0 \leq x \leq 1\)

2.4.5 Cara Penyelesaian soal

7. POLA PENYELESAIAN SOAL STANDAR
Jenis Soal	Langkah-Langkah	Contoh Penerapan
Cari konstanta (c/k)	Integralkan f(x) di seluruh rentang Samakan hasil dengan 1 Selesaikan untuk dapatkan konstanta	\(f(x) = kx^2, 0 \leq x \leq 3\) → \(\int kx^2 dx = 1\) → \(k = 1/9\)
Hitung peluang P(a<X<b)	Pastikan f(x) sudah benar (konstanta diketahui) Tulis integral dengan batas a dan b Hitung integral Hasil = peluang	\(P(2 < X < 3) = \int_2^3 (1/9)x^2 dx = 19/27\)
Buktikan validitas PDF	Hitung ∫ f(x) dx di seluruh rentang Jika hasil = 1 → PDF valid Jika ≠ 1 → bukan PDF	\(\int_{-1}^2 (4x^3/15) dx = 1\) → ✅ Valid

3 Sampling Distribution

Untuk memahami distribusi sampling, kita harus tahu dulu bedanya dengan distribusi sampel. Meskipun terdengar mirip, keduanya berbeda: distribusi sampel hanya berasal dari satu sampel, sedangkan distribusi sampling menggambarkan banyak rata-rata sampel dari populasi yang sama. Memahami perbedaan ini penting karena distribusi sampling menjadi dasar untuk memperkirakan karakteristik populasi.

Sebelum mempelajari distribusi sampling, kita harus pahami bedanya dengan distribusi sampel.

3.1 Perbandingan Sample Distribution vs Sampling Distribution

3.1.1 Distribusi Sampel

Analisis dari satu sampel saja dari suatu populasi.

Proses:

Ambil 1 sampel (misal: 50 orang)
Ukur semua orang dalam sampel itu
Hitung rata-rata sampel (x̄)
Analisis data dari sampel itu saja

Karakteristik:

x̄ bisa berbeda-beda: 160 cm, 170 cm, atau 162.56 cm Karena sampel kecil → lebih banyak variasi
Kurang akurat mewakili populasi (karena hanya sebagian kecil)

3.1.2 Distribusi Sampling

Distribusi dari BANYAK statistik sampel dari suatu populasi.

Langkah-Langkahnya:

Langkah 1: Tentukan populasi (misal: tinggi badan)

Langkah 2: Tentukan ukuran sampel (n = 5)

Langkah 3: Ambil sampel acak 1 → ukur tinggi 5 orang → hitung x̄₁

Langkah 4: Ambil sampel acak 2 → ukur tinggi 5 orang → hitung x̄₂

Langkah 5: Ulangi ratusan/ribuan kali

Langkah 6: Kumpulkan semua x̄ →lalu membuat buat histogram.

3.1.3 Contoh Distribusi Sampling

Populasi: 10.000 orang dengan berbagai tinggi badan

Langkah Distribusi Sampling:

Ambil Sampel 1 (n=5 orang):
- Ukur tinggi 5 orang: 162, 164, 161, 165, 163 cm
- Hitung rata-rata: (162+164+161+165+163)/5 = 163 cm
- Plot nilai 163 cm di grafik
Ambil Sampel 2 (n=5 orang berbeda):
- Ukur tinggi 5 orang baru: 160, 162, 159, 164, 161 cm
- Hitung rata-rata: (160+162+159+164+161)/5 = 161 cm
- Plot nilai 161 cm di grafik
Ambil Sampel 3 (n=5 orang berbeda lagi):
- Ukur tinggi 5 orang: 164, 166, 165, 163, 167 cm
- Hitung rata-rata: (164+166+165+163+167)/5 = 165 cm
- Plot nilai 165 cm di grafik
Ulangi proses ini 1000 kali → dapat 1000 nilai rata-rata (x̄) berbeda
Kumpulkan semua 1000 nilai x̄ → buat histogram

Hasil akhir: Histogram dari 1000 nilai rata-rata = Distribusi Sampling

Jika kita ambil cukup banyak sampel distribusi sampling akan berbentuk normal, Meskipun populasi asalnya tidak normal

3.2 Perbandingan Populasi vs Sampling Distribution

3.2.1 Population Distribution (Distribusi Populasi)

Karakteristik:

Mean = μ (parameter tetap)
Standar deviasi = σ
Data: pengukuran individu
Notasi: \(X \sim N(\mu, \sigma)\)

Rumus Standardisasi (Z-score populasi): \[ Z = \frac{x - \mu}{\sigma} \]

3.2.2 Sampling Distribution (Distribusi Sampling)

Karakteristik:

Mean = μ (sama dengan mean populasi!) \[ \mu_{\bar{x}} = \mu \]
Standar deviasi = Standard Error (SE) \[ \sigma_{\bar{x}} = \frac{\sigma}{\sqrt{n}} \]
Data: rata-rata sampel (x̄)
Notasi: \(\bar{X} \sim N\left(\mu, \frac{\sigma}{\sqrt{n}}\right)\)

Rumus Standardisasi (Z-score sampling): \[ Z = \frac{\bar{x} - \mu}{\sigma/\sqrt{n}} \]

Distribusi Sampling bisa Lebih “Sempit” karena :

Nilai rata-rata cenderung lebih stabil dibanding nilai data tunggal
Nilai-nilai yang ekstrem cenderung saling menetralkan ketika dirata-ratakan
Semakin besar ukuran sampel (n) → distribusi sampling semakin menyempit

3.2.2.1 Soal:

Tinggi orang Kanada rata-rata 160 cm dengan simpangan baku 7 cm. Kalau kita ambil sampel 10 orang secara acak, berapa peluang rata-rata tinggi mereka kurang dari 157 cm?

1. Ini soal tentang DISTRIBUSI SAMPLING Karena yang ditanya “rata-rata 10 orang”, bukan “satu orang”.

2. Langkah Penyelesaian:

Langkah 1: Cari Standard Error (SE) Standard Error itu simpangan baku untuk distribusi sampling. \[ SE = \frac{\sigma}{\sqrt{n}} = \frac{7}{\sqrt{10}} \approx 2.21 \text{ cm} \]

Langkah 2: Cari Z-score Z-score menunjukkan “berapa jauh” 157 cm dari rata-rata (160 cm), dalam satuan SE. \[ Z = \frac{157 - 160}{2.21} = -1.36 \] Artinya: 157 cm berada 1.36 SE di bawah rata-rata.

Langkah 3: Cari Peluang dari Tabel Z \[ P(Z < -1.36) = 0.0869 \]

3. Jawaban Final: Ada 8.69% kemungkinan rata-rata tinggi 10 orang Kanada kurang dari 157 cm.

Kenapa SE lebih kecil dari σ? Karena rata-rata sampel lebih stabil daripada nilai individu. Semakin besar sampel (n), semakin kecil SE, semakin akurat.

SOAL 2: Tinggi orang Kanada rata-rata 160 cm dengan simpangan baku 7 cm. Berapa persentase orang Kanada yang tingginya lebih dari 170 cm?

1. Ini soal tentang DISTRIBUSI POPULASI Kenapa? Karena yang ditanya “semua orang” (populasi), bukan rata-rata sampel.

2. Langkah Penyelesaian:

Langkah 1: Cari Z-score

Z-score menunjukkan “berapa jauh” 170 cm dari rata-rata (160 cm), dalam satuan simpangan baku. \[ Z = \frac{170 - 160}{7} = \frac{10}{7} = 1.43 \] Artinya: 170 cm berada 1.43 simpangan baku di atas rata-rata.

Langkah 2: Cari peluang dari tabel Z

Dari tabel Z: \(P(Z < 1.43) = 0.9236\)
Ini artinya 92.36% orang punya tinggi kurang dari 170 cm

Langkah 3: Cari peluang “lebih dari”

Karena total populasi = 100%: \[ P(X > 170) = 100\% - 92.36\% = 7.64\% \] Atau dalam desimal: \(1 - 0.9236 = 0.0764\)

3. Jawaban Final:

7.64% orang Kanada memiliki tinggi lebih dari 170 cm.

3.3 Alasan mengapa Distribusi Sampling Penting:

1. Efisiensi dan Kepraktisan

Masalah: Mengukur seluruh populasi sering tidak mungkin.

Contoh ekstrem:

Populasi: 8 miliar orang (seluruh manusia di Bumi)
Ingin tahu: rata-rata tinggi seluruh manusia
Tidak mungkin ukur semua orang!

Solusi: Distribusi sampling

Ambil banyak sampel kecil
Hitung rata-rata tiap sampel
Dari distribusi sampling → estimasi μ populasi

2. Menghitung Probabilitas

Distribusi sampling memungkinkan kita menjawab: - “Seberapa mungkin rata-rata sampel sekian?” - “Berapa probabilitas mendapatkan hasil tertentu dari sampel?”

3. Dasar Inferensi Statistik

Confidence interval
Hypothesis testing
Estimasi parameter

4 Central Limit Teorem

Setelah memahami bagaimana distribusi sampling terbentuk dari banyak sampel acak dan bagaimana rata-rata sampel dapat menggambarkan karakter suatu populasi, kita masuk pada konsep penting dalam statistik, yaitu Teorema Limit Tengah (Central Limit Theorem / CLT). Teorema ini menjadi landasan utama dalam analisis inferensial karena menjelaskan mengapa dan kapan rata-rata sampel dapat mengikuti distribusi normal, bahkan ketika populasi aslinya tidak normal. Dengan memahami CLT, kita bisa melakukan berbagai teknik statistik seperti uji hipotesis, menghitung interval kepercayaan, serta memprediksi perilaku rata-rata sampel hanya dari data yang terbatas.

4.1 Definisi Teorema Limit Tengah

Teorema Limit Tengah memprediksi bentuk distribusi sampling berdasarkan ukuran sampel. Secara khusus, Teorema Limit Tengah menyatakan bahwa:

“Jika ukuran sampel n cukup besar, maka distribusi sampling dari rata-rata sampel akan mendekati distribusi normal.”

4.1.1 Contoh dengan Populasi Miring (Skewed)

Ketika kita bekerja dengan populasi yang miring (tidak normal), lalu kita mengambil banyak sampel acak sederhana dan menghitung rata-rata (x̄) dari setiap sampel, hasil dari banyak x̄ itu bisa membentuk distribusi sampling.

1. Cara distribusi sampling terbentuk

Kita ambil sampel → hitung rata-rata → simpan.
Ambil sampel lagi → hitung rata-rata → simpan.
Lakukan berulang kali.
Kumpulkan semua x̄ → bentuk grafik → itulah distribusi sampling dari mean.

2. Kenapa sebagian besar sampel mirip populasi?

Dalam populasi miring:

Area yang lebih besar → peluang lebih tinggi datanya muncul dalam sampel.
Area yang kecil → peluang lebih rendah datanya muncul.

Jadi sebagian besar sampel akan memuat data dari bagian “utama” populasi. Karena itu, banyak rata-rata sampel (x̄) akan berkumpul dekat mean populasi μ.

3. Kenapa rata-rata sampel berkumpul dekat μ?

Karena:

Sampel acak yang benar secara definisi mewakili populasi.
Nilai ekstrem bisa muncul dalam satu sampel, tapi ketika dihitung rata-ratanya, ekstrem itu diredam.
Kadang ada sampel yang rata-ratanya jauh dari μ—itu wajar—tapi jarang.

4. Hasil akhirnya: X̄ membentuk pola normal

Jika semua x̄ digabungkan:

Kita mendapat “tumpukan” nilai rata-rata sampel.
Tumpukan ini bentuknya cenderung normal, meskipun populasi awal miring.

Inilah inti Teorema Limit Pusat (Central Limit Theorem / CLT):

Jika ukuran sampel cukup besar, distribusi sampling dari mean akan mendekati distribusi normal, tidak peduli bentuk populasi aslinya.

4.1.2 Berapa n dianggap cukup besar?

CLT menyatakan bahwa distribusi sampling dari mean akan mendekati normal jika ukuran sampel cukup besar. Aturan aman yang dipakai:

[ ]

4.1.3 Jika n < 30

Ukuran sampel kecil menyebabkan:

Variabilitas lebih besar
Hasil tidak presisi
Risiko dapat sampel “aneh” atau tidak representatif meningkat

→ Distribusi sampling tidak akan normal jika n kecil dan populasi tidak normal.

Jika n < 30 dan populasi tidak normal, CLT tidak dapat diterapkan.

4.1.4 Jika Distribusi sudah Normal

Jika populasi sudah normal, maka:

Distribusi sampling → otomatis normal
Berlaku untuk semua n, bahkan n kecil

4.2 Interpretasi dalam Inferensi Statistik

CLT memungkinkan:

Uji hipotesis
Interval kepercayaan
Perhitungan probabilitas hasil statistik

Tanpa CLT, metode ini tidak dapat dipakai pada data sembarang.

4.3 Rumus

1.Distribusi Sampling Berdasarkan CLT Ketika CLT berlaku, distribusi sampling dari rata-rata sampel mengikuti: \[ \bar{X} \sim N\left(\mu, \frac{\sigma}{\sqrt{n}}\right) \]

2. Standard Error Standar deviasi dari distribusi sampling disebut Standard Error (SE): \[ \sigma_{\bar{X}} = \frac{\sigma}{\sqrt{n}} \]

3. Rumus Standardisasi (Z-score) Untuk distribusi sampling: \[ Z = \frac{\bar{x} - \mu}{\sigma/\sqrt{n}} \]

5 Sample Propotion

Dalam statistika, kita menggunakan sampel untuk memperkirakan kondisi populasi. Karena setiap sampel bisa menghasilkan proporsi yang berbeda, kumpulan semua proporsi sampel ini membentuk distribusi sampling proporsi. Konsep ini penting karena membantu kita memahami variasi hasil sampel dan menghitung peluang terkait proporsi dalam populasi.

6 Distribusi Sampling Proporsional

Proporsi = bagian dari populasi yang memiliki ciri tertentu. - p = proporsi populasi (nilai tetap, parameter) - p̂ (p-hat) = proporsi sampel (bervariasi, statistik)

Rumus: p̂ = x/n
x = jumlah “sukses” dalam sampel
n = ukuran sampel

Contoh: - Populasi: 40% suka es krim → p = 0.40 - Sampel 50 orang: 20 suka es krim → p̂ = 20/50 = 0.40

6.1 Distribusi Sampling p

Kalau kita ambil banyak sampel dari populasi yang sama: - Sampel 1: hitung p̂₁ - Sampel 2: hitung p̂₂
- Sampel 3: hitung p̂₃ - … terus sampai ratusan sampel

Kumpulkan semua p̂ → buat distribusi → itulah distribusi sampling p̂.

6.2 Sifat Distribusi Sampling p̂ (jika syarat terpenuhi)

1. Bentuknya NORMAL (berkat Teorema Limit Tengah)

Bentuk populasi asal tidak masalah! Asal syarat terpenuhi, distribusi sampling p̂ akan normal.

2. Mean (rata-rata) = p

\[ \mu_{p̂} = p \] Rata-rata dari semua p̂ = proporsi populasi

3. Standard Error (bukan Standard Deviasi biasa)

\[ SE = \sqrt{\frac{p(1-p)}{n}} \] Ini adalah “simpangan baku” untuk distribusi sampling

4. Notasi lengkap:

\[ p̂ \sim N\left(p, \sqrt{\frac{p(1-p)}{n}}\right) \]

5. Rumus Z-score:

\[ Z = \frac{p̂ - p}{\sqrt{\frac{p(1-p)}{n}}} \]

6.3 Syarat Penting Perbedaan dengan Distribusi Sampling Mean

Untuk distribusi sampling mean (rata-rata): cukup n ≥ 30
Untuk distribusi sampling proporsi: harus penuhi DUA syarat:

\[ n \times p \geq 10 \quad \text{dan} \quad n \times (1-p) \geq 10 \]

Kenapa? Supaya:

Cukup banyak “sukses” dalam sampel (n×p ≥ 10)
Cukup banyak “gagal” dalam sampel (n×(1-p) ≥ 10)

Contoh cek syarat:

p = 0.4, n = 25 → 25×0.4=10 ✓, 25×0.6=15 ✓ → CLT berlaku
p = 0.1, n = 100 → 100×0.1=10 ✓, 100×0.9=90 ✓ → CLT berlaku
p = 0.05, n = 100 → 100×0.05=5 ✗ → CLT TIDAK berlaku

6.4 Contoh Soal:

Kasus: ANEMIA IBU HAMIL

DATA:

Prevalensi anemia di populasi: 40% → p = 0.40
1-p = 0.60

6.4.1 Kasus 1: Sampel n = 100 IBU HAMIL

Langkah 1: Cek Syarat CLT

n×p = 100×0.40 = 40 ≥ 10 ✓
n×(1-p) = 100×0.60 = 60 ≥ 10 ✓
→ CLT BERLAKU

Langkah 2: Hitung Standard Error

\[ SE = \sqrt{\frac{0.40 \times 0.60}{100}} = \sqrt{0.0024} = 0.049 \]

Langkah 3: Hitung Probabilitas

a. Probabilitas < 35% anemia

Target: p̂ < 0.35 \[ Z = \frac{0.35 - 0.40}{0.049} = -1.02 \] Dari tabel Z: P(Z < -1.02) = 0.1539
Jawaban: 15.39%

b. Probabilitas > 45% anemia

Target: p̂ > 0.45 \[ Z = \frac{0.45 - 0.40}{0.049} = 1.02 \] P(Z > 1.02) = 1 - P(Z < 1.02) = 1 - 0.8461 = 0.1539
Jawaban: 15.39%

c. Probabilitas antara 35%-45% anemia

P(0.35 < p̂ < 0.45) = P(-1.02 < Z < 1.02)
= 0.8461 - 0.1539 = 0.6922
Jawaban: 69.22%

6.4.2 Kasus 2: Sampel n = 400 IBU HAMIL

Langkah 1: Cek Syarat CLT

n×p = 400×0.40 = 160 ≥ 10 ✓
n×(1-p) = 400×0.60 = 240 ≥ 10 ✓
→ CLT BERLAKU

Langkah 2: Hitung Standard Error (lebih kecil!)

\[ SE = \sqrt{\frac{0.40 \times 0.60}{400}} = \sqrt{0.0006} = 0.0245 \]

Langkah 3: Hitung Probabilitas

a. Probabilitas < 35% anemia

\[ Z = \frac{0.35 - 0.40}{0.0245} = -2.04 \] P(Z < -2.04) = 0.0207
Jawaban: 2.07%

b. Probabilitas > 45% anemia

\[ Z = \frac{0.45 - 0.40}{0.0245} = 2.04 \] P(Z > 2.04) = 1 - 0.9793 = 0.0207
Jawaban: 2.07%

c. Probabilitas antara 35%-45% anemia

P(0.35 < p̂ < 0.45) = P(-2.04 < Z < 2.04)
= 0.9793 - 0.0207 = 0.9586
Jawaban: 95.86%

6.4.2.1 Interpretasi Dari Contoh Ini:

1. Efek Ukuran Sampel (n)

n ↑ → SE ↓ (Standard Error mengecil)
n ↑ → Z-score ↑ untuk target yang sama
n ↑ → probabilitas hasil ekstrem ↓
n ↑ → probabilitas hasil sekitar p ↑

2. Kenapa n=400 lebih baik?

Karena Standard Error lebih kecil: - n=100: SE = 0.049 → margin error ±9.8% - n=400: SE = 0.0245 → margin error ±4.9%

Artinya: Dengan sampel 400, estimasi kita 2× lebih presisi!

3. Interpretasi untuk Penelitian Kesehatan

Dengan sampel 100: Ada 30.78% kemungkinan estimasi menyimpang >5% dari nilai sebenarnya
Dengan sampel 400: Hanya 4.14% kemungkinan estimasi menyimpang >5%

6.4.3 Langkah Penyelesaian Soal

TULIS DATA: p = …, 1-p = …, n = …, target p̂ = …
CEK SYARAT: n×p ≥ 10 dan n×(1-p) ≥ 10?
- Jika YA → lanjut
- Jika TIDAK → CLT tidak berlaku
HITUNG SE: √[p(1-p)/n]
HITUNG Z: (p̂ - p)/SE
CARI di TABEL Z: cari probabilitas
INTERPRETASI: ubah ke % & jelaskan

7 Riview Sampling Distribution

Semua konsep ini sebenarnya saling terhubung dan membentuk satu alur logis dari memahami peluang paling sederhana hingga mampu memperkirakan hasil dari sampel besar dengan cepat dan akurat.Selanjutnya kita akan me-riview secara menyeluruh tentang apa yg kita bahas

7.1 1. Review Probability (Peluang)

Probability = kemungkinan suatu kejadian terjadi.

Pada contoh:

200 green marbles
300 blue marbles
Total = 500

Maka:

Peluang green (sukses): [ p = = 0.4]
Peluang blue (gagal): [ q = = 0.6]

Jika pengambilan dilakukan berulang dan saling bebas (with replacement), maka setiap draw punya peluang sama.

7.2 2. Sample Space & Cara Hitung Probability Manual

Setiap urutan pengambilan adalah outcome. Contoh:

GGB
BGB
BGG
dll.

Probability outcome didapat dari perkalian peluang tiap posisi:

Contoh:

[ P(GGB) = 0.4 = 0.096]

Untuk 3 blue berturut-turut:

[ 0.6^3 = 0.216]

Kalau diminta:

7.2.1 P(Setidaknya 2 green)

Berarti menghitung:

P(2 green),
P(3 green),

lalu dijumlahkan.

Dari hitungan manual:

P(2 green) = 0.288
P(3 green) = 0.064

Total: [ P( green) = 0.288 + 0.064 = 0.352]

7.3 3. Kenapa Kita Beralih ke Binomial?

Ketika jumlah pengambilan lebih besar (misal n = 5 atau n = 100), cara manual menjadi:

❌ capek ❌ terlalu banyak outcomes ❌ tidak efisien

→ Maka kita pakai Binomial Distribution.

7.4 4. Binomial Distribution (Ketika n = 5)

Binomial dipakai ketika:

jumlah percobaan tetap → n
hanya 2 hasil → sukses / gagal
peluang tetap → p
tiap percobaan independen

Rumus Binomial:

[ P(k) = p^k (1-p)^{n-k}]

Untuk soal:

n = 5
p = 0.4
k = 2, 3, 4, 5

Hitung 4 kali, lalu jumlahkan.

Dari video:

P(2 green) = 0.3456
dan setelah gabung semua: [ P() = 0.66304]

7.5 5. Ketika n Sangat Besar (n = 100)

Jika n besar, menghitung dengan

sample space → ❌ mustahil
binomial → ❌ 65 kali perhitungan

Solusinya:

Sampling Distribution of the Sample Proportion (p̂)

dengan bantuan Central Limit Theorem (CLT).

7.6 6. Cek Syarat CLT untuk p̂

Syarat CLT untuk proporsi:

✔ n·p ≥ 10
✔ n·(1−p) ≥ 10

Masukkan nilai:

n = 100
p = 0.4

Cek:

100 × 0.4 = 40 ≥ 10 ✔
100 × 0.6 = 60 ≥ 10 ✔

Karena dua-duanya terpenuhi → distribusi p̂ mendekati normal.

7.7 7. Gunakan Standardization Formula (Z-score)

Proposi minimal 35/100 → p̂ = 0.35.

Z-score:

[ z = ]

Masukkan:

p̂ = 0.35
p = 0.4
n = 100

Dapat:

[ z = -1.02]

Dari tabel Z:

area kiri z = –1.02 adalah 0.1539

Ini berarti: [ P(p ) = 0.1539]

Tapi soal minta:

P(p̂ ≥ 0.35)

Maka:

[ 1 - 0.1539 = 0.8461]

Jadi probabilitas ≈ 84.61%.

7.8 8. Catatan Penting

CLT menghasilkan probabilitas mendekati (approximate), bukan persis.
Exact probability harus pakai:
- sample space (untuk n kecil), atau
- binomial (untuk n tidak terlalu besar).

Tapi untuk statistik pemula, metode CLT cukup akurat dan cepat.

7.9 Summary

Probability → hitung peluang dasar. Binomial Distribution → digunakan kalau ingin hitung peluang k sukses dari n percobaan. Sampling Distribution of p̂ → dipakai kalau n besar, sehingga binomial sulit; dengan syarat CLT (np ≥ 10 dan nq ≥ 10), distribusi p̂ mendekati normal dan bisa dihitung pakai z-score.

8 Sumber

https://staff.blog.ui.ac.id/r-suti/files/2010/04/5-dist-sampling.pdf

https://www.scribd.com/document/563935098/contoh-soal

https://informatika.stei.itb.ac.id/~rinaldi.munir/Probstat/2010-2011/Distribusi%20Peluang%20Kontinu.pdf

https://hmsifmipauntan.com/wp-content/uploads/2019/09/Statistika-dan-Probabilitas-1.pdf

https://bookdown.org/dsciencelabs/intro_statistics/07-Probability_Distributions.html

📚 Tugas Week 11 Probability Distribution

📊 Statistik