📚 Tugas Week 11
Probability Distribution
📊 Statistik
1 Pendahuluan
Sebelum memahami berbagai konsep seperti distribusi sampel, distribusi sampling, peluang rata-rata sampel, hingga perbedaan antara analisis populasi dan sampel, penting bagi kita untuk menyadari bahwa data yang kita amati di dunia nyata selalu memiliki variasi. Dua sampel yang diambil dari populasi yang sama bisa menghasilkan rata-rata yang berbeda, dan hasil-hasil inilah yang perlu kita pahami cara kerjanya. Dengan memahami bagaimana data berubah ketika diambil berulang kali, serta bagaimana rata-rata sampel membentuk pola tertentu, kita akan lebih mudah mengerti kenapa ada distribusi sampling, kenapa ada standard error, dan bagaimana semua itu dipakai untuk menghitung peluang dan membuat kesimpulan statistik.
2 Continous Random
Dalam mempelajari statistik dan probabilitas, terdapat dua jenis variabel utama yang perlu dipahami: variabel diskrit dan variabel kontinu. Sebelum kita mendalami tentang probabilitas variabel kontinu.
mustahil mengukur seluruh populasi (semua penduduk, seluruh produk, dll.)—terlalu mahal, lama, dan tidak praktis. Oleh karena itu, kita menggunakan sampel (sebagian kecil populasi) untuk memperkirakan karakteristik populasi (seperti rata-rata tinggi, persentase pengguna internet, atau efektivitas obat). Namun, sebelum menganalisis data, kita harus pahami jenis variabelnya: variabel diskrit dan variabel kontinu, karena pemahaman ini menentukan metode pengumpulan data, teknik analisis, dan interpretasi hasil yang tepat sebelum melangkah ke konsep distribusi dan inferensi statistik yang lebih kompleks.
2.1 Variabel Diskrit (Dapat Dihitung)
Variabel yang nilainya bisa dihitung satu per satu, hasilnya dari perhitungan (counting).
Ciri-ciri:
- Nilai terbatas dan terpisah
- Bisa berupa bilangan bulat atau desimal tertentu
- Contoh: “Berapa anak kamu?” → 1, 2, 3 (tidak 2.5)
Contoh nyata:
- Jumlah kepala dalam lempar koin: 0, 1, 2, 3, 4
- Nilai ujian: 0, 1, 2, …, 100 (atau 87.5, karena terbatas sampai 100 saja)
- Jumlah produk cacat: 0, 1, 2, …
Rumus probabilitas diskrit:
\[ P(X = x) = \frac{\text{Jumlah kemungkinan } x}{\text{Total kemungkinan}} \]
Contoh: Peluang dadu = 6 → \(P(X=6) = \frac{1}{6}\)
2.2 Variabel Kontinu (Dapat Diukur)
Variabel yang nilainya bisa berupa angka apa saja dalam rentang, hasilnya didapat dari pengukuran (measuring).
Ciri-ciri:
- Nilai tak terbatas dalam rentang
- Bisa diukur sampai desimal tak hingga
- Contoh: “Berapa berat kamu?” → 60 kg, 60.5 kg, 60.5321 kg, dst.
Contoh nyata:
- Tinggi badan: 170 cm, 170.2 cm, 170.25 cm, …
- Waktu tempuh: 10 detik, 10.1 detik, 10.15 detik, …
- Suhu: 25°C, 25.7°C, 25.73°C, …
Probabilitas kontinu:
1. tak terhingga kemungkinan
\[ P(X = \text{tepat } x) = 0 \]
Contoh:
- P(tinggi = 170.0000… cm) = 0
2. Yang PENTING: RENTANG NILAI:
\[ P(a < X < b) = \text{Luas area di bawah kurva} \]
Contoh:
- P(tinggi antara 169-171 cm) = luas kurva antara 169 dan 171
3. Cara Hitungnya:
\[ P(a < X < b) = \int_a^b f(x) dx \]
Artinya:
“Probabilitas bahwa variabel acak kontinu X berada di antara a dan b sama dengan LUAS AREA di bawah kurva dari a ke b.”
2.2.1 Perbedaan Visual variabel diskrit dan variabel kontinu
| Aspek | Variabel Diskrit | Variabel Kontinu |
|---|---|---|
| Jenis Grafik | Diagram Batang (Bar Chart) | Histogram |
| Bentuk Batang | Batang terpisah (ada jarak) | Batang menyatu (tanpa jarak) |
| Alasan | Nilai-nilai terpisah/distinct | Nilai-nilai bersambung/continuous |
| Contoh Data | Jumlah anak per keluarga: 0, 1, 2, 3, 4, 5+ | Tinggi badan (cm): interval 130-135, 135-140, … |
2.2.2 Perbedaan Distribusi Populas, Sampel, Sampling
| Kategori | Populasi | Sampel | Sampling |
|---|---|---|---|
| Data yang Dianalisis | Semua individu dalam populasi | Satu kelompok sampel saja | Banyak nilai rata-rata dari banyak sampel |
| Tujuan Analisis | Menghitung karakteristik sebenarnya dari seluruh kelompok | Menggambarkan karakteristik dari sebagian data yang diambil | Memperkirakan karakteristik populasi berdasarkan beberapa sampel |
| Simbol Mean | μ (mu) | x̄ (x-bar) | μ (sama seperti populasi) |
| Simbol Standar Deviasi | σ (sigma) | s | σ/√n (Standard Error) |
| Rumus Mean | μ = ΣX / N | x̄ = Σx / n | μ_x̄ = μ |
| Rumus Standar Deviasi | σ = √[Σ(X-μ)² / N] | s = √[Σ(x-x̄)² / (n-1)] | SE = σ / √n |
| Ukuran yang Dibagi | N (ukuran populasi) | n-1 (derajat kebebasan) | √n (untuk standard error) |
| Inferensi Statistik | Tidak dilakukan (sudah data lengkap) | Tidak bisa (hanya deskripsi) | Bisa dilakukan (estimasi parameter) |
| Contoh Data | Tinggi semua 10.000 mahasiswa di kampus | Tinggi 50 mahasiswa yang disurvei | Rata-rata tinggi dari 100 kelompok survei |
2.2.3 Perbedaan Langkah Perhitungan Macam-macam Distribusi
2.2.3.1 1. Distribusi Populasi → Hitung Parameter
X = nilai tiap individu dalam populasi
N = jumlah total individu dalam populasi
μ (mu) = rata-rata populasi
σ (sigma) = standar deviasi populasi
Contoh :
Data 5 siswa: 165, 168, 170, 172, 175 cm
- X₁ = 165, X₂ = 168,
X₃ = 170, X₄ = 172,
X₅ = 175
- N = 5 (total ada 5 siswa)
Hitung μ: \[ \mu = \frac{\sum X}{N} = \frac{X_1 + X_2 + X_3 + X_4 + X_5}{N} = \frac{165 + 168 + 170 + 172 + 175}{5} = 170 \text{ cm} \]
Hitung σ:
- Hitung selisih tiap X dengan μ:
- \(X_1 - \mu = 165 - 170 = -5\)
- \(X_2 - \mu = 168 - 170 = -2\)
- \(X_3 - \mu = 170 - 170 = 0\)
- \(X_4 - \mu = 172 - 170 = 2\)
- \(X_5 - \mu = 175 - 170 = 5\)
- Kuadratkan:
- \((-5)^2 = 25\)
- \((-2)^2 = 4\)
- \(0^2 = 0\)
- \(2^2 = 4\)
- \(5^2 = 25\)
Jumlahkan: \(25 + 4 + 0 + 4 + 25 = 58\)
Bagi dengan N: \(\frac{58}{5} = 11.6\)
Akar kuadrat: \(\sqrt{11.6} \approx 3.41\)
\[ \boxed{\mu = 170 \text{ cm}, \quad \sigma = 3.41 \text{ cm}} \]
2.2.3.2 2. Distribusi Sampel → Hitung Statistik Deskriptif
x = nilai tiap individu dalam sampel
n = jumlah individu dalam sampel
x̄ (x-bar) = rata-rata sampel
s = standar deviasi sampel
Contoh:
Sampel 3 siswa: 165, 170, 175 cm
- x₁ = 165, x₂ = 170,
x₃ = 175
- n = 3 (hanya 3 siswa dalam sampel ini)
Hitung x̄: \[ \bar{x} = \frac{\sum x}{n} = \frac{x_1 + x_2 + x_3}{n} = \frac{165 + 170 + 175}{3} = 170 \text{ cm} \]
Hitung s: 1. Hitung selisih tiap x dengan x̄: - \(x_1 - \bar{x} = 165 - 170 = -5\) - \(x_2 - \bar{x} = 170 - 170 = 0\) - \(x_3 - \bar{x} = 175 - 170 = 5\)
- Kuadratkan:
- \((-5)^2 = 25\)
- \(0^2 = 0\)
- \(5^2 = 25\)
Jumlahkan: \(25 + 0 + 25 = 50\)
Bagi dengan (n-1) bukan n! \(\frac{50}{3-1} = \frac{50}{2} = 25\)
Akar kuadrat: \(\sqrt{25} = 5\)
\[ \boxed{\bar{x} = 170 \text{ cm}, \quad s = 5 \text{ cm}} \]
Kenapa bagi (n-1)? Karena x̄ sendiri dihitung dari data ini, jadi kita “kehilangan 1 derajat kebebasan”.
2.2.3.3 3. Distribusi Sampling → Hitung Probabilitas & Inferensi
X̄ (X-bar) = rata-rata dari sebuah sampel
n = ukuran setiap sampel
μ = rata-rata populasi (dari bagian 1)
σ = standar deviasi populasi (dari bagian 1)
SE = Standard Error
Z = Z-score
Contoh:
Pertanyaan: “Berapa probabilitas rata-rata sampel 3 siswa > 172 cm?”
Data dari populasi: μ = 170 cm, σ = 3.41 cm
n = 3 (setiap sampel berisi 3 siswa)
Hitung Standard Error (SE): \[ SE = \frac{\sigma}{\sqrt{n}} = \frac{3.41}{\sqrt{3}} = \frac{3.41}{1.732} \approx 1.97 \text{ cm} \]
Distribusi sampling: Semua nilai X̄ yang mungkin mengikuti: \[ \bar{X} \sim N\left(\mu, SE\right) = N(170, 1.97) \]
Misal kita dapat satu sampel dengan X̄ = 172 cm, hitung Z-score: \[ Z = \frac{\bar{X} - \mu}{SE} = \frac{172 - 170}{1.97} = \frac{2}{1.97} \approx 1.02 \]
Interpretasi Z = 1.02:
- Artinya: X̄ = 172 cm berada 1.02 Standard Error di atas μ
- Dari tabel Z: P(Z > 1.02) = 0.1539
\[ \boxed{P(\bar{X} > 172) = 0.1539 = 15.39\%} \]
2.3 Distribusi Probabilitas Variabel Kontinu
Untuk memahami variabel acak kontinu, penting untuk mengetahui bagaimana probabilitas direpresentasikan menggunakan Fungsi Kepadatan Probabilitas (PDF). Tidak seperti variabel acak diskrit, variabel acak kontinu tidak menetapkan probabilitas ke titik-titik individual. Sebaliknya, probabilitas diperoleh dari luas area di bawah kurva PDF.
2.4 Variabel Acak
Suatu variabel acak dikatakan kontinu jika dapat mengambil nilai apa pun dalam suatu interval pada garis bilangan riil. Contohnya meliputi: tinggi, waktu, suhu, usia, tekanan, dan kecepatan.
Sifat penting:
- Peluang satu titik selalu nol:
\[
P(X = a) = 0
\]
- Peluang hanya berarti untuk interval:
\[
P(a < X < b)
\]
2.4.1 Fungsi Kepadatan Probabilitas (PDF)
Fungsi \(f(x)\) disebut PDF valid jika:
Syarat 1: Selalu non-negatif
\[
f(x) \geq 0 \quad \text{untuk semua } x
\]
Syarat 2: Luas total di bawah kurva = 1
\[
\int_{-\infty}^{\infty} f(x) \, dx = 1
\]
Catatan:
- \(f(x)\) bukan
peluang, tapi kepadatan
- Peluang diperoleh dari luas di bawah kurva \(f(x)\)
2.4.2 Probabilitas pada Interval
Untuk menghitung peluang \(X\) berada antara \(a\) dan \(b\): \[ P(a < X < b) = \int_{a}^{b} f(x) \, dx \]
Cara kerja:
1. Tentukan batas bawah \(a\) dan batas
atas \(b\)
2. Integralkan \(f(x)\) dari \(a\) ke \(b\)
3. Hasil integral = peluang yang dicari
2.4.3 Contoh
Diketahui fungsi: \[ f(x) = \begin{cases} k x^2, & 0 \leq x \leq 3 \\ 0, & \text{untuk } x \text{ lainnya} \end{cases} \]
(a) Tentukan nilai \(k\) agar \(f(x)\) merupakan fungsi kepadatan peluang:
Langkah 1: Integralkan di seluruh rentang
\[
\int_{0}^{3} k x^2 \, dx = 1
\]
Langkah 2: Selesaikan integral
\[
k \left[ \frac{x^3}{3} \right]_{0}^{3} = 1
\] \[
k \left( \frac{3^3}{3} - 0 \right) = 1
\] \[
k \cdot 9 = 1
\]
Langkah 3: Cari nilai \(k\)
\[
k = \frac{1}{9}
\]
Jawaban: \(k = \frac{1}{9}\)
(b) Hitung peluang \(P(2 < X < 3)\):
Langkah 1: Tulis fungsi lengkap dengan \(k\)
\[
f(x) =
\begin{cases}
\frac{1}{9} x^2, & 0 \leq x \leq 3 \\
0, & \text{lainnya}
\end{cases}
\]
Langkah 2: Hitung integral dari 2 ke 3
\[
P(2 < X < 3) = \int_{2}^{3} \frac{1}{9} x^2 \, dx
\]
Langkah 3: Selesaikan integral
\[
= \frac{1}{9} \left[ \frac{x^3}{3} \right]_{2}^{3}
= \frac{1}{27} \left( x^3 \bigg|_{2}^{3} \right)
\]
Langkah 4: Substitusi batas
\[
= \frac{1}{27} (27 - 8) = \frac{19}{27}
\]
Jawaban: \(P(2 < X < 3) = \frac{19}{27}\)
2.4.4 Fungsi Distribusi Kumulatif (CDF)
Fungsi yang menyatakan peluang kumulatif sampai suatu titik \(x\).
Definisi:
\[
F(x) = P(X \leq x) = \int_{-\infty}^{x} f(t) \, dt
\]
Hubungan dengan PDF:
\[
f(x) = \frac{d}{dx} F(x)
\]
Contoh: Untuk \(f(x) = 3x^2\) pada interval \([0, 1]\):
Langkah 1: Hitung CDF
\[
F(x) = \int_{0}^{x} 3t^2 \, dt = \left[ t^3 \right]_{0}^{x} = x^3
\]
Langkah 2: Verifikasi hubungan dengan PDF
\[
f(x) = \frac{d}{dx} (x^3) = 3x^2
\]
Jawaban: \(F(x) = x^3\) untuk \(0 \leq x \leq 1\)
2.4.5 Cara Penyelesaian soal
| Jenis Soal | Langkah-Langkah | Contoh Penerapan |
|---|---|---|
| Cari konstanta (c/k) |
|
\(f(x) = kx^2, 0 \leq x \leq 3\) → \(\int kx^2 dx = 1\) → \(k = 1/9\) |
| Hitung peluang P(a<X<b) |
|
\(P(2 < X < 3) = \int_2^3 (1/9)x^2 dx = 19/27\) |
| Buktikan validitas PDF |
|
\(\int_{-1}^2 (4x^3/15) dx = 1\) → ✅ Valid |
3 Sampling Distribution
Untuk memahami distribusi sampling, kita harus tahu dulu bedanya dengan distribusi sampel. Meskipun terdengar mirip, keduanya berbeda: distribusi sampel hanya berasal dari satu sampel, sedangkan distribusi sampling menggambarkan banyak rata-rata sampel dari populasi yang sama. Memahami perbedaan ini penting karena distribusi sampling menjadi dasar untuk memperkirakan karakteristik populasi.
Sebelum mempelajari distribusi sampling, kita harus pahami bedanya dengan distribusi sampel.
3.1 Perbandingan Sample Distribution vs Sampling Distribution
3.1.1 Distribusi Sampel
Analisis dari satu sampel saja dari suatu populasi.
Proses:
- Ambil 1 sampel (misal: 50 orang)
- Ukur semua orang dalam sampel itu
- Hitung rata-rata sampel (x̄)
- Analisis data dari sampel itu saja
Karakteristik:
- x̄ bisa berbeda-beda: 160 cm, 170 cm, atau 162.56 cm Karena sampel kecil → lebih banyak variasi
- Kurang akurat mewakili populasi (karena hanya sebagian kecil)
3.1.2 Distribusi Sampling
Distribusi dari BANYAK statistik sampel dari suatu populasi.
Langkah-Langkahnya:
Langkah 1: Tentukan populasi (misal: tinggi badan)
Langkah 2: Tentukan ukuran sampel (n = 5)
Langkah 3: Ambil sampel acak 1 → ukur tinggi 5 orang → hitung x̄₁
Langkah 4: Ambil sampel acak 2 → ukur tinggi 5 orang → hitung x̄₂
Langkah 5: Ulangi ratusan/ribuan kali
Langkah 6: Kumpulkan semua x̄ →lalu membuat buat histogram.
3.1.3 Contoh Distribusi Sampling
Populasi: 10.000 orang dengan berbagai tinggi badan
Langkah Distribusi Sampling:
Ambil Sampel 1 (n=5 orang):
- Ukur tinggi 5 orang: 162, 164, 161, 165, 163 cm
- Hitung rata-rata: (162+164+161+165+163)/5 = 163
cm
- Plot nilai 163 cm di grafik
- Ukur tinggi 5 orang: 162, 164, 161, 165, 163 cm
Ambil Sampel 2 (n=5 orang berbeda):
- Ukur tinggi 5 orang baru: 160, 162, 159, 164, 161 cm
- Hitung rata-rata: (160+162+159+164+161)/5 = 161
cm
- Plot nilai 161 cm di grafik
- Ukur tinggi 5 orang baru: 160, 162, 159, 164, 161 cm
Ambil Sampel 3 (n=5 orang berbeda lagi):
- Ukur tinggi 5 orang: 164, 166, 165, 163, 167 cm
- Hitung rata-rata: (164+166+165+163+167)/5 = 165
cm
- Plot nilai 165 cm di grafik
- Ukur tinggi 5 orang: 164, 166, 165, 163, 167 cm
Ulangi proses ini 1000 kali → dapat 1000 nilai rata-rata (x̄) berbeda
Kumpulkan semua 1000 nilai x̄ → buat histogram
Hasil akhir: Histogram dari 1000 nilai rata-rata = Distribusi Sampling
Jika kita ambil cukup banyak sampel distribusi sampling akan berbentuk normal, Meskipun populasi asalnya tidak normal
3.2 Perbandingan Populasi vs Sampling Distribution
3.2.1 Population Distribution (Distribusi Populasi)
Karakteristik:
- Mean = μ (parameter tetap)
- Standar deviasi = σ
- Data: pengukuran individu
- Notasi: \(X \sim N(\mu, \sigma)\)
Rumus Standardisasi (Z-score populasi): \[ Z = \frac{x - \mu}{\sigma} \]
3.2.2 Sampling Distribution (Distribusi Sampling)
Karakteristik:
- Mean = μ (sama dengan mean populasi!) \[ \mu_{\bar{x}} = \mu \]
- Standar deviasi = Standard Error (SE) \[ \sigma_{\bar{x}} = \frac{\sigma}{\sqrt{n}} \]
- Data: rata-rata sampel (x̄)
- Notasi: \(\bar{X} \sim N\left(\mu, \frac{\sigma}{\sqrt{n}}\right)\)
Rumus Standardisasi (Z-score sampling): \[ Z = \frac{\bar{x} - \mu}{\sigma/\sqrt{n}} \]
Distribusi Sampling bisa Lebih “Sempit” karena :
- Nilai rata-rata cenderung lebih stabil dibanding nilai data tunggal
- Nilai-nilai yang ekstrem cenderung saling menetralkan ketika dirata-ratakan
- Semakin besar ukuran sampel (n) → distribusi sampling semakin menyempit
3.2.2.1 Soal:
Tinggi orang Kanada rata-rata 160 cm dengan simpangan baku 7 cm. Kalau kita ambil sampel 10 orang secara acak, berapa peluang rata-rata tinggi mereka kurang dari 157 cm?
1. Ini soal tentang DISTRIBUSI SAMPLING Karena yang ditanya “rata-rata 10 orang”, bukan “satu orang”.
2. Langkah Penyelesaian:
Langkah 1: Cari Standard Error (SE) Standard Error itu simpangan baku untuk distribusi sampling. \[ SE = \frac{\sigma}{\sqrt{n}} = \frac{7}{\sqrt{10}} \approx 2.21 \text{ cm} \]
Langkah 2: Cari Z-score Z-score menunjukkan “berapa jauh” 157 cm dari rata-rata (160 cm), dalam satuan SE. \[ Z = \frac{157 - 160}{2.21} = -1.36 \] Artinya: 157 cm berada 1.36 SE di bawah rata-rata.
Langkah 3: Cari Peluang dari Tabel Z \[ P(Z < -1.36) = 0.0869 \]
3. Jawaban Final: Ada 8.69% kemungkinan rata-rata tinggi 10 orang Kanada kurang dari 157 cm.
Kenapa SE lebih kecil dari σ? Karena rata-rata sampel lebih stabil daripada nilai individu. Semakin besar sampel (n), semakin kecil SE, semakin akurat.
SOAL 2: Tinggi orang Kanada rata-rata 160 cm dengan simpangan baku 7 cm. Berapa persentase orang Kanada yang tingginya lebih dari 170 cm?
1. Ini soal tentang DISTRIBUSI POPULASI Kenapa? Karena yang ditanya “semua orang” (populasi), bukan rata-rata sampel.
2. Langkah Penyelesaian:
Langkah 1: Cari Z-score
Z-score menunjukkan “berapa jauh” 170 cm dari rata-rata (160 cm), dalam satuan simpangan baku. \[ Z = \frac{170 - 160}{7} = \frac{10}{7} = 1.43 \] Artinya: 170 cm berada 1.43 simpangan baku di atas rata-rata.
Langkah 2: Cari peluang dari tabel Z
- Dari tabel Z: \(P(Z < 1.43) = 0.9236\)
- Ini artinya 92.36% orang punya tinggi kurang dari 170 cm
Langkah 3: Cari peluang “lebih dari”
Karena total populasi = 100%: \[ P(X > 170) = 100\% - 92.36\% = 7.64\% \] Atau dalam desimal: \(1 - 0.9236 = 0.0764\)
3. Jawaban Final:
7.64% orang Kanada memiliki tinggi lebih dari 170 cm.
3.3 Alasan mengapa Distribusi Sampling Penting:
1. Efisiensi dan Kepraktisan
Masalah: Mengukur seluruh populasi sering tidak mungkin.
Contoh ekstrem:
- Populasi: 8 miliar orang (seluruh manusia di Bumi)
- Ingin tahu: rata-rata tinggi seluruh manusia
- Tidak mungkin ukur semua orang!
Solusi: Distribusi sampling
- Ambil banyak sampel kecil
- Hitung rata-rata tiap sampel
- Dari distribusi sampling → estimasi μ populasi
2. Menghitung Probabilitas
Distribusi sampling memungkinkan kita menjawab: - “Seberapa mungkin rata-rata sampel sekian?” - “Berapa probabilitas mendapatkan hasil tertentu dari sampel?”
3. Dasar Inferensi Statistik
- Confidence interval
- Hypothesis testing
- Estimasi parameter
4 Central Limit Teorem
Setelah memahami bagaimana distribusi sampling terbentuk dari banyak sampel acak dan bagaimana rata-rata sampel dapat menggambarkan karakter suatu populasi, kita masuk pada konsep penting dalam statistik, yaitu Teorema Limit Tengah (Central Limit Theorem / CLT). Teorema ini menjadi landasan utama dalam analisis inferensial karena menjelaskan mengapa dan kapan rata-rata sampel dapat mengikuti distribusi normal, bahkan ketika populasi aslinya tidak normal. Dengan memahami CLT, kita bisa melakukan berbagai teknik statistik seperti uji hipotesis, menghitung interval kepercayaan, serta memprediksi perilaku rata-rata sampel hanya dari data yang terbatas.
4.1 Definisi Teorema Limit Tengah
Teorema Limit Tengah memprediksi bentuk distribusi sampling berdasarkan ukuran sampel. Secara khusus, Teorema Limit Tengah menyatakan bahwa:
“Jika ukuran sampel n cukup besar, maka distribusi sampling dari rata-rata sampel akan mendekati distribusi normal.”
4.1.1 Contoh dengan Populasi Miring (Skewed)
Ketika kita bekerja dengan populasi yang miring (tidak normal), lalu kita mengambil banyak sampel acak sederhana dan menghitung rata-rata (x̄) dari setiap sampel, hasil dari banyak x̄ itu bisa membentuk distribusi sampling.
1. Cara distribusi sampling terbentuk
- Kita ambil sampel → hitung rata-rata → simpan.
- Ambil sampel lagi → hitung rata-rata → simpan.
- Lakukan berulang kali.
- Kumpulkan semua x̄ → bentuk grafik → itulah distribusi sampling dari mean.
2. Kenapa sebagian besar sampel mirip populasi?
Dalam populasi miring:
- Area yang lebih besar → peluang lebih tinggi datanya muncul dalam sampel.
- Area yang kecil → peluang lebih rendah datanya muncul.
Jadi sebagian besar sampel akan memuat data dari bagian “utama” populasi. Karena itu, banyak rata-rata sampel (x̄) akan berkumpul dekat mean populasi μ.
3. Kenapa rata-rata sampel berkumpul dekat μ?
Karena:
- Sampel acak yang benar secara definisi mewakili populasi.
- Nilai ekstrem bisa muncul dalam satu sampel, tapi ketika dihitung rata-ratanya, ekstrem itu diredam.
- Kadang ada sampel yang rata-ratanya jauh dari μ—itu wajar—tapi jarang.
4. Hasil akhirnya: X̄ membentuk pola normal
Jika semua x̄ digabungkan:
- Kita mendapat “tumpukan” nilai rata-rata sampel.
- Tumpukan ini bentuknya cenderung normal, meskipun populasi awal miring.
Inilah inti Teorema Limit Pusat (Central Limit Theorem / CLT):
Jika ukuran sampel cukup besar, distribusi sampling dari mean akan mendekati distribusi normal, tidak peduli bentuk populasi aslinya.
4.1.2 Berapa n dianggap cukup besar?
CLT menyatakan bahwa distribusi sampling dari mean akan mendekati normal jika ukuran sampel cukup besar. Aturan aman yang dipakai:
[ ]
4.1.3 Jika n < 30
Ukuran sampel kecil menyebabkan:
- Variabilitas lebih besar
- Hasil tidak presisi
- Risiko dapat sampel “aneh” atau tidak representatif meningkat
→ Distribusi sampling tidak akan normal jika n kecil dan populasi tidak normal.
Jika n < 30 dan populasi tidak normal, CLT tidak dapat diterapkan.
4.1.4 Jika Distribusi sudah Normal
Jika populasi sudah normal, maka:
- Distribusi sampling → otomatis normal
- Berlaku untuk semua n, bahkan n kecil
4.2 Interpretasi dalam Inferensi Statistik
CLT memungkinkan:
- Uji hipotesis
- Interval kepercayaan
- Perhitungan probabilitas hasil statistik
Tanpa CLT, metode ini tidak dapat dipakai pada data sembarang.
4.3 Rumus
1.Distribusi Sampling Berdasarkan CLT Ketika CLT berlaku, distribusi sampling dari rata-rata sampel mengikuti: \[ \bar{X} \sim N\left(\mu, \frac{\sigma}{\sqrt{n}}\right) \]
2. Standard Error Standar deviasi dari distribusi sampling disebut Standard Error (SE): \[ \sigma_{\bar{X}} = \frac{\sigma}{\sqrt{n}} \]
3. Rumus Standardisasi (Z-score) Untuk distribusi sampling: \[ Z = \frac{\bar{x} - \mu}{\sigma/\sqrt{n}} \]
5 Sample Propotion
Dalam statistika, kita menggunakan sampel untuk memperkirakan kondisi populasi. Karena setiap sampel bisa menghasilkan proporsi yang berbeda, kumpulan semua proporsi sampel ini membentuk distribusi sampling proporsi. Konsep ini penting karena membantu kita memahami variasi hasil sampel dan menghitung peluang terkait proporsi dalam populasi.
6 Distribusi Sampling Proporsional
Proporsi = bagian dari populasi yang memiliki ciri tertentu. - p = proporsi populasi (nilai tetap, parameter) - p̂ (p-hat) = proporsi sampel (bervariasi, statistik)
Rumus: p̂ = x/n
x = jumlah “sukses” dalam sampel
n = ukuran sampel
Contoh: - Populasi: 40% suka es krim → p = 0.40 - Sampel 50 orang: 20 suka es krim → p̂ = 20/50 = 0.40
6.1 Distribusi Sampling p
Kalau kita ambil banyak sampel dari populasi yang
sama: - Sampel 1: hitung p̂₁ - Sampel 2: hitung p̂₂
- Sampel 3: hitung p̂₃ - … terus sampai ratusan sampel
Kumpulkan semua p̂ → buat distribusi → itulah distribusi sampling p̂.
6.2 Sifat Distribusi Sampling p̂ (jika syarat terpenuhi)
1. Bentuknya NORMAL (berkat Teorema Limit Tengah)
Bentuk populasi asal tidak masalah! Asal syarat terpenuhi, distribusi sampling p̂ akan normal.
2. Mean (rata-rata) = p
\[ \mu_{p̂} = p \] Rata-rata dari semua p̂ = proporsi populasi
3. Standard Error (bukan Standard Deviasi biasa)
\[ SE = \sqrt{\frac{p(1-p)}{n}} \] Ini adalah “simpangan baku” untuk distribusi sampling
4. Notasi lengkap:
\[ p̂ \sim N\left(p, \sqrt{\frac{p(1-p)}{n}}\right) \]
5. Rumus Z-score:
\[ Z = \frac{p̂ - p}{\sqrt{\frac{p(1-p)}{n}}} \]
6.3 Syarat Penting Perbedaan dengan Distribusi Sampling Mean
Untuk distribusi sampling mean (rata-rata): cukup n
≥ 30
Untuk distribusi sampling proporsi: harus penuhi
DUA syarat:
\[ n \times p \geq 10 \quad \text{dan} \quad n \times (1-p) \geq 10 \]
Kenapa? Supaya:
- Cukup banyak “sukses” dalam sampel (n×p ≥ 10)
- Cukup banyak “gagal” dalam sampel (n×(1-p) ≥ 10)
Contoh cek syarat:
- p = 0.4, n = 25 → 25×0.4=10 ✓, 25×0.6=15 ✓ → CLT berlaku
- p = 0.1, n = 100 → 100×0.1=10 ✓, 100×0.9=90 ✓ → CLT berlaku
- p = 0.05, n = 100 → 100×0.05=5 ✗ → CLT TIDAK berlaku
6.4 Contoh Soal:
Kasus: ANEMIA IBU HAMIL
DATA:
- Prevalensi anemia di populasi: 40% → p = 0.40
- 1-p = 0.60
6.4.1 Kasus 1: Sampel n = 100 IBU HAMIL
Langkah 1: Cek Syarat CLT
n×p = 100×0.40 = 40 ≥ 10 ✓
n×(1-p) = 100×0.60 = 60 ≥ 10 ✓
→ CLT BERLAKU
Langkah 2: Hitung Standard Error
\[ SE = \sqrt{\frac{0.40 \times 0.60}{100}} = \sqrt{0.0024} = 0.049 \]
Langkah 3: Hitung Probabilitas
a. Probabilitas < 35% anemia
Target: p̂ < 0.35 \[
Z = \frac{0.35 - 0.40}{0.049} = -1.02
\] Dari tabel Z: P(Z < -1.02) = 0.1539
Jawaban: 15.39%
b. Probabilitas > 45% anemia
Target: p̂ > 0.45 \[
Z = \frac{0.45 - 0.40}{0.049} = 1.02
\] P(Z > 1.02) = 1 - P(Z < 1.02) = 1 - 0.8461 =
0.1539
Jawaban: 15.39%
c. Probabilitas antara 35%-45% anemia
P(0.35 < p̂ < 0.45) = P(-1.02 < Z < 1.02)
= 0.8461 - 0.1539 = 0.6922
Jawaban: 69.22%
6.4.2 Kasus 2: Sampel n = 400 IBU HAMIL
Langkah 1: Cek Syarat CLT
n×p = 400×0.40 = 160 ≥ 10 ✓
n×(1-p) = 400×0.60 = 240 ≥ 10 ✓
→ CLT BERLAKU
Langkah 2: Hitung Standard Error (lebih kecil!)
\[ SE = \sqrt{\frac{0.40 \times 0.60}{400}} = \sqrt{0.0006} = 0.0245 \]
Langkah 3: Hitung Probabilitas
a. Probabilitas < 35% anemia
\[
Z = \frac{0.35 - 0.40}{0.0245} = -2.04
\] P(Z < -2.04) = 0.0207
Jawaban: 2.07%
b. Probabilitas > 45% anemia
\[
Z = \frac{0.45 - 0.40}{0.0245} = 2.04
\] P(Z > 2.04) = 1 - 0.9793 = 0.0207
Jawaban: 2.07%
c. Probabilitas antara 35%-45% anemia
P(0.35 < p̂ < 0.45) = P(-2.04 < Z < 2.04)
= 0.9793 - 0.0207 = 0.9586
Jawaban: 95.86%
6.4.2.1 Interpretasi Dari Contoh Ini:
1. Efek Ukuran Sampel (n)
- n ↑ → SE ↓ (Standard Error mengecil)
- n ↑ → Z-score ↑ untuk target yang sama
- n ↑ → probabilitas hasil ekstrem ↓
- n ↑ → probabilitas hasil sekitar p ↑
2. Kenapa n=400 lebih baik?
Karena Standard Error lebih kecil: - n=100: SE = 0.049 → margin error ±9.8% - n=400: SE = 0.0245 → margin error ±4.9%
Artinya: Dengan sampel 400, estimasi kita 2× lebih presisi!
3. Interpretasi untuk Penelitian Kesehatan
- Dengan sampel 100: Ada 30.78% kemungkinan estimasi menyimpang >5% dari nilai sebenarnya
- Dengan sampel 400: Hanya 4.14% kemungkinan estimasi menyimpang >5%
6.4.3 Langkah Penyelesaian Soal
- TULIS DATA: p = …, 1-p = …, n = …, target p̂ = …
- CEK SYARAT: n×p ≥ 10 dan n×(1-p) ≥ 10?
- Jika YA → lanjut
- Jika TIDAK → CLT tidak berlaku
- HITUNG SE: √[p(1-p)/n]
- HITUNG Z: (p̂ - p)/SE
- CARI di TABEL Z: cari probabilitas
- INTERPRETASI: ubah ke % & jelaskan
7 Riview Sampling Distribution
Semua konsep ini sebenarnya saling terhubung dan membentuk satu alur logis dari memahami peluang paling sederhana hingga mampu memperkirakan hasil dari sampel besar dengan cepat dan akurat.Selanjutnya kita akan me-riview secara menyeluruh tentang apa yg kita bahas