Tugas Week 11 ~ Probability Distribution
Nailatul Wafiroh
Student Major in Data Science
Lecturer: Bakti Siregar, M.Sc., CDS
1 Probability Distribution
Probabilitas membantu kita memahami seberapa besar kemungkinan suatu peristiwa terjadi, dan menjadi dasar dari banyak metode statistik yang digunakan untuk pengambilan keputusan. Ketika suatu percobaan dapat menghasilkan berbagai macam hasil, kita menggunakan peubah acak (random variable) untuk mewakili hasil tersebut, dan distribusi probabilitas untuk menggambarkan bagaimana peluang diberikan pada setiap nilai yang mungkin.
Memahami bentuk dan sifat suatu distribusi sangat penting karena distribusi menentukan:
- bagaimana data berperilaku,
- bagaimana kita menghitung peluang,
- dan bagaimana kita membuat prediksi.
Berikut beberapa konsep penting yang dijelaskan dalam materi:
1. Peubah Acak Kontinu (Continuous Random Variables)
Digunakan untuk variabel yang nilainya berada dalam rentang yang bersifat kontinu, seperti waktu, tinggi badan, atau suhu. Distribusi kontinu menunjukkan peluang nilai berada dalam suatu interval tertentu.
2. Distribusi Sampling (Sampling Distributions)
Merupakan distribusi dari statistik sampel, seperti:
- rata-rata sampel,
- proporsi sampel.
Konsep ini membantu kita memahami seberapa besar variasi yang terjadi antara satu sampel dan sampel lainnya.
3. Teorema Limit Tengah (Central Limit Theorem / CLT)
CLT menyatakan bahwa distribusi rata-rata sampel akan cenderung mendekati distribusi normal, meskipun data aslinya tidak normal, selama ukuran sampel cukup besar. Ini adalah alasan mengapa distribusi normal sangat penting dalam statistik.
4. Distribusi Proporsi Sampel
Digunakan ketika kita bekerja dengan data proporsi, misalnya persentase responden yang memilih pilihan tertentu dalam survei.
1.1 Kejadian Acak
1.1.1 Continuous Random
Variabel diskrit adalah variabel yang hanya dapat mengambil nilai yang dapat dihitung (countable). Nilai-nilai ini biasanya merupakan bilangan bulat atau bilangan yang terbatas.
Karakteristik Variabel Diskrit
- Memiliki nilai yang terbatas atau dapat dihitung
- Diperoleh melalui proses menghitung (counting)
- Memiliki “lompatan” antara satu nilai dengan nilai lainnya
- Tidak ada nilai di antara dua nilai diskrit yang berdekatan
1.1.2 Contoh Variabel Diskrit
Contoh 1: Jumlah Anak dalam Keluarga
Dalam survei di suatu lingkungan, kita menanyakan jumlah anak dalam setiap keluarga. Kemungkinan jawabannya:
- 0 anak
- 1 anak
- 2 anak
- 3 anak
- 4 anak
Catatan: Tidak masuk akal untuk mengatakan sebuah keluarga memiliki 0,73 anak atau setengah anak.
Contoh 2: Hasil Pelemparan Koin
Jika kita melempar 4 koin sekaligus dan menghitung jumlah sisi kepala (heads), kemungkinan hasilnya:
Contoh 3: Variabel Diskrit dengan Desimal
Tidak semua variabel diskrit hanya berupa bilangan bulat:
Saldo Bank:
- $420.69
- $1,250.50
- $89.99
Nilai Ujian:
- 5 dari 10
- 7.5 dari 10
- 9.25 dari 10
Meskipun memiliki nilai desimal, variabel-variabel ini tetap diskrit karena nilainya terbatas dan dapat dihitung.
1.1.3 Sifat Variabel Diskrit
- Finite atau Countably Infinite: Jumlah nilai yang mungkin terbatas atau dapat dihitung
- Terpisah: Ada jarak yang jelas antara satu nilai dengan nilai lainnya
- Dapat Dilist: Semua nilai yang mungkin dapat didaftarkan
1.1.4 Variabel Kontinu
Variabel kontinu adalah variabel yang dapat mengambil semua nilai numerik dalam suatu interval tertentu. Variabel ini memiliki kemungkinan nilai yang tak terbatas (infinite) dan tidak dapat dihitung (uncountable).
Karakteristik Variabel Kontinu
- Dapat mengambil nilai apa saja dalam suatu rentang
- Diperoleh melalui proses mengukur (measuring)
- Tidak ada “lompatan” antara nilai-nilai
- Memiliki presisi yang tidak terbatas
1.1.5 Contoh Variabel Kontinu
Contoh 1: Usia
Misalkan kita mengukur usia seseorang:
- Pada pandangan pertama: 23 tahun
- Lebih detail: 23.5 tahun atau 23 tahun 6 bulan
- Lebih detail lagi: 23 tahun, 6 bulan, 2 hari
- Sangat detail: 23 tahun, 6 bulan, 2 hari, 3 detik, 8 milidetik
- Ultra detail: 23 tahun, 6 bulan, 2 hari, 3 detik, 8 milidetik, 1 nanodetik, 32 pikodetik…
Dan seterusnya hingga tak terbatas!
Contoh 2: Visualisasi Distribusi Tinggi Badan
Contoh 3: Variabel Kontinu Lainnya
- Suhu: 36.5°C, 36.512°C, 36.51234°C…
- Jarak: 10.5 km, 10.523 km, 10.52341 km…
- Tinggi Badan: 170 cm, 170.5 cm, 170.523 cm…
- Waktu: 2.5 jam, 2.53 jam, 2.5342 jam…
1.1.6 Sifat Variabel Kontinu
- Uncountably Infinite: Jumlah nilai yang mungkin tidak dapat dihitung
- Kontinu: Tidak ada jarak antara nilai-nilai yang berdekatan
- Presisi Tak Terbatas: Dapat diukur dengan tingkat ketelitian yang semakin tinggi
1.1.7 Perbedaan Variabel Diskrit dan Kontinu
| Aspek | Variabel Diskrit | Variabel Kontinu |
|---|---|---|
| Definisi | Nilai dapat dihitung | Nilai dapat diukur |
| Cara Memperoleh | Menghitung (counting) | Mengukur (measuring) |
| Jumlah Nilai | Terbatas atau dapat dihitung | Tak terbatas dan tidak dapat dihitung |
| Contoh | Jumlah anak, jumlah koin | Berat, tinggi, suhu, usia |
| Nilai Antara | Tidak ada nilai di antara | Ada nilai di antara |
| Grafik | Bar chart (dengan jarak) | Histogram (tanpa jarak) |
| Probabilitas | P(X = x) dapat dihitung | P(X = x) = 0, hanya P(a <= X <= b) |
1.1.8 Representasi Visual
Bar Chart untuk Variabel Diskrit
Karakteristik Bar Chart:
- Setiap batang mewakili nilai diskrit yang spesifik
- Ada jarak antara batang-batang
- Jarak menunjukkan tidak ada kontinuitas
- Setiap hasil adalah entitas terpisah
Histogram untuk Variabel Kontinu
Karakteristik Histogram:
- Batang-batang saling bersentuhan (tidak ada jarak)
- Menunjukkan kontinuitas data
- Dapat memplot nilai apa saja dalam rentang
- Luas area mewakili probabilitas
1.1.9 Density Curve (Kurva Kepadatan)
Kurva kepadatan adalah fungsi yang menggambarkan sebaran probabilitas dari variabel acak kontinu. Grafiknya halus (smooth curve) dan mewakili bentuk distribusi, seperti distribusi normal, uniform, gamma, dsb.
Sifat Utama Kurva Kepadatan
Seluruh luas di bawah kurva = 1 \[ \int_{-\infty}^{\infty} f(x)\,dx = 1 \]
Probabilitas dihitung sebagai luas area di bawah kurva pada suatu interval Contoh: \[ P(160 \le X \le 170) \]
Probabilitas tepat satu nilai = 0 \[ P(X = 165) = 0 \] Karena variabel kontinu memiliki nilai tak hingga banyaknya.
Yang bisa dihitung hanyalah probabilitas interval
Contoh:
- \(P(150 < X < 180)\)
- \(P(160 \le X \le 170)\)
Contoh Visualisasi Kurva Kepadatan Distribusi Normal
Misalkan tinggi badan mahasiswa mengikuti distribusi normal dengan:
- Rata-rata (μ) = 165 cm
- Standar deviasi (σ) = 10 cm
Kita ingin menghitung peluang tinggi antara 160–170 cm dan menampilkannya sebagai area di bawah kurva.
1.1.10 Rumus-Rumus Penting untuk Variabel Diskrit & Variabel Kontinu
Variabel Acak Diskrit
Variabel diskrit mengambil nilai yang dapat dihitung (countable), seperti 0, 1, 2, 3, …
Contoh: jumlah anak, jumlah koin yang muncul kepala, banyaknya barang rusak.
1. Fungsi Probabilitas (Probability Mass Function / PMF) \[ P(X = x) \] Syarat: \[ \sum P(X = x) = 1, \quad 0 \le P(X = x) \le 1 \]
2. Nilai Harapan (Mean) \[ E(X) = \sum x \cdot P(X = x) \]
3. Varians \[ Var(X) = \sum (x - E(X))^2 P(X = x) \]
4. Distribusi Binomial (contoh diskrit paling umum) Jika \(X \sim Bin(n, p)\), maka:
PMF: \[ P(X = k) = \binom{n}{k} p^k (1-p)^{n-k} \]
Mean: \[ E(X) = np \]
Varians: \[ Var(X) = np(1-p) \]
Variabel Acak Kontinu
Variabel kontinu memiliki nilai yang dapat diukur dan tak hingga banyaknya dalam interval tertentu.
Contoh: tinggi, berat, waktu, suhu.
1. Fungsi Kepadatan Probabilitas (PDF) \[ f(x) \]
Syarat: \[ f(x) \ge 0,\quad \int_{-\infty}^{\infty} f(x)\,dx = 1 \]
Probabilitas suatu interval: \[ P(a \le X \le b) = \int_{a}^{b} f(x)\,dx \]
Penting:
\[ P(X = \text{nilai tertentu}) = 0 \]
Distribusi Normal (contoh kontinu paling umum)
Jika \(X \sim N(\mu, \sigma)\), maka:
PDF: \[ f(x) = \frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}} \]
Probabilitas interval:
\[ P(a \le X \le b) = F(b) - F(a) \]
di mana \(F(x) = \text{CDF normal}\), dihitung dengan pnorm() di R.
Rumus Mean dan Varians \[ E(X) = \mu, \qquad Var(X) = \sigma^2 \]
1.1.11 Hubungan Diskrit vs Kontinu (Ringkasan)
| Aspek | Diskrit | Kontinu |
|---|---|---|
| Notasi fungsi | PMF | |
| Bentuk | titik-titik nilai | kurva halus |
| Rumus peluang | P(X = x) | ∫ f(x) dx |
| Probabilitas satu nilai | bisa > 0 | selalu 0 |
| Representasi grafik | bar chart | density curve / histogram |
| Contoh | binomial, poisson | normal, uniform, exponential |
1.2 Sampling Distributions
1.2.1 Pendahuluan
Dalam statistika, tujuan utama adalah mengambil kesimpulan tentang populasi berdasarkan data sampel. Karena tidak mungkin mengukur seluruh anggota populasi dalam banyak kasus, kita menggunakan sampling. Agar dapat melakukan estimasi, uji hipotesis, atau analisis inferensial lainnya, kita membutuhkan konsep penting yaitu sampling distribution. Di mana sampling distribution digunakan untuk:
- estimasi parameter (mean, proporsi),
- standard error,
- interval kepercayaan,
- uji hipotesis.
1.2.2 Populasi, Sampel, dan Statistik
Populasi
Populasi adalah seluruh individu/objek yang menjadi objek penelitian.
Contoh: tinggi badan seluruh warga negara.
Populasi memiliki parameter, misalnya:
- mean populasi: 𝜇
- standar deviasi populasi: 𝜎
Jika \(X \sim N(\mu, \sigma)\) maka nilai standar (Z-score) dihitung dengan rumus:
\[Z = \frac{X - \mu}{\sigma}\].
Sampel
Sampel adalah sebagian dari populasi. Dari satu sampel, kita bisa menghitung statistik:
mean sampel: \(\bar{X}\)
standar deviasi sampel: 𝑠
Karena sampel kecil dan terbatas, nilai statistiknya bisa berbeda-beda antar sampel. Contoh:
- Sampel 1: rata-rata tinggi = 153 cm
- Sampel 2: rata-rata tinggi = 157 cm
- Sampel 3: rata-rata tinggi = 160 cm
1.2.3 Distribusi Sampel
Distribusi sampel adalah distribusi data dalam satu sampel tunggal.
Contoh: Jika kita mengambil sampel 5 orang dan mencatat tinggi mereka, tinggi-tinggi itu membentuk sample distribution.
Ini bukan sampling distribution, karena hanya berasal dari 1 sampel.
1.2.4 Distribusi Sampling
Sampling distribution adalah distribusi dari suatu statistik (biasanya mean) yang diperoleh dari banyak sampel acak ukuran sama (n) yang ditarik dari populasi yang sama.
Misalnya:
- Ambil sampel 5 orang → hitung rata-rata → simpan.
- Ambil sampel 5 orang lagi → hitung rata-rata → simpan.
- Ulangi ratusan kali.
Plot seluruh nilai rata-rata itu → terbentuk sampling distribution of the sample mean.
Kenapa penting?
Karena:
- kita bisa memperkirakan parameter populasi tanpa mengukur semua orang,
- kita bisa menghitung probabilitas,
- sampling distribution menjadi dasar interval kepercayaan dan uji hipotesis (materi inferensial di buku Statistik II).
Jika sampel diambil cukup banyak, distribusi rata-rata sampel (\(\bar{X}\)) akan berbentuk normal, meskipun populasi asli tidak normal. Ini disebut Central Limit Theorem (CLT).
1.2.5 Sifat-Sifat Sampling Distribution of the Sample Mean
1. Rata-rata Sampling Distribution
Rata-rata semua mean sampel (disebut mean of the sampling distribution) ditulis sebagai:
\[ \mu_{\bar{X}} \]
Teorema menyatakan bahwa nilai ini selalu sama dengan mean populasi, yaitu:
\[ \mu_{\bar{X}} = \mu \]
Artinya, rata-rata sampel secara keseluruhan adalah estimator yang tidak bias (unbiased estimator) untuk mean populasi.
2. Standard Error (SE)
Standard Error adalah simpangan baku dari sampling distribution. Rumusnya:
\[ \sigma_{\bar{X}} = \frac{\sigma}{\sqrt{n}} \]
Maknanya:
- SE lebih kecil dari standar deviasi populasi → sampling distribution lebih sempit dibandingkan distribusi populasi.
- Semakin besar ukuran sampel \(n\), semakin kecil nilai SE, sehingga mean sampel menjadi semakin stabil.
Konsep SE sangat penting dalam statistika inferensial dan digunakan dalam:
- perhitungan interval kepercayaan,
- uji-t,
- estimasi parameter populasi.
3. Variasi Lebih Kecil dari Data Asli
Populasi terdiri dari nilai individu, yang bervariasi besar. Sampling distribution terdiri dari rata-rata, yang variasinya lebih kecil. Itu sebabnya grafik sampling distribution lebih “sempit”.
1.2.6 Standardisasi (Z-score)
Standardisasi digunakan untuk mengubah suatu nilai menjadi skor baku (Z-score) sehingga dapat dihitung probabilitasnya menggunakan distribusi normal.
Z-score untuk Populasi
Untuk data individual (nilai \(X\)) yang berasal dari populasi dengan mean \(\mu\) dan standar deviasi \(\sigma\), rumus standardisasi adalah:
\[ Z = \frac{X - \mu}{\sigma} \]
Z-score untuk Sampling Distribution (Mean Sampel)
Untuk rata-rata sampel \(\bar{X}\), standardisasi menggunakan standard error:
\[ Z = \frac{\bar{X} - \mu}{\sigma / \sqrt{n}} \]
Rumus ini digunakan untuk menghitung probabilitas rata-rata sampel jatuh pada interval tertentu berdasarkan distribusi normal.
1.2.7 Contoh Soal
Contoh 1 — Menggunakan Sampling Distribution
Diketahui tinggi seluruh warga Kanada:
- Mean populasi: \(\mu = 160\) cm
- Standar deviasi: \(\sigma = 7\) cm
- Ukuran sampel: \(n = 10\)
Ditanyakan:
Berapa probabilitas rata-rata 10 orang < 157 cm?
Perhitungan Manual
1. Hitung Standard Error
\[ \sigma_{\bar{X}} = \frac{7}{\sqrt{10}} = 2.21 \]
2. Hitung Z-score
\[ Z = \frac{157 - 160}{2.21} = -1.36 \]
3. Probabilitas
Area Z < –1.36 = 0.0869
Jadi probabilitasnya adalah 8.69%.
Contoh 2 — Menggunakan Population Distribution
Ditanyakan:
Berapa proporsi orang dengan tinggi > 170 cm?
Karena ini menggunakan data populasi, maka perhitungannya memakai population distribution, bukan sampling distribution.
Perhitungan Manual
1. Hitung Z-score
Misal:
- Mean populasi: \(\mu = 160\)
- Standar deviasi populasi: \(\sigma = 7\)
- Nilai yang ditanyakan: \(X = 170\)
Maka:
\[ Z = \frac{170 - 160}{7} = 1.43 \]
2. Probabilitas
Cari area di bawah kurva normal standar.
Area kiri untuk \(Z = 1.43\):
\[ P(Z < 1.43) = 0.9236 \]
Area kanan (yang diminta):
\[ P(Z > 1.43) = 1 - 0.9236 = 0.0764 \]
Jadi proporsi orang dengan tinggi > 170 cm adalah 7.64%.
1.3 Central Limit Theorem
1.3.1 Definisi Dasar
Central Limit Theorem memprediksi bentuk dari sampling distribution berdasarkan ukuran sampel.
Pernyataan CLT:
“Jika ukuran sampel (n) cukup besar, maka sampling distribution dari sample mean akan approximately normal (mendekati distribusi normal).”
Terlepas dari bentuk distribusi populasi aslinya, jika ukuran sampel (n) cukup besar, sampling distribution akan berdistribusi normal. Ini berarti:
- Populasi bisa skewed (miring)
- Populasi bisa uniform (seragam)
- Populasi bisa bimodal (dua puncak)
1.3.2 Visualisasi CLT
Mari visualisasikan bagaimana CLT bekerja dengan populasi yang memiliki distribusi skewed (miring).
Populasi awal: Bentuk distribusi skewed (tidak normal)
Proses:
- Ambil banyak sampel acak dari populasi ini
- Hitung x̄ untuk setiap sampel
- Kumpulkan semua nilai x̄
- Lihat distribusi yang terbentuk
1.3.3 Probabilitas dan Area
Ketika mengambil sampel acak
Area besar di distribusi populasi:
- Probabilitas tinggi mendapat data dari area ini
- Kebanyakan data points dalam sampel berasal dari sini
Area kecil di distribusi populasi:
- Probabilitas rendah mendapat data dari area ini
- Sedikit data points dalam sampel berasal dari sini
Hasil:
- Banyak sampel mengandung data dari bulk (bagian utama) populasi
- Beberapa sampel mengandung data dari area kecil
- Ini normal dan sesuai dengan probabilitas
1.3.4 Pembentukan Distribusi Normal
Ketika mengumpulkan semua x̄ dari banyak sampel
Pola yang terbentuk:
- Banyak x̄ berkumpul dekat dengan μ (membentuk puncak di tengah)
- Beberapa x̄ agak jauh dari μ (membentuk sisi)
- Sangat sedikit x̄ sangat jauh dari μ (membentuk ekor)
Bentuk akhir: Kurva lonceng (bell curve) = Distribusi Normal
Ini adalah CLT dalam aksi:
Meskipun populasi aslinya skewed (tidak normal), sampling distribution dari x̄ menjadi normal.
1.3.5 Ukuran Sampel
Rule of Thumb: n ≥ 30
Pertanyaan krusial: Seberapa besar n harus agar CLT berlaku?
Jawaban:
Aturan umum: CLT aman diterapkan ketika n ≥ 30
Artinya:
- n ≥ 30 → Sampling distribution dari x̄ akan approximately normal
- n < 30 → Tidak bisa mengasumsikan sampling distribution normal
Angka 30 adalah konvensi yang diterima secara luas dalam statistika
CLT membutuhkan sampel yang cukup besar karena:
Dengan sampel besar:
- Lebih banyak informasi tentang populasi
- Lebih stabil dan konsisten
- Lebih mendekati karakteristik populasi sebenarnya
Dengan sampel kecil:
- Informasi terbatas
- Lebih banyak variasi antar sampel
- Kurang representatif
1.3.6 Masalah dengan Sampel Kecil
Ketika ukuran sampel terlalu kecil (n < 30):
Masalah 1: Variabilitas tinggi
- Nilai x̄ bisa sangat berbeda antara sampel
- Tidak stabil
Masalah 2: Kurang presisi
- Estimasi tidak akurat
- Tidak bisa dipercaya
Masalah 3: Kurang reliabel
- Hasil bisa berubah drastis dengan sampel berbeda
- Tidak konsisten
Masalah 4: Risiko sampel tidak biasa
- Lebih mudah mendapat sampel “aneh” hanya karena kebetulan
- Bisa kebetulan semua data dari area ekstrem
Kesimpulan:
- Sampel kecil tidak menghasilkan sampling distribution yang normal
- Untuk n < 30, tidak bisa menggunakan CLT
1.3.7 Pengecualian Penting
Kondisi Populasi Normal
Pengecualian: Jika distribusi populasi sudah normal sejak awal, maka sampling distribution akan normal untuk SEMUA ukuran sampel (bahkan n < 30)
Mengapa ini terjadi:
- Populasi normal → Sampel dari populasi normal cenderung normal
- Mean dari distribusi normal → tetap normal
- Normal + Normal = Normal
- Tidak perlu menunggu n ≥ 30
1.3.8 Aplikasi CLT
CLT sangat berguna untuk menganalisis dataset besar karena:
Alasan 1: Jika kita tahu sampling distribution akan normal, kita bisa menggunakan formula yang terkait dengan distribusi normal
Alasan 2: Formula distribusi normal membantu kita menginterpretasi data dengan lebih baik
1.3.9 Contoh Soal
Contoh — Populasi Tidak Normal, n Besar (CLT Berlaku)
Populasi pengeluaran harian mahasiswa bersifat skewed (tidak normal), tetapi karena ukuran sampel besar (n ≥ 30), maka sampling distribution dari \(\bar{X}\) tetap mendekati normal sesuai Central Limit Theorem.
Diketahui:
Rata-rata populasi:
\[ \mu = 85 \text{ ribu} \]Standar deviasi populasi:
\[ \sigma = 30 \text{ ribu} \]Ukuran sampel:
\[ n = 50 \]
Ditanya:
Berapa probabilitas rata-rata sampel lebih dari 90 ribu?
\[ P(\bar{X} > 90) \]
Langkah 1 — Standard Error \[ SE = \frac{\sigma}{\sqrt{n}} = \frac{30}{\sqrt{50}} = 4.243 \]
Langkah 2 — Z-score \[ Z = \frac{90 - 85}{4.243} = 1.18 \]
Langkah 3 — Probabilitas Kita ingin mencari:
\[ P(Z > 1.18) \]
Karena tabel Z memberi \(P(Z < 1.18) = 0.8808\):
\[ P(Z > 1.18) = 1 - 0.8808 = 0.1192 \]
Jawaban:
Probabilitas rata-rata sampel lebih dari 90 ribu adalah:
\[ \boxed{0.1192 \text{ atau } 11.92\%} \]
1.4 Sample Proportion
1.4.1 Definisi Dasar
Proporsi adalah bagian dari keseluruhan yang menunjukkan persentase kejadian sukses dalam suatu data.Proporsi digunakan untuk menggambarkan seberapa besar suatu karakteristik muncul dalam populasi atau sampel.
Secara umum:
\[ \text{Proporsi} = \frac{\text{Jumlah kejadian sukses}}{\text{Total observasi}} \]
Notasi Baku
- p = Proporsi populasi (parameter yang biasanya tidak diketahui)
- p̂ = Proporsi sampel (statistik yang kita hitung)
1.4.2 Proporsi Populasi (p)
Proporsi populasi dilambangkan dengan:
\[ p = \frac{X}{N} \]
- \(X\) = jumlah elemen dalam populasi yang memenuhi kriteria
- \(N\) = total populasi
Contoh 1:
Dalam populasi 5.000 orang, 900 orang memiliki mata hijau.
\[ p = \frac{900}{5000} = 0.18 \]
Contoh 2
- Populasi: 10,000 mahasiswa
- Karakteristik: Bekerja paruh waktu
- Data: 4,500 mahasiswa bekerja paruh waktu \[ p = \frac{4500}{10000} = 0.45 = 45\% \]
1.4.3 Proporsi Sampel (p-hat)
Ketika proporsi dihitung dari sampel, bukan populasi, disebut sample proportion:
\[ \hat{p} = \frac{x}{n} \]
- \(x\) = jumlah sukses dalam sampel
- \(n\) = ukuran sampel
Contoh 1:
Dari 10 orang yang diambil sebagai sampel, 2 orang bermata hijau.
\[ \hat{p} = \frac{2}{10} = 0.20 \]
Contoh 2
- Populasi: Semua mahasiswa di universitas
- Karakteristik: Memiliki mobil
- Sampel: 50 mahasiswa
- Hasil: 15 memiliki mobil \[ \hat{p} = \frac{15}{50} = 0.3 \text{ (30%)} \]
1.4.4 Sampling Distribution of the Sample Proportion
Proses Pembentukan
Hasilnya adalah distribusi sampling dari proporsi sampel
- Ambil sampel acak ukuran n dari populasi
- Hitung p̂ untuk sampel tersebut
- Ulangi Langkah 1-2 berkali-kali (misal: 1000 kali)
- Plot semua nilai p̂ → Terbentuklah sampling distributio
Karakteristik Distribusi
- Mean dari distribusi sampling (μ_p̂): Rata-rata dari semua p̂
- Standard deviation dari distribusi sampling (σ_p̂): Standar deviasi dari semua p̂
1.4.5 Penjelasan Penting
Syarat CLT untuk Sample Mean
Kondisi:
\[
n \ge 30
\]
Alasan:
Berdasarkan Central Limit Theorem (CLT) klasik, ketika ukuran sampel cukup besar (≥ 30), maka distribusi dari rata-rata sampel (\(\bar{x}\)) akan mendekati distribusi normal, apapun bentuk distribusi populasi asalnya.
Aplikasi:
Digunakan pada data kontinu / numerik, seperti:
- tinggi badan
- berat badan
- skor tes
- waktu, jarak, pendapatan, dll.
Contoh:
- Jika \(n = 30\) atau lebih → distribusi sampling \(\bar{x}\) mendekati normal
- Jika \(n < 30\) → distribusi sampling \(\bar{x}\) hanya normal jika populasi asal normal
Syarat CLT untuk Sample Proportion
Kondisi:
\[
n \times p \ge 10 \quad \text{DAN} \quad n \times (1-p) \ge 10
\]
Alasan:
Memastikan jumlah success dan failure pada sampel cukup besar, sehingga distribusi proporsi sampel (\(\hat{p}\)) mendekati distribusi normal.
Aplikasi:
Digunakan pada data kategorikal/dikotomis seperti:
- ya / tidak
- setuju / tidak setuju
- punya / tidak punya
- lulus / tidak lulus
Contoh:
- p = 0.3, n = 50
- \(n \times p = 50 \times 0.3 = 15 \ge 10\)
- \(n \times (1-p) = 50 \times 0.7 = 35 \ge 10\)
⇒ CLT terpenuhi
- \(n \times p = 50 \times 0.3 = 15 \ge 10\)
- p = 0.1, n = 100
- \(n \times p = 100 \times 0.1 = 10 \ge 10\)
- \(n \times (1-p) = 100 \times 0.9 = 90 \ge 10\)
⇒ CLT terpenuhi
1.4.6 Standardisasi dan Skor-Z
\[ z = \frac{\hat{p} - p}{\sigma_{\hat{p}}} \]
\[ \sigma_{\hat{p}} = \sqrt{\frac{p(1-p)}{n}} \]
\[ z = \frac{\hat{p} - p}{\sqrt{\frac{p(1-p)}{n}}} \]
Contoh Penerapan CLT
Contoh 1 — Sample Mean
Masalah: rata-rata pendapatan
\(\mu = 5\) juta
\(\sigma = 1\) juta
\(n = 35\)
Analisis:
- Karena \(n \ge 30\) → CLT berlaku
- \(\text{SE} = \frac{1{,}000{,}000}{\sqrt{35}} \approx 169{,}031\)
Contoh 2 — Sample Proportion
Masalah: proporsi mahasiswa bekerja
\(p = 0.4\)
\(n = 40\)
Analisis:
- \(40 \times 0.4 = 16 \ge 10\)
- \(40 \times 0.6 = 24 \ge 10\) → CLT berlaku
\[ SE = \sqrt{\frac{0.4 \times 0.6}{40}} = \sqrt{0.006} \approx 0.0775 \]
Contoh 3 — Borderline
Masalah: penyakit langka
\(p = 0.02\)
\(n = 500\)
Analisis:
- \(500 \times 0.02 = 10\) (tepat batas)
- \(500 \times 0.98 = 490\) → CLT berlaku tetapi borderline
1.4.7 Visualisasi Konseptual
Distribusi Sampling Mean
Populasi (bentuk apapun)
- Jika \(n \ge 30\)
- \(\bar{X} \sim \text{Normal}(\mu, \sigma/\sqrt{n})\)
Distribusi Sampling Proportion
Populasi Binomial
- Jika \(n p \ge 10\) & \(n(1-p) \ge 10\)
- \(\hat{p} \sim \text{Normal}\left(p, \sqrt{\frac{p(1-p)}{n}}\right)\)
1.4.8 Aplikasi dalam Penelitian
Untuk Survei Proporsi
Estimasi \(p\) awal
Hitung \(n\) minimal
\[ n = \frac{10}{p} \]
Contoh:
jika \(p \approx 0.1\) → \(n\) minimal = 100
Untuk Studi Mean
\(n\) minimal = 30
1.4.9 Tabel Ringkasan Kondisi CLT
| Statistik | Kondisi_CLT | Rumus_SE | Contoh_Data |
|---|---|---|---|
| Mean (\(\bar{x}\)) | \(n \ge 30\) | \(\sigma/\sqrt{n}\) | tinggi, berat, nilai |
| Proportion (\(\hat{p}\)) | \(np \ge 10\) & \(n(1-p) \ge 10\) | \(\sqrt{p(1-p)/n}\) | ya/tidak, sukses/gagal |
1.4.10 Contoh Soal Integratif
Soal:
Perusahaan mengklaim 60% produk bebas cacat. Sampel 50 produk → 28 bebas cacat.
Langkah 1 — Tentukan jenis data
Proporsi → gunakan \(\hat{p}\).
Langkah 2 — Hitung proporsi sampel \[ \hat{p} = \frac{28}{50} = 0.56 \]
Langkah 3 — Cek kondisi CLT
- \(50 \times 0.6 = 30 \ge 10\)
- \(50 \times 0.4 = 20 \ge 10\) → CLT berlaku
Langkah 4 — Standard Error \[ SE = \sqrt{\frac{0.6(0.4)}{50}} = 0.0693 \]
Langkah 5 — Z-score \[ z = \frac{0.56 - 0.6}{0.0693} \approx -0.577 \]
Kesimpulan Tidak cukup bukti untuk menolak klaim perusahaan.
1.5 Review Sampling Distribution
Contoh 1-Probability Dasar (n kecil)
- Jumlah kelereng: 200 hijau + 300 biru = 500 total
- Pengambilan: 3 kali dengan pengembalian
- Pertanyaan: Probabilitas mendapatkan setidaknya 2 kelereng hijau
Penyelesaian Manual
- P(hijau) = 0.4
- P(biru) = 0.6
- n = 3
Sample Space & Probabilitas:
| Urutan | Probabilitas |
|---|---|
| GGG | 0.064 |
| GGB | 0.096 |
| GBG | 0.096 |
| BGG | 0.096 |
| GBB | 0.144 |
| BGB | 0.144 |
| BBG | 0.144 |
| BBB | 0.216 |
Probabilitas “at least 2 green”:
- P(tepat 2 hijau) = 0.288
- P(tepat 3 hijau) = 0.064
P(≥2 hijau) = 0.352
Contoh 2-Binomial Distribution (n sedang)
Formula Binomial \[ P(X=k) = \binom{n}{k} p^k (1-p)^{n-k}, \quad C(n,k) = \frac{n!}{k!(n-k)!} \]
Parameter:
- n=5
- p=0.4
Perhitungan:
P(X=2) = 0.3456
P(X=3) = 0.2304
P(X=4) = 0.0768
P(X=5) = 0.01024
Total P(≥2) = 0.66304
Contoh 3-Sampling Distribution (n besar)
Cek Kondisi CLT
- n × p = 100 × 0.4 = 40 ≥ 10
- n × (1-p) = 100 × 0.6 = 60 ≥ 10
Parameter Distribusi Sampling \[ \mu_{\hat{p}} = p = 0.4 \] \[ \sigma_{\hat{p}} = \sqrt{\frac{p(1-p)}{n}} \approx 0.049 \]
Standarisasi \[ \hat{p} = 35/100 = 0.35 \] \[ z = \frac{\hat{p}-p}{\sigma_{\hat{p}}} \approx -1.02 \]
Probabilitas
- P(Z < -1.02) = 0.1539
- P(Z ≥ -1.02) = 1 - 0.1539 = 0.8461
Interpretasi:
P(≥35 hijau) ≈ 84.61% (aproksimasi)
1.5.1 Perbandingan Metode
| Aspek | Probability_Dasar | Binomial_Distribution | Sampling_Distribution |
|---|---|---|---|
| n yang cocok | ≤ 10 | 10–30 | ≥ 30 (CLT terpenuhi) |
| Ketelitian | Eksak | Eksak | Aproksimasi |
| Usaha komputasi | Tinggi | Sedang | Rendah |
| Kapan digunakan | n kecil, sederhana | n sedang, percobaan dikotomis | n besar, inferensi |
1.5.2 Formula Penting
1. Probability Dasar: \[ P(event) = \frac{\text{jumlah cara event terjadi}}{\text{total kemungkinan}} \]
2. Binomial Distribution: \[ P(X=k) = C(n,k) \cdot p^k \cdot (1-p)^{n-k}, \quad \mu = np, \quad \sigma = \sqrt{np(1-p)} \]
3. Sampling Distribution (p̂): \[ \mu_{\hat{p}} = p, \quad \sigma_{\hat{p}} = \sqrt{\frac{p(1-p)}{n}}, \quad z = \frac{\hat{p}-p}{\sigma_{\hat{p}}} \]
1.5.3 Tips Pemilihan Metode
- n ≤ 10 → Probability Dasar
- 10 < n ≤ 30 → Binomial Distribution
- n ≥ 30 dan memenuhi CLT → Sampling Distribution
- Jika CLT tidak terpenuhi → gunakan binomial exact atau Poisson approximation
1.5.4 Contoh Aplikasi
| n | p | Metode | Contoh_Hitung |
|---|---|---|---|
| 5 | 0.15 | Probability Dasar | P(≥1) = 1 - 0.85⁵ ≈ 0.5563 |
| 20 | 0.15 | Binomial Distribution | P(≥3) = 1 - [P(0)+P(1)+P(2)] ≈ 0.5951 |
| 200 | 0.15 | Sampling Distribution | p̂ = 25/200 = 0.125, z ≈ -0.992, P≥25 ≈ 0.8392 |
2 References
Supranto, J. (2021). Statistika: Teori dan Aplikasi (Edisi 9). Erlangga. https://books.google.co.id/books?id=-H4-EAAAQBAJ
OpenStax. (2018). Introductory statistics. OpenStax College. https://openstax.org/books/introductory-statistics/pages/4-2-mean-or-expected-value-and-standard-deviation
Walpole, R. E., Myers, R. H., Myers, S. L., & Ye, K. (2012). Probability and statistics for engineers and scientists (9th ed.). Pearson. Available from https://dl.icdst.org/pdfs/files4/f5087fa30778ccd742790526c0d6be83.pdf