PROBABILITY DISTRIBUTION (~WEEK 11~)

Jihan Ramadhani Deandri
Data Science undergraduate student

R Programming Data Science Statistics

1 PENDAHULAN

Memahami bentuk dan sifat distribusi sangat penting: distribusi itu menentukan bagaimana data berperilaku, bagaimana kita menghitung probabilitas, serta bagaimana kita dapat membuat prediksi. Ada banyak jenis distribusi untuk data yang “terpisah” (diskrit) maupun “kontinu” dan pilihan distribusi menentukan apakah model kita cocok atau tidak.Dengan memahami distribusi probabilitas, kita bisa memperkirakan kemungkinan kejadian, membuat prediksi, serta mengira-ira hasil ketika kita hanya punya data sampel, bukan seluruh populasi.

  • Variabel Acak Kontinu: Ini adalah variabel yang nilainya bisa berapapun dalam sebuah rentang bukan hanya angka bulat. (sudah dijelaskan )

  • Distribusi Sampel: Ini adalah peta kemungkinan untuk statistik yang kita hitung dari sampel data, seperti rata-rata sampel atau proporsi sampel. Ini membantu kita memahami seberapa akurat statistik sampel kita. (sudah dijelaskan )

  • Theorema Limit Pusat: Ini adalah aturan emas statistik! Aturan ini mengatakan bahwa jika Anda mengambil banyak sampel dari populasi manapun, distribusi dari rata-rata sampel itu akan selalu cenderung berbentuk Normal (seperti lonceng), tidak peduli apa bentuk asli dari populasi asalnya. Ini yang membuat statistik bisa bekerja.

  • Distribusi Proporsi Sampel: Konsep ini khusus digunakan untuk menganalisis data survei dan penelitian kuantitatif, terutama saat kita tertarik pada persentase atau bagian dari populasi yang memiliki karakteristik tertentu (contoh: persentase orang yang setuju dengan suatu kebijakan).

2 Distribusi Sampling

RANGKUMAN :

2.1 Definisi Distribusi Sampling

distribusi sampling adalah distribusi yang terbentuk dari nilai rata-rata sampel (\(\bar{X}\)) yang diambil berulang kali dari populasi yang sama dan memiliki standar deviasi yang lebih kecil dibanding populasi.Tujuan utamanya adalah memperkirakan parameter populasi (\(\mu\)) tanpa harus mengukur seluruh populasi. Misalnya, kita punya populasi dengan rata-rata μ dan standar deviasi (simpangan baku) 𝜎. Jika kita ambil sampel ukuran 𝑛, dan hitung rata-rata sampel 𝑋, maka kalau kita ulang pengambilan sampel berkali-kali, nilai-nilai, 𝑋 itu membentuk distribusi sendiri yaitu distribusi sampling dari 𝑋.

Rumus ;

  • Varians dari distribusi sampling: \[ \mathrm{Var}(\bar X) = \frac{\sigma^2}{n} \]
  • Simpangan baku dari distribusi sampling (standard error): \[ \sigma_{\bar X} = \sqrt{\mathrm{Var}(\bar X)} = \frac{\sigma}{\sqrt{n}} \]
  • Standarisasi (Z-Score) : \[Z = \frac{\bar{X} - \mu}{\sigma_{\bar{X}}} \quad \text{atau} \quad Z = \frac{\bar{X} - \mu}{\sigma / \sqrt{n}}\]

3 Teorema Limit Pusat

RANGKUMAN :

3.1 definisi Teorema Limit Pusat

  • Teorema Limit Pusat menyatakan bahwa jika ukuran sampel (\(\mathbf{n}\)) cukup besar (umumnya \(\mathbf{n \geq 30}\)), maka bentuk distribusi sampling rata-rata sampel (\(\bar{x}\)) akan mendekati distribusi normal (berbentuk lonceng).

  • Hal ini berlaku tanpa memandang bentuk distribusi populasi aslinya (bisa miring, seragam, atau bentuk lainnya).

  • Secara visual, meskipun populasi awalnya tidak normal, ketika rata-rata dari banyak sampel dikumpulkan, plotnya akan secara ajaib membentuk kurva normal.

Rumus:

\[ \frac{\bar X_n - \mu}{\sigma / \sqrt{n}} \;\xrightarrow{d}\; N(0,1) \] 1. Rata-rata Distribusi Sampling (\(\mu_{\bar{x}}\))Rata-rata dari semua rata-rata sampel (\(\bar{x}\)) yang mungkin (yaitu rata-rata distribusi sampling) akan selalu sama dengan rata-rata populasi (\(\mu\)).\[\displaystyle \mu_{\bar{x}} = \mu\]

2.Simpangan Baku Distribusi Sampling (Standard Error \(\sigma_{\bar{x}}\))Simpangan baku dari distribusi sampling rata-rata sampel disebut Standard Error dan dihitung dengan membagi simpangan baku populasi (\(\sigma\)) dengan akar kuadrat dari ukuran sampel (\(\sqrt{n}\)).Ini menunjukkan bahwa semakin besar \(n\), semakin kecil variasi \(\bar{x}\).\[\displaystyle \sigma_{\bar{x}} = \frac{\sigma}{\sqrt{n}}\]

4 Proporsi Sample

RANGKUMAN :

4.1 Memahami Konsep dasar

  • Proporsi (\(\hat{p}\) atau P): Dalam statistik, proporsi adalah persentase atau pecahan dari hasil yang sesuai (yang kita teliti) dibandingkan dengan keseluruhan.

  • Proporsi Populasi (P): Nilai sebenarnya untuk seluruh populasi.

  • Proporsi Sampel (\(\hat{p}\)): Nilai yang kita dapatkan hanya dari satu sampel yang kecil.

  • Distribusi Sampel: Ini adalah grafik atau “peta” yang dibuat dengan cara berulang kali mengambil sampel dari suatu populasi, menghitung suatu statistik (seperti \(\hat{p}\)) dari setiap sampel, lalu menggabungkan semua statistik tersebut.

4.2 Distribusi Sampel Proporsi Sampel

Distribusi Sampel Proporsi Sampel adalah hasil dari pengumpulan dan penggambaran semua nilai \(\hat{p}\) (Proporsi Sampel) yang kita peroleh dari pengambilan sampel secara acak dan berulang kali.

3 sifat utama ;

Sifat Penjelasan Simbol & Rumus
Rata-rata Rata-rata dari semua \(\hat p\) yang mungkin — mendekati proporsi populasi sebenarnya. \(\displaystyle \mu_{\hat p} = p\)
Standar Deviasi (Standard Error) Mengukur seberapa jauh nilai-nilai \(\hat p\) menyebar dari rata-ratanya. \(\displaystyle \sigma_{\hat p} = \sqrt{\frac{p \,(1-p)}{n}}\)
Skor-Z (Z-score) Karena untuk sampel besar distribusi \(\hat p\) mendekati normal — kita bisa ubah ke Z untuk menghitung probabilitas. \(\displaystyle Z = \frac{\hat p - p}{\sqrt{\dfrac{p (1-p)}{n}}}\)

4.3 Syarat Penerapan Distribusi Normal (Central Limit Theorem)

Distribusi Sampel Proporsi Sampel dapat diaproksimasi (didekati) dengan Distribusi Normal, dua syarat berikut harus terpenuhi :

  • Jumlah Keberhasilan yang Diharapkan (Successes):\[n \cdot p \geq 10\]

  • Jumlah Kegagalan yang Diharapkan (Failures):\[n \cdot (1-p) \geq 10\]

\(n\) adalah ukuran sampel dan \(p\) adalah proporsi populasi.

5 Tinjauan Distribusi Sample

RANGKUMAN :

distribusi sampling untuk sample proportion — yaitu bagaimana proporsi dari sampel (misalnya persentase sukses, “true/false”.) didistribusikan ketika kita mengambil banyak sampel dari populasi.Jika kita punya populasi di mana setiap elemen bisa “sukses” atau “gagal” (misalnya “ya” atau “tidak”), dan proporsi “sukses” di populasi adalah p, maka ketika kita ambil sampel acak dengan ukuran n, proporsi “sukses” dalam sampel — disebut sample proportion (biasanya disimbolkan 𝑝 ^ p ^ ​) memiliki distribusi tertentu.

  • Saat n cukup besar, distribusi dari 𝑝 ^ p ^ ​ini mendekati distribusi normal (meskipun asalnya kontribusinya dari distribusi binomial), dengan:

  • Mean: sama dengan p (proporsi sebenarnya di populasi)

  • (Standar deviasi / standard error) adalah: \[ \mathrm{S} = \sqrt{\frac{p(1-p)}{n}} \] ​ini menunjukkan bahwa semakin besar ukuran sampel n, makin kecil variasinya.

    • Jumlah Keberhasilan yang Diharapkan:\[n \cdot p \geq 10\]

    • Jumlah Kegagalan yang Diharapkan:\[n \cdot (1-p) \geq 10\]

Intinya: meskipun populasi asli bersifat “diskrit” (sukses/gagal), distribusi dari proporsi sampel bisa didekati dengan distribusi normal apabila syarat terpenuhi (n cukup besar, p tidak ekstrem).

6 Kesimpulan

Distribusi Sampling adalah cetak biru probabilitas yang kita buat berdasarkan hasil hitungan dari banyak kelompok sampel yang diambil berulang kali dari populasi yang sama. Tujuannya sederhana: untuk memperkirakan nilai asli populasi (seperti nilai rata-rata \(\mu\) atau persentase \(p\)) secara efisien, tanpa perlu menghitung seluruh anggota populasi.Ada dua jenis utama yang kita pelajari: ketika kita menghitung rata-rata kelompok (\(\bar{X}\)) dan ketika kita menghitung proporsi atau persentase kelompok (\(\hat{p}\)).Meskipun rata-rata dari distribusi ini sama dengan rata-rata populasi, ciri khasnya adalah memiliki Standard Error (variasi) yang jauh lebih kecil , yang berarti nilai hasil sampel kita cenderung lebih stabil.Yang paling hebat, Teorema Limit Pusat menjamin bahwa selama ukuran kelompok sampel kita cukup besar, bentuk distribusi ini akan selalu mendekati kurva normal (kurva lonceng yang sempurna). Hal ini memungkinkan kita menggunakan rumus Z-Score untuk menghitung seberapa mungkin hasil sampel tertentu terjadi, menjadikannya alat yang sangat andal untuk membuat keputusan berdasarkan data.

7 Referensi Buku

  • A First Course in Probability (Sheldon M. Ross)
  • Statistics for Business and Economics (David R. Anderson)
  • Introduction to Mathematical Statistics (Robert V. Hogg)