Probability Distribution ~ Assignment week 11

Logo

Ignasius Rabi Blolong

Student Majoring in Data Science at ITSB

R Programming Data Science Statistics

1 Introduction

1.1 Definisi

Distribusi probabilitas adalah konsep fundamental dalam statistika dan teori probabilitas. Ini adalah deskripsi matematika yang memberikan probabilitas terjadinya setiap hasil yang mungkin dari suatu eksperimen acak Secara sederhana, pada kesempatan kali ini kita akan melihat tentang:

  1. PDF (Probability Density Function) (Fungsi Kepadatan Probabilitas) Inti: Menunjukkan kepadatan (density) atau kemungkinan relatif suatu nilai muncul untuk variabel kontinu.

Ingat: Nilai PDF itu sendiri bukan probabilitas; probabilitas adalah luas di bawah kurvanya.

  1. Sample Proportion (Proporsi Sampel) Inti: Merupakan statistik sampel \(\hat{p}\) yang digunakan untuk mengestimasi persentase (π) suatu karakteristik dalam populasi.

Fungsi: Digunakan saat kita menganalisis data kategorikal (misalnya, ya/tidak, sukses/gagal).

  1. Sampling Distribution (Distribusi Sampling) Inti: Adalah distribusi probabilitas dari suatu statistik (misalnya, rata-rata atau proporsi) yang diperoleh dari mengambil semua sampel yang mungkin dari populasi.

Fungsi: Menjadi jembatan antara statistik sampel dan parameter populasi.

  1. CLT (Central Limit Theorem) (Teorema Limit Pusat) Inti: Aturan emas yang menyatakan bahwa jika ukuran sampel (n) cukup besar (≥30), maka Distribusi Sampling Rata-rata Sampel akan menjadi berbentuk Normal (lonceng), tidak peduli seperti apa bentuk populasi asalnya.

1.2 Jenis-jenis Distribusi

berdasarkan sifat Variabel acaknya :

1.2.1 Distribusi Probabilitas Diskrit

Ini berlaku untuk variabel acak yang hanya dapat mengambil nilai yang terhitung (biasanya bilangan bulat), seperti jumlah orang, jumlah cacat, atau jumlah keberhasilan. Fungsi: Menggunakan Fungsi Massa Probabilitas (FMP), P(X=x), yang memberikan probabilitas untuk setiap nilai spesifik x.

Contoh Umum: Distribusi Binomial, Poisson, dan Geometrik.

1.2.2 Distribusi Probabilitas Kontinu

Ini berlaku untuk variabel acak yang dapat mengambil nilai apa pun dalam rentang tertentu (diukur),seperti tinggi,berat,atau waktu. Fungsi: Menggunakan Fungsi Kepadatan Probabilitas (FKP), f(x). Karena ada tak terhingga banyaknya nilai, probabilitas untuk nilai tunggal adalah nol. Sebaliknya, probabilitas dihitung untuk suatu rentang (P(a<X<b)) sebagai area di bawah kurva FKP.

Contoh Umum: Distribusi Normal (Gaussian), Eksponensial, dan Uniform Kontinu.

1.3 Pentingnya dalam Analisis Data

Memahami distribusi probabilitas sangat penting karena:

  • Pemodelan: Distribusi memungkinkan para analis untuk memodelkan data dunia nyata dan proses acak (misalnya, memodelkan jumlah pelanggan yang tiba per jam menggunakan Distribusi Poisson).

  • Inferensi: Distribusi membentuk dasar untuk pengujian hipotesis dan estimasi interval kepercayaan, yang merupakan tulang punggung statistik inferensial.

  • Pengambilan Keputusan: Dengan mengetahui probabilitas hasil yang berbeda, organisasi dapat membuat keputusan yang lebih tepat dan mengelola risiko (misalnya, menghitung risiko kerugian investasi).

2 Continuous Random

2.1 Video Summary

\(FITUR\) \(VARIABEL\) \(DISKRIT\) \(VARIABEL\) \(KONTINU\)
Definisi Variabel yang nilainya hanya dapat mengambil hitungan terbatas (finite),dan dapat di pertanggungjawabkan, biasanya bilangan bulat. Variabel yang nilainya dapat mengambil nilai numerik apa pun dalam rentang atau interval tertentu.
Sifat Nilai Diperoleh dengan cara dihitung dan masuk akal. Diperoleh dengan cara diukur dan dapat dipecah menjadi unit yang lebih kecil (misalnya, desimal tak terhingga).
Contoh Jumlah anak dalam keluarga,Nilai siswa saat ujian, Jumlah uang di Rekening Bank. Tinggi badan, berat badan, suhu, jarak
Perhitungan Menggunakan semua Rumus probabilitas Menggunakan Rumus Kurva Kerapatan.
Representasi Visual Grafik batang (bar chart) di mana tinggi batang menunjukkan probabilitas. Histogram yang tidak memiliki cela untuk mencerminkan kontinuitas.

2.2 Variabel Acak (Random Variable)

Variabel Acak (X) adalah fungsi yang menghubungkan setiap hasil (outcome) dari suatu eksperimen acak dengan sebuah nilai numerik (angka).Sederhananya, Variabel Acak adalah cara kita mengubah hasil kejadian yang tidak pasti (seperti melempar koin) menjadi angka yang dapat dianalisis secara matematis.

  • Ia adalah Jembatan: Variabel acak adalah jembatan yang menghubungkan ruang sampel (hasil kejadian) dengan bilangan riil.

  • Nilai Tidak Pasti: Nilai yang diambilnya bergantung pada hasil acak dari eksperimen.

Contoh: Dalam pelemparan dua koin, ruang sampelnya adalah {HH, HT, TH, TT}. Variabel acak X bisa didefinisikan sebagai jumlah kepala (Heads). Nilai X yang mungkin adalah 0, 1, dan 2.

2.3 Probabilitas Density Funct

Fungsi Kepadatan Probabilitas (f(x)) adalah fungsi yang mendefinisikan distribusi probabilitas untuk variabel acak kontinu (misalnya, tinggi badan, waktu, suhu). Penjelasan:

Bukan Probabilitas Langsung: Nilai f(x) itu sendiri bukan probabilitas. Ini adalah kepadatan probabilitas. f(x) bisa saja lebih besar dari 1 (walaupun probabilitas tidak bisa).

Area = Probabilitas: Probabilitas bahwa variabel acak X jatuh dalam rentang tertentu diwakili oleh area di bawah kurva f(x) untuk rentang tersebut.

Total Area = 1: Luas total di bawah seluruh kurva PDF harus selalu sama dengan 1, karena probabilitas total untuk semua kemungkinan hasil adalah 100%.

Syarat PDF: Agar suatu fungsi f(x) dapat menjadi PDF, harus memenuhi dua syarat berikut:

  • Non-Negatif: Nilai fungsi harus selalu nol atau positif untuk semua nilai x. f(x)≥0untuk semua x

  • Total Area Sama dengan Satu: Total area di bawah kurva f(x) di seluruh domain harus sama dengan 1, karena probabilitas total dari semua kemungkinan hasil adalah 100%. ∫−∞∞f(x)dx=1 ∫−∞∞​f(x)dx=1

2.4 Probability an on Interval

Atau biasa disebut Probabilitas pada Interval, Karena variabel acak kontinu memiliki jumlah nilai yang tak terhingga, probabilitas bahwa X akan mengambil nilai tunggal tepat (misalnya P(X=5)) selalu nol. Kita hanya dapat menghitung probabilitas bahwa X akan jatuh dalam suatu interval [a,b]. Pengerjaan:

Probabilitas X berada di antara a dan b didapatkan dengan mengintegrasikan PDF (f(x)) dari a sampai b.

Metode Probabilitas yang Dihitung Deskripsi Rumus Matematis
Menggunakan PDF \(P(a \leq X \leq b)\) Luas di bawah kurva PDF antara batas \(a\) dan \(b\). \(\int_{a}^{b} f(x) dx\)
Menggunakan CDF \(P(a \leq X \leq b)\) Perbedaan antara probabilitas kumulatif pada \(b\) dan \(a\). \(F(b) - F(a)\)
Probabilitas pada Titik Tunggal \(P(X = x)\) Probabilitas bahwa variabel kontinu mengambil nilai tepat \(x\). \(0\)

2.5 Cumulative Distribution Funct

Fungsi Distribusi Kumulatif (F(x)) memberikan probabilitas bahwa variabel acak X akan mengambil nilai kurang dari atau sama dengan nilai tertentu x. Penjelasan:

  • Akumulasi Probabilitas: CDF adalah akumulasi (penjumlahan) probabilitas dari −∞ hingga titik x.

  • Hubungan dengan PDF: CDF adalah integral dari PDF.

  • Nilai: Nilai F(x) selalu berkisar antara 0 dan 1.

2.5.1 Fungsi Dasar Distribusi Kontinu

Konsep Notasi Deskripsi Singkat Rumus Matematis
Fungsi Kepadatan Probabilitas (PDF) \(f(x)\) Kemungkinan relatif (bukan probabilitas); Luas total di bawah kurva = 1. \(f(x) \geq 0\)
Fungsi Distribusi Kumulatif (CDF) \(F(x)\) Probabilitas bahwa \(X\) kurang dari atau sama dengan \(x\), \(P(X \leq x)\). \(F(x) = \int_{-\infty}^{x} f(t) dt\)

3 Sampling Distribution

3.1 Video Summary

  • Distribusi Populasi : Distribusi yang dibuat untuk mengukur setiap individu dalam populasi
  • Distribusi Sampel : Distribusi yang dibuat untuk mengukur setiap individu dalam Sampel
  • Distribusi Sampling : Distribusi statistika yang dibuat dari beberapa sampel sederhana yang diambil dari populasi tertentu secara berulang

Visualisasi: Distribusi Sampling

# Central Limit Theorem

3.2 Video Summary

3.2.1 Definisi

Central Limit Theorem berbunyi: Jika anda mengambil sampel yang cukup besar dan acak dari populasi apapun, distribusi rata-rata sampel tersebut akan berbentuk normal terlepas dari bentuk asli populasi distribusi. atau dengan kata lain : Jika ukuran sampel (n) cukup besar (umumnya n≥30), maka Distribusi Sampling Rata-rata Sampel (Xˉ) akan mendekati Distribusi Normal.Hasil ini berlaku terlepas dari bentuk distribusi populasi asalnya (bisa miring (skewed), seragam (uniform), atau bentuk apa pun). Teori ini berguna untuk menganalisis data yang besar dan memprediksi bentuk distribusi sampling berdasarkan ukuran sampel

3.2.2 Mengapa CLT Penting?

CLT sangat penting dalam statistika inferensial karena memungkinkan kita untuk menggunakan sifat-sifat distribusi normal untuk melakukan pengujian hipotesis dan membangun interval kepercayaan, bahkan ketika kita tidak tahu (atau tahu bahwa) distribusi populasi aslinya tidak normal.

3.2.3 Kondisi dan Ukuran Sampel

\(Ukuran Sampel\) (\(n\)) \(Penjelasan\)
\(n \ge 30\) Distribusi sampel akan mendekati normal (sesuai Teorema Limit Pusat - CLT), terlepas dari bentuk distribusi populasi asalnya.
\(n < 30\) Jika populasi asalnya sudah berdistribusi normal, maka distribusi samplingnya juga akan normal.
\(n < 30\) Jika populasi asalnya tidak diketahui distribusinya atau tidak normal, maka CLT tidak dapat diterapkan dengan keyakinan yang sama. Hal ini berarti terdapat lebih banyak variabilitas, kurang presisi, dan kurang keandalan dalam mengasumsikan distribusi normal.

3.2.4 Rumus

Komponen Rumus Variabel Penjelasan
Rumus Skor Z \[Z = \frac{\bar{X} - \mu}{\sigma/\sqrt{n}}\] Mengukur berapa banyak Galat Baku (Standard Error) rata-rata sampel (\(\bar{X}\)) berada di atas atau di bawah rata-rata populasi (\(\mu\)).
Rata-rata Sampel \(\bar{X}\) Statistik yang dihitung dari sampel dan sedang diuji.
Rata-rata Populasi \(\mu\) Parameter populasi (atau nilai hipotesis) yang merupakan rata-rata dari Distribusi Sampling (\(\mu_{\bar{X}}\)).
Simpangan Baku Populasi \(\sigma\) Simpangan baku dari populasi asal.
Ukuran Sampel \(n\) Jumlah observasi dalam sampel.
Galat Baku \(\sigma/\sqrt{n}\) Simpangan baku dari Distribusi Sampling Rata-Rata (\(SE_{\bar{X}}\)). Mengukur variabilitas rata-rata sampel.

4 Sample Proportion

4.1 Video Summary

Sample Proportion \(\hat{p}\) (dibaca p-hat), adalah fraksi hasil yang menguntungkan dalam kaitanya dengan keseluruhan atau bagian dari sampel yang memiliki karakteristik atau sifat tertentu. Ini digunakan sebagai penduga (estimator) terbaik dari proporsi populasi sebenarnya (population proportion), yang dilambangkan dengan p. Proporsi sampel paling sering digunakan ketika berhadapan dengan data kategorikal (misalnya, ya/tidak, sukses/gagal, setuju/tidak setuju) untuk menentukan persentase keberhasilan atau kejadian tertentu dalam sampel. Contoh:

  • Jika Anda mengambil sampel 10 orang dan 2 di antaranya memiliki bola mata berwarna hijau, maka proporsi sampel yang memiliki bola mata hijau adalah 2/10=0.2 atau 20%.

  • Jika Anda mengambil sampel 100 orang dan 60 di antaranya menyukai kopi, maka proporsi sampel yang menyukai kopi adalah 60/100=0.60 atau 60%.

4.1.1 Rumus Proporsi Sampel

Simbol Nama Deskripsi
\(\hat{p}\) Proporsi Sampel (p-hat) Proporsi dari sampel yang memiliki karakteristik yang diteliti.
\(x\) Jumlah Keberhasilan Jumlah observasi dalam sampel yang memiliki karakteristik yang diteliti.
\(n\) Ukuran Sampel Ukuran total sampel (jumlah total observasi).
\(\hat{p} = \frac{x}{n}\) Rumus Rumus yang benar untuk menghitung Proporsi Sampel.

4.1.2 Distribusi Sampling dari Proporsi Sampel

Video diatas membahas “Distribusi Sampling dari Proporsi Sampel” (Sampling Distribution of the Sample Proportion). Distribusi ini adalah distribusi probabilitas dari semua nilai proporsi sampel \(\hat{p}\) yang mungkin yang dapat diperoleh dari semua sampel berukuran n yang mungkin dari suatu populasi.

Penting: Jika ukuran sampel (n) cukup besar (biasanya jika np≥10 dan n(1−p)≥10), distribusi sampling dari \(\hat{P}\) akan mendekati distribusi normal. Ini memungkinkan kita untuk melakukan inferensi statistik.

5 Revew Sampling Distribution

5.1 Video summary

5.1.1 Konsep Kunci dan Definisi

Konsep Kunci Definisi Singkat Relevansi
Distribusi Sampling Distribusi probabilitas dari statistik sampel (misalnya, \(\bar{X}\) atau \(\hat{p}\)) atas semua sampel yang mungkin. Dasar untuk Statistika Inferensial.
Teorema Limit Pusat (CLT) Jika \(n \geq 30\), Distribusi Sampling Rata-rata mendekati Distribusi Normal, terlepas dari bentuk populasi. Memungkinkan penggunaan tabel Z (Normal) dalam analisis.
Standard Error (\(SE\)) Simpangan baku dari Distribusi Sampling. Mengukur seberapa besar rata-rata sampel kemungkinan berfluktuasi dari rata-rata populasi.
Variabel Acak Kontinu Dapat mengambil nilai apa pun dalam rentang tertentu; probabilitas dihitung untuk rentang, bukan titik spesifik. Membenarkan penggunaan kurva halus (PDF) seperti Distribusi Normal.

5.1.2 Rumus Esensial(Skor Z dan Galat Baku)

Statistik Rata-Rata Distribusi (\(\mu_{\text{statistik}}\)) Galat Baku (\(SE\)) Skor Z (Standardisasi)
Rata-Rata Sampel (\(\bar{X}\)) \(\mu_{\bar{X}} = \mu\) \(SE_{\bar{X}} = \sigma/\sqrt{n}\) \(Z = \frac{\bar{X} - \mu}{\sigma/\sqrt{n}}\)
Proporsi Sampel (\(\hat{p}\)) \(\mu_{\hat{p}} = \pi\) \(SE_{\hat{p}} = \sqrt{\frac{\pi(1-\pi)}{n}}\) \(Z = \frac{\hat{p} - \pi}{\sqrt{\pi(1-\pi)/n}}\)

5.1.3 Kondisi Penerapan Normalitas

Kondisi Statistik yang Diperiksa Aturan
Teorema Limit Pusat (CLT) Rata-Rata Sampel (\(\bar{X}\)) Ukuran sampel \(n \geq 30\) (aturan umum).
Aproksimasi Normal Proporsi Sampel (\(\hat{p}\)) \(n\pi \geq 10\) DAN \(n(1-\pi) \geq 10\).

6 References

https://www.youtube.com/embed/ZyUzRVa6hCM

https://www.youtube.com/embed/7S7j75d3GM4

https://www.youtube.com/embed/c0mFEL_SWzE

https://www.youtube.com/embed/q2e4mK0FTbw

https://www.youtube.com/embed/ivd8wEHnMCg

Noeryanti. (2021). Pengantar Teori Probabilitas. Perpus.pdf.

Wibowo, A. (2022). Basic Statistika.Pdf. Yayasan Prima Agus Teknik.

