Tugas Week 11

Probability Distribution

Tugas Week 11

Kartu Branding Naifah (Interaktif) - Revisi Jarak & Ukuran Box

Data Science | ITSB

Foto Profil Naifah Edria Arta

Naifah Edria Arta

"Digging into data, uncovering stories, and shaping the future—one insight at a time."

Skill Focus

R Program Data Visualization Data Analysis Statistics

Course

Basic Statistics

Academic Advisor

Bakti Siregar, M.Sc., CDS

Introduction

Statistika inferensial modern didirikan di atas pemahaman tentang variabel acak (random variables), yang dapat diklasifikasikan menjadi diskrit dan kontinu. Variabel acak kontinu, yang meliputi ukuran seperti waktu, berat, dan tinggi, adalah inti dari banyak aplikasi dunia nyata karena nilainya dapat mengambil angka apa pun dalam suatu rentang tak terhingga. Dalam konteks kontinu, probabilitas tidak lagi dihitung pada titik tunggal (\(P(X=x) = 0\)), melainkan diukur sebagai area di bawah kurva yang didefinisikan oleh Fungsi Kepadatan Probabilitas (PDF). Penguasaan konsep ini, termasuk kemampuan untuk menghitung probabilitas dalam suatu interval (\(P(a \leq X \leq b)\)), menjadi langkah krusial dalam menganalisis data terukur.

Meskipun data populasi sering kali tidak dapat diakses secara keseluruhan, inferensi statistik dimungkinkan melalui penggunaan distribusi sampling. Distribusi ini adalah distribusi dari statistik sampel (seperti rata-rata sampel \(\bar{x}\) atau proporsi sampel \(\hat{P}\)) yang dikumpulkan dari banyak sampel acak berulang. Perbedaan mendasar antara distribusi populasi, distribusi sampel, dan distribusi sampling sangat penting untuk dipahami. Hal ini membawa kita pada Teorema Batas Pusat (Central Limit Theorem atau CLT), sebuah prinsip revolusioner yang menyatakan bahwa, terlepas dari bentuk asli distribusi populasi, distribusi sampling rata-rata akan mendekati distribusi normal asalkan ukuran sampel (\(n\)) cukup besar (\(n \geq 30\) untuk rata-rata, atau \(n \cdot P \geq 10\) dan \(n \cdot (1-P) \geq 10\) untuk proporsi).

Dengan memastikan distribusi sampling mendekati normal berkat CLT, ahli statistik dapat secara efektif menggunakan rumus Z-score standar untuk menghitung probabilitas yang terkait dengan statistik sampel. Baik itu menghitung probabilitas rata-rata sampel \(\bar{x}\) atau proporsi sampel \(\hat{P}\), metode ini memungkinkan kita untuk membuat perkiraan yang akurat tentang parameter populasi (\(\mu\) atau \(P\)) hanya berdasarkan informasi dari sampel. Integrasi dari pemahaman variabel kontinu, distribusi sampling, dan kekuatan CLT adalah dasar dari semua teknik inferensi statistik, memberikan fondasi yang kokoh untuk pengujian hipotesis, interval kepercayaan, dan pada akhirnya, pengambilan keputusan yang terinformasi dan berbasis bukti.

video 1 : Continuous Random

Perbedaan Variabel Diskrit dan Kontinu
Karakteristik Variabel Diskrit Variabel Kontinu
Definisi Nilai yang dapat dihitung (countable) dan terpisah. Nilai yang dapat mengambil angka apa pun dalam suatu rentang (uncountable/tak terhingga).
Cara Mendapatkan Data Dengan menghitung (counting). Dengan mengukur (measuring).
Contoh Jumlah mobil, skor ujian, lemparan koin. Berat, tinggi, suhu, waktu, jarak.
Representasi Grafik Grafik Batang (Bar Chart) — memiliki celah. Histogram / Kurva Kepadatan (Density Curve) — tanpa celah.
Probabilitas pada Nilai Tunggal (\(P(X=x)\)) Dapat dihitung. Sama dengan nol.
Perhitungan Probabilitas Penjumlahan probabilitas nilai-nilai spesifik. Dihitung sebagai Area di Bawah Kurva untuk suatu rentang.

2.1.1 Variabel Acak

Suatu variabel acak dikatakan kontinu jika dapat mengambil nilai apa pun dalam suatu interval pada garis bilangan rill. Contohnya meliputi: tinggi, waktu, suhu, usia, tekanan, dan kecepatan.

Karakteristik utama:

– Variabel mengambil nilai dalam interval seperti \((a, b)\) atau bahkan \((-\infty, +\infty)\).

– Probabilitas setiap titik tunggal selalu nol: \(P(X = x) = 0\) – Probabilitas hanya bermakna pada interval:\(P(a \leq X \leq b) = \int_{a}^{b} f(x) \,dx\)

2.1.2 Fungsi Kepadatan Probabilitas

Sebuah fungsi f(x) adalah Fungsi Kepadatan Probabilitas (PDF) yang valid jika memenuhi:

1.Non-negatif:

\(f(x)≥0∀xf(x)≥0∀x\)

2.Luas Totalnya Sama dengan 1:

\(\int_{-\infty}^{\infty} f(x) \,dx = 1\)

Interpretasi:

– Nilai yang lebih besar dari \(f(x)\) menunjukkan kepadatan probabilitas yang lebih tinggi di sekitar nilai tersebut.

– Namun, \(f(x)\) bukan merupakan probabilitas; probabilitas berasal dari area di bawah kurva.Contoh PDF: \(f(x) = 3x^2\) pada \([0, 1]\)

Pertimbangkan fungsi kepadatan probabilitas: \(f(x) = 3x^2, \quad 0 \leq x \leq 1\)\(Validasi:\)\(\int_{0}^{1} 3x^2 \,dx = 1\)

2.1.3 Probabilitas pada Interval

Untuk menghitung probabilitas dalam suatu interval: \(P(a \leq X \leq b) = \int_{a}^{b} 3x^2 \,dx\) Contoh: \(P(0.5 \leq X \leq 1)\)

2.1.4 Fungsi Distribusi Kumulatif

– Fungsi Distribusi Kumulatif (CDF) didefinisikan sebagai:\(F(x) = P(X \leq x) = \int_{0}^{x} 3t^2 \,dt = x^3\)

– Hubungan antara PDF dan CDF:\(f(x) = F'(x)\)

Video 2 : Distribusi Sampel

2.2.1. Definisi dan Perbedaan Distribusi

Tiga konsep utama dalam statistika berdasarkan video:

1.Distribusi Populasi (Population Distribution): Distribusi yang dibuat dengan mengukur setiap individu dalam populasi. Memiliki Rata-rata (\(\mu\)) dan Standar Deviasi(\(\sigma\)).

2.Distribusi Sampel (Sample Distribution): Distribusi yang dibuat dari satu sampel tunggal yang diambil dari populasi.

3.Distribusi Sampling (Sampling Distribution): Distribusi dari statistik (misalnya, rata-rata \(\bar{x}\)) yang dibuat dari berbagai sampel acak sederhana yang diambil berulang kali dari populasi tertentu.

2.2.2 Karakteristik Distribusi Sampling Rata-Rata (\(\bar{x}\))

Distribusi sampling rata-rata sampel (\(\bar{x}\)) memiliki properti yang berbeda dari distribusi populasi aslinya:

Karakteristik Distribusi

Perbandingan Variabel Diskrit dan Kontinu (Warna Revisi)
Karakteristik Variabel Diskrit Variabel Kontinu
Definisi Nilai yang dapat dihitung (countable) dan terpisah. Nilai yang dapat mengambil angka apa pun dalam suatu rentang (uncountable/tak terhingga).
Cara Mendapatkan Data Dengan menghitung (counting). Dengan mengukur (measuring).
Contoh Jumlah mobil, skor ujian, lemparan koin. Berat, tinggi, suhu, waktu, jarak.
Representasi Grafik Grafik Batang (Bar Chart) — memiliki celah. Histogram / Kurva Kepadatan (Density Curve) — tanpa celah.
Probabilitas pada Nilai Tunggal (\(P(X=x)\)) Dapat dihitung. Sama dengan nol.
Perhitungan Probabilitas Penjumlahan probabilitas nilai-nilai spesifik. Dihitung sebagai Area di Bawah Kurva untuk suatu rentang.

2.2.3. Pentingnya Distribusi Sampling

Tujuan utama menggunakan Distribusi Sampling adalah:

– Efisiensi: Memberikan perkiraan tentang nilai rata-rata populasi (\(\mu\)) tanpa perlu mengukur setiap individu, yang menghemat waktu dan biaya.

– Probabilitas: Memungkinkan perhitungan probabilitas untuk mendapatkan rata-rata sampel tertentu berdasarkan ukuran sampel \(n\) yang digunakan.

2.2.4 Contoh Perhitungan Probabilitas

Dua contoh yang menunjukkan perbedaan penggunaan rumus standardisasi Z-score untuk populasi vs. distribusi sampling:

Contoh Perhitungan Probabilitas:

Contoh Pertanyaan Rumus Z-score yang Digunakan Hasil
Distribusi Sampling Probabilitas rata-rata tinggi 10 orang Kanada kurang dari 157 cm (\(\mu=160, \sigma=7\))? \(Z = \frac{\bar{x} - \mu}{\sigma/\sqrt{n}}\) \(P(\bar{x} < 157) = 0.0869\) (atau 8.69%).
Distribusi Populasi Proporsi semua orang yang memiliki tinggi lebih dari 170 cm (\(\mu=160, \sigma=7\))? \(Z = \frac{x - \mu}{\sigma}\) \(P(x > 170) = 0.0764\) (atau 7.64%).

Video 3: Teorema Limit Pusat

2.3.1 Inti Teorema

Prinsip utama CLT menyatakan bahwa jika ukuran sampel (\(n\)) cukup besar, maka distribusi sampling rata-rata sampel (\(\bar{x}\)) akan mendekati distribusi normal.

Hal ini berlaku terlepas dari bentuk distribusi populasi aslinya. Artinya, meskipun data populasi awalnya miring (skewed) atau tidak normal, distribusi rata-rata dari sampel-sampel yang diambil akan menjadi normal.

2.3.2. Aturan Penerapan

Untuk menentukan apakah \(n\) dianggap “cukup besar,” digunakan aturan praktis sebagai berikut:

– Syarat Umum: CLT dapat diterapkan dengan aman ketika ukuran sampel (\(n\)) lebih besar atau sama dengan 30 (\(n \geq 30\)).

– Pengecualian: Jika distribusi populasi yang dijadikan sumber pengambilan sampel sudah normal sejak awal, maka distribusi samplingnya akan normal bahkan dengan ukuran sampel yang kecil (\(n < 30\)).

2.3.3. Manfaat CLT

CLT sangat penting karena dengan mengetahui bahwa distribusi sampling akan normal, ahli statistik dapat:

Menggunakan formula dan metode analisis yang terkait dengan distribusi normal untuk menginterpretasikan data sampel.

Membuat kesimpulan (inferensi) yang andal dan akurat tentang populasi berdasarkan data sampel besar.

Visualisasi

Interpretasi Singkat

Visualisasi tersebut menunjukkan histogram rata-rata sampel yang dihasilkan dari 1000 sampel acak berukuran 30. Meskipun populasi asalnya tidak normal (eksponensial dan miring), distribusi rata-rata sampel tampak lebih simetris dan mendekati bentuk normal. Nilai-nilai rata-rata juga terkumpul di sekitar mean populasi (garis merah).

Artinya, grafik ini memperlihatkan bahwa Central Limit Theorem bekerja: rata-rata sampel akan mengikuti distribusi normal ketika jumlah sampel cukup banyak, meskipun populasi aslinya tidak normal.

Video 4: Proporsi Sampel

2.4.1 Definisi Proporsi dan Simbol

Proporsi dalam statistika menjelaskan pecahan dari hasil yang menguntungkan (favorable outcomes) dibandingkan dengan keseluruhan total.

Konsep Proporsi Sampel dan Populasi:

Konsep Proporsi dalam Statistika
Konsep Simbol Definisi
Proporsi Populasi \(P\) Proporsi hasil yang menguntungkan dalam seluruh populasi.
Proporsi Sampel \(\hat{P}\) (P-hat) Proporsi hasil yang menguntungkan yang dihitung dari satu sampel.
Rumus Proporsi \(\frac{\text{Jumlah Hasil Menguntungkan}}{\text{Total Jumlah Hasil}}\) Proporsi adalah perbandingan antara jumlah keberhasilan dibagi total observasi.

2.4.2. Distribusi Sampling Proporsi Sampel

Distribusi Sampling Proporsi Sampel adalah distribusi dari statistik \(\hat{P}\) yang dibuat dengan mengambil sampel acak berulang kali dari populasi dan menghitung \(\hat{P}\) untuk setiap sampel, lalu memplot semua nilai \(\hat{P}\) tersebut.

2.4.3. Karakteristik Distribusi \(\hat{P}\)

Jika distribusi sampling proporsi sampel ( \(\hat{P}\) ) berdistribusi normal (sesuai CLT), ia memiliki tiga karakteristik utama:

Karakteristik Distribusi Sampling Proporsi Sampel
Karakteristik Rumus Keterangan
Rata-rata (\(\mu_{\hat{P}}\)) \(\mu_{\hat{P}} = P\) Rata-rata dari semua proporsi sampel (\(\hat{P}\)) adalah sama dengan proporsi populasi (\(P\)).
Standar Deviasi (Standard Error) \(\sigma_{\hat{P}} = \sqrt{\frac{P(1-P)}{n}}\) \(\sigma_{\hat{P}}\) disebut Standard Error. Di sini, \(Q = 1-P\) (proporsi hasil yang tidak berhasil), dan \(n\) adalah ukuran sampel.
Z-score \(Z = \frac{\hat{P} - P}{\sigma_{\hat{P}}}\) Rumus ini digunakan untuk menstandardisasi nilai \(\hat{P}\) dan menghitung area (probabilitas) menggunakan tabel Z-score.

2.4.4 Syarat Penerapan Teorema Batas Pusat (CLT)

Berbeda dengan distribusi rata-rata sampel (di mana syaratnya adalah \(n \geq 30\)), Distribusi Sampling Proporsi Sampel harus memenuhi dua kondisi agar dapat dianggap normal dan CLT dapat diterapkan:

\(n \cdot P \geq 10\) (Jumlah perkiraan keberhasilan dalam sampel harus minimal 10).

\(n \cdot (1-P) \geq 10\) (Jumlah perkiraan kegagalan dalam sampel juga harus minimal 10).

Jika kedua syarat ini terpenuhi, distribusi \(\hat{P}\) dapat dianggap normal, dan rumus Z-score di atas dapat digunakan.

Video 5: Tinjauan Distribusi Sampel

2.5.1 Probabilitas Dasar (Menggunakan Ruang Sampel)

Metode ini digunakan ketika jumlah percobaan (\(n\)) sangat kecil dan mudah untuk didaftarkan semua kemungkinan hasilnya (ruang sampel).

– Contoh Soal: Mengambil 3 kelereng secara acak dari stoples (200 hijau, 300 biru). Berapa probabilitas mendapatkan setidaknya 2 kelereng hijau?

– Penyelesaian: Karena \(n=3\) kecil, probabilitas dihitung dengan mendaftarkan semua kombinasi yang mungkin (misalnya, Hijau-Hijau-Biru atau HHB) dan menjumlahkan probabilitasnya.

– Kelemahan: Metode ini menjadi tidak praktis jika jumlah percobaan (\(n\)) meningkat.

2.5.2 Distribusi Binomial (Menggunakan Rumus Binomial)

Metode ini digunakan ketika jumlah percobaan (\(n\)) sedang dan terlalu besar untuk mendaftarkan ruang sampel, tetapi masih terlalu kecil untuk menggunakan aproksimasi normal (CLT).

– Rumus Binomial: Menghitung probabilitas mendapatkan jumlah keberhasilan (\(k\)) yang tepat dari \(n\) percobaan.

– Contoh Soal: Mengambil 5 kelereng secara acak. Berapa probabilitas mendapatkan setidaknya 2 kelereng hijau?

– Penyelesaian: Probabilitas yang dicari adalah \(P(k=2) + P(k=3) + P(k=4) + P(k=5)\). Setiap bagian probabilitas harus dihitung secara terpisah menggunakan rumus binomial.

– Kelemahan: Metode ini menjadi tidak praktis (membutuhkan perhitungan berulang) jika \(n\) sangat besar.

2.5.3 Distribusi Sampling Proporsi Sampel (Aproksimasi Normal/CLT)

Metode ini digunakan ketika jumlah percobaan (\(n\)) sangat besar, sehingga metode Binomial menjadi tidak efisien. Metode ini memberikan probabilitas perkiraan (approximate probability).

– Contoh Soal: Mengambil 100 kelereng. Berapa perkiraan probabilitas mendapatkan setidaknya 35 kelereng hijau?

– Penyelesaian:

1.Cek Syarat CLT: Harus memenuhi \(n \cdot P \geq 10\) dan \(n \cdot (1-P) \geq 10\). Dalam contoh ini, \(n=100\) dan \(P=0.4\), sehingga kedua syarat terpenuhi (\(40 \geq 10\) dan \(60 \geq 10\)).

2.Hitung Z-score: Gunakan rumus standardisasi untuk proporsi: \(Z = \frac{\hat{P} - P}{\sigma_{\hat{P}}}\).

3.Cari Probabilitas: Gunakan nilai Z-score yang dihasilkan dan tabel Z-score untuk menemukan area (probabilitas) yang diinginkan.

– Keunggulan: Metode tercepat dan paling efisien untuk \(n\) yang besar, tetapi perlu diingat bahwa hasilnya adalah perkiraan, bukan nilai probabilitas yang eksak.

Refrensi

Refrensi Buku

Judul Buku Penulis Utama Fokus Materi Link Informasi
Statistical Methods for the Social Sciences Alan Agresti & Barbara Finlay Konseptual, Inferensial, dan Terapan. Link Pearson/Google Books
Statistics for Business and Economics David R. Anderson, et al. Aplikasi, Bisnis, dan Ekonomi. Link Google Books
Metode Statistika Sudjana Referensi Lokal (Indonesia), Dasar & Komprehensif. Link UPT. PERPUSTAKAAN (Deskripsi)
Probability and Statistical Inference Robert V. Hogg, et al. Teoritis, Probabilitas, dan Statistika Matematika. Link Pearson (TOC & Deskripsi)