Tugas Week 11 ~ Probability Distribution
Chandra Rizal Alamsyah
Student Majoring in Data Science at ITSB
1 Probability Distribution
Pengambilan keputusan yang optimal di bawah ketidakpastian adalah tantangan sentral dalam berbagai disiplin ilmu, mulai dari analisis risiko finansial hingga pemodelan keandalan teknis. Distribusi Probabilitas berfungsi sebagai alat fundamental, menyediakan kerangka kerja matematis yang esensial untuk mengkuantifikasi, memodelkan, dan mengelola sifat stokastik dari fenomena di dunia nyata. Meskipun distribusi klasik seperti Normal dan Binomial telah dipelajari secara luas, keterbatasan mereka dalam memodelkan perilaku ekor tebal (heavy-tailed) dan asimetri data menyoroti perlunya eksplorasi model alternatif yang lebih fleksibel. Memahami bentuk, parameter, dan penerapan model distribusi adalah kunci untuk statistik inferensial yang kuat, memungkinkan kita untuk membuat peramalan yang kredibel dan menarik kesimpulan yang valid.
1.1 Continuous Random
Video tersebut memberikan pengantar mendasar mengenai probabilitas variabel kontinu dengan membandingkannya secara langsung dengan variabel diskrit. Variabel diskrit adalah variabel yang hanya dapat mengambil nilai yang dapat dihitung (countable), seperti jumlah kepala saat melempar koin atau skor ujian; distribusi probabilitasnya disajikan menggunakan Diagram Batang (Bar Chart) yang memiliki celah. Sebaliknya, variabel kontinu adalah variabel yang dapat mengambil nilai numerik apa pun dalam rentang tertentu, menjadikannya tidak terbatas dan tidak dapat dihitung (uncountable). Contohnya adalah pengukuran berat, usia, atau suhu, yang dapat diukur hingga titik desimal tak terbatas. Karena sifatnya yang tidak terbatas, probabilitas variabel kontinu disajikan menggunakan Histogram (tanpa celah) atau Kurva Kepadatan (Density Curve). Probabilitas dihitung sebagai area di bawah kurva kepadatan untuk suatu rentang hasil, dan distribusi kontinu yang paling penting adalah Distribusi Normal.
1.1.1 Variabel Acak
Definisi dan KarakteristikVariabel Acak Kontinu (\(X\)) adalah variabel acak yang dapat mengambil semua nilai dalam suatu interval atau selang tertentu pada skala kontinu. Ruang sampel (himpunan semua nilai yang mungkin) dari variabel acak kontinu adalah tidak terhitung (uncountable) atau setidaknya tidak terbatas, meskipun mungkin terbatas pada suatu rentang.
Contoh-contoh variabel acak kontinu meliputi :
Waktu yang dibutuhkan untuk menyelesaikan suatu tugas.
Tinggi, berat, atau suhu benda.
Jarak tempuh atau kedalaman suatu lokasi.
Karakterristik Utama :
- Nilai dalam Interval (Tak Terhitung)
- Definisi Nilai: Variabel acak kontinu dapat mengambil seluruh nilai dalam suatu interval atau rentang tertentu pada garis bilangan riil.
- Ruang Sampel: Ruang sampelnya tak terhingga banyaknya dan tidak dapat dihitung satu per satu (\(\text{uncountable}\)).
Contoh: Mengukur waktu (dapat berupa 1.5 jam, 1.501 jam, 1.5000001 jam, dst.).
- Peluang pada Titik Tunggal Adalah Nol
Peluang Titik Spesifik: Peluang variabel acak kontinu mengambil tepat satu nilai spesifik adalah nol, yaitu:\[\mathbf{P(X = x) = 0}\]
Implikasi: Peluang hanya bermakna jika dihitung untuk suatu rentang atau interval nilai. Oleh karena itu, tanda kesamaan (\(\leq\) atau \(<\)) tidak memengaruhi peluang interval: \(P(a \leq X \leq b) = P(a < X < b)\).
- Dinyatakan dengan Fungsi Kepadatan Peluang (PDF)
Fungsi Utama: Distribusi peluangnya dijelaskan menggunakan Fungsi Kepadatan Peluang (\(\text{Probability Density Function/PDF}\)), yang dilambangkan dengan \(\mathbf{f(x)}\).
Kurva Kontinu: Grafik \(f(x)\) adalah kurva kontinu yang selalu berada di atas sumbu-x, karena peluang tidak pernah negatif.
- Perhitungan Peluang Menggunakan Integral
Peluang sebagai Luas Area: Peluang bahwa variabel acak \(X\) jatuh dalam suatu interval \([a, b]\) dihitung sebagai luas daerah di bawah kurva \(f(x)\) dalam interval tersebut, yang didapatkan melalui proses integrasi.\[\mathbf{P(a < X < b) = \int_{a}^{b} f(x) \, dx}\]
- Syarat Fungsi Kepadatan Peluang Fungsi \(f(x)\) hanya dapat disebut Fungsi Kepadatan Peluang jika memenuhi dua syarat berikut:
Non-Negatif: Nilai fungsi harus selalu positif atau nol untuk semua \(x\):\[\mathbf{f(x) \geq 0}\]
Total Area Sama dengan Satu: Luas total di bawah kurva \(f(x)\) untuk seluruh nilai yang mungkin harus sama dengan 1:\[\mathbf{\int_{-\infty}^{\infty} f(x) \, dx = 1}\]
1.1.2 Fungsi Kepadatan Peluang (Probability Density Function/PDF)
Karena variabel acak kontinu dapat mengambil nilai tak terhingga dalam suatu interval, peluang variabel tersebut mengambil tepat satu nilai spesifik adalah nol, yaitu \(P(X = x) = 0\). Oleh karena itu, sebaran peluangnya tidak dapat disajikan dalam bentuk tabel seperti variabel acak diskrit, melainkan dinyatakan dalam bentuk rumus yang disebut Fungsi Kepadatan Peluang (\(f(x)\)).
Fungsi kepadatan peluang \(f(x)\) dari variabel acak kontinu \(X\) didefinisikan pada himpunan semua bilangan riil \(R\), dengan memenuhi dua syarat utama:
\(f(x) \geq 0\) untuk semua \(x \in R\).
Total area di bawah kurva \(f(x)\) sama dengan 1. Secara matematis, ini dinyatakan sebagai: \[\int_{-\infty}^{\infty} f(x) \, dx = 1\]
1.1.3 Perhitungan Peluang
Peluang bahwa variabel acak kontinu \(X\) mengambil nilai dalam suatu interval tertentu, misalnya antara \(a\) dan \(b\) (\(P(a < X < b)\)), dihitung dengan menghitung luas area di bawah kurva fungsi kepadatan peluang \(f(x)\) dari \(a\) hingga \(b\).
Secara matematis, ini dinyatakan sebagai: \[P(a < X < b) = \int_{a}^{b} f(x) \, dx\]
- Penting: Karena \(P(X = a) = 0\), maka \(P(a \leq X \leq b) = P(a < X < b) = P(a \leq X < b) = P(a < X \leq b)\).
1.1.4 Fungsi Distribusi Kumulatif (Cumulative Distribution Function/CDF)
Fungsi Distribusi Kumulatif (\(F(x)\)) dari variabel acak kontinu \(X\) didefinisikan sebagai peluang bahwa \(X\) akan mengambil nilai yang kurang dari atau sama dengan \(x\): \[F(x) = P(X \leq x)\]
CDF diperoleh dari integrasi PDF: \[F(x) = \int_{-\infty}^{x} f(t) \, dt\]
Dengan menggunakan CDF, peluang suatu interval dapat dihitung dengan: \[P(a < X < b) = F(b) - F(a)\]
1.1.5 Distribusi Peluang Kontinu Umum
Beberapa jenis distribusi peluang kontinu yang sering dipelajari dan diterapkan meliputi:
Distribusi Normal: Distribusi yang paling penting dan paling sering digunakan. Memiliki kurva berbentuk lonceng dan dicirikan oleh rata-rata (\(\mu\)) dan simpangan baku (\(\sigma\)).
Distribusi Seragam (Uniform): Distribusi di mana semua nilai dalam interval tertentu memiliki kepadatan peluang yang sama.
Distribusi Eksponensial: Sering digunakan untuk memodelkan waktu tunggu antar peristiwa dalam suatu proses, misalnya waktu kegagalan suatu sistem.Distribusi Gamma, Chi-Kuadrat, dan F: Digunakan dalam berbagai aplikasi inferensi statistik.
1.2 Sampling Distribution
Distribusi sampling (Sampling Distribution) merupakan distribusi probabilitas dari suatu statistik sampel, seperti rata-rata, proporsi, atau varians, yang terbentuk ketika diambil banyak sampel acak berukuran n dari populasi yang sama. Konsep ini menjelaskan bagaimana nilai suatu statistik dapat berubah-ubah dari satu sampel ke sampel lainnya. Meskipun dalam praktik kita biasanya hanya mengamati satu sampel, distribusi sampling memungkinkan kita memahami pola variasi tersebut, sehingga menjadi dasar penting dalam proses inferensi statistik, termasuk estimasi parameter populasi dan pengujian hipotesis.
Karakteristik distribusi sampling dipengaruhi oleh beberapa faktor, antara lain ukuran sampel, variabilitas populasi, dan metode pengambilan sampel yang digunakan. Sebagai contoh, distribusi sampling dari rata-rata sampel memiliki sebuah ukuran penting bernama standard error, yaitu besaran yang menunjukkan seberapa jauh rata-rata sampel mungkin menyimpang dari rata-rata populasi sebenarnya. Semakin besar ukuran sampel, semakin kecil standard error, dan semakin stabil nilai rata-rata sampel tersebut.
Selain itu, ketika populasi berdistribusi normal dan sampel diambil secara acak, distribusi sampling dari rata-rata sampel akan cenderung mengikuti distribusi normal—terutama bila ukuran sampel cukup besar. Hal ini dijelaskan oleh Teorema Limit Tengah (Central Limit Theorem), yang memungkinkan para peneliti menggunakan teknik-teknik inferensi statistik meskipun distribusi awal populasi tidak normal.
Video ini menjelaskan konsep Distribusi Sampling sebagai fondasi untuk inferensi statistik, dengan membandingkannya dengan Distribusi Populasi dan Distribusi Sampel.
1.2.1 Perbedaan Tiga Jenis Distribusi
| Jenis_Distribusi | Definisi | Statistik_Digambarkan |
|---|---|---|
| JENIS DISTRIBUSI | DEFINISI | STATISTIK DIGAMBARKAN |
| Distribusi Populasi | Distribusi yang dibuat dengan mengukur setiap individu dalam populasi. | Variabel Individual (X) |
| Distribusi Sampel | Distribusi yang dibuat dengan mengukur setiap individu dalam satu sampel tunggal dari populasi. | Variabel Individual (X) |
| Distribusi Sampling | Distribusi dari statistik (misalnya, rata-rata x̄) yang di buat dari berkali-kali pengambilan sampel acak dari populasi yang sama. | Statistik Sampel (Rata-rata x̄) |
1.2.2 Proses Pembentukan Distribusi Sampling
Distribusi Sampling dibuat melalui proses berulang (ratusan hingga ribuan kali):
- Ambil sampel acak sederhana (\(\mathbf{n}\)) dari populasi.
- Hitung rata-rata sampel (\(\mathbf{\bar{x}}\)) dari sampel tersebut.
- Plot nilai \(\bar{x}\) tersebut ke dalam histogram.
- Ulangi langkah 1-3 berkali-kali.
Jika data yang dikumpulkan cukup banyak, Distribusi Sampling akan cenderung berbentuk Distribusi Normal
1.2.3 Perbandingan Karakteristik (Populasi vs. Sampling)
Video ini menyoroti perbedaan utama dalam rata-rata dan standar deviasi antara Distribusi Populasi dan Distribusi Sampling dari Rata-Rata Sampel (\(\bar{X}\)):
| Karakteristik | Populasi_X | Sampling_X_Bar |
|---|---|---|
| KARAKTERISTIK | POPULASI X | SAMPLING X BAR |
| Rata-Rata (Mean) | μ (Rata-rata Populasi) | μx̄ = μ (Sama dengan populasi) |
| Standar Deviasi (SD) | σ (SD Populasi) | σx̄ = σ / √n (Standard Error) |
| Variabilitas | Lebih tinggi (Karena berdasarkan observasi individu) | Lebih rendah (Karena berdasarkan rata-rata, yang kurang bervariasi) |
| Rumus Standardisasi (Z) | Z = (x - μ) / σ | Z = (x̄ - μ) / (σ / √n) |
1.2.4 Pentingnya Distribusi Sampling
Tujuan utama menggunakan Distribusi Sampling adalah karena alasan kenyamanan dan efisiensi:
- Efisiensi: Memungkinkan untuk mendapatkan gambaran tentang rata-rata populasi (\(\mu\)) tanpa harus mengukur setiap individu dalam populasi (yang sering kali mustahil), seperti mengukur tinggi badan seluruh manusia di Bumi.
- Probabilitas: Memungkinkan untuk menghitung probabilitas mendapatkan hasil sampel tertentu berdasarkan ukuran sampel (\(n\)).
Contoh Soal (Penerapan)Video ini menyajikan dua contoh perhitungan probabilitas menggunakan rumus standardisasi (Z-score) untuk membedakan kapan menggunakan distribusi populasi dan kapan menggunakan distribusi sampling:
- Soal Sampling Distribution: Menghitung probabilitas bahwa rata-rata tinggi badan dari 10 orang Kanada kurang dari 157 cm. (Menggunakan \(\sigma/\sqrt{n}\)) * Soal Population Distribution: Menghitung proporsi semua orang yang memiliki tinggi badan lebih besar dari 170 cm. (Menggunakan \(\sigma\) tanpa pembagian \(\sqrt{n}\)).
1.3 Central Limit Theorem
Central Limit Theorem (CLT) menyatakan bahwa ketika banyak sampel acak berukuran \(n\) diambil dari suatu populasi, distribusi dari rata-rata sampel (\(\bar{x}\)) akan cenderung mengikuti distribusi normal, meskipun distribusi populasi awalnya tidak normal. Hal ini menunjukkan bahwa normalitas akan muncul secara alami dalam distribusi rata-rata sampel selama ukuran sampel cukup besar. Karena itu, CLT menjadi dasar dari sebagian besar metode inferensi statistik.
Video ini membahas secara mendalam konsep Teorema Limit Pusat (CLT), yang merupakan aturan fundamental dalam statistik inferensial, yang berfungsi untuk memprediksi bentuk Distribusi Sampling.
1.3.1 Definisi dan Fungsi CLT
Definisi CLT: Teorema Limit Pusat memprediksi bentuk dari Distribusi Sampling Rata-Rata Sampel (\(\mathbf{\bar{X}}\)) berdasarkan ukuran sampel (\(\mathbf{n}\)). *Inti Teorema: Jika ukuran sampel (\(n\)) cukup besar, maka Distribusi Sampling dari rata-rata sampel (\(\bar{X}\)) akan selalu mendekati Distribusi Normal, terlepas dari bentuk asli Distribusi Populasi.
1.3.2 Visualisasi dan Penjelasan Logis
Video ini memberikan visualisasi untuk menjelaskan mengapa distribusi yang semula miring (skewed) dapat berubah menjadi normal:
- Populasi Awal Miring: Jika populasi memiliki distribusi yang miring (tidak normal), sebagian besar titik data berasal dari wilayah yang padat (bulk) pada kurva populasi.
- Rata-Rata Sampel Cenderung ke \(\mu\): Ketika sampel diambil berulang kali, rata-rata setiap sampel (\(\bar{x}\)) cenderung berada di dekat rata-rata populasi yang sebenarnya (\(\mu\)) karena probabilitasnya lebih tinggi.
- Normalitas: Ketika semua rata-rata sampel (\(\bar{x}\)) ini dikumpulkan dan diplot, mereka akan menumpuk di sekitar \(\mu\) dengan penyebaran yang simetris, sehingga membentuk Distribusi Normal.
1.3.3 Aturan Praktis (Rule of Thumb)
CLT memberikan kondisi yang harus dipenuhi agar asumsi normalitas pada distribusi sampling dapat digunakan:
| Kondisi | Bentuk_Populasi | Bentuk_Distribusi_Sampling |
|---|---|---|
| KONDISI | BENTUK POPULASI | BENTUK DISTRIBUSI SAMPLING |
| n ≥ 30 (Ukuran Sampel Besar) | Bentuk Apapun (Termasuk Miring/Skewed) | Mendekati Normal (CLT Berlaku) |
| n < 30 (Ukuran Sampel Kecil) DAN Populasi Normal | Normal | Normal (CLT Berlaku) |
| n < 30 (Ukuran Sampel Kecil) DAN Populasi Tidak Normal | Tidak Normal (Miring/Skewed, dsb.) | Tidak Normal (Gunakan t-Distribution atau metode non-parametrik) |
Penting: Meskipun \(n < 30\) dan populasi sudah normal menghasilkan distribusi sampling yang normal secara matematis, dalam praktik statistik, ukuran sampel yang kecil tetap menghasilkan estimasi yang kurang presisi atau kurang andal.
1.3.4 Kegunaan CLT
Central Limit Theorem memiliki kegunaan penting dalam statistika karena memungkinkan berbagai metode analisis tetap valid meskipun distribusi populasi tidak diketahui. Dengan CLT, rata-rata sampel dapat diasumsikan mengikuti distribusi normal ketika ukuran sampel cukup besar. Hal ini memungkinkan penggunaan uji hipotesis, perhitungan interval kepercayaan, dan estimasi parameter secara lebih akurat. Selain itu, CLT menjadi dasar bagi banyak metode komputasi seperti simulasi Monte Carlo dan bootstrap, yang memanfaatkan sifat konvergensi distribusi sampling menuju normal. Berkat CLT, sampel dapat digunakan untuk mewakili karakteristik populasi dengan lebih baik dan mendukung pengambilan keputusan berbasis data. Dan yang pasti CLT ini sangat berguna untuk menganalisis set data besar karena:
- Mengizinkan Formula Normal: Dengan mengetahui bahwa distribusi sampling akan normal, kita dapat menggunakan semua formula dan alat analisis yang terkait dengan Distribusi Normal (seperti Z-score) untuk menginterpretasikan data dan menghitung probabilitas.
- Inferensi Akurat: CLT memungkinkan kita membuat inferensi yang akurat tentang parameter populasi hanya dari sampel.
1.3.5 Rumus-Rumus Kunci Teorema Limit Pusat (CLT)
Teorema Limit Pusat (CLT) adalah aturan yang memungkinkan kita menggunakan Distribusi Normal untuk menganalisis Distribusi Sampling Rata-Rata Sampel (\(\bar{X}\)), asalkan ukuran sampel (\(n\)) cukup besar (\(n \geq 30\)).
| Parameter | Simbol | Rumus | Deskripsi |
|---|---|---|---|
| PARAMETER | SIMBOL | RUMUS | DESKRIPSI |
| Rata-rata Distribusi Sampling | \(\mu_{\bar{x}}\) | \[\mu_{\bar{x}} = \mu\] | Rata-rata dari semua rata-rata sampel sama dengan rata-rata populasi (\(\mu\)). |
| Standard Error (SD Distribusi Sampling) | \(\sigma_{\bar{x}}\) | \[\sigma_{\bar{x}} = \frac{\sigma}{\sqrt{n}}\] | Ukuran penyebaran rata-rata sampel. Variabilitas ini selalu lebih kecil dari \(\sigma\) populasi dan berkurang seiring peningkatan \(n\). |
| Z-Score (Standardisasi Rata-Rata Sampel) | \(Z\) | \[Z = \frac{\bar{x} - \mu}{\sigma_{\bar{x}}} \quad \text{atau} \quad Z = \frac{\bar{x} - \mu}{\sigma/\sqrt{n}}\] | Nilai yang digunakan untuk mengubah rata-rata sampel (\(\bar{x}\)) menjadi skor standar (Z-score) untuk mencari probabilitas menggunakan tabel Distribusi Normal Baku. |
1.4 Sample Proportion
Proporsi sampel adalah rasio atau bagian dari elemen dalam sebuah sampel yang memiliki karakteristik tertentu — misalnya “sukses”, “setuju”, “positif”, atau “memenuhi kriteria.” Jika dari sampel terdiri dari \(n\) individu, dan \(x\)di antaranya memiliki karakteristik yang dicari, maka proporsi sampel dilambangkan dengan \[\mathbf{\hat{p} = \frac{x}{n}}\] Proporsi sampel ini digunakan sebagai estimasi proporsi populasi (sering dilambangkan \(p\)). Karena sampel diambil secara acak dari populasi, \(\mathbf{\hat{p}}\) bisa berbeda dari \(p\), tetapi dengan analisis sampling dan teori statistika — termasuk ukuran sampel yang cukup besar — \(\mathbf{\hat{p}}\) menjadi alat yang valid untuk memperkirakan karakteristik populasi secara keseluruhan. Dengan demikian, proporsi sampel memainkan peran penting dalam survei, penelitian opini, survei kesehatan, penelitian sosial, dan berbagai bidang lain di mana peneliti harus menarik kesimpulan tentang populasi berdasarkan sampel terbatas.
Video ini menjelaskan bagaimana distribusi statistik proporsi sampel (\(\hat{p}\)) terbentuk dan bagaimana Teorema Limit Pusat (CLT) diterapkan untuk melakukan analisis inferensial terkait data kategori atau biner (sukses/gagal).
1.4.1 Konsep DasarProporsi
- (\(p\) dan \(\hat{p}\)): Proporsi adalah fraksi hasil yang menguntungkan dibandingkan dengan keseluruhan.
- Proporsi Populasi (\(p\)): Proporsi untuk keseluruhan populasi.
- Proporsi Sampel (\(\hat{p}\)): Proporsi yang dihitung dari satu sampel. \[\hat{p} = \frac{\text{Jumlah Hasil Menguntungkan (X)}}{\text{Ukuran Sampel (n)}}\]
- Distribusi Sampling Proporsi: Distribusi yang dibuat dengan mengambil sampel acak berulang kali, menghitung nilai \(\hat{p}\) untuk setiap sampel, dan memplot semua nilai \(\hat{p}\) tersebut.
1.4.2 Rumus dan Parameter Distribusi
Jika kondisi CLT terpenuhi, Distribusi Sampling Proporsi akan mendekati Distribusi Normal dan memiliki parameter sebagai berikut:
| Parameter | Simbol | Rumus Matematis | Deskripsi |
|---|---|---|---|
| PARAMETER | SIMBOL | RUMUS MATEMATIS | DESKRIPSI |
| Rata-Rata (Mean) Distribusi Sampling | \(\mu_{\hat{p}}\) | \(\mathbf{\mu_{\hat{p}} = p}\) | Rata-rata dari semua proporsi sampel (\(\hat{p}\)) sama dengan proporsi populasi (\(p\)) yang sebenarnya |
| Standard Error Proporsi | \(\sigma_{\hat{p}}\) | \(\mathbf{\sigma_{\hat{p}} = \sqrt{\frac{p(1-p)}{n}}}\) | Ini adalah standar deviasi dari distribusi sampling proporsi. \(q\) di definisikan sebagai \((1-p)\). |
1.4.3 Kondisi Penerapan CLT untuk Proporsi
Agar Distribusi Sampling Proporsi dapat diasumsikan Normal dan Z-score dapat digunakan, Teorema Limit Pusat mensyaratkan dua kondisi (berbeda dengan rata-rata yang hanya mensyaratkan \(n \geq 30\)):
- Jumlah Sukses Harus Cukup Besar: \[n \times p \geq 10\]
- Jumlah Gagal Harus Cukup Besar: \[n \times (1-p) \geq 10\]
Jika kedua kondisi ini terpenuhi, CLT dapat diterapkan.
1.4.4 Rumus Standardisasi (Z-Score)
Rumus ini digunakan untuk mengubah nilai proporsi sampel (\(\hat{p}\)) menjadi skor standar (\(Z\)) agar kita dapat menghitung peluang menggunakan Tabel Distribusi Normal Baku (Z-table), asalkan syarat CLT terpenuhi (\(\mathbf{np \geq 10}\) dan \(\mathbf{n(1-p) \geq 10}\)).\[Z = \frac{\hat{p} - p}{\sigma_{\hat{p}}}\] Karena Standard Error Proporsi (\(\sigma_{\hat{p}}\)) memiliki rumus spesifik, Z-score juga dapat ditulis secara lengkap sebagai:\[Z = \frac{\hat{p} - p}{\sqrt{\frac{p(1-p)}{n}}}\]
Keterangan simbol
| Simbol | Deskripsi |
|---|---|
| SIMBOL | DESKRIPSI |
| \(Z\) | Skor Standar (Z-score) |
| \(\mathbf{\hat{p}}\) | Proporsi Sampel (Nilai yang diuji) |
| \(\mathbf{p}\) | Proporsi Populasi (Rata-rata Distribusi Sampling) |
| \(\mathbf{\sigma_{\hat{p}}}\) | Standard Error Proporsi |
| \(n\) | Ukuran Sampel |
1.4.5 Kegunaan Proporsi Sampel dalam Inferensi
Dengan memahami distribusi sampling proporsi, kita dapat:
- Menghitung interval kepercayaan untuk proporsi populasi berdasarkan hasil sampel. Misalnya menghitung rentang di mana kita yakin (misalnya 95% yakin) bahwa proporsi populasi berada di antara dua batas tertentu.
- Melakukan pengujian hipotesis terkait proporsi — misalnya menguji apakah proporsi populasi sama dengan nilai tertentu, atau apakah dua kelompok memiliki proporsi berbeda.
- Mengambil keputusan atau generalisasi dari data sampel ke populasi dengan tingkat ketidakpastian yang terukur.
Dengan demikian, proporsi sampel menjadi alat penting dalam survei, penelitian sosial, survei kesehatan, polling opini, dan banyak bidang lain di mana kita mengevaluasi populasi dari sebagian sampel.
1.5 Review Sampling Distribution
Pada dasar nya vidio tersebut berisikan ulasan (review) dengan menggunakan contoh soal untuk membedakan kapan menggunakan perhitungan Probabilitas Dasar, Distribusi Binomial, dan Distribusi Sampling Proporsi (Pendekatan Normal).
Dan materi inti pada video didasarkan pada contoh pengambilan kelereng (marbles) dari toples:
Total kelereng = 500 (200 Hijau (Sukses) dan 300 Biru (Gagal)).
Proporsi Sukses (Populasi, \(p\)):\(p\)=200/500=0.4.
Proporsi Gagal \((q)\):\(q\)=1−\(p\)=0.6.
1.5.1 Probabilitas Dasar (Small Sample Size)
Untuk ukuran sampel yang sangat kecil (misalnya, \(n\)=3), probabilitas dapat dihitung secara manual menggunakan ruang sampel (sample space) dan aturan perkalian probabilitas.
Contoh: Jika kelereng diambil 3 kali, hitung \(P\)(paling sedikit 2 Hijau).
Metode: Menghitung probabilitas setiap urutan hasil (misalnya GGB, GBG, BGG) dan menjumlahkannya.
Penting: Metode ini sangat tidak efisien jika jumlah percobaan \((n)\) meningkat.
1.5.2 Distribusi Binomial (Moderate Sample Size)
Untuk ukuran sampel sedang (misalnya, \(n\)=5), di mana perhitungan ruang sampel menjadi terlalu panjang, digunakan Rumus Distribusi Binomial.
Fungsi: Rumus Binomial menghitung probabilitas eksak dari jumlah keberhasilan \((k)\) tertentu dalam \(n\) percobaan.
Aplikasi: Untuk menghitung \(P\)(paling sedikit 2 Hijau), Anda harus menghitung \(P(k=2)+P(k=3)+P(k=4)+P(k=5)\) secara terpisah menggunakan rumus Binomial, lalu menjumlahkan hasilnya.
Kelemahan: Meskipun memberikan probabilitas yang eksak, metode ini menjadi tidak praktis ketika n menjadi sangat besar (misalnya, \(n\)=100) karena Anda harus melakukan puluhan atau ratusan perhitungan terpisah.
1.5.3 Distribusi Sampling Proporsi (Normal Approximation / CLT)
Ketika ukuran sampel \((n)\) sangat besar (misalnya, \(n\)=100), digunakan Distribusi Sampling Proporsi dengan Pendekatan Normal berdasarkan Teorema Limit Pusat (CLT). Metode ini memberikan probabilitas perkiraan (approximate probability).
A. Syarat Aplikasi CLT (Proporsi) Sebelum menggunakan pendekatan Normal, dua kondisi harus dipenuhi: [06:39]
Sukses: \(n×p≥10\)
Gagal: \(n×(1−p)≥10\)
Dalam contoh \((n=100,p=0.4)\):
\(n×p=100×0.4=40\) (Memenuhi)
\(n×(1−p)=100×0.6=60\) (Memenuhi)
B. Rumus Standardisasi Z-score Karena CLT berlaku, Distribusi Sampling Proporsi diasumsikan normal. Untuk mencari peluang, nilai proporsi sampel (\(\hat{p}\)) dikonversi menjadi Z-score: \[\mathbf{Z = \frac{\hat{p} - p}{\sqrt{\frac{p(1-p)}{n}}}}\]
- Contoh: Untuk mencari \(P\)(paling
sedikit 35 Hijau), kita konversi
\(\hat{p} = 35/100 = 0.35\)menjadi Z-score, dan mencari area di bawah kurva Normal .
C. Kesimpulan Perbedaan Metode
| Metode | n / Kondisi | Hasil Probabilitas |
|---|---|---|
| METODE | n / KONDISI | HASIL PROBABILITAS |
| Probabilitas Dasar (Ruang Sampel) | Sangat kecil (\(n \approx 3\)) | Eksak |
| Distribusi Binomial (Rumus) | Sedang (\(n \approx 5\) hingga 20) | Eksak |
| Distribusi Sampling Proporsi (CLT/Z-score) | Besar (\(n \ge 30\), dan \(np, nq \ge 10\)) | Perkiraan (Approximate) |
2 Reference
- Sebaran Peluang Acak Kontinu, Distribusi Normal, Distribusi Normal Baku, Distribusi T, Distribusi Chi Square, dan Distribusi F - Pratikno, A. S., et al. (2020)
- Continuous Random Variable - Hewson, Paul
- Distribusi Peluang Kontinu - Rinaldi Munir
- A Case Study of Promoting Informal Inferential Reasoning in Learning Sampling Distribution for High School Students - Setyani & Kristanto (2020)
- Asymptotic Analysis of Sampling Estimators for Randomized Numerical Linear Algebra Algorithms - Ma, Zhang, Xing, dkk. (2020)
- Analisis Distribusi Sampling Rata-Rata untuk Mengevaluasi Performa Peserta Ujian - Adhitya & Parhusip (2024)
- Analisis Kesalahan Mahasiswa dalam Menyelesaikan Soal Distribusi Sampling Beda Dua Proporsi Berdasarkan Prosedur Newman - Pinahayu, Awaaludin, dkk. (2025)
- Central limit theorem: the cornerstone of modern statistics — bisa diakses di DOAJ / PubMed Central. - Sang Gyu Kwak dan Jong Hae Kim.
- Introduction to the Practice of Statistics — David S. Moore, George P. McCabe, dan Bruce A. Craig. Edisi ke-8. Statistics — Robert S. Witte & John S. Witte. Edisi ke-9. Probability and Statistical Inference — Robert V. Hogg & Elliot Tanis. Edisi ke-9.
- Moore, McCabe & Craig — Introduction to the Practice of Statistics (Edisi ke-8)
- Witte & Witte — Statistics (Edisi ke-9)
- Hogg & Tanis — Probability and Statistical Inference (Edisi ke-9)