Assigment ~ week 11
STATISTIKA
SAINS DATA ~ ITSB
7 Probability Distributions
Distribusi probabilitas adalah fungsi matematika yang menggambarkan bagaimana probabilitas (peluang) suatu kejadian tersebar di antara semua hasil yang mungkin dari suatu variabel acak. Probabilitas tidak hanya membantu kita memahami seberapa besar kemungkinan suatu peristiwa terjadi, tetapi juga membentuk dasar dari banyak metode statistik yang digunakan untuk pengambilan keputusan.
7.1 Continuous Random
7.1.1 Discrete Variables
Variabel diskrit adalah variabel yang nilainya dapat dihitung (countable) dan biasanya berupa bilangan bulat atau angka terpisah.
Sifat Utama: Nilainya terbatas atau dapat dihitung.
Contoh:
Jumlah anak dalam keluarga (misalnya, 0, 1, 2, 3). Anda tidak mungkin memiliki 0.73 anak.
Skor ujian (misalnya, 5 dari 10).
Jumlah uang di rekening bank ($420.69). Meskipun ada desimal, nilainya tetap merupakan jumlah yang terbatas dan terhitung.
Representasi Visual: Distribusi probabilitas variabel diskrit biasanya disajikan menggunakan Diagram Batang (Bar Chart). Diagram ini memiliki celah antar batang untuk menunjukkan bahwa setiap hasil adalah entitas yang terpisah dan tidak ada kontinuitas di antaranya.
7.1.2 Continuous Variables
Variabel kontinu adalah variabel yang nilainya dapat mengambil nilai numerik apa pun dalam rentang tertentu.
Sifat Utama: Datanya diperoleh melalui pengukuran (bukan perhitungan), sehingga nilainya tidak terbatas (infinite) dan tidak dapat dihitung (uncountable).
Contoh:
Usia: Anda bisa mengukur usia hingga 23 tahun, 6 bulan, 2 hari, 3 detik, 8 milidetik, dan seterusnya, yang menunjukkan kemungkinan nilai yang tak terbatas.
Berat: Berat seseorang bisa 150.305482… pound, yang dapat diukur hingga titik desimal mana pun.
Suhu dan Jarak.
Representasi Visual: Distribusi probabilitas variabel kontinu disajikan menggunakan Histogram. Histogram tidak memiliki celah antar batang untuk mencerminkan kontinuitas data tersebut.
7.1.3 Probabilitas Variabel Kontinu
Untuk variabel kontinu, probabilitas tidak dapat dihitung untuk satu titik nilai spesifik (karena jumlah kemungkinannya tak terhingga), melainkan dihitung untuk suatu rentang hasil.
Kurva Kepadatan (Density Curve): Variabel kontinu direpresentasikan menggunakan kurva kepadatan.
Probabilitas = Luas di Bawah Kurva: Probabilitas atau proporsi pengamatan suatu rentang hasil diwakili oleh luas di bawah kurva kepadatan (Area Under the Curve).
Distribusi Normal: Formula yang digunakan untuk variabel kontinu terkait dengan kurva kepadatan, terutama Distribusi Normal (Normal Distribution), karena distribusi ini juga merupakan kurva kepadatan.
7.2 Sampling Distributions
7.2.1 Perbedaan Kunci: Sampel vs. Sampling
Penting untuk membedakan antara tiga jenis distribusi:
1. Population Distribution: Distribusi yang dibuat dengan mengukur setiap individu tunggal dalam populasi (contoh: mengukur tinggi semua orang di Bumi).
- Memiliki Rata-rata (\(\mu\)) dan Simpangan Baku (\(\sigma\)).
2. Sample Distribution: Distribusi yang dibuat dengan mengukur setiap individu tunggal dalam satu sampel yang diambil dari populasi.
- Melibatkan pengambilan satu sampel tunggal dari populasi dan menginterpretasikan data.
3. Sampling Distribution: Adalah distribusi dari suatu statistik (misalnya rata-rata/mean, \(\bar{x}\)) yang dibuat dari berbagai sampel acak sederhana yang ditarik berulang kali dari populasi tertentu.
- Pada dasarnya, ini adalah sekumpulan besar nilai rata-rata sampel (\(\bar{x}\)) yang ditumpuk di atas satu sama lain.
7.2.2 Karakteristik Distribusi Sampling Rata-Rata (\(\bar{x}\))
Ketika Distribusi Sampling dibuat dari banyak rata-rata sampel (\(\bar{x}\)), ia memiliki sifat-sifat yang menarik:
Bentuk Distribusi: Jika datanya cukup banyak, Distribusi Sampling rata-rata akan cenderung berdistribusi normal (kurva berbentuk lonceng).
Pemusatan (Mean): Rata-rata dari semua rata-rata sampel (\(\mu_{\bar{x}}\)) akan sama dengan rata-rata populasi (\(\mu\)) yang asli.
\[\mu_{\bar{x}} = \mu\]
- Penyebaran (Standard Error): Penyebaran atau Standard Deviation dari Distribusi Sampling (\(\sigma_{\bar{x}}\)) akan selalu lebih kecil daripada Standard Deviation populasi (\(\sigma\)). Hal ini karena nilai rata-rata sampel cenderung kurang bervariasi daripada nilai-nilai individu.
7.2.3 Proses Pembuatan Distribusi Pengambilan Sampel
Untuk membuat Distribusi Pengambilan Sampel dari rata-rata sampel (\(\bar{x}\)), langkah-langkahnya adalah:
1. Tentukan populasi yang diminati (misalnya, tinggi badan).
2. Ambil sampel acak sederhana berukuran n (misalnya \(n=5\)).
3. Hitung rata-rata (\(\bar{x}\)) untuk sampel tersebut.
4. Plot nilai \(\bar{x}\) tersebut ke dalam histogram.
5. Ulangi seluruh proses ini ratusan dan ribuan kali dengan mengambil sampel baru, menghitung \(\bar{x}\), dan memplotnya.
7.3 Central Limit Theorem
7.3.1 Konsep Dasar Distribusi Sampling
Definisi: Distribusi sampling dibuat dengan cara mengambil sampel secara berulang kali dari suatu populasi, menghitung statistik (seperti rata-rata sampel, \(\bar{x}\)) untuk setiap sampel, dan kemudian memplot nilai-nilai statistik tersebut untuk membentuk suatu distribusi.
Tujuan dari proses ini adalah untuk memahami bagaimana statistik sampel berperilaku dari satu sampel ke sampel berikutnya.
7.3.2 Definisi dan Pernyataan Teorema Limit Pusat (CLT)
Teorema Limit Pusat adalah salah satu konsep paling penting dalam statistik inferensial:
Prediksi Bentuk: CLT memprediksi bentuk distribusi sampling berdasarkan ukuran sampel (\(n\)).
Prinsip Utama: CLT menyatakan bahwa jika ukuran sampel (\(n\)) cukup besar, maka distribusi sampling dari rata-rata sampel (\(\bar{x}\)) akan menjadi hampir normal (berbentuk lonceng).
Dampak: Hal menakjubkan dari CLT adalah distribusi sampling akan menjadi normal, terlepas dari bentuk distribusi populasi aslinya (bahkan jika populasi awalnya miring/skewed, seragam, atau bentuk lainnya).
7.3.3 Visualisasi dan Mekanisme CLT
Ketika sampel diambil berulang kali, rata-rata sampel (\(\bar{x}\)) cenderung terkumpul di sekitar rata-rata populasi yang sebenarnya (\(\mu\)).
Meskipun beberapa sampel mungkin memiliki \(\bar{x}\) yang jauh dari \(\mu\), sebagian besar nilai \(\bar{x}\) akan berada di dekat \(\mu\).
Ketika semua nilai \(\bar{x}\) ini diplot, tumpukan nilai \(\bar{x}\) membentuk distribusi yang berdistribusi normal, meskipun populasi aslinya miring.
7.3.4. Aturan Ukuran Sampel (\(n\))
Aturan Praktis: Umumnya, aman untuk menerapkan CLT ketika ukuran sampel (\(n\)) lebih besar dari atau sama dengan 30 (\(n \ge 30\)).
Mengapa \(n \ge 30\)? Ukuran sampel yang kecil (\(n < 30\)) akan menghasilkan lebih banyak variabilitas, kurangnya presisi dan keandalan, serta risiko lebih besar untuk mendapatkan sampel yang tidak biasa secara kebetulan [04:48].
7.3.5 Kegunaan CLT
CLT sangat berguna untuk analisis data skala besar karena:
- Dengan mengetahui bahwa distribusi sampling akan berdistribusi normal, para ahli statistik dapat menggunakan rumus dan metode yang terkait dengan distribusi normal untuk menafsirkan data dan melakukan inferensi.
Ada satu pengecualian di mana CLT dapat diterapkan meskipun ukuran sampelnya kecil (\(n < 30\)):
- Jika distribusi populasi yang Anda ambil sampelnya sudah berdistribusi normal sejak awal, maka distribusi sampling juga akan normal, bahkan dengan ukuran sampel yang kecil.
Meskipun demikian, dalam praktiknya, ukuran sampel yang besar (\(n \ge 30\)) tetap disarankan untuk menghasilkan perkiraan yang lebih presisi.
7.4 Sample Proportion
7.4.1 Konsep Dasar Distribusi Sampling
Distribusi sampling adalah distribusi yang dibuat dengan cara:
Mengambil sampel berulang kali dari suatu populasi.
Menghitung statistik (seperti rata-rata sampel \(\bar{x}\) atau proporsi sampel \(\hat{p}\)) untuk setiap sampel.
Menggabungkan semua statistik tersebut ke dalam sebuah grafik untuk membentuk suatu distribusi.
7.4.2 Proporsi dalam Statistika
Proporsi menjelaskan pecahan dari hasil yang menguntungkan (variabel yang sedang dipelajari, seperti mata hijau atau skor ujian) dibandingkan dengan keseluruhan populasi atau sampel.
Formula Proporsi:
\[\text{Proporsi} = \frac{\text{Jumlah hasil yang menguntungkan}}{\text{Jumlah total hasil}}\]
Simbol Penting:
Proporsi Populasi: Dilambangkan dengan \(p\).
Proporsi Sampel: Dilambangkan dengan \(\hat{p}\) (dibaca P-hat).
7.4.3 Distribusi Sampling Proporsi Sampel
Distribusi sampling proporsi sampel adalah distribusi dari statistik \(\hat{p}\) yang diperoleh dari pengambilan sampel acak berulang kali.
Karena setiap sampel acak dapat menghasilkan nilai \(\hat{p}\) yang berbeda, distribusi ini menggambarkan variasi nilai \(\hat{p}\) yang mungkin muncul. Distribusi ini memiliki nilai rata-rata (\(\mu_{\hat{p}}\)) dan simpangan baku (\(\sigma_{\hat{p}}\)).
7.4.4 Sifat-sifat Distribusi Proporsi Sampel (Jika Normal)
Jika distribusi sampling dari proporsi sampel adalah normal dan mengikuti Teorema Batas Pusat (CLT), maka ada tiga sifat penting:
1. Rata-rata Distribusi (\(\mu_{\hat{p}}\))
Rata-rata dari semua proporsi sampel (\(\hat{p}\)) adalah sama dengan proporsi populasi (\(p\)).
\[\mu_{\hat{p}} = p\] 2. Simpangan Baku Distribusi
(\(\sigma_{\hat{p}}\)):Simpangan baku dari distribusi (\(\sigma_{\hat{p}}\)) dihitung dengan formula:
\[\sigma_{\hat{p}} = \sqrt{\frac{p Q}{n}} \text{ atau } \sqrt{\frac{p(1-p)}{n}}\]
Di mana:
\(n\) = Ukuran sampel
\(p\) = Proporsi hasil berhasil
\(Q\) = Proporsi hasil tidak berhasil, di mana \(Q = 1 - p\)
3. Standarisasi (Z-Score)
Karena distribusinya normal (jika memenuhi syarat CLT), kita dapat menggunakan formula z-score untuk proporsi untuk menghitung area (probabilitas) di bawah kurva normal.
\[Z = \frac{\hat{p} - p}{\sigma_{\hat{p}}} \text{ atau } Z = \frac{\hat{p} - p}{\sqrt{\frac{p(1-p)}{n}}}\] 4. Syarat Penerapan Teorema Batas Pusat (CLT)
Agar distribusi sampling proporsi sampel (\(\hat{p}\)) dapat dianggap normal dan z-score dapat digunakan, harus memenuhi dua kondisi:
\(n \times p \geq 10\)
\(n \times (1 - p) \geq 10\)
Jika kedua kondisi ini terpenuhi, maka CLT dapat diterapkan, dan tabel z-score dapat digunakan untuk perhitungan probabilitas.
7.5 Review Sampling Distribution
7.5.1 Probabilitas Dasar dan Ruang Sampel (Untuk \(n\) kecil)
Contoh pertama menunjukkan cara menghitung probabilitas dengan memetakan seluruh hasil yang mungkin (ruang sampel).
Kasus Soal (Tarik 3 kali): Terdapat toples berisi 200 kelereng hijau dan 300 kelereng biru (total 500). Jika sebuah kelereng ditarik tiga kali dengan pengembalian, berapa probabilitas menarik minimal dua kelereng hijau?
Probabilitas Sukses (Hijau): \(P = 200 / 500 = 0.4\)
Probabilitas Gagal (Biru): \(1 - P = 300 / 500 = 0.6\)
Penyelesaian:
Probabilitas “minimal dua hijau” berarti probabilitas mendapatkan tepat dua hijau ATAU tepat tiga hijau.
1. Probabilitas Tepat Dua Hijau: Terdapat tiga cara untuk mendapatkan dua hijau (H-H-B, H-B-H, B-H-H).
Setiap urutan memiliki probabilitas: \(0.4 \times 0.4 \times 0.6 = 0.096\) [02:03].
Total Probabilitas Tepat Dua Hijau: \(3 \times 0.096 = 0.288\).
2. Probabilitas Tepat Tiga Hijau: Hanya ada satu cara (H-H-H).
- Probabilitas: \(0.4 \times 0.4 \times 0.4 = 0.064\).
Hasil Akhir:
Probabilitas minimal dua hijau \(= 0.288 + 0.064 = \mathbf{0.352}\).
7.5.2. Distribusi Binomial (Untuk \(n\) sedang)
Jika jumlah percobaan (\(n\)) meningkat (misalnya, menjadi 5 kali), menggunakan ruang sampel menjadi tidak praktis. Dalam kasus ini, Formula Binomial digunakan untuk menghitung probabilitas jumlah sukses (\(k\)) yang tepat.
Kasus Soal (Tarik 5 kali): Jika kelereng ditarik lima kali dengan pengembalian, berapa probabilitas menarik minimal dua kelereng hijau?
Metode: Probabilitas minimal dua hijau dihitung dengan menjumlahkan probabilitas tepat dua, tepat tiga, tepat empat, dan tepat lima kelereng hijau.
Formula Binomial digunakan untuk menghitung setiap probabilitas \(P(k)\) secara terpisah.
Hasil Akhir:
Setelah menghitung \(P(k=2) + P(k=3) + P(k=4) + P(k=5)\) menggunakan formula binomial, total probabilitasnya adalah \(\mathbf{0.6634}\).
7.5.3. Distribusi Sampling Proporsi Sampel dan Teorema Batas Pusat (Untuk \(n\) besar)
Jika jumlah percobaan (\(n\)) sangat besar (misalnya, 100 kali), menggunakan formula binomial juga menjadi tidak praktis. Solusinya adalah menggunakan Distribusi Sampling Proporsi Sampel dengan mengaplikasikan Teorema Batas Pusat (TBP).
- Kasus Soal (Tarik 100 kali): Jika kelereng ditarik 100 kali, berapa perkiraan probabilitas menarik minimal 35 kelereng hijau?
Langkah-langkah Penyelesaian dengan TBP:
1. Cek Kondisi TBP: TBP dapat diterapkan jika dua kondisi terpenuhi:
\(n \times P \ge 10\): \(100 \times 0.4 = 40\) (Memenuhi)
\(n \times (1-P) \ge 10\): \(100 \times 0.6 = 60\) (Memenuhi)
2. Standardisasi (Z-score): Karena kondisi terpenuhi, distribusi mendekati normal, dan kita dapat menggunakan Z-score untuk proporsi:
\(Z = \frac{\text{Proporsi Sampel} (p̂) - \text{Proporsi Populasi} (P)}{\text{Standar Deviasi Proporsi}}\)
Proporsi Sampel (\(p̂\)) = \(35 / 100 = 0.35\)
Proporsi Populasi (\(P\)) = \(0.4\)
Z-score yang dihitung adalah \(-1.02\).
3. Tentukan Probabilitas: Nilai Z-score \(-1.02\) memiliki area di sebelah kiri sebesar \(0.1539\).
- Karena yang ditanyakan adalah probabilitas “minimal 35” (area ke kanan), maka dihitung: \(1 - 0.1539 = \mathbf{0.8461}\).
Kesimpulan:
Menggunakan Teorema Batas Pusat akan menghasilkan probabilitas perkiraan (approximate probability), bukan probabilitas yang pasti (exact probability).
Untuk probabilitas yang pasti, Anda harus menggunakan Formula Binomial atau Ruang Sampel, tetapi itu tidak mungkin dilakukan untuk \(n\) yang sangat besar.
REFERENSI
geeksforgeeks (11 Januari 2021) Distribution Probability https://stats.libretexts.org/Bookshelves/Introductory_Statistics/Introductory_Statistics_(Shafer_and_Zhang)/05%3A_Continuous_Random_Variables
Rinaldi Munir, Institut Teknologi Bandung, Distribusi Peluang kontinu https://informatika.stei.itb.ac.id/~rinaldi.munir/Probstat/2010-2011/Distribusi%20Peluang%20Kontinu.pdf
Central limit theorem: the cornerstone of modern statistics — bisa diakses di DOAJ / PubMed Central. - Sang Gyu Kwak dan Jong Hae Kim 21 Februari 2021). https://pubmed.ncbi.nlm.nih.gov/28367284/