Tugas Week 11 ~ Probability Distribution

foto almamater

1 Pendahuluan

Statistika adalah ilmu yang bertujuan untuk menarik kesimpulan yang andal mengenai karakteristik suatu populasi besar hanya dengan menganalisis sebagian kecil darinya yang disebut sampel. Untuk mencapai tujuan ini, kita harus melalui serangkaian konsep yang saling terhubung secara logis.

  1. Fondasi Dasar: Mengenal Data dan Peluang

Analisis dimulai dengan mengenali jenis data: apakah data tersebut Variabel Diskrit (diperoleh dengan menghitung, nilainya terpisah) atau Variabel Kontinu (diperoleh dengan mengukur, nilainya tak terhingga dalam rentang tertentu). Klasifikasi ini menentukan model probabilitas yang akan digunakan. Selanjutnya, kita menerapkan aturan Probabilitas, khususnya membedakan antara Kejadian Mandiri (tidak saling memengaruhi) dan Kejadian Bergantung (saling memengaruhi), untuk menghitung peluang dasar.

  1. Inti Analisis: Distribusi Sampling dan CLT

Setelah fondasi terbentuk, kita beralih ke inti statistika inferensial, yaitu Distribusi Sampling. Konsep ini berfungsi sebagai jembatan yang menghubungkan statistik yang diukur dari sampel (seperti \(\bar{x}\) dan \(\hat{p}\)) dengan parameter populasi yang sebenarnya (\(\mu\) dan p). Efektivitas Distribusi Sampling dijamin oleh Teorema Limit Pusat (CLT). CLT memberikan kepastian bahwa, selama ukuran sampel (n) cukup besar, bentuk Distribusi Sampling akan selalu berbentuk Distribusi Normal, terlepas dari bentuk asli populasi.

  1. Aplikasi dan Tujuan Akhir

Dengan adanya jaminan bentuk Normal dari CLT, kita dapat menggunakan alat yang standar (seperti Z-score) untuk:

• Menghitung Standard Error (\(\sigma_{\bar{x}}\) atau \(\sigma_{\hat{p}}\)) untuk mengukur variabilitas sampel.

• Menggunakan pendekatan Normal untuk Distribusi Binomial dan Proporsi Sampel saat n besar.

• Melakukan Inferensi dengan menghitung probabilitas spesifik atau membangun Selang Kepercayaan (Confidence Interval)—semuanya untuk memperkirakan karakteristik populasi secara akurat.

Seluruh rangkaian materi ini menunjukkan transisi yang kuat dari deskripsi data sederhana menuju pengambilan keputusan dan kesimpulan ilmiah yang berbasis pada probabilitas.

2 Distribusi Probabilitas

Apa itu Distribusi Probabilitas?

Ketika kita melakukan suatu eksperimen atau mengamati suatu fenomena yang bisa “menghasilkan” banyak kemungkinan hasil (misalnya: tinggi badan seseorang, atau waktu yang dibutuhkan untuk menyelesaikan tugas), kita bisa menggunakan variabel acak (random variable) untuk menggambarkan hasil-hasil itu.

Namun, kita tidak hanya ingin tahu kemungkinan sebuah nilai tertentu saja — kita juga ingin tahu “sebaran” dari semua kemungkinan nilai itu: seberapa besar kemungkinan variabel acak mengambil nilai di satu rentang, dibandingkan rentang lain. Nah, distribusi probabilitas adalah cara formal untuk menjelaskan “bagaimana probabilitas didistribusikan” ke tiap-tiap nilai atau rentang nilai.

2.1 Acak Berkelanjutan

Video ini membahas perbedaan mendasar antara dua jenis variabel utama dalam statistika dan probabilitas: Variabel Diskrit (Discrete Variables) dan Variabel Kontinu (Continuous Variables). Pemahaman ini sangat penting karena cara menghitung probabilitas dan menggambar kedua jenis variabel ini sangat berbeda.

2.1.1 Variabel Diskrit (Dapat Dihitung)

Variabel Diskrit adalah variabel yang hanya dapat mengambil sejumlah nilai yang dapat dihitung (countable), biasanya bilangan bulat, dalam suatu rentang. • Definisi: Nilai-nilainya terpisah dan terbatas. Kita bisa menyebutkan satu per satu nilai yang mungkin, tanpa ada nilai di antaranya.

• Cara Memperoleh Data: Diperoleh melalui proses menghitung (counting).

• Contoh Sehari-hari:

• Jumlah anak dalam sebuah keluarga (hanya mungkin 0, 1, 2, 3, dst., tidak mungkin 2,5 anak).

• Jumlah sisi “Angka” saat melempar koin sebanyak empat kali (hanya mungkin 0, 1, 2, 3, atau 4).

• Nilai uang di rekening bank (meskipun ada desimal, jumlahnya tetap terbatas dan dapat dihitung, seperti 420 dolar dan 69 sen).

• Visualisasi: Biasanya direpresentasikan menggunakan Diagram Batang (Bar Chart) dengan celah di antara setiap batang, menunjukkan bahwa tidak ada kontinuitas di antara nilai-nilai tersebut.

2.1.2 Variabel Kontinu (Dapat Diukur)

Variabel Kontinu adalah variabel yang dapat mengambil nilai apa pun di dalam rentang tertentu. Secara teori, jumlah nilainya tak terbatas (infinite) dan tidak dapat dihitung.

• Definisi: Nilai-nilainya mengalir secara mulus dalam suatu skala. Kita selalu dapat menemukan nilai di antara dua nilai yang sudah ada.

• Cara Memperoleh Data: Diperoleh melalui proses mengukur (measuring).

• Contoh Sehari-hari:

• Usia: Seseorang tidak hanya berusia 23 tahun atau 24 tahun, tetapi bisa 23 tahun, 6 bulan, 2 hari, 3 detik, dan seterusnya hingga detail waktu yang tak terhingga.

• Berat Badan atau Tinggi Badan: Nilai dapat mencakup banyak angka desimal (misalnya 150.305482 kg).

• Suhu atau Jarak.

• Visualisasi: Direpresentasikan menggunakan Histogram (batang yang tanpa celah untuk menunjukkan kontinuitas) atau Kurva Kepadatan (Density Curve).

• Probabilitas: Untuk variabel kontinu, kita tidak dapat mencari probabilitas untuk satu titik nilai tertentu (misalnya, probabilitas berat badan tepat 75.000000 kg). Sebaliknya, probabilitas dihitung sebagai luas area di bawah Kurva Kepadatan dalam suatu rentang nilai. Kurva Normal adalah salah satu contoh Kurva Kepadatan yang paling umum.

2.2 Distribusi Sampel

Video ini menjelaskan sebuah konsep fundamental dalam statistika inferensial: Distribusi Sampling. Konsep ini adalah jembatan yang memungkinkan peneliti mengambil kesimpulan tentang populasi besar hanya dengan menganalisis sampel kecil.

2.2.1 Memahami Tiga Jenis Distribusi

Agar dapat memahami Distribusi Sampling, kita perlu membedakannya dari dua jenis distribusi lainnya:

• Distribusi Populasi: Distribusi yang dibuat jika kita mengukur semua individu dalam suatu populasi (misalnya, mengukur tinggi semua 8 miliar penduduk bumi). Distribusi ini memiliki rata-rata \((\mu)\) dan simpangan baku \((\sigma)\).

• Distribusi Sampel: Distribusi yang dibuat dari hasil pengukuran satu sampel tunggal yang diambil dari populasi tersebut. Rata-rata sampel \((\bar{x})\) ini mungkin berbeda dari rata-rata populasi \((\mu)\).

• Distribusi Sampling (DS): Ini adalah distribusi yang dibuat dari nilai statistik yang sama (misalnya, nilai rata-rata \(\bar{x}\)) yang dihitung dari banyak sampel acak berulang yang diambil dari populasi yang sama.

2.2.2 Proses Pembentukan dan Sifat Kunci

Distribusi Sampling dibentuk dengan langkah-langkah berikut:

  1. Ambil sampel acak berukuran n (misalnya n=10) dari populasi.
  2. Hitung statistik (misalnya, rata-rata, \(\bar{x}\)) dari sampel tersebut.
  3. Ulangi langkah 1 dan 2 berkali-kali (ratusan hingga ribuan kali).
  4. Plot semua nilai \(\bar{x}\) tersebut menjadi sebuah histogram. Hasilnya adalah Distribusi Sampling.

Sifat Matematika Distribusi Sampling (untuk rata-rata \(\bar{x}\)):

Tabel 2. Sifat Kunci Distribusi Sampling
Karakteristik Distribusi Populasi Distribusi Sampling (\(\bar{x}\)) Penjelasan
Rata-rata (Mean) \(\mu\) \(\mu_{\bar{x}} = \mu\) Rata-rata dari semua rata-rata sampel sama dengan rata-rata populasi.
Simpangan Baku (Standard Deviation) \(\sigma\) \(\sigma_{\bar{x}} = \frac{\sigma}{\sqrt{n}}\) Disebut Standard Error. Nilainya selalu lebih kecil dari pada \(\sigma\) populasi, yang berarti Distribusi Sampling lebih sempit atau tidak terlalu menyebar. Ini karena rata-rata sampel cenderung kurang bervariasi dari pada data individu.

2.2.3 Pentingnya dan Contoh Sehari-hari

Tujuan Utama:

Distribusi Sampling sangat penting karena menawarkan kemudahan dan efisiensi. Daripada menghabiskan waktu, biaya, dan tenaga untuk mengukur seluruh populasi, kita bisa menggunakan Distribusi Sampling dari sampel berulang untuk memperkirakan nilai \(\mu\) populasi dan menghitung probabilitas hasil tertentu.

Contoh Relevan dalam Kehidupan Sehari-hari:

  1. Survei Opini Publik (Quick Count):

Ketika sebuah lembaga survei ingin memprediksi hasil pemilihan (populasi pemilih), mereka tidak perlu menghitung setiap suara. Mereka mengambil banyak sampel acak dari berbagai TPS, menghitung rata-rata proporsi pemilih di setiap sampel, dan menggabungkan rata-rata ini untuk membentuk Distribusi Sampling. Distribusi ini memberikan perkiraan yang akurat dan cepat mengenai rata-rata populasi pemilih, lengkap dengan margin error (yang diwakili oleh Standard Error, \(\sigma_{\bar{x}}\)).

  1. Kontrol Kualitas Produk:

Sebuah pabrik ingin memastikan rata-rata berat produk keripik kentang mereka adalah 150 gram. Daripada menimbang semua produk (populasi), Quality Control (QC) mengambil 10 bungkus (sampel) setiap jam, menghitung rata-ratanya, dan memplotnya ke dalam Distribusi Sampling. Jika rata-rata sampel ini berada di luar batas Distribusi Sampling yang normal (yang telah dipersempit oleh \(\sigma_{\bar{x}}\)), maka proses produksi dianggap bermasalah.

2.3 Teorema Limit Pusat

Video ini membahas salah satu konsep paling fundamental dan paling kuat dalam dunia statistika inferensial, yaitu Teorema Limit Pusat (Central Limit Theorem atau CLT).

Teorema ini adalah landasan utama mengapa kita bisa mengambil kesimpulan yang valid tentang populasi yang sangat besar hanya dengan menganalisis sampel kecil.

2.3.1 Inti dari Teorema Limit Pusat

Teorema Limit Pusat (TLP) adalah sebuah prediksi luar biasa mengenai bentuk dari Distribusi Sampling. TLP menyatakan bahwa:

Jika kita mengambil sampel acak yang cukup besar (n besar) secara berulang kali dari sebuah populasi, maka Distribusi Sampling dari rata-rata sampel (\(\bar{x}\)) akan selalu mendekati Distribusi Normal (berbentuk lonceng), terlepas dari apa pun bentuk asli (original) dari Distribusi Populasi tersebut.

Sederhananya, meskipun data asli dari populasi (misalnya, penghasilan masyarakat yang cenderung menceng/skewed) memiliki bentuk yang aneh, rata-rata dari banyak sampel yang kita ambil dari populasi itu akan selalu membentuk kurva normal yang indah.

2.3.2 Aturan Praktis (Rule of Thumb)

Kunci agar TLP dapat berlaku adalah ukuran sampel (n). Kapan ukuran sampel dianggap “cukup besar”?

• Aturan Umum:

Secara umum, TLP dianggap aman untuk diterapkan ketika ukuran sampel (n) lebih besar atau sama dengan 30 (n \(\geq\) 30).

• Kasus Pengecualian:

Jika Distribusi Populasi Anda memang sudah berdistribusi Normal sejak awal, maka Distribusi Sampling juga akan Normal, bahkan jika ukuran sampelnya kecil (n < 30). Namun, dalam praktik, ukuran sampel yang besar (n \(\geq\) 30) tetap disarankan untuk memastikan estimasi yang lebih presisi dan andal.

2.3.3 Pentingnya dan Contoh Sehari-hari

TLP adalah alasan utama statistika inferensial (pengambilan kesimpulan) bekerja:

• Penyederhanaan Analisis: Setelah kita tahu bahwa Distribusi Sampling kita berbentuk Normal, kita dapat menggunakan semua alat dan rumus yang dikembangkan untuk Distribusi Normal (seperti perhitungan Z-score dan tabel normal) untuk menghitung probabilitas dan membuat Interval Kepercayaan (Confidence Intervals).

• Estimasi Populasi: TLP memungkinkan kita membuat kesimpulan tentang rata-rata populasi (\(\mu\)) tanpa perlu mengukur setiap individu, sehingga menghemat waktu dan biaya.

Contoh Kasus: Estimasi Waktu Tunggu Layanan Publik

Bayangkan kita adalah manajer layanan pelanggan di bank. Kita tahu bahwa waktu tunggu nasabah di teller memiliki distribusi yang sangat menceng (skewed)—sebagian besar nasabah dilayani cepat, tetapi ada beberapa yang harus menunggu sangat lama karena masalah kompleks.

• Populasi: Waktu tunggu semua nasabah (Distribusi Skewed).

• Penerapan CLT: Anda mengambil 50 sampel berulang (misalnya, setiap sampel terdiri dari n=40 nasabah) setiap hari dan mencatat rata-rata waktu tunggu setiap sampel.

• Hasil: Berdasarkan TLP (karena n=40 sudah besar/\(\geq\) 30), jika Anda memplot semua rata-rata sampel ini, distribusinya akan berbentuk Distribusi Normal yang sempurna.

Dengan mengetahui bahwa Distribusi Samplingnya normal, kita bisa dengan mudah menghitung: “Berapa probabilitas rata-rata waktu tunggu nasabah besok akan melebihi 15 menit?” Hal ini memungkinkan kita mengambil keputusan operasional yang akurat.

2.4 Proporsi Sampel

Video ini menjelaskan mengenai Distribusi Sampling Proporsi Sampel (Sampling Distribution of the Sample Proportion). Konsep ini penting untuk membuat kesimpulan tentang persentase atau bagian tertentu dari populasi, seperti persentase pemilih atau proporsi produk cacat.

Konsep ini pada dasarnya adalah perpanjangan dari Distribusi Sampling, tetapi alih-alih berurusan dengan nilai rata-rata (\(\bar{x}\)), kita berurusan dengan Proporsi Sampel (\(\hat{p}\)), yaitu persentase dari suatu kejadian.

2.4.1 Definisi Proporsi dan Proporsi Sampel

Proporsi Populasi (p): Bagian dari seluruh populasi yang memiliki karakteristik tertentu (misalnya, proporsi seluruh penduduk Indonesia yang memiliki smartphone). Nilai ini biasanya tidak diketahui.

Proporsi Sampel (\(\hat{p}\)): Dihitung dari sampel kecil, yaitu jumlah hasil yang menguntungkan (X) dibagi dengan ukuran sampel (n).

\(\hat{p}\) = \(\frac{\text{Jumlah Hasil Favorable } (X)}{\text{Ukuran Sampel } (n)}\)

Distribusi Sampling Proporsi (\(\hat{p}\)): Jika kita mengambil banyak sampel acak berulang dari populasi yang sama, menghitung \(\hat{p}\) dari setiap sampel, dan memplotnya, kita akan mendapatkan Distribusi Sampling Proporsi.

2.4.2 Sifat Kunci Distribusi Sampling Proporsi

Jika kondisi-kondisi tertentu terpenuhi (yaitu, Central Limit Theorem berlaku), Distribusi Sampling Proporsi akan mendekati Distribusi Normal. Sifat-sifat statistiknya adalah:

Tabel 2. Sifat Kunci Distribusi Sampling Proporsi
Karakteristik Rumus Penjelasan
Rata-rata (Mean) \(\mu_{\hat{p}} = p\) Rata-rata dari semua proporsi sampel (\(\hat{p}\)) akan sama dengan proporsi populasi yang sebenarnya (\(p\)).
Simpangan Baku (Standard Error) \(\sigma_{\hat{p}} = \sqrt{\frac{p(1-p)}{n}}\) Ini mengukur sebaran \(\hat{p}\). Nilainya bergantung pada proporsi populasi (\(p\)) dan ukuran sampel (\(n\)).

2.4.3 Syarat Penerapan Central Limit Theorem(CLT)

Agar Distribusi Sampling Proporsi dapat dianggap Normal (dan kita bisa menggunakan tabel Z-score), ada dua syarat ketat yang harus dipenuhi:

  1. n \(\cdot\) p \(\geq\) 10 (Jumlah “sukses” yang diharapkan harus minimal 10).
  2. n \(\cdot\) (1-p) \(\geq\) 10 (Jumlah “gagal” yang diharapkan juga harus minimal 10).

Jika kedua syarat ini terpenuhi, barulah kita dapat menggunakan rumus Z-score untuk proporsi untuk menghitung probabilitas:

\(Z = \frac{\hat{p} - p}{\sigma_{\hat{p}}} = \frac{\hat{p} - p}{\sqrt{\frac{p(1-p)}{n}}}\)

Contoh Kasus: Survei Kepuasan Konsumen Online

Misalnya, sebuah perusahaan layanan streaming ingin mengetahui proporsi (p) pelanggan di Indonesia yang puas dengan kualitas layanan mereka. Mereka menganggap p yang sebenarnya adalah 0.80 (80%). Mereka mengambil sampel acak n=100 pelanggan.

  1. Cek Syarat CLT:

\(n \cdot p = 100 \cdot 0.80 = 80 ( \geq 10, OK)\)\(n \cdot (1-p) = 100 \cdot 0.20 = 20 ( \geq 10, OK)\) • Karena kedua syarat terpenuhi, kita dapat berasumsi Distribusi Sampling Proporsi adalah Normal.

  1. Standard Error:

\(\sigma_{\hat{p}} = \sqrt{\frac{0.80(1-0.80)}{100}} = \sqrt{\frac{0.16}{100}} = 0.04\)

  1. Pertanyaan Probabilitas:

Berapa probabilitas bahwa proporsi sampel (\(\hat{p}\)) dari 100 pelanggan ini akan di bawah 0.75 (75%)? • Menggunakan Z-score dan \(\sigma_{\hat{p}} = 0.04\), perusahaan dapat menghitung probabilitas tersebut.

Hal ini memungkinkan perusahaan membuat kesimpulan, seperti: “Jika proporsi pelanggan puas dari sampel kami turun hingga di bawah 75%, ada kemungkinan besar bahwa proporsi kepuasan di seluruh populasi telah menurun.”

2.5 Tinjauan Distribusi sampel

Video ini menjelaskan bagaimana kita memilih metode perhitungan probabilitas yang paling efisien, yang bergantung pada seberapa banyak percobaan (trial, n) yang kita lakukan. Konteks utamanya adalah kejadian biner (sukses/gagal), seperti mengambil kelereng hijau atau biru.

2.5.1 Probabilitas Dasar (Untuk Jumlah Percobaan Kecil)

Untuk jumlah percobaan (n) yang sangat kecil (misalnya n=3 atau n=4), kita dapat menghitung probabilitas dengan metode dasar:

• Metode:

Mendaftarkan semua kemungkinan hasil (sample space) (misalnya, GGB, GBG, BGG) dan menghitung probabilitas setiap urutan dengan mengalikan peluang peristiwanya.

• Contoh Sehari-hari:

Probabilitas mendapatkan dua kali menang dalam tiga kali lemparan koin. Perhitungannya bisa dilakukan secara manual karena kemungkinan urutannya sedikit.

2.5.2 Distribusi Binominal (Untuk Jumlah Percobaan sedang)

Ketika jumlah percobaan (n) bertambah (misalnya n=5 hingga n=20), metode pendaftaran semua hasil menjadi tidak efisien. Di sinilah Distribusi Binomial digunakan.

• Metode:

Distribusi Binomial menghitung probabilitas mendapatkan tepat k kali sukses dari n percobaan. Rumus ini dapat digunakan berulang kali dan hasilnya dijumlahkan untuk menjawab pertanyaan seperti “probabilitas minimal k sukses”.

• Contoh Sehari-hari:

Peluang sebuah agen pemasaran menelepon 10 calon pelanggan dan berhasil mendapatkan tepat 3 pelanggan baru, jika ia memiliki tingkat keberhasilan (proporsi sukses, p) 20%.

2.5.3 Distribusi Sampling Proporsi / Pendekatan Normal (Untuk Jumlah Percobaan Besar)

Ketika jumlah percobaan (n) sangat besar (misalnya n=100 ke atas), menggunakan rumus Binomial secara berulang (bisa ratusan kali) menjadi tidak praktis. Oleh karena itu, kita menggunakan Distribusi Sampling Proporsi dengan pendekatan Distribusi Normal.

A. Syarat Penggunaan (CLT untuk Proporsi)

Pendekatan Normal ini hanya valid jika memenuhi dua syarat Teorema Limit Pusat (CLT) untuk Proporsi:

  1. Jumlah “sukses” yang diharapkan harus cukup besar:
  2. \(n \cdot p \geq 10\)
  3. Jumlah “gagal” yang diharapkan juga harus cukup besar:
  4. \(n \cdot (1-p) \geq 10\)

B. Perhitungan

Jika kedua syarat terpenuhi, Distribusi Sampling Proporsi (\(\hat{p}\)) akan mendekati Distribusi Normal. Kita kemudian dapat menggunakan rumus Z-score untuk Proporsi untuk menghitung probabilitas perkiraan (approximate probability):

\(Z = \frac{\hat{p} - p}{\sigma_{\hat{p}}} \quad \text{di mana} \quad \sigma_{\hat{p}} = \sqrt{\frac{p(1-p)}{n}}\)

C. Contoh Relevan dalam Kehidupan Sehari-hari

• Survei Pemilu (Quick Count):

Sebuah lembaga survei mengambil sampel n=1000 pemilih. Mereka ingin tahu peluang bahwa proporsi (\(\hat{p}\)) dukungan terhadap kandidat A (yang diyakini memiliki proporsi populasi p=0.55) berada di bawah 50%.

• Karena n sangat besar, mereka tidak mungkin menggunakan Binomial.

• Mereka akan memeriksa kondisi CLT (misalnya 1000 \(\cdot\) 0.55 = 550 \(\geq\) 10, OK) dan menggunakan rumus Z-score untuk mendapatkan peluang perkiraan tersebut.

3 Kesimpulan

• Klasifikasi Data: Analisis dimulai dengan membedakan data berdasarkan cara perolehannya: Variabel Diskrit (dihitung) vs. Variabel Kontinu (diukur).

• Probabilitas Dasar: Aturan probabilitas diterapkan untuk menentukan peluang, membedakan antara hubungan Mandiri (tidak memengaruhi) dan Bergantung (saling memengaruhi).

• Jembatan Inferensi: Konsep Distribusi Sampling (Distribusi \(\bar{x}\) atau \(\hat{p}\)) digunakan untuk menghubungkan statistik yang diukur dari sampel dengan parameter populasi.

• Prinsip Kunci (CLT): Teorema Limit Pusat menjamin bahwa Distribusi Sampling akan berbentuk Distribusi Normal jika ukuran sampel (n) sudah cukup besar (n \(\geq\) 30).

• Tujuan Akhir: Asumsi Normalitas ini memvalidasi penggunaan Z-score dan Normal Approximation untuk menghitung probabilitas dan melakukan inferensi (pengambilan kesimpulan) yang akurat tentang parameter populasi yang sebenarnya.

4 Referensi Buku

  1. Statistika dan Terapannya (Dr. Epha Diana Supandi, S.Si., M.Sc):

https://www.google.com/search?q=https://refika.co.id/pendidikan/493-statistika-dan-terapanny

  1. Statistika Untuk Penelitian (Prof.Dr.Sugiyono):

https://perpus.swins.ac.id/opac/detail-opac?id=494

  1. Probability and Statistics for Engineers and Scientists (Ronald E. Walpole, et al):

https://books.google.com/books/about/Probability_and_Statistics_for_Engineers.html?hl=id&id=aOKHrgEACAAJ