Tugas Week 11 ~ Probability Distribution

Naisya

Naisya Hafizh Mufidah

NIM = 52250040

Dosen Pengampu = Mr. Bakti Siregar, M.Sc., CDS.

Institut Teknologi Sains Bandung 🔬 Data Science 📈 Basic Statistics


1 Introduction

1.1 Probability Distributions

Distribusi probabilitas menjelaskan bagaimana peluang tersebar pada setiap nilai yang dapat dihasilkan oleh suatu variabel acak. Setiap peristiwa akan mempunyai peluang masing-masing, dan peluang terjadinya peristiwa tersebut akan mempunyai penyebaran yang mengikuti suatu pola tertentu yang disebut dengan distribusi probabilitas. Distribusi probabilitas adalah bagaimana nilai probabilitas didistribusikan pada data. Melalui konsep ini, kita dapat memahami pola ketidakpastian, mempelajari bagaimana data muncul, serta memperkirakan kemungkinan suatu hasil.


Dalam bab ini, Kita akan mempelajari beberapa konsep utama, yaitu:

  • Continuous Random, menggambarkan peluang untuk nilai-nilai pada suatu rentang.
  • Sampling Distributions, yaitu pola persebaran statistik yang dihitung dari sampel.
  • Central Limit Theorem, menunjukkan bahwa rata-rata sampel cenderung mendekati distribusi normal.
  • Sample Proportion, banyak digunakan dalam penelitian dan analisis survei.

2 Material and Explaining

2.1 Continuous Random


2.1.1 Variabel Diskrit

Variabel diskrit adalah variabel yang hanya bisa memiliki nilai-nilai tertentu yang dapat dihitung jumlahnya. Variabel acak diskrit jika digambarkan pada sebuah garis interval, akan berupa sederetan titik-titik yang terpisah. Nilainya merupakan bilangan bulat dan asli, tidak berbentuk pecahan.

Ciri-ciri

  • Nilainya terpisah, bukan dalam bentuk rentang.
  • Diperoleh dari proses menghitung (counting).
  • Tidak harus bilangan bulat, tapi tetap jumlahnya terbatas atau bisa dihitung.

Contoh:

  • Jumlah kelereng biru dalam kotak.
  • Nilai ujian siswa.
  • Jumlah anak dalam keluarga.
  • Jumlah uang di rekening (meski ada desimal, nilainya tetap bisa dihitung satu per satu).

Note: Uang dianggap diskrit karena nilainya terbentuk dari satuan yang bisa dihitung (misalnya rupiah atau sen), meskipun ditulis dengan desimal.

2.1.2 Variabel Kontinu

Variabel kontinu adalah variabel yang memiliki nilai tak terhingga (infinite) antara dua nilai yang berbeda dalam rentang interval yang diamati, nilainya bisa terletak dimana saja. Variabel ini biasanya dihasilkan dari proses pengukuran, misalnya tinggi badan, berat badan, atau suhu.

Ciri-ciri

  • Nilainya mengalir terus dan tidak terpisah seperti variabel diskrit.
  • Didapat dari pengukuran, bukan hitungan.
  • Bisa memiliki desimal sebanyak apa pun, tidak ada batasnya.

Contoh

  • Berat badan ( 50 kg, 50.3 kg, 50.32 kg, dan seterusnya).
  • Usia dapat dinyatakan dalam tahun, bulan, hari, jam, bahkan detik.
  • Suhu tubuh atau suhu udara.
  • Jarak antar dua tempat.

Prinsip penting: Karena pengukuran bisa dibuat semakin rinci, nilai variabel kontinu dianggap tidak terhitung jumlahnya, atau tak hingga.

2.1.3 Representasi Visual


Diagram Batang (Bar Chart) - Variabel Diskrit


Histogram - Variabel Kontinu

Perbedaan Utama:

2.1.4 Rumus Probabilitas

- Variabel Diskrit

Untuk variabel acak diskrit, fungsi probabilitasnya disebut Fungsi Massa Probabilitas (PMF), yang didefinisikan sebagai \(P(X=x)\). Probabilitas suatu rentang nilai dihitung dengan menjumlahkan nilai PMF pada nilai-nilai yang terpisah tersebut. Bisa dihitung menggunakan rumus-rumus probabilitas karena nilai-nilainya terpisah.

Rumus-rumus Probabilitas

- \[ P(A \cap B) = P(A) \times P(B) \] - \[ P(A^c) = 1 - P(A) \]


- \[ P(A \cup B) = P(A) + P(B) - P(A \cap B) \]


- \[ P(k) = \binom{n}{k} \times p^{k} \times (1 - p)^{n-k} \]


- \[ \text{etc...} \]

- Variabel Kontinu

Distribusi probabilitas dari suatu variabel acak kontinu dijelaskan oleh Fungsi Kepadatan Probabilitas (PDF) \(f(x)\). Probabilitas bahwa variabel acak \(X\) akan berada di antara dua nilai \(a\) dan \(b\) diberikan oleh luas daerah di bawah kurva densitas dari \(a\) sampai \(b\), yang dihitung melalui integral \(\int_{a}^{b} f(x) dx\). Grafik ini membantu memvisualisasikan bagaimana suatu variabel menyebar. Pada variabel kontinu, probabilitas tidak dihitung untuk satu nilai tertentu, tetapi untuk rentang nilai, dan peluangnya ditentukan dari luas area di bawah kurva densitas pada rentang tersebut.

1. Rumus Luas Persegi / Persegi Panjang \[ A = L \times W \] Digunakan saat variabel kontinu berupa pengukuran panjang dan lebar untuk menghitung luas. Kedua nilai ini bisa berupa bilangan desimal tak hingga.

2. Rumus Luas Segitiga \[ A = \frac{b \cdot h}{2} \] Digunakan ketika variabel kontinu berupa alas (b) dan tinggi (h) yang merupakan hasil pengukuran. Karena pengukuran bersifat kontinu, nilai luas juga kontinu.

3. Rumus Z-score \[ z = \frac{x - \mu}{\sigma} \]

  - x = nilai pengamatan
  - μ = rata-rata
  - σ = simpangan baku

Rumus ini dipakai untuk mengubah nilai kontinu menjadi skala standar (Z-score)

  • \[etc\]

    masih banyak rumus lain yang juga berbasis pengukuran kontinu seperti kecepatan, volume, waktu, suhu, jarak, dll.

2.1.5 Random Variable

Untuk memahami variabel acak kontinu, kita harus tahu bagaimana probabilitasnya dihitung melalui Probability Density Function (PDF). Berbeda dengan variabel diskrit, variabel kontinu tidak memiliki probabilitas pada satu titik tertentu. Jadi, probabilitas sebuah nilai diperoleh dari luas area di bawah kurva PDF, bukan dari nilai f(x) itu sendiri.

Ciri-ciri utama

  • Nilai bisa berada dalam suatu interval, misalnya (a,b) atau bahkan (−∞,+∞).
  • Probabilitas tepat pada satu titik selalu nol: \[ P(X = x) = 0 \]
  • Yang punya makna adalah probabilitas pada rentang nilai, misalnya: \[ P(a \le X \le b) = \int_{a}^{b} f(x) \, dx \] yang dihitung dari luas di bawah kurva PDF pada interval tersebut.

2.1.6 Probability Density Funct. (PDF)

Sebuah fungsi f(x) disebut PDF jika memenuhi dua syarat:

  1. Tidak boleh negatif \[ f(x) \ge 0 \] \[ \text{untuk semua nilai x} \]
  2. Luas total di bawah kurva sama dengan 1 \[ \int_{-\infty}^{\infty} f(x)\,dx = 1 \]

Keterangan:

  • Nilai f(x) yang lebih besar berarti daerah itu punya kepadatan lebih tinggi.
  • Tapi f(x) bukan probabilitas. Probabilitas hanya diperoleh dari luas di bawah kurva pada interval tertentu.

Contoh:

\[ f(x) = 4x^3,\quad 0 < x < 1 \]

\[ \int_{0}^{1} 4x^3\,dx = 4 \left[ \frac{x^4}{4} \right]_{0}^{1} = 1 \]

Karena luas total = 1, maka fungsi ini merupakan PDF yang valid.

2.1.7 Probability on an Interval

Untuk variabel kontinu, probabilitas dihitung dari luas di bawah kurva PDF pada rentang tertentu.

Contoh: \[ f(x) = 4x^3,\quad 0 < x < 1 \] Jika \(X\) adalah variabel acak kontinu, probabilitas bahwa \(X\) akan berada di antara dua nilai \(a\) dan \(b\) diberikan oleh integral dari fungsi kepadatan probabilitas (PDF) pada interval tersebut. Secara matematis, hal ini dinyatakan sebagai: \[ P(0.5 < X < 1) = \int_{0.5}^{1} 4x^3\, dx \]

2.1.8 Cumulative Distribution Funct. (CDF)

CDF menunjukkan peluang bahwa X bernilai kurang dari z.

Didefinisikan sebagai: \[ F(x) = P(X < x) = \int_{0}^{x} 4t^3\, dt = x^4 \]

Hubungan PDF dan CDF: \[ f(x) = F'(x) \] Hubungan \(f(x) = F'(x)\) (PDF adalah turunan dari CDF) dan kebalikannya, \(F(x) = \int f(t) dt\) (CDF adalah integral dari PDF), adalah salah satu teorema dasar dalam Probabilitas Kontinu dan secara langsung merupakan aplikasi dari Teorema Dasar Kalkulus (Fundamental Theorem of Calculus).

  • PDF (\(f(x)\)): Menunjukkan tingkat perubahan (densitas) probabilitas pada setiap titik. Ini adalah laju di mana peluang terakumulasi.
  • CDF (\(F(x)\)): Menunjukkan akumulasi total probabilitas dari \(-\infty\) hingga titik \(x\).

2.2 Sampling Distributions


Sampel adalah sebagian kecil dari populasi yang kita tarik kesimpulannya.

Contoh:

Populasi 10.000 orang dengan rata-rata tinggi 5’4”

  • Sampel 1: Rata-rata tinggi 5’3”
  • Sampel 2: Rata-rata tinggi 5’7”
  • Sampel 3: Rata-rata tinggi 5’4”
Rata-rata dari tiap sampel bisa berbeda-beda. Ini normal karena ukuran sampel kecil membuat hasilnya lebih bervariasi dibandingkan rata-rata populasi yang sebenarnya. Oleh karena itu, sampel mengandung lebih sedikit informasi dan tidak selalu mewakili populasi secara akurat.

2.2.1 Perbedaan Distribusi Sampel dan Distribusi Sampling

Saat kita mengambil satu sampel dari populasi, kita hanya mendapatkan satu set data dan satu nilai statistik (misalnya rata-rata). Ini disebut distribusi sampel biasa. Sampel terdiri dari nilai-nilai observasi yang diambil dari populasi, dan distribusinya mencerminkan perilaku observasi tersebut.

Tapi ketika kita mengambil banyak sampel acak dari populasi yang sama, lalu menghitung statistiknya (seperti mean) berkali-kali, kumpulan nilai statistik itu akan membentuk pola. Pola itulah yang disebut distribusi sampling. Distribusi sampling adalah distribusi probabilitas suatu statistik yang diperoleh dari sampel berulang dengan ukuran yang sama dari suatu populasi.

1. Tentukan Populasi Misalnya kita ingin menganalisis tinggi badan suatu kelompok orang.

2. Ambil Satu Sampel Acak Berukuran n Contoh: ambil 5 orang secara acak dari populasi (n = 5).

3. Catat Nilai pada Sampel Ukur tinggi kelima orang tersebut.

4. Hitung Rata-rata Sampel Dapatkan nilai rata-rata tinggi dari sampel pertama.

5. Simpan Nilai Rata-rata

6. Ulangi Ambil sampel baru lagi (misal 500 atau 1000 kali), hitung rata-ratanya, dan simpan setiap hasilnya.

7. Buat Grafik dari Semua Rata-rata Sampel Nilai rata-rata yang terkumpul akan membentuk distribusi baru.

Jika jumlah sampel yang diambil banyak, distribusi nilai rata-rata sampel akan membentuk pola mirip distribusi normal. Ini terjadi karena Teorema Limit Sentral (Central Limit Theorem).

2.2.2 Distribusi Populasi vs Distrribusi Sampel


2.2.3 Rangkuman


- Distribusi Sampel adalah Distribusi yang dibuat untuk mengukur setiap individu dalam sampel.

- Distribusi Populasi adalah Distribusi yang dibuat untuk mengukur setiap individu dalam populasi.

- Distribusi Sampling adalah Distribusi yang mengambil sampel berulang kali dan menghitung statistik setiap sampel individu lalu menggabungkan informasi tersebut.

2.2.4 Tujuan Distribusi Sampling

Distribusi sampling berguna karena:

  • Hemat waktu dan tenaga = kita tidak perlu mengukur seluruh populasi, misal 8 miliar orang.
  • Memperkirakan parameter populasi = bisa menebak rata-rata atau standar deviasi populasi dari sampel.
  • Menghitung probabilitas = memungkinkan analisis peluang berdasarkan data sampel.

2.2.5 Contoh Soal

  1. Diketahui tinggi semua orang di kanada mengikuti distribusi normal dengan rata-rata 160 cm dan simpangan baku 7 cm. Berapa probabilitas bahwa tinggi rata-rata 10 orang kanada secara acak kurang dari 157 cm?

Diketahui:

  • μ = 160 cm
  • σ = 7 cm
  • Sampel / n = 10 orang
  • x = 157

Ditanya:

P(X̄ < 157)?

Jawab:

Karena soal menanyakan rata-rata sampel (X̄) dari 10 orang, maka ini distribusi sampling, bukan distribusi populasi. Distribusi sampling memiliki:

  • \[ μₓ̄ = μ = 160 \]

  • \[ σₓ̄ = \frac{σ}{√n} \]

    \[ \frac{7}{√10} \] \[ 2.213 \]

Jadi,

\[ \text{Z-score: } Z = \frac{\bar{X} - \mu}{\sigma_{\bar{X}}} = \frac{157 - 160}{2.213} \approx -1.36 \]

  • Lihat tabel Z-score


\[ P(\bar{X} < 157) = P(Z < -1.36) \approx 0.0869 / 8.69\% \]
  1. Diketahui tinggi semua orang di kanada mengikuti distribusi normal dengan rata-rata 160 cm dan simpangan baku 7 cm. Berapa proporsi semua orang yang memiliki tinggi lebih dari 170 cm?

Diketahui:

  • μ = 160 cm
  • σ = 7 cm

Ditanya:

Proporsi orang dengan tinggi > 170 cm?

Jawab:

Karena soal menanyakan proporsi individu yang tinggi > 170 cm, maka ini distribusi populasi.

  • \[ μₓ̄ = μ = 160 \]

  • \[ X = 170 \]

Jadi,

\[ \text{Z-score: } Z = \frac{X - \mu}{\sigma} = \frac{170 - 160}{7} \approx 1.43 \] - Lihat tabel Z-score


Note: Tabel Z-score hanya menunjukkan proporsi di sebelah kiri dari nilai Z. Untuk Z = 1,43, tabel menunjukkan 0,9236 di sebelah kiri. Namun, kita menginginkan jumlah area yang ada di sebelah kanannya nilai Z.

Ingat bahwa total area distribusi normal = 100% atau 1

Oleh karena itu,

\[ P(X > 170) = 1 - P(Z < 1.43) \]

\[ P(X > 170) = 1 - 0.9236 \approx 0.0764 \approx 7.64\% \]

2.3 Central Limit Theorem


Sebelumnya, mari kita me-review kembali apa itu Distribusi Sampling.

2.3.1 Distribusi Sampling

Distribusi sampling merupakan distribusi yang dibentuk dengan mengambil berulang kali sampel dari satu populasi, menghitung statistik (seperti rata-rata) untuk setiap sampel, kemudian menggabungkan hasilnya menjadi distribusi.

Cara membuat Distribusi Sampling

  1. Ambil sampel acak sederhana dari populasi.
  2. Hitung (rata-rata sampel) untuk setiap sampel.
  3. Plot semua nilai ke dalam grafik.
  4. Ulangi prosesnya berkali-kali (tergantung banyaknya sampel yang diambil) untuk membentuk distribusi.

Teorema Limit Pusat menyatakan:

Jika ukuran sampel n cukup besar, maka distribusi rata-rata sampel akan mendekati distribusi normal, meskipun populasi aslinya tidak normal.

Poin-Poin Kunci:

  • Berlaku untuk apapun bentuk distribusi populasi, termasuk skewed.
  • Bentuk distribusi populasi tidak mempengaruhi distribusi rata-rata sampel.
  • Semakin besar n, semakin mendekati normal distribusi sampling.

Ilustrasi CLT (Populasi Skewed)

  1. Ambil banyak sampel berulang kali dari populasi yang skewed.
  2. Hitung rata-rata tiap sampel.
  3. Sebagian besar rata-rata sampel akan mendekati rata-rata populasi (μ).
  4. Sampel yang jauh dari rata-rata populasi masih mungkin, tapi jarang terjadi.
  5. Hasil akhirnya: distribusi rata-rata sampel normal, meski populasi asli skewed.

Interpretasi

Grafik menunjukkan bahwa meskipun populasi awal sangat skewed ke kanan, distribusi rata-rata sampel dengan n = 30 menjadi hampir normal dan simetris. Kecocokan histogram dengan kurva normal merah membuktikan Teorema Limit Sentral, yaitu bahwa rata-rata sampel cenderung berdistribusi normal ketika ukuran sampel cukup besar, dan penyebarannya lebih kecil karena dipengaruhi oleh standard error.

Interpretasi

Grafik menunjukkan bahwa ketika populasi berasal dari distribusi normal, distribusi rata-rata sampel dengan n = 30 juga berbentuk normal dan sangat simetris. Histogram rata-rata sampel mengikuti pola kurva normal merah dengan sangat baik, yang sesuai dengan teori bahwa jika populasi awal normal, maka distribusi sampling-nya akan normal untuk ukuran sampel berapa pun, bahkan tanpa harus besar. Hal ini menegaskan bahwa bentuk distribusi awal populasi langsung diturunkan ke distribusi rata-rata sampel saat populasinya memang normal.

2.3.2 Aturan Ukuran Sampel

Aturan Umum

  • Jika ukuran sampel 30 atau lebih = kita bisa menggunakan Teorema Limit Pusat (CLT).
  • Jika ukuran sampel kurang dari 30 = sebaiknya tidak menggunakan CLT, kecuali…

Kecuali Khusus:

Jika populasi sudah normal dari awal, maka distribusi rata-rata sampel tetap normal meskipun ukuran sampel kecil (<30).

Masalah kalau sampelnya sedikit:

  • Hasilnya bisa sangat berbeda-beda = kurang akurat
  • Lebih besar kemungkinan sampel yang diambil aneh atau tidak mewakili populasi
  • Sulit menaksir karakteristik populasi dengan tepat
  • Distribusi rata-rata sampel tidak mengikuti bentuk normal

Manfaat CLT (Central Limit Theorem) untuk Praktik

Kenapa CLT penting kalau sampelnya cukup besar:

  • Memudahkan analisis data besar
  • Bisa menggunakan asumsi distribusi normal untuk menafsirkan data
  • Hasil inferensi statistik jadi lebih valid
  • Bisa menghitung peluang/probabilitas menggunakan distribusi normal

2.4 Sample Proportion


2.4.1 Distribusi Sampling

Distribusi sampling merupakan distribusi yang dibentuk dengan mengambil berulang kali sampel dari satu populasi, menghitung statistik (seperti rata-rata) untuk setiap sampel, kemudian menggabungkan hasilnya menjadi distribusi.

2.4.2 Proporsi

Proporsi menggambarkan fraksi hasil yang menguntungkan dalam kaitannya dengan keseluruhan. Contohnya: kalau dari 100 orang ada 25 orang yang suka es krim, maka proporsinya = 25/100 = 0.25. Jadi proporsi menggambarkan seberapa besar bagian tertentu dibandingkan total.

Rumusnya:

\[ \hat{p} = \frac{\text{jumlah hasil yang menguntungkan}}{\text{jumlah total hasil}} \] Note: \(\hat{p}\) itu untuk sampel. Sedangkan \(p\) itu untuk populasi.

Contoh

  • Sampel: 10 orang, 2 berwarna mata hijau \[ \hat{p} = \frac{2}{10} = 0.2 \]

  • Populasi: 5.000 orang, 900 berwarna mata hijau \[ p = \frac{900}{5000} = 0.18 \]

2.4.3 Distribusi Sampling Proporsi Sampel

Distribusi sampling proporsi sampel adalah distribusi dari statistik \(\hat{p}\) yang diperoleh dari pengambilan sampel acak secara berulang. Distribusi \(\hat{p}\) bisa disimulasikan: ketika banyak sampel acak diambil dari populasi dengan proporsi p, nilai-nilai \(\hat{p}\) akan membentuk distribusi yang rata-rata (center) sama dengan p, simpangan baku (standard error) \(\sqrt{p(1−p)}/n\), dan jika \(np≥10\) & \(n(1−p)≥10\), distribusinya mendekati bentuk normal.

Karakteristik Distribusi Jadi setiap kali kita ambil sampel:

  • kita hitung proporsinya,
  • proporsinya berubah-ubah,
  • dan semua hasil itu membentuk distribusi.

Jika Distribusi Sampling dari Proporsi Sampel Normal dan mengikuti Teorema Limit Pusat. Ditemukan:

  1. Rata-rata (Mean) \[ \mu_{\hat{p}} = p \] Artinya: rata-rata proporsi dari banyak sampel akan mendekati proporsi sebenarnya di populasi.

  2. Standar Deviasi \[ \sigma_{\hat{p}} = \sqrt{\frac{p(1 - p)}{n}} \]

dimana:

  • n = ukuran sampel
  • p = proporsi hasil yang sukses
  • q = 1 - p = proporsi hasil yang tidak sukses

Semakin besar n -> semakin kecil simpangan bakunya -> hasil sampel lebih stabil.

  1. Standarisasi dengan Z-Score

Agar proporsi sampel bisa dibandingkan dengan distribusi normal, kita melakukan standarisasi. Rumusnya:

\[ Z = \frac{\hat{p} - p}{\sqrt{\frac{p(1 - p)}{n}}} \]

2.4.4 Teorema Limit Sentral untuk Proporsi

CLT bisa diterapkan pada Distribusi Sampling Proporsi Sampel asal dua syarat ini terpenuhi:

1. \(np \ge 10\)

2. \(n(1-p) \ge 10\)

Distribusi Sampling Proporsi Sampel bisa dikaitkan dengan Distribusi Binomial dan Aturan Probabilitas.

2.5 Review Sampling Distribution


2.5.1 Probability

Probabilitas berarti kemungkinan. Arti probabilitas adalah seberapa besar kemungkinan suatu peristiwa akan terjadi. Nilainya dinyatakan dari 0 hingga 1, dimana 0 berarti peristiwa tersebut mustahil dan 1 menunjukkan peristiwa yang pasti.

Rumus dasar: \[ P(A) = \frac{n(A)}{n(S)} \]

- \(n(A)\) = jumlah hasil yang mendukung kejadian A
- \(n(S)\) = jumlah seluruh kemungkinan di ruang sampel

Contoh Soal:

Dalam sebuah toples berisi 200 kelereng hijau, dan 300 kelereng biru. jika pengambilan kelereng sebanyak 3 kali dengan pengembalian, berapa kemungkinan terambilnya paling sedikit 2 kelereng hijau?

Jawab:

Langkah penyelesaian:

  1. Tentukan probabilitas dasar

    • P(green) = 200 / 500 = 0,4 Peluang Sukses
    • P(blue) = 300 / 500 = 0,6 Peluang Gagal
  2. Ruang sampel (semua urutan 3 bola):


GGG, GGB, GBG, BGG, BBG, BGB, GBB, BBB

  1. Hitung tiap kejadian minimal 2 hijau
  • 2 hijau: GGB, GBG, BGG

    \[P = 0,4 × 0,4 × 0,6 = 0,096\]
    Karena ada 3 kemungkinan:

\[3 × 0,096= 0,288\]

  • 3 hijau: GGG

    \[P = 0,4^3 = 0,064\]

  1. Total probabilitas

\[P{\text{(minimal 2 hijau)}} = 0,288 + 0,064 = 0,352\]

Jadi, Peluang terambilnya paling sedikit 2 kelereng hijau dalam 3 kali pengambilan dengan pemnembalian adalah \(0.352\)

2.5.2 Distribusi Binomial

Untuk disebut sebagai percobaan binomial, suatu eksperimen harus memenuhi empat kondisi:

  1. Jumlah percobaan tetap - nilai n harus tetap

  2. Hanya dua kemungkinan hasil - sukses atau gagal

  3. Probabilitas sukses konstan - P(sukses) sama untuk setiap percobaan

  4. Percobaan independen - hasil satu percobaan tidak memengaruhi percobaan lainnya

Rumus:

\[ P(k) = \binom{n}{k} \times p^{k} \times (1 - p)^{n-k} \]

- n = jumlah percobaan

- k = jumlah sukses

- \(p^{k}\) = Peluang munculnya keberhasilan

- \((1-p)^{n-k}\) = Peluang munculnya kegagalan

Contoh Soal Dalam sebuah toples berisi 200 kelereng hijau, dan 300 kelereng biru. Jika sebuah kelereng diambil lima kali dengan pengembalian, berapa peluang untuk mengambil setidaknya dua kelereng hijau?

Jawab:

Soal ini bisa dijawab dengan cara yang sama pada soal sebelumnya (probabilitas). Tapi membutuhkan waktu yang lama dan harus super teliti dalam menghitung probabilitasnya. Jadi, kita akan menggunaka rumus Distribusi Binomial untuk menjawab pertanyaan ini.

Diketahui:

  • P(green) = 0.4

  • n = 5

  • 2 hijau \[ P(k = 2) = \binom{5}{2} \times 0.4^{2} \times (1 - 0.4)^{5-2} \] \[ P(k = 2) = 0.3456 \]

  • 3 hijau \[ P(k = 3) = \binom{5}{3} \times 0.4^{3} \times (1 - 0.4)^{5-3} \]
    \[ P(k = 3) = 0.2304 \]

  • 4 hijau \[ P(k = 4) = \binom{5}{4} \times 0.4^{4} \times (1 - 0.4)^{5-4} \]
    \[ P(k = 4) = 0,0768 \]

  • 5 hijau \[ P(k = 5) = \binom{5}{5} \times 0.4^{5} \times (1 - 0.4)^{5-5} \]
    \[ P(k = 5) = 0.01024 \] Total: \[ 0.3456 + 0.2304 + 0.0768 + 0.01024 = 0.66304 \approx {0.663} \]

Jadi, Peluang terambilnya paling sedikit 2 kelereng hijau dalam 5 kali pengambilan dengan pengembalian adalah \(0.663\)

2.5.3 Distribusi Sampling dari Proporsi Sampel

Distribusi sampling proporsi sampel adalah distribusi dari statistik \(\hat{p}\) yang diperoleh dari pengambilan sampel acak secara berulang.

Jadi setiap kali kita ambil sampel:

  • kita hitung proporsinya,
  • proporsinya berubah-ubah,
  • dan semua hasil itu membentuk distribusi.

Contoh soal

Dalam sebuah toples berisi 200 kelereng hijau, dan 300 kelereng biru. Jika sebuah kelereng diambil 100 kali dengan pengembalian, berapa perkiraan peluang terambilnya setidaknya 35 kelereng hijau?

Jawab:

Ada beberapa cara dalam menjawab soal ini:

  1. Ruang Sampel (probabilitas seperti soal pertama) = Tapi terlalu rumit dan tidak layak digunakan.
  2. Rumus Binomial (seperti soal kedua) = Tapi tidak layak untuk digunakan karena kita akan menghitung probabilitas dari k = 35…sampai dengan k = 100 yang akan memakan waktu cukup lama dan tidak efisien.
  3. Distribusi Sampling dari Proporsi Sampel Bisa digunakan. Tapi, harus memenuhi 2 syarat pada aturan Teorema Limit Pusat, yaitu:

Uji coba:

Diketahui:

Berarti untuk menjawab soal ini Teorema Limit Pusat bisa digunakan dengan standardisasi.

Jadi,

\[ Z = \frac{\hat{p} - p}{\sqrt{\frac{p(1 - p)}{n}}} \]

Dengan:

\[ Z = \frac{{0.35} - 0.4}{\sqrt{\frac{0.4(1 - 0.4)}{100}}} \] \[ Z = -1.02 \] Lihat pada tabel Z-score


Luas kiri = \(0,1539\)

Luas kanan = \(1 - 0,1539\) = \(0,8461 \approx 84.6\%\)

Jadi, Peluang terambilnya setidaknya 35 kelereng hijau dalam 100 kali pengambilan dengan pengembalian adalah \(0,8461 \approx 84.6\%\)

3 References

[1] Lian G. Otaya. Institut Agama Islam Negeri Sultan Amai Gorontalo (2016). Distribusi Probabilitas Weibull Dan Aplikasinya.

https://files.core.ac.uk/download/pdf/289987097.pdf

[2] Imam Suharjo & Mutaqin Akbar. (2019). Statistik dan Probabilitas: Variabel Random [Modul perkuliahan]. Universitas Mercu Buana Yogyakarta.

https://imam.mercubuana-yogya.ac.id/wp-content/uploads/2021/06/TIF39_P13-Variabel_Random-Narasi.pdf

[3] Puja Kusuma Jati Hadi Winata. (2022). Distribusi Probabilitas Variabel Diskrit. Universitas Nusa Putra.

https://www.researchgate.net/publication/366325185_Distribusi_Probabilitas_Variabel_Diskrit

[4] Walpole, R. E., Myers, R. H., Myers, S. L., & Ye, K. (2012). Ilmu peluang dan statistika untuk insinyur dan ilmuwan (A. S. Hadi, Penerj.). Penerbit ITB.

[5] Hogg, R. V., McKean, J. W., & Craig, A. T. (2019). Introduction to mathematical statistics (8th ed.). Pearson

[6] Russell, J. M. (2025). The sampling distribution of the sample proportion. In Significant Statistics: An Introduction to Statistics.

https://pressbooks.lib.vt.edu/significantstatistics/chapter/the-sampling-distribution-of-the-sample-proportion/