Tugas Week 11 ~ Probability Distribution

Angelique Kiyoshi Lakeisha B.U

NIM: 52250001

Student Major Data Science at Institut Teknologi Sains Bandung

R Programming Statistics Probability Assignment Week 11 – Mr. Bakti Siregar, M.Sc., CDS

Definisi Distribusi Probabilitas

Setelah memahami konsep dasar probabilitas, seperti ruang sampel, kejadian, dan cara menghitung peluang, langkah selanjutnya adalah mengenal distribusi probabilitas.
Distribusi probabilitas menjelaskan bagaimana peluang berbagai nilai dari suatu variabel acak tersebar. Dengan distribusi, kita bisa melihat nilai mana yang lebih sering muncul, seberapa besar variasinya, dan pola umum dari data yang dihasilkan oleh proses acak.
Jika sebelumnya fokus kita hanya pada menghitung peluang suatu kejadian tertentu, sekarang kita melihat gambaran yang lebih luas, yaitu bagaimana peluang tersebut membentuk pola. Pemahaman ini penting untuk membaca data, menghitung peluang pada rentang nilai tertentu, dan memahami bagaimana hasil sampel bisa berubah-ubah.

Materi yang Akan Dibahas

1

Continuous Random Variable

Mempelajari variabel acak yang nilainya berada dalam rentang kontinu (tidak terputus), seperti waktu, panjang, atau tinggi badan. Pada materi ini, probabilitas dihitung menggunakan probability density function (PDF) dan area di bawah kurva.

2

Sampling Distribution

Membahas bagaimana nilai statistik sampel, seperti rata-rata atau proporsi, berubah ketika kita mengambil sampel berkali-kali dari populasi yang sama.

3

Central Limit Theorem

Menjelaskan bahwa ketika ukuran sampel cukup besar, distribusi dari rata-rata sampel akan cenderung membentuk kurva normal, meskipun bentuk data asalnya tidak normal.

4

Sample Proportion

Membahas bagaimana menghitung peluang “keberhasilan” dalam sebuah sampel dan bagaimana proporsi tersebut membentuk distribusi ketika proses sampling dilakukan berulang.

1 Continuous Random

Pada bagian ini, kita mulai mempelajari variabel acak kontinu, yaitu variabel yang dapat mengambil nilai pada suatu rentang, seperti waktu, suhu, atau tinggi badan. Tidak seperti variabel diskrit, probabilitas pada variabel kontinu tidak diberikan pada satu titik tertentu, tetapi melalui luas area di bawah kurva fungsi kerapatan peluang (Probability Density Function/PDF).

Video berikut membantu menjelaskan cara kerja PDF, bagaimana probabilitas dihitung pada suatu interval, serta hubungan antara PDF dan fungsi distribusi kumulatif (CDF). Pemahaman ini menjadi dasar penting sebelum mempelajari distribusi kontinu lainnya.


Variabel Diskrit

Variabel diskrit adalah variabel kuantitatif (numerik) yang nilainya dapat dihitung satu per satu dan biasanya berupa bilangan yang terpisah (tidak bersambung). Nilainya muncul dari proses counting (dihitung), bukan diukur.

Contoh umum variabel diskrit:
- Jumlah anak dalam keluarga (1, 2, 3, …)
- Jumlah pelanggan toko per hari
- umlah koin yang muncul head pada 4 kali lemparan

Contoh Kasus: Misalkan sebuah koin dilempar sebanyak ( n = 4 ) kali. Banyaknya kemunculan head (disebut sebagai variabel acak ( X )) hanya dapat mengambil nilai: [ X = 0, 1, 2, 3, 4]

Nilai-nilai tersebut muncul dari proses menghitung jumlah head pada setiap percobaan, sehingga ( X ) merupakan variabel diskrit.

Walaupun kebanyakan berupa bilangan bulat, bilangan desimal bisa menjadi diskrit jika jumlah kemunculannya terbatas dan diperoleh dari proses hitung. Misal: jumlah saldo rekening (karena biasanya dibulatkan dalam pecahan tertentu).

Visualisasi yang cocok:
Bar Chart, karena setiap nilai berdiri sendiri (ada jaraknya).

Variabel Kontinu

Variabel kontinu adalah variabel yang diperoleh melalui proses pengukuran, sehingga nilainya dapat berupa bilangan real pada suatu rentang. Artinya, variabel ini tidak dihitung, tapi diukur, dan mungkin memiliki nilai tak hingga banyaknya dalam suatu interval.

Contoh variabel kontinu:
- Berat badan
- Temperatur suhu
- Jarak
- Waktu
- Tinggi badan

Dalam variabel kontinu, nilai seperti 50 kg sebenarnya dapat memiliki nilai tak hingga di antara 49.999… dan 50.001… jika alat ukur diperhalus.

Sehingga visualisasi yang cocok untuk variabel kontinu adalah Histogram, karena data kontinu tidak memiliki celah antar nilai (rentang melekat dan menyambung).

Kriteria Variabel_Diskrit Variabel_Kontinu
Nilai yang dapat diambil Terbatas dan dapat dihitung (countable) Tidak terbatas dan tidak dapat dihitung (uncountable)
Cara memperoleh data Menghitung (counting) Mengukur (measuring)
Contoh nilai 0, 1, 2, 3, dst. 23,5 tahun, 150,305482 pound, suhu 36,6°C
Penyajian grafik Bar chart dengan celah antar batang Histogram tanpa celah dan density curve
Probabilitas Rumus probabilitas diskrit Rumus luas di bawah kurva kepadatan dan distribusi normal

Variabel Acak Kontinu

Variabel acak kontinu adalah variabel acak yang nilainya berasal dari proses pengukuran dan dapat berada pada suatu interval pada garis bilangan real. Karena berbentuk pengukuran, nilai yang mungkin diambil tidak terbatas jumlahnya, dalam arti dapat memuat nilai desimal dengan ketelitian setinggi apa pun.

Berbeda dengan variabel diskrit yang nilainya dapat dihitung satu per satu (countable), variabel kontinu bersifat uncountable karena mencakup seluruh bilangan real di dalam suatu rentang. Oleh sebab itu, probabilitas pada variabel acak kontinu tidak diberikan pada satu titik, melainkan pada interval nilai, karena \[P(X = x) = 0\] yang berarti peluang hanya bermakna bila dihitung pada rentang tertentu.

Contoh: tinggi badan, waktu proses, suhu ruangan, usia, tekanan udara, atau kecepatan kendaraan.

Variabel kontinu muncul ketika data diperoleh melalui pengukuran sehingga nilainya berada pada suatu rentang.

Ciri-ciri utama variabel acak kontinu:

  • Nilainya berada pada suatu interval atau rentang kontinu.
  • Probabilitas pada satu titik: \(P(X=x)=0\).
  • Peluang interval:
    \[ P(a \le X \le b) = \int_a^b f(x)\,dx \]
  • PDF harus memenuhi syarat: \(f(x)\ge 0\), dan \(\int_{-\infty}^{\infty} f(x)\,dx=1\) atau total area = 1.
  • Peluang berasal dari luas area di bawah kurva PDF, bukan dari titik tunggal atau titik tertentu.

Fungsi Kepadatan Probabilitas (PDF)

PDF, dilambangkan dengan \(f(x)\), dan digunakan untuk menggambarkan bagaimana nilai-nilai suatu variabel kontinu tersebar. PDF tidak memberikan probabilitas langsung, tetapi menunjukkan “tingkat kepadatan” di sekitar suatu titik. Supaya disebut PDF yang valid, dua aturan berikut harus selalu terpenuhi:

  1. PDF tidak boleh negatif: PDF tidak boleh memiliki bagian di bawah sumbu horizontal \(f(x) \ge 0\)
  2. Total area di bawah kurva harus 1:karena seluruh probabilitas total harus mencakup semua kemungkinan nilai X.
    \[ \int_{-\infty}^{\infty} f(x)\,dx = 1 \]
  • Semakin tinggi nilai \(f(x)\), semakin besar kepadatan peluang di sekitar titik tersebut.
  • Namun \(f(x)\) bukan probabilitas langsung — probabilitas hanya muncul dari area (integral) pada suatu interval.

Probabilitas pada Suatu Interval

Misal ingin mencari peluang bahwa \(X\) berada di antara 0.5 dan 1:

\[ P(0.5 \le X \le 1) = \int_{0.5}^{1} 3x^2\,dx \]

Luas area pada rentang tersebut memberikan nilai peluangnya.

Semakin luas area di bawah kurva, semakin besar peluangnya.

Fungsi Distribusi Kumulatif (CDF)

Selain PDF, terdapat juga Fungsi distribusi Kumulatif atau Cumulative Distribution Function (CDF), yang melacak probabilitas bahwa X kurang dari atau sama dengan suatu nilai \(x\).

CDF didefinisikan sebagai:

\[ F(x) = P(X \le x) = \int_0^{x} 3t^2\,dt = x^3 \]

CDF selalu naik dari 0 hingga 1, menunjukkan akumulasi probabilitas.

PDF dan CDF memiliki hubungan langsung: CDF adalah integral dari PDF, dan PDF adalah turunan dari CDF.

\[ F'(x) = f(x) \]

Pemahaman tentang PDF dan CDF sangat penting karena keduanya menjadi fondasi dalam mempelajari berbagai distribusi kontinu lainnya seperti distribusi normal, eksponensial, dan uniform.

2 Sampling Distribution

Pada bagian ini, kita mempelajari distribusi sampling, yaitu distribusi nilai rata-rata sampel (x̄) yang diperoleh ketika proses pengambilan sampel dari populasi dilakukan berulang kali. Video menjelaskan bagaimana rata-rata setiap sampel dapat berbeda-beda, serta mengapa distribusi sampling memiliki pola yang lebih stabil dan simpangan baku yang lebih kecil (standard error). Pemahaman ini penting sebelum melanjutkan ke Teorema Limit Tengah pada sub bab berikutnya.

Perbedaan Distribusi Sampel dan Distribusi Sampling

1. Distribusi Sampel (Sample Distribution)
Distribusi sampel adalah sebaran nilai yang berasal dari satu sampel tertentu. Artinya, fokusnya hanya pada data yang kita ambil sekali dari populasi.

Ketika kita mengambil sebuah sampel, semua nilai di dalam sampel tersebut membentuk pola sebaran—bisa saja memusat, melebar, miring, atau acak. Pola inilah yang disebut sebagai distribusi sampel.

Contoh:
Misalkan kita mengukur tinggi 5 orang: \[{158,162,160,165,159}\]
Kelima nilai itu membentuk distribusi sampel. Kita bisa menggambarkannya dalam bentuk histogram, boxplot, atau sekadar melihat variasinya.

Distribusi sampel tidak berbicara tentang populasi, dan tidak melibatkan banyak sampel. Melainkan hanya menggambarkan bagaimana nilai-nilai dalam satu sampel tersebar.


2. Distribusi Sampling (Sampling Distribution)

Distribusi sampling adalah distribusi statistik yang dibuat dari beberapa sampel acak sederhana yang diambil dari populasi tertentu, atau disebut dengan kumpulan rata-rata sampel yang ditumpuk bersama-sama
Contoh: jika kita mengambil beberapa sampel berisi 3 orang dari populasi tinggi badan, setiap sampel akan menghasilkan satu nilai rata-rata. Kumpulan rata-rata dari banyak sampel inilah yang membentuk distribusi sampling.

Proses untuk membuat distribusi sampling dari rata rata sampel sebagai berikut:
1. Tentukan populasi (misalnya tinggi badan).
2. Ambil sampel acak berukuran n = 5.
3. Hitung rata-rata sampel \(\bar{X}\).
4. Ambil sampel lain, hitung \(\bar{X}\) lagi.
5. Ulangi ratusan atau ribuan kali.
6. Plot semua nilai \(\bar{X}\) dalam histogram.

Hasilnya:
1. Rata-rata distribusi sampling sama dengan rata-rata populasi:

\[ \mu_{\bar{X}} = \mu \]

  1. Sebaran distribusi sampling lebih sempit daripada populasi. Artinya simpangan bakunya lebih kecil.

Jika jumlah sampel cukup besar, bentuk histogram rata-rata sampel ini akan mendekati bentuk distribusi normal, meskipun populasi awal tidak normal. Hal ini terjadi karena Teorema Limit Tengah (Central Limit Theorem).


Distribusi populasi adalah distribusi yang menggambarkan seluruh nilai setiap individu dalam populasi. Sementara itu, distribusi sampling adalah distribusi yang dibuat dari rata-rata beberapa sampel yang diambil berulang dari populasi yang sama.
Pemahaman kedua distribusi ini penting karena distribusi sampling merupakan dasar dari inferensi statistik.


3. Distribusi Populasi

Pada distribusi populasi, sebuah variabel \(X\) mengikuti distribusi normal dengan:
- Rata-rata populasi: \(\mu\)
- Simpangan baku populasi: \(\sigma\)

Penulisan formalnya:

\[ X \sim N(\mu, \sigma) \]

Standardisasi untuk nilai observasi individu:

\[ Z = \frac{X - \mu}{\sigma} \]

Keterangan Notasi:
- \(X\): nilai observasi individual
- \(\mu\): mean populasi
- \(\sigma\): simpangan baku populasi
- \(Z\): skor baku (standard score)

Konsep Apa_yang_Digambarkan Sumber_Data Contoh Ciri_Distribusi
Sample Distribution Nilai individu dalam satu sampel Satu sampel (n kecil) Tinggi 30 mahasiswa Bentuk acak, tidak selalu mulus
Population Distribution Semua nilai dari seluruh populasi Seluruh populasi Tinggi seluruh manusia Paling stabil & mulus
Sampling Distribution Distribusi statistik dari banyak sampel (misalnya rata-rata) Ratusan / ribuan sampel 200 rataan sampel (n=30) Biasanya mendekati normal (CLT)

Simpangan baku dari distribusi sampling disebut Standard Error (SE):

\[ \sigma_{\bar{X}} = \frac{\sigma}{\sqrt{n}} \]

Keterangan Notasi:
- \(\bar{X}\): rata-rata sampel
- \(\mu_{\bar{X}}\): mean distribusi sampling
- \(\sigma_{\bar{X}}\): standard error
- \(n\): ukuran sampel
- semakin besar \(n\), semakin kecil SE → distribusi sampling makin sempit

Sebaran yang lebih kecil muncul karena rata-rata lebih stabil daripada nilai individu. Variasi antar-mean lebih kecil dibanding variasi antar-observasi individual.


Standardisasi pada Distribusi Sampling

Karena distribusi sampling memiliki simpangan baku baru, maka rumus standardisasi menjadi:

\[ Z = \frac{\bar{X} - \mu}{\sigma / \sqrt{n}} \]

Keterangan Notasi:
- \(\bar{X}\): nilai rata-rata sampel
- \(\sigma / \sqrt{n}\): standard error
- \(Z\): skor baku untuk rata-rata sampel

Rumus ini digunakan ketika ingin menghitung peluang nilai rata-rata sampel berada pada rentang tertentu.


Mengapa Distribusi Sampling Penting?

Distribusi sampling memudahkan kita melakukan inferensi statistik, terutama ketika:
- Populasi terlalu besar untuk diukur semuanya.
- Pengukuran seluruh populasi memakan waktu, tenaga, dan biaya besar.

Contoh ilustrasi:
Jika ingin mengetahui tinggi rata-rata seluruh manusia di Bumi (≈ 8 miliar orang), jelas tidak mungkin mengukur semuanya. Maka:
1. Kita ambil beberapa sampel acak.
2. Hitung rata-ratanya.
3. Bangun distribusi sampling.
4. Dari distribusi sampling, kita bisa memperkirakan mean populasi tanpa mengukur semua orang.

Distribusi sampling juga memungkinkan:
- Menghitung probabilitas terkait rata-rata sampel
- Menentukan margin of error
- Membuat interval kepercayaan
- Melakukan uji hipotesis

Semua teknik statistik inferensial bertumpu pada distribusi sampling.

Contoh 1: Probabilitas rata-rata 10 orang Kanada < 157 cm

Misalkan diketahui bahwa tinggi badan semua orang Kanada mengikuti distribusi normal dengan rata-rata 160 cm dan standar deviasi 7 cm. Berapakah probabilitas bahwa rata-rata tinggi dari 10 orang Kanada yang dipilih secara acak kurang dari 157 cm?

Diketahui:
- \(\mu = 160\) cm
- \(\sigma = 7\) cm
- \(n = 10\)

Standard error: \[ SE = \frac{7}{\sqrt{10}} = 2.21 \]

Standarisasi: \[ Z = \frac{157 - 160}{2.21} = -1.36 \]

Logo

Dari tabel Z, area di sebelah kiri Z = −1.36 adalah 0.0869.

Jadi P( \(\bar{X} < 157\) ) = 0.0869 → 8.69%.


Contoh 2: Proporsi orang dengan tinggi > 170 cm (Distribusi Populasi)

Diketahui:
- \(\mu = 160\) cm
- \(\sigma = 7\) cm

Standarisasi: \[ Z = \frac{170 - 160}{7} = 1.43 \]

Logo

Dari tabel Z:
area di kiri 1.43 = 0.9236
area di kanan = 0.0764

Jadi proporsi orang dengan tinggi > 170 cm adalah 7.64%.

3 Central Limit Theorem

Pada bagian ini, video menjelaskan Teorema Limit Tengah (Central Limit Theorem), yaitu salah satu konsep inti dalam statistik inferensial. Sebelum masuk ke CLT, video kembali menegaskan apa yang dimaksud dengan sampling distribution, karena CLT bekerja berdasarkan distribusi ini.

Pada sub bab sebelumnya, kita membahas definisi dari distribusi sampling adalah kumpulan rata-rata sampel yang ditumpuk bersama-sama yang dibentuk dengan cara:

  1. Mengambil sampel acak dari populasi.
  2. Menghitung rata-rata sampel (\(\bar{x}\)).
  3. Mengulangi proses tersebut berkali-kali.
  4. Mengumpulkan semua nilai \(\bar{x}\) dan membuat grafiknya.

Walaupun setiap sampel memiliki nilai \(\bar{x}\) yang berbeda, sebagian besar \(\bar{x}\) akan berada di sekitar rata-rata populasi (\(\mu\)), sedangkan nilai yang jauh dari \(\mu\) lebih jarang terjadi. Hasil penggabungan semua \(\bar{x}\) inilah yang membentuk sampling distribution.

Teorema Limit Tengah

Jika bahas makna per kata,
- Central/Sentral: Tengah atau Pusat (nilai rata rata atau lokasi pusat dari distribusi)
- Limit: Batas atau Perilaku ketika jumlah besar (perilaku distribusi rata-rata sampel ketika ukuran sampel (n) makin besar)
- Theorem/Teorema: Pernyataan matematis yang terbukti benar

Central Limit Theorem atau Teorema Limit Tengah secara definisi adalah Teorema yang mengatakan bagaimana perilaku rata-rata (central) ketika ukuran sampel membesar (limit) yang sudah terbukti secara matematis (theorem).

Teorema Limit Tengah (CLT) menyatakan bahwa:
Jika ukuran sampel \(n\) cukup besar, maka distribusi sampling dari rata-rata sampel \(\bar{X}\) akan mendekati distribusi normal, apa pun bentuk distribusi populasi asalnya.

Artinya:
- Populasi boleh miring (skewed), multimodal, atau tidak beraturan.
- Namun rata-rata sampel tetap membentuk distribusi normal jika ukuran sampel besar.

Mengapa Disebut Central Limit Theorem?

  • Central: karena CLT berfokus pada mean (\(\bar{X}\)), yaitu ukuran pusat.
  • Limit: karena efek normalitas muncul ketika ukuran sampel \(n\) semakin besar.
  • Theorem: karena CLT adalah hukum matematis yang selalu benar jika syaratnya terpenuhi.

Intuisi Mengapa CLT Bekerja

  • Bagian terbesar (bulk) dari populasi memiliki peluang paling besar untuk dipilih.
  • Nilai ekstrem lebih jarang masuk ke sampel.
  • Saat dirata-ratakan, nilai ekstrem menjadi “ditenangkan”.
  • Akibatnya, sebagian besar \(\bar{X}\) terkumpul di sekitar \(\mu\).
  • Ketika proses ini diulang berkali-kali → bentuknya menjadi normal curve.

Aturan Praktis Penerapan CLT

Berikut adalah aturan praktis dari penerapan Teorema Limit Tengah:

  1. Ukuran sampel besar
    Jika \(n \ge 30\): CLT aman digunakan, sampling distribution ≈ normal.

  2. Ukuran sampel kecil (\(n < 30\))
    Tidak dapat memakai CLT kecuali populasi sudah normal.
    Jika populasi normal: distribusi sampling tetap normal meskipun sampel kecil.

  3. Ukuran sampel kecil berisiko tinggi
    Ukuran sampel yang terlalu kecil cenderung menghasilkan variabilitas yang besar, estimasi yang kurang presisi, dan peluang lebih tinggi mendapatkan sampel yang tidak representatif. Karena itu penggunaan CLT pada ukuran sampel kecil perlu lebih berhati-hati.

Mengapa CLT Penting?

CLT penting karena ketika distribusi sampling mendekati normal, kita dapat menggunakan alat-alat analisis statistik seperti:
- perhitungan Z-score
- inferensi statistik (uji hipotesis)
- interval kepercayaan
- perhitungan probabilitas normal

Meskipun distribusi populasi awal tidak normal.
Dengan kata lain, CLT memungkinkan kita menarik kesimpulan tentang populasi hanya dari sampel, tanpa harus mengukur seluruh populasi.

Notasi dan Rumus Penting
- Mean populasi: \(\mu\)
- Simpangan baku populasi: \(\sigma\)
- Mean sampel: \(\bar{X}\)
- \(\dot{\sim}\) = “mendekati distribusi”
- Rumus ini hanya valid jika CLT berlaku

No Konsep Rumus Keterangan
1 Standard Error (SE) \(\sigma_{\bar{X}} = \dfrac{\sigma}{\sqrt{n}}\) Mengukur variasi rata-rata sampel.
2 Distribusi Sampling (jika CLT berlaku) \(\bar{X} \dot{\sim}N\left(\mu, \dfrac{\sigma^2}{n}\right)\) Distribusi rata-rata sampel mengikuti normal jika CLT terpenuhi.
3 Standarisasi (Z-score untuk mean sampel) \(Z = \dfrac{\bar{X} - \mu}{\sigma / \sqrt{n}}\) Mengubah mean sampel menjadi skor baku.

Contoh Visual

Berikut gambaran proses pembentukan distribusi sampling:

  • Populasi awal berbentuk miring (skewed).
  • Kita ambil sampel acak sederhana, hitung \(\bar{X}\).
  • Titik data dari area yang besar lebih sering muncul.
  • Titik data dari area kecil (ekor distribusi) lebih jarang.
  • Rata-rata sampel terkonsentrasi dekat nilai \(\mu\).
  • Jika dikumpulkan, akan terbentuk distribusi normal.

Logo

Contoh Soal Penerapan Central Limit Theorem

Untuk setiap bentuk distribusi populasi berikut, tentukan apakah distribusi sampling dari rata-rata akan mendekati normal.
a. Populasi rectangular, ukuran sampel 15
b. Populasi bimodal, ukuran sampel 29
c. Populasi skewed, ukuran sampel 40
d. Populasi triangular, ukuran sampel 35
e. Populasi normal, ukuran sampel 20
f. Populasi normal, ukuran sampel 30

Penjelasan Jawaban

Bentuk n CLT Keterangan Alasan
Rectangular 15 Tidak Populasi berbentuk persegi (tidak normal) dan ukuran sampel kecil. n < 30 membuat mean belum stabil dan distribusi sampling belum normal, sehingga CLT tidak berlaku.
Bimodal 29 Tidak Populasi bimodal artinya bentuknya jauh sekali dari normal. n = 29 masih kurang besar untuk menormalkan distribusi mean, jadi belum membentuk kurva normal.
Skewed 40 Ya Populasi miring (skewed), tetapi n = 40 ≥ 30. n = 40 cukup besar untuk menetralkan bentuk populasi sehingga distribusi sampling mendekati normal.
Triangular 35 Ya Populasi segitiga (tidak normal), namun ukuran sampel besar (≥30). n ≥ 30 cukup besar untuk membuat distribusi mean stabil dan mendekati normal.
Normal 20 Ya Populasi awal sudah normal. Populasi normal membuat distribusi sampling otomatis normal meskipun n < 30.
Normal 30 Ya Populasi normal + n besar. Populasi normal + n besar membuat distribusi sampling pasti normal.

Grafik asli bentuk populasi (belum CLT)

Grafik hasil Distribusi sampling (Hasil CLT)

KESIMPULAN DUA VISUALISASI

Visualisasi pertama menunjukkan bahwa bentuk populasi awal masih sangat beragam. Seperti berbentuk kotak, bimodal, miring, hingga segitiga. Keragaman ini wajar karena setiap populasi memiliki pola asli yang berbeda dan belum tentu mengikuti distribusi normal.

Pada visualisasi kedua, setelah kita melakukan pengambilan sampel berulang dengan ukuran sampel tertentu, bentuk distribusinya mulai berubah. Rata-rata dari sampel-sampel tersebut justru membentuk pola yang semakin mendekati kurva normal. Perubahan ini terjadi karena Central Limit Theorem, yang menjelaskan bahwa distribusi rata-rata sampel akan cenderung normal meskipun populasi awalnya tidak berbentuk normal, terutama ketika ukuran sampelnya cukup besar.

Kesimpulan Jawaban: C, D, E, F menghasilkan distribusi sampling normal.

4 Sample Proportion

Pada bagian ini, kita mempelajari bagaimana proporsi dalam sebuah sampel dapat membentuk distribusi ketika proses pengambilan sampel dilakukan berulang kali. Proporsi sampel () digunakan ketika data terjadi sukses/gagal, memenuhi/tidak memenuhi suatu kriteria.

Video menjelaskan cara menghitung proporsi, bagaimana nilai berubah antar sampel, serta bagaimana kumpulan nilai ini membentuk sampling distribution. Juga dibahas syarat CLT agar distribusi dapat dianggap normal.


Distribusi sampling adalah distribusi dari suatu statistik yang diperoleh melalui pengambilan sampel secara berulang dari populasi yang sama. Untuk setiap sampel, kita menghitung statistik tertentu seperti mean atau proporsi, lalu menggabungkan seluruh nilai statistik itu untuk membentuk sebuah grafik yang disebut sampling distribution.

Distribusi sampling menunjukkan bagaimana nilai statistik berubah-ubah dari sampel ke sampel.

Secara umum, Proporsi memiliki makna Perbandingan atau rasio. Namun, yang dimaksud dalam materi kali ini adalah perbandingan bagian dari keseluruhan yang memenuhi suatu kriteria.
Rumus umum:

\[ \text{Proporsi} = \frac{\text{jumlah hasil yang diinginkan}}{\text{jumlah total}} \]

Proporsi menggambarkan bagian dari hasil yang dianggap “berhasil” dibandingkan total keseluruhan.

Perbedaan Proporsi Sampel dan Proporsi Populasi

A. Proporsi Sampel:
Proporsi sampel adalah proporsi “sukses” yang kita hitung dari sampel yang kita ambil (bukan seluruh populasi), dan nilainya bisa berubah antara satu sampel dan sampel lain (karena acak). Digunakan untuk memperkirakan proporsi populasi dan memiliki nilai yang bervariasi.
Notasi yang digunakan: \(\hat{p}\)
Rumus: \[ \hat{p} = \frac{\text{jumlah sukses di sampel}}{n} \]
Contoh: 2 dari 10 orang bermata hijau → proporsinya: \[\hat{p} = \frac{2}{10} = 0,2\]

B. Proporsi Populasi:
Proporsi populasi adalah proporsi “sukses” yang dihitung dari seluruh anggota populasi, bukan dari sampel. Nilai ini menggambarkan keadaan yang sebenarnya terjadi di populasi dan bersifat tetap karena tidak dipengaruhi oleh proses pengambilan sampel. Berbeda dengan proporsi sampel, proporsi populasi tidak berubah-ubah dan menjadi nilai acuan yang ingin kita perkirakan melalui data sampel.
Notasi yang digunakan: \(p\)
Rumus: \[ p = \frac{\text{jumlah sukses di populasi}}{\text{total populasi}} \]
Contoh: 900 dari 5000 orang bermata hijau → proporsinya: \[p = \frac{900}{5000} = 0,18\]


Apa Itu Distribusi Sampling dari Proporsi Sampel?

Ketika kita mengambil banyak sampel dari populasi, lalu menghitung proporsi sampel (\(\hat{p}\)) untuk setiap sampel, maka:
- nilai \(\hat{p}\) akan berbeda-beda antar sampel,
- ada yang lebih kecil dari \(p\), ada yang lebih besar,
- namun lebih banyak yang berada dekat dengan nilai sebenarnya (yaitu \(p\)).

Kumpulan seluruh nilai \(\hat{p}\) tersebut akan membentuk sebuah grafik yang disebut: Distribusi Sampling dari Proporsi Sampel

Distribusi ini menunjukkan:
- bagaimana \(\hat{p}\) berfluktuasi dari sampel ke sampel,
- seberapa besar ketidakpastian ketika menggunakan \(\hat{p}\) untuk memperkirakan \(p\).

Distribusi sampling ini memiliki dua karakteristik penting:
1. rata-rata,
2. simpangan baku (standard error).

Hubungan dengan Teorema Limit Tengah (CLT)

Video menjelaskan bahwa jika syarat tertentu terpenuhi, maka bentuk distribusi sampling dari \(\hat{p}\) akan mendekati normal.

terdapat tiga hal penting:

No Konsep Rumus Keterangan
1 Rata-rata distribusi sampling \(\mu_{\hat{p}} = p\) Rata-rata proporsi sampel sama dengan proporsi populasi.
2 Simpangan baku (Standard Error) \(\sigma_{\hat{p}} = \sqrt{ \dfrac{p(1-p)}{n} }\) Mengukur seberapa besar variasi antara proporsi sampel dan proporsi populasi.
3 Distribusi normal (jika CLT terpenuhi) \(\hat{p} \sim N\left(p, \dfrac{p(1-p)}{n}\right)\) Proporsi sampel mendekati distribusi normal jika ukuran sampel cukup besar.

Ini menunjukkan bahwa meskipun \(\hat{p}\) berubah-ubah, pusat distribusinya tetap di sekitar \(p\).

Rumus Standarisasi (Z-score) untuk Proporsi

Jika \(\hat{p}\) berdistribusi mendekati normal, maka kita dapat menghitung probabilitas menggunakan rumus:

\[ Z = \frac{\hat{p} - p}{\sqrt{\frac{p(1-p)}{n}}} \]

Rumus ini digunakan untuk mencari area probabilitas di tabel Z (sama seperti pada mean, tetapi rumusnya berbeda).


Syarat CLT Khusus untuk Proporsi

Berbeda dengan mean yang memakai aturan umum \(n \ge 30\), proporsi memakai dua syarat khusus:

\[ n \times p \ge 10 \] \[ n \times (1 - p) \ge 10 \]

Jika kedua syarat ini terpenuhi:
- jumlah “sukses” cukup besar,
- jumlah “gagal” juga cukup besar, maka distribusi \(\hat{p}\) dapat dianggap normal.

Syarat ini sangat ditegaskan pada video dan juga muncul pada diagram CLT.

Contoh Perhitungan

Misalkan proporsi populasi \(p = 0.18\) dan ukuran sampel \(n = 40\).

1. Hitung Standard Error
\[ \sigma_{\hat{p}} = \sqrt{\dfrac{p(1-p)}{n}} = \sqrt{\dfrac{0.18(1-0.18)}{40}} \] \[ \sigma_{\hat{p}} = \sqrt{\frac{0.18(0.82)}{40}} \approx 0.0607 \]

2. Contoh probabilitas
Cari \(P(\hat{p} > 0.25)\): \[ Z = \frac{\hat{p} - p}{\sqrt{\frac{p(1-p)}{n}}} = \frac{0.25 - 0.18}{\sqrt{\frac{0.18(1-0.18)}{40}}} \] \[ Z = \frac{0.07}{0.0607} = 1.154 \]

Nilai Z ini digunakan untuk mencari probabilitas menggunakan tabel Z.

Perbandingan CLT: Mean vs Proporsi

Komponen Sampling_Mean Sampling_Proporsi Inti_Perbedaan
Distribusi Sampling \(\bar{X} \sim N\left(\mu, \dfrac{\sigma}{\sqrt{n}}\right)\) \(\hat{p} \sim N\left(p, \sqrt{\dfrac{p(1-p)}{n}}\right)\) - Mean memakai ukuran sampel besar (≥30).
- Proporsi memakai syarat jumlah sukses dan gagal cukup (≥10).
- Rumus Z-score berbeda karena statistiknya berbeda.
Syarat CLT \(n \ge 30\) \(np \ge 10 \; \text{dan} \; n(1-p) \ge 10\)
Rumus Z \(Z = \dfrac{\bar{X} - \mu}{\sigma / \sqrt{n}}\) \(Z = \dfrac{\hat{p} - p}{\sqrt{p(1-p)/n}}\)

5 Review Sampling Distribution

Subbab ini merupakan review dari konsep-konsep yang sebelumnya sudah dipelajari, yaitu probabilitas, distribusi binomial, dan distribusi sampling dari proporsi sampel. Video ini dibuat untuk menghubungkan semua konsep tersebut dalam satu contoh kasus sehingga lebih mudah dipahami.
Melalui satu contoh konteks yang sama (toples berisi kelereng hijau dan biru), kita belajar kapan harus menggunakan ruang sampel, kapan harus memakai rumus binomial, dan kapan menggunakan pendekatan distribusi normal melalui Central Limit Theorem (CLT).


Contoh soal kelereng dalam toples

Misalkan kita memiliki sebuah toples yang berisi 200 kelereng hijau, dan 300 kelereng biru.
Untuk mempermudah:
- Kelereng hijau = Green (G)
- Kelereng biru = Blue (B)
- Jika pengambilan dengan pengembalian, maka setiap pengambilan independen

Isi toples:
- 200 kelereng hijau
- 300 kelereng biru
- Total 500 kelereng

Sehingga peluang:

\[ P(\text{G}) = \frac{200}{500} = 0.4 \] \[ P(\text{B}) = \frac{300}{500} = 0.6 \]

Jika sebuah kelereng diambil tiga kali dengan pengembalian, berapa kemungkinan mendapatkan setidaknya dua kelereng hijau?

Probabilitas Dasar Menggunakan Pohon Kejadian

Video menekankan bahwa semua kemungkinan hasil dalam beberapa percobaan disebut sample space.
Dengan pohon kejadian, kita melihat seluruh urutan yang mungkin muncul.
Setiap cabang mewakili hasil, dan total kemungkinan untuk 3 pengambilan adalah \(2^3 = 8\).

Menghitung Probabilitas “Minimal 2 Hijau” Pada 3 Pengambilan

Sifat penting (ditekankan dalam video):
Saat pengambilan dilakukan dengan pengembalian, probabilitas setiap pengambilan independen.
Karena itu probabilitas suatu urutan = hasil perkalian tiap peluang.

Sehingga, terjadi beberapa kemungkinan urutan:
- GGG
- GGB
- GBG
- BGG

\[ P(\text{setidaknya 2 hijau}) = 0.4 \times 0.4 \times 0.6 = 0.096 \]

Karena ada 3 pola yang sama:
\[ P(\text{setidaknya 2 hijau}) = P(GGB) + P(GBG) + P(BGG) \] \[ 3 \times 0.096 = 0.288. \]

Terdapat satu kemungkinan pola 3 hijau:
\[ P(GGG) = 0.4^3 = 0.064. \]

Total Probabilitas:
\[ P(\text{setidaknya 2 hijau}) = P(2G) + P(3G) \] \[ P(\text{setidaknya 2 hijau}) = 0.288 + 0.064 \] \[ P(\text{setidaknya 2 hijau}) = 0.352 \]

Jika sebuah kelereng diambil lima kali dengan pengembalian, berapakah probabilitas untuk mendapatkan setidaknya dua kelereng hijau?

Menggunakan Distribusi Binomial untuk 5 Pengambilan
Hal ini bisa dilakukan dengan memperluas ruang sampel. Namun, akan memakan waktu lama dan kurang efisien.
Sehingga, untuk penyelesaian masalah ini, kita menggunakan rumus distribusi binomial:

\[ P(X = k) = \binom{n}{k} p^k (1-p)^{n-k} \]

Dalam kasus ini:

\[ n=5, \quad p=0.4, k=2 \]

Maka:
\[ P(k = 2) = \binom{5}{2} \, 0.4^2 (1-0.4)^{5-2} \] \[ P(k = 3) = \binom{5}{3} \, 0.4^3 (1-0.4)^{5-3} \] \[ P(k = 4) = \binom{5}{4} \, 0.4^4 (1-0.4)^{5-4} \] \[ P(k = 5) = \binom{5}{5} \, 0.4^5 (1-0.4)^{5-5} \]

Hasilnya:
- \(P(2) = 0.3456\)
- \(P(3) = 0.2304\)
- \(P(4) = 0.0768\)
- \(P(5) = 0.01024\)

Total Probabilitas: \[ P(\text{setidaknya 2 hijau}) = P(2G) + P(3G) + P(4G) + P(5G) \] \[ P(\text{setidaknya 2 hijau}) = 0.3456 + 0.2304 + 0.0768 + 0.01024 \] \[ P(\text{setidaknya 2 hijau}) = 0.66304 \]

Jika kelereng diambil 100 kali dengan pengembalian, berapakah probabilitas mengambil setidaknya 35 kelereng hijau?

Ada tiga cara untuk menyelesaikan masalah ini:
1. Memperluas ruang sampel, namun jelas tidak akan layak/efisien untuk jumlah n besar.
2. Menggunakan rumus binomial, tapi juga tidak efisien karna harus menghitung sebanyak 65× untuk mengambil 35 kelereng hijau, 36, 37 dan seterusnya sampe 100 kelereng hijau.
3. Menggunakan CLT. Ini cara yang biasa dipakai karena cepat dan sederhana. Namun sebelumnya kita perlu mengecek dua syarat penting CLT terpenuhi.

\[ P(\text{G}) = \frac{200}{500} = 0.4 \] \[ n=100 \] \[ k=35 \]

Syarat CLT:
1. \(np \ge 10\)
2. \(n(1-p) \ge 10\)

Untuk kasus kita (\(n=100\), \(p=0.4\)) perhitungannya:

  1. \(np \ge 10\)
    \[ np = 100 \times 0.4 = 40 \;\;(\text{≥ 10 — terpenuhi}) \]

  2. \(n(1-p) \ge 10\)
    \[ n(1-p) = 100 \times (1-0.4) = 100 \times 0.6 = 60 \;\;(\text{≥ 10 — terpenuhi}) \]

CLT boleh digunakan

Langkah menghitung probabilitas:

  1. Tentukan \(\hat{p}\)
    \[ \hat{p} = \frac{35}{100} = 0.35 \]

  2. Hitung simpangan baku (standard error, SE) untuk \(\hat{p}\)
    \[ \sigma_{\hat{p}} = \sqrt{\frac{p(1-p)}{n}} = \sqrt{\frac{0.4 \times 0.6}{100}} = \sqrt{\frac{0.24}{100}} = \sqrt{0.0024} \approx 0.04899 \approx 0.049. \]

  3. Standarisasi untuk mendapatkan nilai \(Z\)
    Rumus umum: \[ Z=\frac{\hat{p}-p}{\sigma_{\hat{p}}} \] Substitusi nilai: \[ Z=\frac{0.35-0.4}{0.04899}=\frac{-0.05}{0.04899}\approx -1.02. \]

  4. Cari area pada tabel Z / gunakan fungsi distribusi normal

Logo

  • Area kiri untuk \(Z=-1.02\) adalah 0.1539.
  • Karena kita mencari \(P(\hat{p}\ge 0.35)\), ambil area kanan: \[ P(\hat{p}\ge 0.35)=1-0.1539=0.8461. \]

SE Z_value Area_kiri Area_kanan
0.049 -1.0206 0.1539 0.8461
Ringkasan Perbandingan Metode

Tree Diagram (Ruang Sampel)
• Sangat jelas & intuitif
• Tidak efisien untuk \(n\) besar (digunakan jika \(n\) kecil)
• Cocok untuk 2–3 pengambilan

Distribusi Binomial
• Efektif untuk 5–30 percobaan
• Memberikan nilai eksak
• Mulai berat jika \(n\) besar (digunakan jika \(n\) sedang)

Normal Approximation / CLT
• Paling efisien untuk \(n\) besar
• Hasilnya adalah pendekatan
• Cocok untuk ≥ 50 pengambilan

Referensi

[1] Cahya Alkahfi, Memahami Teorema Limit Pusat Menggunakan Data Simulasi, SAINSDATA.ID. Available: https://sainsdata.id/statistika/13457/memahami-teorema-limit-pusat-menggunakan-data-simulasi/, 2025.

[2] DSCienceLabs, 7 Probability Distributions, in Introductory Statistics with R, Bookdown. Available: https://bookdown.org/dsciencelabs/intro_statistics/07-Probability_Distributions.html, 2025.

[3] LMS-SPADA Indonesia, “Contoh Distribusi Sampling – Modul Pembelajaran,” Available: https://www.bing.com/ck/a?!&&p=ff733561faeb0e10fb94d8e5a5124f992ca70b925c4c3ac11e4afff3fa67e4f1JmltdHM9MTc2NDk3OTIwMA&ptn=3&ver=2&hsh=4&fclid=10347a72-e892-619c-2b75-6c50e9d7603e&psq=contoh+distribusi+sampling&u=a1aHR0cHM6Ly9sbXNzcGFkYS5rZW1kaWt0aXNhaW50ZWsuZ28uaWQvcGx1Z2luZmlsZS5waHAvNzEwOTk0L21vZF9yZXNvdXJjZS9jb250ZW50LzEvUGVydGVtdWFuXzUtRGlzdHJpYnVzaV9TYW1wbGluZy5wcHQ, 2025.

[4] Rinaldi Munir, Probabilitas dan Statistika – Materi Kuliah 2010/2011, Informatika STEI-ITB. Available: https://informatika.stei.itb.ac.id/~rinaldi.munir/Probstat/2010-2011/probstat10-11.htm, 2011.