Nadia Apriani

Nadia Apriani

Student Major in Data Science

Lecturer: Bakti Siregar M.Sc., CDS

R Programming Data Science Statistics

1 Pendahuluan

Dalam kehidupan sehari-hari maupun dalam berbagai penelitian ilmiah, kita sering dihadapkan pada fenomena yang hasilnya tidak pasti. Contoh sederhana dapat kita temui pada tinggi badan seseorang, waktu kedatangan sebuah bus, atau hasil lemparan dadu. Setiap pengamatan dapat menghasilkan nilai yang berbeda, sehingga kita tidak dapat memprediksi hasilnya secara pasti. Untuk dapat memahami pola ketidakpastian ini secara teratur dan ilmiah, diperlukan sebuah kerangka yang mampu menggambarkan bagaimana suatu nilai muncul beserta peluang terjadinya. Kerangka inilah yang disebut Distribusi Probabilitas (probability distribution).

2 Pentingnya Distribusi Probabilitas dalam Analisis Statistik

Distribusi probabilitas memungkinkan kita menggambarkan ketidakpastian dengan lebih jelas dan terukur. Melalui konsep ini, kita dapat:

  • Menentukan peluang dari setiap hasil yang mungkin terjadi dalam suatu percobaan acak.

  • Memahami bagaimana nilai-nilai acak tersebar, apakah cenderung mendekati rata-rata, menyebar secara merata, atau justru memiliki kemungkinan lebih besar pada nilai-nilai ekstrem.

  • Mengambil keputusan berbasis data secara lebih bijak, misalnya dalam memperkirakan risiko, membuat prediksi, atau menarik kesimpulan tentang suatu populasi berdasarkan hasil sampel.

Dengan kata lain, distribusi probabilitas merupakan fondasi penting dalam dunia statistik. Tanpa pemahaman yang baik mengenai konsep ini, analisis data dapat menjadi tidak tepat, kesimpulan bisa menyesatkan, dan proses pengambilan keputusan berbasis informasi menjadi kurang dapat dipercaya. Karena itulah, mempelajari distribusi probabilitas menjadi langkah awal yang sangat penting dalam memahami seluruh rangkaian metode statistik tingkat lanjut.

3 Acak Berkelanjutan

Pemahaman terhadap konsep dasar ini menjadi landasan penting sebelum memasuki pembahasan mengenai Variabel Acak Kontinu dan Distribusi Probabilitasnya. Dengan fondasi tersebut, perbedaan karakteristik data kontinu serta metode perhitungan probabilitas yang bergantung pada fungsi kepadatan dapat dipahami dengan lebih jelas. Hal ini memungkinkan materi selanjutnya dipelajari secara lebih terstruktur dan sistematis.

3.1 Variabel Diskrit

Pengertian

Variabel diskrit adalah variabel yang hanya dapat memiliki jumlah nilai yang dapat dihitung (countable). Dengan kata lain, nilai-nilainya terbatas atau dapat dihitung satu per satu.

Ciri-ciri

  • Nilai bersifat terbatas atau dapat dihitung.
  • Umumnya berupa hitungan (count).
  • Data diperoleh melalui penghitungan, bukan pengukuran.

Rumus

Kita dapat menggunakan berbagai rumus peluang dasar:

  • Peluang kejadian
  • Peluang gabungan
  • Peluang bersyarat

Karena nilai diskrit bisa dihitung satu per satu, peluang dapat dihitung per titik data.

Contoh

  • Jumlah kepala saat melempar koin.
  • Jumlah kelereng biru dalam kotak.
  • Nilai siswa pada tes (misalnya 7/10, 8/10).
  • Jumlah anak dalam keluarga (0, 1, 2, 3 …).

Perlu dicatat bahwa variabel diskrit tidak selalu bilangan bulat, misalnya:
Saldo rekening: Rp420,69
Nilai ujian: 5,5 dari 10
Selama jumlah kemungkinan nilai dapat dihitung, variabel tersebut termasuk diskrit.

Penyajian Data pada Grafik untuk Variabel Diskrit

Bar Chart (Diagram Batang)

  • Memiliki jarak antar batang.
  • Setiap batang mewakili hasil yang berbeda secara terpisah.
  • Cocok untuk data yang hasilnya dapat dihitung.

Contoh: jumlah kepala dari 4 lemparan koin.

3.2 Variabel Kontinu

Pengertian

Variabel kontinu adalah variabel yang dapat memiliki nilai apa pun dalam suatu rentang, sehingga jumlah kemungkinannya tak terbatas (infinite) dan tidak dapat dihitung (uncountable).

Ciri-ciri

  • Data diperoleh melalui pengukuran.
  • Dapat memiliki nilai desimal tak terhingga.
  • Nilai dapat berada di titik mana saja dalam interval.

Rumus

Kita menggunakan:

  • Kurva densitas (density curve)
  • Luas di bawah kurva sebagai probabilitas
  • Distribusi Normal (normal distribution)

Pada variabel kontinu:

  • Probabilitas titik tunggal = 0
  • Yang dihitung adalah peluang dalam interval, misalnya: \[P(20 < X < 25)\]

Dengan demikian, kurva densitas berfungsi menunjukkan bagaimana probabilitas tersebar pada nilai yang jumlahnya tak terhingga. Selanjutnya, distribusi normal menjadi contoh paling umum dari kurva densitas kontinu dan digunakan untuk menghitung probabilitas rentang nilai, menstandarisasi data, serta melakukan analisis probabilitas lanjutan.

Contoh

  • Berat badan.
  • Usia.
  • Suhu.
  • Jarak atau tinggi badan.

Contoh detail:

  • Seseorang tidak hanya berusia 23 tahun, tapi bisa 23,5 tahun; atau bahkan lebih detail seperti 23 tahun 6 bulan 2 hari 3 detik 8 milidetik, dan seterusnya.
  • Berat badan bisa 150 kg, atau 150,305482 kg, dan bisa terus bertambah desimalnya.

Inilah alasan variabel kontinu disebut tak terhingga dan tidak dapat dihitung.

Penyajian Data pada Grafik untuk Variabel Kontinu

Histogram

  • Tidak memiliki celah antar batang.
  • Menunjukkan bahwa data bersifat terus menerus (continuous).
  • Nilai dapat berada di posisi mana pun sepanjang sumbu.

Histogram menggambarkan data yang bersifat mengalir tanpa putus.

Memahami variabel acak kontinu memerlukan pemahaman tentang cara probabilitas digambarkan dalam bentuk kurva. Pada variabel jenis ini, peluang tidak ditetapkan pada satu nilai tertentu, melainkan pada rentang nilai. Probabilitas ditentukan melalui luas di bawah kurva kerapatan peluang (PDF), yang menunjukkan bagaimana peluang tersebar secara menyeluruh dan berkesinambungan di dalam suatu interval. Pendekatan ini membantu menggambarkan sifat variabel kontinu yang memiliki kemungkinan nilai tak terhingga dalam suatu rentang.

3.2.1 Variabel Acak Kontinu

Variabel acak kontinu adalah variabel acak yang dapat mengambil nilai di sepanjang suatu interval, bukan nilai-nilai terpisah seperti pada variabel diskrit.

Contoh:

  • Waktu (detik)
  • Berat badan (kg)
  • Suhu (°C)
  • Tinggi badan (cm)

Ciri utama: Nilai yang mungkin tak terhingga banyaknya di suatu rentang.
Probabilitas pada titik tertentu selalu 0 \[P(X = 2.5) = 0\]

Yang memiliki probabilitas adalah interval: \[P(2 < X < 5)\]

3.2.2 Fungsi Kepadatan Probabilitas

Untuk variabel acak kontinu, peluang dihitung menggunakan fungsi kepadatan probabilitas (PDF). Sebuah fungsi \(f(X)\) disebut PDF jika memenuhi: 1. Selalu bernilai tidak negatif \[f(x) \ge 0\] 2. Luas total di bawah kurva PDF adalah 1 \[\int_{-\infty}^{\infty} f(x)\, dx = 1\] 3. Probabilitas suatu interval dihitung melalui integral \[P(a < X < b) = \int_{a}^{b} f(x)\, dx\] PDF bukan probabilitas langsung, melainkan kepadatan. Probabilitas dihitung dari luas area di bawah kurva.

3.2.3 Probabilitas Pada Interval

Karena nilai variabel kontinu tidak bisa dihitung satu per satu, maka probabilitas dihitung dalam bentuk interval, seperti: \[P(a < X < b)\] Aturannya: \[P(a < X < b) = \int_a^b f(x)\, dx\] Beberapa catatan penting:

  • Untuk kontinu: \[P(X = c) = 0\] sehingga: \[P(a < X < b) = P(a \le X \le b) = P(a < X \le b)\]
  • Yang berbeda hanyalah notasi, bukan nilainya.

Konsep probabilitas sebagai luas area sangat penting dalam memahami distribusi kontinu seperti distribusi normal.

3.2.4 Fungsi Distribusi Kumulatif

CDF adalah fungsi yang menyatakan peluang bahwa variabel acak \(X\) berada kurang dari atau sama dengan nilai tertentu \(x\).

Definisi: \[F(x) = P(X \le x)\] CDF diperoleh dari PDF: \[F(x) = \int_{-\infty}^{x} f(t)\,dt\] Sifat-sifat CDF:

  1. Bernilai antara 0 dan 1 \[0 \le F(x) \le 1\]
  2. Tidak pernah menurun (non-decreasing) Karena peluang kumulatif tidak bisa berkurang.
  3. Limit kiri dan kanan \[ \lim_{x \to -\infty} F(x) = 0, \qquad \lim_{x \to +\infty} F(x) = 1 \]
  4. Menghitung probabilitas interval \[P(a < X \le b) = F(b) - F(a)\]

3.3 Interpretasi

Variabel acak terbagi menjadi diskrit dan kontinu, berdasarkan sifat kemungkinan nilainya. Variabel diskrit hanya memiliki nilai-nilai terhitung (contoh: jumlah anak), dengan probabilitas yang dihitung per titik dan disajikan dalam diagram batang terpisah.

Sebaliknya, variabel kontinu dapat memiliki nilai tak terbatas dalam suatu rentang (contoh: tinggi badan). Pada variabel ini, probabilitas titik tunggal adalah nol - yang bermakna hanya probabilitas interval. Probabilitas ini diwakili oleh luas di bawah kurva Fungsi Kepadatan Probabilitas (PDF), dihitung melalui integral. Visualisasinya menggunakan histogram tanpa celas, mencerminkan kontinuitas data. Distribusi normal adalah contoh PDF kontinu yang paling fundamental dalam statistika.

4 Distribusi Sampling

4.1 Konsep Dasar

Untuk memahami sampling distribution, perlu dibedakan tiga jenis distribusi:

a. Distribusi Populasi

  • Distribusi yang menggambarkan seluruh anggota populasi.
  • Memiliki parameter mean \(\mu\) dan standar deviasi \(\sigma\).
  • Contoh: tinggi seluruh manusia di bumi.

b. Distribusi Sampel

  • Distribusi yang terbentuk dari nilai-nilai individu di dalam satu sampel.
  • Nilai rata-rata sampel bisa berbeda dari mean populasi karena ukuran sampel relatif kecil sehingga variabilitas lebih besar.

c. Distribusi Sampling

  • Distribusi dari statistik sampel, misalnya rata-rata sampel \(\bar{x}\), yang dihasilkan dari banyak sampel acak berukuran n.
  • Prosesnya meliputi: mengambil sampel acak, menghitunḡ \(\bar{x}\) , memplotnya di histogram, lalu mengulang proses tersebut ratusan atau ribuan kali.
  • Kumpulan nilai \(\bar{x}\) tersebut membentuk sampling distribution.

Fungsi Utama

Menyediakan cara efisien untuk memperkirakan parameter populasi tanpa mengukur seluruh individu. Memungkinkan penghitungan probabilitas tertentu berdasarkan ukuran sampel.

4.2 Bentuk Distribusi Sampling

Menurut Central Limit Theorem, jika ukuran sampel cukup besar:

  • Sampling distribution akan membentuk distribusi normal, meskipun populasi asal tidak normal.

  • Rata-rata sampling distribution sama dengan rata-rata populasi: \[\mu_{\bar{X}} = \mu\]

  • Penyebarannya lebih kecil dibanding populasi karena menggunakan standard error.

4.3 Sifat-Sifat Sampling Distribution

a. Rata-Rata Distribusi Sampling \[\mu_{\bar{X}} = \mu\] Rata-rata dari seluruh x̄ selalu sama dengan mean populasi.

b. Standard Error (SE) \[\sigma_{\bar{X}} = \frac{\sigma}{\sqrt{n}}\]

  • Nilai SE selalu lebih kecil dari σ.

  • Hal ini terjadi karena rata-rata bersifat lebih stabil dibanding pengamatan individual.

4.4 Standardisasi (Z-score)

1. Distribusi Populasi \[Z = \frac{X - \mu}{\sigma}\] Keterangan:

  • \(Z\) = nilai baku (Z-score), menunjukkan seberapa jauh nilai X dari rata-rata dalam satuan standar deviasi.
  • \(X\) = nilai pengamatan tunggal (data individu).
  • \(\mu\) = mean (rata-rata) populasi.
  • \(\sigma\) = standar deviasi populasi.

2. Distribusi Sampling \[Z = \frac{\bar{X} - \mu}{\sigma / \sqrt{n}}\] Keterangan:

  • \(Z\) = nilai baku dari rata-rata sampel.
  • \(\bar{X}\) = mean (rata-rata) sampel.
  • \(\mu\) = mean populasi (parameter).
  • \(\sigma\) = standar deviasi populasi.
  • \(n\) = ukuran sampel.
  • \(\frac{\sigma}{\sqrt{n}}\) = standard error (SE) = simpangan baku dari distribusi mean sampel.

4.5 Contoh Soal 1 Distribusi Sampling

Soal:

Tinggi penduduk Kanada berdistribusi normal dengan \(\mu\) = 160 cm, \(\sigma\) = 7 cm, untuk sampel acak berukuran n = 10 berapakah \(P(\bar{X} < 157)\)

Langkah 1: Tentukan jenis distribusi
Karena soal menanyakan probabilitas rata-rata sampel \(\bar{x}\), gunakan distribusi sampling. Rumus standar untuk standard error (SE): \[SE = \sigma_{\bar{X}} = \frac{\sigma}{\sqrt{n}}\] Langkah 2: Hitung Standard Error (langkah per digit)

\(\sigma = 7\), \(n = 10\) \[\sqrt{n} = \sqrt{10} \approx 3.1623\] \[SE = \frac{\sigma}{\sqrt{n}} = \frac{7}{3.1623} \approx 2.2136\] Dibulatkan untuk kerja praktis: SE ≈ 2.21 (jaga 2 desimal untuk tabel Z).

Langkah 3: Standardisasi (ubah \(\bar{x}\) menjadi Z)
Formula Z untuk sampling distribution: \[Z = \frac{\bar{X} - \mu}{SE}\] Masukkan nilai: \[\bar{X} = 157, \qquad \mu = 160\] \[ Z = \frac{157 - 160}{2.2135943621} = \frac{-3}{2.2135943621} \approx -1.3552618544 \]

Jika menggunakan pembulatan SE ke 2.21, maka: \[Z \approx \frac{-3}{2.21} \approx -1.3579\] \[Z \approx -1.36 \text{ (dibulatkan sesuai tabel Z)}\]

Langkah 4: Cari probabilitas (area kiri Z)

Dengan \(z \approx -1.36\), nilai \(P(Z < -1.36) \approx 0.0869 = 8.69\%\)

4.6 Contoh Soal 2 Population distribution

Soal: Proporsi seluruh orang yang mempunyai tinggi > 170 cm?

Langkah 1: Tentukan jenis distribusi
Soal menyebut “seluruh orang”, sehingga bekerja pada variabel individu X dalam distribusi populasi.

Langkah 2: tandardisasi (Z untuk X)
Rumus: \[Z = \frac{X - \mu}{\sigma}\] Masukkan nilai:

\[X = 170, \mu = 160, \sigma = 7\]
\[ Z = \frac{170 - 160}{7} = \frac{10}{7} \approx 1.4285714286 \]

Pembulatan ke dua desimal untuk tabel Z → 1.43.

Langkah 3: Cari probabilitas (area kanan)
Tabel Z memberi area kiri untuk Z = 1.43: 0.9236. Karena yang diminta area kanan (lebih besar dari 170): \[P(X > 170) = 1 - P(Z \le 1.43) = 1 - 0.9236 = 0.0764\] interpretasi akhir: \[P(X > 170) = 0.0764 = 7.64\%\]

4.7 Interpretasi

Distribusi sampling adalah distribusi dari suatu statistik (misal rata-rata sampel \(\bar{x}\)) yang diperoleh dari pengambilan banyak sampel. Menurut Central Limit Theorem (CLT), jika ukuran sampel cukup besar (\(n \ge 30\)), distribusi ini akan mendekati normal meskipun populasi asal tidak normal, dengan rata-rata sama dengan rata-rata populasi (\(\mu\)) dan penyebaran yang lebih kecil yang diukur oleh standard error (\(\sigma / \sqrt{n}\)). Proses standarisasi menggunakan rumus Z yang berbeda untuk data individu (\(Z = \frac{X - \mu}{\sigma}\)) dan untuk rata-rata sampel (\(Z = \frac{\bar{X} - \mu}{\sigma / \sqrt{n}}\)), sebagaimana terlihat dalampenerapannya yang menghitung probabilitas yang berbeda untuk kasus rata-rata sampel versus data individu.

5 Teorema Limit Pusat

5.1 Pengertian

A. Distribusi Sampling

Sampling distribution adalah distribusi dari suatu statistik (misalnya mean sampel \(\bar{X}\)) yang diperoleh melalui proses berikut:

  • Mengambil banyak sampel acak sederhana (simple random samples) dari suatu populasi.
  • Menghitung statistik (misalnya mean \(\bar{X}\)) untuk setiap sampel.
  • Menggabungkan seluruh nilai \(\bar{X}\) tersebut ke dalam sebuah grafik : menghasilkan distribusi sampling dari \(\bar{X}\). Intinya:

Distribusi sampling menunjukkan bagaimana rata-rata sampel (\(\bar{X}\)) akan berperilaku jika kita mengambil banyak sampel dari populasi yang sama.

B. Central Limit Theorem (CLT)

Central Limit Theorem menyatakan bahwa:

Jika ukuran sampel (n) cukup besar, umumnya \(n \ge 30\), maka distribusi sampling dari rata-rata sampel (\(\bar{X}\)) akan mendekati distribusi normal, meskipun populasi awal tidak normal.

Implikasi penting CLT:

  • Populasi boleh miring (right skewed / left skewed), tidak simetris, bahkan sangat tidak normal.
  • Namun jika \(n \ge 30\), distribusi sampling dari \(\bar{X}\) tetap akan mendekati kurva normal.
  • Inilah alasan mengapa banyak metode statistik menggunakan asumsi normal.

5.2 Tabel Notasi Statistika

Berikut adalah notasi yang digunakan untuk parameter populasi dan statistik sampel:

Istilah Populasi Sampel
Mean μ
Simpangan Baku σ s

5.3 Distribusi Sampling Menjadi Normal

Saat mengambil banyak sampel:

  • Sebagian besar data dalam sampel berasal dari bagian “besar” populasi (daerah dengan probabilitas tinggi).
  • Nilai mean sampel (\(\bar{X}\)) cenderung mendekati mean populasi (\(\mu\)).
  • Beberapa \(\bar{X}\) mungkin berada jauh dari \(\mu\), tetapi itu jarang terjadi.

Ketika semua nilai \(\bar{X}\) digabungkan, terbentuk pola yang “menumpuk” di tengah dan memanjang di kedua sisi, sehingga menghasilkan bentuk kurva lonceng → normal curve.

5.4 Syarat Ukuran Sampel

Aturan umum:

\(n \ge 30\) : distribusi sampling akan mendekati normal.

Penjelasan:

  • \(n \ge 30\) : CLT dapat diterapkan dengan aman
  • \(n < 30\) : CLT tidak dapat diterapkan, kecuali jika:

Populasi asli sudah berdistribusi normal : maka distribusi sampling akan normal meski n kecil Catatan praktis:

Meski CLT bisa diterima untuk n kecil jika populasi normal, dalam praktiknya ukuran sampel besar (\(\ge 30\)) tetap lebih baik karena memberikan estimasi yang lebih presisi dan andal.

5.5 Visualisasi Histogram

1. Contoh Populasi Right-Skewed

Interpretasi:

Berdasarkan gambar, populasi ini memiliki distribusi right-skewed (miring ke kanan), di mana mayoritas data terkonsentrasi di nilai rendah di sisi kiri, sementara beberapa nilai ekstrem tinggi membentuk ekor panjang di sisi kanan. Pola ini menunjukkan distribusi yang tidak normal.

Menurut Central Limit Theorem (CLT), meskipun populasi aslinya tidak normal seperti ini, distribusi sampling dari rata-rata sampel (\(\bar{x}\)) akan mendekati bentuk normal asalkan ukuran sampel yang diambil berulang kali cukup besar, yaitu minimal 30 observasi per sampel. Sebaliknya, jika ukuran sampel kecil (\(<30\)), distribusi rata-ratanya akan tetap mempertahankan kemiringan seperti populasi aslinya. Fenomena ini memungkinkan penggunaan teknik statistik berbasis normalitas untuk menganalisis rata-rata dari populasi yang bentuk aslinya jauh dari normal.

2. Distribusi Sampling (n = 10) – masih skewed

Interpretasi

Sampel berukuran n = 10 masih terlalu kecil untuk diterapkannya Central Limit Theorem. Dengan ukuran ini, distribusi sampling dari rata-rata sampel (\(\bar{x}\)̄) belum tentu normal dan masih bisa mencerminkan bentuk asli populasi (misalnya tetap miring), kecuali jika populasi aslinya sudah normal sejak awal.

Dari grafik yang tampak, distribusi sampling untuk n = 10 menunjukkan bentuk yang tidak simetris, masih terlihat miring ke salah satu sisi atau tidak membentuk pola lonceng yang khas distribusi normal. Hal ini sejalan dengan teori bahwa dengan sampel kecil, distribusi rata-rata sampel belum mendekati normal.

3. Distribusi Sampling (n = 30) – mulai normal

Interpretasi

Dengan ukuran sampel n = 30, Central Limit Theorem sudah berlaku. Artinya, meskipun populasi aslinya tidak normal, distribusi sampling dari rata-rata sampel (\(\bar{x}\)̄) akan mendekati bentuk normal.

Grafik distribusi sampling untuk n = 30 sudah menunjukkan bentuk yang simetris dan mendekati pola lonceng, yang merupakan ciri khas distribusi normal. Hal ini membuktikan klaim CLT bahwa distribusi rata-rata sampel mendekati normal ketika ukuran sampel cukup besar (≥30).

4. Distribusi Sampling (n = 100) – sangat normal

Interpretasi

Dengan ukuran sampel n = 100, Central Limit Theorem berlaku dengan sangat baik. Distribusi sampling dari rata-rata sampel (\(\bar{x}\)̄) akan mendekati distribusi normal dengan pendekatan yang lebih baik daripada n = 30.

Grafik distribusi sampling untuk n = 100 menunjukkan bentuk lonceng yang sangat simetris dan jelas, menandakan distribusi yang sudah sangat mendekati normal. Variasi nilai rata-rata sampel juga terlihat lebih terkonsentrasi di sekitar pusat distribusi dibandingkan dengan sampel yang lebih kecil.

5.6 Contoh Soal

Manakah dari pernyataan berikut yang menghasilkan distribusi sampling \(\bar{X}\) yang mendekati normal?

    1. Populasi miring, \(n\)= 10
    1. Populasi tidak normal, \(n\) = 20
    1. Populasi tidak normal, \(n\) = 30
    1. Populasi skewed, \(n\) = 50
    1. Populasi normal, \(n\) = 15
    1. Populasi apa pun, \(n\) = 100

Pembahasan:

    1. Populasi miring, \(n\) = 10
      n terlalu kecil → CLT belum berlaku → sampling distribution tidak normal.
    1. Populasi tidak normal, \(n\) = 20
      n < 30 → distribusi sampling belum stabil → tidak normal.
    1. Populasi tidak normal, \(n\) = 30
      n = 30 → batas minimal CLT → distribusi sampling mulai normal.
    1. Populasi skewed, \(n\) = 50
      n besar → CLT berlaku → hasil mendekati normal.
    1. Populasi normal, \(n\) = 15
      Jika populasinya normal → mean sampel selalu berdistribusi normal. Tidak perlu n ≥ 30.
    1. Populasi apa pun, \(n\) = 100
      n sangat besar → sampling distribution pasti normal.

Jawaban yang benar adalah: C, D, E, dan F.

5.7 Interpretasi

Distribusi sampling merupakan distribusi dari suatu statistik seperti rata-rata sampel (x̄) yang diperoleh melalui pengambilan banyak sampel acak sederhana dari populasi, di mana Central Limit Theorem (CLT) menyatakan bahwa jika ukuran sampel cukup besar (umumnya n ≥ 30), distribusi sampling rata-rata sampel akan mendekati normal meskipun populasi awalnya tidak normal, sehingga CLT berperan sebagai fondasi banyak metode statistik inferensial dengan mengubah ketidakteraturan populasi menjadi keteraturan dalam distribusi rata-rata sampel, meskipun untuk populasi yang sudah normal distribusi sampling akan normal untuk ukuran sampel berapa pun.

6 Proporsi Sampel

6.1 Konsep Dasar

A.Distribusi sampling

Distribusi sampling (sampling distribution) adalah distribusi sebuah statistik yang dihasilkan dengan cara:

  • Mengambil banyak sampel acak dari suatu populasi,
  • Menghitung nilai statistik dari tiap sampel, seperti rata-rata sampel \(\bar{X}\) atau proporsi sampel \(\hat{p}\)
  • Lalu menempatkan seluruh nilai statistik tersebut dalam satu grafik.

Hasil grafik itu disebut sampling distribution, yaitu distribusi dari nilai-nilai statistik sampel.

B.Proporsi

Proporsi menggambarkan bagian dari keseluruhan yang memenuhi kondisi tertentu.
Rumus proporsi: \[ p = \frac{\text{favorable outcomes}}{\text{total outcomes}} \]

  • Untuk populasi → simbol p
  • Untuk sampel → simbol \(\hat{p}\) (dibaca: p-hat)

Contoh:
1. Sampel

  • Sampel = 10 orang
  • Jumlah yang bermata hijau = 2 \[ \hat{p} = \frac{10}{50} = 0.2 \]
  1. Populasi
  • Ukuran populasi = 5000
  • Jumlah yang bermata hijau = 900 \[ p = \frac{900}{5000} = 0.18 \]

6.2 Variasi pada P̂

Jika kita mengambil banyak sampel dari populasi yang sama, nilai \(\hat{p}\) tidak akan selalu sama, misalnya:

  • 0.21
  • 0.19
  • 0.17

Perbedaan ini terjadi karena sampel acak dan sifat probability.

Jika semua nilai \(\hat{p}\) digabung menjadi satu grafik, hasilnya adalah:
Sampling Distribution of P̂ yaitu distribusi sampling dari proporsi sampel

6.3 Mean dan Standard Deviation dari Distribusi Sampling P̂

Jika distribusi sampling mengikuti distribusi normal, maka:

  1. Mean (μ_{p̂}) \[\mu_{\hat{p}} = p\]

Artinya, rata-rata semua proporsi sampel sama dengan proporsi populasi.

  1. Standard Deviation (σ_{p̂}) \[Z = \frac{ \hat{p} - p }{ \sqrt{ \frac{p(1-p)}{n} } }\] Dengan:
  • \(n\) = ukuran sampel
  • \(p\) = proporsi keberhasilan,
  • \(1−p\) = proporsi kegagalan.

6.4 Standardisasi (Z-score) untuk Proporsi

Untuk mencari peluang menggunakan tabel Z, gunakan rumus: \[Z = \frac{ \hat{p} - p }{ \sqrt{ \frac{p(1-p)}{n} } }\]

6.5 Syarat Central Limit Theorem (CLT) untuk Proporsi

Berbeda dengan rata-rata sampel yang mensyaratkan \(n \ge 30\), untuk proporsi harus memenuhi:

  • \(n.p \ge 10\)
  • \(n.(1 - p) \ge 10\)

Jika dua syarat ini terpenuhi:
Distribusi sampling untuk \(\hat{p}\) dapat dianggap normal, sehingga rumus Z bisa dipakai.

6.6 Interpretasi

Distribusi sampling proporsi (\(\hat{p}\)) menggambarkan variasi nilai \(\hat{p}\) dari banyak sampel acak, dengan rata-rata sama dengan proporsi populasi \(p\) dan standar deviasi \(\sqrt{\frac{p(1-p)}{n}}\). Syarat \(n.p \ge 10\),
\(n.(1 - p) \ge 10\) memungkinkan pendekatan normal untuk menghitung probabilitas menggunakan z-score, menjadi dasar inferensi statistik seperti selang kepercayaan dan uji hipotesis.

7 Tinjauan Distribusi Sampel

Dalam video ini dibahas kembali tiga konsep penting dalam statistika dasar, yaitu:

  • Probabilitas (peluang)
  • Distribusi binomial
  • Distribusi sampling dari proporsi sampel (sampling distribution of p)

Ketiga konsep ini sebenarnya saling berkaitan, tetapi sering kali terasa membingungkan jika dipelajari secara terpisah. Karena itu, video ini menyatukan seluruh konsep tersebut dalam satu pembahasan yang utuh, kemudian dilengkapi dengan beberapa contoh soal untuk membantu memperjelas penerapannya.

Setelah memahami penjelasan mengenai probabilitas dan ciri-ciri distribusi binomial, video ini kemudian menyajikan beberapa latihan soal sebagai ilustrasi bagaimana konsep-konsep tersebut digunakan dalam situasi yang lebih nyata.

7.1 Probabilitas Dasar

Contoh konteks:

Sebuah toples berisi:

  • 200 kelereng hijau
  • 300 kelereng biru
    Total = 500 kelereng.
    Probabilitas mengambil kelereng hijau: \[P(\text{hijau}) = \dfrac{50}{200} = 0.4\]

Probabilitas mengambil kelereng biru: Jika kelereng diambil dengan pengembalian (with replacement), maka setiap pengambilan adalah independen. \[P(\text{biru}) = \dfrac{50}{300} = 0.6\]

7.2 Contoh Soal 1

Soal: Jika diambil 3 kali dengan pengembalian, berapa probabilitas mendapatkan setidaknya 2 kelereng hijau?

Setidaknya 2 hijau berarti:

  • Tepat 2 hijau
  • Tepat 3 hijau

Penyelesaian menggunakan enumerasi (sample space)
Probabilitas masing-masing urutan dihitung dengan mengalikan peluang tiap kejadian.
Contoh: \[P(G,G,B) = 0.4 \times 0.4 \times 0.6 = 0.096\] Untuk tepat 2 hijau, ada 3 urutan berbeda, semuanya memiliki peluang 0.096. \[P(\text{tepat 2 hijau}) = 3 \times 0.096 = 0.288\] Untuk tepat 3 hijau: \[P(G,G,G) = 0.4^{3} = 0.064\] Sehingga: \[P(\ge 2\ \text{hijau}) = 0.288 + 0.064 = 0.352\]

7.3 Contoh Soal 2: Binomial (n = 5)

Soal: Jika diambil 5 kali, berapa probabilitas mendapatkan setidaknya 2 kelereng hijau?

Kita gunakan Distribusi Binomial: \[X \sim \text{Binomial}(n=5,\, p=0.4)\] Yang dicari: \[P(X \ge 2) = P(2) + P(3) + P(4) + P(5)\] Gunakan rumus binomial: \[P(X = k) = \binom{5}{k} (0.4)^k (0.6)^{5-k}\] Contoh untuk k = 2: \[P(2) = \binom{5}{2}(0.4)^2(0.6)^3 = 0.3456\] Hasil akhirnya (setelah menjumlahkan semua): \[P(X \ge 2) = 0.6634\]

7.3.1 visualisasi

Interpretasi visualisai

Berdasarkan visualisasi distribusi binomial dengan n = 5 dan p = 0.4, probabilitas mendapatkan setidaknya 2 kelereng hijau adalah 0,663 atau 66,3%, yang direpresentasikan oleh area hijau pada grafik (k = 2 hingga k = 5), sementara probabilitas mendapatkan kurang dari 2 hijau hanya 0,337 atau 33,7% yang ditunjukkan oleh area merah (k = 0 dan k = 1). Distribusi ini memiliki modus di k = 2 dengan probabilitas tertinggi 0,346 (34,6%), yang sesuai dengan nilai harapan E(X)= 2, dan menunjukkan bahwa meskipun peluang per pengambilan hanya 40%, setelah 5 percobaan peluang mencapai target minimal 2 hijau justru melebihi 50%.

7.4 Contoh Soal 3: n = 100 (Distribusi Sampling p̂)

Soal: Jika diambil 100 kali, berapa aproksimasi probabilitas mendapatkan setidaknya 35 kelereng hijau?
Karena n = 100 terlalu besar untuk:

  • enumerasi sample space
  • perhitungan binomial berulang (dari k = 35 sampai 100)

maka digunakan Sampling Distribution of the Sample Proportion: \[\hat{p} = \frac{100}{35} = 0.35,\quad p = 0.4,\quad n = 100\]

7.4.1 Cek Syarat Central Limit Theorem (CLT)

Syarat:

  • \(n.p \ge 10\)
  • \(n.(1 - p) \ge 10\)

Hitung: - \(100(0.4)=40 \ge 10\) - \(100(0.6)=60 \ge 10\)

CLT berlaku, sehingga distribusi p̂ mendekati Normal.

7.4.2 Hitung Z-score

Gunakan standar deviasi proporsi: \[\sigma_{\hat{p}} = \sqrt{\frac{p(1-p)}{n}}\sigma_{\hat{p}} = \sqrt{\frac{0.4(0.6)}{100}} = 0.049\] Z-score: \[z= \frac{0.35 - 0.4}{0.049} = -1.02\] Dari tabel Z: \[P(Z < -1.02) = 0.1539\] Ini adalah probabilitas kurang dari 35.
Untuk mencari setidaknya 35, ambil area kanan: \[P(X \ge 35) = 1 - 0.1539 = 0.8461\] Jadi peluangnya ≈ 84.61%.

7.4.3 Visualisasi

Interpretasi visualisai

Visualisasi ini menggambarkan distribusi sampling dari proporsi sampel (\(\hat{p}\)) yang mendekati normal dengan puncak pada p = 0.4 (garis hijau), di mana garis biru putus pada \(\hat{p}\) = 0.35 menandai batas minimal pertanyaan, dan area biru muda di sebelah kanannya seluas 84,61% merepresentasikan peluang mendapatkan setidaknya 35 kelereng hijau dari 100 pengambilan — menunjukkan bahwa kejadian ini sangat mungkin terjadi karena batas 0,35 berada di sebelah kiri rata-rata populasi.

7.5 Interpretasi

Materi ini menunjukkan perkembangan metode statistik dari enumerasi langsung untuk sampel kecil (n = 3), distribusi binomial untuk sampel sedang (n = 5), hingga pendekatan normal berdasarkan Teorema Limit Pusat (CLT) untuk sampel besar (n = 100) — di mana CLT memungkinkan aproksimasi distribusi proporsi sampel menjadi normal dengan mean p = 0.4 dan standar deviasi 0.049, sehingga probabilitas mendapat minimal 35 hijau dapat dihitung via z-score (-1.02) yang menghasilkan peluang 84.61%, divisualisasikan sebagai area biru luas di kanan \(\hat{p}\) = 0.35 pada kurva normal, mengonfirmasi bahwa kejadian ini sangat mungkin karena batasnya berada di sebelah kiri rata-rata populasi.

8 Referensi

Bookdown. (n.d.). Probability distributions. Retrieved from
https://bookdown.org/dsciencelabs/intro_statistics/07-Probability_Distributions.html

Hei Publishing Indonesia. (n.d.). Statistika dasar. Retrieved from
https://karyailmiah.id/wp-content/uploads/publikasi/hei-publishing-indonesia/statistika-dasar/1747463760-WEB-STATISTIKA-DASAR.pdf?utm_

Online Statistics Education. (n.d.). Online statistics education textbook. Retrieved from https://onlinestatbook.com/Online_Statistics_Education.pdf

eCampusOntario Pressbooks. (n.d.). The central limit theorem and sampling distributions. Retrieved from https://ecampusontario.pressbooks.pub/introstats/part/ch6-the-central-limit-theorem-and-sampling-distributions/?utm_

eCampusOntario Pressbooks. (n.d.). Introduction to sampling distributions and the central limit theorem. Retrieved from
https://ecampusontario.pressbooks.pub/introstats/chapter/6-1-introduction-to-sampling-distributions-and-the-central-limit-theorem/

eCampusOntario Pressbooks. (n.d.). Sampling distribution of the sample proportion. Retrieved from https://ecampusontario.pressbooks.pub/introstats/chapter/6-3-sampling-distribution-of-the-sample-proportion/