Nailatul Wafiroh

Nailatul Wafiroh

Student Major in Data Science

Lecturer: Bakti Siregar, M.Sc., CDS

R Programming Data Science Statistics

1 Probability Distribution

Probabilitas membantu kita memahami seberapa besar kemungkinan suatu peristiwa terjadi, dan menjadi dasar dari banyak metode statistik yang digunakan untuk pengambilan keputusan. Ketika suatu percobaan dapat menghasilkan berbagai macam hasil, kita menggunakan peubah acak (random variable) untuk mewakili hasil tersebut, dan distribusi probabilitas untuk menggambarkan bagaimana peluang diberikan pada setiap nilai yang mungkin.

Memahami bentuk dan sifat suatu distribusi sangat penting karena distribusi menentukan:

  • bagaimana data berperilaku,
  • bagaimana kita menghitung peluang,
  • dan bagaimana kita membuat prediksi.

Berikut beberapa konsep penting yang dijelaskan dalam materi:

1. Peubah Acak Kontinu (Continuous Random Variables)

Digunakan untuk variabel yang nilainya berada dalam rentang yang bersifat kontinu, seperti waktu, tinggi badan, atau suhu. Distribusi kontinu menunjukkan peluang nilai berada dalam suatu interval tertentu.

2. Distribusi Sampling (Sampling Distributions)

Merupakan distribusi dari statistik sampel, seperti:

  • rata-rata sampel,
  • proporsi sampel.

Konsep ini membantu kita memahami seberapa besar variasi yang terjadi antara satu sampel dan sampel lainnya.

3. Teorema Limit Tengah (Central Limit Theorem / CLT)

CLT menyatakan bahwa distribusi rata-rata sampel akan cenderung mendekati distribusi normal, meskipun data aslinya tidak normal, selama ukuran sampel cukup besar. Ini adalah alasan mengapa distribusi normal sangat penting dalam statistik.

4. Distribusi Proporsi Sampel

Digunakan ketika kita bekerja dengan data proporsi, misalnya persentase responden yang memilih pilihan tertentu dalam survei.

1.1 Kejadian Acak

1.1.1 Continuous Random

Variabel diskrit adalah variabel yang hanya dapat mengambil nilai yang dapat dihitung (countable). Nilai-nilai ini biasanya merupakan bilangan bulat atau bilangan yang terbatas.

Karakteristik Variabel Diskrit

  • Memiliki nilai yang terbatas atau dapat dihitung
  • Diperoleh melalui proses menghitung (counting)
  • Memiliki “lompatan” antara satu nilai dengan nilai lainnya
  • Tidak ada nilai di antara dua nilai diskrit yang berdekatan

1.1.2 Contoh Variabel Diskrit

Contoh 1: Jumlah Anak dalam Keluarga

Dalam survei di suatu lingkungan, kita menanyakan jumlah anak dalam setiap keluarga. Kemungkinan jawabannya:

  • 0 anak
  • 1 anak
  • 2 anak
  • 3 anak
  • 4 anak

Catatan: Tidak masuk akal untuk mengatakan sebuah keluarga memiliki 0,73 anak atau setengah anak.

Contoh 2: Hasil Pelemparan Koin

Jika kita melempar 4 koin sekaligus dan menghitung jumlah sisi kepala (heads), kemungkinan hasilnya:

Contoh 3: Variabel Diskrit dengan Desimal

Tidak semua variabel diskrit hanya berupa bilangan bulat:

Saldo Bank:

  • $420.69
  • $1,250.50
  • $89.99

Nilai Ujian:

  • 5 dari 10
  • 7.5 dari 10
  • 9.25 dari 10

Meskipun memiliki nilai desimal, variabel-variabel ini tetap diskrit karena nilainya terbatas dan dapat dihitung.

1.1.3 Sifat Variabel Diskrit

  1. Finite atau Countably Infinite: Jumlah nilai yang mungkin terbatas atau dapat dihitung
  2. Terpisah: Ada jarak yang jelas antara satu nilai dengan nilai lainnya
  3. Dapat Dilist: Semua nilai yang mungkin dapat didaftarkan

1.1.4 Variabel Kontinu

Variabel kontinu adalah variabel yang dapat mengambil semua nilai numerik dalam suatu interval tertentu. Variabel ini memiliki kemungkinan nilai yang tak terbatas (infinite) dan tidak dapat dihitung (uncountable).

Karakteristik Variabel Kontinu

  • Dapat mengambil nilai apa saja dalam suatu rentang
  • Diperoleh melalui proses mengukur (measuring)
  • Tidak ada “lompatan” antara nilai-nilai
  • Memiliki presisi yang tidak terbatas

1.1.5 Contoh Variabel Kontinu

Contoh 1: Usia

Misalkan kita mengukur usia seseorang:

  • Pada pandangan pertama: 23 tahun
  • Lebih detail: 23.5 tahun atau 23 tahun 6 bulan
  • Lebih detail lagi: 23 tahun, 6 bulan, 2 hari
  • Sangat detail: 23 tahun, 6 bulan, 2 hari, 3 detik, 8 milidetik
  • Ultra detail: 23 tahun, 6 bulan, 2 hari, 3 detik, 8 milidetik, 1 nanodetik, 32 pikodetik…

Dan seterusnya hingga tak terbatas!

Contoh 2: Visualisasi Distribusi Tinggi Badan

Contoh 3: Variabel Kontinu Lainnya

  • Suhu: 36.5°C, 36.512°C, 36.51234°C…
  • Jarak: 10.5 km, 10.523 km, 10.52341 km…
  • Tinggi Badan: 170 cm, 170.5 cm, 170.523 cm…
  • Waktu: 2.5 jam, 2.53 jam, 2.5342 jam…

1.1.6 Sifat Variabel Kontinu

  1. Uncountably Infinite: Jumlah nilai yang mungkin tidak dapat dihitung
  2. Kontinu: Tidak ada jarak antara nilai-nilai yang berdekatan
  3. Presisi Tak Terbatas: Dapat diukur dengan tingkat ketelitian yang semakin tinggi

1.1.7 Perbedaan Variabel Diskrit dan Kontinu

Table 1: Perbandingan Variabel Diskrit dan Kontinu
Aspek Variabel Diskrit Variabel Kontinu
Definisi Nilai dapat dihitung Nilai dapat diukur
Cara Memperoleh Menghitung (counting) Mengukur (measuring)
Jumlah Nilai Terbatas atau dapat dihitung Tak terbatas dan tidak dapat dihitung
Contoh Jumlah anak, jumlah koin Berat, tinggi, suhu, usia
Nilai Antara Tidak ada nilai di antara Ada nilai di antara
Grafik Bar chart (dengan jarak) Histogram (tanpa jarak)
Probabilitas P(X = x) dapat dihitung P(X = x) = 0, hanya P(a <= X <= b)

1.1.8 Representasi Visual

Bar Chart untuk Variabel Diskrit

Karakteristik Bar Chart:

  • Setiap batang mewakili nilai diskrit yang spesifik
  • Ada jarak antara batang-batang
  • Jarak menunjukkan tidak ada kontinuitas
  • Setiap hasil adalah entitas terpisah

Histogram untuk Variabel Kontinu

Karakteristik Histogram:

  • Batang-batang saling bersentuhan (tidak ada jarak)
  • Menunjukkan kontinuitas data
  • Dapat memplot nilai apa saja dalam rentang
  • Luas area mewakili probabilitas

1.1.9 Density Curve (Kurva Kepadatan)

Kurva kepadatan adalah fungsi yang menggambarkan sebaran probabilitas dari variabel acak kontinu. Grafiknya halus (smooth curve) dan mewakili bentuk distribusi, seperti distribusi normal, uniform, gamma, dsb.

Sifat Utama Kurva Kepadatan

  1. Seluruh luas di bawah kurva = 1 \[ \int_{-\infty}^{\infty} f(x)\,dx = 1 \]

  2. Probabilitas dihitung sebagai luas area di bawah kurva pada suatu interval Contoh: \[ P(160 \le X \le 170) \]

  3. Probabilitas tepat satu nilai = 0 \[ P(X = 165) = 0 \] Karena variabel kontinu memiliki nilai tak hingga banyaknya.

  4. Yang bisa dihitung hanyalah probabilitas interval

    Contoh:

    • \(P(150 < X < 180)\)
    • \(P(160 \le X \le 170)\)

Contoh Visualisasi Kurva Kepadatan Distribusi Normal

Misalkan tinggi badan mahasiswa mengikuti distribusi normal dengan:

  • Rata-rata (μ) = 165 cm
  • Standar deviasi (σ) = 10 cm
    Kita ingin menghitung peluang tinggi antara 160–170 cm dan menampilkannya sebagai area di bawah kurva.

1.1.10 Rumus-Rumus Penting untuk Variabel Diskrit & Variabel Kontinu

Variabel Acak Diskrit

Variabel diskrit mengambil nilai yang dapat dihitung (countable), seperti 0, 1, 2, 3, …
Contoh: jumlah anak, jumlah koin yang muncul kepala, banyaknya barang rusak.

1. Fungsi Probabilitas (Probability Mass Function / PMF) \[ P(X = x) \] Syarat: \[ \sum P(X = x) = 1, \quad 0 \le P(X = x) \le 1 \]

2. Nilai Harapan (Mean) \[ E(X) = \sum x \cdot P(X = x) \]

3. Varians \[ Var(X) = \sum (x - E(X))^2 P(X = x) \]

4. Distribusi Binomial (contoh diskrit paling umum) Jika \(X \sim Bin(n, p)\), maka:

PMF: \[ P(X = k) = \binom{n}{k} p^k (1-p)^{n-k} \]

Mean: \[ E(X) = np \]

Varians: \[ Var(X) = np(1-p) \]

Variabel Acak Kontinu

Variabel kontinu memiliki nilai yang dapat diukur dan tak hingga banyaknya dalam interval tertentu.

Contoh: tinggi, berat, waktu, suhu.

1. Fungsi Kepadatan Probabilitas (PDF) \[ f(x) \]

Syarat: \[ f(x) \ge 0,\quad \int_{-\infty}^{\infty} f(x)\,dx = 1 \]

Probabilitas suatu interval: \[ P(a \le X \le b) = \int_{a}^{b} f(x)\,dx \]

Penting:
\[ P(X = \text{nilai tertentu}) = 0 \]

Distribusi Normal (contoh kontinu paling umum)

Jika \(X \sim N(\mu, \sigma)\), maka:

PDF: \[ f(x) = \frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}} \]

Probabilitas interval:

\[ P(a \le X \le b) = F(b) - F(a) \]

di mana \(F(x) = \text{CDF normal}\), dihitung dengan pnorm() di R.

Rumus Mean dan Varians \[ E(X) = \mu, \qquad Var(X) = \sigma^2 \]

1.1.11 Hubungan Diskrit vs Kontinu (Ringkasan)

Table 2: Table 3: Perbedaan Variabel Diskrit dan Kontinu
Aspek Diskrit Kontinu
Notasi fungsi PMF PDF
Bentuk titik-titik nilai kurva halus
Rumus peluang P(X = x) ∫ f(x) dx
Probabilitas satu nilai bisa > 0 selalu 0
Representasi grafik bar chart density curve / histogram
Contoh binomial, poisson normal, uniform, exponential

1.2 Sampling Distributions

1.2.1 Pendahuluan

Dalam statistika, tujuan utama adalah mengambil kesimpulan tentang populasi berdasarkan data sampel. Karena tidak mungkin mengukur seluruh anggota populasi dalam banyak kasus, kita menggunakan sampling. Agar dapat melakukan estimasi, uji hipotesis, atau analisis inferensial lainnya, kita membutuhkan konsep penting yaitu sampling distribution. Di mana sampling distribution digunakan untuk:

  • estimasi parameter (mean, proporsi),
  • standard error,
  • interval kepercayaan,
  • uji hipotesis.

1.2.2 Populasi, Sampel, dan Statistik

Populasi

Populasi adalah seluruh individu/objek yang menjadi objek penelitian.

Contoh: tinggi badan seluruh warga negara.

Populasi memiliki parameter, misalnya:

  • mean populasi: 𝜇
  • standar deviasi populasi: 𝜎

Jika \(X \sim N(\mu, \sigma)\) maka nilai standar (Z-score) dihitung dengan rumus:

\[Z = \frac{X - \mu}{\sigma}\].

Sampel

Sampel adalah sebagian dari populasi. Dari satu sampel, kita bisa menghitung statistik:

  • mean sampel: \(\bar{X}\)

  • standar deviasi sampel: 𝑠

Karena sampel kecil dan terbatas, nilai statistiknya bisa berbeda-beda antar sampel. Contoh:

  • Sampel 1: rata-rata tinggi = 153 cm
  • Sampel 2: rata-rata tinggi = 157 cm
  • Sampel 3: rata-rata tinggi = 160 cm

1.2.3 Distribusi Sampel

Distribusi sampel adalah distribusi data dalam satu sampel tunggal.

Contoh: Jika kita mengambil sampel 5 orang dan mencatat tinggi mereka, tinggi-tinggi itu membentuk sample distribution.

Ini bukan sampling distribution, karena hanya berasal dari 1 sampel.

1.2.4 Distribusi Sampling

Sampling distribution adalah distribusi dari suatu statistik (biasanya mean) yang diperoleh dari banyak sampel acak ukuran sama (n) yang ditarik dari populasi yang sama.

Misalnya:

  • Ambil sampel 5 orang → hitung rata-rata → simpan.
  • Ambil sampel 5 orang lagi → hitung rata-rata → simpan.
  • Ulangi ratusan kali.

Plot seluruh nilai rata-rata itu → terbentuk sampling distribution of the sample mean.

Kenapa penting?

Karena:

  • kita bisa memperkirakan parameter populasi tanpa mengukur semua orang,
  • kita bisa menghitung probabilitas,
  • sampling distribution menjadi dasar interval kepercayaan dan uji hipotesis (materi inferensial di buku Statistik II).

Jika sampel diambil cukup banyak, distribusi rata-rata sampel (\(\bar{X}\)) akan berbentuk normal, meskipun populasi asli tidak normal. Ini disebut Central Limit Theorem (CLT).

1.2.5 Sifat-Sifat Sampling Distribution of the Sample Mean

1. Rata-rata Sampling Distribution

Rata-rata semua mean sampel (disebut mean of the sampling distribution) ditulis sebagai:

\[ \mu_{\bar{X}} \]

Teorema menyatakan bahwa nilai ini selalu sama dengan mean populasi, yaitu:

\[ \mu_{\bar{X}} = \mu \]

Artinya, rata-rata sampel secara keseluruhan adalah estimator yang tidak bias (unbiased estimator) untuk mean populasi.

2. Standard Error (SE)

Standard Error adalah simpangan baku dari sampling distribution. Rumusnya:

\[ \sigma_{\bar{X}} = \frac{\sigma}{\sqrt{n}} \]

Maknanya:

  • SE lebih kecil dari standar deviasi populasi → sampling distribution lebih sempit dibandingkan distribusi populasi.
  • Semakin besar ukuran sampel \(n\), semakin kecil nilai SE, sehingga mean sampel menjadi semakin stabil.

Konsep SE sangat penting dalam statistika inferensial dan digunakan dalam:

  • perhitungan interval kepercayaan,
  • uji-t,
  • estimasi parameter populasi.

3. Variasi Lebih Kecil dari Data Asli

Populasi terdiri dari nilai individu, yang bervariasi besar. Sampling distribution terdiri dari rata-rata, yang variasinya lebih kecil. Itu sebabnya grafik sampling distribution lebih “sempit”.

1.2.6 Standardisasi (Z-score)

Standardisasi digunakan untuk mengubah suatu nilai menjadi skor baku (Z-score) sehingga dapat dihitung probabilitasnya menggunakan distribusi normal.

Z-score untuk Populasi

Untuk data individual (nilai \(X\)) yang berasal dari populasi dengan mean \(\mu\) dan standar deviasi \(\sigma\), rumus standardisasi adalah:

\[ Z = \frac{X - \mu}{\sigma} \]

Z-score untuk Sampling Distribution (Mean Sampel)

Untuk rata-rata sampel \(\bar{X}\), standardisasi menggunakan standard error:

\[ Z = \frac{\bar{X} - \mu}{\sigma / \sqrt{n}} \]

Rumus ini digunakan untuk menghitung probabilitas rata-rata sampel jatuh pada interval tertentu berdasarkan distribusi normal.

1.2.7 Contoh Soal

Contoh 1 — Menggunakan Sampling Distribution

Diketahui tinggi seluruh warga Kanada:

  • Mean populasi: \(\mu = 160\) cm
  • Standar deviasi: \(\sigma = 7\) cm
  • Ukuran sampel: \(n = 10\)

Ditanyakan:
Berapa probabilitas rata-rata 10 orang < 157 cm?

Perhitungan Manual

1. Hitung Standard Error

\[ \sigma_{\bar{X}} = \frac{7}{\sqrt{10}} = 2.21 \]

2. Hitung Z-score

\[ Z = \frac{157 - 160}{2.21} = -1.36 \]

3. Probabilitas

Area Z < –1.36 = 0.0869

Jadi probabilitasnya adalah 8.69%.

Contoh 2 — Menggunakan Population Distribution

Ditanyakan:
Berapa proporsi orang dengan tinggi > 170 cm?

Karena ini menggunakan data populasi, maka perhitungannya memakai population distribution, bukan sampling distribution.

Perhitungan Manual

1. Hitung Z-score

Misal:

  • Mean populasi: \(\mu = 160\)
  • Standar deviasi populasi: \(\sigma = 7\)
  • Nilai yang ditanyakan: \(X = 170\)

Maka:

\[ Z = \frac{170 - 160}{7} = 1.43 \]

2. Probabilitas

Cari area di bawah kurva normal standar.

Area kiri untuk \(Z = 1.43\):

\[ P(Z < 1.43) = 0.9236 \]

Area kanan (yang diminta):

\[ P(Z > 1.43) = 1 - 0.9236 = 0.0764 \]

Jadi proporsi orang dengan tinggi > 170 cm adalah 7.64%.

1.2.8 Alasan Sampling Distribution Penting

  • Hemat waktu dan biaya, tidak perlu ukur seluruh populasi.
  • Bisa mengestimasi:Mean populasi dan Probabilitas suatu nilai sampel
  • Dasar dari inferensi statistik: Confidence interval dan Uji hipotesis

Tanpa konsep ini, statistik modern tidak bisa berjalan

1.3 Central Limit Theorem

1.3.1 Definisi Dasar

Central Limit Theorem memprediksi bentuk dari sampling distribution berdasarkan ukuran sampel.

Pernyataan CLT:

“Jika ukuran sampel (n) cukup besar, maka sampling distribution dari sample mean akan approximately normal (mendekati distribusi normal).”

Terlepas dari bentuk distribusi populasi aslinya, jika ukuran sampel (n) cukup besar, sampling distribution akan berdistribusi normal. Ini berarti:

  • Populasi bisa skewed (miring)
  • Populasi bisa uniform (seragam)
  • Populasi bisa bimodal (dua puncak)

1.3.2 Visualisasi CLT

Mari visualisasikan bagaimana CLT bekerja dengan populasi yang memiliki distribusi skewed (miring).

Populasi awal: Bentuk distribusi skewed (tidak normal)

Proses:

  • Ambil banyak sampel acak dari populasi ini
  • Hitung x̄ untuk setiap sampel
  • Kumpulkan semua nilai x̄
  • Lihat distribusi yang terbentuk

1.3.3 Probabilitas dan Area

Ketika mengambil sampel acak

Area besar di distribusi populasi:

  • Probabilitas tinggi mendapat data dari area ini
  • Kebanyakan data points dalam sampel berasal dari sini

Area kecil di distribusi populasi:

  • Probabilitas rendah mendapat data dari area ini
  • Sedikit data points dalam sampel berasal dari sini

Hasil:

  • Banyak sampel mengandung data dari bulk (bagian utama) populasi
  • Beberapa sampel mengandung data dari area kecil
  • Ini normal dan sesuai dengan probabilitas

1.3.4 Pembentukan Distribusi Normal

Ketika mengumpulkan semua x̄ dari banyak sampel

Pola yang terbentuk:

  • Banyak x̄ berkumpul dekat dengan μ (membentuk puncak di tengah)
  • Beberapa x̄ agak jauh dari μ (membentuk sisi)
  • Sangat sedikit x̄ sangat jauh dari μ (membentuk ekor)

Bentuk akhir: Kurva lonceng (bell curve) = Distribusi Normal

Ini adalah CLT dalam aksi:

Meskipun populasi aslinya skewed (tidak normal), sampling distribution dari x̄ menjadi normal.

1.3.5 Ukuran Sampel

Rule of Thumb: n ≥ 30

Pertanyaan krusial: Seberapa besar n harus agar CLT berlaku?

Jawaban:

Aturan umum: CLT aman diterapkan ketika n ≥ 30

Artinya:

  • n ≥ 30 → Sampling distribution dari x̄ akan approximately normal
  • n < 30 → Tidak bisa mengasumsikan sampling distribution normal

Angka 30 adalah konvensi yang diterima secara luas dalam statistika

CLT membutuhkan sampel yang cukup besar karena:

Dengan sampel besar:

  • Lebih banyak informasi tentang populasi
  • Lebih stabil dan konsisten
  • Lebih mendekati karakteristik populasi sebenarnya

Dengan sampel kecil:

  • Informasi terbatas
  • Lebih banyak variasi antar sampel
  • Kurang representatif

1.3.6 Masalah dengan Sampel Kecil

Ketika ukuran sampel terlalu kecil (n < 30):

Masalah 1: Variabilitas tinggi

  • Nilai x̄ bisa sangat berbeda antara sampel
  • Tidak stabil

Masalah 2: Kurang presisi

  • Estimasi tidak akurat
  • Tidak bisa dipercaya

Masalah 3: Kurang reliabel

  • Hasil bisa berubah drastis dengan sampel berbeda
  • Tidak konsisten

Masalah 4: Risiko sampel tidak biasa

  • Lebih mudah mendapat sampel “aneh” hanya karena kebetulan
  • Bisa kebetulan semua data dari area ekstrem

Kesimpulan:

  • Sampel kecil tidak menghasilkan sampling distribution yang normal
  • Untuk n < 30, tidak bisa menggunakan CLT

1.3.7 Pengecualian Penting

Kondisi Populasi Normal

Pengecualian: Jika distribusi populasi sudah normal sejak awal, maka sampling distribution akan normal untuk SEMUA ukuran sampel (bahkan n < 30)

Mengapa ini terjadi:

  • Populasi normal → Sampel dari populasi normal cenderung normal
  • Mean dari distribusi normal → tetap normal
  • Normal + Normal = Normal
  • Tidak perlu menunggu n ≥ 30

1.3.8 Aplikasi CLT

CLT sangat berguna untuk menganalisis dataset besar karena:

Alasan 1: Jika kita tahu sampling distribution akan normal, kita bisa menggunakan formula yang terkait dengan distribusi normal

Alasan 2: Formula distribusi normal membantu kita menginterpretasi data dengan lebih baik

1.3.9 Contoh Soal

Contoh — Populasi Tidak Normal, n Besar (CLT Berlaku)

Populasi pengeluaran harian mahasiswa bersifat skewed (tidak normal), tetapi karena ukuran sampel besar (n ≥ 30), maka sampling distribution dari \(\bar{X}\) tetap mendekati normal sesuai Central Limit Theorem.

Diketahui:

  • Rata-rata populasi:
    \[ \mu = 85 \text{ ribu} \]

  • Standar deviasi populasi:
    \[ \sigma = 30 \text{ ribu} \]

  • Ukuran sampel:
    \[ n = 50 \]

Ditanya:
Berapa probabilitas rata-rata sampel lebih dari 90 ribu?
\[ P(\bar{X} > 90) \]

Langkah 1 — Standard Error \[ SE = \frac{\sigma}{\sqrt{n}} = \frac{30}{\sqrt{50}} = 4.243 \]

Langkah 2 — Z-score \[ Z = \frac{90 - 85}{4.243} = 1.18 \]

Langkah 3 — Probabilitas Kita ingin mencari:

\[ P(Z > 1.18) \]

Karena tabel Z memberi \(P(Z < 1.18) = 0.8808\):

\[ P(Z > 1.18) = 1 - 0.8808 = 0.1192 \]

Jawaban:

Probabilitas rata-rata sampel lebih dari 90 ribu adalah:

\[ \boxed{0.1192 \text{ atau } 11.92\%} \]

1.4 Sample Proportion

1.4.1 Definisi Dasar

Proporsi adalah bagian dari keseluruhan yang menunjukkan persentase kejadian sukses dalam suatu data.Proporsi digunakan untuk menggambarkan seberapa besar suatu karakteristik muncul dalam populasi atau sampel.

Secara umum:

\[ \text{Proporsi} = \frac{\text{Jumlah kejadian sukses}}{\text{Total observasi}} \]

Notasi Baku

  • p = Proporsi populasi (parameter yang biasanya tidak diketahui)
  • p̂ = Proporsi sampel (statistik yang kita hitung)

1.4.2 Proporsi Populasi (p)

Proporsi populasi dilambangkan dengan:

\[ p = \frac{X}{N} \]

  • \(X\) = jumlah elemen dalam populasi yang memenuhi kriteria
  • \(N\) = total populasi

Contoh 1:

Dalam populasi 5.000 orang, 900 orang memiliki mata hijau.

\[ p = \frac{900}{5000} = 0.18 \]

Contoh 2

  • Populasi: 10,000 mahasiswa
  • Karakteristik: Bekerja paruh waktu
  • Data: 4,500 mahasiswa bekerja paruh waktu \[ p = \frac{4500}{10000} = 0.45 = 45\% \]

1.4.3 Proporsi Sampel (p-hat)

Ketika proporsi dihitung dari sampel, bukan populasi, disebut sample proportion:

\[ \hat{p} = \frac{x}{n} \]

  • \(x\) = jumlah sukses dalam sampel
  • \(n\) = ukuran sampel

Contoh 1:

Dari 10 orang yang diambil sebagai sampel, 2 orang bermata hijau.
\[ \hat{p} = \frac{2}{10} = 0.20 \]

Contoh 2

  • Populasi: Semua mahasiswa di universitas
  • Karakteristik: Memiliki mobil
  • Sampel: 50 mahasiswa
  • Hasil: 15 memiliki mobil \[ \hat{p} = \frac{15}{50} = 0.3 \text{ (30%)} \]

1.4.4 Sampling Distribution of the Sample Proportion

Proses Pembentukan

Hasilnya adalah distribusi sampling dari proporsi sampel

  1. Ambil sampel acak ukuran n dari populasi
  2. Hitung p̂ untuk sampel tersebut
  3. Ulangi Langkah 1-2 berkali-kali (misal: 1000 kali)
  4. Plot semua nilai p̂ → Terbentuklah sampling distributio

Karakteristik Distribusi

  • Mean dari distribusi sampling (μ_p̂): Rata-rata dari semua p̂
  • Standard deviation dari distribusi sampling (σ_p̂): Standar deviasi dari semua p̂

1.4.5 Penjelasan Penting

Syarat CLT untuk Sample Mean

Kondisi:
\[ n \ge 30 \]

Alasan:
Berdasarkan Central Limit Theorem (CLT) klasik, ketika ukuran sampel cukup besar (≥ 30), maka distribusi dari rata-rata sampel (\(\bar{x}\)) akan mendekati distribusi normal, apapun bentuk distribusi populasi asalnya.

Aplikasi:
Digunakan pada data kontinu / numerik, seperti:

  • tinggi badan
  • berat badan
  • skor tes
  • waktu, jarak, pendapatan, dll.

Contoh:

  • Jika \(n = 30\) atau lebih → distribusi sampling \(\bar{x}\) mendekati normal
  • Jika \(n < 30\) → distribusi sampling \(\bar{x}\) hanya normal jika populasi asal normal

Syarat CLT untuk Sample Proportion

Kondisi:
\[ n \times p \ge 10 \quad \text{DAN} \quad n \times (1-p) \ge 10 \]

Alasan:
Memastikan jumlah success dan failure pada sampel cukup besar, sehingga distribusi proporsi sampel (\(\hat{p}\)) mendekati distribusi normal.

Aplikasi:
Digunakan pada data kategorikal/dikotomis seperti:

  • ya / tidak
  • setuju / tidak setuju
  • punya / tidak punya
  • lulus / tidak lulus

Contoh:

  1. p = 0.3, n = 50
    • \(n \times p = 50 \times 0.3 = 15 \ge 10\)
    • \(n \times (1-p) = 50 \times 0.7 = 35 \ge 10\)
      ⇒ CLT terpenuhi
  2. p = 0.1, n = 100
    • \(n \times p = 100 \times 0.1 = 10 \ge 10\)
    • \(n \times (1-p) = 100 \times 0.9 = 90 \ge 10\)
      ⇒ CLT terpenuhi

1.4.6 Standardisasi dan Skor-Z

\[ z = \frac{\hat{p} - p}{\sigma_{\hat{p}}} \]

\[ \sigma_{\hat{p}} = \sqrt{\frac{p(1-p)}{n}} \]

\[ z = \frac{\hat{p} - p}{\sqrt{\frac{p(1-p)}{n}}} \]

Contoh Penerapan CLT

Contoh 1 — Sample Mean

Masalah: rata-rata pendapatan
\(\mu = 5\) juta
\(\sigma = 1\) juta
\(n = 35\)

Analisis:

  • Karena \(n \ge 30\) → CLT berlaku
  • \(\text{SE} = \frac{1{,}000{,}000}{\sqrt{35}} \approx 169{,}031\)

Contoh 2 — Sample Proportion

Masalah: proporsi mahasiswa bekerja
\(p = 0.4\)
\(n = 40\)

Analisis:

  • \(40 \times 0.4 = 16 \ge 10\)
  • \(40 \times 0.6 = 24 \ge 10\) → CLT berlaku

\[ SE = \sqrt{\frac{0.4 \times 0.6}{40}} = \sqrt{0.006} \approx 0.0775 \]

Contoh 3 — Borderline

Masalah: penyakit langka
\(p = 0.02\)
\(n = 500\)

Analisis:

  • \(500 \times 0.02 = 10\) (tepat batas)
  • \(500 \times 0.98 = 490\) → CLT berlaku tetapi borderline

1.4.7 Visualisasi Konseptual

Distribusi Sampling Mean

Populasi (bentuk apapun)

  • Jika \(n \ge 30\)
  • \(\bar{X} \sim \text{Normal}(\mu, \sigma/\sqrt{n})\)

Distribusi Sampling Proportion

Populasi Binomial

  • Jika \(n p \ge 10\) & \(n(1-p) \ge 10\)
  • \(\hat{p} \sim \text{Normal}\left(p, \sqrt{\frac{p(1-p)}{n}}\right)\)

1.4.8 Aplikasi dalam Penelitian

Untuk Survei Proporsi

Estimasi \(p\) awal
Hitung \(n\) minimal

\[ n = \frac{10}{p} \]

Contoh:

jika \(p \approx 0.1\)\(n\) minimal = 100

Untuk Studi Mean

\(n\) minimal = 30

1.4.9 Tabel Ringkasan Kondisi CLT

Table 4: Table 5: Ringkasan CLT: Mean dan Proporsi
Statistik Kondisi_CLT Rumus_SE Contoh_Data
Mean (\(\bar{x}\)) \(n \ge 30\) \(\sigma/\sqrt{n}\) tinggi, berat, nilai
Proportion (\(\hat{p}\)) \(np \ge 10\) & \(n(1-p) \ge 10\) \(\sqrt{p(1-p)/n}\) ya/tidak, sukses/gagal

1.4.10 Contoh Soal Integratif

Soal:
Perusahaan mengklaim 60% produk bebas cacat. Sampel 50 produk → 28 bebas cacat.

Langkah 1 — Tentukan jenis data

Proporsi → gunakan \(\hat{p}\).

Langkah 2 — Hitung proporsi sampel \[ \hat{p} = \frac{28}{50} = 0.56 \]

Langkah 3 — Cek kondisi CLT

  • \(50 \times 0.6 = 30 \ge 10\)
  • \(50 \times 0.4 = 20 \ge 10\) → CLT berlaku

Langkah 4 — Standard Error \[ SE = \sqrt{\frac{0.6(0.4)}{50}} = 0.0693 \]

Langkah 5 — Z-score \[ z = \frac{0.56 - 0.6}{0.0693} \approx -0.577 \]

Kesimpulan Tidak cukup bukti untuk menolak klaim perusahaan.

1.5 Review Sampling Distribution

Contoh 1-Probability Dasar (n kecil)

  • Jumlah kelereng: 200 hijau + 300 biru = 500 total
  • Pengambilan: 3 kali dengan pengembalian
  • Pertanyaan: Probabilitas mendapatkan setidaknya 2 kelereng hijau

Penyelesaian Manual

  • P(hijau) = 0.4
  • P(biru) = 0.6
  • n = 3

Sample Space & Probabilitas:

Urutan Probabilitas
GGG 0.064
GGB 0.096
GBG 0.096
BGG 0.096
GBB 0.144
BGB 0.144
BBG 0.144
BBB 0.216

Probabilitas “at least 2 green”:

  • P(tepat 2 hijau) = 0.288
  • P(tepat 3 hijau) = 0.064
    P(≥2 hijau) = 0.352

Contoh 2-Binomial Distribution (n sedang)

Formula Binomial \[ P(X=k) = \binom{n}{k} p^k (1-p)^{n-k}, \quad C(n,k) = \frac{n!}{k!(n-k)!} \]

Parameter:

  • n=5
  • p=0.4

Perhitungan:
P(X=2) = 0.3456
P(X=3) = 0.2304
P(X=4) = 0.0768
P(X=5) = 0.01024

Total P(≥2) = 0.66304

Contoh 3-Sampling Distribution (n besar)

Cek Kondisi CLT

  • n × p = 100 × 0.4 = 40 ≥ 10
  • n × (1-p) = 100 × 0.6 = 60 ≥ 10

Parameter Distribusi Sampling \[ \mu_{\hat{p}} = p = 0.4 \] \[ \sigma_{\hat{p}} = \sqrt{\frac{p(1-p)}{n}} \approx 0.049 \]

Standarisasi \[ \hat{p} = 35/100 = 0.35 \] \[ z = \frac{\hat{p}-p}{\sigma_{\hat{p}}} \approx -1.02 \]

Probabilitas

  • P(Z < -1.02) = 0.1539
  • P(Z ≥ -1.02) = 1 - 0.1539 = 0.8461

Interpretasi:

P(≥35 hijau) ≈ 84.61% (aproksimasi)

1.5.1 Perbandingan Metode

Table 6: Table 7: Perbandingan Probability Dasar, Binomial, dan Sampling Distribution
Aspek Probability_Dasar Binomial_Distribution Sampling_Distribution
n yang cocok ≤ 10 10–30 ≥ 30 (CLT terpenuhi)
Ketelitian Eksak Eksak Aproksimasi
Usaha komputasi Tinggi Sedang Rendah
Kapan digunakan n kecil, sederhana n sedang, percobaan dikotomis n besar, inferensi

1.5.2 Formula Penting

1. Probability Dasar: \[ P(event) = \frac{\text{jumlah cara event terjadi}}{\text{total kemungkinan}} \]

2. Binomial Distribution: \[ P(X=k) = C(n,k) \cdot p^k \cdot (1-p)^{n-k}, \quad \mu = np, \quad \sigma = \sqrt{np(1-p)} \]

3. Sampling Distribution (p̂): \[ \mu_{\hat{p}} = p, \quad \sigma_{\hat{p}} = \sqrt{\frac{p(1-p)}{n}}, \quad z = \frac{\hat{p}-p}{\sigma_{\hat{p}}} \]

1.5.3 Tips Pemilihan Metode

  1. n ≤ 10 → Probability Dasar
  2. 10 < n ≤ 30 → Binomial Distribution
  3. n ≥ 30 dan memenuhi CLT → Sampling Distribution
  4. Jika CLT tidak terpenuhi → gunakan binomial exact atau Poisson approximation

1.5.4 Contoh Aplikasi

Table 8: Table 9: Perbandingan Metode Berdasarkan n dan p
n p Metode Contoh_Hitung
5 0.15 Probability Dasar P(≥1) = 1 - 0.85⁵ ≈ 0.5563
20 0.15 Binomial Distribution P(≥3) = 1 - [P(0)+P(1)+P(2)] ≈ 0.5951
200 0.15 Sampling Distribution p̂ = 25/200 = 0.125, z ≈ -0.992, P≥25 ≈ 0.8392

1.5.5 Kesimpulan

  1. Pilih metode berdasarkan ukuran sampel
  2. Sampling Distribution → aproksimasi sangat akurat untuk n besar
  3. Selalu cek kondisi CLT sebelum menggunakan sampling distribution

2 References

Supranto, J. (2021). Statistika: Teori dan Aplikasi (Edisi 9). Erlangga. https://books.google.co.id/books?id=-H4-EAAAQBAJ

OpenStax. (2018). Introductory statistics. OpenStax College. https://openstax.org/books/introductory-statistics/pages/4-2-mean-or-expected-value-and-standard-deviation

Walpole, R. E., Myers, R. H., Myers, S. L., & Ye, K. (2012). Probability and statistics for engineers and scientists (9th ed.). Pearson. Available from https://dl.icdst.org/pdfs/files4/f5087fa30778ccd742790526c0d6be83.pdf