📚 Tugas Week 11
Probability Distribution

📊 Statistik

Profile Photo

RAIHANIA SYAH PUTRI

52250054

Data Science Student

Institut Teknologi Sains Bandung

R Programming Data Science Statistics

1 Pendahuluan

Sebelum memahami berbagai konsep seperti distribusi sampel, distribusi sampling, peluang rata-rata sampel, hingga perbedaan antara analisis populasi dan sampel, penting bagi kita untuk menyadari bahwa data yang kita amati di dunia nyata selalu memiliki variasi. Dua sampel yang diambil dari populasi yang sama bisa menghasilkan rata-rata yang berbeda, dan hasil-hasil inilah yang perlu kita pahami cara kerjanya. Dengan memahami bagaimana data berubah ketika diambil berulang kali, serta bagaimana rata-rata sampel membentuk pola tertentu, kita akan lebih mudah mengerti kenapa ada distribusi sampling, kenapa ada standard error, dan bagaimana semua itu dipakai untuk menghitung peluang dan membuat kesimpulan statistik.

2 Continous Random

Dalam mempelajari statistik dan probabilitas, terdapat dua jenis variabel utama yang perlu dipahami: variabel diskrit dan variabel kontinu. Sebelum kita mendalami tentang probabilitas variabel kontinu.

mustahil mengukur seluruh populasi (semua penduduk, seluruh produk, dll.)—terlalu mahal, lama, dan tidak praktis. Oleh karena itu, kita menggunakan sampel (sebagian kecil populasi) untuk memperkirakan karakteristik populasi (seperti rata-rata tinggi, persentase pengguna internet, atau efektivitas obat). Namun, sebelum menganalisis data, kita harus pahami jenis variabelnya: variabel diskrit dan variabel kontinu, karena pemahaman ini menentukan metode pengumpulan data, teknik analisis, dan interpretasi hasil yang tepat sebelum melangkah ke konsep distribusi dan inferensi statistik yang lebih kompleks.



2.1 Variabel Diskrit (Dapat Dihitung)

Variabel yang nilainya bisa dihitung satu per satu, hasilnya dari perhitungan (counting).

Ciri-ciri:

  • Nilai terbatas dan terpisah
  • Bisa berupa bilangan bulat atau desimal tertentu
  • Contoh: “Berapa anak kamu?” → 1, 2, 3 (tidak 2.5)

Contoh nyata:

  • Jumlah kepala dalam lempar koin: 0, 1, 2, 3, 4
  • Nilai ujian: 0, 1, 2, …, 100 (atau 87.5, karena terbatas sampai 100 saja)
  • Jumlah produk cacat: 0, 1, 2, …

Rumus probabilitas diskrit:

\[ P(X = x) = \frac{\text{Jumlah kemungkinan } x}{\text{Total kemungkinan}} \]

Contoh: Peluang dadu = 6 → \(P(X=6) = \frac{1}{6}\)


2.2 Variabel Kontinu (Dapat Diukur)

Variabel yang nilainya bisa berupa angka apa saja dalam rentang, hasilnya didapat dari pengukuran (measuring).

Ciri-ciri:

  • Nilai tak terbatas dalam rentang
  • Bisa diukur sampai desimal tak hingga
  • Contoh: “Berapa berat kamu?” → 60 kg, 60.5 kg, 60.5321 kg, dst.

Contoh nyata:

  • Tinggi badan: 170 cm, 170.2 cm, 170.25 cm, …
  • Waktu tempuh: 10 detik, 10.1 detik, 10.15 detik, …
  • Suhu: 25°C, 25.7°C, 25.73°C, …

Probabilitas kontinu:

1. tak terhingga kemungkinan

\[ P(X = \text{tepat } x) = 0 \]

Contoh:

  • P(tinggi = 170.0000… cm) = 0

2. Yang PENTING: RENTANG NILAI:

\[ P(a < X < b) = \text{Luas area di bawah kurva} \]

Contoh:

  • P(tinggi antara 169-171 cm) = luas kurva antara 169 dan 171

3. Cara Hitungnya:

\[ P(a < X < b) = \int_a^b f(x) dx \]

Artinya:

“Probabilitas bahwa variabel acak kontinu X berada di antara a dan b sama dengan LUAS AREA di bawah kurva dari a ke b.”


2.2.1 Perbedaan Visual variabel diskrit dan variabel kontinu

Perbandingan Variabel Diskrit vs Kontinu
Aspek Variabel Diskrit Variabel Kontinu
Jenis Grafik Diagram Batang (Bar Chart) Histogram
Bentuk Batang Batang terpisah (ada jarak) Batang menyatu (tanpa jarak)
Alasan Nilai-nilai terpisah/distinct Nilai-nilai bersambung/continuous
Contoh Data Jumlah anak per keluarga: 0, 1, 2, 3, 4, 5+ Tinggi badan (cm): interval 130-135, 135-140, …

2.2.2 Perbedaan Distribusi Populas, Sampel, Sampling

Perbandingan Lengkap Tiga Jenis Distribusi
Kategori Populasi Sampel Sampling
Data yang Dianalisis Semua individu dalam populasi Satu kelompok sampel saja Banyak nilai rata-rata dari banyak sampel
Tujuan Analisis Menghitung karakteristik sebenarnya dari seluruh kelompok Menggambarkan karakteristik dari sebagian data yang diambil Memperkirakan karakteristik populasi berdasarkan beberapa sampel
Simbol Mean μ (mu) x̄ (x-bar) μ (sama seperti populasi)
Simbol Standar Deviasi σ (sigma) s σ/√n (Standard Error)
Rumus Mean μ = ΣX / N x̄ = Σx / n μ_x̄ = μ
Rumus Standar Deviasi σ = √[Σ(X-μ)² / N] s = √[Σ(x-x̄)² / (n-1)] SE = σ / √n
Ukuran yang Dibagi N (ukuran populasi) n-1 (derajat kebebasan) √n (untuk standard error)
Inferensi Statistik Tidak dilakukan (sudah data lengkap) Tidak bisa (hanya deskripsi) Bisa dilakukan (estimasi parameter)
Contoh Data Tinggi semua 10.000 mahasiswa di kampus Tinggi 50 mahasiswa yang disurvei Rata-rata tinggi dari 100 kelompok survei

2.2.3 Perbedaan Langkah Perhitungan Macam-macam Distribusi

2.2.3.1 1. Distribusi PopulasiHitung Parameter

X = nilai tiap individu dalam populasi
N = jumlah total individu dalam populasi
μ (mu) = rata-rata populasi
σ (sigma) = standar deviasi populasi

Contoh :

Data 5 siswa: 165, 168, 170, 172, 175 cm
- X₁ = 165, X₂ = 168, X₃ = 170, X₄ = 172, X₅ = 175
- N = 5 (total ada 5 siswa)

Hitung μ: \[ \mu = \frac{\sum X}{N} = \frac{X_1 + X_2 + X_3 + X_4 + X_5}{N} = \frac{165 + 168 + 170 + 172 + 175}{5} = 170 \text{ cm} \]

Hitung σ:

  1. Hitung selisih tiap X dengan μ:
  • \(X_1 - \mu = 165 - 170 = -5\)
  • \(X_2 - \mu = 168 - 170 = -2\)
  • \(X_3 - \mu = 170 - 170 = 0\)
  • \(X_4 - \mu = 172 - 170 = 2\)
  • \(X_5 - \mu = 175 - 170 = 5\)
  1. Kuadratkan:
  • \((-5)^2 = 25\)
  • \((-2)^2 = 4\)
  • \(0^2 = 0\)
  • \(2^2 = 4\)
  • \(5^2 = 25\)
  1. Jumlahkan: \(25 + 4 + 0 + 4 + 25 = 58\)

  2. Bagi dengan N: \(\frac{58}{5} = 11.6\)

  3. Akar kuadrat: \(\sqrt{11.6} \approx 3.41\)

\[ \boxed{\mu = 170 \text{ cm}, \quad \sigma = 3.41 \text{ cm}} \]

2.2.3.2 2. Distribusi SampelHitung Statistik Deskriptif

x = nilai tiap individu dalam sampel
n = jumlah individu dalam sampel
(x-bar) = rata-rata sampel
s = standar deviasi sampel

Contoh:

Sampel 3 siswa: 165, 170, 175 cm
- x₁ = 165, x₂ = 170, x₃ = 175
- n = 3 (hanya 3 siswa dalam sampel ini)

Hitung x̄: \[ \bar{x} = \frac{\sum x}{n} = \frac{x_1 + x_2 + x_3}{n} = \frac{165 + 170 + 175}{3} = 170 \text{ cm} \]

Hitung s: 1. Hitung selisih tiap x dengan x̄: - \(x_1 - \bar{x} = 165 - 170 = -5\) - \(x_2 - \bar{x} = 170 - 170 = 0\) - \(x_3 - \bar{x} = 175 - 170 = 5\)

  1. Kuadratkan:
  • \((-5)^2 = 25\)
  • \(0^2 = 0\)
  • \(5^2 = 25\)
  1. Jumlahkan: \(25 + 0 + 25 = 50\)

  2. Bagi dengan (n-1) bukan n! \(\frac{50}{3-1} = \frac{50}{2} = 25\)

  3. Akar kuadrat: \(\sqrt{25} = 5\)

\[ \boxed{\bar{x} = 170 \text{ cm}, \quad s = 5 \text{ cm}} \]

Kenapa bagi (n-1)? Karena x̄ sendiri dihitung dari data ini, jadi kita “kehilangan 1 derajat kebebasan”.

2.2.3.3 3. Distribusi SamplingHitung Probabilitas & Inferensi

(X-bar) = rata-rata dari sebuah sampel
n = ukuran setiap sampel
μ = rata-rata populasi (dari bagian 1)
σ = standar deviasi populasi (dari bagian 1)
SE = Standard Error
Z = Z-score

Contoh:

Pertanyaan: “Berapa probabilitas rata-rata sampel 3 siswa > 172 cm?”

Data dari populasi: μ = 170 cm, σ = 3.41 cm
n = 3 (setiap sampel berisi 3 siswa)

Hitung Standard Error (SE): \[ SE = \frac{\sigma}{\sqrt{n}} = \frac{3.41}{\sqrt{3}} = \frac{3.41}{1.732} \approx 1.97 \text{ cm} \]

Distribusi sampling: Semua nilai X̄ yang mungkin mengikuti: \[ \bar{X} \sim N\left(\mu, SE\right) = N(170, 1.97) \]

Misal kita dapat satu sampel dengan X̄ = 172 cm, hitung Z-score: \[ Z = \frac{\bar{X} - \mu}{SE} = \frac{172 - 170}{1.97} = \frac{2}{1.97} \approx 1.02 \]

Interpretasi Z = 1.02:

  • Artinya: X̄ = 172 cm berada 1.02 Standard Error di atas μ
  • Dari tabel Z: P(Z > 1.02) = 0.1539

\[ \boxed{P(\bar{X} > 172) = 0.1539 = 15.39\%} \]


2.3 Distribusi Probabilitas Variabel Kontinu

Untuk memahami variabel acak kontinu, penting untuk mengetahui bagaimana probabilitas direpresentasikan menggunakan Fungsi Kepadatan Probabilitas (PDF). Tidak seperti variabel acak diskrit, variabel acak kontinu tidak menetapkan probabilitas ke titik-titik individual. Sebaliknya, probabilitas diperoleh dari luas area di bawah kurva PDF.

2.4 Variabel Acak

Suatu variabel acak dikatakan kontinu jika dapat mengambil nilai apa pun dalam suatu interval pada garis bilangan riil. Contohnya meliputi: tinggi, waktu, suhu, usia, tekanan, dan kecepatan.

Sifat penting:
- Peluang satu titik selalu nol:
\[ P(X = a) = 0 \]
- Peluang hanya berarti untuk interval:
\[ P(a < X < b) \]


2.4.1 Fungsi Kepadatan Probabilitas (PDF)

Fungsi \(f(x)\) disebut PDF valid jika:

Syarat 1: Selalu non-negatif
\[ f(x) \geq 0 \quad \text{untuk semua } x \]

Syarat 2: Luas total di bawah kurva = 1
\[ \int_{-\infty}^{\infty} f(x) \, dx = 1 \]

Catatan:

  • \(f(x)\) bukan peluang, tapi kepadatan
  • Peluang diperoleh dari luas di bawah kurva \(f(x)\)

2.4.2 Probabilitas pada Interval

Untuk menghitung peluang \(X\) berada antara \(a\) dan \(b\): \[ P(a < X < b) = \int_{a}^{b} f(x) \, dx \]

Cara kerja:
1. Tentukan batas bawah \(a\) dan batas atas \(b\)
2. Integralkan \(f(x)\) dari \(a\) ke \(b\)
3. Hasil integral = peluang yang dicari


2.4.3 Contoh

Diketahui fungsi: \[ f(x) = \begin{cases} k x^2, & 0 \leq x \leq 3 \\ 0, & \text{untuk } x \text{ lainnya} \end{cases} \]

(a) Tentukan nilai \(k\) agar \(f(x)\) merupakan fungsi kepadatan peluang:

Langkah 1: Integralkan di seluruh rentang
\[ \int_{0}^{3} k x^2 \, dx = 1 \]

Langkah 2: Selesaikan integral
\[ k \left[ \frac{x^3}{3} \right]_{0}^{3} = 1 \] \[ k \left( \frac{3^3}{3} - 0 \right) = 1 \] \[ k \cdot 9 = 1 \]

Langkah 3: Cari nilai \(k\)
\[ k = \frac{1}{9} \]

Jawaban: \(k = \frac{1}{9}\)

(b) Hitung peluang \(P(2 < X < 3)\):

Langkah 1: Tulis fungsi lengkap dengan \(k\)
\[ f(x) = \begin{cases} \frac{1}{9} x^2, & 0 \leq x \leq 3 \\ 0, & \text{lainnya} \end{cases} \]

Langkah 2: Hitung integral dari 2 ke 3
\[ P(2 < X < 3) = \int_{2}^{3} \frac{1}{9} x^2 \, dx \]

Langkah 3: Selesaikan integral
\[ = \frac{1}{9} \left[ \frac{x^3}{3} \right]_{2}^{3} = \frac{1}{27} \left( x^3 \bigg|_{2}^{3} \right) \]

Langkah 4: Substitusi batas
\[ = \frac{1}{27} (27 - 8) = \frac{19}{27} \]

Jawaban: \(P(2 < X < 3) = \frac{19}{27}\)


2.4.4 Fungsi Distribusi Kumulatif (CDF)

Fungsi yang menyatakan peluang kumulatif sampai suatu titik \(x\).

Definisi:
\[ F(x) = P(X \leq x) = \int_{-\infty}^{x} f(t) \, dt \]

Hubungan dengan PDF:
\[ f(x) = \frac{d}{dx} F(x) \]

Contoh: Untuk \(f(x) = 3x^2\) pada interval \([0, 1]\):

Langkah 1: Hitung CDF
\[ F(x) = \int_{0}^{x} 3t^2 \, dt = \left[ t^3 \right]_{0}^{x} = x^3 \]

Langkah 2: Verifikasi hubungan dengan PDF
\[ f(x) = \frac{d}{dx} (x^3) = 3x^2 \]

Jawaban: \(F(x) = x^3\) untuk \(0 \leq x \leq 1\)


2.4.5 Cara Penyelesaian soal

7. POLA PENYELESAIAN SOAL STANDAR
Jenis Soal Langkah-Langkah Contoh Penerapan
Cari konstanta (c/k)
  1. Integralkan f(x) di seluruh rentang
  2. Samakan hasil dengan 1
  3. Selesaikan untuk dapatkan konstanta
\(f(x) = kx^2, 0 \leq x \leq 3\)\(\int kx^2 dx = 1\)\(k = 1/9\)
Hitung peluang P(a<X<b)
  1. Pastikan f(x) sudah benar (konstanta diketahui)
  • Tulis integral dengan batas a dan b
  • Hitung integral
  • Hasil = peluang
  • \(P(2 &lt; X &lt; 3) = \int_2^3 (1/9)x^2 dx = 19/27\)
    Buktikan validitas PDF
    1. Hitung ∫ f(x) dx di seluruh rentang
  • Jika hasil = 1 → PDF valid
  • Jika ≠ 1 → bukan PDF
  • \(\int_{-1}^2 (4x^3/15) dx = 1\) → ✅ Valid

    3 Sampling Distribution

    Untuk memahami distribusi sampling, kita harus tahu dulu bedanya dengan distribusi sampel. Meskipun terdengar mirip, keduanya berbeda: distribusi sampel hanya berasal dari satu sampel, sedangkan distribusi sampling menggambarkan banyak rata-rata sampel dari populasi yang sama. Memahami perbedaan ini penting karena distribusi sampling menjadi dasar untuk memperkirakan karakteristik populasi.



    Sebelum mempelajari distribusi sampling, kita harus pahami bedanya dengan distribusi sampel.

    3.1 Perbandingan Sample Distribution vs Sampling Distribution

    3.1.1 Distribusi Sampel

    Analisis dari satu sampel saja dari suatu populasi.

    Proses:

    1. Ambil 1 sampel (misal: 50 orang)
    2. Ukur semua orang dalam sampel itu
    3. Hitung rata-rata sampel (x̄)
    4. Analisis data dari sampel itu saja

    Karakteristik:

    • x̄ bisa berbeda-beda: 160 cm, 170 cm, atau 162.56 cm Karena sampel kecil → lebih banyak variasi
    • Kurang akurat mewakili populasi (karena hanya sebagian kecil)

    3.1.2 Distribusi Sampling

    Distribusi dari BANYAK statistik sampel dari suatu populasi.

    Langkah-Langkahnya:

    Langkah 1: Tentukan populasi (misal: tinggi badan)

    Langkah 2: Tentukan ukuran sampel (n = 5)

    Langkah 3: Ambil sampel acak 1 → ukur tinggi 5 orang → hitung x̄₁

    Langkah 4: Ambil sampel acak 2 → ukur tinggi 5 orang → hitung x̄₂

    Langkah 5: Ulangi ratusan/ribuan kali

    Langkah 6: Kumpulkan semua x̄ →lalu membuat buat histogram.


    3.1.3 Contoh Distribusi Sampling

    Populasi: 10.000 orang dengan berbagai tinggi badan

    Langkah Distribusi Sampling:

    1. Ambil Sampel 1 (n=5 orang):

      • Ukur tinggi 5 orang: 162, 164, 161, 165, 163 cm
      • Hitung rata-rata: (162+164+161+165+163)/5 = 163 cm
      • Plot nilai 163 cm di grafik
    2. Ambil Sampel 2 (n=5 orang berbeda):

      • Ukur tinggi 5 orang baru: 160, 162, 159, 164, 161 cm
      • Hitung rata-rata: (160+162+159+164+161)/5 = 161 cm
      • Plot nilai 161 cm di grafik
    3. Ambil Sampel 3 (n=5 orang berbeda lagi):

      • Ukur tinggi 5 orang: 164, 166, 165, 163, 167 cm
      • Hitung rata-rata: (164+166+165+163+167)/5 = 165 cm
      • Plot nilai 165 cm di grafik
    4. Ulangi proses ini 1000 kali → dapat 1000 nilai rata-rata (x̄) berbeda

    5. Kumpulkan semua 1000 nilai x̄ → buat histogram

    Hasil akhir: Histogram dari 1000 nilai rata-rata = Distribusi Sampling

    Jika kita ambil cukup banyak sampel distribusi sampling akan berbentuk normal, Meskipun populasi asalnya tidak normal


    3.2 Perbandingan Populasi vs Sampling Distribution

    3.2.1 Population Distribution (Distribusi Populasi)

    Karakteristik:

    • Mean = μ (parameter tetap)
    • Standar deviasi = σ
    • Data: pengukuran individu
    • Notasi: \(X \sim N(\mu, \sigma)\)

    Rumus Standardisasi (Z-score populasi): \[ Z = \frac{x - \mu}{\sigma} \]

    3.2.2 Sampling Distribution (Distribusi Sampling)

    Karakteristik:

    • Mean = μ (sama dengan mean populasi!) \[ \mu_{\bar{x}} = \mu \]
    • Standar deviasi = Standard Error (SE) \[ \sigma_{\bar{x}} = \frac{\sigma}{\sqrt{n}} \]
    • Data: rata-rata sampel (x̄)
    • Notasi: \(\bar{X} \sim N\left(\mu, \frac{\sigma}{\sqrt{n}}\right)\)

    Rumus Standardisasi (Z-score sampling): \[ Z = \frac{\bar{x} - \mu}{\sigma/\sqrt{n}} \]


    Distribusi Sampling bisa Lebih “Sempit” karena :

    • Nilai rata-rata cenderung lebih stabil dibanding nilai data tunggal
    • Nilai-nilai yang ekstrem cenderung saling menetralkan ketika dirata-ratakan
    • Semakin besar ukuran sampel (n) → distribusi sampling semakin menyempit

    3.2.2.1 Soal:

    Tinggi orang Kanada rata-rata 160 cm dengan simpangan baku 7 cm. Kalau kita ambil sampel 10 orang secara acak, berapa peluang rata-rata tinggi mereka kurang dari 157 cm?

    1. Ini soal tentang DISTRIBUSI SAMPLING Karena yang ditanya “rata-rata 10 orang”, bukan “satu orang”.

    2. Langkah Penyelesaian:

    Langkah 1: Cari Standard Error (SE) Standard Error itu simpangan baku untuk distribusi sampling. \[ SE = \frac{\sigma}{\sqrt{n}} = \frac{7}{\sqrt{10}} \approx 2.21 \text{ cm} \]

    Langkah 2: Cari Z-score Z-score menunjukkan “berapa jauh” 157 cm dari rata-rata (160 cm), dalam satuan SE. \[ Z = \frac{157 - 160}{2.21} = -1.36 \] Artinya: 157 cm berada 1.36 SE di bawah rata-rata.

    Langkah 3: Cari Peluang dari Tabel Z \[ P(Z < -1.36) = 0.0869 \]

    3. Jawaban Final: Ada 8.69% kemungkinan rata-rata tinggi 10 orang Kanada kurang dari 157 cm.

    Kenapa SE lebih kecil dari σ? Karena rata-rata sampel lebih stabil daripada nilai individu. Semakin besar sampel (n), semakin kecil SE, semakin akurat.


    SOAL 2: Tinggi orang Kanada rata-rata 160 cm dengan simpangan baku 7 cm. Berapa persentase orang Kanada yang tingginya lebih dari 170 cm?


    1. Ini soal tentang DISTRIBUSI POPULASI Kenapa? Karena yang ditanya “semua orang” (populasi), bukan rata-rata sampel.

    2. Langkah Penyelesaian:

    Langkah 1: Cari Z-score

    Z-score menunjukkan “berapa jauh” 170 cm dari rata-rata (160 cm), dalam satuan simpangan baku. \[ Z = \frac{170 - 160}{7} = \frac{10}{7} = 1.43 \] Artinya: 170 cm berada 1.43 simpangan baku di atas rata-rata.

    Langkah 2: Cari peluang dari tabel Z

    • Dari tabel Z: \(P(Z < 1.43) = 0.9236\)
    • Ini artinya 92.36% orang punya tinggi kurang dari 170 cm

    Langkah 3: Cari peluang “lebih dari”

    Karena total populasi = 100%: \[ P(X > 170) = 100\% - 92.36\% = 7.64\% \] Atau dalam desimal: \(1 - 0.9236 = 0.0764\)

    3. Jawaban Final:

    7.64% orang Kanada memiliki tinggi lebih dari 170 cm.


    3.3 Alasan mengapa Distribusi Sampling Penting:

    1. Efisiensi dan Kepraktisan

    Masalah: Mengukur seluruh populasi sering tidak mungkin.

    Contoh ekstrem:

    • Populasi: 8 miliar orang (seluruh manusia di Bumi)
    • Ingin tahu: rata-rata tinggi seluruh manusia
    • Tidak mungkin ukur semua orang!

    Solusi: Distribusi sampling

    1. Ambil banyak sampel kecil
    2. Hitung rata-rata tiap sampel
    3. Dari distribusi sampling → estimasi μ populasi

    2. Menghitung Probabilitas

    Distribusi sampling memungkinkan kita menjawab: - “Seberapa mungkin rata-rata sampel sekian?” - “Berapa probabilitas mendapatkan hasil tertentu dari sampel?”

    3. Dasar Inferensi Statistik

    • Confidence interval
    • Hypothesis testing
    • Estimasi parameter

    4 Central Limit Teorem

    Setelah memahami bagaimana distribusi sampling terbentuk dari banyak sampel acak dan bagaimana rata-rata sampel dapat menggambarkan karakter suatu populasi, kita masuk pada konsep penting dalam statistik, yaitu Teorema Limit Tengah (Central Limit Theorem / CLT). Teorema ini menjadi landasan utama dalam analisis inferensial karena menjelaskan mengapa dan kapan rata-rata sampel dapat mengikuti distribusi normal, bahkan ketika populasi aslinya tidak normal. Dengan memahami CLT, kita bisa melakukan berbagai teknik statistik seperti uji hipotesis, menghitung interval kepercayaan, serta memprediksi perilaku rata-rata sampel hanya dari data yang terbatas.



    4.1 Definisi Teorema Limit Tengah

    Teorema Limit Tengah memprediksi bentuk distribusi sampling berdasarkan ukuran sampel. Secara khusus, Teorema Limit Tengah menyatakan bahwa:

    “Jika ukuran sampel n cukup besar, maka distribusi sampling dari rata-rata sampel akan mendekati distribusi normal.”

    4.1.1 Contoh dengan Populasi Miring (Skewed)

    Ketika kita bekerja dengan populasi yang miring (tidak normal), lalu kita mengambil banyak sampel acak sederhana dan menghitung rata-rata (x̄) dari setiap sampel, hasil dari banyak x̄ itu bisa membentuk distribusi sampling.

    1. Cara distribusi sampling terbentuk

    • Kita ambil sampel → hitung rata-rata → simpan.
    • Ambil sampel lagi → hitung rata-rata → simpan.
    • Lakukan berulang kali.
    • Kumpulkan semua x̄ → bentuk grafik → itulah distribusi sampling dari mean.

    2. Kenapa sebagian besar sampel mirip populasi?

    Dalam populasi miring:

    • Area yang lebih besar → peluang lebih tinggi datanya muncul dalam sampel.
    • Area yang kecil → peluang lebih rendah datanya muncul.

    Jadi sebagian besar sampel akan memuat data dari bagian “utama” populasi. Karena itu, banyak rata-rata sampel (x̄) akan berkumpul dekat mean populasi μ.

    3. Kenapa rata-rata sampel berkumpul dekat μ?

    Karena:

    • Sampel acak yang benar secara definisi mewakili populasi.
    • Nilai ekstrem bisa muncul dalam satu sampel, tapi ketika dihitung rata-ratanya, ekstrem itu diredam.
    • Kadang ada sampel yang rata-ratanya jauh dari μ—itu wajar—tapi jarang.

    4. Hasil akhirnya: X̄ membentuk pola normal

    Jika semua x̄ digabungkan:

    • Kita mendapat “tumpukan” nilai rata-rata sampel.
    • Tumpukan ini bentuknya cenderung normal, meskipun populasi awal miring.

    Inilah inti Teorema Limit Pusat (Central Limit Theorem / CLT):

    Jika ukuran sampel cukup besar, distribusi sampling dari mean akan mendekati distribusi normal, tidak peduli bentuk populasi aslinya.


    4.1.2 Berapa n dianggap cukup besar?

    CLT menyatakan bahwa distribusi sampling dari mean akan mendekati normal jika ukuran sampel cukup besar. Aturan aman yang dipakai:

    [ ]

    4.1.3 Jika n < 30

    Ukuran sampel kecil menyebabkan:

    • Variabilitas lebih besar
    • Hasil tidak presisi
    • Risiko dapat sampel “aneh” atau tidak representatif meningkat

    Distribusi sampling tidak akan normal jika n kecil dan populasi tidak normal.

    Jika n < 30 dan populasi tidak normal, CLT tidak dapat diterapkan.

    4.1.4 Jika Distribusi sudah Normal

    Jika populasi sudah normal, maka:

    • Distribusi sampling → otomatis normal
    • Berlaku untuk semua n, bahkan n kecil

    4.2 Interpretasi dalam Inferensi Statistik

    CLT memungkinkan:

    • Uji hipotesis
    • Interval kepercayaan
    • Perhitungan probabilitas hasil statistik

    Tanpa CLT, metode ini tidak dapat dipakai pada data sembarang.

    4.3 Rumus

    1.Distribusi Sampling Berdasarkan CLT Ketika CLT berlaku, distribusi sampling dari rata-rata sampel mengikuti: \[ \bar{X} \sim N\left(\mu, \frac{\sigma}{\sqrt{n}}\right) \]

    2. Standard Error Standar deviasi dari distribusi sampling disebut Standard Error (SE): \[ \sigma_{\bar{X}} = \frac{\sigma}{\sqrt{n}} \]

    3. Rumus Standardisasi (Z-score) Untuk distribusi sampling: \[ Z = \frac{\bar{x} - \mu}{\sigma/\sqrt{n}} \]


    5 Sample Propotion

    Dalam statistika, kita menggunakan sampel untuk memperkirakan kondisi populasi. Karena setiap sampel bisa menghasilkan proporsi yang berbeda, kumpulan semua proporsi sampel ini membentuk distribusi sampling proporsi. Konsep ini penting karena membantu kita memahami variasi hasil sampel dan menghitung peluang terkait proporsi dalam populasi.



    6 Distribusi Sampling Proporsional

    Proporsi = bagian dari populasi yang memiliki ciri tertentu. - p = proporsi populasi (nilai tetap, parameter) - (p-hat) = proporsi sampel (bervariasi, statistik)

    Rumus: p̂ = x/n
    x = jumlah “sukses” dalam sampel
    n = ukuran sampel

    Contoh: - Populasi: 40% suka es krim → p = 0.40 - Sampel 50 orang: 20 suka es krim → p̂ = 20/50 = 0.40


    6.1 Distribusi Sampling p

    Kalau kita ambil banyak sampel dari populasi yang sama: - Sampel 1: hitung p̂₁ - Sampel 2: hitung p̂₂
    - Sampel 3: hitung p̂₃ - … terus sampai ratusan sampel

    Kumpulkan semua p̂ → buat distribusi → itulah distribusi sampling p̂.


    6.2 Sifat Distribusi Sampling p̂ (jika syarat terpenuhi)

    1. Bentuknya NORMAL (berkat Teorema Limit Tengah)

    Bentuk populasi asal tidak masalah! Asal syarat terpenuhi, distribusi sampling p̂ akan normal.

    2. Mean (rata-rata) = p

    \[ \mu_{p̂} = p \] Rata-rata dari semua p̂ = proporsi populasi

    3. Standard Error (bukan Standard Deviasi biasa)

    \[ SE = \sqrt{\frac{p(1-p)}{n}} \] Ini adalah “simpangan baku” untuk distribusi sampling

    4. Notasi lengkap:

    \[ p̂ \sim N\left(p, \sqrt{\frac{p(1-p)}{n}}\right) \]

    5. Rumus Z-score:

    \[ Z = \frac{p̂ - p}{\sqrt{\frac{p(1-p)}{n}}} \]


    6.3 Syarat Penting Perbedaan dengan Distribusi Sampling Mean

    Untuk distribusi sampling mean (rata-rata): cukup n ≥ 30
    Untuk distribusi sampling proporsi: harus penuhi DUA syarat:

    \[ n \times p \geq 10 \quad \text{dan} \quad n \times (1-p) \geq 10 \]

    Kenapa? Supaya:

    1. Cukup banyak “sukses” dalam sampel (n×p ≥ 10)
    2. Cukup banyak “gagal” dalam sampel (n×(1-p) ≥ 10)

    Contoh cek syarat:

    • p = 0.4, n = 25 → 25×0.4=10 ✓, 25×0.6=15 ✓ → CLT berlaku
    • p = 0.1, n = 100 → 100×0.1=10 ✓, 100×0.9=90 ✓ → CLT berlaku
    • p = 0.05, n = 100 → 100×0.05=5 ✗ → CLT TIDAK berlaku

    6.4 Contoh Soal:

    Kasus: ANEMIA IBU HAMIL

    DATA:

    • Prevalensi anemia di populasi: 40% → p = 0.40
    • 1-p = 0.60

    6.4.1 Kasus 1: Sampel n = 100 IBU HAMIL

    Langkah 1: Cek Syarat CLT

    n×p = 100×0.40 = 40 ≥ 10 ✓
    n×(1-p) = 100×0.60 = 60 ≥ 10 ✓
    → CLT BERLAKU

    Langkah 2: Hitung Standard Error

    \[ SE = \sqrt{\frac{0.40 \times 0.60}{100}} = \sqrt{0.0024} = 0.049 \]

    Langkah 3: Hitung Probabilitas

    a. Probabilitas < 35% anemia

    Target: p̂ < 0.35 \[ Z = \frac{0.35 - 0.40}{0.049} = -1.02 \] Dari tabel Z: P(Z < -1.02) = 0.1539
    Jawaban: 15.39%

    b. Probabilitas > 45% anemia

    Target: p̂ > 0.45 \[ Z = \frac{0.45 - 0.40}{0.049} = 1.02 \] P(Z > 1.02) = 1 - P(Z < 1.02) = 1 - 0.8461 = 0.1539
    Jawaban: 15.39%

    c. Probabilitas antara 35%-45% anemia

    P(0.35 < p̂ < 0.45) = P(-1.02 < Z < 1.02)
    = 0.8461 - 0.1539 = 0.6922
    Jawaban: 69.22%


    6.4.2 Kasus 2: Sampel n = 400 IBU HAMIL

    Langkah 1: Cek Syarat CLT

    n×p = 400×0.40 = 160 ≥ 10 ✓
    n×(1-p) = 400×0.60 = 240 ≥ 10 ✓
    → CLT BERLAKU

    Langkah 2: Hitung Standard Error (lebih kecil!)

    \[ SE = \sqrt{\frac{0.40 \times 0.60}{400}} = \sqrt{0.0006} = 0.0245 \]

    Langkah 3: Hitung Probabilitas

    a. Probabilitas < 35% anemia

    \[ Z = \frac{0.35 - 0.40}{0.0245} = -2.04 \] P(Z < -2.04) = 0.0207
    Jawaban: 2.07%

    b. Probabilitas > 45% anemia

    \[ Z = \frac{0.45 - 0.40}{0.0245} = 2.04 \] P(Z > 2.04) = 1 - 0.9793 = 0.0207
    Jawaban: 2.07%

    c. Probabilitas antara 35%-45% anemia

    P(0.35 < p̂ < 0.45) = P(-2.04 < Z < 2.04)
    = 0.9793 - 0.0207 = 0.9586
    Jawaban: 95.86%


    6.4.2.1 Interpretasi Dari Contoh Ini:

    1. Efek Ukuran Sampel (n)

    • n ↑ → SE ↓ (Standard Error mengecil)
    • n ↑ → Z-score ↑ untuk target yang sama
    • n ↑ → probabilitas hasil ekstrem ↓
    • n ↑ → probabilitas hasil sekitar p ↑

    2. Kenapa n=400 lebih baik?

    Karena Standard Error lebih kecil: - n=100: SE = 0.049 → margin error ±9.8% - n=400: SE = 0.0245 → margin error ±4.9%

    Artinya: Dengan sampel 400, estimasi kita 2× lebih presisi!

    3. Interpretasi untuk Penelitian Kesehatan

    • Dengan sampel 100: Ada 30.78% kemungkinan estimasi menyimpang >5% dari nilai sebenarnya
    • Dengan sampel 400: Hanya 4.14% kemungkinan estimasi menyimpang >5%

    6.4.3 Langkah Penyelesaian Soal

    1. TULIS DATA: p = …, 1-p = …, n = …, target p̂ = …
    2. CEK SYARAT: n×p ≥ 10 dan n×(1-p) ≥ 10?
      • Jika YA → lanjut
      • Jika TIDAK → CLT tidak berlaku
    3. HITUNG SE: √[p(1-p)/n]
    4. HITUNG Z: (p̂ - p)/SE
    5. CARI di TABEL Z: cari probabilitas
    6. INTERPRETASI: ubah ke % & jelaskan

    7 Riview Sampling Distribution

    Semua konsep ini sebenarnya saling terhubung dan membentuk satu alur logis dari memahami peluang paling sederhana hingga mampu memperkirakan hasil dari sampel besar dengan cepat dan akurat.Selanjutnya kita akan me-riview secara menyeluruh tentang apa yg kita bahas



    7.1 1. Review Probability (Peluang)

    Probability = kemungkinan suatu kejadian terjadi.

    Pada contoh:

    • 200 green marbles
    • 300 blue marbles
    • Total = 500

    Maka:

    • Peluang green (sukses): [ p = = 0.4]

    • Peluang blue (gagal): [ q = = 0.6]

    Jika pengambilan dilakukan berulang dan saling bebas (with replacement), maka setiap draw punya peluang sama.


    7.2 2. Sample Space & Cara Hitung Probability Manual

    Setiap urutan pengambilan adalah outcome. Contoh:

    • GGB
    • BGB
    • BGG
    • dll.

    Probability outcome didapat dari perkalian peluang tiap posisi:

    Contoh:

    [ P(GGB) = 0.4 = 0.096]

    Untuk 3 blue berturut-turut:

    [ 0.6^3 = 0.216]

    Kalau diminta:

    7.2.1 P(Setidaknya 2 green)

    Berarti menghitung:

    • P(2 green),
    • P(3 green),

    lalu dijumlahkan.

    Dari hitungan manual:

    • P(2 green) = 0.288
    • P(3 green) = 0.064

    Total: [ P( green) = 0.288 + 0.064 = 0.352]


    7.3 3. Kenapa Kita Beralih ke Binomial?

    Ketika jumlah pengambilan lebih besar (misal n = 5 atau n = 100), cara manual menjadi:

    ❌ capek ❌ terlalu banyak outcomes ❌ tidak efisien

    → Maka kita pakai Binomial Distribution.


    7.4 4. Binomial Distribution (Ketika n = 5)

    Binomial dipakai ketika:

    • jumlah percobaan tetap → n
    • hanya 2 hasil → sukses / gagal
    • peluang tetap → p
    • tiap percobaan independen

    Rumus Binomial:

    [ P(k) = p^k (1-p)^{n-k}]

    Untuk soal:

    • n = 5
    • p = 0.4
    • k = 2, 3, 4, 5

    Hitung 4 kali, lalu jumlahkan.

    Dari video:

    • P(2 green) = 0.3456
    • dan setelah gabung semua: [ P() = 0.66304]

    7.5 5. Ketika n Sangat Besar (n = 100)

    Jika n besar, menghitung dengan

    • sample space → ❌ mustahil
    • binomial → ❌ 65 kali perhitungan

    Solusinya:

    Sampling Distribution of the Sample Proportion (p̂)

    dengan bantuan Central Limit Theorem (CLT).


    7.6 6. Cek Syarat CLT untuk p̂

    Syarat CLT untuk proporsi:

    • ✔ n·p ≥ 10

    • ✔ n·(1−p) ≥ 10

    Masukkan nilai:

    • n = 100
    • p = 0.4

    Cek:

    1. 100 × 0.4 = 40 ≥ 10
    2. 100 × 0.6 = 60 ≥ 10

    Karena dua-duanya terpenuhi → distribusi p̂ mendekati normal.


    7.7 7. Gunakan Standardization Formula (Z-score)

    Proposi minimal 35/100 → p̂ = 0.35.

    Z-score:

    [ z = ]

    Masukkan:

    • p̂ = 0.35
    • p = 0.4
    • n = 100

    Dapat:

    [ z = -1.02]

    Dari tabel Z:

    • area kiri z = –1.02 adalah 0.1539

    Ini berarti: [ P(p ) = 0.1539]

    Tapi soal minta:

    • P(p̂ ≥ 0.35)

    Maka:

    [ 1 - 0.1539 = 0.8461]

    Jadi probabilitas ≈ 84.61%.


    7.8 8. Catatan Penting

    • CLT menghasilkan probabilitas mendekati (approximate), bukan persis.

    • Exact probability harus pakai:

      • sample space (untuk n kecil), atau
      • binomial (untuk n tidak terlalu besar).

    Tapi untuk statistik pemula, metode CLT cukup akurat dan cepat.


    7.9 Summary

    Probability → hitung peluang dasar. Binomial Distribution → digunakan kalau ingin hitung peluang k sukses dari n percobaan. Sampling Distribution of p̂ → dipakai kalau n besar, sehingga binomial sulit; dengan syarat CLT (np ≥ 10 dan nq ≥ 10), distribusi p̂ mendekati normal dan bisa dihitung pakai z-score.