PROBABILITY DISTRIBUTION (WEEK 11)

Rangkuman (Probability Distribution) ~ Week 11

Nakeisha Aulia Zahra

Data Science undergraduate student

R Programming Data Science Statistics

1 Definisi Probability Distribution

Probability adalah bukan cuma tentang seberapa sering sesuatu akan terjadi. Ini adalah fondasi dari banyak metode statistik yang kita pakai buat mengambil keputusan.

Kalau kita melakukan eksperimen (misalnya, melempar koin 10 kali) dan hasilnya beda-beda, kita pakai konsep-konsep ini:

  • Variabel Acak (Random Variable): Ini adalah “wadah” untuk menampung semua hasil yang mungkin dari eksperimenmu.
  • Distribusi Probabilitas: Ini adalah “peta” yang kasih tahu kita seberapa besar peluang (probabilitas) setiap hasil itu muncul.

Memahami “bentuk” dari probabilitas ini SANGAT penting karena akan menentukan cara kita menghitung peluang dan membuat prediksi. Untuk data yang sifatnya sambung-menyambung (misalnya, tinggi badan atau suhu), distribusi probabilitas adalah inti dari semua analisis statistik.

Materi ini akan memandu kita melalui beberapa konsep:

  • Variabel acak kontinu untuk variabel kontinu, yang menggambarkan kemungkinan nilai-nilai selama rentang kontinu.
  • Distribusi Sampling yang mewakili distribusi statistik sampel seperti mean sampel atau proporsi sampel.
  • Teorema Batas Pusat (CLT), salah satu hasil terpenting dalam statistik, menjelaskan mengapa distribusi sampel cenderung normal terlepas dari bentuk populasi yang mendasarinya.
  • Distribusi proporsi sampel Banyak digunakan dalam analisis survei dan penelitian kuantitatif.

Setiap bagian didukung dengan penjelasan video untuk meningkatkan pemahaman konseptual kita. Dengan menguasai topik ini, kita akan lebih siap untuk menganalisis data, membangun model statistik, dan menarik kesimpulan berdasarkan prinsip-prinsip probabilistik yang solid.

2 Acak Berkelanjutan

vidio; Distribusi Probabilitas Variabel Kontinu

Di vidio tersebut kita untuk memahami variabel acak kontinu, itu penting untuk mengetahui bagaimana probabilitas direpresentasikan menggunakan Fungsi Kepadatan Probabilitas (PDF). Tidak seperti variabel acak diskrit, variabel acak kontinu tidak menetapkan probabilitas ke titik-titik individual. Sebaliknya, probabilitas diperoleh dari luas area di bawah kurva PDF.

2.1 Variabel acak

Variabel random adalah kontinu jika dapat mengambil nilai dalam interval pada garis bilangan real. Contohnya seperti: tinggi, waktu, suhu, usia, tekanan, dan kecepatan.

Karakteristik utamanya:

  • Variabel mengambil nilai dalam interval seperti \((a, b)\) atau bahkan \((-\infty, +\infty)\).
  • Probabilitas setiap titik tunggal selalu nol:\[P(X = x) = 0\]
  • Probabilitas hanya berarti selama interval: \[P(a \le X \le b) = \int_{a}^{b} f(x) dx\]

2.2 Kepadatan probabilitas

Sebuah fungsi \(f(x)\) adalah fungsi kepadatan probabilitas yang valid (PDF) jika memenuhi:

  • Non-negatif \[f(x) \ge 0 \quad \forall x\]

  • Total Area Sama dengan 1 \[\int_{-\infty}^{\infty} f(x) dx = 1\]

Interpretasi:

  • Nilai-nilai yang lebih besar dari \(f(x)\) menunjukkan probabilitas yang lebih tinggi kepadatan sekitar nilai tersebut.
  • Namun, \(f(x)\) Bukan probabilitas. Probabilitas berasal dari daerah di bawah kurva.

Contoh PDF: \(f(x) = 3x^2\) pada \([0, 1]\)

Pertimbangkan fungsi kepadatan probabilitas: \[f(x) = 3x^2, \quad 0 \leq x \leq 1\]

Validasi: \[\int_0^1 3x^2 \, dx = 1\]

2.3 Probabilitas pada Interval

Untuk menghitung probabilitas dalam interval: \[P(a \leq X \leq b) = \int_a^b 3x^2 \, dx\]

Contoh: \[P(0.5 \leq X \leq 1)\]

2.4 Distribusi kumulatif meliputi

Fungsi Distribusi Kumulatif (CDF) didefinisikan sebagai: \[F(x) = P(X \leq x) = \int_0^x 3t^2 \, dt = x^3\]

Hubungan antara PDF dan CDF: \[f(x) = F'(x)\]

3 Distribusi Sampel

Sebelum menonton vidio apakah kalian sudah tau apa itu Distribusi Sampel? sebelum menonton simak pembahasan ini terlebih dahulu

3.1 Apa Itu Distribusi Sampel?

Distribusi sampel suatu statistik adalah distribusi statistik itu sendiri, yang dianggap sebagai variabel acak, dimana ketika diturunkan dari sampel acak berukuran \(N\).

Distribusi ini dapat dianggap sebagai distribusi statistik untuk semua sampel yang mungkin dari populasi yang sama dengan ukuran sampel tertentu. Distribusi sampel bergantung pada distribusi dasar populasi, statistik yang dipertimbangkan, prosedur pengambilan sampel yang digunakan, dan ukuran sampel yang digunakan. Seringkali terdapat minat yang cukup besar terhadap apakah distribusi sampel dapat didekati dengan distribusi asimtotik, yang sesuai dengan kasus pembatas, baik ketika jumlah sampel acak berukuran terbatas, yang diambil dari populasi tak terbatas dan digunakan untuk menghasilkan distribusi, cenderung tak terhingga, atau ketika hanya satu “sampel” berukuran tak terhingga yang diambil dari populasi yang sama.

Misalnya, pertimbangkan populasi normal dengan rata-rata \(\mu\) dan varians \(\sigma^2\). Asumsikan kita berulang kali mengambil sampel dengan ukuran tertentu dari populasi ini dan menghitung rata-rata aritmatika \(\bar{X}\) untuk setiap sampel statistik ini disebut rata-rata sampel. Distribusi rata-rata ini, atau rata-rata, disebut “distribusi sampel rata-rata sampel”. Distribusi ini normal \(N(\mu, \sigma^2/N)\) (\(n\) adalah ukuran sampel) karena populasi yang mendasarinya normal, meskipun distribusi sampel mungkin mendekati normal meskipun distribusi populasinya tidak normal (lihat teorema limit pusat). Alternatif untuk rata-rata sampel adalah median sampel. Ketika dihitung dari populasi yang sama, median sampel memiliki distribusi sampel yang berbeda dengan rata-rata dan umumnya tidak normal (tetapi mungkin mendekati untuk ukuran sampel yang besar).

Rata-rata sampel dari populasi berdistribusi normal merupakan contoh statistik sederhana yang diambil dari salah satu populasi statistik paling sederhana. Untuk statistik dan populasi lain, rumusnya lebih rumit, dan seringkali tidak tersedia dalam bentuk tertutup. Dalam kasus seperti itu, distribusi sampel dapat didekati melalui simulasi Monte Carlo, metode bootstrap, atau teori distribusi asimtotik.

3.2 Vidio Penjelasan Distribusi Sampel

Vidio: Distribusi Sampel

Di vidio sebelum kita membahas tentang konsep distribusi sampling secara lebih mendalam, video ini juga memberikan kita penjelasan tentang visual yang jelas, juga bagaimana statistik seperti rata-rata sampel yang berperilaku ketika diambil berulang kali dari populasi yang sama. Video ini juga menawarkan dasar intuitif untuk memahami variabilitas, ketidakpastian, dan mengapa distribusi sampel penting dalam inferensi statistik.

3.3 Rangkuman Vidio

3.4 Konsep Dasar

library(knitr)

# Data untuk tabel
Konsep <- c("Distribusi Sampel", "Distribusi Sampling")
Definisi <- c(
  "Distribusi yang dibuat dari **satu sampel tunggal** yang diambil dari populasi.",
  "Distribusi dari **satu statistik** (misalnya, rata-rata $\\bar{x}$) yang dibuat dari berbagai/banyak sampel acak sederhana yang ditarik dari populasi yang sama."
)
Statistik_Digunakan <- c(
  "Rata-rata sampel ($\\bar{x}$), Simpangan Baku Sampel ($s$).",
  "Rata-rata dari semua rata-rata sampel ($\\mu_{\\bar{x}}$), Galat Baku ($\\sigma_{\\bar{x}}$)."
)

# Gabungkan data menjadi sebuah data frame
tabel_statistik_distribusi <- data.frame(Konsep, Definisi, Statistik_Digunakan)

# Buat tabel menggunakan kable. 
kable(tabel_statistik_distribusi, 
      format = "markdown", 
      col.names = c("Konsep", "Definisi", "Statistik yang Digunakan"),
      caption = "**Perbandingan Distribusi Sampel dan Distribusi Sampling**",
      escape = FALSE)
Perbandingan Distribusi Sampel dan Distribusi Sampling
Konsep Definisi Statistik yang Digunakan
Distribusi Sampel Distribusi yang dibuat dari satu sampel tunggal yang diambil dari populasi. Rata-rata sampel (\(\bar{x}\)), Simpangan Baku Sampel (\(s\)).
Distribusi Sampling Distribusi dari satu statistik (misalnya, rata-rata \(\bar{x}\)) yang dibuat dari berbagai/banyak sampel acak sederhana yang ditarik dari populasi yang sama. Rata-rata dari semua rata-rata sampel (\(\mu_{\bar{x}}\)), Galat Baku (\(\sigma_{\bar{x}}\)).

Bagaimana Distribusi Sampling Bisa Dibuat?

yaitu dengan cara memproses pembuatan Distribusi Sampling dengan rata-rata Sampel (\(\bar{x}\)):

  • Tentukan Populasi dan ukurannya (\(N\)).
  • Ambil Sampel Acak Sederhana berulang kali dengan ukuran yang sama (\(n\)).
  • Hitung Rata-rata Sampel (\(\bar{x}\)) untuk setiap sampel yang diambil.
  • Plot/gabungkan semua nilai \(\bar{x}\) ke dalam satu grafik (distribusi frekuensi).

Teorema Limit Pusat Atau (Central Limit Theorem) itu jika kita mengambil cukup banyak data (sampel), Distribusi Sampling akan berbentuk Distribusi Normal terlepas dari bentuk distribusi populasi aslinya.

3.5 Perbandingan & Rumus Utama

Terdapat perbedaan mendasar diantara Distribusi Populasi (setiap individu) dan Distribusi Sampling (rata-rata dari banyak sampel).

library(knitr)

# Data untuk tabel
Karakteristik <- c("Rata-rata ($\\mu$ atau $\\mu_{\\bar{x}}$)", "Simpangan Baku", "Variabilitas")
Distribusi_Populasi <- c(
  "Rata-rata Populasi ($\\mu$)", 
  "Simpangan Baku Populasi ($\\sigma$)", 
  "Lebih besar"
)
Distribusi_Sampling <- c(
  "Rata-rata Distribusi Sampling ($\\mu_{\\bar{x}}$)", 
  "Galat Baku ($\\sigma_{\\bar{x}}$)", 
  "Lebih kecil (Rata-rata kurang bervariasi daripada pengamatan individu)"
)

# Gabungkan data menjadi sebuah data frame
tabel_karakteristik_distribusi <- data.frame(Karakteristik, Distribusi_Populasi, Distribusi_Sampling)

# Buat tabel menggunakan kable. 
kable(tabel_karakteristik_distribusi, 
      format = "markdown", 
      col.names = c("Karakteristik", "Distribusi Populasi", "Distribusi Sampling Rata-rata Sampel ($\\bar{x}$)"),
      caption = "**Perbandingan Karakteristik Utama**",
      escape = FALSE)
Perbandingan Karakteristik Utama
Karakteristik Distribusi Populasi Distribusi Sampling Rata-rata Sampel (\(\bar{x}\))
Rata-rata (\(\mu\) atau \(\mu_{\bar{x}}\)) Rata-rata Populasi (\(\mu\)) Rata-rata Distribusi Sampling (\(\mu_{\bar{x}}\))
Simpangan Baku Simpangan Baku Populasi (\(\sigma\)) Galat Baku (\(\sigma_{\bar{x}}\))
Variabilitas Lebih besar Lebih kecil (Rata-rata kurang bervariasi daripada pengamatan individu)

A. Rumus Rata-rata (\(\mu\))

Rata-rata dari Distribusi Sampling (\(\mu_{\bar{x}}\)) adalah sama dengan Rata-rata Populasi (\(\mu\)). \[\mathbf{\mu_{\bar{x}} = \mu}\]

B. Rumus Simpangan Baku (Galat Baku)

Simpangan Baku dari Distribusi Sampling disebut Galat Baku (Standard Error, \(\sigma_{\bar{x}}\)). Nilainya lebih kecil dan dihitung dengan membagi Simpangan Baku Populasi (\(\sigma\)) dengan akar kuadrat dari ukuran sampel (\(n\)). \[\mathbf{\sigma_{\bar{x}} = \frac{\sigma}{\sqrt{n}}}\]

3.6 Rumus Standardisasi (Skor-Z)

Rumus ini digunakan untuk menghitung probabilitas (luas area di bawah kurva normal) dari suatu nilai pada distribusi. Yang dimana:

A. Rumus Skor-Z untuk Distribusi Populasi (Data Individual \(x\))

Untuk mengukur seberapa jauh suatu pengamatan individu (\(x\)) dari rata-rata populasi (\(\mu\)). \[\mathbf{Z = \frac{x - \mu}{\sigma}}\]

B. Rumus Skor-Z untuk Distribusi Sampling (Rata-rata Sampel \(\bar{x}\))

Untuk mengukur seberapa jauh suatu rata-rata sampel (\(\bar{x}\)) dari rata-rata Distribusi Sampling (\(\mu_{\bar{x}}\) atau \(\mu\)). \[\mathbf{Z = \frac{\bar{x} - \mu_{\bar{x}}}{\sigma_{\bar{x}}} \quad \text{atau} \quad Z = \frac{\bar{x} - \mu}{\frac{\sigma}{\sqrt{n}}}}\]

3.7 Kegunaan Distribusi Sampling

Tujuan utama dari Distribusi Sampling adalah:

  • Kenyamanan dan Efisiensi: Memungkinkan peneliti untuk mengestimasi parameter populasi (seperti \(\mu\)) tanpa harus mengukur setiap individu dalam populasi.
  • Menghitung Probabilitas: Memungkinkan perhitungan probabilitas untuk mendapatkan hasil sampel tertentu berdasarkan ukuran sampel (\(n\)).

3.8 Contoh Soal

Soal 1: Menggunakan Distribusi Sampling

Pertanyaan: Berapa probabilitas bahwa rata-rata tinggi badan dari 10 orang Kanada kurang dari 157 cm?

  • Populasi diketahui: \(\mu = 160\) cm, \(\sigma = 7\) cm.
  • Ukuran sampel: \(n = 10\).

Langkah Perhitungan:

1.Hitung Galat Baku (\(\sigma_{\bar{x}}\)): \[\sigma_{\bar{x}} = \frac{\sigma}{\sqrt{n}} = \frac{7}{\sqrt{10}} \approx \mathbf{2.21}\]

2.Hitung Skor-Z untuk rata-rata sampel (\(\bar{x} = 157\)): \[Z = \frac{\bar{x} - \mu}{\sigma_{\bar{x}}} = \frac{157 - 160}{2.21} \approx \mathbf{-1.36}\]

3.Cari probabilitas \(P(Z < -1.36)\): Berdasarkan tabel Z-score, \(P(Z < -1.36) = \mathbf{0.0869}\).

Jawaban: Probabilitasnya adalah 0.0869 atau \(\mathbf{8.69\%}\).

Soal 2: Menggunakan Distribusi Populasi

Pertanyaan: Berapa proporsi semua orang (individu) yang memiliki tinggi badan lebih dari 170 cm?

  • Populasi diketahui: \(\mu = 160\) cm, \(\sigma = 7\) cm.

Langkah Perhitungan:

1.Hitung Skor-Z untuk pengamatan individu (\(x = 170\)): Hitung Skor-Z untuk pengamatan individu (\(x = 170\)):

2.Cari probabilitas \(P(x > 170)\) atau \(P(Z > 1.43)\):

  • Tabel Z-score memberikan area ke kiri: \(P(Z < 1.43) = 0.9236\).
  • Probabilitas ke kanan (lebih dari) adalah \(1 - 0.9236 = \mathbf{0.0764}\).

Jawaban: Proporsinya adalah \(\mathbf{0.0764}\) atau \(\mathbf{7.64\%}\).

4 The Central Limit Theorem (Teorema Limit Pusat)

Sebelum menonton vidio apakah kalian sudah tau apa itu The Central Limit Theorem (Teorema Limit Pusat)? sebelum menonton simak pembahasan ini terlebih dahulu

4.1 Apa Itu The Central Limit Theorem (Teorema Limit Pusat)?

Dalam teori probabilitas, Teorema Limit Pusat (CLT) menyatakan bahwa, dalam kondisi yang tepat, distribusi versi rata-rata sampel yang dinormalisasi konvergen ke distribusi normal standar. Hal ini berlaku bahkan jika variabel aslinya sendiri tidak terdistribusi normal. Ada beberapa versi CLT, masing-masing berlaku dalam konteks kondisi yang berbeda.

Teorema ini merupakan konsep kunci dalam teori probabilitas karena menyiratkan bahwa metode probabilistik dan statistik yang berlaku untuk distribusi normal dapat diterapkan pada banyak masalah yang melibatkan jenis distribusi lainnya.

Teorema ini telah mengalami banyak perubahan selama perkembangan formal teori probabilitas. Versi-versi teorema sebelumnya berasal dari tahun 1811, tetapi dalam bentuk modernnya baru dinyatakan secara tepat pada tahun 1920-an.

Dalam statistik, CLT dapat dinyatakan sebagai:

Misalkan \(X_1, X_2, \ldots, X_n\) menunjukkan sampel statistik berukuran \(n\) dari populasi dengan nilai yang diharapkan (rata-rata) \(\mu\) dan varians positif hingga \(\sigma^2\), dan misalkan \(\bar{X}_n\) menunjukkan rata-rata sampel (yang merupakan variabel acak). Kemudian limitnya adalah \(n \rightarrow \infty\) dari distribusi \(\sqrt{n}(\bar{X}_n - \mu)\) adalah distribusi normal dengan rata-rata \(0\) dan varians \(\sigma^2\).

Catatan: Simbol asli dalam teks Anda untuk limit adalah \(\lim_{n \rightarrow \infty}\) dari distribusi \((\bar{X}_n - \mu) \sqrt{n}\). Ini sering ditulis sebagai \(\sqrt{n}(\bar{X}_n - \mu)\) atau \(\frac{\bar{X}_n - \mu}{\sigma/\sqrt{n}}\) (standarisasi rata-rata sampel). Saya menggunakan notasi yang biasa untuk versi \(\sqrt{n}(\bar{X}_n - \mu)\) yang konvergen ke \(N(0, \sigma^2)\).

Dengan kata lain, misalkan diperoleh sampel observasi yang besar, dengan setiap observasi dihasilkan secara acak dengan cara yang tidak bergantung pada nilai observasi lainnya, dan rata-rata (mean aritmetika) dari nilai-nilai observasi dihitung. Jika prosedur ini dilakukan berkali-kali, menghasilkan kumpulan rata-rata observasi, teorema limit pusat menyatakan bahwa jika ukuran sampel cukup besar, distribusi probabilitas rata-rata ini akan mendekati distribusi normal.

Teorema limit pusat memiliki beberapa varian. Dalam bentuk umumnya, variabel acak harus independen dan terdistribusi identik (iid). Persyaratan ini dapat diperlemah; konvergensi rerata ke distribusi normal juga terjadi untuk distribusi non-identik atau untuk observasi non-independen jika memenuhi kondisi tertentu.

Versi paling awal dari teorema ini, bahwa distribusi normal dapat digunakan sebagai perkiraan distribusi binomial, adalah teorema de Moivre–Laplace.

4.2 Vidio Penjelasan The Central Limit Theorem (Teorema Limit Pusat)

Vidio: Central Limit Theorem

4.3 Rangkuman Vidio

4.4 Mengulas Ulamg; apa itu Distribusi Sampling

Distribusi sampling adalah distribusi yang dibentuk dengan cara mengambil sampel secara berulang dari suatu populasi, menghitung statistik tertentu (seperti rata-rata sampel, dilambangkan sebagai \(\bar{x}\)) dari setiap sampel, dan kemudian menggabungkan informasi ini untuk membuat sebuah distribusi.

4.5 Konsep Teorema Limit Pusat (CLT)

CLT adalah teorema yang memprediksi bentuk dari distribusi sampling dari rata-rata sampel (\(\bar{x}\)) berdasarkan ukuran sampel (\(n\)).

Pernyataan Utama CLT: Jika ukuran sampel (\(\mathbf{n}\)) cukup besar, maka distribusi sampling dari rata-rata sampel (\(\bar{x}\)) akan mendekati bentuk distribusi normal, terlepas dari bagaimana bentuk distribusi populasi asalnya.

Artinya, meskipun distribusi populasi aslinya miring (skewed), seragam, atau bentuk lainnya, jika kita mengambil sampel yang cukup besar berulang kali, rata-rata dari sampel-sampel tersebut akan membentuk kurva lonceng (distribusi normal).

4.6 Aturan Utama dan Kondisi Penerapan

Dalam video itu menjelaskan bahwa, rumus atau aturan yang paling penting dan ditekankan adalah kondisi kapan Teorema Limit Pusat dapat diterapkan untuk menjamin distribusi sampling akan menjadi normal.

Aturan Utama (Kondisi Ukuran Sampel): \(\mathbf{n \ge 30}\)

Penjelasan Aturan:

  • Jika Ukuran Sampel Cukup Besar: Jika \(n \ge 30\) (yaitu, ukuran sampel 30 atau lebih), maka Teorema Limit Pusat dapat diterapkan. Distribusi sampling dari rata-rata sampel (\(\bar{x}\)) akan secara otomatis mendekati normal.
  • Jika Ukuran Sampel Kecil: Jika \(n < 30\), CLT tidak dapat diterapkan untuk menjamin kenormalan distribusi sampling.

Kasus Khusus (Pengecualian) Ada satu kondisi di mana distribusi sampling akan tetap normal meskipun ukuran sampelnya kecil (\(n < 30\)):

  • Jika Distribusi Populasi Asal Sudah Normal: Jika populasi yang dijadikan sampel memang sudah berdistribusi normal sejak awal, maka distribusi sampling rata-rata sampel (\(\bar{x}\)) akan tetap normal, bahkan untuk ukuran sampel yang kecil.

Kegunaan CTL

Dengan mengetahui bahwa distribusi sampling akan berdistribusi normal, kita dapat menggunakan rumus-rumus yang berkaitan dengan distribusi normal (seperti perhitungan Z-score dan probabilitas) untuk menganalisis dan menginterpretasikan data, yang sangat berguna untuk bekerja dengan kumpulan data yang besar.

5 Proporsi Sampel

Sebelum menonton vidio apakah kalian sudah tau apa itu Proporsi Sampel? sebelum menonton simak pembahasan ini terlebih dahulu

Dalam statistik, proporsi populasi, umumnya dilambangkan dengan \(P\) atau huruf Yunani \(\pi\), adalah parameter yang menggambarkan nilai persentase yang terkait dengan suatu populasi. Sensus dapat dilakukan untuk menentukan nilai sebenarnya dari suatu parameter populasi, tetapi seringkali sensus tidak praktis karena biaya dan waktu yang dibutuhkan. Misalnya, sensus Amerika Serikat tahun 2010 menunjukkan bahwa \(83,7\%\) populasi Amerika diidentifikasi bukan Hispanik atau Latin; nilai \(0,837\) adalah proporsi populasi. Secara umum, proporsi populasi dan parameter populasi lainnya tidak diketahui.

Proporsi populasi biasanya diperkirakan melalui statistik sampel yang tidak bias yang diperoleh dari studi observasi atau eksperimen, menghasilkan proporsi sampel, yang umumnya dilambangkan dengan \(\hat{p}\) dan di beberapa buku teks oleh \(p\).

Misalnya, Konferensi Literasi Teknologi Nasional melakukan survei nasional terhadap \(2.000\) orang dewasa untuk menentukan persentase orang dewasa yang buta huruf secara ekonomi; studi tersebut menunjukkan bahwa \(1.440\) dari \(2.000\) orang dewasa yang dijadikan sampel tidak memahami apa itu produk domestik bruto. Nilai \(72\%\) (atau \(1440/2000\)) adalah proporsi sampel.

5.1 Vidio Penjelasan Proporsi Sempel

Vidio: Distribusi Sampling Proporsi Sampel

5.2 Rangkuman Vidio

5.3 Konsep Dasar

Proporsi (Proportion) Dalam statistik, proporsi adalah pecahan hasil yang diinginkan (sukses) dibandingkan dengan keseluruhan.

  • Proporsi Populasi (P): Proporsi untuk seluruh populasi, dilambangkan dengan huruf P.
  • Proporsi Sampel (\(\mathbf{\hat{p}}\)): Proporsi untuk sampel yang diambil, dilambangkan dengan \(\mathbf{\hat{p}}\) (P-topi)

Rumus Proporsi

\[\text{Proporsi} = \frac{\text{Jumlah hasil yang diinginkan (sukses)}}{\text{Jumlah total hasil}}\]

  • Untuk Populasi: \(P = \frac{X}{N}\) (di mana \(X\) adalah jumlah sukses dalam populasi, \(N\) adalah ukuran populasi).
  • Untuk Sampel: \(\hat{p} = \frac{x}{n}\) (di mana \(x\) adalah jumlah sukses dalam sampel, \(n\) adalah ukuran sampel).

Distribusi Sampling (\(\mathbf{\hat{p}}\)) Jika Anda mengambil sampel acak berulang kali dari populasi yang sama, menghitung \(\hat{p}\) untuk setiap sampel, dan kemudian memplot semua nilai \(\hat{p}\) tersebut, hasil plotnya disebut Distribusi

Sampling Proporsi Sampel (\(\mathbf{\hat{p}}\)). Distribusi ini, seperti distribusi lainnya, memiliki rata-rata (\(\mu\)) dan simpangan baku (\(\sigma\)).

5.4 Karakteristik Distribusi Sampling Proporsi Sampel

Jika Distribusi Sampling Proporsi Sampel normal (berlaku Teorema Limit Pusat), maka terdapat tiga sifat utama:

1. Rata-Rata (\(\mu_{\hat{p}}\)) Rata-rata dari semua proporsi sampel (\(\hat{p}\)) adalah sama dengan Proporsi Populasi (P).

Rumus Rata-Rata \[\mu_{\hat{p}} = P\]

2. Simpangan Baku (\(\sigma_{\hat{p}}\)) Simpangan baku dari distribusi sampling disebut Galat Baku Proporsi Sampel (Standard Error of the Sample Proportion).

Rumus Simpangan Baku \[\sigma_{\hat{p}} = \sqrt{\frac{P \times Q}{n}}\]

Keterangan Rumus: - \(\sigma_{\hat{p}}\): Simpangan baku distribusi sampling \(\hat{p}\). - \(P\): Proporsi Populasi (Proporsi sukses). - \(Q\): Proporsi Non-sukses dalam populasi. Rumus \(Q\): \(Q = 1 - P\) -\(n\): Ukuran Sampel.

5.5 Teorema Limit Pusat (Central Limit Theorem)

Teorema Limit Pusat (TLP) harus dipenuhi agar distribusi \(\hat{p}\) dapat diasumsikan berdistribusi normal. Jika kondisi ini terpenuhi, kita dapat menggunakan skor-Z dan tabel Z untuk perhitungan probabilitas.

Kondisi TLP untuk Proporsi Sampel Dua kondisi berikut harus dipenuhi:

  • Kondisi Sukses: Jumlah hasil yang berhasil dalam sampel harus \(\ge 10\). \[n \cdot P \ge 10\]
  • Kondisi Gagal: Jumlah hasil yang tidak berhasil dalam sampel harus \(\ge 10\). \[n \cdot (1 - P) \ge 10\]

5.6 Rumus Standardisasi (Skor-Z)

Jika TLP terpenuhi, kita dapat menggunakan skor-Z untuk menstandardisasi nilai \(\hat{p}\) dan mencari probabilitasnya.

Rumus Skor-Z \[Z = \frac{\hat{p} - P}{\sigma_{\hat{p}}}\]

Atau, menggabungkan dengan rumus simpangan baku: \[Z = \frac{\hat{p} - P}{\sqrt{\frac{P(1-P)}{n}}}\]

Keterangan Rumus:

  • \(Z\): Skor-Z (Jumlah simpangan baku \(\hat{p}\) berada di atas atau di bawah rata-rata \(P\)).
  • \(\hat{p}\): Proporsi Sampel yang ingin diuji.
  • \(P\): Proporsi Populasi.
  • \(\sqrt{\frac{P(1-P)}{n}}\) :Simpangan baku distribusi sampling (\(\sigma_{\hat{p}}\)).

6 Tinjauan Distribusi Sampel

Vidio: Sampling Distribution of the Sample Proportion, Binomial Distribution, Probability

6.1 Rangkuman Vidio

6.2 Probabilitas Sederhana dan Ruang Sampel

Bagian ini membahas cara menghitung probabilitas dasar dengan jumlah percobaan (\(n\)) yang kecil, menggunakan contoh pengambilan kelereng 3 kali.

Rumus Probabilitas Sukses (\(P\))

Probabilitas suatu keberhasilan (sukses) dihitung dengan: \[P(\text{Sukses}) = \frac{\text{Jumlah Hasil Sukses}}{\text{Jumlah Total Hasil}}\]

Contoh Kasus Awal (Pengambilan 3 Kali):

  • Terdapat 200 kelereng hijau (Sukses) dan 300 kelereng biru (Gagal).
  • Total kelereng = 500.
  • Probabilitas Sukses (\(P\)) mengambil kelereng hijau: \[P = \frac{200}{500} = \mathbf{0.4}\]
  • Probabilitas Gagal (\(1-P\)) mengambil kelereng biru: \[1 - P = \frac{300}{500} = \mathbf{0.6}\]

Untuk mencari probabilitas suatu urutan hasil (misalnya Hijau-Hijau-Biru), Anda hanya perlu mengalikan probabilitas setiap peristiwa independen tersebut: \[P(\text{H-H-B}) = P(\text{H}) \cdot P(\text{H}) \cdot P(\text{B}) = 0.4 \cdot 0.4 \cdot 0.6 = \mathbf{0.096}\]

6.3 Distribusi Binomial

Metode ini digunakan untuk menghitung probabilitas jumlah sukses (\(k\)) yang tepat dalam sejumlah percobaan (\(n\)) ketika perhitungan menggunakan ruang sampel sudah terlalu panjang (misalnya, untuk pengambilan 5 kali atau lebih).

Rumus Distribusi Binomial

Rumus ini menghitung probabilitas mendapatkan tepat \(k\) kali sukses dalam \(n\) kali percobaan: \[P(k) = \binom{n}{k} \cdot p^k \cdot (1-p)^{n-k}\]

Keterangan Rumus:

  • \(\mathbf{n}\): Jumlah percobaan.
  • \(\mathbf{k}\): Jumlah keberhasilan yang diinginkan.
  • \(\mathbf{p}\): Probabilitas sukses pada satu percobaan.
  • \(\mathbf{p}\): Probabilitas sukses pada satu percobaan.
  • \(\binom{n}{k}\): Kombinasi dari \(n\) terhadap \(k\), dihitung sebagai \(\frac{n!}{k!(n-k)!}\). Ini adalah jumlah cara untuk mendapatkan \(k\) sukses dari \(n\) percobaan.

Penerapan: Jika pertanyaan meminta probabilitas “setidaknya \(k\) sukses,” Anda harus menghitung dan menjumlahkan probabilitas untuk \(P(X=k) + P(X=k+1) + \dots + P(X=n)\).

6.4 Distribusi Sampling Proporsi Sampel (Pendekatan Normal)

Metode ini digunakan untuk menghitung probabilitas perkiraan ketika jumlah percobaan (\(n\)) sangat besar (misalnya, \(n=100\)), karena menggunakan distribusi binomial akan terlalu memakan waktu. Ini menggunakan Teorema Batas Pusat (Central Limit Theorem) untuk Proporsi Sampel.

Syarat Teorema Batas Pusat (CLT)

Sebelum menggunakan pendekatan normal, dua kondisi ini harus dipenuhi:

  • \(n \cdot P \ge 10\) (Jumlah perkiraan sukses harus \(\ge 10\))
  • \(n \cdot (1 - P) \ge 10\) (Jumlah perkiraan gagal harus \(\ge 10\))

Jika kedua syarat terpenuhi, distribusi proporsi sampel (\(\hat{p}\)) dapat didekati oleh distribusi normal.

Rumus Standarisasi (Z-score) untuk Proporsi

Untuk menggunakan tabel \(z\)-score, proporsi sampel yang diamati (\(\hat{p}\)) harus diubah menjadi nilai \(Z\) menggunakan rumus berikut: \[Z = \frac{\hat{p} - p}{\sigma_{\hat{p}}}\]

Dengan \(\sigma_{\hat{p}}\) adalah standar deviasi proporsi sampel yang dihitung sebagai: \[\sigma_{\hat{p}} = \sqrt{\frac{p \cdot (1-p)}{n}}\]

Sehingga, rumus \(Z\) lengkapnya adalah: \[Z = \frac{\hat{p} - p}{\sqrt{\frac{p \cdot (1-p)}{n}}}\]

Keterangan Rumus:

  • \(\mathbf{Z}\): Skor \(Z\) (jumlah standar deviasi dari rata-rata).
  • \(\mathbf{\hat{p}}\): Proporsi sampel (\(k/n\)).
  • \(\mathbf{p}\): Proporsi populasi (probabilitas sukses).
  • \(\mathbf{n}\): Jumlah percobaan.

Penerapan: Setelah mendapatkan nilai \(Z\), nilai tersebut digunakan untuk mencari area (probabilitas) di bawah kurva normal standar menggunakan tabel \(z\)-score. Penting untuk diingat bahwa hasil dari pendekatan ini adalah probabilitas perkiraan (approximate probability), bukan probabilitas yang eksak.

7 Daftar Pustaka

7.1 Distribusi Sampel

  • Mooney, Christopher Z. (1999). Monte Carlo simulation. Thousand Oaks, Calif.: Sage. p. 2. ISBN 9780803959439.
  • Merberg, A. and S.J. Miller (2008). “The Sample Distribution of the Median”. Course Notes for Math 162: Mathematical Statistics, pgs 1–9.

7.2 The Central Limit Theorem (Teorema Limit Pusat)

  • Billingsley, Patrick (1995). Probabilitas dan Pengukuran (edisi ke-3). John Wiley & Sons. ISBN: 0-471-00710-2.
  • Durrett, Richard (2004). Probabilitas: teori dan contoh (edisi ke-3). Cambridge University Press. ISBN: 0521765390.
  • Fischer, Hans (2011). Sejarah Teorema Limit Pusat: Dari Teori Probabilitas Klasik ke Modern. New York: Springer. ISBN: 978-0-387-87856-0.
  • Bauer, Heinz (2001). Teori Ukur dan Integrasi. Berlin: de Gruyter. ISBN: 3110167190.
  • Dinov, Ivo; Christou, Nicolas; Sanchez, Juana (2008). “Teorema Limit Sentral: Applet SOCR Baru dan Aktivitas Demonstrasi”. Jurnal Pendidikan Statistika. 16(2). ASA: 1–15.
  • Bradley, Richard (2007). Pengantar Kondisi Pencampuran Kuat (edisi ke-1). Heber City, UT: Kendrick Press. ISBN: 978-0-9740427-9-4.

7.3 Proporsi Sempel

  • Weisstein, Eric W. “Sample Proportion”. mathworld.wolfram.com. Retrieved 2020-08-22.
  • 6.3: The Sample Proportion”. Statistics LibreTexts. 2014-04-16. Retrieved 2020-08-22.
  • Introduction to Statistical Investigations. Wiley. 18 August 2014. ISBN 978-1-118-95667-0.