Tugas week 11 ~ Probability Distribution

Practicum ~ Week 11

library(htmltools)
## Warning: package 'htmltools' was built under R version 4.5.2
HTML('
<div class="profile-card">

  <div>
    <img src="Almetcokkk.JPG">
  </div>

  <div class="profile-text">
    <h3>Verónica Maria L F Xavier</h3>

    <div class="profile-description">
      as a Student Data Science in Institut Teknologi Sains Bandung
    </div>

    <div class="profile-info-row">
      <p class="profile-info-item">
        <b>Mentored by:</b> <span class="mentor-name">Mr. Bakti Siregar M.Sc.,CDS</span>
      </p>
    </div>
    </div>
    
    
</div>
')

Verónica Maria L F Xavier

as a Student Data Science in Institut Teknologi Sains Bandung

Mentored by: Mr. Bakti Siregar M.Sc.,CDS

1 PENDAHULUAN

Probability Distributions membahas peran fundamental distribusi probabilitas dalam statistik dan pengambilan keputusan. Konten tersebut menjelaskan bahwa ketika suatu proses menghasilkan berbagai kemungkinan hasil, variabel acak digunakan untuk merepresentasikan hasil-hasil tersebut, sedangkan distribusi probabilitas mendeskripsikan bagaimana probabilitas didistribusikan ke setiap nilai yang mungkin. Memahami bentuk dan sifat suatu distribusi sangat penting karena menentukan perilaku data, perhitungan probabilitas, dan cara membuat prediksi. Distribusi ini menjadi inti dari statistik inferensial.

Materi ini akan membimbing pembaca melalui beberapa konsep kunci berikut:

  1. Variabel Acak Kontinu (Continuous Random Variables): Digunakan untuk variabel kontinu yang menggambarkan kemungkinan (likelihood) nilai-nilai dalam suatu rentang yang berkesinambungan.

  2. Distribusi Sampling (Sampling Distributions): Merepresentasikan distribusi dari statistik sampel, seperti rata-rata sampel (sample mean) atau proporsi sampel (sample proportion). Distribusi ini menjelaskan bagaimana statistik tersebut bervariasi dari satu sampel ke sampel lainnya.

  3. Teorema Limit Pusat (Central Limit Theorem - CLT): Dijelaskan sebagai salah satu hasil terpenting dalam statistik. Teorema ini menyatakan bahwa distribusi dari rata-rata sampel akan cenderung mengikuti distribusi normal, terlepas dari bentuk distribusi populasi asalnya, asalkan ukuran sampel cukup besar.

  4. Distribusi Proporsi Sampel (Sample Proportion Distributions): Merupakan jenis distribusi sampling yang sangat luas penerapannya, terutama dalam analisis survei dan penelitian kuantitatif.

Setiap bagian konsep didukung dengan penjelasan video untuk meningkatkan pemahaman secara konseptual. Dengan menguasai topik-topik ini, pembaca akan lebih siap untuk menganalisis data, membangun model statistik, dan menarik kesimpulan berdasarkan prinsip-prinsip probabilitas yang kuat.


VIDEO 1:Introduction to the Probability of Continuous Variables

2 CONTINUOS RANDOM

Video ini membahas peluang pada variabel kontinu, tetapi sebelum itu dijelaskan kembali apa itu variabel diskrit, agar kita dapat memahami perbedaan kedua konsep.

2.1 Variabel Diskrit (Discrete Variables)

Variabel diskrit adalah variabel yang hanya dapat memiliki jumlah nilai yang dapat dihitung (countable).

Contoh :

  • Jumlah kepala saat melempar koin.

  • Jumlah kelereng biru yang diambil dari sebuah kotak.

  • Nilai ujian seorang siswa.

Semua contoh tersebut hanya bisa memiliki nilai tertentu yang terbatas dan terhitung.

contoh lain:

Saat survei jumlah anak dalam keluarga: tidak mungkin bilang punya “setengah” anak atau “0.73” anak. Maka nilainya hanya bisa 0, 1, 2, 3, 4, dan seterusnya (nilai yang dapat dihitung.)

Variabel diskrit tidak selalu harus bilangan bulat.

Contoh dari video:

Saldo bank bisa saja $420.69

Nilai ujian bisa 5/10

Selama jumlahnya berhingga (finite) dan bisa dihitung, itu tetap disebut variabel diskrit.

2.2 Variabel Kontinu (Continuous Variables)

Berbeda dari variabel diskrit, variabel kontinu adalah variabel yang dapat memiliki nilai apa pun dalam suatu rentang bilangan.

Ciri utama dari video:

Diperoleh dengan mengukur, bukan menghitung.

Nilainya tak terbatas (infinite) dan tidak bisa dihitung satu per satu (uncountable).

Contoh :

  • Berat badan

  • Usia

  • Suhu

  • Jarak

Penjelasan detail dari video:

Misalnya usia seseorang:

Bisa 23 tahun

Tapi sebenarnya bisa 23 tahun 6 bulan

Atau 23 tahun 6 bulan 2 hari 3 detik 8 milidetik 1 nanodetik 32 pikodetik, dan seterusnya.

Video menekankan bahwa semakin detail kita mengukur, semakin panjang angka desimalnya, dan nilainya tidak terbatas—itulah sebabnya variabel ini kontinu.

Contoh lain: Berat badan

Seseorang mungkin 150 pound, tetapi jika diukur lebih presisi, bisa menjadi: 150.305482 dan seterusnya tanpa batas.

2.3 Perbedaan Representasi: Bar Chart vs Histogram

Video menjelaskan bahwa cara menampilkan variabel diskrit dan kontinu berbeda.

  1. Variabel Diskrit (Bar Chart)

Setiap nilai muncul sebagai batang terpisah. Ada celah antara batang untuk menunjukkan bahwa datanya tidak kontinu.

Contohnya: mencatat berapa kali muncul “heads” ketika 4 koin dilempar berulang kali.

library(ggplot2)

# Data diskrit
jumlah_heads <- c(0, 1, 2, 3, 4)
frekuensi <- c(5, 15, 10, 5, 3)

data_diskrit <- data.frame(
  heads = jumlah_heads,
  freq = frekuensi
)

ggplot(data_diskrit, aes(x = factor(heads), y = freq)) +
  geom_bar(stat = "identity", fill = "skyblue") +
  xlab("Jumlah Heads") +
  ylab("Frekuensi") +
  ggtitle("Bar Chart untuk Variabel Diskrit") +
  theme_minimal()

  1. Variabel Kontinu (Histogram)

Tidak ada celah antar batang. Tanpa celah menggambarkan bahwa data bersifat berkelanjutan/ kontinyu. Setiap nilai bisa ditempatkan di posisi mana pun dalam rentang.

Variabel kontinu bisa digambarkan dengan density curve (kurva kerapatan).

library(ggplot2)


# Data
set.seed(42)
data <- data.frame(
  x = rnorm(500, mean = 4, sd = 1.2)
)

# Plot histogram (
ggplot(data, aes(x)) +
  geom_histogram(
    bins = 8,                
    fill = "#3c2a4d",        # ungu gelap
    color = "white",         # outline putih
    linewidth = 1
  ) +
  theme_minimal(base_size = 14) +
  labs(title = "Continuous Random Variables",
       x = "", y = "") +
  
  theme(
    plot.background = element_rect(fill = "#c8add8", color = NA),
    panel.background = element_rect(fill = "#c8add8", color = NA),
    panel.grid = element_blank(),
    
    axis.text = element_text(color = "white", size = 12),
    axis.title = element_text(color = "white"),
    plot.title = element_text(color = "white", size = 18, face = "bold"),

    axis.line = element_line(color = "white", linewidth = 1.1),
    axis.ticks = element_line(color = "white")
  )

library(ggplot2)

set.seed(123)

# Data kontinu untuk density curve (0 sampai 8)
data_kontinu <- data.frame(
  x = rnorm(2000, mean = 4, sd = 1.2)  
)

# Batasi data hanya di antara 0–8 
data_kontinu <- subset(data_kontinu, x >= 0 & x <= 8)

ggplot(data_kontinu, aes(x = x)) +
  geom_area(stat = "density", fill = "#3b4a6b", alpha = 0.8, color = NA) +  # Area
  geom_line(stat = "density", color = "black", linewidth = 1) +  # Garis kurva hitam
  scale_x_continuous(breaks = 0:8, limits = c(0, 8)) +
  scale_y_continuous(breaks = NULL) + 
  
  theme_minimal(base_size = 14) +
  labs(title = "Density Curve",
       x = "", y = "") +
  
   theme(
    panel.background = element_rect(fill = "#c8add8", color = NA),
    plot.background = element_rect(fill = "#c8add8", color = NA),
    panel.grid = element_blank(),
    
    axis.text = element_text(color = "white", size = 12),
    axis.title = element_text(color = "white"),
    plot.title = element_text(color = "white", size = 18, face = "bold"),

    axis.line = element_line(color = "white", linewidth = 1.1),
    axis.ticks = element_line(color = "white")
  )


2.4 Perbedaan Rumus Probabilitas untuk Variabel Diskrit dan Kontinu

  • Untuk variabel diskrit:

Kita dapat menggunakan rumus-rumus peluang yang telah dibahas sebelumnya di video lain.

Contohnya:

  • Rumus probabilitas Distribusi Bimodal

\(P(k)=\frac{n}{k} p^{k}(1-p)^{n-k}\)


  • Penjumlahan peluang

\(P(A \cup B) = P(A) + P(B) - P(A \cap B)\)


  • Perkalian peluang

\(P(A ∩ B) = P(A) × P(B)\)


  • Aturan peluang pada kejadian diskrit

\(P(Aᶜ) = 1 - P(A)\)


  • Untuk variabel kontinu:

Kita menggunakan:

Rumus-rumus pada density curve, karena luas di bawah kurva = probabilitas

\(A= L × W\)


\(A= bh/2\)


\(Z = \frac{x - μ}σ:\)


Termasuk rumus-rumus pada normal distribution, karena normal distribution merupakan bentuk dari density curve itu sendiri.

2.5 KESIMPULAN

Diskrit hitung peluang berdasarkan titik-titik nilai.

Kontinu hitung peluang berdasarkan luas area di bawah kurva.


VIDEO 2 : Sampling Distributions

3 SAMPLING DISTRUBUTION

3.1 Population Distribution (Distribusi Populasi)

Population distribution menggambarkan penyebaran data seluruh anggota populasi.

Karakteristiknya:

Mean = μ

Standar deviasi = σ

Menunjukkan variasi individu, bukan rata-rata.

Notasi:

\(X \sim N(\mu, \sigma)\)

Untuk mengubah nilai X menjadi nilai z, digunakan rumus:

\(z = \frac{X - \mu}{\sigma}\)

3.2 Sample Distribution (Distribusi Sampel)

Distribusi sampel adalah distribusi nilai-nilai individu dalam satu sampel.

  • Tidak mewakili seluruh populasi.

  • Rata-rata sampel (x̄) dapat berbeda dari μ.

  • Setiap sampel berbeda x̄ juga bisa berbeda.

Contoh:

Sampel 1 x̄ = 160

Sampel 2 x̄ = 157

Sampel 3 x̄ = 164

3.3 Sampling Distribution (Distribusi Sampling)

Sampling distribution adalah distribusi ratusan atau ribuan rata-rata sampel (x̄).

Cara terbentuk:

  1. Ambil sampel acak ukuran n

  2. Hitung x̄

  3. Ulangi banyak sekali

  4. Plot seluruh nilai x̄ dalam histogram

library(ggplot2)

set.seed(123)

population <- data.frame(
  x = runif(50000, min = 0, max = 8)
)

n <- 40
k <- 2000

sample_means <- numeric(k)

for (i in 1:k) {
  sampel_i <- sample(population$x, size = n, replace = TRUE)
  sample_means[i] <- mean(sampel_i)
}

data_sampling <- data.frame(mean = sample_means)

ggplot(data_sampling, aes(x = mean)) +
  geom_histogram(
    bins = 15,                    
    color = "white",
    fill = "skyblue",
    alpha = 0.7
  ) +
  labs(
    title = "Sampling Distribution of the Sample Mean (X̄)",
    x = "Nilai X̄ (Sample Mean)",
    y = "Frekuensi"
  ) +
  theme_minimal(base_size = 14) +
  theme(
    plot.background = element_rect(fill = "#001c3d", color = NA),
    panel.background = element_rect(fill = "#001c3d", color = NA),
    panel.grid = element_line(color = "#32527b"),
    text = element_text(color = "white"),
    axis.text = element_text(color = "white")
  )

3.4 Mengapa Sampling Distribution Penting?

Karena menghitung data seluruh populasi sering tidak mungkin,

contohnya: Mengukur tinggi seluruh manusia di dunia (8 miliar orang).

Sampling distribution memungkinkan kita:

  • memperkirakan nilai populasi

  • menghitung probabilitas

  • membuat kesimpulan tanpa mengukur semua orang lebih murah, cepat, efisien

3.5 Ilustrasi Kasus Tinggi Badan Warga Kanada

Diketahui populasi warga Kanada memiliki:

Mean (μ) = 160 cm

Standar deviasi (σ) = 7 cm

Distribusi normal

A. Population Distribution

Dapat digambarkan seperti ini:

μ = 160

μ + 1σ = 167

μ − 1σ = 153

μ + 2σ = 174 dll.

Ini menggambarkan penyebaran seluruh individu.

B. Sampling Distribution untuk Sampel n = 10

Pertanyaan pertama menyebut rata-rata 10 orang, maka yang digunakan adalah sampling distribution.

$_{x̄} = 16$0

\(SE = \frac{7}{\sqrt{10}} = 2.21\)

3.6 Contoh

Contoh 1: Probabilitas rata-rata tinggi 10 orang < 157 cm, Karena menyebut rata-rata sampel, pakai sampling distribution.

Standardisasi

\(z = \frac{157 - 160}{2.21} = -1.36\)

Dari tabel Z:

\(z = –1.36~~ memiliki~~area ~~0.0869.\)

Kesimpulan:

\(P(\bar{X} < 157) = 0.0869 = 8.69\%\)

Artinya, peluang rata-rata tinggi 10 orang Kanada kurang dari 157 cm adalah 8.69%.

Contoh 2: Proporsi semua orang dengan tinggi > 170 cm

Kali ini pertanyaannya jelas: “semua orang” gunakan population distribution, bukan sampling distribution.

Standardisasi

\(z = \frac{170 - 160}{7} = 1.43\)

Dari tabel Z:

Area kiri = 0.9236

Area kanan: 1 - 0.9236 = 0.0764

Kesimpulan:

\(P(X > 170) = 0.0764 = 7.64\%\)

Artinya, sekitar 7.64% penduduk Kanada memiliki tinggi > 170 cm.

3.7 Kesimpulan

Perbedaan utama:

Konsep Isi Dipakai ketika

Population Distribution Distribusi seluruh individu (μ, σ) Pertanyaan soal “semua orang” atau individu Sample Distribution Data satu sampel
Tidak dipakai untuk probabilitas besar Sampling Distribution
Distribusi rata-rata sampel Jika pertanyaan menyebut rata-rata sampel

Hasil Dua Perhitungan

  1. Probabilitas rata-rata 10 orang < 157 cm 8.69%

  2. Proporsi semua orang > 170 cm 7.64%

Prinsip yang harus diingat

Jika yang ditanya rata-rata sampel, gunakan SE = σ / √n.

Jika yang ditanya individu/populasi, gunakan σ biasa.

Sampling distribution selalu lebih sempit daripada population distribution.

Sampling distribution sangat penting untuk inferensi statistik.


VIDEO 3 : The Central Limit Theorem

4 CENTRAL LIMIT THEOREM

4.1 Central Limit Theorem (CLT)

CLT menyatakan bahwa:

Jika ukuran sampel cukup besar (n ≥ 30), maka distribusi rata-rata sampel (X) akan mendekati normal, meskipun populasi awal tidak normal.

  • Rumus :

\(\bar{X} \sim N\left( \mu , \frac{\sigma}{\sqrt{n}} \right)\)

4.2 Syarat CLT

n ≥ 30 CLT berlaku sampling distribution normal

n < 30 CLT tidak berlaku (kecuali populasi awal normal)

  • Rumus :

\(n\ge 30\Rightarrow \bar{X} \approx N\left( \mu, \frac{\sigma}{\sqrt{n}} \right)\)

Jika populasi sudah normal, maka sampling distribution selalu normal, meski n kecil.

\(n\ \text{boleh kecil, tetap}\ \bar{X} \sim \text{Normal}\)

4.3 Hubungan X̄ dan μ

  • Rumus X sama dengan μ :

\(E(\bar{X}) = \mu\)

  • Rumus Variance semakin kecil saat n besar :

\(Var(\bar{X}) = \frac{\sigma^2}{n}\)

X̄ = rata-rata sampel

μ = rata-rata populasi Sebagian besar X̄ berkumpul dekat μ membentuk pola seperti normal.

4.4 Kenapa n kecil tidak cukup?

Karena :

\(SE = \frac{\sigma}{\sqrt{n}}\)

  • Variabilitas tinggi

  • Sampling distribution tidak stabil

  • Tidak bisa pakai pendekatan normal

4.5 KESIMPULAN

  • Sampling distribution menggambarkan distribusi statistik dari banyak sampel.

  • CLT memastikan bahwa rata-rata sampel akan normal jika n besar.

  • Mean sampling distribution = μ.

  • Varians dan SE mengecil saat n meningkat.

  • Populasi normal n kecil tidak apa-apa.

  • Populasi tidak normal harus n ≥ 30.


VIDEO 4 : Sampling Distribution of the Sample Proportion

5 SAMPLE PROPORTION

5.1 Apa Itu Sampling Distribution?

Sampling distribution adalah distribusi dari statistik sampel (misalnya rata-rata X̄) yang diperoleh dari banyak sampel acak. Jika kita mengambil sampel berkali-kali hitung X̄ tiap sampel lalu digambar terbentuklah sampling distribution.

5.2 Apa itu Proporsi?

Proporsi adalah perbandingan antara jumlah kejadian yang dianggap “berhasil” dengan jumlah keseluruhan.

  • Rumus proporsi:

\(p = \frac{\text{jumlah hasil yang diinginkan}}{\text{jumlah total}}\)

Proporsi pada populasi dilambangkan P.

Proporsi pada sampel dilambangkan (p-hat).

Contoh:

Jika dari 10 orang terdapat 2 orang bermata hijau, maka:

\(\hat{p} = \frac{2}{10} = 0.2\)

5.3 Sampling Distribution of the Sample Proportion

Jika kita mengambil banyak sampel dari populasi dan menghitung pada setiap sampel, kita akan mendapatkan banyak nilai . Nilai-nilai ini membentuk distribusi sampling dari proporsi sampel.

Distribusi ini memiliki:

  • Mean (rata-rata): rata-rata semua sama dengan proporsi populasi.

  • Standar deviasi (standard error): \(\sigma_{\hat{p}} = \sqrt{\frac{P(1-P)}{N}}\)

dengan:

= proporsi keberhasilan,

= proporsi tidak berhasil,

= ukuran sampel.

5.4 Syarat Central Limit Theorem (CLT) untuk Proporsi

Syarat yang ini Berbeda dengan sampel mean yang butuh , proporsi memiliki syarat khusus.

CLT berlaku jika:

  1. \(NP ≥ 10\)

  2. \(N(1 - p) ≥ 10\)

Jika kedua syarat ini terpenuhi, maka:

Distribusi mendekati normal.

Rumus Z-score dapat digunakan.

5.5 Rumus Standarisasi (Z-score) untuk Proporsi

Jika distribusi normal, maka Z-score dihitung dengan: \(Z = \frac{\hat{p} - P}{\sqrt{\frac{P(1-P)}{N}}}\)

Z-score ini dapat digunakan untuk:

  • menghitung peluang,

  • mencari area di bawah kurva normal,

  • melakukan uji hipotesis dengan tabel Z.

5.6 Hubungan dengan Distribusi Binomial

Distribusi sampling dari proporsi berhubungan erat dengan Distribusi binomial, dan Aturan peluang (probability rules).

Karena itu, memahami proporsi juga membantu dalam memutuskan kapan menggunakan rumus binomial dan kapan menggunakan Z-score.

5.7 Kesimpulan

  1. Proporsi ( dan ) menggambarkan perbandingan antara hasil yang diinginkan dan total keseluruhan.

  2. Sampling distribution of adalah distribusi dari nilai proporsi sampel yang dihasilkan dari banyak sampel.

  3. Distribusi ini memiliki: Rata-rata dan Standar deviasi .

  4. CLT untuk proporsi berlaku jika dan .

  5. Jika terpenuhi, distribusi mendekati normal dan rumus Z-score dapat digunakan untuk menghitung peluang.


VIDEO 5 : Review: Sampling Distribution of the Sample Proportion, Binomial Distribution, Probability

6 REVIEW SAMPLING DISTRIBUTION

Untuk mengetahui lebih dalam tentang topik tersebut, terutama kita Review materi yang sudah dibahas atau dijelaskan di topik sebelumnya.

6.1 Probability (Probabilitas)

Probabilitas adalah dasar matematika dari data science. Ia mendeskripsikan ketidakpastian suatu peristiwa dan menjadi fondasi untuk:

  • inferensi statistik

  • model probabilistik

  • algoritma machine learning (Naive Bayes, Bayesian models)

  • simulasi data

6.2 Binomial Distribution (Distribusi Binomial)

Distribusi binomial memodelkan jumlah keberhasilan dalam 𝑛 percobaan independen, dengan peluang keberhasilan 𝑝

Cocok untuk:

  • klasifikasi biner

  • model AB testing

  • menghitung error rate classifier

  • probabilitas “kejadian” pada data diskrit

Dalam data science, binomial sering digunakan untuk :

  • memperkirakan proporsi error (misal: misclassification rate)

  • menghitung confidence interval untuk proporsi keberhasilan

  • memodelkan probabilitas click-through rate (CTR)

6.3 Menentukan Peluang Dasar

Kita memiliki 200 kelereng hijau dan 300 kelereng biru (total 500). Jika kita mengambil kelereng 3 kali dengan pengembalian (with replacement), maka setiap pengambilan tetap memiliki peluang yang sama.

Peluang mengambil kelereng hijau

\(P(G) = \frac{200}{500} = 0.4\)

\(P(B) = \frac{300}{500} = 0.6\)

Karena ada pengembalian, setiap percobaan adalah independen.

6.4 Ruang Sampel (Semua Kemungkinan)

Untuk 3 kali pengambilan, setiap percobaan bisa menghasilkan G (green) atau B (blue).

Contoh hasil:

GGB

BGB

BBB

dan seterusnya

Untuk menghitung peluang sebuah urutan tertentu, kita mengalikan peluang setiap langkah, contohnya:

\(P(GGB) = 0.4 \times 0.4 \times 0.6 = 0.096\)

6.5 Peluang “Minimal 2 Hijau”

“At least two green” artinya:

tepat 2 hijau

atau tepat 3 hijau

Tepat 2 hijau

Ada 3 urutan yang menghasilkan dua hijau:

GGB

GBG

BGG

Masing-masing peluangnya = 0.096

Total:

\(3 \times 0.096 = 0.288\)

Tepat 3 hijau

\(P(GGG) = 0.4^3 = 0.064\)

Total minimal 2 hijau

\(P(\text{≥2 hijau}) = 0.288 + 0.064 = 0.352\)

6.6 Jika Percobaan Diperpanjang Menjadi 5 Kali

Jika mengambil 5 kelereng, ruang sampel jadi sangat besar (32 kemungkinan). Supaya lebih efisien, kita gunakan Distribusi Binomial, karena:

Setiap percobaan hanya memiliki 2 hasil (G atau B)

Peluangnya tetap (p = 0.4)

Percobaan independen

Rumus binomial:

\(P(X = k) = \binom{n}{k} p^{k}(1-p)^{n-k}\)

di mana:

= jumlah percobaan

= jumlah sukses yang diinginkan

= peluang sukses

Untuk “minimal 2 hijau”, kita jumlahkan:

\(P(X \ge 2) = P(X=2)+P(X=3)+P(X=4)+P(X=5)\)

6.7 Tujuan

Mencari probabilitas mendekati (approximate probability) untuk kejadian “menarik setidaknya 35 kelereng hijau dari 100 percobaan”, dengan menggunakan:

  • Sampling distribution of the sample proportion (p-hat)

  • Central Limit Theorem (CLT) untuk proporsi

6.8 Syarat CLT untuk Sampling Distribution of p-hat

Agar distribusi sample proportion bisa mendekati normal, harus memenuhi 2 kondisi:

  1. \(n × p ≥ 10\)

  2. \(n × (1 − p) ≥ 10\)

Pada soal:

n = 100

p = 0.4 (peluang kelereng hijau)

Check

\(n·p = 100 × 0.4 = 40 ≥ 10\)

\(n·(1–p) = 100 × 0.6 = 60 ≥ 10\)

6.9 Rumus Standardisasi (Z-Score) untuk Proporsi

Rumus :

\(z = \frac{\hat{p} - p}{\sqrt{\frac{p(1-p)}{n}}} = sample~proportion (target minimal)\)

\(= 35/100 = 0.35\)

\(p = 0.4\)

\(n = 100\)

Hitung standar deviasi:

\(\sigma_{\hat{p}} = \sqrt{\frac{0.4(0.6)}{100}}\)

Masukkan ke rumus menghasilkan: \(z = -1.02\)

6.10 Interpretasi Z-Score

Z = –1.02 area di kiri nilai ini pada kurva normal = 0.1539 (berdasarkan tabel Z)

Artinya:

Probabilitas \(p-hat ≤ 0.35 = 0.1539\)

Yang dicari adalah \(p-hat ≥ 0.35\), jadi area kanan:

\(1 - 0.1539 = 0.8461\)

6.11 Kesimpulan

Distribusi binomial sangat sering digunakan dalam kasus “berhasil/gagal” berulang kali: contoh survei, lempar koin, dan pengambilan objek acak.

Probabilitas mendekati bahwa kita menarik minimal 35 kelereng hijau dari 100 percobaan = 0.8461 atau 84.61%.

Ini pendekatan, bukan probabilitas eksak.

Probabilitas eksak hanya bisa didapat dengan:

  • metode ruang sampel lengkap, atau

  • rumus binomial.

7 REFERENSI

1.“Probability and Statistics” – Morris H. DeGroot & Mark Schervish

2.“Introduction to Probability” – Dimitri P. Bertsekas & John Tsitsiklis

3.“Statistics” – Robert S. Witte & John S. Witte

4.Practical Statistics for Data Scientists - Peter Bruce, Andrew Bruce, Peter Gedeck

5.“Probability and Random Processes” – Geoffrey Grimmett & David Stirzaker

6.Statistical Inference” – Casella & Berger

7.All of Statistics — A Concise Course in Statistical Inference - Larry Wasserman

