🌙 Dark Mode

Clara Maisie Wanghili

52250039

Student Major in Data Science at
Institut Teknologi Sains Bandung

Data Science Statistics Dosen Pengampu: Bakti Siregar, M.Sc., CDS.


Introduction

Probability Distribution

Probabilitas tidak hanya membantu kita memahami seberapa besar kemungkinan suatu peristiwa terjadi, tetapi juga membentuk dasar dari banyak metode statistik yang digunakan untuk pengambilan keputusan. Ketika suatu proses atau eksperimen menghasilkan berbagai hasil, kita menggunakan variabel acak untuk merepresentasikan hasil tersebut dan distribusi probabilitas untuk menjelaskan bagaimana probabilitas ditetapkan untuk setiap nilai yang mungkin. Memahami bentuk dan sifat distribusi sangat penting karena menentukan bagaimana data berperilaku, bagaimana kita menghitung probabilitas, dan bagaimana kita membuat prediksi. Dari distribusi untuk variabel kontinu hingga perilaku statistik seperti rata-rata sampel, distribusi probabilitas berfungsi sebagai inti dari statistik inferensial.

Materi ini akan memandu Anda melalui beberapa konsep utama:
  • Variabel Acak Kontinu untuk variabel kontinu, yang menggambarkan kemungkinan nilai pada rentang kontinyu.

  • Distribusi sampel, yang mewakili distribusi statistik sampel seperti rata-rata sampel atau proporsi sampel.

  • Teorema Batas Pusat (CLT), salah satu hasil terpenting dalam statistik, menjelaskan mengapa distribusi rata-rata sampel cenderung normal terlepas dari bentuk dasar populasi.

  • Distribusi proporsi sampel, banyak digunakan dalam analisis survei dan penelitian kuantitatif.

  • Setiap bagian dilengkapi dengan penjelasan video untuk meningkatkan pemahaman konseptual. Dengan menguasai topik-topik ini, Anda akan lebih siap menganalisis data, membangun model statistik, dan menarik kesimpulan berdasarkan prinsip-prinsip probabilistik yang kuat.

    1 Continuous Random

    1.1 Variabel Acak

    Suatu variabel acak dikatakan kontinu jika dapat mengambil nilai apa pun dalam suatu interval pada garis bilangan riil. Contohnya meliputi: tinggi, waktu, suhu, usia, tekanan, dan kecepatan.

    Karakteristik utama:

    1. Variabel mengambil nilai dalam interval seperti \((a,b)\) atau bahkan \((-\infty ,+\infty )\).
    2. Probabilitas setiap titik tunggal selalu nol: \[(P(X=x)=0)\]
    3. Probabilitas hanya bermakna pada interval: \[(P(a\le X\le b)=\int _{a}^{b}f(x)\,dx)\]
      ini adalah fungsi densitas probabilitas (PDF). Variabel acak dibagi menjadi 2 jenis yaitu variabel acak diskret dan variabel acak kontinu.

    1.2 Variabel Acak Diskret (Discrete Random Variable)

    Variabel yang hanya bisa mengambil nilai diskret, nilainya terbatas dan terpisah, (contohnya jumlah orang, dan hasil lemparan dadu).
    Untuk variabel diskret, kita bisa hitung probabilitas langsung bahwa variabel = nilai tertentu, misalnya \(P(X = 3)\).
    Maka bentuk distribusinya bukan lagi “distribusi peluang diskret”, melainkan fungsi densitas probabilitas (probability density function, PDF).
    Untuk variabel diskret kita pakai rumus–rumus probabilitas konvensional (jumlah cara, peluang tiap kejadian.

    1.3 Variabel Acak Kontinu (Continuous Random Variable)

    Variabel yang bisa mengambil nilai dalam rentang kontinu, nilainya dapat mengambil apa pun dalam interval tertentu pada garis bilangan real/pecahan, misal: tinggi badan, waktu, suhu, dan tekanan.
    Untuk variabel kontinu, probabilitas bahwa variabel tepat sama dengan satu nilai spesifik adalah hampir nol. Oleh karena itu kita berbicara soal probabilitas dalam interval atau rentang nilai. Contoh: P( X berada antara 170.0 sampai 180.0 cm ).
    Untuk variabel kontinu, kita tidak menggunakan “rumus probabilitas diskret” langsung, melainkan menggunakan konsep distribusi kontinyu + integrasi (area di bawah kurva densitas) untuk menghitung probabilitas dalam rentang nilai. Oleh sebab itu dibutuhkan pendekatan atau distribusi densitas (PDF) & integrasi (area) yang berbeda dari probabilitas diskret.

    1.4 Rumus Probabilitas Untuk Dua Jenis Variabel


  • Variabel Acak Diskrit

  • \[P(k)={n \choose k}p^{k}(1-p)^{n-k}\] Ini adalah rumus untuk distribusi binomial, yang menghitung probabilitas mendapatkan tepat \(k\) keberhasilan dalam \(n\) percobaan independen, di mana \(p\) adalah probabilitas keberhasilan tunggal.

    \[P(A\cup B)=P(A)+P(B)–P(A\cap B)\] Ini adalah aturan penjumlahan untuk probabilitas, yang menghitung probabilitas terjadinya kejadian A atau B (atau keduanya).

    \[P(A\cap B)=P(A)\times P(B)\] Ini adalah aturan perkalian untuk probabilitas terjadinya kejadian A dan B, berlaku jika A dan B adalah kejadian independen (saling bebas).

    \[P(A^{c})=1-P(A)\] Ini adalah rumus untuk probabilitas komplemen dari suatu kejadian A (\(A^{c}\)), yang berarti probabilitas bahwa kejadian A tidak terjadi.


  • Variabel Acak Kontinu

  • \[A= {L}\times{W}\] Rumus luas persegi panjang, digunakan dalam konteks probabilitas untuk menghitung luas di bawah kurva fungsi kepadatan probabilitas seragam (uniform probability density function). \[A = \frac{bh}{2}\] Probabilitas dihitung dengan mencari area di bawah fungsi kepadatan untuk rentang nilai yang diminati. Karena bentuknya segitiga atau trapesium (jika probabilitas yang dicari tidak mencakup puncak), rumus geometri standar digunakan.

    \[Z = \frac{\mathbf{x-\mu }}{\mathbf{\sigma }}\] Ini adalah rumus z-score atau nilai standar, yang mengukur berapa standar deviasi jarak antara nilai mentah (x) dari rata-rata populasi (\(\mathbf{\mu }\)), di mana σ adalah standar deviasi. Ini sangat penting dalam distribusi normal.

    2 Sampling Distributions

    2.1 Distribusi Sampel dan Distribusi Sampling

    Distribusi Sampel

    Distribusi sampel adalah distribusi data yang diperoleh dari satu sampel tunggal dari populasi.
    Contoh: kita mengambil 10 mahasiswa dari universitas dan mencatat tinggi badannya. Data dari 10 orang ini adalah sample distribution.

    Distribusi Sampling

    Distribusi sampling adalah distribusi teoretis dari suatu statistik (misalnya rata-rata sampel yang diperoleh jika kita mengambil banyak sampel acak sederhana berulang kali dari populasi yang sama. Rata-rata tiap sampel (\(\bar{x}\)) dapat berbeda-beda dan tidak selalu sama dengan rata-rata populasi (\(\mu\)).

    2.2 Perbedaan Distribusi Sampel dan Distribusi Sampling

    Perbedaan Distribusi Populasi dan Distribusi Sampling
    Aspek Distribusi_Populasi Distribusi_Sampling
    Definisi Penyebaran nilai dari seluruh individu dalam populasi. Distribusi rata-rata sampel dari banyak sampel acak berulang.
    Mean (Rata-rata) Menggunakan mean populasi (µ). Rata-rata distribusi sampling = µ.
    Standar Deviasi Menggunakan standar deviasi populasi (σ). Menggunakan standard error (σ / √n).
    Variabilitas Variabilitas tinggi karena mencakup semua individu. Variabilitas lebih kecil dan lebih stabil.
    Contoh Penggunaan Menentukan proporsi tinggi > nilai tertentu. Menghitung peluang rata-rata sampel tertentu.

    rata-rata dari semua rata-rata sampel (\(\bar{x}\)) akan sama persis dengan rata-rata populasi (\(\mu\)), tetapi penyebaran data dalam distribusi sampling (diukur dengan standard error) lebih sempit dibandingkan penyebaran data individu dalam populasi.

    2.3 Formula Standarirasi (Z Score)

    Formula Z-score digunakan untuk mengukur seberapa jauh suatu nilai dari rata-rata dalam satuan simpangan baku. Formulanya berbeda tergantung pada distribusi mana yang digunakan:

  • Untuk Distribusi Populasi (nilai individu x):
  • \[Z=\frac{X-\mu }{\sigma }\]
  • Untuk Distribusi Sampling (rata-rata sampel \(\bar{x}\)):
  • \[ Z = \frac{\bar{x} - \mu}{\sigma / \sqrt{n}} \]

    Distribusi sampling sangat berguna untuk mengestimasi \(\mu\) tanpa perlu mengukur seluruh populasi dan untuk menghitung probabilitas hasil sampel tertentu berdasarkan ukuran sampel (\(n\)).

    2.4 Contoh Perhitungan

    Contoh 1: Menggunakan Distribusi Sampling (melibatkan rata-rata n=10 orang)

    Menghitung probabilitas rata-rata tinggi 10 orang Kanada kurang dari 157 cm (\(\mu =160\) cm, \(\sigma =7\) cm).
    Jawab:
    1. Hitung Standard Error: \[\frac{\sigma }{\sqrt{n}}=\frac{7}{\sqrt{10}}\approx 2.21 cm\] 2. Hitung Z-score untuk rata-rata 157 cm: \[Z=\frac{157-160}{2.21}\approx -1.36\] Probabilitas yang didapat adalah 0.0869.


    Contoh 2: Menggunakan Distribusi Populasi (melibatkan tinggi 1 orang individu)

    Menghitung proporsi semua orang dengan tinggi lebih dari 170 cm (menggunakan data individu).
    Jawab:
    1. Hitung Z-score untuk tinggi 170 cm (menggunakan \(\sigma\) penuh): \[Z=\frac{170-160}{7}\approx 1.43\] 2. Menggunakan tabel Z, area ke kiri adalah 0.9236.
    3. Area ke kanan (\(P(X>170)\)) adalah \(1-0.9236=0.0764\).
    Proporsi orang di populasi tersebut yang memiliki tinggi lebih dari 170 cm adalah sekitar 7.64%.

    3 Central Limit Theorem

    3.1 Definisi Central Limit Theorem (CLT)

    Central Limit Theorem (CLT) atau Teorema Batas Pusat memprediksi bentuk distribusi dari rata-rata sampel berdasarkan ukuran sampel (\(n\)). Teorema ini menyatakan bahwa jika ukuran sampel cukup besar, maka distribusi rata-rata sampel akan mendekati distribusi normal, apa pun bentuk distribusi populasi aslinya. Sekalipun populasi aslinya memiliki distribusi yang miring (skewed) atau tidak beraturan, distribusi rata-rata sampel yang dihasilkan akan cenderung berbentuk normal jika jumlah sampelnya mencukupi.

    3.2 Aturan Umum Central Limit Theorem

  • \(n\ge 30\)

  • Distribusi sampling dari rata-rata sampel akan mendekati normal ketika ukuran sampel lebih besar dari atau sama dengan 30.

  • \(n<30\)

  • Aproksimasi normal tidak akan akurat kita tidak bisa menerapkan teorema batas pusat, karena variabilitas yang meningkat dan risiko sampel yang tidak biasa muncul secara kebetulan.

  • \(n<30\)

  • Jika distribusi populasi tempat yang dipilih mengambil sampel yang sudah terdistribusi normal sejak awal, maka distribusi sampling akan normal bahkan dengan ukuran sampel yang lebih kecil.

    3.3 Contoh Soal

    Untuk setiap distribusi populasi yang dijelaskan di bawah ini, pilihan mana yang akan menghasilkan distribusi sampling yang kira-kira normal?
    a. distribusi populasi persegi panjang, ukuran sampel 15
    b. distribusi populasi bimodal, ukuran sampel 29
    c. distribusi populasi miring, ukuran sampel 40
    d. distribusi populasi segitiga, ukuran sampel 35
    e. distribusi populasi normal, ukuran sampel 20
    f. distribusi populasi normal, ukuran sampel 30
    Jawab:
    a. persegi panjang, \(n=15\): Tidak menghasilkan distribusi normal ( \(n<30\)).
    b. bimodal, \(n=29\): Tidak menghasilkan distribusi normal ( \(n<30\)).
    c. miring, \(n=40\): Menghasilkan distribusi normal ( \(n\ge 30\)).
    d. segitiga, \(n=35\): Menghasilkan distribusi normal ( \(n\ge 30\)).
    e. normal, \(n=20\): Menghasilkan distribusi normal (populasi sudah normal, aturan \(n\ge 30\) tidak diperlukan).
    f. normal, \(n=30\): Menghasilkan distribusi normal (populasi sudah normal dan \(n\ge 30\) terpenuhi).

    3.4 Visualisasi Central Limit Theorem

    library(ggplot2)
    library(gridExtra) 
    library(grid)
    set.seed(123) 
    
    # Parameter Simulasi
    pop_size <- 100000 # Ukuran populasi besar
    sample_size <- 30 # Ukuran sampel 
    num_samples <- 1000 # Jumlah sampel yang diambil
    
    # a. Buat Populasi Asli (menggunakan Distribusi Gamma yang miring/skewed)
    # Mean = shape * scale = 2 * 1 = 2
    population <- rgamma(pop_size, shape = 2, scale = 1)
    pop_mean <- mean(population)
    
    # b. Ambil Rata-rata Sampel Berulang Kali
    sample_means <- replicate(num_samples, mean(sample(population, size = sample_size, replace = TRUE)))
    
    # Menggabungkan data ke dalam data frame untuk ggplot
    df_pop <- data.frame(value = population)
    df_means <- data.frame(value = sample_means)
    
    # Visualisasi
    color_pop <- "#AED6F1" 
    color_means <- "#F9E79F" 
    
    # Plot 1: Distribusi Populasi Asli (Miring)
    plot_pop <- ggplot(df_pop, aes(x = value)) +
      geom_histogram(aes(y = after_stat(density)), bins = 50, fill = color_pop, color = "white", alpha = 0.8) +
      geom_density(color = "darkred", linewidth = 1) +
      labs(title = "Distribusi Populasi Asli (Miring)",
           x = "Nilai",
           y = "Densitas") +
      theme_minimal() +
      theme(plot.title = element_text(hjust = 0.5, face = "bold", size = 10, margin = margin(t = 10, b = 10))) +
      theme(plot.margin = margin(t = 20, r = 5, b = 5, l = 5, unit = "pt"))
    
    # Plot 2: Distribusi Sampling Rata-rata Sampel (Normal)
    plot_means <- ggplot(df_means, aes(x = value)) +
      geom_histogram(aes(y = after_stat(density)), bins = 30, fill = color_means, color = "white", alpha = 0.8) +
      geom_density(color = "darkblue", linewidth = 1) +
      # Tambahkan kurva normal ideal di atasnya untuk perbandingan
      stat_function(fun = dnorm, args = list(mean = mean(sample_means), sd = sd(sample_means)), color = "black", linetype = "dashed", linewidth = 1) +
      labs(title = paste0("Distribusi Sampling Rata-rata (Normal)"),
           x = "Rata-rata Sampel",
           y = "Densitas") +
      theme_minimal() +
      theme(plot.title = element_text(hjust = 0.5, face = "bold", size = 10, margin = margin(t = 10, b = 10))) +
      theme(plot.margin = margin(t = 20, r = 5, b = 5, l = 5, unit = "pt"))
    
    # Tampilkan kedua plot secara berdampingan 
    grid.arrange(plot_pop, plot_means, ncol =2,
                 top = textGrob("Visualisasi Central Limit Theorem",
    gp = gpar(fontsize = 16, fontface = "bold")),
                 padding = unit(10, "mm"))

    Visualisasi kiri (Distribusi Populasi Asli) menunjukkan bahwa data asli dalam populasi bisa berbentuk miring (tidak normal/tidak simetris). Sedangkan visualisasi kanan (Distribusi Sampling Rata-rata) menunjukkan bahwa ketika Anda mengambil banyak sampel dari populasi miring tersebut dan memplot rata-rata dari setiap sampel, distribusinya secara otomatis berubah menjadi normal (berbentuk lonceng) dan simetris. Dengan kata lain, visualisasi ini menunjukkan bahwa rata-rata sampel cenderung terdistribusi normal, tidak peduli bentuk populasi aslinya, asalkan ukuran sampelnya cukup besar.

    4 Sampel Proportion

    4.1 Definisi Dasar

    Distribusi Sampling
    Ini adalah distribusi probabilitas dari suatu statistik (seperti rata-rata sampel \(\bar{x}\) atau proporsi sampel \(\hat{p}\)) yang diperoleh dengan mengambil sampel berulang kali dari populasi yang sama. Jika Anda mengambil banyak sampel dan memplot proporsi dari setiap sampel, Anda akan mendapatkan distribusi sampling proporsi.

    4.2 Proporsi

    Proporsi adalah fraksi dari hasil yang menguntungkan terhadap keseluruhan, yaitu ukuran yang menunjukkan bagian relatif dari hasil yang diinginkan. Misalnya, proporsi dapat dihitung sebagai jumlah orang bermata hijau dibagi dengan total jumlah orang dalam sampel.

    \(\hat{p}\) p-hat (p-topi): Proporsi Sampel (dari data yang dikumpulkan).

    \(p\): Proporsi Populasi (nilai sebenarnya yang ingin diperkirakan).

    Rumus untuk menghitung proporsi:
    \(\frac{\text{jumlah hasil yang menguntungkan}}{\text{jumlah total hasil}}\)

    4.3 Distribusi Sampling dari Proporsi Sampel

    ini sebuah distribusi statistik \(\hat{p}\), yang dibuat dari pengambilan sampel acak berulang kali. Seperti distribusi apapun itu akan berisi nilai untuk mean dan nilai untuk standar deviasi, karena distribusi ini pada dasarnya terdiri dari sekelompok p-hat \(\hat{p}\).


    Mean dan standar deviasi dapat dinyatakan sebagai:

    • Mean (rata-rata) = \(\mu_{\hat{p}}\)

    • standar deviasi = \(\sigma_{\hat{p}}\)

    Standar deviasi dapat dinyatakan sebagai Sigma p-hat jika distribusi sampling dari proposi sampel normal dan mengikuti Central Limit Theorem.

    4.4 Ada 3 Hal yang akan ditemukan pada Distribusi Sampling dari Proporsi Sampel

    1. \(\mu_{\hat{p}}= p\)
    bahwa mu p-hat = p, ini berarti rata-rata dari semua p-hat yang digabungkan sama dengan proporsi populasi p.
    2. \(\sigma _{\hat{p}}=\sqrt{\frac{pq}{n}}\)
    ini berarti standar deviasi sigma p-hat sama dengan akar kuadrat dari \({\frac{pq}{n}}\)
    dimana:

    • n = ukuran sampel

    • p = proporsi hasil yang sukses

    • q = proporsi gagal

    3. \(\sigma _{\hat{p}}=\sqrt{\frac{p(1-p)}{n}}\)
    bahwa distribusi sampling dari proporsi sampel mengikuti distribusi normal dengan mean p dan standar deviasi kuadrat dari \({p}\times{1}-\frac{p}{n}\) maka dapat menggunakan tabel z-score untuk membantu menghitung area tertentu.


    Rumus:
    \[z=\frac{\hat{p}-p}{\sqrt{\frac{p(1-p)}{n}}}\] dimana:

    • z = Skor standar, yang mengukur berapa kali simpangan baku jarak \(\hat{p}\) dari rata-rata populasi \(p\).

    \(\hat{p}-p\) = Perbedaan antara proporsi sampel yang diamati dan proporsi populasi yang sebenarnya.

    \(\sqrt{\frac{p(1-p)}{n}}\) = Pembagi (standard deviasi) yang digunakan untuk menstandardisasi perbedaan tersebut.

    4.5 Central Limit Theorem

    Central Limit Theorem (Teorema Batas Pusat) diterapkan secara berbeda dalam Distribusi Sampling.
    1. Distribusi Sampling Rata-rata Sampel (\(\bar{x}\))
    \(n\ge 30\) = ini berlaku ketika ukuran sampel n lebih besar atau sama dengan 30.
    2. Distribusi Sampling Proporsi Sampel (\(\hat{p}\))
    proporsi sampel p-hat harus memenuhi kondisi:

    \(np\ge 10\)

    \(n(1-p)\ge 10\)

    Jika kedua kondisi ini terpenuhi maka Teorema Batas Pusat dapat diterapkan dan tabel z-score dapat digunakan menggunakan standar deviasi.

    4.6 Visualisasi Sample Proportion

    library(ggplot2)
    
    p_populasi <- 0.6
    ukuran_sampel <- 50
    jumlah_simulasi <- 1000
    
    # Melakukan simulasi
    hasil_counts <- rbinom(n = jumlah_simulasi, size = ukuran_sampel, prob = p_populasi)
    proporsi_sampel <- hasil_counts / ukuran_sampel
    data_simulasi <- data.frame(p_hat = proporsi_sampel)
    
    # Visualisasi
    mean_teoritis <- p_populasi
    se_teoritis <- sqrt(p_populasi * (1 - p_populasi) / ukuran_sampel)
    
    ggplot(data_simulasi, aes(x = p_hat)) +
      geom_histogram(aes(y = after_stat(density)), 
                     binwidth = 0.01, 
                     fill = "#CCEEFF", 
                     color = "#666666", 
                     alpha = 0.8) +
      stat_function(fun = dnorm, 
                    args = list(mean = mean_teoritis, sd = se_teoritis), 
                    color = "#FF9999",  
                    lwd = 1.5) +
      geom_vline(xintercept = mean_teoritis, 
                 color = "#88CCEE", 
                 linetype = "dashed", 
                 lwd = 1) +
    
      labs(title = "Visualisasi Distribusi Sampling Proporsi",
           subtitle = paste("Populasi p =", p_populasi, "| Ukuran Sampel n =", ukuran_sampel, "|", jumlah_simulasi, "Simulasi"),
           x = "Proporsi Sampel (p-hat)",
           y = "Densitas") +
      theme_minimal() +
      theme(
        plot.title = element_text(size = 16, face = "bold", color = "#555555", hjust = 0.5),
        plot.subtitle = element_text(color = "#777777", hjust = 0.5),
        axis.title = element_text(color = "#555555")
      )

    Visualisasi pada gambar menunjukkan hasil dari 1000 simulasi pengambilan sampel proporsi dari populasi dengan proporsi asli \(p=0.6\). Histogram yang dihasilkan membentuk kurva lonceng yang simetris, membuktikan bahwa Teorema Batas Pusat berlaku untuk distribusi sampling proporsi. Puncak kurva yang berada tepat di angka 0.6 (ditunjukkan oleh garis putus-putus vertikal) mengindikasikan bahwa rata-rata dari semua proporsi sampel tersebut secara akurat memprediksi proporsi populasi yang sebenarnya. Sebaran atau lebar kurva di sekitar nilai tengah menunjukkan variabilitas alami yang mungkin terjadi saat kita mengambil sampel acak dari populasi tersebut.

    5 Review sampling Distributions

    Contoh Soal

    Contoh 1

    Misalkan kita memiliki toples yang berisi 200 kelereng hijau, dan 300 kelereng biru. Jika sebuah kelereng diambil tiga kali dengan pengembalian, berapa probabilitas mengambil setidaknya dua kelereng hijau?
    Jawab:
    \(P(\text{Hijau})=\frac{\text{jumlah hasil yang berhasil}}{\text{jumlah total hasil}} =\frac{200}{500}\)
    \(P(\text{Hijau})=0.4\)

    \(P(\text{Biru})=\frac{\text{jumlah hasil yang tidak berhasil}}{\text{jumlah total hasil}}=\frac{300}{500}\)
    \(P(\text{Biru})=0.6\)

    Tujuannya adalah menghitung probabilitas mendapatkan setidaknya dua kelereng hijau dalam tiga kali percobaan. Ini berarti \(P(k=2)\) atau \(P(k=3)\).
    \(P(\text{tepat 2 Hijau})=\mathbf{0.288}\)
    \(P(\text{tepat 3 Hijau})=\mathbf{0.064}\)
    Total Probabilitas = \(0.288+0.064=\mathbf{0.352}\)

    Contoh 2

    Misalkan kita memiliki toples yang berisi 200 kelereng hijau, dan 300 kelereng biru. Jika sebuah kelereng diambil lima kali dengan berulang-ulang, berapa probabilitas mengambil setidaknya dua kelereng hijau?
    Jawab:
    \(P(\text{Hijau})=0.4\)
    \(P(\text{Biru})=0.6\)
    Untuk ini menggunakan rumus probabilitas binomial:
    \[P(k)={n \choose k}p^{k}(1-p)^{n-k}\] dimana:
    • k = jumlah sukses
    • n = jumlah percobaan
    • p = peluang sukses

    Kita ingin mencari probabilitas mengambil setidaknya dua kelereng hijau, yaitu \(P(k\ge 2)\). Ini berarti kita harus menjumlahkan probabilitas dari \(k=2\), \(k=3\), \(k=4\), dan \(k=5\).

    1. P(k=2)
    \[P(2)={5 \choose 2}(0.4)^{2}(0.6)^{5-2}=10\cdot 0.16\cdot 0.216=0.3456\] 2. P(k=3)
    \[P(3)={5 \choose 3}(0.4)^{3}(0.6)^{5-3}=10\cdot 0.064\cdot 0.36=0.2304\] 3. P(k=4)
    \[P(4)={5 \choose 4}(0.4)^{4}(0.6)^{5-4}=5\cdot 0.0256\cdot 0.6=0.0768\] 4. P(k=5)
    \[P(5)={5 \choose 5}(0.4)^{5}(0.6)^{5-5}=1\cdot 0.01024\cdot 1=0.01024\] 5. Jumlahkan semua probabilitas
    \[P(k\ge 2)=P(k=2)+P(k=3)+P(k=4)+P(k=5)\] \[P(k\ge 2)=0.3456+0.2304+0.0768+0.01024 =0.66304\] Total probabilitas mengambil setidaknya dua kelereng hijau adalah 0.66304 atau 66.304%.

    Contoh 3

    Misalkan kita memiliki toples yang berisi 200 kelereng hijau, dan 300 kelereng biru. Jika sebuah kelereng diambil 100 kali dengan berulang-ulang, berapa perkiraan probabilitas mengambil setidaknya 35 kelereng hijau?
    Ini bisa menggunakan cara distribusi sampling dari proporsi sampel, tapi sebelum itu kita perlu memeriksa apakah central limit theorem (teorema batas pusat) dapat diterapkan untuk distribusi sampling dari proporsi sampel.

    1. \(np\ge 10\)
    2. \(n(1-p)\ge 10\)
    Diketahui:
    \(P(\text{Hijau})=0.4\)
    \(P(\text{Biru})=0.6\)
    \(n = 100\)

    Jawab:
    1. \(np\ge 10\) \[np\ge 10 = {100}\times{0.4} = 40\] 2. \(n(1-p)\ge 10\) \[n(1-p)\ge 10 = {100}\times(1-0.4) = 60\] Karena kedua kondisi ini terpenuhi central limit theorem dapat diterapkan dan tabel z-score dapat digunakan dengan menggunakan rumus standar deviasi.

    \(\hat{p} = 0.35\) \({p} = 0.4\) \({n} = 100\) \[z=\frac{\hat{p}-p}{\sqrt{\frac{p(1-p)}{n}}}\] \[z=\frac{0.35-0.4}{\sqrt{\frac{0.4(1-0.4)}{100}}}\] \[ z = -1.02 = 0.1539\]

    kurva lonceng ini berarti bahwa nilai 35 sesuai dengan nilai -1.02 dan luas di sebelah kiri nilai ini sama dengan 0.1539 karena kita menggunakan rumus standar deviasi ini berarti bahwa nilai di sebelah kanan juga sama dengan 0.1539. Namun, karena kita mau mencari probabilitas perkiraan untuk mengambil setidaknya 35 kelereng hijau, kita perlu sertakan probabilitas untuk mengambil 44, 48, 54, 60, dst kelereng hijau. Jadi kita harus mencari nilai luas yang di sebelah kanan.

    Karena kurva lonceng ini adalah kurva kepadatan, ini berarti luas total sama dengan 1 atau 100%, jadi kita akan melakukan: \[1-0.1539 = 0.8461\] yang itu berarti luas yang ada di sebelah kanan, 35 sebagai hasilnya, probabilitas perkiraan untuk mengambil sekiranya 35 kelereng hijau adalah 0.8461 atau 84,61%.
    Penting untuk diketahui bahwa ini adalah probabilitas perkiraan , bukan probabilitas pasti, namun hasilnya memang cukup dekat dengan jawaban sebenarnya, dan itu sudah cukup baik.

    Conclusion

    Secara Keseluruhan:

    • Dengan memahami jenis variabel acak (diskret vs kontinu) dan distribusi probabilitas, kita bisa secara tepat memodelkan fenomena acak, misalnya banyaknya keberhasilan dalam percobaan, atau distribusi tinggi badan di populasi.

    • Dengan konsep distribusi sampling + CLT, kita bisa membuat inferensi, yaitu menarik kesimpulan tentang populasi besar berdasarkan satu sampel. Kita tidak perlu mengukur seluruh populasi (sering tidak mungkin). Cukup dengan analisis statistik terhadap sampel.

    • Dengan distribusi sampling proporsi, kita bisa memperkirakan proporsi populasi berdasarkan data sampel (berguna dalam survei, polling, epidemiologi, riset masyarakat, dsb).

    Secara umum ini adalah landasan statistik inferensial, yaitu membuat prediksi, estimasi, uji hipotesis dengan kerangka probabilitas yang kuat.

    References

    [1] Siregar, B. (n.d.). Introduction to statistics: Chapter 7: Probability Distribution. dsciencelabs. https://bookdown.org/dsciencelabs/intro_statistics/07-Probability_Distributions.html

    [2] Rice University. Introductory Statistic: 7.3 Using the Central Limit Theorem. openstax. https://openstax.org/books/introductory-statistics/pages/7-3-using-the-central-limit-theorem