💡 學習重點:離散機率的定義
  ■ Binomial[n, p]: 重複發生機率為p的實驗n次,其發生次數的分佈
  ■ Geomtric[p]: 重複發生機率為p的實驗,第一次發生前失敗次數的分佈
  ■ NBinomial[n, p]: 重複發生機率為p的實驗,第n次發生前失敗次數的分佈
  ■ Poisson[\(\lambda\)]: 期望值為\(\lambda\)的小機率事件發生次數的分佈


pacman::p_load(dplyr, vcd)

【1】被馬踢死 Death by Horse Kick

資料 HorseKick:每一個軍團、每年被馬踢死的人數

par(mfrow=c(1,3), cex=0.7)
HorseKicks
nDeaths
  0   1   2   3   4 
109  65  22   3   1 

檢定:這一份數據符合Poisson分佈嗎?

fit = goodfit(HorseKicks, type = "poisson")
summary(fit)

     Goodness-of-fit test for poisson distribution

                     X^2 df P(> X^2)
Likelihood Ratio 0.86822  3  0.83309

p=0.833:數據與Poisson沒有顯著差異

係數:What is the \(\lambda\)?

fit$par
$lambda
[1] 0.61

應用nDeath >= 2 的機率是?

1 - ppois(1, fit$par$lambda) # 1-nDeath<=1的機率
[1] 0.12521
#ppois累積機率函數


🧙 問題討論:
如果保險公司想要為國防部設計一個被馬踢死的保險:
  ■ 如果你只要只靠HorseKick這一份數據,每一軍團每年被馬踢死的次數超過5次的機率是多少?0.00042497
  ■ 如果我們將數據fit到理論分布上面,根據理論分佈,被馬踢死的次數超過5次的機率是多?0.0004217
  ■ 妳想要計算風險成本的話,以上哪一種做法比較合理呢?理論分佈

What is the probability of nDeath >= 5?

1 - ppois(4, fit$par$lambda)  
[1] 0.00042497
lamda = mean(rpois(1000000, fit$par$lambda))
1 - ppois(4, lamda)
[1] 0.00043059



【2】“May” in Federalist Papers

資料 Federalist:某份聯邦文件中,每一個段落出現“may”這個字的次數

Federalist
nMay
  0   1   2   3   4   5   6 
156  63  29   8   4   1   1 
# 0-6代表May出現的次數
# 第二行代表段落

檢定:這一份數據符合Poisson分佈嗎?

fit <- goodfit(Federalist, type = "poisson")
summary(fit)

     Goodness-of-fit test for poisson distribution

                    X^2 df   P(> X^2)
Likelihood Ratio 25.243  5 0.00012505

它符合負二項(Negtive Binomial)分佈嗎?

fit = goodfit(Federalist, type = "nbinomial")
summary(fit)

     Goodness-of-fit test for nbinomial distribution

                   X^2 df P(> X^2)
Likelihood Ratio 1.964  4  0.74238

係數:負二項(Negtive Binomial)的係數是?

fit$par
$size
[1] 1.1863

$prob
[1] 0.64376

分佈:How does the distribution looks like?

par=c(margin=c(3,3,3,1),cex=0.7)
dnbinom(0:10, fit$par$size, fit$par$prob) %>% barplot(names=0:10)

機率:What is the probability that 2 <= nMay <= 6?

pnbinom(6, fit$par$size, fit$par$prob) - pnbinom(1, fit$par$size, fit$par$prob) 
[1] 0.15526



💡 學習重點:離散機率的應用步驟
  1. 檢定分佈的種類
  2. 估計分佈的參數
  3. 推論事件的機率