Phân phối Poisson là một hàm xác suất rời rạc có nghĩa là biến chỉ có thể nhận các giá trị cụ thể trong một danh sách các số nhất định, có thể là vô hạn. Phân phối Poisson đo lường số lần một sự kiện có khả năng xảy ra trong khoảng thời gian “x”. Nói cách khác, chúng ta có thể định nghĩa nó là phân phối xác suất là kết quả của thí nghiệm Poisson. Thử nghiệm Poisson là một thử nghiệm thống kê phân loại thử nghiệm thành hai loại, chẳng hạn như thành công hoặc thất bại. Phân phối Poisson là một quá trình giới hạn của phân phối nhị thức.
Biến ngẫu nhiên Poisson “x” xác định số lần thành công trong thử nghiệm. Sự phân phối này xảy ra khi có những sự kiện không xảy ra như là kết quả của một số kết quả nhất định. Phân phối Poisson được sử dụng trong những điều kiện nhất định. Họ đang:
Số lần thử nghiệm “n” có xu hướng vô hạn Xác suất thành công “p” có xu hướng bằng không np = 1 là hữu hạn
\(P(X=k)=e^-λ.\frac{λ ^k}{k!}\) k=0,1,2…
Đặc trưng số :
Kỳ vọng E(x) = λ
Phương sai Var(x)= λ
Giả sử trung bình trong 300 chữ thì người đánh máy sẽ đánh sai 1 chữ, vậy xác xuất mà người đánh máy đánh sai 2 chữ là bao nhiêu ?
rpois(500,2)
## [1] 2 2 2 2 1 0 2 2 1 0 1 2 4 1 0 2 1 2 2 1 2 3 3 4 2 1 1 4 5 3 3 1 2 0 1 3 2
## [38] 2 1 1 0 2 4 2 3 2 2 2 0 2 2 3 3 2 2 4 2 3 0 2 4 2 4 3 1 3 1 3 1 2 2 2 3 0
## [75] 5 1 3 1 1 1 1 2 2 2 1 2 6 0 1 3 3 3 1 1 1 2 2 4 3 3 2 2 2 2 2 0 2 1 2 2 2
## [112] 0 1 6 2 0 0 3 2 2 2 1 4 1 3 0 1 1 1 1 3 2 3 2 3 1 1 1 2 4 3 3 2 0 3 1 4 5
## [149] 2 3 0 2 3 3 3 1 1 1 5 2 3 0 1 1 0 1 0 3 2 1 2 3 2 2 2 2 1 1 1 1 1 1 0 2 1
## [186] 3 2 3 2 1 0 5 8 2 2 0 1 5 1 1 3 1 3 1 1 2 4 1 3 3 1 3 5 2 1 1 2 1 4 1 2 3
## [223] 3 1 2 2 6 2 1 0 2 0 4 1 0 1 4 1 0 2 0 2 0 3 1 3 2 4 4 3 2 2 0 1 2 4 3 4 4
## [260] 4 6 2 3 2 0 3 2 2 1 0 4 2 1 1 6 2 1 2 4 1 1 2 2 2 0 1 2 2 1 0 4 1 1 1 1 2
## [297] 0 1 2 1 2 0 2 1 3 2 3 2 0 1 2 6 2 4 0 3 1 1 3 1 1 2 2 1 1 1 1 1 2 2 3 4 3
## [334] 4 1 1 2 0 6 2 0 1 4 3 1 2 2 4 1 1 0 1 2 3 1 2 2 0 1 0 2 4 0 0 2 2 0 1 1 3
## [371] 3 3 5 6 2 5 3 1 2 3 3 4 2 2 1 1 4 1 3 0 0 4 4 2 1 0 2 1 0 0 1 2 4 5 2 0 0
## [408] 0 3 1 2 1 1 1 0 1 2 0 3 1 2 0 0 0 1 2 7 3 7 3 2 3 0 2 3 2 4 3 4 1 1 0 2 2
## [445] 0 2 1 1 1 3 1 3 0 2 1 4 3 2 2 2 2 1 1 1 2 4 0 0 2 4 4 0 1 1 4 4 4 0 0 1 2
## [482] 1 2 4 2 1 4 1 0 4 0 0 1 2 2 3 1 0 2 2
a <- rpois(500,2)
table(a)
## a
## 0 1 2 3 4 5 6 7
## 60 134 146 88 45 17 6 4
Dòng thứ nhất ( 0,1,2,3,4) là số lần đánh máy sai. Dòng thứ hai là số lần chọn mẫu trong 300 lần.
hist(a, main= "Phân phối possion", xlab = "a")
Biến ngẫu nhiên x được gọi là có phân phối đều trên đoạn:\([a,b]\)(a<b), ký hiệu X ~ U[a,b] nếu X có hàm mật độ là :
\[ f(x)=\left\{\begin{array}{cc} \frac{1}{b-a} & x \in[a, b] \\ 0 & x \notin[a, b] \end{array}\right. \] Đặc trưng số
Kỳ vọng \[ \mathrm{E}(\mathrm{X})=\frac{\mathrm{a}+\mathrm{b}}{2} \] Phương sai \[ \operatorname{Var}(X)=\frac{(\mathrm{b}-\mathrm{a})^2}{12} \] Mod(X) la giá trị bất kỳ nào trên đoạn a,b
runif(200,0,5)
## [1] 1.376630953 1.694075904 2.369465348 1.398758006 2.333052799 4.199201649
## [7] 4.406899171 2.662476380 0.215462705 3.389548808 3.053882242 3.630178714
## [13] 1.880097113 1.756474720 2.938455419 4.906101477 4.564204653 2.251483989
## [19] 0.404009963 1.456039685 3.988240233 3.557133649 3.858004356 3.549259795
## [25] 0.759924724 4.385174944 0.096541150 0.088383224 1.224795196 2.639437978
## [31] 0.362690043 4.096825899 4.036342752 4.957825487 1.489873485 4.711955694
## [37] 2.667342689 3.950297706 2.906226180 4.863787784 3.023569466 1.963387642
## [43] 2.063247779 0.282705782 2.624272016 1.646063473 2.955023722 0.139741400
## [49] 3.054741839 4.631453003 4.900574828 3.816110783 2.060359946 2.275789916
## [55] 4.606753195 3.914854438 2.178357868 4.436912929 0.113440612 3.228105591
## [61] 3.628706208 0.718823068 3.321304577 1.638304659 2.329979524 2.886411865
## [67] 3.100758005 0.847313515 2.570405598 2.578173366 2.056628377 4.856534661
## [73] 4.831981795 0.696753400 4.135854800 4.219943939 0.641900661 2.414451250
## [79] 3.042419256 2.999953257 1.896947625 3.277257166 2.726035634 1.970028790
## [85] 0.607757270 0.325624055 2.160087686 1.359610491 0.853419807 2.134097018
## [91] 3.312718179 1.706862029 2.415201752 4.434882618 4.835523639 0.663820355
## [97] 0.237824846 4.007279817 0.938518702 4.376156486 3.481668081 4.377443704
## [103] 0.388466595 2.785632630 4.141048320 1.701654816 0.004313339 0.553186146
## [109] 0.279821823 3.894090083 2.510999345 3.548198972 4.758988554 2.786803860
## [115] 0.394556613 3.414891796 2.276702540 4.515105148 3.612433855 0.952632830
## [121] 0.520312535 0.008426280 3.174126011 3.964010248 3.341736263 1.719120869
## [127] 1.428042868 3.257653315 0.997642784 4.129770155 0.002740520 0.809695154
## [133] 2.779306041 3.936767435 3.828388889 2.532865647 0.343443868 2.146490214
## [139] 2.281898441 2.007653029 4.037364699 3.656059551 3.283802875 2.515533082
## [145] 3.366703521 2.206913624 2.463151946 3.004647316 4.933614584 1.153450734
## [151] 2.355440514 2.885366183 4.652759804 2.060642022 2.918277989 2.686129424
## [157] 1.645907123 2.004463230 2.830212301 1.932285971 2.748402895 3.396589075
## [163] 4.955446158 1.828953446 0.631943215 3.599400156 1.893283071 2.553035823
## [169] 3.870116114 1.812528693 4.279387067 1.641527292 2.765019437 3.525384449
## [175] 3.546537140 0.667090593 4.549732067 1.963314336 1.601556444 4.764018055
## [181] 2.524912517 1.852211899 4.509155861 0.246864137 3.008546100 4.682530323
## [187] 1.477132261 4.638599223 1.890437477 2.388244345 1.610623138 1.043704690
## [193] 3.037488379 0.152552321 3.248518191 1.088995904 0.892273078 4.195606982
## [199] 1.114332383 4.626314124
c <- runif(500,0,5)
hist(c, main= "Phân phối đều", xlab = "c")
Phân phối nhị thức với tham số p và n là tổng của n phép thử Bernoulli với xác suất p độc lập với nhau. Biến ngẫu nhiên có phân phối nhị thức nhận giá trị từ 0 đến n và xác suất để chọn ra x phần tử mong muốn trong n phần tử là \(\left(\begin{array}{l}n \\ x\end{array}\right) p^x(1-p)^{n-x}\) với \(\mathrm{x}=0,1,2, \ldots \mathrm{n}\).
Hàm xác xuất \(f(x)=\left(\begin{array}{l}n \\ x\end{array}\right) p^x(1-p)^{n-x} ; x=0,1,2, \ldots, n\)
Trung bình \(\mu=n p\)
Phương sai \(\sigma^2=n p(1-p)=n p q\)
Hàm sinh moment \(m(t)=\left(p e^t+q\right)^n\)
Biết rằng trong một quần thể dân số có khoảng 20% người mắc bệnh cao huyết áp; nếu chúng ta tiến hành chọn mẫu 500 lần ,mỗi lần chọn 30 người trong quần thể đó một cách ngẫu nhiên, sự phân phối số bệnh nhân cao huyết áp sẽ như thế nào ? Để trả lời câu hỏi này, chúng ta có thể ứng dụng hàm rbinom (n, k, p) trong R với những thông số như sau
rbinom(500,30,0.2)
## [1] 6 3 4 8 7 6 7 5 4 1 7 6 5 7 3 7 5 6 10 8 3 7 5 3 9
## [26] 8 6 5 5 8 3 4 5 5 5 13 5 7 8 7 5 3 9 6 7 9 4 8 3 1
## [51] 6 1 3 5 5 8 5 3 5 3 6 8 9 10 5 8 2 6 5 6 7 4 9 4 6
## [76] 5 4 6 3 6 5 7 9 10 6 7 5 9 3 9 11 2 6 5 7 5 3 9 7 6
## [101] 2 9 7 4 6 6 8 5 10 2 4 12 4 4 5 8 10 8 4 7 12 11 11 5 4
## [126] 7 7 6 6 8 7 4 9 10 6 13 6 7 6 8 4 8 7 4 5 10 7 4 12 7
## [151] 6 7 5 6 5 6 6 7 7 4 6 7 5 8 5 6 6 6 5 4 6 5 7 9 4
## [176] 6 6 7 9 10 5 11 6 7 6 5 9 5 4 8 3 2 5 9 6 6 9 5 9 4
## [201] 5 3 8 7 10 3 7 9 4 5 7 8 8 5 6 4 5 8 5 7 5 10 7 9 10
## [226] 9 5 5 3 7 5 7 9 6 8 4 8 8 7 8 9 3 8 5 8 3 7 5 6 6
## [251] 4 9 5 8 6 3 10 7 5 4 4 1 7 8 6 8 11 4 8 5 6 8 7 6 4
## [276] 6 5 8 6 8 7 2 9 13 4 7 7 5 3 3 2 4 5 6 7 6 6 12 6 6
## [301] 9 8 7 7 9 8 8 8 10 3 10 8 4 6 4 7 10 4 3 5 9 6 9 5 5
## [326] 12 7 6 11 8 7 5 5 5 7 5 5 4 5 7 5 6 6 4 2 3 4 4 11 8
## [351] 6 8 3 7 4 6 10 7 6 9 3 4 10 2 8 7 5 3 4 6 1 6 5 5 5
## [376] 8 4 5 6 8 6 6 5 8 8 0 8 8 9 5 7 5 6 1 4 7 10 6 8 9
## [401] 9 3 3 4 3 3 7 7 11 9 4 4 5 8 8 6 9 6 10 7 11 6 7 7 9
## [426] 5 4 5 5 3 6 7 4 2 5 9 2 6 8 4 7 8 4 10 5 8 4 8 4 8
## [451] 4 9 3 6 8 8 6 4 2 7 6 7 4 5 6 4 8 10 4 7 7 8 6 3 5
## [476] 6 3 6 5 6 2 3 10 4 4 6 8 9 6 6 7 2 8 1 5 7 10 6 5 7
e <- rbinom(500,30,0.2)
table(e)
## e
## 0 1 2 3 4 5 6 7 8 9 10 11 12
## 1 5 17 32 71 95 87 71 56 33 21 8 3
Dòng thứ nhất ( 0,1,2….14) là số bệnh nhân cao huyết áp trong 30 người ta chọn.Dòng thứ 2 cho ta biết số lần chọn mẫu trong 500 lần xảy ra, có 3 mẫu không có bệnh nhân cao huyết áp nào, có 6 mẫu chỉ có 1 bệnh nhân cao huyết áp.
hist(e, main= "Phân phối nhị thức Binomial", xlab = "e")
Phân phối số bệnh nhân cao huyết áp trong số 30 người được chọn ngẫu nhiên trong một quần thề gồm 20% bệnh nhân cao huyết áp, và chọn mẫu được lặp lại 500 lần
Phân phối chuẩn, còn gọi là phân phối Gauss, là một phân phối xác suất cực kì quan trọng trong nhiều lĩnh vực. Nó là họ phân phối có dạng tổng quát giống nhau, chỉ khác tham số vị trí (giá trị trung bình \(\mu\) ) và tỉ lệ (phương sai \(\sigma^2\) ). BNN X có hàm mật độ xác xuất f phụ thuộc vào 2 tham số \(\mu\) và \(\sigma\) ( \(\sigma\) >0 )
Hàm mật độ \(f(x)=\frac{1}{\sigma \sqrt{2 \pi}} e^{-\frac{(x-\mu)^2}{2 \sigma^2}} ; x \in R\)
Trung bình \(\mu\)
Phương sai \(\sigma^2\)
Hàm sinh moment \(m(t)=e^{\mu t+\frac{t^2 \sigma^2}{2}}\)
rnorm(200,mean = 50, sd= 10)
## [1] 40.95745 42.38737 75.38261 46.47047 47.35490 60.79211 42.79458 43.53495
## [9] 35.80834 59.04301 44.65677 41.33578 53.63203 45.77264 51.42896 50.92332
## [17] 50.97307 53.19307 38.95120 52.16574 49.65703 43.37496 60.25620 56.76936
## [25] 41.74960 56.31863 47.24988 37.21810 61.78290 38.77026 42.93785 46.77148
## [33] 54.33423 50.88123 66.00957 43.55119 54.65276 53.65832 53.53633 52.21557
## [41] 52.05107 49.32577 64.84645 40.03881 46.46632 59.64684 48.23387 41.12031
## [49] 59.59800 61.55665 25.72895 54.30229 57.34688 52.37288 51.88475 34.04325
## [57] 44.69238 66.69953 47.52998 51.58623 48.26084 50.26336 38.61498 48.69400
## [65] 50.38220 34.07662 52.33063 52.50338 40.38825 28.22405 66.59562 66.57766
## [73] 55.39442 54.55223 46.29712 64.42080 35.70436 61.53477 56.26862 45.80608
## [81] 56.46456 66.50809 41.77395 55.28360 43.21050 54.72656 45.43846 29.35180
## [89] 68.24360 66.34856 66.43373 53.14633 46.33189 61.76861 50.93253 63.67281
## [97] 58.33400 41.31823 65.76842 75.56232 52.31146 34.95464 42.89992 53.20626
## [105] 46.59505 53.14515 34.41953 54.30175 55.22021 44.87095 43.40044 25.02422
## [113] 44.94823 25.81496 50.43475 57.33249 54.97571 46.48816 46.61367 50.54016
## [121] 66.81644 65.37537 43.53586 64.57157 55.51129 64.11155 54.36765 65.20068
## [129] 60.23682 53.47095 14.00604 59.91629 55.23865 41.10796 40.73598 35.73748
## [137] 50.91093 37.77583 41.24113 34.12447 63.41133 40.51545 74.05336 58.54579
## [145] 41.07860 58.48487 53.12727 37.82366 60.64445 50.25954 38.64453 55.96685
## [153] 48.15899 57.40490 43.12464 38.81506 57.70055 49.48505 49.74136 39.49962
## [161] 40.75753 35.84759 41.43401 50.28800 55.67986 60.71873 63.45190 52.67358
## [169] 56.73040 65.60681 57.33981 51.76108 32.71463 46.78383 53.92917 36.82094
## [177] 55.09789 41.25411 61.08688 62.98365 57.81215 58.16374 56.96556 37.90551
## [185] 44.81189 47.65552 45.75613 62.20625 46.18949 69.17411 59.03365 38.58834
## [193] 31.34431 54.92844 63.24954 43.74296 62.98105 58.34145 59.05708 45.23373
g <- rnorm(200,mean = 50, sd= 10)
hist(g, main= "Phân phối chuẩn", xlab = "g")
Một biến siêu bội ngẫu nhiên là giá trị của số lần thành công thu được từ thí nghiệm siêu bội. Phân phối xác suất của biến siêu bội ngẫu nhiên được gọi là phân phối siêu bội (hypergeometric distribution).
Phân phối siêu bội được định nghĩa và tính toán theo hàm xác suất sau:
\[ h(x ; N, n, K)=\frac{[C(k, x)][C(N-k, n-x)]}{C(N, n)} \]