ทฤษฎีความน่าจะเป็นเบื้องต้น(Introduction to Probability theory

ความน่าจะเป็น เป็นการวัดความไม่แน่นอนของเหตุการณ์ที่เราสนใจ แต่เราไม่ทราบว่าเหตุการณ์ใดจะเกิดขึ้น แต่เราทราบว่ามีเหตุการณ์ใดบ้างที่เกิดขึ้นได้ทั้งหมด

การแจกแจงความน่าจะเป็นของตัวแปรสุ่มแบบไม่ต่อเนื่อง

ตัวแปรสุ่มแบบไม่ต่อเนื่องที่สนใจ มีดังนี้ คือ

การแจกแจงแบบ uniform ที่เป็นตัวแปรสุ่มไม่ต่อเนื่อง

จำนวนเหตุการณ์ที่เราสนใจ จะเป็นจำนวนนับ และโอกาสที่จะเกิดเหตุใดเหตุการณ์หนึ่งมีค่ากันเสมอ ตัวอย่างที่ง่ายที่สุดที่พบเห็น เช่นการ โยนเหรียญที่หน้าหัว(head) หรือก้อย(tail) มีเหตุการณ์ทั้ง 2 เหตุการณ์ คือ ความน่าจะเป็นจะได้หัวหรือก้อยคือ 0.5 \[Pr(X = head)=Pr(X= tail)=0.5 \] ในทางคณิตศาสตร์ เราจะกำหนดตัวเลขให้เหตุการณ์เพื่อให้ง่ายต่อการคำนวณ เช่น ให้ออกหัวเท่ากับ 0 ออกก้อยกับ 1 จะได้ \[Pr(X = 0)=Pr(X= 1)=0.5 \] เช่นเดียวกัน หรือการโยนลูกเต่าที่มี 6 หน้า คือ 1 2 3 4 5 และ 6 มีเหตุการณ์ทั้ง 6 เหตุการณ์ คือ โอกาสที่จะได้เลขตัวใดตัวหนึ่งมีค่าเท่ากัน คือ \[Pr(X=1)=Pr(X=2)=\cdots=Pr(X=6)=\dfrac{1}{6} \] หรือการล๊อตเตอรี่ในประเทศ ซึ่งมีเลขอยู่ทั้งหมด 6 หลัก จาก \(000000\) ถึง \(999999\) คิดเป็นจำนวนล๊อตเตอรี่ 1 ล้านใบดังนั้นโอกาสที่ถูกรางวัลที่ 1 คือ \[Pr(X=win)=\dfrac{1}{1,000,000}=0.000001 \] ถ้าเขียนอยู่ทั่วไปคือ 1 ในเหตุการณ์ที่เราสนใจในจำนวนเหตุการณ์ทั้งหมด \(N\) เหตุการณ์คือ \[Pr(X=x)=\dfrac{1}{N} \] ถ้าดเหตุการณ์ที่เราสนใจสามารถเรียงลำดับจากน้อยไปมากได้ การคำนวณการแจกแจงสะสมก็จะได้ขึ้น \[Pr(X\leq x)=\sum_{i=1}^kPr(X=x_i),x_i\leq x \forall i \] ถ้าเราสนใจในโอกาสที่จะนี้ หรือเหตุการณ์อื่นๆ เช่น โอกาสที่ลูกเต๋าจะออกแต้ม 1 หรือ 5 \[Pr(X=\lbrace 1 ,5\rbrace)=Pr(X=1)+Pr(X=5)=\dfrac{1}{6}+\dfrac{1}{6}=\dfrac{1}{3} \] เช่นความน่าจะเป็นที่ทอดลูกเต๋าแล้วแต้มจะออกมาเป็นน้อยกว่าหรือเท่ากับ 3 \[Pr(X\leq 3)=Pr(X=1)+Pr(X=2)+Pr(X=3)=\dfrac{1}{6}+\dfrac{1}{6}+\dfrac{1}{6}=\dfrac{1}{2}\] สำหรับการแจกแจงนี้ในรูปแบบมาตราฐานคือ

สำหรับคำสั่งในภาษาอาร์ สำหรับการแจกแจงจะมาจาก packag extraDistre กราฟของการโยนลูกเต๋า

x<-1:6
pdf<-ddunif(x, min=1, max=6)
cdf<-pdunif(x, min=1, max=6)
Uni<-data.frame(x=c(x,x),
                type=c(rep("pdf",length(x)),rep("cdf",length(x))),
                value=c(pdf,cdf))
ggplot(data=Uni,aes(x=as.factor(x),y=value))+
  geom_col()+
  facet_grid(type~.)

### การแจกแจงแบบไบโนเมียล(binomial distribution)\(X\sim B(n,p)\) ตัวอย่างของการทดลองที่จะใช้เหตุการณ์นี้คือ ในการโยนเหรียญ 1 ครั่ง มีอยู่สองเหตุการณ์ คือออกหัวหรือออกก้อย จะได้ 2 เหตุการณ์ ดังนี้ึคือ \(\lbrace H,T\rbrace\) ถ้าโยนเหรียญ 2 ครั้งจะได้ทั้งหมด 4 เหตุการณ์คือ \[\lbrace HH,HT,TH,TT \rbrace\] ดังนี้ถ้าโยนเหรียญทัั้งหมด \(n\) ครั้ง จะได้จำนวนเหตุการณ์ทั้งหมด \(2^n\) ถ้าเหตุการณ์ที่เราสนใจ คือจำนวนการออกหัว \(k\) ครั้งจากการโยนทั้งหมด \(n\) ครั้ง จะสามารถเขียนฟังก์ชันการแจกแจงดังนี้ \[ Pr(X=k)=\begin{pmatrix}n\\k\end{pmatrix}p^k(1-p)^{n-k}\]

โดยที่\(n\)เป็นจำนวนเต็มบวก และ \(k=0,1,2,\cdots,n\) \(p\in (0,1)\) หาได้การกำหนดว่าโอกาสที่จะได้เหตุการณ์ที่เราสนใจในการโหนเหรียญ 1 ครั้งเท่ากับ \(p\) นั้นเอง \[\begin{pmatrix}n\\k\end{pmatrix}=\dfrac{n!}{(n-k)!}, k=0,1,\cdots,n\] โดยมีค่าคาดหวัง \(E(X)=np\) และึวามแปรปรวน \(Var(X)=np(1-p)\) ในกรณีที่ \(n=1\) เราเรียกการแจกแจงนี้ว่าการแจกแจงแบบแบนูลี่ ในโปรแกรมอาร์เราสารถเรียกใช้งานการแจกแจงแบบไบโนเมียลได้ ตัวอย่างเช่น ในการโยนเหรียญที่ยุติธรรม ทั้งหมด 8 ครั้ง ความน่าจะเป็นที่จะออกหัว 5 ครั้ง \[Pr(X=5)=\begin{pmatrix}8\\5\end{pmatrix}0.5^5(1-0.5)^{8-3}=0.21875\] ถ้าใช้โปรแกรมอารคำนวณจาก \(B(8,.5)\) ทำได้โดย

dbinom(x=5, size=8, prob=.5)
## [1] 0.21875
  • x คือค่าที่เราสนใจ หรือค่า \(k\)

  • size คือค่าพารามิเตอร์ \(n\) ของการแจกแจงนี้

  • prob คือพารามิเตอร์ \(p\)

หรือจะเขียนโดยย่อ

dbinom(5,8,.5)
## [1] 0.21875

ก็ได้ผลลัพธ์เท่ากัน และถ้าเราสนใจ ความน่าจะเป็นที่ในการโยนเหรียญ 8 ครั้งแล้วแล้วจะได้หัวอย่างน้อย 5 ครั้ง การแจกแจงสะสม \(Pr(X\leq 5)\) จากการแจกแจงข้างบน ให้ใช้คำสั่ง

pbinom(q=5, size=8, prob=.5)
## [1] 0.8554688
  • q คือค่าที่เราสนใจ หรือค่า \(k\)

  • size คือค่าพารามิเตอร์ \(n\) ของการแจกแจงนี้

  • prob คือพารามิเตอร์ \(p\)

ตัวอย่างกราฟจากการแจกแจงนี้

x<-0:8
pdf<-dbinom(x,size=8, prob=.5 )
cdf<-pbinom(x,size=8, prob=.5)
Uni<-data.frame(x=c(x,x),
                type=c(rep("pdf",length(x)),rep("cdf",length(x))),
                value=c(pdf,cdf))
ggplot(data=Uni,aes(x=as.factor(x),y=value))+
  geom_col()+
  facet_grid(type~.)

การแจกแจงนี้ ถูกประยุกต์ใช้มากมาย เช่นกการคำนวณอนุพันธ์ทางทางการเงิน ออฟชัน(option) เป็นต้น ในการคำนวณความน่าจะเป็นที่จะเกิดเหตุการณ์ที่สนใจเป็นจำนวน \(k\) ครั้งจากทั้งหมด \(n\)

การแจกแจงแบบ negative binomial \(X\sim NB(r,p)\)

มีฟังก์ชันการแจกแจงดังนี้ \[Pr(X=k)=\begin{pmatrix}r+k-1\\k\end{pmatrix}p^k(1-p)^r\] โดยมีค่าคาดหวังเท่ากับ \[E(X)=\dfrac{pr}{1-p}\] และความแปรปรวนเท่ากับ \[Var(X)=\dfrac{pr}{(1-p)^2}\] ถ้าต้องการคำนวณค่า \(Pr(X=3)\) จาก \(NB(4,.7)\) สามารถใช้คำสั่งในอาร์ได้ดังนี้

dnbinom(x=3, size=4, prob=.7)
## [1] 0.129654
  • x คือค่าที่เราสนใจ หรือค่า \(k\)

  • size คือค่าพารามิเตอร์ \(r\) ของการแจกแจงนี้

  • prob คือพารามิเตอร์ \(p\)

หรือคำสั่งโดยย่อ

dnbinom(3,4,.7)
## [1] 0.129654

สำหรับการแจกแจงสะสม สำหรับ \(Pr(X\leq 3)\) ก็ทำได้โดย

pnbinom(q=3, size=4, prob=.7)
## [1] 0.873964
  • q คือค่าที่เราสนใจ หรือค่า \(k\)

  • size คือค่าพารามิเตอร์ \(r\) ของการแจกแจงนี้

  • prob คือพารามิเตอร์ \(p\)

ตัวอย่างกราฟของการแจกแจงนี้

x<-0:10
pdf<-dnbinom(x,size=4, prob=.7)
cdf<-pnbinom(x,size=4, prob=.7)
Uni<-data.frame(x=c(x,x),
                type=c(rep("pdf",length(x)),rep("cdf",length(x))),
                value=c(pdf,cdf))
ggplot(data=Uni,aes(x=as.factor(x),y=value))+
  geom_col()+
  facet_grid(type~.)

ในกรณีของ \(NB(1,p)\) เราจะเรียกการแจกแจงนี้ การแจกแจงแบบ geometic

การแจกแจงแบบปัวซอง (Poisson distribution)\(X\sim Poi(\lambda)\)

การแจกแจงนี้ ถูกใช้อย่างมากมายในแบบจำลองแถวถอย หรือแบบการจำลองว่า ทุก 1 ชม.จะมีลูกค้าเข้ามาใช้บริการกี่คน หรือในแต่ละวันจะเกิดอุบัติเหตุบนถนนกี่ครั้ง การแจกแบบปัวส์ซอง มีฟังก์ชันการแจกแจงดังนี้ \[Pr(X=k)=\dfrac{e^{-\lambda}\lambda^x}{x!}, x=0,1,2\cdots~,\lambda>0\] โดยที่ \(x\) จำนวนครั้งที่จะเกิดเหตุการณ์ และ \(lambda\) เป็นค่าพารามิเตอร์ที่มีค่ามากกว่า 0 และคุณสมบัติเด่นของดารแจกแจงแบบปัวส์ซองก็คือมีต่าคาดหวังกับความแปรปรวนเท่ากัน คือ \[E(X)=Var(X)=\lambda\] ถ้าต้องการคำนวณค่า \(Pr(X=4)\) จาก \(Poi(4)\) สามารถใช้คำสั่งอาร์ได้ดังนี้

dpois(x=4, lambda=4)
## [1] 0.1953668

หรือคำสั่งโดยย่อ

dpois(4,4)
## [1] 0.1953668

สำหรับการแจกแจงสะสมก็ทำนองเดียว เพียงแค่เปลี่ยนตัวหน้า d เป็น p ถ้าต้องการคำนวณ \(Pr(X\leq4)\)

ppois(q=4, lambda=4)
## [1] 0.6288369

ตัวอย่างกราฟของการแจกแจงนี้

x<-0:10
pdf<-dpois(x,lambda=4)
cdf<-ppois(x,lambda=4)
Uni<-data.frame(x=c(x,x),
                type=c(rep("pdf",length(x)),rep("cdf",length(x))),
                value=c(pdf,cdf))
ggplot(data=Uni,aes(x=as.factor(x),y=value))+
  geom_col()+
  facet_grid(type~.)

การแจงแจงความน่าจะเป็นของตัวแปรสุ่งชนิดต่อเนื่อง

ตัวอย่างของการแจกแบบความน่าจะเป็นของตัวแปรสุ่มแบบต่อเนื่องที่สำคัญ ที่ผู้อ่านควรให้ความสนใจ ดังนี้ ถ้า \(X\) เป็นตัวแปรสุ่มแบบต่อเนื่อง จะได้ว่า \[ Pr(X=x)=\displaystyle\int_x^x f(s)ds=0\] ในการคำนวณความน่าจะเป็นของตัวแปรสุ่มแบบต่อเนื่อง ฟังก์ชันความหนาแน่นของความน่าจะเป็น มักจะถูกใช้การประมาณค่าพารามิเตอร์ สำหรับการแจกแจงด้วยวิธีึความน่าจะเป็นสูงสุด หรือสถิติแบบเบย์ ในบทนี้ สำหรับการแจกแจงความน่าจะเป็นของตัวแปรสุ่มแบบต่อเนื่อง จะเสนอเพียงฟังก์ชันการคำนวณการแจกแจงสะสมเท่านั้น คือ \[\begin{align*} Pr(a\leq X\leq b)&=Pr(a< X\leq b)=Pr(a\leq X< b)\\ &=Pr(a < X < b)=\int_a^bf(s)ds=F(b)-F(a) \end{align*}\]

การแจดแจงแบบ uniform \(U(a,b)\)

ให้ \(X\sim U(a,b)\) ความความว่า \(X\) เป็นตัวแปรสุ่มแบบต่อเนื่องที่มาจากการแจกแจงแบบ uniform โดยที่ค่า ของ \(X\in[a,b]\) โดยมีการฟังก์ชันตวามหนาแน่น ดังนี้ \[f(x)=\dfrac{1}{b-a},~x\in[a,b]\] และมีฟังก์ชัยการแจกแจงสะสมแดังนี้ \[Pr(X\leq x)=F(x)=\displaystyle\int_a^x f(s)ds=\dfrac{x}{b-a},~ x\in [a,b]\] และค่าคาดหวังและความแปรปรวนเท่ากับ \(E(X)=\dfrac{1}{2}(a+b),~ Var(X)=\dfrac{1}{12}(b-a)^2\) ถ้าให้\(X\in U(2,5)\)ถ้าต้องการความน่าจะเป็น \(Pr(X< 3)\)

punif(q=3, min = 2, max = 5)
## [1] 0.3333333

คำสั่งแบบสั้นคือ

punif(3,2,5)
## [1] 0.3333333

กรณีเฉพาะที่นิยมใช้มากๆ ก็คือ \(a=0\) และ \(b=1\) สามารถใช้คำสั่งสั้นๆ ง่ายได้โดย เช่น

punif(.7)
## [1] 0.7

เพราะต่าเริ่มต้นในภาษาอาร์ คือ \(min=0\) และ \(max=1\) นั่นเอง ดูได้จากคำสั่ง help(punif)$ ถ้าต้องการคำนวณ \(Pr(2<X<6\)) โดยที่ \(X\in U(1,8)\) ทำได้โดยง่ายดังนี้

punif(6,1,8)-punif(2,1,8)
## [1] 0.5714286

ตัวอย่างกราฟของ pdf และ cdf ของการแจกแจงนี้ \(X\sim U(0,5)\)

x<-seq(0,5,0.1)
pdf<-dunif(x,0,5)
cdf<-punif(x,0,5)
Uni<-data.frame(x=c(x,x),
                type=c(rep("pdf",length(x)),rep("cdf",length(x))),
                value=c(pdf,cdf))
ggplot(data=Uni,aes(x=x,y=value,color=type))+
  geom_line()+
  facet_grid(type~.)

### การแจกแจงแบบปกดิ(Normal distribution) \(X\sim N(\mu,\sigma^2)\) การแจกแจงถูกใช้อย่างมากในวิชาสถิติ ซึ่งจะได้พูดถึงในบทถัดๆไป โดยมีฟังก์ชันความหนาแน่น ดังนี้ \(f(x)=\dfrac{1}{\sqrt{2\pi\sigma^2}}\exp[-\dfrac{(x-\mu)^2}{2\sigma^2}],x\in R, \mu\in R,\sigma^2>0\) ค่าควดหวัง \(E(X)=\mu\) และความแปรแปรวน \(Var(X)=\sigma^2\) ถ้าต้องการ คำนวณ \(Pr(X<0)\) ถ้่า \(X\sim N(1,2)\) สามารถใช้คำสั่งในอาร์ดังนี้

pnorm(0,mean=1,sd=sqrt(2))
## [1] 0.2397501

คำสั่งในอาร์ sd คือ \(\sqrt{Var(x)}=\sqrt{\sigma^2}=\sigma\) หรือคือ ให้ผู้อ่านระวังในเรื่องนี้ด้วย กรณีเฉพาะที่สำคัญ คือ \(N(0,1)\) หรือการแจกแจงแบบปกติมาตรฐาน สามารถใช้คำสั่งย่อได้ง่าย เช่น

pnorm(0)
## [1] 0.5

การแจกปกติถูกใช้อย่างมากในเรื่องการทดสอบสมมุติฐานในทางสถิติ และข้อมูลส่วนใหญ่ หรือตัวแบบทางสถิติมากมากมักจะกำหนดให้มีการแจกแจงแบบปกติก่อนเสมอ

ตัวอย่างกราฟของ pdf และ cdf ของการแจกแจงนี้ \(X\sim N(0,1)\)

x<-seq(-5,5,0.1)
pdf<-dnorm(x)
cdf<-pnorm(x)
Uni<-data.frame(x=c(x,x),
                type=c(rep("pdf",length(x)),rep("cdf",length(x))),
                value=c(pdf,cdf))
ggplot(data=Uni,aes(x=x,y=value,color=type))+
  geom_line()+
  facet_grid(type~.)

การแจกแจงแบบที

(Student’s t distribution) \(X\sim t(\nu)\) ค่า \(\nu\) ต่า degree of freedom เป็นพารามิเตอร์ของการแจกแจงแบบที โดยฟังก์ชันความหนาแน่นดังนี้ \[f(x)=\dfrac{\Gamma\left(\dfrac{\nu+1}{2}\right)}{\sqrt{\nu\pi} \Gamma\left(\dfrac{\nu}{2}\right)}\left(1+\dfrac{x^2}{\nu}\right)^{-\dfrac{\nu+1}{2}},x\in R,\nu>2 \] มีค่าคาดหวัง คือ \(E(X)=0\) และ ความแปรปรวน เเท่ากับ \(Var(X)=\dfrac{\nu}{\nu-2}\) การคำนวณค่าการแจกแจงสะสมในอาร์ ถ้า สนใจ \(Pr(X<1)\) โดยที่ \(X\sim t(4)\) ดังนี้

pt(q=1,df=4)
## [1] 0.8130495

คำสั่งย่อคือ

dt(1,4)
## [1] 0.2146625

ข้อควรรู้ เมื่อ \(\nu\rightarrow\infty\) หรือ ค่า \(\nu\) มีค่าใหญ่มากๆ การแจกแจงแบบทีจะเป็นการแจกแจงแบบปกติมาตรฐาน

pnorm(1)
## [1] 0.8413447
pt(1,100)
## [1] 0.8401379
pt(1,1000)
## [1] 0.8412238
pt(1,10000)
## [1] 0.8413326

จะเห็นค่าที่คำนวณ ใกล้เคียงกันมากขึ้นเรื่อยๆ เมื่อ ค่า\(\nu\) มากขึ้น การแจกแจงแบบที นี้ถูกใช้มากในการทดสอบสมมุติฐานทางสถิติ เมื่อจำนวนตัวอย่างมีน้อย ตัวอย่างกราฟของ pdf และ cdf ของการแจกแจงนี้ \(X\sim t(5)\)

x<-seq(-5,5,0.1)
pdf<-dt(x,3)
cdf<-pt(x,3)
Uni<-data.frame(x=c(x,x),
                type=c(rep("pdf",length(x)),rep("cdf",length(x))),
                value=c(pdf,cdf))
ggplot(data=Uni,aes(x=x,y=value,color=type))+
  geom_line()+
  facet_grid(type~.)

### การแจกแจงแบบไคสแคว์ (Chi-Square distribution) \(\chi^2(k)\) มีฟังก์ชันความหนาแน่นดังนี้ \[f(x)=\dfrac{1}{2^{k/2}\Gamma(k/2)}x^{k/2-1}e^{-x/2},x>0,k=0,1,2,3,\cdots \] โดยมีค่าคาดหวัง \(E(X)=k\) และความแปรปรวน \(Var(X)=2k\) เช่นคต้องการคำนวณ \(Pr(X<3)\) โดยที่ \(X\sim \chi^2(3)\) สามารถใช้คำสั่งในอาร์ คือ

pchisq(q=3,df=3)
## [1] 0.6083748

หรือคำสั่งโดยย่อ

pchisq(3,3)
## [1] 0.6083748

การแจกแจงแบบไคสแคว์นี้ ถูกใช้มากในทดสอบสมมุติ เช่น ทดสอบภาวสารูปสนิทดี (goodness of fit test) ทดสอบความเป็นอิสระ (test of independent) และการทดสอบความเป็นเอกพันธ์ (test of homogeneity) ความสัมพันธ์ที่น่าสนใจระหว่างการแจกแจงแบบปกติมาตราฐาน คือ ถ้า \(X\sim N(0,1)\) แลัว \(X^2\sim \chi^2(1)\) ตัวอย่างเช่น \[Pr(X^2<4)=Pr(-\sqrt{4}<X<\sqrt{4})=F(2)-F(-2) \]

pnorm(2)-pnorm(-2)
## [1] 0.9544997

\(X\sim \chi^2(1)\) จะได้c $PrX<4) $ คือ

pchisq(4,1)
## [1] 0.9544997

ตัวอย่างกราฟของ pdf และ cdf ของการแจกแจงนี้ \(\chi^2(2)\)

x<-seq(0,10,0.1)
pdf<-dchisq(x,2)
cdf<-pchisq(x,2)
Uni<-data.frame(x=c(x,x),
                type=c(rep("pdf",length(x)),rep("cdf",length(x))),
                value=c(pdf,cdf))
ggplot(data=Uni,aes(x=x,y=value,color=type))+
  geom_line()+
  facet_grid(type~.)

การแจกแจงแบบเอฟ(F-distribution) \(X\sim F(d_1,d_2)\)

ฟังก์ชันความหนาแน่นดังนี้ \[f(x) = \frac { 1 } { \mathrm { B } \left( \frac { d _ { 1 } } { 2 } , \frac { d _ { 2 } } { 2 } \right) } \left( \frac { d _ { 1 } } { d _ { 2 } } \right) ^ { \frac { d _ { 1 } } { 2 } } x ^ { \frac { d _ { 1 } } { 2 } - 1 } \left( 1 + \frac { d _ { 1 } } { d _ { 2 } } x \right) ^ { - \frac { d _ { 1 } + d _ { 2 } } { 2 } } ,x>0,d_1,d_2=1,2,3,\cdots\]

โดยที่ \(B(x,y)\) คือเบต้าฟังก์ชัน ดูที่ ค่าคาดหวังหาค่าได้ ถ้า $d_2>2 $ โดยมีค่า คือ \(E(X)=\dfrac{d_2}{d_2-2}\) และความแปรปรวนจะหาค่าได้ถ้า \(d_2>4\) มีค่าเท่ากับ \(\frac { 2 d _ { 2 } ^ { 2 } \left( d _ { 1 } + d _ { 2 } - 2 \right) } { d _ { 1 } \left( d _ { 2 } - 2 \right) ^ { 2 } \left( d _ { 2 } - 4 \right) }\) สำหรับการคำนวณฟังก์ชันการแจกแจงสะสม \(F(X)\) ถ้าต้องการ ค่า \(Pr(X<3)\) โดยที่ \(X\sim F(2,5)\) สามารถใช้คำสั่งอาร์ได้ดังนี้

pf(q=3, df1=2, df2=5)
## [1] 0.8607025

หรือคำสั่งโดยย่อ

pf(3,2,5)
## [1] 0.8607025

การแจกแจงนี้ถูกใช้มากในการวิเคราะห์ความแปรปรวน

ตัวอย่างกราฟของ pdf และ cdf ของการแจกแจงนี้ \(X\sim F(2,5)\)

x<-seq(0,10,0.01)
pdf<-df(x,5,2)
cdf<-pf(x,5,2)
Uni<-data.frame(x=c(x,x),
                type=c(rep("pdf",length(x)),rep("cdf",length(x))),
                value=c(pdf,cdf))
ggplot(data=Uni,aes(x=x,y=value,color=type))+
  geom_line()+
  facet_grid(type~.)

### การแจกแจงแบบแกรมม่า(Gamma distribution)\(X\sim Gamma(\alpha,\beta)\) มีฟังก์ชันความหนาแน่นดังนี้ \[ f ( x ) = \frac { x ^ { \alpha - 1 } e ^ { - x/\beta } } {\beta ^ { \alpha } \Gamma ( \alpha ) },x>0,\alpha>0,\beta>0 \] โดยที่ \(\Gamma(\alpha)\) คือ แกรมม่าฟังก์ชัน ดู และมีค่าคาดหวังและความแปร คือ \(E(X)=\alpha\beta\) และ \(Var(X)=\alpha\beta^2\) ตามลำดับ ถ้าต้องการคำนวณ ค่าความน่าจะเป็น \(Pr(X<2)\) โดยที่ \(X\sim Gamma(3,4)\) ในโปรแกรมอาร์ทำได้ดังนี้

pgamma(q=2,shape=2,rate=4)
## [1] 0.9969808

จากตย. ที่ผ่านมา ผู้อ่านน่าจะเดาออกแล้วว่า คำสั่งแบบสั้นคืออะไร

ตัวอย่างกราฟของ pdf และ cdf ของการแจกแจงนี้ \(X\sim Gamma(3,4)\)

x<-seq(0,5,0.01)
pdf<-dgamma(x,3,4)
cdf<-pgamma(x,3,4)
Uni<-data.frame(x=c(x,x),
                type=c(rep("pdf",length(x)),rep("cdf",length(x))),
                value=c(pdf,cdf))
ggplot(data=Uni,aes(x=x,y=value,color=type))+
  geom_line()+
  facet_grid(type~.)

กรณีเฉพาะ สำหรับการแจกแจงนี้คือ ให้ค่า \(\alpha=1\) จะเรียกการแจกแจงนี้ว่า การแจกแจงแบบเอกโพเนนเชียว Exponential Distribution (\(Exp(\lambda)\)) โดยมีการฟังก์ชันความหนาแน่นคือ \[f(x)=\dfrac{1}{\beta}e^{-x/\beta},x>0,\beta>0\] มีค่าคาดหวัง \(E(X)=\beta\) และความแปรปรวน \(Var(X)=\beta^2\) การแจกแจงสะสม คือ \[ F(x)=\int_0^xf(s)ds=1-e^{x/\beta}, x>0\] แต่โปรแกรมอาร์ ค่าพารามิเตอร์ \(\beta=\dfrac{1}{\lambda}\) หรือ \[f(x)=\lambda e^{-\lambda x},x>0,\lambda>0\] คำถาม: ค่าคาดหวัง และความแปรปรวนจะมีค่าเท่ากับเท่าไหร่?

คำสั่งในการหาการแจกแจงสะสมในอาร์ คือ \(Pr(X<2)=F(2)\) โดยที่ \(X\) มีการแจกแจงแบบเอกโพเน็นเชียว ที่มีค่า พารามิเตอร์ \(\lambda=2\)

pexp(q=2,rate=2)
## [1] 0.9816844

คำสั่งโดยย่อก็เหมือนกับตัวอย่างที่ผ่านนั้นเอง ตัวอย่างกราฟของ pdf และ cdf ของการแจกแจงนี้ \(X\sim Exp(2)\)

x<-seq(0,5,0.01)
pdf<-dexp(x,2)
cdf<-pexp(x,2)
Uni<-data.frame(x=c(x,x),
                type=c(rep("pdf",length(x)),rep("cdf",length(x))),
                value=c(pdf,cdf))
ggplot(data=Uni,aes(x=x,y=value,color=type))+
  geom_line()+
  facet_grid(type~.)

ในบทนี้ จะกล่าวถึงความน่าจะเป็นเบื้องต้นเพียงเท่านี้ก่อน ถ้ามีปัญหาสำหรับหารแจกแจงใดในบทสามารถใช้คำสั่ง help() ช่วยได้สำหรับรายละเอียดเพิ่มเติมสำหรับการแจกแจงชนิดอื่นๆ