抽样分布与假设检验

黄利东

15/04/2021

抽样的总体

进行抽样的总体为{1, 2, 3, 4, 5},

其平均值是\(\mu_1\)=3

方差是\(\sigma^2_1\)=2

抽样

从总体中进行抽样,抽取四个元素组成一个样本

全部抽样样本的组合及均值见下表

##   F1st S2nd T3rd F4th Sample_mean
## 1    1    1    1    1        1.00
## 2    1    1    1    2        1.25
## 3    1    1    1    3        1.50
## 4    1    1    1    4        1.75
## 5    1    1    1    5        2.00
## 6    1    1    2    1        1.25
##     F1st S2nd T3rd F4th Sample_mean
## 620    5    5    4    5        4.75
## 621    5    5    5    1        4.00
## 622    5    5    5    2        4.25
## 623    5    5    5    3        4.50
## 624    5    5    5    4        4.75
## 625    5    5    5    5        5.00

抽样平均值出现的频数统计

##    Sam_mean Fre.
## 1         1    1
## 2      1.25    4
## 3       1.5   10
## 4      1.75   20
## 5         2   35
## 6      2.25   52
## 7       2.5   68
## 8      2.75   80
## 9         3   85
## 10     3.25   80
## 11      3.5   68
## 12     3.75   52
## 13        4   35
## 14     4.25   20
## 15      4.5   10
## 16     4.75    4
## 17        5    1

抽样分布

抽样分布频率图见下

样本平均数的均值为\(\mu_\bar{y}\)=3

样本平均数的方差为\(\sigma^2_\bar{y}\)=0.5

样本均值抽样分布的结论:

-均值\(\mu_\bar{y}\)=\(\mu\)(本例3)

-方差\(\sigma^2_\bar{y}\)=\(\sigma^2/{n}\)(本例 n=4)

假设检验

假设通过一次抽样试验,得到的结果距均值的距离是大于1.75,即\(|\bar{y}-\mu_\bar{y}|\ge1.75\),那么你想知道这次结果(均值)是由抽样波动(误差)造成的(原假设),还是另有原因(备择假设)?

怎么检验上述假设?

-(一)作出原假设和备择假设(把自己想要的结果放在备择假设)

-(二)假定原假设正确,计算原假设发生的概率,即\(|\bar{y}-\mu_\bar{y}|\ge1.75\)发生的概率,即\(P(|\bar{y}-\mu_\bar{y}|\ge1.75)=\frac{(1+4+4+1)}{625}=0.016\)

-(三)依据“小概率事件”原理,做出统计推断

假设检验的两类错误

-第一类错误:原假设正确,而否定原假设

在上面的例子中,符合条件\(|\bar{y}-\mu_\bar{y}|\ge1.75\)\(\bar{y}\),由于抽样波动造成的概率也是0.016,也就是\(\bar{y}\)是源于总体中的概率为0.016,而你因为这个概率小而冤枉了\(\bar{y}\),冤枉的概率就是定义的显著性水平。这就是第一类错误:拒绝正确的H0

-第二类错误:原假设错误,而接受原假设

假设你有另外一个总体

新总体数据{0, 1, 2, 3, 4},

其平均值是\(\mu_2\)=2

方差是\(\sigma^2_2\)=2

抽样分布对比

抽样4次得到的样本平均值\(\bar{y}=1\)(真实情况是你从第一个总体{1,2,3,4,5}中抽出来)

而你做假设检验是以第二个总体为依据: -原假设:\(\bar{y}\)来自于第二个总体{0,1,2,3,4}(真实情况是原假设错误,因为这是从第一个总体中进行抽样得到的)

你检验\(|\bar{y}-\mu_\bar{y}|\ge1\)的概率为0.224(140/625),你认为这个概率挺大的,不能拒绝原假设,也就是接受原假设,统计上推断这次抽样就是从{0…4}总体中开展的,从而犯了第二类错误,接受错误的H0

谢谢