Bruce Zhao
Tuesday, April 28, 2015
F(x)=P{X<=1.65}=∫x−∞f(x)dx
R里面的计算分布函数的公式:pnorm(1.65,0,1)
pnorm(1.65)
## [1] 0.9505285
pnorm(1.96)
## [1] 0.9750021
dnorm(0)
## [1] 0.3989423
qnorm(0.95)
## [1] 1.644854
qnorm(0.975)
## [1] 1.959964
累计概率
小概率事件原理:在一次试验中,小概率事件是不可能发生的。注概率一般取0.05,也可以取0.01或者0.1.
例如一箱100个灯泡,其中5个是坏的,然后随便从中抽一个出来。 抽到坏的概率是非常小的,统计学里面认为抽一次就能抽到坏的灯泡是不可能发生的, 这就是小概率事件。
但是有人,抽一次就抽到了,是不是可以认为这批灯泡质量很差呢?
这就是假设检验里面的α错误——本来100个灯泡中5个灯泡不合格是正常的情况,但是通过一次抽样推断这个是不合格的,即弃真错误。推断统计学里面称α为显著性水平。
去掉小赵同学脑补的那一段——监控的事情。
显著性水平的选择要结合实际问题而定,还要考虑弃真的后果,下面举一个例子说明。
一个制药企业新研发了一批药,要验证新药的疗效是不是显著比旧药高。假设疗效服从正态分布
原假设是 μ1<=μ0 ; 备择假设是 μ1>μ0
取α=0.05 与取α=0.01的区别在哪里?
只有落在图中有颜色的位置,才能拒绝原假设,接受备择假设,认为新药的疗效显著高于旧药。 可以看出,α 水平不同,检验的严格程度不同。
要综合考虑研发成本和药效达到的水平,来确定显著性水平
α 为0.05,检验相对宽松,研发成本较低,疗效提高较为显著。
“统计学家是一个大骗子”
为什么说统计学家是个骗子呢?就拿上面的一个例子继续说。如果将上面的假设换过来会是什么样的情况呢?
原假设是 μ1>=μ0 ; 备择假设是 μ1<μ0
落在天蓝色的区域内,是不能拒绝原假设的;只有落在红色或者绿色区域内才拒绝原假设,认为新药显著性差与旧药。
但是我们看,即使落在中心位置偏左的位置(低于旧药平均水平),任然能够通过假设检验。 但这个是不正规的说法,科学的说法应该是:没有充分证据拒绝原假设。
有人就可以拿这个幌子骗人,而且还有理论公式支撑,如果对这个原理理解不透彻,很容易就接受了别人的结论。
那么如何选取原假设呢?
根据先验信息——以往经验或者样本信息(均值)
例如灯泡的例子。以往该厂灯泡质量一直很好,那原假设为:μ1≥μ0, 即使个别低于均值,但是也不拒绝原假设。除非出现极端例子,离均值很远,落在红色或者绿色区域内,才拒绝原假设,认为该批灯泡有问题。
当我们都认为这种先验信息是正确的,普遍成立的,应当将其所代表的情况放入原假设。
若样本支持的结论出现在备择假设里面,则备择假设的成立依赖于显著性水平,这个检验是有意义的。
为什么叫非参,因为这种检验方法对总体的分布没有要求。上面的分析都是基于总体是服从正态分布的前提的.
非参数统计方法对总体的假定相对较少
直接从样本出发,效率高,结果一般有较好的稳定性
可以处理所有类型的数据,有广泛的适用性。
当数据分布呈现明显的非正态性,t检验就不能适用。这时候引入符号检验。 符号检验的思想是将检验的分布转化为已知的二项分布。
原假设是 M1=M0 ; 备择假设是 M1≠M0
大于M0的个数记S+ ,小于M0的个数记S− 。
令 k=min 然后计算P值,判断。
公式没时间打了,参加 单行本吧。
来,开始对着 单行本 将非参了。
来给大家演示几个例子
符号检验
binom.test()
wilcoxon 符号秩检验
wilcox.test(vector)
mann-whitney 秩和检验
wilcox.test(df/matrix)
多组数据位置的推断下次有机会再讲,公式较为复杂,但是思想都是类似的。
详见PDF
Space, Right Arrow or swipe left to move to next slide, click help below for more details