统计推断基本思想

Bruce Zhao

Tuesday, April 28, 2015

从正态分布说起

基本运算

\(F(x) = P\{ X <= 1.65 \} = \int_{-\infty}^x f(x)dx\)

R里面的计算分布函数的公式:pnorm(1.65,0,1)

pnorm(1.65)
## [1] 0.9505285
pnorm(1.96)
## [1] 0.9750021
dnorm(0)
## [1] 0.3989423
qnorm(0.95)
## [1] 1.644854
qnorm(0.975)
## [1] 1.959964

\[ 累计概率 \]

小概率事件原理

两类错误

但是

去掉小赵同学脑补的那一段——监控的事情。

显著性水平选择的例子

显著性水平的选择要结合实际问题而定,还要考虑弃真的后果,下面举一个例子说明。

一个制药企业新研发了一批药,要验证新药的疗效是不是显著比旧药高。假设疗效服从正态分布

原假设是 \(\mu_1 <= \mu_0\) ; 备择假设是 \(\mu_1 > \mu_0\)

显著性水平选取说明

只有落在图中有颜色的位置,才能拒绝原假设,接受备择假设,认为新药的疗效显著高于旧药。 可以看出,\(\alpha\) 水平不同,检验的严格程度不同。

统计会说谎——如何选择原假设

“统计学家是一个大骗子”

为什么说统计学家是个骗子呢?就拿上面的一个例子继续说。如果将上面的假设换过来会是什么样的情况呢?

原假设是 \(\mu_1 >= \mu_0\) ; 备择假设是 \(\mu_1 < \mu_0\)

落在天蓝色的区域内,是不能拒绝原假设的;只有落在红色或者绿色区域内才拒绝原假设,认为新药显著性差与旧药。

但是我们看,即使落在中心位置偏左的位置(低于旧药平均水平),任然能够通过假设检验。 但这个是不正规的说法,科学的说法应该是:没有充分证据拒绝原假设。

有人就可以拿这个幌子骗人,而且还有理论公式支撑,如果对这个原理理解不透彻,很容易就接受了别人的结论。

非参出场

为什么叫非参,因为这种检验方法对总体的分布没有要求。上面的分析都是基于总体是服从正态分布的前提的.

非参数统计方法对总体的假定相对较少
直接从样本出发,效率高,结果一般有较好的稳定性
可以处理所有类型的数据,有广泛的适用性。

符号检验

当数据分布呈现明显的非正态性,t检验就不能适用。这时候引入符号检验。 符号检验的思想是将检验的分布转化为已知的二项分布。

原假设是 \(M_1 = M_0\) ; 备择假设是 \(M_1 \neq M_0\)

大于M0的个数记\(S^{+}\) ,小于M0的个数记\(S^-\)

\[ k = \min(S^+ , S^- ), n^{'} = S^+ + S^- \] 然后计算P值,判断。

公式没时间打了,参加 单行本吧。

来,开始对着 单行本 将非参了。

来给大家演示几个例子

符号检验

binom.test()

wilcoxon 符号秩检验

wilcox.test(vector)

mann-whitney 秩和检验

wilcox.test(df/matrix)

多组数据位置的推断下次有机会再讲,公式较为复杂,但是思想都是类似的。

卡方检验

详见PDF