非参数第一章

#exercise1.1某批发商从厂家购置一批灯泡，根据合同约定，灯泡的使用寿命平均不低于1000h。已知灯泡的使用寿命服从正态分布，标准差使20h。从总体中抽取了100只灯泡，得知样本均值是996h，问：批发商是否购买该批灯泡？（1）原假设和备择假设应该如何设置？给出你的理由（2）在原假设$\mu$<1000的条件下，给出检验的过程并作出决策。如果不能拒绝原假设，可能是哪里出了问题？

(1)$H_{0}:\mu_{0}<1000$,$H_{1}:\mu_{1}>=1000$.

理由：我们将待检结论放置在备择假设，可以控制第一类错误发生的概率，使得否定原假设得到的结论证据更加充分。.

$U=-2<U_{0.05}$

X=996;n=100;mu=1000;sigma=20
(U=sqrt(n)*(X-mu)/sigma)

## [1] -2

qnorm(0.95)

## [1] 1.644854

可能是厂家生产的灯泡本身不符合质量要求，也可能是样本量太少，使得得到的结果具有偶然性。

#exercise1.5将例1.1中的原假设和备择假设对调，即 $H_{0}:\lambda<1$ 请选择$T=\sum X_{i}$作为统计量，当样本量n=100时，对拒绝域$W_{1}={T>117}和W_{2}={T>=113}$分别绘制势曲线图，在第一类错误的概率相等时，给出弃权域的参数范围，比较两个检验弃权域有怎样的不同。

解：$X_1,X_2,..,X_n \sim^{iid}P(\lambda)$，

从而$T=\sum X_i \sim_{iid}P(n\lambda)$.

对拒绝域$W_1 ={T\geq117}和W_2={T\geq113}$,其对应的势函数为

$g_T(\lambda)=P(T\geq117) 和 g_T(\lambda)=P(T\geq113)$,

二者对应的势函数图像为

n=100
myfun1<-function(lambda){
  1-ppois(116,n*lambda)
}
myfun2<-function(lambda){
  1-ppois(112,n*lambda)
}
library(ggplot2)
library(latex2exp)

## Warning: 程辑包'latex2exp'是用R版本4.2.2 来建造的

x=seq(from=0,to=2,by=0.01)
group=integer(length(x)*2)
group[1:length(x)]=1
plotdata<-data.frame(x=rep(x,2),
                     y=c(myfun1(x),myfun2(x)),
                     group=factor(group))
ggplot(plotdata,aes(x=x,y=y,linetype=group))+
  geom_line()+theme_bw()+ylab("power")+xlab("lambda")+ 
  scale_linetype_manual(values=c("dotted","solid"),
                        labels=c("T>112","T>116"))+
  theme()

which(round(plotdata$y,digits = 5)==1)

##  [1] 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191
## [20] 192 193 194 195 196 197 198 199 200 201 369 370 371 372 373 374 375 376 377
## [39] 378 379 380 381 382 383 384 385 386 387 388 389 390 391 392 393 394 395 396
## [58] 397 398 399 400 401 402

plotdata$x[c(173,369)]

## [1] 1.72 1.67

n=100
for (i in 0:2) {
  lambda=i
}

rpois(n,lambda)

##   [1] 2 5 0 3 2 1 4 0 1 1 1 3 1 3 0 3 1 2 0 1 0 0 3 1 0 1 2 0 1 2 3 1 2 1 3 0 3
##  [38] 0 4 0 2 0 1 2 6 3 3 3 0 1 3 1 2 5 3 0 2 1 2 3 0 2 4 1 1 3 1 1 4 3 0 1 1 4
##  [75] 3 1 0 2 3 1 0 1 2 3 4 1 2 3 1 2 3 2 2 1 1 2 1 2 1 0

x<-seq(0,100)

#exercise1.7设随机变量Z_{1},Z{2},..,Z{n}独立同分布，分布连续，其对应的秩向量为$R=(R_{1},R_{2},...,R_{N}),假定N>=2,令V=R_{1}-R{N}$,试证明： $P(V=k)=\frac{N-|k|}{N(N-1)},|k|=1,2,3,...,N-1.$ $P(V=k)=0,其他$

proof:当k>0时，

$P(V=k)=P(R_{1}-R_{N}=k)$

$=P(R_{1}=n)P({R_{n}=n-k})$

$=\frac{1}{N}*\frac{N-k}{N-1}$

同理，k<0时，可以得

$P(V=k)=\frac{1}{N} \frac{N-|k|}{N-1}$|

#exercise1.8设随机变量$X_{1},X{2},..,X{n}$是来自分布函数$F{x}$的总体的样本，试对下列参数确定： ①参数可估计的自由度 ②对称核h(.) ③U统计量并指明④适应的分布族$\digamma$

（1）$P(|X_1|>1)$

（2）$P(X_1+X_2+X_3>1）$

（3）$E(X_1-\mu)^3),\mu为F(x)的期望。$

（4）$E(X_1-X_2)^4$

解（1）由于$P(|X|_1>1)=E(I(|X_1|>1))$

所以参数$P(|X_1|>1)$是一阶可估的。其对称核为

$h(x_i)=I(|x_i|>1)，相应U统计量为$

$U(x_1,x_2,…x_n)=\frac{1} {n}\sum I(|X_i|>1)$

（2）由于$P(X_1+X_2+X_3>1）=E(I(X_1+X_2+X_3>1))$,

所以是3阶可估的，其核为

$h(x_{1},x_{2},x_{3})=I(x_{1}+x_{2}+x_{3}>0)$

$U$统计量为：

$U(x_1,…,x_n)=\frac{1}{(C^3_{n})}\sum I(x_i+x_j+x_t>1)$

（3）解：

（4）解：1

#exercise1.9考虑参数$\theta=P(X_{1}+X{2}>0)$,其中随机变量$X{1},X{2}$独立同分布，有连续分布函数F(x).定义 $h(x)=1-F(-x)$ 请说明$E(h(X_{1}))=\theta$.并回答$h(X_{1})$是对称核吗，为什么。

$E(h(x_{1}))=E(1-F(-x))$

$=1-E(F(-x))$

$=1-EP(X<-x)$

$=1-P(x_{1}+x_{2}<0)$

$=P(x_{1}+x_{2}>0)$

所以是对称核。

exercise 1.12设${X_{1},X_2,X_3,…X_n}为独立同分布的样本，服从分布F(x),计最小次序统计量X_{(1)}的分布函数为F_{(1)}(x),求最小统计量的分布。用geyser数据的duration变量,每次不放回的抽取20个数据，计算最小值，重复50次，得到最小值的观测样本50个，由50个数据计算最小次序统计量的经验分布函数。问：这个经验分布函数和理论分布函数差距是多少，请用图示法说明你的观察结果。

$F_{(1)}(x)=\frac{n!}{(n-1)!}f(x)(1-F(x))^{n-1}$

观察结果如图所示。

data(geyser,package = "MASS")
X<-geyser$duration
n<-length(X)
mu<-sum(X)/n
sigma<-sqrt(sum((X-mu)^2)/n)
mu;sigma

## [1] 3.460814

## [1] 1.145982

set.seed(20230304)
sample<-integer(50)
for (i in 1:50) {
  sample[i]<-min(sample(X,size=20))
}
#plot
sample.sort<-sort(sample)
sample.rank<-rank(sample.sort)
sample.cdf<-sample.rank/length(sample)
plot(sample.sort,sample.cdf,xlab="x",ylab="Cumulative Distribution Function")
N<-length(sample)
segments(sample.sort[1:(N-1)],sample.cdf[1:(N-1)],
         sample.sort[2:N],sample.cdf[1:(N-1)])
x<-range(sample)
x<-seq(from=x[1],to=x[2],by=0.01)
y<-pnorm(x,mean=mu,sd=sigma)
lines(x,y,lty=2)
legend("top",c('sample','Theoreal'),lty = c(1,2),inset = 0.01)

exercise1.15考虑一个从参数$\lambda=1$的指数分布中抽取的样本量为100的样本。（1）给出样本的对数经验函数$lnS_n(t)$的标准差；（2）从计算机中产生几个类似的样本量为100的样本，画出他们的对数经验函数图，结合图补充回答（1）。

Answer(1)$Var{ln(S_{n}(t)})=Var(ln(1-\widehat{F_{n}}(t)))$

$=\frac{Var(1-\hat{F}_{n}(t))}{[1-F(t)]^2}$

$=\frac{1}{n} \frac{F(t)(1-F(t))}{(1-F(t))^2}$

$=\frac{e^{x}-1}{100}$

(2)when $\lambda=2,y_{2}=\frac{e^{2x}-1}{100}$

exercise1.17考虑一个试验：对减轻皮肤瘙痒的药物进行疗效研究。在10名20~30岁的男性志愿者身上做实验，比较5种药物和安慰剂、无药的效果。（注意，这批被试者限制了药物评价的范围，例如，这个试验不能用于老年人，具体试验细节参见文献。每个被试者每天接受一次治疗，治疗的顺序是随机的。对每个被试者首先以静脉注射方式给药，然后用一种豆科植物刺激前臂，使其产生瘙痒，下面是瘙痒的持续时间。（单位：s)

被试者	无药	安慰剂	1	2	3	4	5
BG	174	263	105	141	199	108	141
JF	224	213	103	168	143	341	184
BS	260	231	145	78	113	159	125
SI	255	291	103	164	225	135	227
BW	165	168	144	127	176	239	194
TS	237	121	94	114	144	136	155
GM	191	137	35	96	87	140	121
SS	100	102	133	222	120	134	129
MU	115	89	83	165	100	185	79
OS	189	433	237	168	173	188	317

Answer$Var{ln(S_{n}(t)})=Var(ln(1-\widehat{F_{n}}(t)))$

$=\frac{Var(1-\hat{F}_{n}(t))}{[1-F(t)]^2}$

$=\frac{1}{n} \frac{F(t)(1-F(t))}{(1-F(t))^2}$

$=\frac{e^{x}-1}{100}$

非参数第一章

周霞222020314210117

2023-03-05

被试者	无药	安慰剂	1	2	3	4	5
BG	174	263	105	141	199	108	141
JF	224	213	103	168	143	341	184
BS	260	231	145	78	113	159	125
SI	255	291	103	164	225	135	227
BW	165	168	144	127	176	239	194
TS	237	121	94	114	144	136	155
GM	191	137	35	96	87	140	121
SS	100	102	133	222	120	134	129
MU	115	89	83	165	100	185	79
OS	189	433	237	168	173	188	317

被试者	无药	安慰剂	1	2	3	4	5
BG	174	263	105	141	199	108	141
JF	224	213	103	168	143	341	184
BS	260	231	145	78	113	159	125
SI	255	291	103	164	225	135	227
BW	165	168	144	127	176	239	194
TS	237	121	94	114	144	136	155
GM	191	137	35	96	87	140	121
SS	100	102	133	222	120	134	129
MU	115	89	83	165	100	185	79
OS	189	433	237	168	173	188	317

被试者	无药	安慰剂	1	2	3	4	5
BG	174	263	105	141	199	108	141
JF	224	213	103	168	143	341	184
BS	260	231	145	78	113	159	125
SI	255	291	103	164	225	135	227
BW	165	168	144	127	176	239	194
TS	237	121	94	114	144	136	155
GM	191	137	35	96	87	140	121
SS	100	102	133	222	120	134	129
MU	115	89	83	165	100	185	79
OS	189	433	237	168	173	188	317