모집단 실제의 값이 얼마가 된다는 주장과 관련해, 표본의 정보를 사용해서 가설의 합당성 여부를 판정하는 과정을 의미
절차
가설 : 모집단의 알지못하는 모수에 관한 주장을 말한다.
참 고
\(\color{gray}{\text{ 단순가설, 복합가설}}\) 1\(\color{gray}{\text{ , 검정통계량(test statistic)}}\) 2,\(\color{gray}{\text{ 기각역(critical region)}}\)3
예제 11.2.2
검정력(power) : \(\theta\)가 참일 때 \(H_{0}\)를 기각할 확률을 \(\theta\)에 대한 검정의 검정력이라 한다. (단, \(\theta \in\Omega^{c}_{0}\)이고 \(C\)는 검정의 기각역)
간단히 대립가설 하에서 귀무가설을 기각시킬 확률(2종오류를 범하지 않을 확률)
수식
\(\beta_C(\theta)=P_\theta[X\in C]\)를 \(\theta\)에 대한 검정의 검정력이라 한다.
검정력함수(power function) : 모수의 참값이 \(\theta\)일 때 \(H_{0}\)를 기각할 확률을 기각역 C를 가지는 가설검정의 검정력함수라 한다.(즉, 귀무가설을 기각하는 확률)
예제 11.2.3
예제 11.2.2 어떤 화학 반응량은 정규분포 \(N(\mu,16)\)을 따른다는 이론이 제시되었다. 과거 경험에 의하면 어떤 종류의 광물질이 포함되어 있지 않으면 \(\mu=10\)이고 광물질이 포함되어 있으면 \(\mu=11\)임을 알았다.
어느 것이 참인지를 결정하기위해 표본을 25개 추출하여 \(H_{0} : \mu=10\)대 \(H_{1} : \mu=11\) 가설을 검정하고자 한다면, 유의수준 \(\alpha=0.05\)일 때의 기각역은 다음과 같다.
표본의 분포 : \(\bar{X} \sim N(\mu,4^2)\) 표준정규화를 이용한 확률 계산은 다음과 같다.
\(P(Z>A)=0.05\)를 만족하는 A를 구하면
x <- seq(-3,3,0.1)
y <- dnorm(x)
plot(x,dnorm(x,0,1),type="l", col="black", lwd=3)
polygon(c(x[x>qnorm(.95)],rev(x[x>qnorm(.95)])),
c(rep(0,sum(x>qnorm(.95))),rev(y[x>qnorm(.95)])), col="lightblue")
text(round(qnorm(.95),5),.2,paste0('x=',round(qnorm(.95),5)))
\(Z=\frac{\bar{x}-\mu_{0}}{\sigma/\sqrt{n}}\)이고 \(P(Z\ge 1.645)=0.05\)이므로
\(C=\{(x_{1},\cdots,x_{25})| \frac{\bar{x} - \mu_{0}}{\sigma /\sqrt{n}} \ge 1.645\}\)
\(C=\{(x_{1},\cdots,x_{25})|\bar{x} \ge \mu_{0}+ z_{\alpha}\sigma /\sqrt{n} =10+1.645(4)/5=11.316 \}\)
따라서 기각역은 11.316이다. 기각역이 11.316이므로 \(\bar{x} \ge 11.316\)을 만족하지 않으므로 귀무가설을 기각 할 수 없다.
기각역에 대한 제2종 오류를 범할 확률은 \(P[\bar{X}<11.316|\mu=11]=P[\frac{\bar{X}-11}{4/5}<\frac{11.316-11}{4/5}|\mu=11]=P[Z<0.395] \\ \approx0.654\)
library(scales)
n=25
x <- seq(5,15,0.01)
mean=10;sd=4/sqrt(n)
y <- dnorm(x,mean,sd)
plot(x,y,type="l", col="black", lwd=3)
polygon(c(x[x>qnorm(.95,mean,sd)],rev(x[x>qnorm(.95,mean,sd)])),
c(rep(0,sum(x>qnorm(.95,mean,sd))),rev(y[x>qnorm(.95,mean,sd)])), col=alpha('lightblue',.3))
critical=qnorm(.95,mean,sd)
text(critical,.2,paste0('기각역=',round(critical,5)),cex=.7)
x <- seq(5,15,0.01)
mean=11;sd=4/sqrt(n)
y <- dnorm(x,mean,sd)
lines(x,y,type="l", col="black", lwd=3)
polygon(c(x[x<critical],rev(x[x<critical])),
c(rep(0,sum(x<critical)),rev(y[x<critical])), col=alpha('red',.3))
legend('topright',col=c(alpha('lightblue',.6),alpha('red',.6)),legend = c('1종오류','2종오류'),lwd=16,bty='n')
text(mean-.65,.1,expression(beta),cex=.7)
text(mean-.2,.1,paste0('= ',round(pnorm(critical,mean,sd),4)),cex=.7)
\(\color{red}{\text{따라서 이 경우에는 귀무가설이 참이거나 2종오류를 범하거나 둘 중 하나 일 것이다.}}\)
표본의 수가 증가함에 따라 2종오류가 증가하는지 보자.
n=100이면 \(\alpha=0.05\)일 때 기각역은 10.658임을 알 수 있고 이 때 제2종 오류를 범할 확률은 0.196이다. 따라서 제2종 오류는 표본의 크기에 영향을 많이 받는다.
예제 11.2.3 어느 과일 상점에서는 각 상자당 약간의 흠이 있는 과일이 4%를 초과하지 않는다고 주장하는 도매점에서 과일을 구매한다. 이 때 \(H_{0} : p \le 0.04\)대 \(H_{1}:p \gt 0.04\)인 검정을 생각해 보자. 상자에서 25개의 과일을 무작위로 선택하여 음이 있는 과일의 개수가 a개 이상이면 그 과일을 구입하지 않는다고 하자. 즉 \(X\ge a\)일 때 \(H_{0}\)를 기각한다. 여기서 \(\Omega_{0}=[0,0.04]\)이고 \(\Omega^{c}_{0}=(0.04,1]\)이다.
\(\beta_{C_{1}}(p)\)는 \(\beta_{C_{1}}(0)=0\)에서 \(\beta_{C_{1}}(1)=1\)까지 증가하는 순증가함수이다.
따라서 \(\beta_{C_{1}}(0.05)\approx0.3576,\ \beta_{C_{1}}(0.1)\approx0.7288, \ \beta_{C_{1}}(0.3)\approx0.9984\)등이다.
즉, 1종오류를 범활 확률의 최대값인 \(\color{salmon}{\text{유의수준은 0.2642}}\)이고 p=0.05일 때 \(\color{salmon}{\text{제 2종오류를 범할 확률은 1-0.3576=0.6424}}\)이다.
따라서 \(\beta_{C_{2}}(0.05)\approx0.1271,\ \beta_{C_{2}}(0.1)\approx0.4629, \ \beta_{C_{2}}(0.3)\approx0.9910\)등이다.
즉, 1종오류를 범활 확률의 최대값인 \(\color{skyblue}{\text{유의수준은 0.0765}}\)이고 p=0.05일 때 \(\color{skyblue}{\text{제 2종오류를 범할 확률은 1-0.1271=0.8729}}\)이다.
즉, 같은 확률(0.04)에서의 유의수준은 기각역이 2인 (a)에 비해 기각역이 3인 (b)에서는 0.2642과 0.0765로 줄어들었지만, 같은 확률(0.04)에서 제2종 오류를 범할 확률은 기각역이 2인 (a)에 비해 기각역이 3인 (b)에서는 0.7358과 0.9235로 증가되었음을 알 수 있다.
x=seq(0,1,len=100)
n=25;p=0.04;critical=3
power=function(critical,n,p){
c=0;del=0
while(c <critical){
del=del+choose(n,c)*(p^(c))*((1-p)^(n-c))
c=c+1
}
return(1-del)
}
type2=function(critical,n,p){
c=0;del=0
while(c <critical){
del=del+choose(n,c)*(p^(c))*((1-p)^(n-c))
c=c+1
}
return(del)
}
for(cri in 1:critical){
if(cri==1)plot(1,pty='n',xlim=c(0,max(x[round(power(critical,25,x),3)<.99])),ylim=c(0,1))
curve(power(cri,25,x),0,max(x[round(power(critical,25,x),3)<.99])
,lty=cri,lwd=cri,add=T,main='기각역에 따른 검정력함수의 변화',ylab='',xlab='p',col=alpha('red',.5))}
legend('bottomright',legend = paste0('기각역 :',1:critical,'이상'),bty='n',lty=1:critical,cex=.8)
for(cri in 1:critical){
curve(type2(cri,25,x),0,max(x[round(type2(critical,25,x),3)>.01])
,lty=cri,lwd=cri,add=T,main='기각역에 따른 변화',ylab='',xlab='p',col=alpha('blue',.5))}
legend('right',legend =c('유의수준','제2종오류') ,col=c(alpha('red',.5),alpha('blue',.5)),bty='n',lty=1,lwd=10,cex=.8)
abline(v=0.04)
** 즉, 기각역을 변경하면 한 오류를 범할 확률은 줄어들지만 다른 오류를 범할 확률은 오히려 증가하기 때문에 두 오류를 동시에 줄일 수 없다. 하지만, 표본의 수를 증가시키면 두 오류를 범할 확률을 동시에 줄일 수 있다.**
예제 11.2.4 정규분포 \(N(\mu,25)\)에서 추출한 크기가 \(n=16\)인 확률표본에 근거하여 \(H_0:\mu\le15\)대 \(H_1:\mu\gt15\)를 검정해 보자. 관측값이 \(\bar{x}=17.25\)라 하자. 그러면 \(p-value\)는 \(P[\bar{X}\ge17.25|\mu=15]=P[Z\ge1.80]=0.0359\)이며 \(0.01<0.0359<0.05\)이므로, 검정은 \(\alpha=0.05\)에서는 기각되지만 \(\alpha=0.01\)에서는 기각하지 못한다. 따라서 \(p-value\)로 검정결과를 기록하면, 관심 있는 사람들은 그들 자신의 기준을 적용할 수 있다.
검정에 대한 기각역은 \(z_{0}=\frac{\bar{x}-\mu_{0}}{5/\sqrt{n}}\ge z_{\alpha}\)이다.
이러한 검정을 단측검정이라 한다.
검정의 크기가 \(\alpha\)인 기각역을 가지는 여러 검정 중에서 좋은 검정일 제2종 오류를 범할 확률이 작은 검정을 찾는 게 중점.
기각역\((C^*)\)이 아래의 조건을 만족하는 경우
검정을 유의수준이 \(\alpha\)인 최강력검정(most powerful test), 기각역을 유의수준이 \(\alpha\)인 최강력기각역(most powerful critical region)이라 한다.
\((a) \beta_{C^{*}}(\theta_0)=\alpha\)
\((b)\) 검정의 크기가 \(\alpha\) 인 임의의 기각역에 대해 \(\beta_{C^{*}}(\theta_1)\ge\beta_C(\theta_1)\)이다.
즉, 최강력검정은 2종오류를 범하지 않을 확률이 가장 높은 검정이라 말할 수 있다.
\(X=(X_{1},\cdots,X_n)\)의 결합 \(pdf(pmf)\)가 \(f(x;\theta)\)이고 \(C^{*}=\{x|\lambda(x;\theta_0,\theta_1)=\frac{f(x;\theta_1)}{f(x;\theta_0)} \ge k\}\) 라고 하자.
(여기서 \(k\)는 \(\alpha = P_{\theta_0}[X\in C^{*}]=P[X\in C^{*}|\theta = \theta_0]\)을 만족하는 상수.)
그러면 \(C^*\)에 근거한 \(H_0:\theta=\theta_0\)대 \(H_1:\theta=\theta_1\) 검정은 유의수준이 \(\alpha\)인 최강력검정이다.
예제 11.3.1~2
네 이 만 - 피 어 슨 보 조 정 리
\(X=(X_{1},\cdots,X_n)\)의 결합 \(pdf(pmf)\)가 \(f(x;\theta)\)이고 \(C^{*}=\{x|\lambda(x;\theta_0,\theta_1)=\frac{f(x;\theta_1)}{f(x;\theta_0)} \ge k\}\) 라고 하자.
(여기서 \(k\)는 \(\alpha = P_{\theta_0}[X\in C^{*}]=P[X\in C^{*}|\theta = \theta_0]\)을 만족하는 상수.)
그러면 \(C^*\)에 근거한 \(H_0:\theta=\theta_0\)대 \(H_1:\theta=\theta_1\) 검정은 유의수준이 \(\alpha\)인 최강력검정이다.
\(X_1,\cdots,X_n\)은 정규분포 \(N(\mu,4)\)에서의 확률표본이다. \(H_0:\mu=0\)대 \(H_1:\mu=1\)을 검정하고자 한다.
결합 pdf가 \(f(x;\mu)=(8\pi)^{-n/2} exp[-\frac{1}{8}\sum(x_i-\mu)^{2}]\)이므로 가능도함수의 비는 \(\lambda (x;\mu_{0} ,\mu_{1})=\frac{exp[-\frac{1}{8}]}{exp[-\frac{1}{8}\sum x_{i}]}=exp[\frac{1}{4}\sum x_{i}-\frac{n}{8}]\)
적당한 상수 \(k\gt0\)에 대해
\(\lambda(x;\mu_0,\mu_1)\ge k\leftrightarrow \sum x_i \ge k_1, k_1 = 4(\frac{n}{8}+ln k)\) 이면 귀무가설을 기각.(by 네이만-피어슨 보조정리)
\(k_1\)을 구해보면 \(\alpha = P[\sum X_i \ge k_1|\mu=0]\)을 만족해야 한다.
귀무가설 하에서 \(\sum X_{i} \sim N(0,4n)\)이므로
\(\alpha =P[\sum X_i \ge k_1|\mu=0]=P[Z\ge k_1 / \sqrt{4n}]\)을 만족하는 \(k_1\)은 \(k_1=z_\alpha \sqrt{4n}\).
따라서 유의수준이 \(\alpha\)인 최강력 기각역은 \(C^{*}=\{x|\sum x_i \ge 2 z_{\alpha}\sqrt{n}\}=\{x|\bar{x}\ge 2 z_{\alpha}/\sqrt{n}\}\)
\(X_1,\cdots,X_n\)은 지수분포 \(Exp(\theta)\)에서 추출한 확률표본일 때, \(H_0:\theta=\theta_0\)대 \(H_1:\theta=\theta_1,\theta_1\gt\theta_0\)을 검정하고자 한다.
결합 \(pdf\)가 \(f(x;\theta)=\theta ^{-n}exp(-\frac{1}{\theta}\sum x_i)\)이므로 \(\lambda(x;\theta_0,\theta_1)=\frac{f(x;\theta_1)}{f(x;\theta_0)}=\frac{\theta_1^{-n}exp(-\frac{1}{\theta_1}\sum x_i)}{\theta_0^{-n}exp(-\frac{1}{\theta_0})\sum x_i)}=(\frac{\theta_0}{\theta_1})^n exp[-\sum x_i (\frac{1}{\theta_1 }-\frac{1}{\theta_0})]\)
적당한 상수 \(k\gt0\)에 대해
\(\lambda(x;\theta_0,\theta_1)\ge k \leftrightarrow \sum x_i \ge k_1\)이면 귀무가설을 기각(by 네이만-피어슨 보조정리).
여기서 상수 \(k\)는 \(\alpha=P[\lambda(X;\theta_0,\theta_1)\ge k |\theta=\theta_0]\)를 만족하는 값이므로 \(\alpha=P[\lambda(X;\theta_0,\theta_1)\ge k |\theta=\theta_0]=P[\sum X_i \ge k_1 | \theta =\theta_0]\).
귀무가설 하에서 \(2 \sum X_i/\theta_0\sim \chi^2(2n)\)이므로 \(k_1=\frac{1}{2}\theta_0\chi_\alpha^2(2n)\)이다.
따라서 최강력 기각역은 \(C=\{x|\sum x_i \ge \theta_0 \chi_{\alpha}^2(2n)/2\}\).
만일 \(H_0: \theta=\theta_0\)대 \(H_1 : \theta=\theta_1,\theta \lt \theta_0\)를 검정하고자 한다면
\(\lambda(x;\theta_0 ,\theta_1)\ge k \leftrightarrow \sum x_i \le k_2\)이므로 최강력 기각역은 \(C=\{x|\sum x_i \le \theta_0 \chi_{1-\alpha}^2(2n)/2\}\).
\(X_1,\cdots,X_n\)이 정규분포 \(N(0,\sigma^2)\)에서 추출한 크기가 \(n\)인 확률표본일 때, \(H_0:\sigma^2=\sigma^2_0\)대 \(H_1:\sigma^2=\sigma^2_1,\sigma^2_1\gt\sigma^2_0\)을 검정하고자 한다.
\(\lambda(x;\sigma^2_{0},\sigma^2_1)=\frac{(2\pi\sigma^2_1)^{-n/2}exp(-\frac{1}{2\sigma^2_1}\sum x_{i}^2)}{(2\pi\sigma^2_0)^{-n/2}exp(-\frac{1}{2\sigma^2_0} \sum x_{i}^2)} =(\frac{\sigma_{0}}{\sigma_1})^n exp[-\sum x_i^2 (\frac{1}{2\sigma^2_1}-\frac{1}{2\sigma^2_0})]\)
\(\lambda(x;\sigma^2_0,\sigma^2_1)\ge k \leftrightarrow \sum x_i^2\ge k_1\)을 만족하면 귀무가설을 기각(by 네이만-피어슨 보조정리).
\(k_1\)은 \(\alpha=P[\sum X_i^2 \ge k_1|\sigma^2=\sigma^2_0]\)을 만족하는 상수 값
귀무가설 하에서 \(\sum x_i^2/\sigma^2_0 \sim \chi^2(n)\)이므로
최강력 기각역은 \(C^*=\{x|\sum x_i^2 \ge \sigma^2_0\chi^2_{\alpha}(n)\}\)이다.
만약 \(\sigma^2_1 \lt \sigma^2_0\)이면, 유의수준이 \(\alpha\)인 최각력 검정은 \(\sum x_i^2 \le \sigma^2_0 \chi^2_{1-\alpha}(n)\)일 때 귀무가설을 기각하는 것이다. 따라서 최강력 검정은 \(\sigma^2\) 의 충분통계량인 \(\sum X_i^2\)의 함수임을 알 수 있다.
\(X_1,\cdots,X_n\)이 베르누이분포 \(Bin(1,p)\)에서 추출한 확률표본일 때, \(H_0:p=p_0\)대 \(H_1:p=p_1,p_1\gt p_0\)의 최강검정력의 형태를 결정해보자.
\(\lambda(x;p_0,p_1)=\frac{p_1^{\sum x_i}(1-p_1)^{n-\sum x_i}}{p_0^{\sum x_i} (1-p_0)^{n-\sum x_i}}=(\frac{1-p_1}{1-p_0})^n(\frac{p_1(1-p_0)}{p_0(1-p_1)})^{\sum x_i}\)
\(\lambda(x;p_0,p_1)\ge k \leftrightarrow (\frac{p_1(1-p_0)}{p_0(1-p_1)})^{\sum x_i}\ge k_1 \leftrightarrow \sum x_i \ge k_2\)이면 귀무가설을 기각(by 네이만 피어슨 보조정리).
이산인 경우이므로 \(P[X \ge c|p=p_0]=1-P[X \le c-1|p=p_0]=1-\sum {_nC_i} p_0^i(1-p_0)^{n-i}=\alpha_c\)이면 유의수준이 \(\alpha_c\)인 최강력검정은 \(X\ge c\)이면 귀무가설을 기각하는 검정이다.
최강력 기각역은 \(C^*={x|x\ge c}\)이다. 그러나 \(\alpha_c\)와 다른 미리 정해진 유의수준인 \(\alpha\)인 검정에 대해서는 보수적 검정을 택해야 할 필요가 있다.
7 확률화검정(randomized test)
\(H_0:X\sim U(0,1)\)대 \(H_1:X\sim Beta(6,1)\)의 유의수준이 \(\alpha\)인 최강력검정을 구해 보자.
\(\lambda(x)=\frac{f_1(x)}{f_0(x)}=\frac{6x^5}{1}=6x^5\)이므로 최강력 검정은 \(x^5 \ge k\)이면 귀무가설을 기각.
\(\lambda(x)\)가 \(x\)의 증가함수이므로 최강력검정은 \(x\ge k_1\)이면 귀무가설을 기각.
\(k_1\)은 \(\alpha=P[X\ge k_1 | H_0 \ 가 \ 참일 \ 때]= \int^1_{k_1}dx=1-k_1\)을 만족해야하므로 \(k_1=1-\alpha\) 따라서 이 검정력의 검정력은 아래와 같다.
\(P[X\ge 1-\alpha| X\sim Beta(6,1)]= \int^1_{1-\alpha}6x^5dx=1-(1-\alpha)^6\)
앞 절에서는 단순가설인 경우 검정력이 가장 큰 검정을 유도하는 방법에 해당. 이 절에서는 복합가설인 경우 대립가설에 해당하는 모수값들의 변화에 대하여 영향을 받지 않는 최강력검정인 균일최강력검정 다룬다.
기각역이 아래의 조건을 만족하는 경우
검정을 유의수준이 \(\alpha\)인 균일최강력검정(uniformly most powerful test), 기각역을 유의수준이 \(\alpha\)인 균일최강력기각역(uniformly most powerful critical region)이라 한다.
\((a) \max_{\theta\in \Omega_0} \beta_{C^{*}}(\theta_0)=\alpha\)
\((b)\)모든 \({\theta\in \Omega_0^c}\) 크기가 \(\alpha\) 인 임의의 기각역에 대해 \(\beta_{C^{*}}(\theta)\ge\beta_C(\theta)\)이다.
예제 11.4.1
균일최강력검정을 좀더 쉽게 구하기 위하여 사용
\({f(x;\theta)|\theta \in \Omega}\)를 \(X=(X_1,\cdots,X_n)\)의 결합 pdf의 모임. \(T(X)\)는 실숫값 통계량이라 하자.
\(L(x;\theta_1,\theta_2)=\frac{f(x;\theta_2)}{f(x;\theta_1)}\)가 \(T(x)\)의 비감소 함수이면 \(T(x)\)에서 단조 우도비(monotone likelihood ratio ;MLR) 성질을 갖는다고 한다(단, \(\theta_1,\theta_2 \in \Omega(\theta_1\lt\theta_2)\)).
예제 11.4.1~3
정리 11.4.1
다음의 결합 pdf(pmf)를 갖는 1-모수 지수족을 생각해 보자. \(f(x;\theta)=c(\theta)h(x)\exp[q(\theta)T(x)]\)
\((a)\) \(q(\theta)\)가 \(\theta\)의 비감소함수이면, 지수족은 \(T(x)\)에서 \(MLR\) 성질을 갖는다.
\((b)\) \(q(\theta)\)가 \(\theta\)의 비증가함수이면, 지수족은 \(T^*(x)=-T(x)\)에서 \(MLR\) 성질을 갖는다.
\(pf)\)
\(\theta_{1}\lt \theta_{2}\)라 하면 가능도 함수비는 \(L(x;\theta_1,\theta_2)=\frac{c(\theta_2)h(x)\exp[q(\theta_2)T(x)]}{c(\theta_1)h(x)\exp[q(\theta_1)T(x)]}=\frac{c(\theta_2)}{c(\theta_1)}\exp [ \{q(\theta_2)-q(\theta_1)\} T(x)]\)
\(q(\theta)\)가 \(\theta\)의 비감소함수이면 \(q(\theta_2)-q(\theta_1)\ge0\)이므로 \(L(x;\theta_1,\theta_2)\)은 \(T(x)\)의 비감소함수이다.
\(q(\theta)\)가 \(\theta\)의 비증가함수이면 \(q(\theta_2)-q(\theta_1)\le0\)이므로 \(L(x;\theta_1,\theta_2)\)은 \(T^*(x)=-T(x)\)의 비감소함수이다.
정리 11.4.2
결합 \(pdf(pmf)\ f(x;\theta)\)를 갖는 분포가 \(T(x)\)에서 \(MLR\) 성질을 갖는다면
\((a) \ H_0:\theta \le \theta_0\) 대 \(H_1:\theta \gt \theta_0\) 가설에 대하여
검정의 크기가 \(\alpha\)인 균일최강력검정의 기각역은 \(C_1=\{x|T(x)\ge k\}\)이다(단, 상수 \(k\)는 \(\alpha=P[T(X)\ge k|\theta=\theta_0]\)를 만족하는 값).
\((b) \ H_0:\theta \ge \theta_0\) 대 \(H_1:\theta \lt \theta_0\) 가설에 대하여
검정의 크기가 \(\alpha\)인 균일최강력검정의 기각역은 \(C_2=\{x|T(x)\le k\}\)이다(단, 상수 \(k\)는 \(\alpha=P[T(X)\le k|\theta=\theta_0]\)를 만족하는 값).
예제 11.4.6~7
\(X_1,\cdots,X_n\)이 정규분포 \(N(\mu,\sigma^2_0)\)에서 추출한 확률표본이라 하자. 여기서 \(\sigma^2_0\)은 알려진 상수이다. \(H_0:\mu\le\mu_0\)대 \(H_1:\mu\gt\mu_0\)의 크기가 \(\alpha\)인 균일최강력 검정을 구해보자. 여기서 \(\mu_0\)는 특정한 상수이다. 먼저 네이만-피어슨 보조정리를 이용하기 위해 다음의 단순가설에 대해 생각해 보자.
\(H_0:\mu=\mu_0\)대 \(H_1:\mu=\mu_1,\mu_1\gt\mu_0\)
\(\lambda(x;\mu_0,\mu_1)=\frac{(2\pi\sigma^2_0)^{-n/2}\exp[-\sum(x_i-\mu_1)^2/2\sigma^2_0]}{(2\pi\sigma^2_0)^{-n/2}\exp[-\sum(x_i-\mu_0)^2/2\sigma^2_0]}\\=\exp[\frac{n(\mu_1-\mu_0)}{\sigma^2_0}\bar{x}-\frac{n}{2\sigma^2_0}(\mu_1^2-\mu_0^2)]\)
\(\mu_1\gt\mu_0\)이므로 \(\lambda(x;\mu_0,\mu_1)\)은 \(\mu\)의 충분통계량 \(\bar{X}\)의 관찰값에대한 증가함수이다.
따라서 네이만-피어슨 보조정리에 의해 최강력 검정은 \(\lambda(x;\mu_0,\mu_1)\ge k \leftrightarrow \bar{x}\ge k_1\)을 만족할 때 기각하는 것이다.
상수 \(k_1\)은 \(\alpha=P[\bar{X}\ge k_1|\mu=\mu_0]=P[Z\ge\frac{k_1-\mu_0}{\sigma_0/\sqrt{n}}]\)을 만족하는 값이므로 \(k_1=\mu_0+\frac{\sigma_0}{\sqrt{n}}z_\alpha\)
따라서 \(H_0:\mu=\mu_0\)대 \(H_0:\mu=\mu_1\)의 최강력 기각역은 \(C^*=\{x|\bar{x}\ge\mu_0+z_\alpha\frac{\sigma_0}{\sqrt{n}}\}\)
\(H_0:\mu=\mu_0\)대 \(H_0:\mu\ge\mu_1\)의 균일 최강력 검정을 보이자.
위 기각역 식을 보면 알 수 있듯 기각역은 \(\mu_1\)의 영향을 받지 않는다. 그러므로 기각역\(C^*\)은 \(\mu_1\gt\mu_0\)인 임의의 \(\mu_1\)에 대하여 최강기각역이다.
\(H_0:\mu\le\mu_0\)대 \(H_0:\mu\gt\mu_1\)의 균일 최강력 검정을 보이자.
가설에 대한 검정력함수는 다음과 같다.
\(\beta_{C^*}(\mu)=P[\bar{X}\ge \mu_0+z_\alpha\frac{\sigma_0}{\sqrt{n}}|\mu]=P[Z\ge\frac{\mu_0-\mu}{\sigma_0/\sqrt{n}}+z_\alpha]=1-\Phi(\frac{\mu_0-\mu}{\sigma_0/\sqrt{n}}+z_\alpha)\)
검정력함수는 \(\mu\)의 증가함수이다. 따라서 검정의 크기는 \(\max_{\mu\le\mu_0} \beta_C^*(\mu)=1-\Phi(z_\alpha)=\alpha\)
그러므로 기각역\(C^*\)은 균일최강력검정의 기각역이다.
\(X_1,\cdots,X_n\)이 균일분포 \(U(0,\theta)\)에서 추출한 확률표본이면, 결합 pdf는 아래와 같다.
\(f(x;\theta)=\frac{1}{\theta^n}, (\ 0\lt x_{1;n}\le x_{n:n} \lt\theta,그\ 이외 0)\)
\(L(x;\theta_1,\theta_2)=\frac{f(x;\theta_2)}{f(x;\theta_1)}=(\frac{\theta_1}{\theta_2})^n \frac{I_{(0,\theta_2)}(x_{n:n})}{I_{(0,\theta_1)}(x_{n:n})} \ (단, \theta_1\lt\theta_2)\)
\(L(x;\theta_1,\theta_2)\)가 \(T(x)=x_{n:n}\)의 비감소함수이므로, \((0,\theta)\)에서 균일분포는 \(x_{n:n}\)에서 단조가능도비(MLR)의 성질을 가진다.
\(X_1,\cdots,X_n\)이 지수분포 \(\exp(\theta)\)에서의 확률표본이라 하면, 결합 pdf는 아래와 같다.
\(f(x;\theta)=(\frac{1}{\theta})^n\exp(-\frac{1}{\theta}\sum x_i)\)
\(L(x;\theta_1,\theta_2)=\frac{(1/\theta_2)^n \exp(-\frac{1}{\theta_2}\sum x_i)}{(1/\theta_1)^n \exp(-\frac{1}{\theta_1}\sum x_i)}=(\frac{\theta_1}{\theta_2})^n \exp[-\sum x_i(\frac{1}{\theta_2}-\frac{1}{\theta_1}) ] \ (단, \theta_1\lt\theta_2)\)
\(L(x;\theta_1,\theta_2)\)는 \(\sum x_i\)의 증가함수이다. 따라서 모수가 \(\theta\)인 지수분포는 \(T(x)=\sum x_i\)에서 MLR의 성질을 갖는다.
\(X_1,\cdots,X_n\)이 정규분포 \(N(\mu,\sigma^2)\)에서 추출한 확률표본이라 하자.
\((a)\sigma^2\) 이 알려진 상수일 때
결합 pdf는
\(f(x;\mu)=(2\pi\sigma^2)^{-n/2}\exp(\frac{\mu}{\sigma^2}\sum x_i - \frac{1}{2\sigma^2}\sum x_i^2 -\frac{n\mu^2}{2\sigma^2})\)
\(q(\mu)=\mu/\sigma^2\)은 \(\mu\)의 증가함수이고 \(T(x)=\sum x_i\)
따라서 분산이 알려진 정규분포는 \(T(x)=\sum x_i\)에서 MLR의 성질을 지닌다.
\((b)\mu\) 이 알려진 상수이고, \(\sigma^2\)이 미지의 모수일 때
결합 pdf는
\(f(x;\sigma^2)=(2\pi\sigma^2)^{-n/2}\exp(-\frac{1}{2\sigma^2}\sum(x_i-\mu )^2)\)
\(q(\sigma^2)=-1/2\sigma^2\)은 \(\sigma^2\)의 증가함수이다.
따라서 \(T(x)=\sum(x_i-\mu)^2\)에서 MLR의 성질을 지닌다.
\(X \sim Cau(1,\theta)\)라 하면, \(\theta_1\lt\theta_2\)에 대해
\(L(x;\theta_1,\theta_2)=\frac{f(x;\theta_2)}{f(x;\theta_1)}=\frac{1+(x-\theta_1)^2}{1+(x-\theta_2)^2}\)
\(\theta_1=4,\ \theta_2=5,\ x=1,\ y=2\)일 때
\(L(x;4,5)=\frac{1+(1-4)^2}{1+(1-5)^2}=\frac{10}{17}\) \(L(x;4,5)=\frac{1+(2-4)^2}{1+(2-5)^2}=\frac{1}{2}\)
따라서 \(L9x;4,5)\gt L(y;4,5)\)이므로 \(T(x)=x\)에서 MLR 성질을 가지지 못한다.
예제 11.4.4 (a)에서 \(H_0:\mu\le\mu_0\)대 \(H_1:\mu\gt\mu_0\)의 크기가 \(\alpha\)인 균일최강력검정을 구해 보자.
\(T(x)=\sum x_i\)에서 MLR 성질을 갖기 때문에 정리 11.4.2에 의해 \(\alpha=P[\sum X_i \ge k |\mu=\mu_0]\)를 만족하는 \(k\)에 대하여
균일 최강력 검정은 \(\sum x_i \ge k\)일 때 귀무가설을 기각한다.
\(\alpha =P[\sum X_i \ge k |\mu = \mu_0] \\ = P[\frac{1}{\sqrt{n\sigma^2}}(\sum X_i)\ge \frac{k-n\mu_0}{\sqrt{n\sigma^2}}|\mu=\mu_0]=P[Z\ge\frac{k-n\mu_0}{\sqrt{n\sigma^2}}]\)
따라서 \(k=n\mu_0+z_\alpha \sqrt{n\sigma^2}\)이다. 즉, \(C^*=\{x|\bar{x}\ge\mu_0+z_\alpha\frac{\sigma}{\sqrt{n}}\}\)가 균일최강력검정의 기각역이다.
예제 11.4.4 (b)에서 \(H_0:\sigma^2\le\sigma^2_0\)대 \(H_1:\sigma^2\gt\sigma^2_0\)의 크기가 \(\alpha\)인 균일최강력검정을 구해 보자.
\(T(x)=\sum(x_i-\mu)^2\)에서 MLR 성질을 갖기 때문에 정리 11.4.2에 의해 \(\alpha=P[\sum (X_i-\mu)^2 \ge k |\sigma^2=\sigma^2_0]\)를 만족하는 \(k\)에 대하여
균일 최강력 검정은 \(\sum (x_i-\mu)^2 \ge k\)일 때 귀무가설을 기각한다.
\(\alpha =P[\sum (X_i-\mu)^2 \ge k |\sigma^2 = \sigma^2_0] \\ = P[\frac{\sum(X_i-\mu)^2}{\sigma^2}\ge \frac{k}{\sigma^2}|\sigma^2=\sigma^2_0]=P[\chi^2(n)\ge k /\sigma^2_0]\)
따라서 \(k=\sigma^2_0\chi^2_\alpha(n)\)이다. 즉, \(C^*=\{x|\sum(x_i-\mu)^2\ge\sigma^2_0\chi^2_\alpha(n)\}\)가 균일최강력검정의 기각역이다.
만약 가설이 완전히 \(f(x;\theta)\)를 명확하게 결정하면 단순가설이라 하고, 그렇지 않은 경우 복합가설이라 한다.↩
주어진 확률표본 \(X_{1}, \cdots ,X_{n}\)에 근거하여 가설검정에 사용되는 통계량↩
귀무가설을 기각하는 표본공간의 부분집합↩
\(H_{0}:\theta\le\theta_{0}\) 대 \(H_{1}:\theta\gt\theta_{0}\) 에 대한 검정↩
\(H_{0}:\theta\ge\theta_{0}\) 대 \(H_{1}:\theta\lt\theta_{0}\) 에 대한 검정↩
\(H_{0}:\theta=\theta_{0}\) 대 \(H_{1}:\theta\ne\theta_{0}\) 에 대한 검정↩
이산인 경우 미리 정한 유의수준 \(\alpha\)인 검정을 유도하기 위해 기각하거나, 특정 확률로 기각하거나, 기각하지 않는 3가지 경우의 검정이 가능하다. \(P[X\ge 7]\lt \alpha\)이고 \(P[X\ge 6]\gt \alpha\)라 하면 \(X \ge 7\)이면 기각, \(X=6\)이면 유의수준이 \(\alpha\)가 되도록 하기 위해 적당한 \(\alpha_1\) 확률로 기각하거나 \(1-\alpha_1\) 확률로 기각하지 않으며, \(X \le 5\)이면 기각하지 않는 검정을 생각하는 것이다. 이러한 검정을 확률화 검정이라고 한다.↩