Considere uma população normal com média desconhecida \(\mu\), que se deseja estimar e variância \(\sigma^2\) conhecida, ou seja, \(X\sim N(?,\sigma^2)\).
Toma-se uma amostra de tamanho \(n\) dessa população. Temos então os elementos \(x_{1},x_{2},\dots,x_{n}\). Logo, podemos calcular a média amostral \(\overline{x}=\displaystyle\frac{\displaystyle\sum_{i=1}^{n}x_{i}}{n}\). Dizemos que \(\overline{x}\) é o estimador da média populacional \(\mu\).
O valor obtido para \(\overline{x}\) varia de uma amostra para outra (lembremos que o processo é aleatório). Vejamos alguns exemplos gerados no RStudio considerando uma amostra de tamanho \(n=30\) de uma população com média \(\mu=100\) e variância \(\sigma^2=25\):
## Medias:
## Media 1= 99.76448 Media 2= 100.8917 Media 3= 100.1221
Note que, a amostra pode conter ou não o verdadeiro parâmetro desconhecido. O valor calculado para a média da amostra constitui a estimativa pontual do parâmetro. Cada uma das médias constitui uma estimativa pontual da verdadeira média populacional. Neste caso, como conhecemos a média (\(\mu=100\)), verificamos que nem todas as amostras contêm esse valor. Daí a importância de se contruir um intervalo de confiança para o verdadeiro valor do parâmetro.
A estimação pontual de um parâmetro não possui uma medida do possível
erro cometido na estimação. Uma maneira de expressar a precisão da
estimação é estabelecer limites, que com certa probabilidade
incluam o verdadeiro valor do parâmetro populacional. Esses limites são
chamados limites de confiança
. Eles determinam um
intervalo de confiança
, no qual deverá estar o verdadeiro
valor do parâmetro, com certa probabilidade especificada.
Logo, a estimação por intervalo
consiste na fixação de
dois valores tais que \((1-\alpha)\)
seja a probabilidade de que o intervalo, por eles determinado, contenha
o verdadeiro valor do parâmetro.
\(\alpha\): nível de incerteza ou grau de desconfiança.
\(1-\alpha\): nível de confiança.
Portanto, \(\alpha\) nos dá a medida
da incerteza dessa inferência(nível de significância).
Logo, a partir da informação da amostra, devemos calcular os limites
\(\hat{\theta}_{I}\) e \(\hat{\theta}_{S}\) de um intervalo, os
chamados valores críticos
, que em \(100(1-\alpha)\%\) dos casos inclua o valor
do parãmetro a estimar e em \(100\alpha\%\) dos casos não inclua o valor
do parâmetro. Assim, quando \(\alpha=0,05\), temos um intervalo de
confiança de \(95\%\); quando \(\alpha=0,01\), temos um intervalo de
confiança de \(99\%\). Quanto mais
amplo o intervalo de confiança, mais confiantes podemos estar de que o
intervalo fornecido contém o parâmetro desconhecido.
Em linguagem prática, um intervalo de confiança de \(95\%\), por exemplo, significa que de cada 100 amostras, 95 conterão o verdadeiro valor do parâmetro, enquanto que 5 não conterão.
Como já foi dito na introdução, seja uma população normal com média desconhecida \(\mu\), que se deseja estimar e variância \(\sigma^2\) conhecida, ou seja, \(X\sim N(?,\sigma^2)\).
Retiramos uma amostra casual simples de tamanho \(n\).
Calculamos a média da amostra \(\overline{x}\).
Calculamos o desvio padrão da média amostral \(\sigma_{\bar{x}}=\sqrt{\displaystyle\frac{\sigma^{2}}{n}}=\displaystyle\frac{\sigma}{\sqrt{n}}\).
Fixamos o nível de significância \(\alpha\) e encontramos \(z_{\alpha/2}\).
Denotamos por \(z_{\alpha}\) o valor de \(z\) acima do qual existe uma área igual a \(\alpha\). Por exemplo, \(z_{0,05}=1,64\), pois a área acima de 1,64 vale 0,05. Ou, de forma equivalente, a área abaixo de 1,64 vale 0,95. Temos \(z_{0.25}=1.96\). Ou, de forma equivalente, a área abaixo de 1,96 vale 0,975.
No R esses quantis podem ser encontrados pelos comandos:
#z_0.05
qnorm(0.95)
## [1] 1.644854
#z_0.25
qnorm(0.975)
## [1] 1.959964
Isto é ilustrado na figura abaixo.
Para construir um IC precisamos encontrar os valores \(-z_{\alpha/2}\) e \(z_{\alpha/2}\) tais que a área entre eles seja \(1-\alpha\).
Daí,temos \(Z=\displaystyle\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}\) e \[\mathbb P\Big(-z_{\alpha/2}<\displaystyle\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}<z_{\alpha/2}\Big)=1-\alpha\]
Multiplicando cada termo da desigualdade por \(\sigma/\sqrt{n}\) e depois subtraindo \(\bar{X}\) de cada termo e multiplicando por \(-1\) (revertendo o sentido das desigualdades), obtemos
\[\mathbb P\Big(\overline{X}-(z_{\alpha/2})\cdot\sigma/\sqrt{n}<\mu<\overline{X}+(z_{\alpha/2})\cdot\sigma/\sqrt{n}\Big)=1-\alpha\]
A sentença acima fornece um intervalo de confiança de \(100(1-\alpha)\%\) para a média de uma população com variância \(\sigma^{2}\) conhecida.
Os valores \(\overline{X}-(z_{\alpha/2})\cdot\sigma/\sqrt{n}\) e \(\overline{X}+(z_{\alpha/2})\cdot\sigma/\sqrt{n}\) são os limites \(\hat{\theta}_{I}\) e \(\hat{\theta}_{S}\), respectivamente do intervalo.
O valor \((z_{\alpha/2})\cdot\sigma/\sqrt{n}\) é
denominado erro de estimação
.
Usando uma notação simplificada, temos:
\(IC(\mu,(1-\alpha)100\%)=(\hat{\theta}_{I},\hat{\theta}_{S})\).
Exemplo 1: De uma população normal \(X\), com \(\sigma^{2}=9\), extraímos uma amostra de 25 observações obtendo \(\sum_{i=1}^{25}=152\). Determine um IC de limites de 90% para \(\mu\).
Resolução: \(\alpha=90\%,\mbox{ } \sum_{i=1}^{25}=152\).
\(\overline{x}=\dfrac{152}{25}=6,08\)
\(\sigma_{\overline{x}}=\sqrt{\dfrac{\sigma^{2}}{n}}=\dfrac{9}{25}=0.6\)
\(\alpha=0.10\Rightarrow \alpha/2=0.05\Rightarrow z_{0.05}=1.64\)
No RStudio:
alpha=0.10
alpha/2
## [1] 0.05
zalphasobre2<-qnorm(1-alpha/2)
zalphasobre2
## [1] 1.644854
Logo,
\(\hat{\theta}_{I}=\overline{X}-(z_{\alpha/2})\cdot\sigma/\sqrt{n}=6.08-1.64\cdot0.6=5.096\)
e
\(\hat{\theta}_{S}=\overline{X}+(z_{\alpha/2})\cdot\sigma/\sqrt{n}=6.08+1.64\cdot0.6=7.064\)
Ou
\(IC(\mu,90\%)=(5.096,7.064)\)
Podemos resolver o exercício diretamente no RStudio? SIM.
mean=6.08
sd=0.6
ene=25
#sdmean=0.6/25
alpha=0.10
liminf<-mean-(qnorm(1-(alpha/2))*(sd))
limsup<-mean+(qnorm(1-(alpha/2))*(sd))
cat("alpha:", alpha,"\t\n")
## alpha: 0.1
cat("IC (1-alpha)100%:", liminf,limsup,"\n")
## IC (1-alpha)100%: 5.093088 7.066912
Exemplo 2: De uma população normal com \(\sigma=5\), retiramos uma amostra de tamanho \(n=50\) e obtivemos \(\overline{x}=42\).
Construir um IC para a média ao nível de 5%.
Qual o erro de estimação ao nível de 5%?
Para que o erro de estimação seja menor ou igual a 1, qual deve ser o tamanho da amostra?
Resolução: (a)
mean=42
sd=0.71
ene=50
alpha=0.05
liminf<-mean-(qnorm(1-(alpha/2))*(sd))
limsup<-mean+(qnorm(1-(alpha/2))*(sd))
cat("alpha:", alpha,"\t\n")
## alpha: 0.05
1-alpha
## [1] 0.95
cat("IC 95%:", liminf,limsup,"\n")
## IC 95%: 40.60843 43.39157
Mas, \(\overline{x}=z_{\alpha/2}.\sigma_{\overline{x}}\). Logo, \(e=z_{\alpha/2}\cdot \sigma_{\overline{x}}\).
\(e=(z_{\alpha/2})\cdot\sigma/\sqrt{n}=(1.96)*0.71=1.39\)
\(e=(z_{\alpha/2})\cdot \sqrt{\dfrac{\sigma^{2}}{n}}\Leftrightarrow \displaystyle\frac{e}{z_{\alpha/2}}=\sqrt{\dfrac{\sigma^{2}}{n}}\)
Elevando ambos os membros ao quadrado: \(\Big(\displaystyle\frac{e}{z_{\alpha/2}}\Big)^{2}={\dfrac{\sigma^{2}}{n}}\therefore n=\Big(\displaystyle\frac{z_{\alpha/2}\cdot \sigma}{e}\Big)^{2}\).
No caso, \(n=(1.96*5)^{2}=96.04\). Logo, para que o erro de estimação não ultrapasse 1, devemos ter \(n\geq 96\) elementos.
Sabe-se que quando a proporção populacional \(p\) é conhecida, \(\hat{p}=\displaystyle\frac{x}{n}\sim N\Big(p,\displaystyle\frac{pq}{n}\Big)\).
Para construir um IC para \(p\) desconhecida, determina-se \(\hat{p_{0}}\) na amostra e considera-se \(\sigma_{\hat{p}}=\sqrt{\displaystyle\frac{\hat{p_{0}}\hat{q_{0}}}{n}}\)
E um IC para a proporção populacional é
\(IC (1-\alpha)\%)=(\hat{p_{0}}-z_{\alpha/2}\cdot\sigma_{\hat{p_{0}}}\leq p \leq\hat{p_{0}}+z_{\alpha/2}\cdot\sigma_{\hat{p_{0}}})\)
Exemplo 3: Retiramos de uma população uma amostra de 100 elementos e encontramos 20 sucessos. Ao nível de 1%, construir um intervalo de confiança para a verdadeira porporção de sucessos na população.
Resolvendo no RStudio:
x=20
ene=100
p0hat=x/ene
p0hat
## [1] 0.2
q0hat=1-p0hat
q0hat
## [1] 0.8
sigmap=sqrt((p0hat*q0hat)/ene)
sigmap
## [1] 0.04
alpha=0.01
alpha2=alpha/2
alpha2
## [1] 0.005
zalphasobre2=qnorm(0.995)
zalphasobre2
## [1] 2.575829
liminf=round(100*(p0hat-(zalphasobre2)*sigmap),2)
liminf
## [1] 9.7
limsup=round(100*(p0hat+(zalphasobre2)*sigmap),2)
limsup
## [1] 30.3
cat("alpha:", alpha,"\t\n")
## alpha: 0.01
1-alpha
## [1] 0.99
cat("IC 99%:", liminf,limsup,"\n")
## IC 99%: 9.7 30.3
POrtanto, corremos um risco de 1% de que a verdadeira porporção populacional não pertença ao intervalo
## IC 99%: 9.7 30.3
ou então nossa confiança de que \(p\) pertença ao IC determinado é de 99%.
Exemplo 4: Para se estimar a porcentagem de alunos de um curso favoráveis à mudança do currículo escolar, tomou-se uma amostra de tamnanho 100, dos quais 80 foram favoráveis.
Construir um IC para a proporção de todos os alunos do curso favoráveis à modificação ao nível de 4%.
Qual o valor do erro de estimação cometido no item (a)?
Resolução:
x=80
ene=100
p0hat=x/ene
p0hat
## [1] 0.8
q0hat=1-p0hat
q0hat
## [1] 0.2
sigmap=sqrt((p0hat*q0hat)/ene)
sigmap
## [1] 0.04
alpha=0.04
alpha2=alpha/2
alpha2
## [1] 0.02
zalphasobre2=qnorm(1-alpha2)
zalphasobre2
## [1] 2.053749
liminf=round(100*(p0hat-(zalphasobre2)*sigmap),2)
liminf
## [1] 71.79
limsup=round(100*(p0hat+(zalphasobre2)*sigmap),2)
limsup
## [1] 88.21
cat("alpha:", alpha,"\t\n")
## alpha: 0.04
1-alpha
## [1] 0.96
cat("IC 96%:", liminf,limsup,"\n")
## IC 96%: 71.79 88.21
O erro de estimação cometido em (a) é de 8.2% para 96% de confiança e uma amostra de tamanho 100.
Se \(n\leq 30\), então usamos a distribuição t de Student.
Se \(n>30\), então usamos a distribuição normal com \(s^{2}\) como estimador de \(\sigma^{2}\)
\[\mathbb P\Big(-z_{\alpha/2}<\displaystyle\frac{\overline{X}-\mu}{s/\sqrt{n}}<z_{\alpha/2}\Big)=1-\alpha\] Os valores \(\overline{X}-(z_{\alpha/2})\cdot s/\sqrt{n}\) e \(\overline{X}+(z_{\alpha/2})\cdot s/\sqrt{n}\) são os limites \(\hat{\theta}_{I}\) e \(\hat{\theta}_{S}\), respectivamente do intervalo.
Assim, \(IC(\mu,(1-\alpha)100\%)=(\hat{\theta}_{I},\hat{\theta}_{S})\).
Exemplo 5: De uma população normal com parâmetros desconhecidos, extraímos uma amostra de tamanho 100, obtendo-se \(\overline{x}=112\) e \(s=11\). Determine um IC para \(\mu\) ao nível de 10%.
ene=100
xbarra=112
s=11
alpha=0.10
alpha2=alpha/2
zalphasobre2=qnorm(1-alpha2)
zalphasobre2
## [1] 1.644854
liminf=(xbarra-(zalphasobre2)*(s)/sqrt(ene))
liminf
## [1] 110.1907
limsup=(xbarra+(zalphasobre2)*(s)/sqrt(ene))
limsup
## [1] 113.8093
cat("alpha:", alpha,"\t\n")
## alpha: 0.1
1-alpha
## [1] 0.9
cat("IC 90%:", liminf,limsup,"\n")
## IC 90%: 110.1907 113.8093
No segundo caso, isto é, quando \(n<30\), substituímos o quantil da normal pelo quantil da distribuição t com \(\phi\) graus de liberdade.
A variável \(Z=\displaystyle\frac{\overline{X}-\mu}{\sigma_{\overline{x}}}\) tem distribuição normal. Quando não é conhecida variância \(\sigma^{2}\), devemos usar \(s^{2}\) como estimador de \(\sigma^{2}\). Assim, temos \(s_{\overline{x}}=\displaystyle\frac{s}{\sqrt{n}}\).
A variável definida como \(t_{\phi}=\displaystyle\frac{\overline{X}-\mu}{s_{\overline{x}}}\)
é denominada variável com distribuição t de Student com
\(\phi\)
graus de liberdade
.
Quando \(n\) é grande, \(s^{2}\) se aproxima bastante de \(\sigma^{2}\), fazendo com que a variável \(t_{\phi}\) se aproxime da normal \(Z\).
A tabela fornece o valor de \(t_{\alpha}\) tal que \(\mathbb P(t>t_{\alpha})=\alpha\).
Pela tabela obtemos \(t_{\phi;\alpha}=t_{15;0.05}=1.753\).
Pela tabela obtemos \(t_{\phi;\alpha}=t_{20;0.025}=2.086\).
Neste caso precisamos trabalhar com \(\alpha/2=0.05\). Logo, pela tabela obtemos \(t_{\phi;\alpha/2}=t_{18;0.05}=1.734\).
Observação:
No uso da tabela t para estimar média os graus de liberdade são determinados por \(\phi=n-1\).
Exemplo 6: De uma população normal com parâmetros desconhecidos, foi retirada uma amostra de 25 elementos para se determinar \(\mu\), tendo-se obtido \(\overline{x}=15\) e \(s^{2}=36\). Determine um IC para a média ao nível de 5%.
ene=25
xbarra=15
s2=36
sxbarra=sqrt(s2/ene)
sxbarra
## [1] 1.2
phi=ene-1
alpha=0.05
alphasobre2=alpha/2
t=qt((1-alphasobre2),phi)
t
## [1] 2.063899
liminf=round(xbarra-t*sxbarra,3)
liminf
## [1] 12.523
limsup=round(xbarra+t*sxbarra,3)
limsup
## [1] 17.477
dados<-c(alpha,1-alpha,liminf,limsup)
cat("alpha,1-alpha,liminf,limsup:",paste(dados),fill=TRUE,labels=paste0("{",1:4, "}"))
## {1} alpha,1-alpha,liminf,limsup: 0.05 0.95 12.523 17.477
Exemplo 7: Seja \(X\sim N(\mu,\sigma^{2})\). Uma amostra dessa população forneceu os valores \(\tilde{x}=10,12,14,15,9,16,11,8,13\). Construir um IC para \(\mu\) ao nível de 5%.
x<-c(10,12,14,15,9,12,16,11,8,13)
sum(x)
## [1] 120
xbarra=mean(x)
xbarra
## [1] 12
x2<-x^2
x2
## [1] 100 144 196 225 81 144 256 121 64 169
s2=(1/(length(x)-1))*(sum(x2)-(sum(x)^2)/length(x))
s2
## [1] 6.666667
sxbarra=sqrt(s2/length(x))
sxbarra
## [1] 0.8164966
alpha=0.05
alphasobre2=alpha/2
phi=length(x)-1
t=qt((1-alphasobre2),phi)
t
## [1] 2.262157
liminf=round(xbarra-t*sxbarra,3)
limsup=round(xbarra+t*sxbarra,3)
dados<-c(alpha,1-alpha,liminf,limsup)
cat("alpha,1-alpha,liminf,limsup:",paste(dados),
fill=TRUE,labels=paste0("{",1:4, "}"))
## {1} alpha,1-alpha,liminf,limsup: 0.05 0.95 10.153 13.847
Pela tabela t obtemos
\(t_{\phi;\alpha/2}=t_{9;0.025}=2.262\).$
Unimontes, nilson.brito@unimontes.br↩︎