Intervalos de confiança para médias e proporções

Introdução

Considere uma população normal com média desconhecida \(\mu\), que se deseja estimar e variância \(\sigma^2\) conhecida, ou seja, \(X\sim N(?,\sigma^2)\).

Toma-se uma amostra de tamanho \(n\) dessa população. Temos então os elementos \(x_{1},x_{2},\dots,x_{n}\). Logo, podemos calcular a média amostral \(\overline{x}=\displaystyle\frac{\displaystyle\sum_{i=1}^{n}x_{i}}{n}\). Dizemos que \(\overline{x}\) é o estimador da média populacional \(\mu\).

O valor obtido para \(\overline{x}\) varia de uma amostra para outra (lembremos que o processo é aleatório). Vejamos alguns exemplos gerados no RStudio considerando uma amostra de tamanho \(n=30\) de uma população com média \(\mu=100\) e variância \(\sigma^2=25\):

## Medias:
## Media 1= 99.76448     Media 2= 100.8917   Media 3= 100.1221  

Note que, a amostra pode conter ou não o verdadeiro parâmetro desconhecido. O valor calculado para a média da amostra constitui a estimativa pontual do parâmetro. Cada uma das médias constitui uma estimativa pontual da verdadeira média populacional. Neste caso, como conhecemos a média (\(\mu=100\)), verificamos que nem todas as amostras contêm esse valor. Daí a importância de se contruir um intervalo de confiança para o verdadeiro valor do parâmetro.

Estimação intervalar

A estimação pontual de um parâmetro não possui uma medida do possível erro cometido na estimação. Uma maneira de expressar a precisão da estimação é estabelecer limites, que com certa probabilidade incluam o verdadeiro valor do parâmetro populacional. Esses limites são chamados limites de confiança. Eles determinam um intervalo de confiança, no qual deverá estar o verdadeiro valor do parâmetro, com certa probabilidade especificada.

Logo, a estimação por intervalo consiste na fixação de dois valores tais que \((1-\alpha)\) seja a probabilidade de que o intervalo, por eles determinado, contenha o verdadeiro valor do parâmetro.

\(\alpha\): nível de incerteza ou grau de desconfiança.

\(1-\alpha\): nível de confiança.

Portanto, \(\alpha\) nos dá a medida da incerteza dessa inferência(nível de significância). Logo, a partir da informação da amostra, devemos calcular os limites \(\hat{\theta}_{I}\) e \(\hat{\theta}_{S}\) de um intervalo, os chamados valores críticos, que em \(100(1-\alpha)\%\) dos casos inclua o valor do parãmetro a estimar e em \(100\alpha\%\) dos casos não inclua o valor do parâmetro. Assim, quando \(\alpha=0,05\), temos um intervalo de confiança de \(95\%\); quando \(\alpha=0,01\), temos um intervalo de confiança de \(99\%\). Quanto mais amplo o intervalo de confiança, mais confiantes podemos estar de que o intervalo fornecido contém o parâmetro desconhecido.

Em linguagem prática, um intervalo de confiança de \(95\%\), por exemplo, significa que de cada 100 amostras, 95 conterão o verdadeiro valor do parâmetro, enquanto que 5 não conterão.

Intervalos de confiança para a média \(\mu\) de uma população normal com variância \(\sigma^2\) conhecida

Como já foi dito na introdução, seja uma população normal com média desconhecida \(\mu\), que se deseja estimar e variância \(\sigma^2\) conhecida, ou seja, \(X\sim N(?,\sigma^2)\).

Procedimento para a construção do IC:

  1. Retiramos uma amostra casual simples de tamanho \(n\).

  2. Calculamos a média da amostra \(\overline{x}\).

  3. Calculamos o desvio padrão da média amostral \(\sigma_{\bar{x}}=\sqrt{\displaystyle\frac{\sigma^{2}}{n}}=\displaystyle\frac{\sigma}{\sqrt{n}}\).

  4. Fixamos o nível de significância \(\alpha\) e encontramos \(z_{\alpha/2}\).

\(z_{\alpha}\)

Denotamos por \(z_{\alpha}\) o valor de \(z\) acima do qual existe uma área igual a \(\alpha\). Por exemplo, \(z_{0,05}=1,64\), pois a área acima de 1,64 vale 0,05. Ou, de forma equivalente, a área abaixo de 1,64 vale 0,95. Temos \(z_{0.25}=1.96\). Ou, de forma equivalente, a área abaixo de 1,96 vale 0,975.

No R esses quantis podem ser encontrados pelos comandos:

#z_0.05
qnorm(0.95)
## [1] 1.644854
#z_0.25
qnorm(0.975)
## [1] 1.959964

Isto é ilustrado na figura abaixo.

E o que é \(z_{\alpha/2}\)?

Para construir um IC precisamos encontrar os valores \(-z_{\alpha/2}\) e \(z_{\alpha/2}\) tais que a área entre eles seja \(1-\alpha\).

Daí,temos \(Z=\displaystyle\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}\) e \[\mathbb P\Big(-z_{\alpha/2}<\displaystyle\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}<z_{\alpha/2}\Big)=1-\alpha\]

Multiplicando cada termo da desigualdade por \(\sigma/\sqrt{n}\) e depois subtraindo \(\bar{X}\) de cada termo e multiplicando por \(-1\) (revertendo o sentido das desigualdades), obtemos

\[\mathbb P\Big(\overline{X}-(z_{\alpha/2})\cdot\sigma/\sqrt{n}<\mu<\overline{X}+(z_{\alpha/2})\cdot\sigma/\sqrt{n}\Big)=1-\alpha\]

A sentença acima fornece um intervalo de confiança de \(100(1-\alpha)\%\) para a média de uma população com variância \(\sigma^{2}\) conhecida.

Os valores \(\overline{X}-(z_{\alpha/2})\cdot\sigma/\sqrt{n}\) e \(\overline{X}+(z_{\alpha/2})\cdot\sigma/\sqrt{n}\) são os limites \(\hat{\theta}_{I}\) e \(\hat{\theta}_{S}\), respectivamente do intervalo.

O valor \((z_{\alpha/2})\cdot\sigma/\sqrt{n}\) é denominado erro de estimação.

Usando uma notação simplificada, temos:

\(IC(\mu,(1-\alpha)100\%)=(\hat{\theta}_{I},\hat{\theta}_{S})\).

Exemplo 1: De uma população normal \(X\), com \(\sigma^{2}=9\), extraímos uma amostra de 25 observações obtendo \(\sum_{i=1}^{25}=152\). Determine um IC de limites de 90% para \(\mu\).

Resolução: \(\alpha=90\%,\mbox{ } \sum_{i=1}^{25}=152\).

\(\overline{x}=\dfrac{152}{25}=6,08\)

\(\sigma_{\overline{x}}=\sqrt{\dfrac{\sigma^{2}}{n}}=\dfrac{9}{25}=0.6\)

\(\alpha=0.10\Rightarrow \alpha/2=0.05\Rightarrow z_{0.05}=1.64\)

No RStudio:

alpha=0.10
alpha/2
## [1] 0.05
zalphasobre2<-qnorm(1-alpha/2)
zalphasobre2
## [1] 1.644854

Logo,

\(\hat{\theta}_{I}=\overline{X}-(z_{\alpha/2})\cdot\sigma/\sqrt{n}=6.08-1.64\cdot0.6=5.096\)

e

\(\hat{\theta}_{S}=\overline{X}+(z_{\alpha/2})\cdot\sigma/\sqrt{n}=6.08+1.64\cdot0.6=7.064\)

Ou

\(IC(\mu,90\%)=(5.096,7.064)\)

Podemos resolver o exercício diretamente no RStudio? SIM.

mean=6.08
sd=0.6
ene=25
#sdmean=0.6/25
alpha=0.10
liminf<-mean-(qnorm(1-(alpha/2))*(sd))
limsup<-mean+(qnorm(1-(alpha/2))*(sd))
cat("alpha:", alpha,"\t\n")
## alpha: 0.1   
cat("IC (1-alpha)100%:", liminf,limsup,"\n")
## IC (1-alpha)100%: 5.093088 7.066912

Exemplo 2: De uma população normal com \(\sigma=5\), retiramos uma amostra de tamanho \(n=50\) e obtivemos \(\overline{x}=42\).

  1. Construir um IC para a média ao nível de 5%.

  2. Qual o erro de estimação ao nível de 5%?

  3. Para que o erro de estimação seja menor ou igual a 1, qual deve ser o tamanho da amostra?

Resolução: (a)

mean=42
sd=0.71
ene=50
alpha=0.05
liminf<-mean-(qnorm(1-(alpha/2))*(sd))
limsup<-mean+(qnorm(1-(alpha/2))*(sd))
cat("alpha:", alpha,"\t\n")
## alpha: 0.05  
1-alpha
## [1] 0.95
cat("IC 95%:", liminf,limsup,"\n")
## IC 95%: 40.60843 43.39157
  1. O erro de estimação é dado por \(e=\overline(x)-\mu\).

Mas, \(\overline{x}=z_{\alpha/2}.\sigma_{\overline{x}}\). Logo, \(e=z_{\alpha/2}\cdot \sigma_{\overline{x}}\).

\(e=(z_{\alpha/2})\cdot\sigma/\sqrt{n}=(1.96)*0.71=1.39\)

  1. Para que o erro de estimação não ultrapasse 1, devemos calcular \(n\) utilizando sua definição. \(e=(z_{\alpha/2})\cdot \sqrt{\dfrac{\sigma^{2}}{n}}\). Explicitando o valor de \(n\), temos:

\(e=(z_{\alpha/2})\cdot \sqrt{\dfrac{\sigma^{2}}{n}}\Leftrightarrow \displaystyle\frac{e}{z_{\alpha/2}}=\sqrt{\dfrac{\sigma^{2}}{n}}\)

Elevando ambos os membros ao quadrado: \(\Big(\displaystyle\frac{e}{z_{\alpha/2}}\Big)^{2}={\dfrac{\sigma^{2}}{n}}\therefore n=\Big(\displaystyle\frac{z_{\alpha/2}\cdot \sigma}{e}\Big)^{2}\).

No caso, \(n=(1.96*5)^{2}=96.04\). Logo, para que o erro de estimação não ultrapasse 1, devemos ter \(n\geq 96\) elementos.

Estimação de proporções ou Intervalos de confiança para proporções

Sabe-se que quando a proporção populacional \(p\) é conhecida, \(\hat{p}=\displaystyle\frac{x}{n}\sim N\Big(p,\displaystyle\frac{pq}{n}\Big)\).

Para construir um IC para \(p\) desconhecida, determina-se \(\hat{p_{0}}\) na amostra e considera-se \(\sigma_{\hat{p}}=\sqrt{\displaystyle\frac{\hat{p_{0}}\hat{q_{0}}}{n}}\)

E um IC para a proporção populacional é

\(IC (1-\alpha)\%)=(\hat{p_{0}}-z_{\alpha/2}\cdot\sigma_{\hat{p_{0}}}\leq p \leq\hat{p_{0}}+z_{\alpha/2}\cdot\sigma_{\hat{p_{0}}})\)

Exemplo 3: Retiramos de uma população uma amostra de 100 elementos e encontramos 20 sucessos. Ao nível de 1%, construir um intervalo de confiança para a verdadeira porporção de sucessos na população.

Resolvendo no RStudio:

x=20
ene=100
p0hat=x/ene
p0hat
## [1] 0.2
q0hat=1-p0hat
q0hat
## [1] 0.8
sigmap=sqrt((p0hat*q0hat)/ene)
sigmap
## [1] 0.04
alpha=0.01
alpha2=alpha/2
alpha2
## [1] 0.005
zalphasobre2=qnorm(0.995)
zalphasobre2
## [1] 2.575829
liminf=round(100*(p0hat-(zalphasobre2)*sigmap),2)
liminf
## [1] 9.7
limsup=round(100*(p0hat+(zalphasobre2)*sigmap),2)
limsup
## [1] 30.3
cat("alpha:", alpha,"\t\n")
## alpha: 0.01  
1-alpha
## [1] 0.99
cat("IC 99%:", liminf,limsup,"\n")
## IC 99%: 9.7 30.3

POrtanto, corremos um risco de 1% de que a verdadeira porporção populacional não pertença ao intervalo

## IC 99%: 9.7 30.3

ou então nossa confiança de que \(p\) pertença ao IC determinado é de 99%.

Exemplo 4: Para se estimar a porcentagem de alunos de um curso favoráveis à mudança do currículo escolar, tomou-se uma amostra de tamnanho 100, dos quais 80 foram favoráveis.

  1. Construir um IC para a proporção de todos os alunos do curso favoráveis à modificação ao nível de 4%.

  2. Qual o valor do erro de estimação cometido no item (a)?

Resolução:

x=80
ene=100
p0hat=x/ene
p0hat
## [1] 0.8
q0hat=1-p0hat
q0hat
## [1] 0.2
sigmap=sqrt((p0hat*q0hat)/ene)
sigmap
## [1] 0.04
alpha=0.04
alpha2=alpha/2
alpha2
## [1] 0.02
zalphasobre2=qnorm(1-alpha2)
zalphasobre2
## [1] 2.053749
liminf=round(100*(p0hat-(zalphasobre2)*sigmap),2)
liminf
## [1] 71.79
limsup=round(100*(p0hat+(zalphasobre2)*sigmap),2)
limsup
## [1] 88.21
cat("alpha:", alpha,"\t\n")
## alpha: 0.04  
1-alpha
## [1] 0.96
cat("IC 96%:", liminf,limsup,"\n")
## IC 96%: 71.79 88.21
  1. \(z_{\alpha/2}=\displaystyle\frac{\hat{p_{0}}\hat{q_{0}}}{\sigma_{\hat{p}}}\Rightarrow e=z_{\alpha/2}\cdot \sigma_{\hat{p}}\therefore e=(2.05)(0.04)=0.082=8.2\%\).

O erro de estimação cometido em (a) é de 8.2% para 96% de confiança e uma amostra de tamanho 100.

Intervalos de confiança para a média de populações normais com variâncias desconhecidas

  • Se \(n\leq 30\), então usamos a distribuição t de Student.

  • Se \(n>30\), então usamos a distribuição normal com \(s^{2}\) como estimador de \(\sigma^{2}\)

\[\mathbb P\Big(-z_{\alpha/2}<\displaystyle\frac{\overline{X}-\mu}{s/\sqrt{n}}<z_{\alpha/2}\Big)=1-\alpha\] Os valores \(\overline{X}-(z_{\alpha/2})\cdot s/\sqrt{n}\) e \(\overline{X}+(z_{\alpha/2})\cdot s/\sqrt{n}\) são os limites \(\hat{\theta}_{I}\) e \(\hat{\theta}_{S}\), respectivamente do intervalo.

Assim, \(IC(\mu,(1-\alpha)100\%)=(\hat{\theta}_{I},\hat{\theta}_{S})\).

Exemplo 5: De uma população normal com parâmetros desconhecidos, extraímos uma amostra de tamanho 100, obtendo-se \(\overline{x}=112\) e \(s=11\). Determine um IC para \(\mu\) ao nível de 10%.

ene=100
xbarra=112
s=11
alpha=0.10
alpha2=alpha/2
zalphasobre2=qnorm(1-alpha2)
zalphasobre2
## [1] 1.644854
liminf=(xbarra-(zalphasobre2)*(s)/sqrt(ene))
liminf
## [1] 110.1907
limsup=(xbarra+(zalphasobre2)*(s)/sqrt(ene))
limsup
## [1] 113.8093
cat("alpha:", alpha,"\t\n")
## alpha: 0.1   
1-alpha
## [1] 0.9
cat("IC 90%:", liminf,limsup,"\n")
## IC 90%: 110.1907 113.8093

No segundo caso, isto é, quando \(n<30\), substituímos o quantil da normal pelo quantil da distribuição t com \(\phi\) graus de liberdade.

A variável \(Z=\displaystyle\frac{\overline{X}-\mu}{\sigma_{\overline{x}}}\) tem distribuição normal. Quando não é conhecida variância \(\sigma^{2}\), devemos usar \(s^{2}\) como estimador de \(\sigma^{2}\). Assim, temos \(s_{\overline{x}}=\displaystyle\frac{s}{\sqrt{n}}\).

A variável definida como \(t_{\phi}=\displaystyle\frac{\overline{X}-\mu}{s_{\overline{x}}}\) é denominada variável com distribuição t de Student com \(\phi\) graus de liberdade.

Quando \(n\) é grande, \(s^{2}\) se aproxima bastante de \(\sigma^{2}\), fazendo com que a variável \(t_{\phi}\) se aproxime da normal \(Z\).

Uso da tabela t de Student

A tabela fornece o valor de \(t_{\alpha}\) tal que \(\mathbb P(t>t_{\alpha})=\alpha\).

Exemplos

  1. \(\phi=15; \alpha=5\% \Rightarrow \mathbb P(t>t_{\alpha})=0.05\)

Pela tabela obtemos \(t_{\phi;\alpha}=t_{15;0.05}=1.753\).

Tabela t com gl=15 e alpha=5%
Tabela t com gl=15 e alpha=5%
  1. \(\phi=20; \alpha=2.5\% \Rightarrow \mathbb P(t<-t_\alpha)=0.025\).

Pela tabela obtemos \(t_{\phi;\alpha}=t_{20;0.025}=2.086\).

Tabela t com gl=20 e alpha=2,5%
Tabela t com gl=20 e alpha=2,5%
  1. \(\mathbb P(|t|>t_{\alpha})=0.10;\phi=18\)

Neste caso precisamos trabalhar com \(\alpha/2=0.05\). Logo, pela tabela obtemos \(t_{\phi;\alpha/2}=t_{18;0.05}=1.734\).

Tabela t com gl=18 e alpha/2=5%
Tabela t com gl=18 e alpha/2=5%

Observação:

No uso da tabela t para estimar média os graus de liberdade são determinados por \(\phi=n-1\).

Exemplo 6: De uma população normal com parâmetros desconhecidos, foi retirada uma amostra de 25 elementos para se determinar \(\mu\), tendo-se obtido \(\overline{x}=15\) e \(s^{2}=36\). Determine um IC para a média ao nível de 5%.

ene=25
xbarra=15
s2=36
sxbarra=sqrt(s2/ene)
sxbarra
## [1] 1.2
phi=ene-1
alpha=0.05
alphasobre2=alpha/2
t=qt((1-alphasobre2),phi)
t
## [1] 2.063899
liminf=round(xbarra-t*sxbarra,3)
liminf
## [1] 12.523
limsup=round(xbarra+t*sxbarra,3)
limsup
## [1] 17.477
dados<-c(alpha,1-alpha,liminf,limsup)
cat("alpha,1-alpha,liminf,limsup:",paste(dados),fill=TRUE,labels=paste0("{",1:4, "}"))
## {1} alpha,1-alpha,liminf,limsup: 0.05 0.95 12.523 17.477

Exemplo 7: Seja \(X\sim N(\mu,\sigma^{2})\). Uma amostra dessa população forneceu os valores \(\tilde{x}=10,12,14,15,9,16,11,8,13\). Construir um IC para \(\mu\) ao nível de 5%.

x<-c(10,12,14,15,9,12,16,11,8,13)
sum(x)
## [1] 120
xbarra=mean(x)
xbarra
## [1] 12
x2<-x^2
x2
##  [1] 100 144 196 225  81 144 256 121  64 169
s2=(1/(length(x)-1))*(sum(x2)-(sum(x)^2)/length(x))
s2
## [1] 6.666667
sxbarra=sqrt(s2/length(x))
sxbarra
## [1] 0.8164966
alpha=0.05
alphasobre2=alpha/2
phi=length(x)-1
t=qt((1-alphasobre2),phi)
t
## [1] 2.262157
liminf=round(xbarra-t*sxbarra,3)
limsup=round(xbarra+t*sxbarra,3)
dados<-c(alpha,1-alpha,liminf,limsup)
cat("alpha,1-alpha,liminf,limsup:",paste(dados),
    fill=TRUE,labels=paste0("{",1:4, "}"))
## {1} alpha,1-alpha,liminf,limsup: 0.05 0.95 10.153 13.847

Pela tabela t obtemos

\(t_{\phi;\alpha/2}=t_{9;0.025}=2.262\).$

Tabela t com gl=9 e alpha/2=2.5%
Tabela t com gl=9 e alpha/2=2.5%

Anexo: tabela t de Student

Tabela t de Student
Tabela t de Student

  1. Unimontes, ↩︎