ME414 - Estatística para Experimentalistas

Intervalo de Confiança

Introdução

Vimos que podemos utilizar uma estatística, como \(\bar{X}\), para estimar um parâmetro populacional, como a média populacional \(\mu\).

Após coletarmos uma amostra aleatória calculamos \(\bar{x}\), que é a nossa estimativa para \(\mu\). Chamamos esta estimativa de estimativa pontual.

Uma estimativa pontual fornece apenas um único valor plausível para o parâmetro. E sabemos que ela pode ser diferente para cada amostra obtida: distribuição amostral.

O ideal é que se reporte não só a estimativa, mas também a sua imprecisão.

Duas maneiras: fornecer a estimativa juntamente com o seu erro-padrão ou fornecer um intervalo de valores plausíveis para o parâmetro de interesse (intervalo de confiança).

Introdução

Suponha que queremos estimar o parâmetro populacional \(\theta\) através de um intervalo.

Um intervalo de confiança (IC) para \(\theta\) é sempre da forma:

\[ \mbox{estimativa} \pm \mbox{margem de erro}\]

\[\hat \theta \pm \mbox{margem de erro}\]

Sendo:

\(\hat \theta\) uma estimativa pontual de \(\theta\)

margem de erro: quantidade que depende da distribuição amostral do estimador pontual de \(\theta\), do grau de confiança pré-estabelecido e do erro padrão da estimativa

Intervalo de confiança para a média populacional

Distribuição da Média Amostral

A média amostral, \(\bar{X}_n\), tem em geral valores diferentes para diferentes amostras aleatórias obtidas: é uma variável aleatória.

Para obtermos a distribuição da média amostral:

Coletar uma a.a. de tamanho \(n\) a partir da população com distribuição \(X\) e guardar o valor da média desta amostra.

Coletar outra a.a. de tamanho \(n\) a partir da população com distribuição \(X\) e guardo o valor da média desta amostra. Repetir isso várias vezes.

Construir um histograma com todas as médias obtidas para estudar o comportamento de \(\bar{X}_n\): avaliando a média, a dispersão e a distribuição.

Teorema do Limite Central

Na prática: iremos coletar somente uma amostra de tamanho \(n\), não faremos inúmeras vezes esse processo. Teremos apenas 1 valor: \(\bar{x}\).

Então como saberemos as propriedades deste estimador? Quão útil ele é?

Resultado: Se \(X\) tem \(\mathbb E(X)=\mu\) e \(Var(X)=\sigma^2\), então a distribuição da média amostral, \(\bar{X}_n\), tem \[\mathbb E(\bar{X}_n)=\mu \quad \mbox{e} \quad Var(\bar{X}_n)=\frac{\sigma^2}{n}\]

Teorema do Limite Central (TLC)

Para amostras aleatórias simples \(X_{1},...,X_{n}\) coletadas de uma população com média \(\mu\) e variância \(\sigma^{2}\), a distribuição amostral de \(\bar{X}_{n}\) aproxima-se de uma distribuição Normal de média \(\mu\) e variância \(\frac{\sigma^{2}}{n}\), quando \(n\) for suficientemente grande, isto é, \[ \bar{X}_{n} \sim N\left(\mu, \frac{\sigma^{2}}{n} \right)\]

Intervalo de Confiança para \(\mu\)

Coletamos uma amostra aleatória \(X_1,X_2,\ldots,X_n\) de uma população com média \(\mu\) e a variância \(\sigma^2\) conhecida e usamos \(\bar{X}_n\) para estimar \(\mu\).

Pelo TLC: \[\bar{X}_n \sim N(\mu,\sigma^2/n)\]

Propriedade da Normal: \[Z=\frac{\bar{X}_n-\mu}{\sqrt{\sigma^2/n}} \sim N(0,1)\]

\[P(-z_{\alpha/2} \leq Z \leq z_{\alpha/2})=1-\alpha\]

Intervalo de Confiança para \(\mu\): \(\sigma\) conhecido

Temos que: \(\displaystyle Z=\frac{\bar{X}_n-\mu}{\sqrt{\sigma^2/n}} \sim N(0,1)\). Logo, \[ \begin{aligned} 1-\alpha = P(-z_{\alpha/2} \leq Z \leq z_{\alpha/2}) &= P\left(-z_{\alpha/2} < \frac{\bar{X}_n-\mu}{\sqrt{\sigma^2/n}} < z_{\alpha/2} \right) \\ &= P\left(\bar{X}_n - z_{\alpha/2}\sqrt{\frac{\sigma^2}{n}} < \mu <\bar{X}_n + z_{\alpha/2}\sqrt{\frac{\sigma^2}{n}} \right) \end{aligned} \]

Portanto, um intervalo de \(100(1-\alpha)\%\) de confiança para \(\mu\) é dado por: \[IC(\mu, 1-\alpha) = \left[ \bar{x} - z_{\alpha/2} \frac{\sigma}{\sqrt{n}},\bar{x} +z_{\alpha/2}\frac{\sigma}{\sqrt{n}}\right]\]

Como encontrar \(z_{\alpha/2}\)

\[P(|Z|\leq z_{\alpha/2})=P(-z_{\alpha/2}\leq Z \leq z_{\alpha/2})=1-\alpha\]

Procure na tabela o valor de \(z\) tal que a probabilidade acumulada até o valor de \(z\), isto é \(P(Z\leq z)=\Phi(z)\), seja \(1-\alpha/2\).

Exemplo

Encontrar \(z_{0.05}\) tal que \(0.90 = P\left(-z_{0.05} \leq Z \leq z_{0.05}\right)\).

Pela tabela, \(z_{0.05} = 1.64\)

Como encontrar \(z_{\alpha/2}\)

\[P(|Z|\leq z_{\alpha/2})=P(-z_{\alpha/2}\leq Z \leq z_{\alpha/2})=1-\alpha\]

Exemplo: Café

Uma máquina enche pacotes de café com variância igual a 100\(g^2\). Ela estava regulada para encher os pacotes com uma média de 500g. Mas o fabricante desconfia que a máquina está desregulada e quer então estimar a nova média \(\mu\).

Uma amostra de 25 pacotes apresentou uma média de 485g. Encontre um \(IC\) de \(95\%\) para a verdadeira média \(\mu\).

\(\bar x = 485, n=25, \sigma=10, \alpha=0.05, z_{0.025}=1.96\)

\[ \begin{aligned} IC(\mu, 0.95) &= \left[ \bar{x} - z_{0.025} \frac{\sigma}{\sqrt{n}},\bar{x} + z_{0.025}\frac{\sigma}{\sqrt{n}}\right] \\ &= \left[485 - 1.96 \frac{10}{5}, 485 + 1.96 \frac{10}{5} \right] \\ &=[481.08, 488.92] \end{aligned} \]

Interpretação do Intervalo de Confiança para \(\mu\)

Temos uma amostra aleatoria \(X_1,\ldots,X_n\) e estamos usando a média amostral \(\bar{X}_n\) para estimar \(\mu\), a média populacional.
Quão boa é esta estimativa? Ela tem boa precisão? Qual o grau de confiança?
Em geral: queremos alto grau de confiança, por exemplo, 0.95.
Interpretação: Imagine que seja possível coletar uma amostra de tamanho \(n\) da população várias vezes. Para cada vez, você calcula \(\bar{x}\) e constrói um IC de 95% para \(\mu\). Imagine também que você conhece \(\mu\) e conte quantos dos intervalos contêm \(\mu\). A proporção de intervalos que contem \(\mu\) será próxima a 0.95.

Interpretação do Intervalo de Confiança para \(\mu\)

Exemplo - Exame

O desvio padrão da pontuação em um certo exame é 11.3. Uma amostra aleatória de 81 estudantes que fizeram o exame foi coletada e a nota de cada estudantes foi anotada. A pontuação média entre os estudantes amostrados foi 74.6.

Encontre um intervalo de 90% de confiança para a pontuação média entre todos os estudantes que fizeram o exame.

\(\bar{x}=74.6, \quad \sigma=11.3, \quad n=81, \quad \alpha=0.10 \quad\) e \(\quad z_{0.05}=1.645\)

\[ \begin{aligned} IC(\mu, 0.90) &= \left[ 74.6 - 1.645 \frac{11.3}{9}, 74.6 + 1.645\frac{11.3}{9}\right] \\ &= [72.53, 76.67] \end{aligned} \]

Com grau de confiança igual a 90%, estimamos que a pontuação média entre os estudantes está entre 72.53 e 76.67.

Intervalo de Confiança para \(\mu\): \(\sigma\) desconhecido

Seja \(X_1, \ldots, X_n\) uma a.a. de uma população com média \(\mu\), mas com variância \(\sigma^2\) desconhecida.

Nesse caso, usaremos a variância amostral (\(s^2\)) como uma estimativa de \(\sigma^2\): \[s^2=\frac{1}{n-1}\sum_{i=1}^n(x_i-\bar{x})^2\]

Como consequência, não temos mais distribuição Normal, mas sim a distribuição \(t\)-student com \(n-1\) graus de liberdade:

\[T=\frac{\bar{X}_n-\mu}{\sqrt{s^2/n}}\sim t_{n-1}\]

\[P(-t_{n-1,\alpha/2} \leq T \leq t_{n-1,\alpha/2}) = 1-\alpha\]

Distribuição \(t\)-student e Normal Padrão

Para \(n\) grande a distribuição \(t\)-student se aproxima da normal padrão \(N(0,1)\).

Intervalo de Confiança para \(\mu\): \(\sigma\) desconhecido

Temos: \(\displaystyle T=\frac{\bar{X}_n-\mu}{\sqrt{s^2/n}}\sim t_{n-1}\)

De forma análoga ao que fizemos quando \(\sigma^2\) é conhecida: \[ \begin{aligned} 1-\alpha &= P(-t_{n-1,\alpha/2} \leq T \leq t_{n-1,\alpha/2}) \\ &= P\left(-t_{n-1,\alpha/2} < \frac{\bar{X}_n-\mu}{\sqrt{s^2/n}}\sim t_{n-1} < t_{n-1,\alpha/2} \right) \end{aligned} \]

Portanto, um intervalo de \(100(1-\alpha)\%\) de confiança para \(\mu\) é dado por: \[IC(\mu, 1-\alpha) = \left[ \bar{x} -t_{n-1,\alpha/2}\frac{s}{\sqrt{n}}, \bar{x} + t_{n-1,\alpha/2}\frac{s}{\sqrt{n}}\right]\]

Como encontrar \(t_{n-1,\alpha/2}\)

\[P(-t_{n-1,\alpha/2} < T < t_{n-1,\alpha/2}) = 1-\alpha\]

Os valores da distribuição \(t\)-student também encontram-se tabelados.

Tabela Distribuição \(t\)-student

Exemplo: Café

No exemplo da máquina que enche pacotes de café, suponha agora que a variância é desconhecida.

Lembre-se que uma amostra de \(25\) pacotes apresentou uma média de 485g. Observou-se um desvio padrão na amostra de 7.1g

Encontre um IC de 95% para a verdadeira média \(\mu\)

\[ \begin{aligned} IC(\mu, 0.95) &= \left[ \bar{x} - t_{24, 0.025} \frac{s}{\sqrt{n}} ,\bar{x} +t_{24, 0.025}\frac{s}{\sqrt{n}}\right] \\ &= \left [485 - 2.06 \frac{7.1}{5}, 485 + 2.06 \frac{7.1}{5} \right] \\ &=[482.07; 487.93] \end{aligned} \]

Exemplo: horas de TV por dia?

O número de horas assistidas de TV por dia entre os participantes de um estudo em que se coletou uma amostra aleatória está representada pelo seguinte histograma:

Exemplo: horas de TV por dia

Encontre um IC de \(95\%\) para a média de horas que uma pessoa assiste por dia.

\(x_i\) é o número de horas de TV que a pessoa \(i\) da amostra assiste.

\(n=905\) pessoas responderam, \(\bar{x}=1.52\) e \(s=1\)

Erro padrão da média amostral: \(s/\sqrt{n}=0.03\)

Utilizamos a distribuição Normal e não a distribuição t, pois \(n\) é grande, temos o IC 95% para \(\mu\):

\[IC(\mu, 0.95) = \left[\bar{x}-1.96 \frac{s}{\sqrt{n}} ,\bar{x}+1.96\frac{s}{\sqrt{n}} \right]= [1.46,1.58]\]

Com grau de confiança igual a 95%, estimamos que a média populacional de horas de TV está entre 1.46 e 1.58 horas.

Exemplo - Leite materno

O Ministério da Saúde está preocupado com quantidade de um certo componente tóxico no leite materno.

Em uma amostra de 20 mulheres, a quantidade do componente para cada uma foi:

## 16 0 0 2 3 6 8 2 5 0 12 10 5 7 2 3 8 17 9 1

Obtenha um intervalo de confiança de 95% para a quantidade média do componente no leite materno.

Exemplo - Leite materno

Amostra:

##  [1] 16  0  0  2  3  6  8  2  5  0 12 10  5  7  2  3  8 17  9  1

Para essa amostra: \(\qquad \bar{x}=5.8, \qquad s=5.08, \qquad n=20\)

Grau de confiaça de 95% : \(t_{19,0.025}= 2.093\)

\[ \begin{aligned} IC(\mu, 0.95) &= \left[ \bar{x} -t_{n-1,\alpha/2}\frac{s}{\sqrt{n}}, \bar{x} + t_{n-1,\alpha/2}\frac{s}{\sqrt{n}}\right] \\ &=\left[3.41, 8.19\right] \end{aligned} \]

Com grau de confiança igual a 95%, estimamos que a média da quantidade do componente entre as mulheres está entre 3.41 e 8.19.

Exemplo

Uma variável aleatória \(X\) tem distribução normal, com média 100 e desvio padrão 10.

Qual a \(P(90 \leq X \leq 110)\)?
Se \(\bar{X}\) for a média de uma amostra de 16 elementos retirados dessa população, calcule \(P(90 \leq \bar{X} \leq 110)\).
Represente, num único gráfico, as distribuições de \(X\) e \(\bar{X}\).
Que tamanho deveria ter a amostra para que \(P(90 \leq \bar{X} \leq 110) = 0.95\)?

Fonte: Morettin & Bussab, Estatística Básica \(5^a\) edição, pág 274.

Exemplo

Qual a \(P(90 \leq X \leq 110)\)?

Devemos padronizar o evento, para usar a distribuição normal padrão.

\[ \begin{aligned} P(90 \leq X \leq 110) &= P\left( \frac{90-100}{10} \leq \frac{X-100}{10} \leq \frac{110-100}{10} \right) \\ &= P(-1 \leq Z \leq 1) = P(Z\leq1) - P(Z < -1) \\ &= \Phi(1) - \Phi(-1) \end{aligned} \]

Consultando a tabela Normal disponível na página da disciplina, vemos que \(\Phi(1) = 0.8413\)

Por simetria, \(\Phi(-1) = 1-\Phi(1) = 0.1569\) e portanto \[P(90 \leq X \leq 110) = \Phi(1) - \Phi(-1) = 0.6844\]

Exemplo

Calcule \(P(90 \leq \bar{X} \leq 110)\), sendo \(\bar{X}\) for a média de uma amostra de 16 elementos dessa população

Sabemos que \(\mathbb E(\bar{X})=100\) e \(Var(\bar{X}) = \sigma^2/n=100/16\).

Consequentemente, o desvio padrão de \(\bar{X}\) será \(\sigma/ \sqrt{n}=10/4\).

Temos então que \[\begin{aligned} P(90 \leq \bar{X} \leq 110) &= P\left( \frac{90-100}{10/4} \leq \frac{\bar{X}-100}{10/4} \leq \frac{110-100}{10/4} \right) \\ & = P( -4 \leq Z \leq 4) \\ &= P(Z\leq4) - P(Z < -4) \\ &= \Phi(4) - \Phi(-4) \end{aligned}\]

Se consultarmos a tabela agora, veremos que a probabilidade \(P(Z\leq4)\) é tão grande nem está listada. Ela então pode ser considerada como aproximadamente igual a 1. De fato, com a ajuda de algum método de integração numérica, podemos verificar que \(\Phi(4) - \Phi(-4)\) é igual a \(0.9999367\).

Exemplo

Distribuições de \(X\) e \(\bar{X}\):

Exemplo

Que tamanho deveria ter a amostra para que \(P(90 \leq \bar{X} \leq 110) = 0.95\)?

Queremos resolver a seguinte equação:

\[P\left( \frac{90-100}{10/\sqrt{n}} \leq \frac{\bar{X}-100}{10/\sqrt{n}} \leq \frac{110-100}{10/\sqrt{n}} \right) = 0.95\]

Consultando a tabela, vemos que \(P(-z_{0.025} \leq Z \leq z_{0.025})=0.95\) se \(z_{0.025} = 1.96\).
Então a equação que queremos resolver pode ser reescrita como:

\[ \frac{110-100}{10/\sqrt{n}} = 1.96 \quad \Longleftrightarrow \quad \sqrt{n}\frac{110-100}{10} = 1.96 \quad \Longleftrightarrow \quad n = 1.96^2\]

Portanto, \(n=4\) é suficiente para obtermos a confiança desejada.

Tamanho da Amostra

Exemplo: Por experiência, sabe-se que o peso de um salmão de certo criadouro segue uma distribuição normal com uma média que varia a cada estação, mas com desvio padrão sempre igual a 0.3 libras.

Se quisermos estimar o peso médio dos peixes de maneira que nossa estimativa seja diferente da verdadeira média em no máximo 0.1 libras para mais ou para menos com probabilidade igual a 0.9, qual o tamanho amostral necessário?

Solução \[IC(\mu, 1-\alpha) = \left[ \bar{x} -z_{\alpha/2}\frac{\sigma}{\sqrt{n}}, \bar{x} + z_{\alpha/2}\frac{\sigma}{\sqrt{n}}\right]\]

Margem de erro: \(z_{\alpha/2}\frac{\sigma}{\sqrt{n}}\)

Tamanho da Amostra

Margem de erro 0.1, isto é, \[z_{\alpha/2}\frac{\sigma}{\sqrt{n}}=0.1\]

\(\alpha=0.1\) (90% de confiança) e \(z_{0.05}=1.645\).

\[1.645\frac{0.3}{\sqrt{n}}=0.1 \quad \Longleftrightarrow \quad n=24.35\]

Tamanho amostral: 25

Em geral, para uma margem de erro \(m\) e confiança \(100(1-\alpha)\%\):

\[n=\left( \frac{z_{\alpha/2}}{m}\right)^2\sigma^2\]

Exemplo: precisão e tamanho amostral

Qual deve ser o tamanho de uma amostra cuja população da qual ela será sorteada possui um desvio-padrão igual a 10, para que a diferença da média amostral para a média da população, em valor absoluto, seja menor que 1, com coeficiente de confiança igual a:

\(95\%\)

\(99\%\)

Fonte: Morettin & Bussab, Estatística Básica \(5^a\) edição, pág 308.

Exemplo: precisão e tamanho amostral

Pelo TLC: \(\bar{X}_n \sim N(\mu, 10^2/n)\)

Queremos \(P(|\bar{X}-\mu|<1) = 0.95\). Ou de forma equivalente,

\[ \begin{aligned} 0.95 = P(|\bar{X}-\mu|<1) &= P(-1<\bar{X}-\mu<1) \\ &= P\left(-\frac{1}{10/\sqrt{n}}<\frac{\bar{X}-\mu}{10/\sqrt{n}}<\frac{1}{10/\sqrt{n}}\right) \\ &= P \left( -\frac{\sqrt{n}}{10} < Z < \frac{\sqrt{n}}{10} \right) \end{aligned}\]

Sabemos que \(P(-1.96 < Z < 1.96) = 0.95\). Então \[\frac{\sqrt{n}}{10} = 1.96 \qquad \Longrightarrow \qquad n \approx 385\]

Exemplo: precisão e tamanho amostral

De modo análogo, para um grau de confiança de \(99\%\), temos que \[P(-2.58 < Z < 2.58) = 0.99\]

Então, \[\frac{\sqrt{n}}{10} = 2.58 \qquad \Longrightarrow \qquad n \approx 665\]

Em geral, como já dissemos anteriormente, para uma margem de erro \(m\): \[n=\left(\frac{z_{\alpha/2}}{m}\right)^2 \sigma^2\]

Leituras

Ross: capítulo 8.
OpenIntro: seção 4.2.
Magalhães: capítulo 7.

Slides produzidos pelos professores:

Samara Kiihl
Tatiana Benaglia
Benilton Carvalho