01 de Outubro de 2015
Um dos principais objetivos da EstatÃstica é tirar conclusões a partir dos dados.
Dados em geral consistem de uma amostra de elementos de uma população de interesse.
O objetivo é usar a amostra e tirar conclusões sobre a população.
Quão confiável será utilizar a informação obtida apenas de uma amostra para concluir algo sobre a população?
Para que serve uma estatÃstica? Para "estimar" os valores de uma distribuição, ou caracterÃsticas de uma população.
População:
Amostra:
Seja \(\theta\) a proporção de alunos na Unicamp que concorda com a presença da PM no campus.
Imagine um fenômeno de interesse que possa ser representado por uma v.a. \(X\) que assume os valores \(1\) ou \(2\) com igual probabilidade.
\[\mu=\mathbb E(X)= 1 \times P(X=1) +2 \times P(X=2) = 1\times \frac{1}{2} + 2\times \frac{1}{2}=\frac{3}{2}\]
\[ \begin{aligned} \sigma^2& =Var(X)= \mathbb E[(X-\mu)^2]\\ &= (1-1.5)^2 \times P(X=1) + (2-1.5)^2 \times P(X=2)\\ & =\frac{1}{4} \end{aligned} \]
Imagine que uma população de interesse tenha distribuição como a de \(X\) definida anteriormente.
Imagine também que, embora saibamos que os valores possÃveis sejam \(1\) e \(2\), não tenhamos conhecimento sobre suas respectivas probabilidades.
Isto é, se temos \(N\) elementos nessa população, podemos pensar que a caracterÃstica de interesse de cada elemento \(i\) segue uma v.a. \(X_i\) em que \(P(X_i=1)=P(X_i=2)=1/2\), mas nós não sabemos disso.
Imagine que o interesse seja \(\mu\).
Vamos coletar uma amostra aleatória simples com reposição (\(AAS_c\)) de tamanho \(n=2\) e calcular a média amostral.
Usaremos esta média amostral para estimar \(\mu\).
Quão útil é esta estimativa que se baseia em apenas 2 elementos da população?
Quão precisa?
Imagine que o aluno \(A\) realiza uma \(AAS_c\) com \(n=2\) a partir da população, obtém os dados e calcula \(\bar{x}\).
O aluno \(B\) realizar uma \(AAS_c\) com \(n=2\) a partir da população, obtém os dados e calcula \(\bar{x}\).
As duas médias amostrais serão necessariamente iguais?
A média amostral é uma v.a. e, portanto, tem uma distribuição de probabilidade.
Todas as combinações possÃveis de valores para o primeiro e para o segundo elemento amostrados segundo o plano \(AAS_c\) com \(n=2\) são:
| Possibilidades | \((X_1=1,X_2=1)\) | \((X_1=1,X_2=2)\) | \((X_1=2,X_2=1)\) | \((X_1=2,X_2=2)\) |
|---|---|---|---|---|
| \(\bar{x}\) | 1 | 1.5 | 1.5 | 2 |
| \(P(X_1=i,X_2=j)\) | 0.25 | 0.25 | 0.25 | 0.25 |
\[\mathbb E(\bar{X})=1\times \frac{1}{4} + 1.5 \times \frac{1}{2} + 2\times \frac{1}{4}=\frac{3}{2}\]
\[ \begin{aligned} Var(\bar{X})&= \mathbb E\left[(\bar{X}-\mathbb E(\bar{X}))^2\right]\\ &=(1-1.5)^2\times \frac{1}{4} + (1.5-1.5)^2\frac{1}{2} + (2-1.5)^2\frac{1}{4}=\frac{1}{8} \end{aligned} \]
Repare que: \(\displaystyle \mathbb E(\bar{X})=\mu=\mathbb E(X)\) e \(\displaystyle Var(\bar{X})=\frac{\sigma^2}{n}=\frac{Var(X)}{n}\)
Distribuição de probabilidade de \(X\) (esquerda) e de \(\bar{X}\) (direita):
Resultado:
Ou seja, embora \(\mu\) seja desconhecido, sabemos que o valor esperado da média amostral é \(\mu\). Além disso, conforme o tamanho amostral aumenta, a imprecisão da média amostral para estimar \(\mu\) fica cada vez menor, pois \(Var(\bar{X})=\sigma^2/n\).
Usando o resultado enunciado anteriormente, temos a esperança e a variância da média amostral \(\bar{X}\): \(\mathbb E(\bar{X})=\mu\) e \(Var(\bar{X})=\frac{\sigma^2}{n}\).
No entanto, para conhecermos a distribuição de probabilidade de \(\bar{X}\), como foi feito no Exemplo*, é preciso conhecer todos os valores possÃveis de \(X\) e suas respectivas probabilidades.
Mas, se conhecermos tudo isso, não precisamos fazer amostragem nem inferência: saberemos tudo o que desejarmos daquela população!
O Exemplo* foi um caso hipotético apenas para demonstrar como a média amostral \(\bar{X}\) se comporta quando realizamos a amostragem.
Na prática, não teremos informações suficientes para de fato descrevermos a distribuição exata de \(\bar{X}\).
Resultado
Para uma amostra aleatória simples \(X_{1},...,X_{n}\) coletada de uma população com média \(\mu\) e variância \(\sigma^{2}\), a distribuição amostral de \(\bar{X}_{n}\) aproxima-se de uma distribuição Normal de média \(\mu\) e variância \(\frac{\sigma^{2}}{n}\), quando \(n\) for suficientemente grande.
Definimos também:
\[Z=\frac{\bar{X}_{n}-\mu}{\sigma / \sqrt{n}} \sim N(0,1)\]
Seja \(X_{1},...,X_{n}\) uma amostra aleatória de tamanho \(n\), sendo \(X_i \sim Exp(2)\):
\[f_{X_{i}}(x)=2e^{-2x}, \qquad x>0\]
Sabemos que \(\mathbb E\left(X_{i}\right)=\frac{1}{2}\) e \(Var\left(X_{i}\right)=\frac{1}{4}\)
Suponha que \(X_{i}\) modela o tempo de vida de um transistor em horas. Os tempos de vida de 100 transistores são coletados. Desejamos estudar a v.a. \(\bar{X}_{100}\) (média amostral de uma amostra de tamanho 100). Sabemos que:
\(\mathbb E\left(\bar{X}_{100}\right)=\frac{1}{2}\) e \(Var\left(\bar{X}_{100}\right)=\frac{1/4}{100}=\frac{1}{400}\)
Pelo TCL, temos que: \[\bar{X}_{n}\sim N\left(\frac{1}{2},\frac{1}{400}\right)\]
\[ \begin{aligned} P\left(\bar{X}_{100} \leq x\right) & = P\left(\frac{\bar{X}_{100}-(1/2)}{(1/2)/\sqrt{100}} \leq \frac{x-(1/2)}{(1/2)/\sqrt{100}}\right) \\ & = P\left(Z \leq 10(2x-1) \right) \end{aligned} \]
\[ \begin{aligned} P\left(\bar{X}_{100} \geq x\right) & = 1 - P\left(\bar{X}_{100} \leq x\right) \\ & = 1 - P\left(\frac{\bar{X}_{100}-(1/2)}{(1/2)/\sqrt{100}} \leq \frac{x-(1/2)}{(1/2)/\sqrt{100}}\right) \\ & = 1 - P\left(Z \leq 10(2x-1) \right) \end{aligned} \]
\(X=\) resultado obtido no lançamento de um dado honesto.
| \(X\) | 1 | 2 | 3 | 4 | 5 | 6 |
|---|---|---|---|---|---|---|
| \(p(x)=P(X=x)\) | \(\frac{1}{6}\) | \(\frac{1}{6}\) | \(\frac{1}{6}\) | \(\frac{1}{6}\) | \(\frac{1}{6}\) | \(\frac{1}{6}\) |
\(\mathbb E(X)=\frac{1}{6}\times(1+2+3+4+5+6)=\frac{21}{6}=3.5\)
\(Var(X)=\frac{1}{6}[(1+4+9+16+25+36)-\frac{1}{6}\times(21)^{2}]=\frac{35}{2}=17.5\)
Se temos uma amostra aleatória simples de tamanho \(n\): \(X_1,X_2,\ldots, X_n\), pelo TCL sabemos que a distribuição amostral de \(\bar{X}_n\) é: \[\bar{X}_n \sim N\left(3.5,\frac{17.5}{n}\right)\]
O primeiro histograma a seguir mostra o resultado de 10000 repetições do seguinte experimento: observar o resultado do lançamento de 1 dado. Repare que é muito próximo de uma distribuição uniforme discreta (chance 1/6 para cada resultado).
O segundo histograma mostra o resultado de 10000 repetições do seguinte experimento: observar a média do lançamento de 2 dados (equivalente a observar a média de 2 lançamentos de um dado).
O último histograma mostra o resultado de 10000 repetições do seguinte experimento: observar a média do lançamento de 100 dados (equivalente a observar a média de 100 lançamentos de um dado).
Repare que conforme o número de dados (tamanho amostral) aumenta, a distribuição da média amostral se aproxima da distribuição normal com média 3.5 e variância cada vez menor (17.5/n).
Você pode verificar o comportamento de \(\bar{X}\) para vários diversas de distribuições de \(X\):
https://nishantsbi.shinyapps.io/CLT_Shiny
Também olhem esse aplicativo em JAVA:
http://socr.ucla.edu/htmls/exp/Sampling_Distribution_CLT_Experiment.html
Utilizando a distribuição exata (n pequeno): \(P\left(\hat{p}=\frac{k}{n}\right)=P\left(\frac{S_{n}}{n}=\frac{k}{n}\right)=P\left(S_{n}=k\right)=\left(\begin{array}{l} n \\ k \\ \end{array}\right)p^{k}\left(1-p\right)^{n-k}\) \(k=0,1,...,n\).
Utilizando a aproximação para a Normal (n grande): \(\hat{p}\sim N\left(p,\frac{p(1-p)}{n}\right)\)
Se \(p\) for a proporção de fumantes no estado de SP, \(p=0.2\) e tivermos coletado uma amostra aleatória simples de 500 indivÃduos: \[ X_{i} = \left\{ \begin{array}{ll} 1, & \mbox{se o indivÃduo i é fumante} \\ 0, & \mbox{caso contrário} \\ \end{array} \right.\]
\(\displaystyle \hat{p}=\frac{1}{500}\sum_{i=1}^{500}X_{i}\)
\(\hat{p}\sim N\left(0.2,\frac{0.2\times0.8}{500}\right)=N\left(0.2,0.00032\right)\)
\(P\left(\hat{p}\leq 0.25\right)= P\left(Z\leq 2.795\right)=\Phi\left(2.795\right)=0.9974\)
Seja \(X\sim Bin(100,0.4)\)