Vimos como resumir descritivamente variáveis associadas a um ou mais conjuntos de dados.
Em seguida, construímos modelos teóricos (probabilísticos), identificados por parâmetros, capazes de representar adequadamente o comportamento de algumas variáveis.
Agora apresentaremos os argumentos estatísticos para fazer afirmações sobre as características de uma população, com base em informações dadas por amostras.
Processo de Inferência
Obtida uma amostra, muitas vezes desejamos usá-la para produzir alguma característica específica. Por exemplo, se quisermos calcular a média da amostra \((X_1,X_2,...,X_n)\), esta será dada por: \(\bar{X}=1/n{X_1+X_2+???+X_n}\)
Tem-se que \(\bar{X}\) é também uma variável aleatória. Podemos também estar interessados em qualquer outra característica da amostra, que será sempre uma função do vetor aleatório \((X_1,X_2,...,X_n)\).
Definição: Uma estatística é uma característica da amostra, ou seja, uma estatística T é uma função de \(X_1,X_2,...,X_n\).
Definição: Um parâmetro é uma medida usada para descrever uma característica da população.
Amostra Aleatória Simples: Seleciona um indivíduo de forma aleatória dentre N indivíduos.
Outros métodos: Amostra Sistemática; Por Conglomerado; dentre outros.
Considere o seguinte procedimento:
Distribuição amostral
\[\mu=(1+2+4+5)/4=12/4=3\] \[\sigma^2=((1-3)^2+(2-3)^2+(4-3)^2+(5-3)^2)/4=2,5\] - Agora vamos obter todas as amostras possíveis de tamanho 2 e calcular a média e a variância:
Amostragem | Elemento 1 | Elemento 2 | Média |
---|---|---|---|
Amostra 1 | 1 | 2 | 1,5 |
Amostra 2 | 1 | 4 | 2,5 |
Amostra 3 | 1 | 5 | 3,0 |
Amostra 4 | 2 | 1 | 1,5 |
Amostra 5 | 2 | 4 | 3,0 |
Amostra 6 | 2 | 5 | 3,5 |
Amostra 7 | 4 | 1 | 2,5 |
Amostra 8 | 4 | 2 | 3,0 |
Amostra 9 | 4 | 5 | 4,5 |
Amostra 10 | 5 | 1 | 3,0 |
Amostra 11 | 5 | 2 | 3,5 |
Amostra 12 | 5 | 4 | 4,5 |
Amostra 13 | 1 | 1 | 1,0 |
Amostra 14 | 2 | 2 | 2,0 |
Amostra 15 | 4 | 4 | 4,0 |
Amostra 16 | 5 | 5 | 5,0 |
1,5 2,5 3,0 1,5 3,0 3,5 2,5 3,0 4,5 3,0 3,5 4,5 1,0 2,0 4,0 5,0
\[\mu_\bar{X} =(1,5+2,5+\cdots+5,0)/16=48/16=3,0\]
\[\sigma_\bar{X}^2=((1,5-3)^2+(2,5-3)^2+\cdots+(5-3)^2)/20=1,25\] - Note que a média de v.a. \(\bar{X}\) é igual a média da população \(\mu\).
A variância populacional \(\sigma^2\) dividida pelo tamanho de cada amostra \(n=2\) é igual a variância de \(\bar{X}\): \(\sigma^2/n=2,5/2=1,25=\sigma_{\bar{X}}^2\).
Podemos construir o histograma para amostras de tamanho 2 (conforme este exemplo), e outros diferentes tamanhos:
pop <- c(1, 2, 4, 5)
sel <- expand.grid(pop, pop)
sel
## Var1 Var2
## 1 1 1
## 2 2 1
## 3 4 1
## 4 5 1
## 5 1 2
## 6 2 2
## 7 4 2
## 8 5 2
## 9 1 4
## 10 2 4
## 11 4 4
## 12 5 4
## 13 1 5
## 14 2 5
## 15 4 5
## 16 5 5
media_amostral <- apply(sel, 1, mean)
hist(media_amostral,
main=paste('n =',ncol(sel)))
set.seed(19)
pop <- rpois(n = 6, lambda = 8)
pop
## [1] 5 8 9 4 7 6
sel <- expand.grid(pop, pop, pop, pop)
head(sel)
## Var1 Var2 Var3 Var4
## 1 5 5 5 5
## 2 8 5 5 5
## 3 9 5 5 5
## 4 4 5 5 5
## 5 7 5 5 5
## 6 6 5 5 5
media_amostral <- apply(sel, 1, mean)
hist(media_amostral,
main=paste('n =',ncol(sel)))
mean(media_amostral)
## [1] 6.5
mean(pop)
## [1] 6.5
Corolário: Se \((X_1,X_2,...,X_n)\) for uma amostra aleatória simples da população X, com média \(\mu\) e variância \(\sigma^2\) finita, e \(\bar{X} = (X_1,X_2,...,X_n)/n\), então:
\[Z = \frac{\bar{X}-\mu}{\sigma^{2}/\sqrt{n}} \sim N(0,1)\]
mu = mean(pop)
sigma2 = var(pop)
n = 4
Z = ( media_amostral-mu )/( sigma2/sqrt(n) )
hist(Z, main="N(0,1)")
Um intervalo de confiança (IC) é um intervalo estimado de um parâmetro de interesse de uma população. Em vez de estimar o parâmetro por um único valor, é dado um intervalo de estimativas prováveis.
O quanto estas estimativas são prováveis será determinado pelo coeficiente de confiança \((1-\alpha)\), para \(\alpha \in (0,1)\).
Nível de Significância: \(\alpha\)
Suponha que queiramos estimar a média \(\mu\) de uma população com distribuição normal com variância \(\sigma^2\) conhecida.
O estimador de máxima verossimilhança para a média populacional \(\mu\) é dado pela média amostral \(\bar{X}\) de uma amostra de tamanho n. Assim, temos a seguinte quantidade pivotal:
\[Z = \frac{\bar{X}-\mu}{\sigma/\sqrt{n}} \sim N(0,1)\]
Queremos construir um intervalo de confiança da forma:
\[P(-z_{(\alpha/2)} \leq Z \leq z_{(\alpha/2)} )=1-\alpha\] O valor \(z_{(\alpha/2)}\) pode ser obtido de uma distribuição Normal Padrão, N(0,1).
\[IC(\mu;1-\alpha) = \left(\bar{X} - z_{(\alpha/2)}\sigma/\sqrt{n}; \bar{X} + z_{(\alpha/2)}\sigma/\sqrt{n}\right)\] Chamamos \(\varepsilon = z_{(\alpha/2)}\sigma/\sqrt{n}\) de o erro amostral.
## [1] 19 19 24 19 10 17 23 23 14 12 28 20 23 19 19 21 20 17 15 23 21 20 20
## [24] 22 28 26 27 25 19 17 20 19 16 22 19 13
De acordo com estudos anteriores e conhecimento dos pesquisadores tem-se que \(\sigma = 5,73\).
Pede-se, construir um intervalo de confiança de nível \(95\%\) para a média populacional \(\mu\).
Passo 1) Determinar o quantl \((z_{\alpha/2})\) da distribuição normal padrão N(0,1)
alpha = 0.05
zc <- qnorm(p = 1-alpha/2,
mean = 0,
sd = 1)
zc
## [1] 1.959964
sigma = 5.73
n = 36
erro <- zc*sigma/sqrt(n)
erro
## [1] 1.871766
media = mean(tempo)
media - erro
## [1] 18.10046
media + erro
## [1] 21.84399
Com uma confiança de \(95\%\), o tempo médio populacional gasto para montar um brinquedo encontra-se entre 18,10 e 21,84.
require(TeachingDemos)
## Loading required package: TeachingDemos
## Warning: package 'TeachingDemos' was built under R version 3.5.1
z.test(tempo,
mu = media,
stdev = sigma,
conf.level = 0.95)
##
## One Sample z-test
##
## data: tempo
## z = 0, n = 36.000, Std. Dev. = 5.730, Std. Dev. of the sample mean
## = 0.955, p-value = 1
## alternative hypothesis: true mean is not equal to 19.97222
## 95 percent confidence interval:
## 18.10046 21.84399
## sample estimates:
## mean of tempo
## 19.97222
Tendo os conceitos básicos sobre intervalos de confiança, vamos agora tratar uma situação mais realista: quando a variância \(\sigma^2\) da população é desconhecida.
Consideremos uma amostra aleatória simples \(X_1,X_2,.,X_n\), obtida de uma população com distribuição normal, com média \(\mu\) e variância \(\sigma^2\) desconhecidas.
Como neste caso a variância é desconhecida, utilizaremos a variância amostral \(S^2\) no lugar de \(\sigma^2\). Assim, temos que
\[T = \frac{\bar{X}-\mu}{S/\sqrt{n}} \sim t_(n-1)\] - A variável T tem distribuição t de Student com \(n-1\) graus de liberdade.
Queremos construir um intervalo de confiança da forma:
\[P(-t_{n-1;\alpha/2} \leq T \leq t_{n-1;\alpha/2} )=1-\alpha\] O valor \(t_{(\alpha/2)}\) pode ser obtido de uma distribuição t-Student com \(n-1\) graus de liberdade.
\[IC(\mu;1-\alpha) = \left(\bar{X} - t_{(n-1;\alpha/2)}S/\sqrt{n}; \bar{X} + t_{(n-1;\alpha/2)}S/\sqrt{n}\right)\]
Chamamos \(\varepsilon = t_{(n-1;\alpha/2)}S/\sqrt{n}\) de o erro amostral.
A seguir encontra-se uma amostra de 10 árvores castanheiras todas com 8 anos de idade numa certa floresta. O diâmetro (polegadas) das árvores foram medidos à uma altura de 3 pés:
\[ 19.4 ~~~ 21.4 ~~~ 22.3~~~ 22.1~~~ 20.1~~~ 23.8 ~~~ 24.6 ~~~ 19.9 ~~~ 21.5~~~ 19.1\]
diametro <- c(19.4, 21.4, 22.3, 22.1, 23.8, 24.6, 19.9, 21.5, 19.1)
Com base neste dados, construa um intervalo com \(95\%\) de confiança
alpha = 0.05
n = length(diametro)
n
## [1] 9
tc <- qt(p = 1-alpha/2,
df = n-1)
tc
## [1] 2.306004
S = sd(diametro)
erro <- tc*S/sqrt(n)
erro
## [1] 1.453372
media = mean(diametro)
media - erro
## [1] 20.11329
media + erro
## [1] 23.02004
Com uma confiança de \(95\%\), o diâmetro médio da população da qual a amostra foi retirada encontra-se entre 20.11 e 23.02.
t.test(diametro,
conf.level = 0.95)
##
## One Sample t-test
##
## data: diametro
## t = 34.219, df = 8, p-value = 5.814e-10
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## 20.11329 23.02004
## sample estimates:
## mean of x
## 21.56667
Foram realizados testes glicêmicos em 25 pacientes após um jejum de 8 horas. Os resultados são apresentados na tabela abaixo.
\[80 ~~~ 118 ~~~ 100 ~~~ 90 ~~~ 83\] \[117 ~~~ 95 ~~~ 84 ~~~ 102 ~~~ 80\] \[112 ~~~78 ~~~102 ~~~121 ~~~ 82\] \[77 ~~~88 ~~~73 ~~~104 ~~~88\] \[132 ~~~91 ~~~103 ~~~140 ~~~101\]
glic <- c(80, 118, 100, 90, 83,
117, 95, 84, 102, 80,
112, 78, 102, 121, 82,
77, 88, 73, 104, 88,
132, 91, 103, 140, 101)
summary(glic)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 73.00 83.00 95.00 97.64 104.00 140.00
sd(glic)
## [1] 17.82059
hist(glic, col='purple')
t.test(glic,
conf.level = 0.95)
##
## One Sample t-test
##
## data: glic
## t = 27.395, df = 24, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## 90.28402 104.99598
## sample estimates:
## mean of x
## 97.64
Com \(95\%\) de confiança, a média populacional para os níveis de glicose desta amostra encontra-se entre 90,284 (mg/dL) e 104,996 90.284 (mg/dL)
Temos que: \[\hat{p} \sim N\left(p; \frac{p(1-p)}{n}\right)\] Observemos que a variância de \(\hat{p}\) depende do parâmetro desconhecido p. No entanto, pelo fato de n ser grande, podemos substituir \(p\) por \(\hat{p}\). Com isso temos que \[Z = \left(\frac{\hat{p} - p}{\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}}\right) \sim N(0,1)\] Considerando o mesmo procedimento de montagem do intervalo para a média, construímos o intervalo com \(100(1 -\alpha)\%\) de confiança para a proporção p:
\[IC(p;1-\alpha) = \left(\hat{p} - z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}; ~~\hat{p} + z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\right)\] Neste caso o erro amostral é dada por: \(\varepsilon = z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\).
Numa amostra aleatória de tamanho n=700 foram encontrados 68 elementos defeituosos. Achar um intervalo de confiança de nível \(95\%\) para a proporção p de defeituosos.
alpha = 0.05
zc <- qnorm(p = 1-alpha/2,
mean = 0,
sd = 1)
zc
## [1] 1.959964
p = 68/700
n = 700
erro <- zc*sqrt( p*(1-p)/n )
erro
## [1] 0.02193886
p - erro
## [1] 0.075204
p + erro
## [1] 0.1190817
Com uma confiança de \(95\%\), a proporção populacional de elementos defeituosos encontra-se entre \(7,5%\) e \(11,9%\).
O intervalo de confiança para proporção p com correção de continuidade, é dado por:
\[IC(p,1-\alpha)=\left(\hat{p}_c-Z_{\alpha/2}\sqrt{\frac{\hat{p}_c(1-\hat{p}_c)}{n}},\hat{p}_c+Z_{\alpha/2}\sqrt{\frac{\hat{p}_c(1-\hat{p}_c)}{n}}\right).\]
prop.test(x = 68,
n = 700,
conf.level = 0.95)
##
## 1-sample proportions test with continuity correction
##
## data: 68 out of 700, null probability 0.5
## X-squared = 452.81, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.0767133 0.1221119
## sample estimates:
## p
## 0.09714286
Amostra do PNAD: No ano de 2015 foi realizada na região Centro-Oeste uma Pesquisa Nacional por Amostra de Domicílios (PNAD). Nesta pesquisa foi coleta uma amostra de 5215 domicílios. Destes domicílios, 2684 não possuíam microcomputadores.
Construa um intervalo, ao nível de \(95\%\) de confiança, para a proporção populacional dos domicílios da região Centro-Oeste que não possuíam computadores no ano de 2015. Interprete o resultado.
prop.test(x = 2684,
n = 5215,
conf.level = 0.95)
##
## 1-sample proportions test with continuity correction
##
## data: 2684 out of 5215, null probability 0.5
## X-squared = 4.4303, df = 1, p-value = 0.03531
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.5010030 0.5283137
## sample estimates:
## p
## 0.5146692
Com uma confiança de \(95\%\),a proporção populacional dos domicílios da região Centro-Oeste que não possuíam computadores no ano de 2015, encontrou-se entre \(50,01\%\) e \(52,8\%\).