Introdução

Agora apresentaremos os argumentos estatísticos para fazer afirmações sobre as características de uma população, com base em informações dadas por amostras.

Processo de Inferência

Processo de Inferência

Estatísticas e Parâmetros

Definição: Uma estatística é uma característica da amostra, ou seja, uma estatística T é uma função de \(X_1,X_2,...,X_n\).

Definição: Um parâmetro é uma medida usada para descrever uma característica da população.

Métodos para selecionar uma amostra

Distribuições Amostrais

Considere o seguinte procedimento:

Distribuição amostral

Distribuição amostral

Exemplo

  • Considere uma população formada pelos elementos: {1, 2, 4, 5}. Desta população temos os seguintes valores para os parâmetros:

\[\mu=(1+2+4+5)/4=12/4=3\] \[\sigma^2=((1-3)^2+(2-3)^2+(4-3)^2+(5-3)^2)/4=2,5\] - Agora vamos obter todas as amostras possíveis de tamanho 2 e calcular a média e a variância:

Amostragem Elemento 1 Elemento 2 Média
Amostra 1 1 2 1,5
Amostra 2 1 4 2,5
Amostra 3 1 5 3,0
Amostra 4 2 1 1,5
Amostra 5 2 4 3,0
Amostra 6 2 5 3,5
Amostra 7 4 1 2,5
Amostra 8 4 2 3,0
Amostra 9 4 5 4,5
Amostra 10 5 1 3,0
Amostra 11 5 2 3,5
Amostra 12 5 4 4,5
Amostra 13 1 1 1,0
Amostra 14 2 2 2,0
Amostra 15 4 4 4,0
Amostra 16 5 5 5,0
  • Calculando a média e a variância da nossa nova variável aleatória \((\bar{X})\):

1,5 2,5 3,0 1,5 3,0 3,5 2,5 3,0 4,5 3,0 3,5 4,5 1,0 2,0 4,0 5,0

\[\mu_\bar{X} =(1,5+2,5+\cdots+5,0)/16=48/16=3,0\]

\[\sigma_\bar{X}^2=((1,5-3)^2+(2,5-3)^2+\cdots+(5-3)^2)/20=1,25\] - Note que a média de v.a. \(\bar{X}\) é igual a média da população \(\mu\).

  • A variância populacional \(\sigma^2\) dividida pelo tamanho de cada amostra \(n=2\) é igual a variância de \(\bar{X}\): \(\sigma^2/n=2,5/2=1,25=\sigma_{\bar{X}}^2\).

  • Podemos construir o histograma para amostras de tamanho 2 (conforme este exemplo), e outros diferentes tamanhos:

Vamos ao R

pop <- c(1, 2, 4, 5)

sel <- expand.grid(pop, pop)
sel
##    Var1 Var2
## 1     1    1
## 2     2    1
## 3     4    1
## 4     5    1
## 5     1    2
## 6     2    2
## 7     4    2
## 8     5    2
## 9     1    4
## 10    2    4
## 11    4    4
## 12    5    4
## 13    1    5
## 14    2    5
## 15    4    5
## 16    5    5
media_amostral <- apply(sel, 1, mean)

hist(media_amostral,
     main=paste('n =',ncol(sel)))

Exemplo:

  • Vamos supor que temos um população referente a quantidade de acidentes por minutos em uma certa avenida.
set.seed(19)
pop <- rpois(n = 6, lambda = 8)
pop
## [1] 5 8 9 4 7 6
  • Selecionando todas as amostras possíveis de tamanho 4
sel <- expand.grid(pop, pop, pop, pop)
head(sel)
##   Var1 Var2 Var3 Var4
## 1    5    5    5    5
## 2    8    5    5    5
## 3    9    5    5    5
## 4    4    5    5    5
## 5    7    5    5    5
## 6    6    5    5    5
  • Calculando a média para cada amostra
media_amostral <- apply(sel, 1, mean)
  • Esboçando o gráfico da distribuição amostral da média
hist(media_amostral,
     main=paste('n =',ncol(sel)))

  • Note que a média, da distribuição amostral da média, é igual a média da população
mean(media_amostral)
## [1] 6.5
mean(pop)
## [1] 6.5

Corolário: Se \((X_1,X_2,...,X_n)\) for uma amostra aleatória simples da população X, com média \(\mu\) e variância \(\sigma^2\) finita, e \(\bar{X} = (X_1,X_2,...,X_n)/n\), então:

\[Z = \frac{\bar{X}-\mu}{\sigma^{2}/\sqrt{n}} \sim N(0,1)\]

  • Aplicação ao nosso exemplo anterior
mu = mean(pop)
sigma2 = var(pop)
n = 4

Z = ( media_amostral-mu )/( sigma2/sqrt(n) )

hist(Z, main="N(0,1)")

Intervalo de Confiança

Intervalo de Confiança para \(\mu\) com variância conhecida

\[Z = \frac{\bar{X}-\mu}{\sigma/\sqrt{n}} \sim N(0,1)\]

Queremos construir um intervalo de confiança da forma:

\[P(-z_{(\alpha/2)} \leq Z \leq z_{(\alpha/2)} )=1-\alpha\] O valor \(z_{(\alpha/2)}\) pode ser obtido de uma distribuição Normal Padrão, N(0,1).

\[IC(\mu;1-\alpha) = \left(\bar{X} - z_{(\alpha/2)}\sigma/\sqrt{n}; \bar{X} + z_{(\alpha/2)}\sigma/\sqrt{n}\right)\] Chamamos \(\varepsilon = z_{(\alpha/2)}\sigma/\sqrt{n}\) de o erro amostral.

Exemplo:

  • O projetista de uma indústria tomou uma amostra de 36 funcionários para verificar o tempo médio gasto (minutos) para montar um determinado brinquedo.
##  [1] 19 19 24 19 10 17 23 23 14 12 28 20 23 19 19 21 20 17 15 23 21 20 20
## [24] 22 28 26 27 25 19 17 20 19 16 22 19 13
  • De acordo com estudos anteriores e conhecimento dos pesquisadores tem-se que \(\sigma = 5,73\).

  • Pede-se, construir um intervalo de confiança de nível \(95\%\) para a média populacional \(\mu\).

  • Passo 1) Determinar o quantl \((z_{\alpha/2})\) da distribuição normal padrão N(0,1)

alpha = 0.05
zc <- qnorm(p = 1-alpha/2,
             mean = 0,
             sd = 1)
zc
## [1] 1.959964
  • Passo 2) Calcular o erro amostral: \(\varepsilon = z_{(\alpha/2)}\sigma/\sqrt{n}\)
sigma = 5.73
n = 36

erro <- zc*sigma/sqrt(n)
erro
## [1] 1.871766
  • Passo 3) Construir o intervalo para \(\mu\) com \(95\%\) de confiança
media = mean(tempo)

media - erro
## [1] 18.10046
media + erro
## [1] 21.84399

Com uma confiança de \(95\%\), o tempo médio populacional gasto para montar um brinquedo encontra-se entre 18,10 e 21,84.

  • Uma forma mais simples
require(TeachingDemos)
## Loading required package: TeachingDemos
## Warning: package 'TeachingDemos' was built under R version 3.5.1
z.test(tempo,
       mu = media,
       stdev = sigma,
       conf.level = 0.95)
## 
##  One Sample z-test
## 
## data:  tempo
## z = 0, n = 36.000, Std. Dev. = 5.730, Std. Dev. of the sample mean
## = 0.955, p-value = 1
## alternative hypothesis: true mean is not equal to 19.97222
## 95 percent confidence interval:
##  18.10046 21.84399
## sample estimates:
## mean of tempo 
##      19.97222

Intervalo de Confiança para \(\mu\) com variância desconhecida

\[T = \frac{\bar{X}-\mu}{S/\sqrt{n}} \sim t_(n-1)\] - A variável T tem distribuição t de Student com \(n-1\) graus de liberdade.

Queremos construir um intervalo de confiança da forma:

\[P(-t_{n-1;\alpha/2} \leq T \leq t_{n-1;\alpha/2} )=1-\alpha\] O valor \(t_{(\alpha/2)}\) pode ser obtido de uma distribuição t-Student com \(n-1\) graus de liberdade.

\[IC(\mu;1-\alpha) = \left(\bar{X} - t_{(n-1;\alpha/2)}S/\sqrt{n}; \bar{X} + t_{(n-1;\alpha/2)}S/\sqrt{n}\right)\]

Chamamos \(\varepsilon = t_{(n-1;\alpha/2)}S/\sqrt{n}\) de o erro amostral.

Aplicação: Diâmetro de árvores castanheiras

A seguir encontra-se uma amostra de 10 árvores castanheiras todas com 8 anos de idade numa certa floresta. O diâmetro (polegadas) das árvores foram medidos à uma altura de 3 pés:

\[ 19.4 ~~~ 21.4 ~~~ 22.3~~~ 22.1~~~ 20.1~~~ 23.8 ~~~ 24.6 ~~~ 19.9 ~~~ 21.5~~~ 19.1\]

diametro <- c(19.4, 21.4, 22.3, 22.1, 23.8, 24.6, 19.9, 21.5, 19.1)

Com base neste dados, construa um intervalo com \(95\%\) de confiança

  • Passo 1) Determinar o quantl \((t_{\alpha/2})\) da distribuição t-Student com n-1 graus de liberdade
alpha = 0.05
n = length(diametro)
n
## [1] 9
tc <- qt(p = 1-alpha/2,
         df = n-1)

tc
## [1] 2.306004
  • Passo 2) Calcular o erro amostral: \(\varepsilon = t_{(\alpha/2)}S/\sqrt{n}\)
S = sd(diametro)

erro <- tc*S/sqrt(n)
erro
## [1] 1.453372
  • Passo 3) Construir o intervalo para \(\mu\) com \(95\%\) de confiança
media = mean(diametro)

media - erro
## [1] 20.11329
media + erro
## [1] 23.02004

Com uma confiança de \(95\%\), o diâmetro médio da população da qual a amostra foi retirada encontra-se entre 20.11 e 23.02.

  • Uma forma mais simples
t.test(diametro,
       conf.level = 0.95)
## 
##  One Sample t-test
## 
## data:  diametro
## t = 34.219, df = 8, p-value = 5.814e-10
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  20.11329 23.02004
## sample estimates:
## mean of x 
##  21.56667

Resolva

Foram realizados testes glicêmicos em 25 pacientes após um jejum de 8 horas. Os resultados são apresentados na tabela abaixo.

\[80 ~~~ 118 ~~~ 100 ~~~ 90 ~~~ 83\] \[117 ~~~ 95 ~~~ 84 ~~~ 102 ~~~ 80\] \[112 ~~~78 ~~~102 ~~~121 ~~~ 82\] \[77 ~~~88 ~~~73 ~~~104 ~~~88\] \[132 ~~~91 ~~~103 ~~~140 ~~~101\]

glic <- c(80,    118,   100,    90,   83,
          117, 95,  84,     102,    80,
          112, 78,  102,    121,    82,
           77, 88,  73,     104,    88,
          132, 91,  103,    140,    101)
  1. Realize uma análise exploratória (“namore os dados”): medidas descritivas e gráficos.
summary(glic)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   73.00   83.00   95.00   97.64  104.00  140.00
sd(glic)
## [1] 17.82059
hist(glic, col='purple')

  1. Encontrar um intervalo de confiança de nível $ 95% $ para a média $ $. Interprete.
t.test(glic,
       conf.level = 0.95)
## 
##  One Sample t-test
## 
## data:  glic
## t = 27.395, df = 24, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##   90.28402 104.99598
## sample estimates:
## mean of x 
##     97.64

Com \(95\%\) de confiança, a média populacional para os níveis de glicose desta amostra encontra-se entre 90,284 (mg/dL) e 104,996 90.284 (mg/dL)

Intervalo de confiança para Proporção

Temos que: \[\hat{p} \sim N\left(p; \frac{p(1-p)}{n}\right)\] Observemos que a variância de \(\hat{p}\) depende do parâmetro desconhecido p. No entanto, pelo fato de n ser grande, podemos substituir \(p\) por \(\hat{p}\). Com isso temos que \[Z = \left(\frac{\hat{p} - p}{\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}}\right) \sim N(0,1)\] Considerando o mesmo procedimento de montagem do intervalo para a média, construímos o intervalo com \(100(1 -\alpha)\%\) de confiança para a proporção p:

\[IC(p;1-\alpha) = \left(\hat{p} - z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}; ~~\hat{p} + z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\right)\] Neste caso o erro amostral é dada por: \(\varepsilon = z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\).

Exemplo:

Numa amostra aleatória de tamanho n=700 foram encontrados 68 elementos defeituosos. Achar um intervalo de confiança de nível \(95\%\) para a proporção p de defeituosos.

  • Passo 1) Determinar o quantl \((z_{\alpha/2})\) da distribuição normal padrão N(0,1)
alpha = 0.05
zc <- qnorm(p = 1-alpha/2,
             mean = 0,
             sd = 1)
zc
## [1] 1.959964
  • Passo 2) Calcular o erro amostral:
p = 68/700
n = 700

erro <- zc*sqrt( p*(1-p)/n  )
erro
## [1] 0.02193886
  • Passo 3) Construir o intervalo para \(p\) com \(95\%\) de confiança
p - erro
## [1] 0.075204
p + erro
## [1] 0.1190817

Com uma confiança de \(95\%\), a proporção populacional de elementos defeituosos encontra-se entre \(7,5%\) e \(11,9%\).

  • Uma forma mais simples, porém com uma correção:

O intervalo de confiança para proporção p com correção de continuidade, é dado por:

\[IC(p,1-\alpha)=\left(\hat{p}_c-Z_{\alpha/2}\sqrt{\frac{\hat{p}_c(1-\hat{p}_c)}{n}},\hat{p}_c+Z_{\alpha/2}\sqrt{\frac{\hat{p}_c(1-\hat{p}_c)}{n}}\right).\]

prop.test(x = 68,
          n = 700,
          conf.level = 0.95)
## 
##  1-sample proportions test with continuity correction
## 
## data:  68 out of 700, null probability 0.5
## X-squared = 452.81, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
##  0.0767133 0.1221119
## sample estimates:
##          p 
## 0.09714286

Resolva:

Amostra do PNAD: No ano de 2015 foi realizada na região Centro-Oeste uma Pesquisa Nacional por Amostra de Domicílios (PNAD). Nesta pesquisa foi coleta uma amostra de 5215 domicílios. Destes domicílios, 2684 não possuíam microcomputadores.

Construa um intervalo, ao nível de \(95\%\) de confiança, para a proporção populacional dos domicílios da região Centro-Oeste que não possuíam computadores no ano de 2015. Interprete o resultado.

  • Para resolver este problema, utilize a função prop.test do programa R.
prop.test(x = 2684,
          n = 5215,
          conf.level = 0.95)
## 
##  1-sample proportions test with continuity correction
## 
## data:  2684 out of 5215, null probability 0.5
## X-squared = 4.4303, df = 1, p-value = 0.03531
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
##  0.5010030 0.5283137
## sample estimates:
##         p 
## 0.5146692

Com uma confiança de \(95\%\),a proporção populacional dos domicílios da região Centro-Oeste que não possuíam computadores no ano de 2015, encontrou-se entre \(50,01\%\) e \(52,8\%\).