aula_script

Edgar

28/07/2020

O que é a estatística ?

Para muitos, a estatística não passa de conjuntos de tabelas de dados numéricos. Os estatísticos são pessoas que coletam esses dados.

A estatística originou-se com a coleta e construção de tabelas de dados para os governos A situação evoluiu e esta coleta de dados representa somente um dos aspectos da estatística.

Áreas da Estatística

ESTATÍSTICA DESCRITIVA

A estatística descritiva é a etapa inicial da análise utilizada para descrever e resumir os dados.

A disponibilidade de uma grande quantidade de dados e de métodos computacionais muito eficientes revigorou está área da estatística.

Exemplo no R

ph = c(4,5,6,5,4,6,7,5,6,7,8)
media = mean(ph) ; media
## [1] 5.727273
mediana = median(ph); mediana
## [1] 6
variancia = var(ph); variancia
## [1] 1.618182
desvio = sd(ph); desvio
## [1] 1.272078

Exemplo no R

minimo = min(ph); minimo
## [1] 4
maximo = max(ph); maximo
## [1] 8
soma = sum(ph); soma
## [1] 63
produto = prod(ph); produto
## [1] 169344000
quartil = quantile(ph,0.25); quartil
## 25% 
##   5

PROBABILIDADE

A teoria de probabilidades nos permite descrever os fenômenos aleatórios, ou seja, aqueles em que está presente a incerteza.

A probabilidade de 90% significa que se um experimento fosse refeito 100 vezes, em 90 vezes os resultados são os esperados. \[ P(x_i)= \frac{n_0}{\Omega} \] Onde \(n_0\) é o evento e \(\Omega\) é o espaço amostral.

Exemplo no R

library(graphics)
x1  = rnorm(400, 10,2)
hist(x1,main="Histograma de dados normais")

par(new=T)
# curve(dnorm(x1),0,20,lwd=3,col=2)

Exemplo no R

Veja mais exemplo.

INFERENCIA ESTATISTICA

E o estudo de técnicas que possibilitam a extrapolação, a um grande conjunto de dados, das informações e conclusões obtidas a partir da amostra.

Exemplo no R

x1 = c(10,11,12,13,14.4,15.5,16)
mean(x1)
## [1] 13.12857
y1 = c(7 ,9 ,11,13,15,17,18)
mean(y1)
## [1] 12.85714

Teste de hipóteses

Exemplo no R

## teste de comparação
t.test(x1,y1)
## 
##  Welch Two Sample t-test
## 
## data:  x1 and y1
## t = 0.15313, df = 9.3785, p-value = 0.8815
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -3.713678  4.256535
## sample estimates:
## mean of x mean of y 
##  13.12857  12.85714

Etapas em uma análise Estatística

Anova

Variáveis

Lembrando que no R as variáveis Qualitativas são denominadas de caractere(crt) ou fator(Factor) e as variáveis Quantitativas são denominadas de inteiro(int) ou número(num).

Medidas de tendência central

\[\bar{x} = \frac{ \sum{x_i} }{n}\] \[\bar{x} = \frac{ x_1 +x_2 +x_3 +... + x_n }{n}\]

Exemplo

amostra = {12,14,15,19,21} \[\bar{amostra} = \frac{12+14+15+19+21}{5}=\frac{81}{5}=16,5\]

Medidas de tendência central

Temos que fazer a média aritmética entre os dois elementos centrais. \[md = \frac{x_3+x_4}{2}=\frac{17+19}{2}=\]

A mediana é o elemento central md=19

Medidas de tendência central

Quem é a moda?

Medidas de dispersão

\({12,16,17,19,20,21}\)

O mínimo é 12 e o máximo é 21, então a amplitude é: \(H= 21 -12 = 9\)

Medidas de dispersão

Exemplo \({12,16,17,19,20,21}\) A média é 17,5, assim temos:

\[soma = (12-17,5)^2 + (16-17,5)^2 +(17-17,5)^2\] \[ +(19-17,5)^2 +(20-17,5)^2 +(21-17,5)^2 + \] Assim temos: \[soma = (-5,5)^2 + (-1,5)^2 +(0,5)^2+(1,5)^2+(2,5)^2+(3,5)^2\] Calculando temos:

\[var=\frac{soma}{5}=\]

Medidas de dispersão

\[S = \sqrt{var}= \sqrt{\frac{ \sum(x_i - \bar{x})^2}{n-1}}\]

\[S= \sqrt{\frac{53,5}{5}}=\sqrt{10,7}= 3,27\]

Vamos fazer juntos

\[ media =\]

\[ var =\]

\[ S= \]

Medidas de dispersão

##  a amostra é { 4 5 6 7 8 }
##  a média é = 6
##  O desvio padrão é = 1.581139
##  O coeficiente de variação é = 26.35231

Quartil, decil e percentil

Representa a divisão da amostra em espaços iguais da amplitude.

Quartil, decil e percentil

Quartil, decil e percentil

Tabelas de frequências

Exemplo

Exemplo

exemplo

library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
dados <- c(18,19,19,19,19,19,19,19,
           19,20,20,22,22,22,23,
           24,24,24,26,26,30,32)
tabela <- data.frame(t(table(dados)))[,-1]

Exemplo

tabela$dados <- as.numeric(levels(tabela$dados))
tabela <- tabela %>% 
  mutate(Fr = 100*Freq/sum(Freq),
         Fac = cumsum(Freq),
         Xi.Fi = dados*Freq)
round(tabela,2)
##   dados Freq    Fr Fac Xi.Fi
## 1    18    1  4.55   1    18
## 2    19    8 36.36   9   152
## 3    20    2  9.09  11    40
## 4    22    3 13.64  14    66
## 5    23    1  4.55  15    23
## 6    24    3 13.64  18    72
## 7    26    2  9.09  20    52
## 8    30    1  4.55  21    30
## 9    32    1  4.55  22    32

Exemplo

hist(dados,nclass = 5)

Boxplot

O BOXPLOT representa os dados através de um retângulo construído com os quartis e fornece informação sobre valores extremos. (veja o esquema embaixo)

Exemplo