Motivação

Um Engenheiro Agrícola, com o objetivo de verificar qual tipo de pneu que proporciona menor consumo de combustível, para trabalhar em terrenos encharcados, testou 4 diferentes tipos de pneus. Como a área que dispunha para realizar o experimento era heterogênea com relação a declividade, ele subdividiu a área total em 3 sub-áreas de tal forma que dentro de cada uma delas existia uniformidade com relação a declividade. Após isso, dentro de cada sub-área realizou um sorteio ao acaso, dos tipos de pneus às unidade experimentais. Com a realização da pesquisa, obtiveram-se os resultados de consumo, expressos em litros/hora trabalhada.

rm(list=ls())
setwd("C:/Users/Carol/Dropbox/UFGD/2019.01_Disciplinas/Topicos de Estatistica/3_Aula")

Entrando com os dados

dados <- read.csv2("pneus.csv", header=T)
Blocos Pneu Consumo
Bl1 Tipo1 30
Bl1 Tipo2 32
Bl1 Tipo3 33
Bl1 Tipo4 35
Bl2 Tipo1 29
Bl2 Tipo2 30
Bl2 Tipo3 31
Bl2 Tipo4 33
Bl3 Tipo1 25
Bl3 Tipo2 26
Bl3 Tipo3 30
Bl3 Tipo4 31

Medidas de Posição e de Variabilidade

consumo <- dados$Consumo
class(consumo) #Tipo da variável
## [1] "integer"

média

\[ \bar{x} = \frac{\displaystyle\sum_{i=1}^{n}x_{i}}{n} \]

  • Quantidade de observações:
n_cons <- length(consumo)
n_cons
## [1] 12
  • Soma da variável resposta:
sum_cons <- sum(consumo)
sum_cons
## [1] 365
  • A média:
mu_cons <- sum_cons/n_cons
mu_cons
## [1] 30.41667
  • Média: Usando a função mean
mean(consumo)
## [1] 30.41667

Mediana

  • A mediana de um conjunto de dados é o valor central quando os dados são organizados em ordem crescente.

  • Sempre que um conjunto de dados tiver valores extremos, a mediana é a medida de posição central preferida.

  • A mediana é a medida de posição mais frequentemente utilizada para dados de renda anual e valor patrimonial.

Consideremos, agora, as observações ordenadas em ordem crescente. Vamos denotar a menor observação por \(x_{(1)}\), a segunda por \(x_{(2)}\), e assim por diante, obtendo-se: \(x_{(1)} \leq x_{(2)} \leq \cdots \leq x_{(n)}\)

  • Estas observações ordenadas são denominadas de Estatística de Ordem. Assim, com esta notação, a mediana para a variável X é determinada da seguinte forma:

  • \(md(X)= X_{((n+1)/2)}\), se n ímpar.

  • \(md(X) = \frac{X_{(n/2)} + X_{(n/2 + 1)}}{2}\),se n par.

  • Para um número ímpar de observações a mediana é o valor central.

  • Para um número par de observações a mediana é a média dos dois valores centrais.

md <- median(consumo)
md
## [1] 30.5

Quantis

Podemos definir uma medida, chamada quantil de ordem p ou p-quantil, indicada por q(p), em que p é uma proporção qualquer, 0 < p < 1, tal que \(100p\%\) das observações sejam menores do que q(p).

  • Para calcular os quantis no R basta utilizar a função quantile
quantile(consumo)
##    0%   25%   50%   75%  100% 
## 25.00 29.75 30.50 32.25 35.00
  • Podemos calcular outros quantis
quantile(consumo, 
         c(0, 0.2, 0.7, 1))
##   0%  20%  70% 100% 
## 25.0 29.2 31.7 35.0
  • Quartis: são percentis específicos. – Primeiro quartil = 25º percentil – Segundo quartil = 50º percentil = mediana – Terceiro quartil = 75º percentil
quantile(consumo, 
         c(0.25, 0.50, 0.75))
##   25%   50%   75% 
## 29.75 30.50 32.25

Principais medidas de variabilidade

  • Amplitude

  • Amplitude Interquartil

  • Desvio Médio

  • Variância

  • Desvio Padrão

  • Coeficiente de Variação

amplitude

min(consumo) #Valor mínimo
## [1] 25
max(consumo) #Valor máximo
## [1] 35
range(consumo)
## [1] 25 35

amplitude interquartil

A amplitude interquartil (IQR) de um conjunto de dados é a diferença entre o terceiro quartil e o primeiro quartil:

Q1 <- quantile(consumo, 0.25)
Q3 <- quantile(consumo, 0.75)
IQR1 <- Q3 - Q1
IQR1
## 75% 
## 2.5
# Ou uma forma mais simples
IQR(consumo)
## [1] 2.5

Variância:

  • O resumo de um conjunto de dados por uma única medida representativa de posição central esconde toda a informação sobre a variabilidade do conjunto de observações.

\[ s^{2} = \frac{\displaystyle\sum_{i=1}^{n}(x_{i} - \bar{x})^{2}}{n-1} \]

s2 = var(consumo)
s2
## [1] 8.083333

Desvio padrão:

  • Sendo a variância uma medida de dimensão igual ao quadrado da dimensão dos dados (por exemplo, se os dados são expressos em cm, a variância será expressa em cm²), pode causar problemas de interpretação. Costuma-se usar, então, o desvio padrão, que é definido como a raiz quadrada positiva da variância. \[ s = \sqrt{\frac{\displaystyle\sum_{i=1}^{n}(x_{i} - \bar{x})^{2}}{n-1}} = \sqrt{s^2} \]
s = sqrt(s2)
s
## [1] 2.84312
sd(consumo)
## [1] 2.84312

Coeficiente de Variação (CV)

O coeficiente de variação mede o desvio padrão em relação à média. Se quisermos comparar a variabilidade de dois conjuntos de dados podemos usar o coeficiente de variação, que é definido como a razão entre o desvio padrão e a média amostral e usualmente expresso em porcentagem:

\[ CV(\%) = \frac{dp(X)}{\bar{x}} \times 100(\%)\]

  • Quanto menor o CV mais homogêneo é o conjunto de dados.
CV <- (sd(consumo)/mean(consumo))*100
CV
## [1] 9.347245

Análise Exploratória de Dados

Os procedimentos de análise exploratória de dados nos permitem utilizar aritmética simples e gráficos fáceis de serem desenhados para sintetizar os dados. Primeiro classificamos os valores de dados em ordem crescente e identificamos a regra dos cinco itens e, então, construímos uma Box Plot.

  • Regra dos cinco itens
  1. Menor Valor
min(consumo)
## [1] 25
  1. Primeiro Quartil
quantile(consumo, 0.25)
##   25% 
## 29.75
  1. Mediana
median(consumo)
## [1] 30.5
  1. Terceiro Quartil
quantile(consumo, 0.75)
##   75% 
## 32.25
  1. Maior Valor
max(consumo)
## [1] 35
  • Uma forma mais simples e resumida
summary(consumo)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   25.00   29.75   30.50   30.42   32.25   35.00

Box Plot

  • Um box plot (diagrama em caixa) é um resumo gráfico de dados que se baseia na regra de cinco itens.

  • A chave para o desenvolvimento de um box plot é o cálculo da mediana e dos quartis Q1 e Q3.

  • Os box plots constituem uma maneira de identificar outliers (ponto atípicos).

  • Os limites são determinados utilizando a amplitude interquartil (IQR). O limite inferior está posicionado a 1,5(IQR) abaixo de Q1. O limite superior está posicionado a 1,5(IQR) acima de Q3.

  • Os dados além desses limites são considerados outliers. A posição de cada outlier é indicada pelo símbolo *.

  • O box plot dá uma ideia da posição, dispersão, assimetria, caudas e dados discrepantes. A posição central é dada pela mediana e a dispersão por dq. As posições relativas de q1, q2, q3 dão uma noção da assimetria da distribuição.

library(ggplot2)
y <- dados$Consumo

df <- data.frame(
  x = 1,
  y0 = min(y),
  y25 = quantile(y, 0.25),
  y50 = median(y),
  y75 = quantile(y, 0.75),
  y100 = max(y)
)
ggplot(df, aes(x)) +
  geom_boxplot(
   aes(ymin = y0, lower = y25, middle = y50, upper = y75, ymax = y100),
   stat = "identity"
 )

  • Forma mais simples de fazer um boxplot
boxplot(consumo)

Assimetria

  • Quando os dados são assimétricos, a maior parte dos dados está localizada no lado superior ou inferior do gráfico boxplot.

  • A assimetria indica que os dados podem não ser normalmente distribuídos.

Para determinar a assimetria podemos utilizar a seguinte expressão:

\[ AS = \frac{\left(\displaystyle\sum_{i=1}^{n}(x_{i} - \bar{x})^{3}/n\right)}{s^3} \]

(sum((consumo-mean(consumo))^3)/length(consumo))/(sd(consumo)^3)
## [1] -0.4097933
#Forma mais simples
library(e1071)
## Warning: package 'e1071' was built under R version 3.5.1
skewness(consumo)
## [1] -0.4097933

Medidas de associação entre duas variáveis quantitativas

  • Até agora, examinamos os métodos numéricos utilizados para sintetizar os dados para uma variável de cada vez.

  • Frequentemente, um gerente ou tomador de decisões está interessado na relação entre duas variáveis.

  • Duas medidas descritivas da relação entre duas variáveis são a covariância e o coeficiente de correlação.

Covariância

  • A covariância é a medida da associação linear entre duas variáveis.

  • Valores positivos indicam uma associação linear positiva.

  • Valores negativos indicam uma associação linear negativa.

  • A covariância é calculada da seguinte maneira:

\[ s_{xy} = \frac{\sum_{i=1}^{n}\left(x_{i} - \bar{x}\right)\left(y_{i} - \bar{y}\right)}{n-1} \] ### Coeficiente de Correlação

  • A correlação é uma medida de associação linear, e não necessariamente de causa.

-Apenas porque duas variáveis são altamente correlacionadas, não significa que alterações em uma variável seja a causa de alterações em outra.

  • O coeficiente de correlação é calculado do seguinte modo:

\[r_{xy}= \frac{s_{xy}}{\left(s_{x} s_{y} \right)}\]

  • Em que \(s_{xy}\) é a covariância entre x e y, \(s_x\) e \(s_y\) são os desvios padrões de x e y, respectivamente.

A seguir é apresentada uma tabela contendo informações da Renda e Escolaridade para as região do Brasil. Digite os dados no Excel e entre com estes no R.

Escolaridade Razão entre o somatório do número de anos de estudo completados pelas pessoas que tem 25 ou mais anos de idade e o número de pessoas nessa faixa etária.
Renda Renda média mensal da população. Série calculada a partir das respostas à Pesquisa Nacional por Amostra de Domicílios (Pnad/IBGE), com valores reais aos preços vigentes na realização da última edição da pesquisa, atualizados conforme o deflator para rendimentos da Pnad apresentado pelo Ipeadata.
  • Banco de dados
Região Escolaridade Renda Ano
Centro-oeste 5,9 757,37 1999
Norte 5,7 514,09 1999
Nordeste 4,2 394,40 1999
Sul 6,0 809,08 1999
Sudeste 6,4 893,16 1999
Centro-oeste 6,5 742,71 2003
Norte 6,2 472,17 2003
Nordeste 4,7 372,41 2003
Sul 6,7 828,23 2003
Sudeste 7,0 844,45 2003
Centro-oeste 7,1 981,34 2007
Norte 6,3 551,86 2007
Nordeste 5,4 489,82 2007
Sul 7,2 1021,40 2007
Sudeste 7,6 1005,17 2007
Centro-oeste 7,9 1164,61 2011
Norte 6,7 652,00 2011
Nordeste 6,0 586,85 2011
Sul 7,7 1148,51 2011
Sudeste 8,1 1125,90 2011

https://www.dropbox.com/s/h6ome9kn1lv8odm/ipeadata.csv?dl=0

setwd("C:/Users/Carol/Dropbox/UFGD/2019.01_Disciplinas/Topicos de Estatistica/2_Aula")

IPEA <- read.csv2("ipeadata.csv")

Gráfico de Dispersão

ggplot(IPEA, aes(x = Escolaridade, y = Renda)) +
  geom_point(fill = "black", size = 3, stroke = 1)

Covariância no R

Esc <- IPEA$Escolaridade
Ren <- IPEA$Renda

cov(Esc, Ren)
## [1] 234.4228

Correlação no R

cov(Esc, Ren)/prod(sd(Esc),sd(Ren))
## [1] 0.9002672
cor(Esc, Ren)
## [1] 0.9002672

Retornando ao questionamento do início da aula

Além de calcular estas medias vamos construir gráficos

  • Pergunta: Como calcular a média e o desvio padrão para cada tipo de pneu em relação ao consumo?
#Média
aggregate(Consumo ~ Pneu, 
          FUN = mean,
          data=dados)
##    Pneu  Consumo
## 1 Tipo1 28.00000
## 2 Tipo2 29.33333
## 3 Tipo3 31.33333
## 4 Tipo4 33.00000
#Desvio padrão
aggregate(Consumo ~ Pneu, 
          FUN = sd,
          data=dados)
##    Pneu  Consumo
## 1 Tipo1 2.645751
## 2 Tipo2 3.055050
## 3 Tipo3 1.527525
## 4 Tipo4 2.000000
ggplot(dados, aes(x = Pneu, y = Consumo)) +
       geom_boxplot() +
  labs(y = "Consumo por Tipo de Pneu")