Um Engenheiro Agrícola, com o objetivo de verificar qual tipo de pneu que proporciona menor consumo de combustível, para trabalhar em terrenos encharcados, testou 4 diferentes tipos de pneus. Como a área que dispunha para realizar o experimento era heterogênea com relação a declividade, ele subdividiu a área total em 3 sub-áreas de tal forma que dentro de cada uma delas existia uniformidade com relação a declividade. Após isso, dentro de cada sub-área realizou um sorteio ao acaso, dos tipos de pneus às unidade experimentais. Com a realização da pesquisa, obtiveram-se os resultados de consumo, expressos em litros/hora trabalhada.
Pergunta: Como calcular a média e o desvio padrão para cada tipo de pneu em relação ao consumo?
Limpando a memória de atividades anteriores realizadas no R
rm(list=ls())
setwd("C:/Users/Carol/Dropbox/UFGD/2019.01_Disciplinas/Topicos de Estatistica/3_Aula")
dados <- read.csv2("pneus.csv", header=T)
Blocos | Pneu | Consumo |
---|---|---|
Bl1 | Tipo1 | 30 |
Bl1 | Tipo2 | 32 |
Bl1 | Tipo3 | 33 |
Bl1 | Tipo4 | 35 |
Bl2 | Tipo1 | 29 |
Bl2 | Tipo2 | 30 |
Bl2 | Tipo3 | 31 |
Bl2 | Tipo4 | 33 |
Bl3 | Tipo1 | 25 |
Bl3 | Tipo2 | 26 |
Bl3 | Tipo3 | 30 |
Bl3 | Tipo4 | 31 |
consumo <- dados$Consumo
class(consumo) #Tipo da variável
## [1] "integer"
\[ \bar{x} = \frac{\displaystyle\sum_{i=1}^{n}x_{i}}{n} \]
n_cons <- length(consumo)
n_cons
## [1] 12
sum_cons <- sum(consumo)
sum_cons
## [1] 365
mu_cons <- sum_cons/n_cons
mu_cons
## [1] 30.41667
mean(consumo)
## [1] 30.41667
A mediana de um conjunto de dados é o valor central quando os dados são organizados em ordem crescente.
Sempre que um conjunto de dados tiver valores extremos, a mediana é a medida de posição central preferida.
A mediana é a medida de posição mais frequentemente utilizada para dados de renda anual e valor patrimonial.
Consideremos, agora, as observações ordenadas em ordem crescente. Vamos denotar a menor observação por \(x_{(1)}\), a segunda por \(x_{(2)}\), e assim por diante, obtendo-se: \(x_{(1)} \leq x_{(2)} \leq \cdots \leq x_{(n)}\)
Estas observações ordenadas são denominadas de Estatística de Ordem. Assim, com esta notação, a mediana para a variável X é determinada da seguinte forma:
\(md(X)= X_{((n+1)/2)}\), se n ímpar.
\(md(X) = \frac{X_{(n/2)} + X_{(n/2 + 1)}}{2}\),se n par.
Para um número ímpar de observações a mediana é o valor central.
Para um número par de observações a mediana é a média dos dois valores centrais.
md <- median(consumo)
md
## [1] 30.5
Podemos definir uma medida, chamada quantil de ordem p ou p-quantil, indicada por q(p), em que p é uma proporção qualquer, 0 < p < 1, tal que \(100p\%\) das observações sejam menores do que q(p).
quantile(consumo)
## 0% 25% 50% 75% 100%
## 25.00 29.75 30.50 32.25 35.00
quantile(consumo,
c(0, 0.2, 0.7, 1))
## 0% 20% 70% 100%
## 25.0 29.2 31.7 35.0
quantile(consumo,
c(0.25, 0.50, 0.75))
## 25% 50% 75%
## 29.75 30.50 32.25
Amplitude
Amplitude Interquartil
Desvio Médio
Variância
Desvio Padrão
Coeficiente de Variação
min(consumo) #Valor mínimo
## [1] 25
max(consumo) #Valor máximo
## [1] 35
range(consumo)
## [1] 25 35
A amplitude interquartil (IQR) de um conjunto de dados é a diferença entre o terceiro quartil e o primeiro quartil:
Q1 <- quantile(consumo, 0.25)
Q3 <- quantile(consumo, 0.75)
IQR1 <- Q3 - Q1
IQR1
## 75%
## 2.5
# Ou uma forma mais simples
IQR(consumo)
## [1] 2.5
\[ s^{2} = \frac{\displaystyle\sum_{i=1}^{n}(x_{i} - \bar{x})^{2}}{n-1} \]
s2 = var(consumo)
s2
## [1] 8.083333
s = sqrt(s2)
s
## [1] 2.84312
sd(consumo)
## [1] 2.84312
O coeficiente de variação mede o desvio padrão em relação à média. Se quisermos comparar a variabilidade de dois conjuntos de dados podemos usar o coeficiente de variação, que é definido como a razão entre o desvio padrão e a média amostral e usualmente expresso em porcentagem:
\[ CV(\%) = \frac{dp(X)}{\bar{x}} \times 100(\%)\]
CV <- (sd(consumo)/mean(consumo))*100
CV
## [1] 9.347245
Os procedimentos de análise exploratória de dados nos permitem utilizar aritmética simples e gráficos fáceis de serem desenhados para sintetizar os dados. Primeiro classificamos os valores de dados em ordem crescente e identificamos a regra dos cinco itens e, então, construímos uma Box Plot.
min(consumo)
## [1] 25
quantile(consumo, 0.25)
## 25%
## 29.75
median(consumo)
## [1] 30.5
quantile(consumo, 0.75)
## 75%
## 32.25
max(consumo)
## [1] 35
summary(consumo)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 25.00 29.75 30.50 30.42 32.25 35.00
Um box plot (diagrama em caixa) é um resumo gráfico de dados que se baseia na regra de cinco itens.
A chave para o desenvolvimento de um box plot é o cálculo da mediana e dos quartis Q1 e Q3.
Os box plots constituem uma maneira de identificar outliers (ponto atípicos).
Os limites são determinados utilizando a amplitude interquartil (IQR). O limite inferior está posicionado a 1,5(IQR) abaixo de Q1. O limite superior está posicionado a 1,5(IQR) acima de Q3.
Os dados além desses limites são considerados outliers. A posição de cada outlier é indicada pelo símbolo *.
O box plot dá uma ideia da posição, dispersão, assimetria, caudas e dados discrepantes. A posição central é dada pela mediana e a dispersão por dq. As posições relativas de q1, q2, q3 dão uma noção da assimetria da distribuição.
library(ggplot2)
y <- dados$Consumo
df <- data.frame(
x = 1,
y0 = min(y),
y25 = quantile(y, 0.25),
y50 = median(y),
y75 = quantile(y, 0.75),
y100 = max(y)
)
ggplot(df, aes(x)) +
geom_boxplot(
aes(ymin = y0, lower = y25, middle = y50, upper = y75, ymax = y100),
stat = "identity"
)
boxplot(consumo)
Quando os dados são assimétricos, a maior parte dos dados está localizada no lado superior ou inferior do gráfico boxplot.
A assimetria indica que os dados podem não ser normalmente distribuídos.
Para determinar a assimetria podemos utilizar a seguinte expressão:
\[ AS = \frac{\left(\displaystyle\sum_{i=1}^{n}(x_{i} - \bar{x})^{3}/n\right)}{s^3} \]
(sum((consumo-mean(consumo))^3)/length(consumo))/(sd(consumo)^3)
## [1] -0.4097933
#Forma mais simples
library(e1071)
## Warning: package 'e1071' was built under R version 3.5.1
skewness(consumo)
## [1] -0.4097933
Até agora, examinamos os métodos numéricos utilizados para sintetizar os dados para uma variável de cada vez.
Frequentemente, um gerente ou tomador de decisões está interessado na relação entre duas variáveis.
Duas medidas descritivas da relação entre duas variáveis são a covariância e o coeficiente de correlação.
A covariância é a medida da associação linear entre duas variáveis.
Valores positivos indicam uma associação linear positiva.
Valores negativos indicam uma associação linear negativa.
A covariância é calculada da seguinte maneira:
\[ s_{xy} = \frac{\sum_{i=1}^{n}\left(x_{i} - \bar{x}\right)\left(y_{i} - \bar{y}\right)}{n-1} \] ### Coeficiente de Correlação
-Apenas porque duas variáveis são altamente correlacionadas, não significa que alterações em uma variável seja a causa de alterações em outra.
\[r_{xy}= \frac{s_{xy}}{\left(s_{x} s_{y} \right)}\]
A seguir é apresentada uma tabela contendo informações da Renda e Escolaridade para as região do Brasil. Digite os dados no Excel e entre com estes no R.
Escolaridade | Razão entre o somatório do número de anos de estudo completados pelas pessoas que tem 25 ou mais anos de idade e o número de pessoas nessa faixa etária. |
---|---|
Renda | Renda média mensal da população. Série calculada a partir das respostas à Pesquisa Nacional por Amostra de Domicílios (Pnad/IBGE), com valores reais aos preços vigentes na realização da última edição da pesquisa, atualizados conforme o deflator para rendimentos da Pnad apresentado pelo Ipeadata. |
Região | Escolaridade | Renda | Ano |
---|---|---|---|
Centro-oeste | 5,9 | 757,37 | 1999 |
Norte | 5,7 | 514,09 | 1999 |
Nordeste | 4,2 | 394,40 | 1999 |
Sul | 6,0 | 809,08 | 1999 |
Sudeste | 6,4 | 893,16 | 1999 |
Centro-oeste | 6,5 | 742,71 | 2003 |
Norte | 6,2 | 472,17 | 2003 |
Nordeste | 4,7 | 372,41 | 2003 |
Sul | 6,7 | 828,23 | 2003 |
Sudeste | 7,0 | 844,45 | 2003 |
Centro-oeste | 7,1 | 981,34 | 2007 |
Norte | 6,3 | 551,86 | 2007 |
Nordeste | 5,4 | 489,82 | 2007 |
Sul | 7,2 | 1021,40 | 2007 |
Sudeste | 7,6 | 1005,17 | 2007 |
Centro-oeste | 7,9 | 1164,61 | 2011 |
Norte | 6,7 | 652,00 | 2011 |
Nordeste | 6,0 | 586,85 | 2011 |
Sul | 7,7 | 1148,51 | 2011 |
Sudeste | 8,1 | 1125,90 | 2011 |
https://www.dropbox.com/s/h6ome9kn1lv8odm/ipeadata.csv?dl=0
setwd("C:/Users/Carol/Dropbox/UFGD/2019.01_Disciplinas/Topicos de Estatistica/2_Aula")
IPEA <- read.csv2("ipeadata.csv")
ggplot(IPEA, aes(x = Escolaridade, y = Renda)) +
geom_point(fill = "black", size = 3, stroke = 1)
Esc <- IPEA$Escolaridade
Ren <- IPEA$Renda
cov(Esc, Ren)
## [1] 234.4228
cov(Esc, Ren)/prod(sd(Esc),sd(Ren))
## [1] 0.9002672
cor(Esc, Ren)
## [1] 0.9002672
Além de calcular estas medias vamos construir gráficos
#Média
aggregate(Consumo ~ Pneu,
FUN = mean,
data=dados)
## Pneu Consumo
## 1 Tipo1 28.00000
## 2 Tipo2 29.33333
## 3 Tipo3 31.33333
## 4 Tipo4 33.00000
#Desvio padrão
aggregate(Consumo ~ Pneu,
FUN = sd,
data=dados)
## Pneu Consumo
## 1 Tipo1 2.645751
## 2 Tipo2 3.055050
## 3 Tipo3 1.527525
## 4 Tipo4 2.000000
ggplot(dados, aes(x = Pneu, y = Consumo)) +
geom_boxplot() +
labs(y = "Consumo por Tipo de Pneu")