knitr::opts_chunk$set(echo = TRUE)

#Introdução

O que é variância?

Objetivo: mensurar a dispersão dos dados. A Variabilidade.

predios_vermelhos <- c(40,95,55,80,65)
media_vermelha <- mean(predios_vermelhos)
media_vermelha
## [1] 67
diff_ver <- (predios_vermelhos-media_vermelha)
diff_ver
## [1] -27  28 -12  13  -2
diff_quad <- diff_ver*diff_ver
diff_quad
## [1] 729 784 144 169   4
#Variancia
VV <- (sum(diff_quad)/4)
VV
## [1] 457.5
#desvio padrão
DV <- sqrt(VV)
DV
## [1] 21.38925
# Média, desvio padrão e variância
mean(predios_vermelhos)
## [1] 67
sd (predios_vermelhos)
## [1] 21.38925
var (predios_vermelhos)
## [1] 457.5

Desvio padrão

IDH <- read.csv("~/Desktop/Base_de_dados-master/IDH.csv")
View(IDH)
summary(IDH)
##   Município            Região               Pop.              IDH           
##  Length:3274        Length:3274        Min.   :     795   Length:3274       
##  Class :character   Class :character   1st Qu.:    4590   Class :character  
##  Mode  :character   Mode  :character   Median :    9104   Mode  :character  
##                                        Mean   :   33727                     
##                                        3rd Qu.:   21012                     
##                                        Max.   :10434252                     
##      Alf.          
##  Length:3274       
##  Class :character  
##  Mode  :character  
##                    
##                    
## 
colnames(IDH) <- c("munic","regiao","pop","idh","alf")
names(IDH)
## [1] "munic"  "regiao" "pop"    "idh"    "alf"
IDH$idh <- gsub(",",".",IDH$idh)
IDH$alf <- gsub(",",".",IDH$alf)
View(IDH)

IDH$idh <- as.numeric(IDH$idh)
IDH$alf <- as.numeric(IDH$alf)
summary(IDH)
##     munic              regiao               pop                idh        
##  Length:3274        Length:3274        Min.   :     795   Min.   :0.4750  
##  Class :character   Class :character   1st Qu.:    4590   1st Qu.:0.7060  
##  Mode  :character   Mode  :character   Median :    9104   Median :0.7530  
##                                        Mean   :   33727   Mean   :0.7428  
##                                        3rd Qu.:   21012   3rd Qu.:0.7880  
##                                        Max.   :10434252   Max.   :0.9190  
##       alf       
##  Min.   :39.34  
##  1st Qu.:81.68  
##  Median :86.83  
##  Mean   :85.14  
##  3rd Qu.:90.68  
##  Max.   :99.09
mean(IDH$idh)
## [1] 0.7428341
sd(IDH$idh)
## [1] 0.06128201

Trabalhando com as variáveis

library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
IDH %>% select(idh) %>% summarise(media=mean(idh),desvio_padrao=sd(idh),
                                  minimo=min(idh),
                                  maximo=max (idh))
##       media desvio_padrao minimo maximo
## 1 0.7428341    0.06128201  0.475  0.919
IDH %>% select(pop) %>% summarise(media=mean(pop),desvio_padrao=sd(pop),
                                  minimo=min(pop),
                                  maximo=max (pop))
##      media desvio_padrao minimo   maximo
## 1 33726.55      226973.4    795 10434252
IDH %>% select(alf) %>% summarise(media=mean(alf),desvio_padrao=sd(alf),
                                  minimo=min(alf),
                                  maximo=max (alf))
##      media desvio_padrao minimo maximo
## 1 85.14227      8.051034  39.34  99.09

Flextable

IDH %>% select(regiao,idh) %>% group_by (regiao) %>%
  summarise(média=mean(idh),desvio_padrao=sd(idh),
            minimo=min(idh),
            maximo=max (idh))
## # A tibble: 3 x 5
##   regiao média desvio_padrao minimo maximo
##   <chr>  <dbl>         <dbl>  <dbl>  <dbl>
## 1 Norte  0.664        0.0561  0.475  0.806
## 2 SE     0.745        0.0548  0.568  0.919
## 3 Sul    0.771        0.0432  0.62   0.875
library(flextable)
IDH %>% select(regiao,pop) %>% group_by (regiao) %>%
  summarise(média=mean(pop),desvio_padrao=sd(pop),
            minimo=min(pop),
            maximo=max (pop)) %>%
  flextable()

#Boxplot

par (bg="skyblue")
boxplot(idh~regiao,data=IDH,col=c("red","royalblue","yellow"),
        ylim=c(0,1),xlab = "Região Geográfica",
        ylab="IDH", main="idh por região")

boxplot(alf~regiao,data=IDH,col=c("red","royalblue","yellow"))

Exercício na base de dados “Carros”

#KM/l por tipo de marcha

load("/Users/mac/Desktop/Base_de_dados-master/CARROS.RData")
View(CARROS)

CARROS$TipodeMarcha <- ifelse(CARROS$TipodeMarcha==0,"auto","manual")
table(CARROS$TipodeMarcha)
## 
##   auto manual 
##     19     13
names(CARROS)
##  [1] "Kmporlitro"              "Cilindros"              
##  [3] "Preco"                   "HP"                     
##  [5] "Amperagem_circ_eletrico" "Peso"                   
##  [7] "RPM"                     "Tipodecombustivel"      
##  [9] "TipodeMarcha"            "NumdeMarchas"           
## [11] "NumdeValvulas"
par (bg="skyblue")
CARROS %>% select (Kmporlitro,TipodeMarcha) %>% group_by(TipodeMarcha) %>%
  summarise(média=mean(Kmporlitro),
            desvio_padrao=sd(Kmporlitro),
            minimo=min(Kmporlitro),
            maximo=max (Kmporlitro)) %>%
  flextable()
boxplot(Kmporlitro~TipodeMarcha,data=CARROS,col=c("red","royalblue","yellow"))

CARROS %>% select(Kmporlitro,Preco,HP,TipodeMarcha) %>% group_by(TipodeMarcha) %>% 
  summarise(média_kml=mean(Kmporlitro),
            dp_kml=sd(Kmporlitro),
            média_Preço=mean(Preco),
            dp_Preco=sd(Preco),
            média_HP=mean(HP),
            dp_HP=sd(HP)) %>%
  flextable()

Conclusão

Existe muitas formas de trabalhar com uma variável quali e quant. O BLoxplot e o resumo por grupos são duas formas simples de trabalhar.