Introdução

O que é variância?

O que é Desvio-padrão?

Objetivo: mensurar a dispersão dos dados. A variabilidade.

predios_vermelhos <- c (40,95,55,80,65)
media_vermelha <-mean(predios_vermelhos)
media_vermelha
## [1] 67
diff_ver <- (predios_vermelhos-media_vermelha)
diff_ver
## [1] -27  28 -12  13  -2
diff_quad <- diff_ver*diff_ver
diff_quad
## [1] 729 784 144 169   4
VV<-(sum(diff_quad)/4)
DV<-sqrt(VV)
DV
## [1] 21.38925
mean(predios_vermelhos)
## [1] 67
sd(predios_vermelhos)
## [1] 21.38925
var(predios_vermelhos)
## [1] 457.5

Desvio Padrão de uma base de dados

Importar do excel

library(readxl)
IDH <- read_excel("C:/Users/diova/Desktop/Base_de_dados-master/IDH_por_regiao.XLS", 
                  sheet = "Dados")
View(IDH)

names(IDH)
## [1] "Município" "Região"    "Pop."      "IDH"       "Alf."
colnames(IDH) <- c("munic","regiao","pop","idh","alf")
names(IDH)
## [1] "munic"  "regiao" "pop"    "idh"    "alf"
mean(IDH$idh)
## [1] 0.7428341
sd(IDH$idh)
## [1] 0.06128201
mean(IDH$pop)
## [1] 33726.55
sd(IDH$pop)
## [1] 226973.4
mean(IDH$alf)
## [1] 85.14227
sd(IDH$alf)
## [1] 8.051034

Trabalhando com as variáveis

simples

library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
IDH %>% select(idh) %>% summarise(media=mean(idh), 
                                  desvio_padrao=sd(idh),
                                  minimo=min(idh),
                                  maximo=max(idh))
## # A tibble: 1 x 4
##   media desvio_padrao minimo maximo
##   <dbl>         <dbl>  <dbl>  <dbl>
## 1 0.743        0.0613  0.475  0.919
IDH %>% select(pop) %>% summarise(media=mean(pop), 
                                  desvio_padrao=sd(pop),
                                  minimo=min(pop),
                                  maximo=max(pop))
## # A tibble: 1 x 4
##    media desvio_padrao minimo   maximo
##    <dbl>         <dbl>  <dbl>    <dbl>
## 1 33727.       226973.    795 10434252
IDH %>% select(alf) %>% summarise(media=mean(alf), 
                                  desvio_padrao=sd(alf),
                                  minimo=min(alf),
                                  maximo=max(alf))
## # A tibble: 1 x 4
##   media desvio_padrao minimo maximo
##   <dbl>         <dbl>  <dbl>  <dbl>
## 1  85.1          8.05   39.3   99.1
IDH %>% select(regiao,idh) %>% group_by(regiao) %>%
summarise(media=mean(idh), desvio_padrao=sd(idh),
          minimo=min(idh),
          maximo=max(idh))
## # A tibble: 3 x 5
##   regiao media desvio_padrao minimo maximo
##   <chr>  <dbl>         <dbl>  <dbl>  <dbl>
## 1 Norte  0.664        0.0561  0.475  0.806
## 2 SE     0.745        0.0548  0.568  0.919
## 3 Sul    0.771        0.0432  0.62   0.875

Formato tabela

library(flextable)
IDH %>% select(regiao,pop) %>% group_by(regiao) %>%
  summarise(media=mean(pop), desvio_padrao=sd(pop),
            minimo=min(pop),
            maximo=max(pop)) %>%

flextable()

Boxplot por grupos

par(bg="skyblue")
boxplot(idh~regiao,data=IDH, col= c("red","royalblue","yellow"),
        ylim=c(0,1), xlab = "Região Geográfica",
        ylab = "IDH", main= "IDH por região")

boxplot(pop~regiao,data=IDH, col= c("red","royalblue","yellow"))

boxplot(alf~regiao,data=IDH, col= c("red","royalblue","yellow"))

Exercício com a base de dados “CARROS”

#-------------------------------------------------------------------
# Km/l por tipo de marcha
#-------------------------------------------------------------------

 load("C:/Users/diova/Desktop/Base_de_dados-master/CARROS.RData")

CARROS$TipodeMarcha <- ifelse(CARROS$TipodeMarcha==0,"auto","manual")
table(CARROS$TipodeMarcha)
## 
##   auto manual 
##     19     13
names(CARROS)
##  [1] "Kmporlitro"              "Cilindros"              
##  [3] "Preco"                   "HP"                     
##  [5] "Amperagem_circ_eletrico" "Peso"                   
##  [7] "RPM"                     "Tipodecombustivel"      
##  [9] "TipodeMarcha"            "NumdeMarchas"           
## [11] "NumdeValvulas"
par(bg="white")
library(flextable)
CARROS %>% select(Kmporlitro,TipodeMarcha) %>% group_by(TipodeMarcha) %>%
  summarise(média=mean(Kmporlitro),
             desvio_padrão=sd(Kmporlitro),
              minimo=min(Kmporlitro),
              maximo=max(Kmporlitro)) %>%
flextable()
boxplot (Kmporlitro~TipodeMarcha,data=CARROS,col= c("red","royalblue"))

library(flextable)
CARROS %>% select(Kmporlitro,Preco,HP,TipodeMarcha) %>% group_by(TipodeMarcha) %>%
  summarise (média_kml=mean(Kmporlitro),
             dp_kml=sd(Kmporlitro),
             média_Preço=mean(Preco),
             dp_Preco=sd(Preco),
             média_HP=mean(Preco),
             dp_HP=sd(Preco)) %>%
  
  flextable()

Conclusão

Podemos concluir que existem diversas formas de trabalhar com uma variável qualitativa e uma quantitativa. O boxplot e o resumo por grupos são as formas mais simples.