Aqui vou importar os dados para o R.
library(readr)
anorexia <- read_csv("C:/Users/mtbor/Downloads/Base_de_dados-master/anorexia.csv")
##
## -- Column specification --------------------------------------------------------
## cols(
## subj = col_double(),
## therapy = col_character(),
## before = col_double(),
## after = col_double()
## )
head(anorexia)
## # A tibble: 6 x 4
## subj therapy before after
## <dbl> <chr> <dbl> <dbl>
## 1 1 b 80.5 82.2
## 2 2 b 84.9 85.6
## 3 3 b 81.5 81.4
## 4 4 b 82.6 81.9
## 5 5 b 79.9 76.4
## 6 6 b 88.7 104.
load("C:/Users/mtbor/Downloads/Base_de_dados-master/CARROS.RData")
head(CARROS)
## Kmporlitro Cilindros Preco HP Amperagem_circ_eletrico Peso
## Mazda RX4 21.0 6 160 110 3.90 2.620
## Mazda RX4 Wag 21.0 6 160 110 3.90 2.875
## Datsun 710 22.8 4 108 93 3.85 2.320
## Hornet 4 Drive 21.4 6 258 110 3.08 3.215
## Hornet Sportabout 18.7 8 360 175 3.15 3.440
## Valiant 18.1 6 225 105 2.76 3.460
## RPM Tipodecombustivel TipodeMarcha NumdeMarchas
## Mazda RX4 16.46 0 1 4
## Mazda RX4 Wag 17.02 0 1 4
## Datsun 710 18.61 1 1 4
## Hornet 4 Drive 19.44 1 0 3
## Hornet Sportabout 17.02 0 0 3
## Valiant 20.22 1 0 3
## NumdeValvulas
## Mazda RX4 4
## Mazda RX4 Wag 4
## Datsun 710 1
## Hornet 4 Drive 1
## Hornet Sportabout 2
## Valiant 1
# PASSO 2 - GRAFICO DE PIZZA
table(anorexia$therapy)
##
## b c f
## 29 26 17
pie(table(anorexia$therapy))
barplot(table(anorexia$therapy),col = c("red","blue","orange"),main = "Meu gráfico de barras")
#PASSO 4 - RESUMO
summary(CARROS)
## Kmporlitro Cilindros Preco HP
## Min. :10.40 Min. :4.000 Min. : 71.1 Min. : 52.0
## 1st Qu.:15.43 1st Qu.:4.000 1st Qu.:120.8 1st Qu.: 96.5
## Median :19.20 Median :6.000 Median :196.3 Median :123.0
## Mean :20.09 Mean :6.188 Mean :230.7 Mean :146.7
## 3rd Qu.:22.80 3rd Qu.:8.000 3rd Qu.:326.0 3rd Qu.:180.0
## Max. :33.90 Max. :8.000 Max. :472.0 Max. :335.0
## Amperagem_circ_eletrico Peso RPM Tipodecombustivel
## Min. :2.760 Min. :1.513 Min. :14.50 Min. :0.0000
## 1st Qu.:3.080 1st Qu.:2.581 1st Qu.:16.89 1st Qu.:0.0000
## Median :3.695 Median :3.325 Median :17.71 Median :0.0000
## Mean :3.597 Mean :3.217 Mean :17.85 Mean :0.4375
## 3rd Qu.:3.920 3rd Qu.:3.610 3rd Qu.:18.90 3rd Qu.:1.0000
## Max. :4.930 Max. :5.424 Max. :22.90 Max. :1.0000
## TipodeMarcha NumdeMarchas NumdeValvulas
## Min. :0.0000 Min. :3.000 Min. :1.000
## 1st Qu.:0.0000 1st Qu.:3.000 1st Qu.:2.000
## Median :0.0000 Median :4.000 Median :2.000
## Mean :0.4062 Mean :3.688 Mean :2.812
## 3rd Qu.:1.0000 3rd Qu.:4.000 3rd Qu.:4.000
## Max. :1.0000 Max. :5.000 Max. :8.000
Aqui percebi um problema na base de dados que precisa ser corrigido
#PASSO 5 - TRANSFORMAÇÃO DE VARIÁVEIS
CARROS$Tipodecombustivel <- ifelse(CARROS$Tipodecombustivel==0,"Gas","Alc")
###Verificando se funcionou
table(CARROS$TipodeMarcha)
##
## 0 1
## 19 13
table(CARROS$Tipodecombustivel)
##
## Alc Gas
## 14 18
Aqui vou fazer um histograma para variáveis quantitativas.
hist(CARROS$Kmporlitro, col = "red",main="Gráfico 1 - Histograma do Km/l",xlab = "Km/l",ylab = "Frequência")
hist(CARROS$Preco, col = "red",main = "Gráfico 2 - Histograma do preço do carro",xlab = "faixas de preço",ylab = "Frequência")
Tanto o preço do carro quanto o Km/l são assimétricos.
Parece ter dois tipos de carros (popular e de luxo).
É raro ver carro econômico nessa base de dados.
Abordamos dois tópicos: