dados <-data.frame(x=c(2,3,4,5,5,6,7,8),
                   y=c(4,7,9,10,11,11,13,15))

plot(dados$x,dados$y)

cor(dados$x,dados$y)
## [1] 0.980871
cor(dados$x,dados$y, method="spearman")
## [1] 0.9819277

Passo 1 - carregar a base

#-----------------------------------------------------
# Passo 1 - carregar a base
#-----------------------------------------------------
load("C:/Users/Hp/Desktop/Base_de_dados-master/CARROS.RData")

Passo 2 - definição de variável resposta

HP e Preço

km/l e Preço

Peso e Preço

RPM e Preço

Amperagem e Preço

variável resposta (desfecho, dependente, endogena): preço (Y)

variáveis explicativa (exogena, independente): as outras quantitativas (X)

Os determinantes do preço do carro

Passo 3 - diagrama de dispersão

#-----------------------------------------------------
# Passo 3 - diagrama de dispersão
#-----------------------------------------------------

# plot(CARROS$HP,CARROS$Preco)
plot(CARROS$HP,CARROS$Preco, 
     main = " Correlação entre HP e preço",
     pch=19, col="red",
     ylab="Preço do carro",
     xlab = "Hp (cavalos)")
abline(lsfit(CARROS$HP,CARROS$Preco),col="blue")

cor(CARROS$HP,CARROS$Preco)
## [1] 0.7909486
plot(CARROS$Kmporlitro,CARROS$Preco, 
     main = " Correlação entre km/l e preço",
     pch=19, col="blue",
     ylab="Preço do carro",
     xlab = "km/l")
abline(lsfit(CARROS$Kmporlitro,CARROS$Preco),col="red")

cor(CARROS$Kmporlitro,CARROS$Preco)
## [1] -0.8475514

quanto maior o km/l menor tende a ser o preço

tem correlação linear, negativa e forte entre o

km/l e o preço (cor = -0,85)

Passo 4 - matriz de correlação

#-----------------------------------------------------
# Passo 4 - matriz de correlação
#-----------------------------------------------------

names(CARROS)
##  [1] "Kmporlitro"              "Cilindros"              
##  [3] "Preco"                   "HP"                     
##  [5] "Amperagem_circ_eletrico" "Peso"                   
##  [7] "RPM"                     "Tipodecombustivel"      
##  [9] "TipodeMarcha"            "NumdeMarchas"           
## [11] "NumdeValvulas"
selecao <- c("Kmporlitro","Preco","HP","Amperagem_circ_eletrico",
"Peso","RPM")
selecao
## [1] "Kmporlitro"              "Preco"                  
## [3] "HP"                      "Amperagem_circ_eletrico"
## [5] "Peso"                    "RPM"
cor(CARROS[,selecao])
##                         Kmporlitro      Preco         HP
## Kmporlitro               1.0000000 -0.8475514 -0.7761684
## Preco                   -0.8475514  1.0000000  0.7909486
## HP                      -0.7761684  0.7909486  1.0000000
## Amperagem_circ_eletrico  0.6811719 -0.7102139 -0.4487591
## Peso                    -0.8676594  0.8879799  0.6587479
## RPM                      0.4186840 -0.4336979 -0.7082234
##                         Amperagem_circ_eletrico       Peso         RPM
## Kmporlitro                           0.68117191 -0.8676594  0.41868403
## Preco                               -0.71021393  0.8879799 -0.43369788
## HP                                  -0.44875912  0.6587479 -0.70822339
## Amperagem_circ_eletrico              1.00000000 -0.7124406  0.09120476
## Peso                                -0.71244065  1.0000000 -0.17471588
## RPM                                  0.09120476 -0.1747159  1.00000000
library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
CARROS %>% select(selecao) %>% cor()
## Note: Using an external vector in selections is ambiguous.
## i Use `all_of(selecao)` instead of `selecao` to silence this message.
## i See <https://tidyselect.r-lib.org/reference/faq-external-vector.html>.
## This message is displayed once per session.
##                         Kmporlitro      Preco         HP
## Kmporlitro               1.0000000 -0.8475514 -0.7761684
## Preco                   -0.8475514  1.0000000  0.7909486
## HP                      -0.7761684  0.7909486  1.0000000
## Amperagem_circ_eletrico  0.6811719 -0.7102139 -0.4487591
## Peso                    -0.8676594  0.8879799  0.6587479
## RPM                      0.4186840 -0.4336979 -0.7082234
##                         Amperagem_circ_eletrico       Peso         RPM
## Kmporlitro                           0.68117191 -0.8676594  0.41868403
## Preco                               -0.71021393  0.8879799 -0.43369788
## HP                                  -0.44875912  0.6587479 -0.70822339
## Amperagem_circ_eletrico              1.00000000 -0.7124406  0.09120476
## Peso                                -0.71244065  1.0000000 -0.17471588
## RPM                                  0.09120476 -0.1747159  1.00000000

Passo 5 - visualização de dados

#-----------------------------------------------------
# Passo 5 - visualização de dados
#-----------------------------------------------------

library(corrplot)
## corrplot 0.92 loaded
CARROS %>% select(selecao) %>% cor() %>% corrplot()

CARROS %>% select(selecao) %>% cor() %>% corrplot(method = "pie")

CARROS %>% select(selecao) %>% cor() %>% corrplot(method="number",bg="gold2")

CARROS %>% select(selecao) %>% cor() %>% corrplot.mixed()

CARROS %>% select(selecao) %>% cor() %>% corrplot(addCoef.col=TRUE,number.cex=0.7)

Conclusão

  1. todas as variáveis influenciam o preço do carro
  2. HP e peso tem correlação positiva
  3. Amperagem e rpm tem correlação negativa
  4. rpm tem correlação fraca/moderada de apenas -0,43
  5. não há correlação entre RPM e peso
  6. não há correlação entre RPM e amperagem
## C:\Users\Hp\Documents\DIRETORIO DE TRABALHO DO R\mestrado_eng
#-----------------------------------------------------
# o pacote esquisse para visualização de dados
#-----------------------------------------------------

CARROS$Tipodecombustivel <- as.factor(CARROS$Tipodecombustivel)
CARROS$TipodeMarcha <- as.factor(CARROS$TipodeMarcha)

#summary(CARROS)

library(ggplot2)

ggplot(CARROS) +
 aes(x = Tipodecombustivel, y = Preco, fill = TipodeMarcha) +
 geom_boxplot() +
 scale_fill_brewer(palette = "Dark2", 
 direction = 1) +
 labs(title = "meu gráfico", subtitle = "no esquisse", caption = "Fonte: steven") +
 #ggthemes::theme_solarized()
 ggthemes::theme_excel()