Análise dos Fatores Determinantes do Preço de Veículos Usados

Denilson De oliveira Silva

2024-05-21

Pacotes utilizados

library(readr)
library(corrplot)
library(lattice)
library(ggplot2) 
library(caTools) 
library(dplyr) 
library(plotly)

Chamando os dados

load("C:/Users/Denilson/Desktop/ThreeCars2017.rda")

Resumo dos nossos dados

Tipo de carro (cartype) : Mazda6, Accord, Maxima

Idade (age) : Anos de uso do veículo

Preço (price): Valor monetário do veículo

Quilometragem (mileage): Distância total percorrida pelo veículo

Este sumário abrange os principais tópicos mencionados: os diferentes tipos de carros (Mazda6, Accord, Maxima), juntamente com aspectos relevantes como a idade, o preço e a quilometragem dos veículos.

Pacotes utilizados
##   CarType Age Price Mileage Mazda6 Accord Maxima
## 1  Mazda6   3  15.9    17.8      1      0      0
## 2  Mazda6   2  16.4    19.0      1      0      0
## 3  Mazda6   1  18.9    20.9      1      0      0
## 4  Mazda6   2  16.9    24.0      1      0      0
## 5  Mazda6   2  20.5    24.0      1      0      0
## 6  Mazda6   1  19.0    24.2      1      0      0

Fazendo Análise Exploratória

Nome das variáveis

## [1] "CarType" "Age"     "Price"   "Mileage" "Mazda6"  "Accord"  "Maxima"

Medidas Descritivas

##    CarType        Age            Price          Mileage           Mazda6      
##  Accord:30   Min.   : 0.00   Min.   : 2.00   Min.   :  3.00   Min.   :0.0000  
##  Maxima:30   1st Qu.: 3.00   1st Qu.: 9.50   1st Qu.: 34.50   1st Qu.:0.0000  
##  Mazda6:30   Median : 4.00   Median :14.80   Median : 52.35   Median :0.0000  
##              Mean   : 5.50   Mean   :13.75   Mean   : 59.50   Mean   :0.3333  
##              3rd Qu.: 7.75   3rd Qu.:17.57   3rd Qu.: 76.25   3rd Qu.:1.0000  
##              Max.   :18.00   Max.   :27.00   Max.   :150.50   Max.   :1.0000  
##      Accord           Maxima      
##  Min.   :0.0000   Min.   :0.0000  
##  1st Qu.:0.0000   1st Qu.:0.0000  
##  Median :0.0000   Median :0.0000  
##  Mean   :0.3333   Mean   :0.3333  
##  3rd Qu.:1.0000   3rd Qu.:1.0000  
##  Max.   :1.0000   Max.   :1.0000

Histogramas das váriaveis

Verificando a normalidade dos dados

Verificando normalidade para identificar qual tipo de correlação utilizar

## 
##  Shapiro-Wilk normality test
## 
## data:  Price
## W = 0.97092, p-value = 0.04107
## 
##  Shapiro-Wilk normality test
## 
## data:  Age
## W = 0.87996, p-value = 5.706e-07
## 
##  Shapiro-Wilk normality test
## 
## data:  Mileage
## W = 0.9376, p-value = 0.0003102

como podemos visualisar atráves dos Resultados do teste de Shapiro ,os nossos dados não seguem uma distribuição normal, e com isso utilizaremos a correlação de Spearman

verificando a Correlação entre as variáveis:

Correlação de Spearman

##                 Age       Price      Mileage      Mazda6      Accord
## Age      1.00000000 -0.89177971  0.826601141  0.05447174  0.01190139
## Price   -0.89177971  1.00000000 -0.834876290 -0.24318458  0.05852763
## Mileage  0.82660114 -0.83487629  1.000000000  0.12157577 -0.11794665
## Mazda6   0.05447174 -0.24318458  0.121575774  1.00000000 -0.50000000
## Accord   0.01190139  0.05852763 -0.117946647 -0.50000000  1.00000000
## Maxima  -0.06637313  0.18465695 -0.003629128 -0.50000000 -0.50000000
##               Maxima
## Age     -0.066373131
## Price    0.184656948
## Mileage -0.003629128
## Mazda6  -0.500000000
## Accord  -0.500000000
## Maxima   1.000000000

Modelo inicial

## 
## Call:
## lm(formula = Price ~ Age + Mileage + CarType)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -4.588 -1.632 -0.178  1.196  6.861 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   21.82336    0.53971  40.435  < 2e-16 ***
## Age           -0.81720    0.10799  -7.567 4.17e-11 ***
## Mileage       -0.05198    0.01158  -4.490 2.23e-05 ***
## CarTypeMaxima  0.32571    0.58733   0.555  0.58065    
## CarTypeMazda6 -1.79011    0.57428  -3.117  0.00249 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.187 on 85 degrees of freedom
## Multiple R-squared:  0.8517, Adjusted R-squared:  0.8447 
## F-statistic:   122 on 4 and 85 DF,  p-value: < 2.2e-16

Podemos observar que o coeficiente R² do nosso modelo foi de 0,8447 (84,47%), indicando que o modelo ajustado explica quase totalmente a variabilidade dos dados. Em contraste, a variabilidade não explicada pelo modelo é de apenas 0,1553 (15,53%). Portanto, este é um excelente modelo, capaz de capturar a relação e o comportamento das variáveis de maneira precisa.

Agora iremos para o Método de seleção de Váriavel(Método Backward)

## Start:  AIC=145.72
## Price ~ Age + Mileage + CarType
## 
##           Df Sum of Sq    RSS    AIC
## <none>                 406.58 145.72
## - CarType  2    76.218 482.80 157.18
## - Mileage  1    96.414 503.00 162.87
## - Age      1   273.926 680.51 190.07
## 
## Call:
## lm(formula = Price ~ Age + Mileage + CarType)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -4.588 -1.632 -0.178  1.196  6.861 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   21.82336    0.53971  40.435  < 2e-16 ***
## Age           -0.81720    0.10799  -7.567 4.17e-11 ***
## Mileage       -0.05198    0.01158  -4.490 2.23e-05 ***
## CarTypeMaxima  0.32571    0.58733   0.555  0.58065    
## CarTypeMazda6 -1.79011    0.57428  -3.117  0.00249 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.187 on 85 degrees of freedom
## Multiple R-squared:  0.8517, Adjusted R-squared:  0.8447 
## F-statistic:   122 on 4 and 85 DF,  p-value: < 2.2e-16

Todas as variáveis foram mantidas no modelo, sem sofrerem alterações. Assim, voltaremos a nosso modelo inicial. para que possamos seguir nossa ánalise de regressão múltipla

Checando os Pressupostos Da Regressão Linear Múltipla, que são eles

1° Normalidade dos Resíduos

2° indepêndência dos Resíduos

3° Variância constante

4° Ausência de multicolinearidade

Agora iremos fazer esse checagem

Teste de normalidade dos Resíduos

## 
##  Shapiro-Wilk normality test
## 
## data:  modelo1$residuals
## W = 0.97349, p-value = 0.06249

como obtevemos um, P-valor > 0,05 . Não rejeitamos H0, portanto os residuos seguem normalidade

indepêndência dos resíduos

## 
##  Breusch-Godfrey test for serial correlation of order up to 3
## 
## data:  modelo1
## LM test = 7.0722, df = 3, p-value = 0.06963

como obtevemos um, P-valor > 0,05 . Não rejeitamos H0, portantoos erros são independentes.

Variância constante

## 
##  studentized Breusch-Pagan test
## 
## data:  modelo1
## BP = 2.4257, df = 4, p-value = 0.658

como obtevemos um, P-valor > 0,05 . Não rejeitamos H0, portanto temos Variância constante

Ausência de multicolinearidade

##             GVIF Df GVIF^(1/(2*Df))
## Age     3.365583  1        1.834552
## Mileage 3.323603  1        1.823075
## CarType 1.103499  2        1.024927

valores baixos não são entendidos como multicolinearidade

Ánalisando Graficamente

Apesar da variação significativa, esta se mantém constante ao longo do tempo, indicando uma estabilidade no comportamento dos dados, mesmo com flutuações aparentes. Isso sugere que, embora existam mudanças, a amplitude dessas variações não aumenta nem diminuiu de forma significativa, proporcionando uma base confiável para análise e previsões

Agora gráfico de envelope simulado

## [1] 39 61

Os pontos do gráfico estão praticamente todos contidos dentro do envelope, embora haja algumas exceções. Isto indica que a maioria dos dados segue o padrão esperado, com os pontos se distribuindo de maneira consistente dentro dos limites estabelecidos pelo envelope.

ANOVA

Todas as variáveis são significativas para o modelo?

## Analysis of Variance Table
## 
## Response: Price
##           Df  Sum Sq Mean Sq F value    Pr(>F)    
## Age        1 2150.85 2150.85 449.655 < 2.2e-16 ***
## Mileage    1  107.62  107.62  22.498 8.398e-06 ***
## CarType    2   76.22   38.11   7.967 0.0006741 ***
## Residuals 85  406.58    4.78                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Todas as variáveis são significativas ao modelo, retornaremos ao mesmo para as devidas interpretações.

Gráfico de perpctiva

A imagem em 3d mostra a relação entre três variáveis: preço, quilometragem e idade. O eixo x representa a quilometragem, o eixo y representa a idade, e o eixo z representa o preço. O gráfico mostra uma superfície colorida que inclina-se negativamente, sugerindo que, à medida que a quilometragem e a idade aumentam, o preço tende a diminuir. As cores na superfície variam de acordo com a altura (valor do Preço), indo do vermelho ao roxo.

Interpretando o modelo

Um coeficiente de determinação (R²) de 0.8447 indica que o modelo de regressão ajustado é capaz de explicar cerca de 84.47% da variabilidade observada nos dados. Isso sugere que a grande maioria da variação na variável dependente pode ser atribuída às variáveis independentes incluídas no modelo. Portanto, apenas uma pequena parte da variabilidade dos dados não é explicada pelo modelo, e com isso concluimos que quanto mais quilometros rodados e idade tiver o carro mais isso vai interferir no seu preço.