Pacotes utilizados
library(readr)
library(corrplot)
library(lattice)
library(ggplot2)
library(caTools)
library(dplyr)
library(plotly)
Chamando os dados
load("C:/Users/Denilson/Desktop/ThreeCars2017.rda")
Resumo dos nossos dados
Tipo de carro (cartype) : Mazda6, Accord, Maxima
Idade (age) : Anos de uso do veículo
Preço (price): Valor monetário do veículo
Quilometragem (mileage): Distância total percorrida pelo veículo
Este sumário abrange os principais tópicos mencionados: os diferentes tipos de carros (Mazda6, Accord, Maxima), juntamente com aspectos relevantes como a idade, o preço e a quilometragem dos veículos.
Pacotes utilizados
## CarType Age Price Mileage Mazda6 Accord Maxima
## 1 Mazda6 3 15.9 17.8 1 0 0
## 2 Mazda6 2 16.4 19.0 1 0 0
## 3 Mazda6 1 18.9 20.9 1 0 0
## 4 Mazda6 2 16.9 24.0 1 0 0
## 5 Mazda6 2 20.5 24.0 1 0 0
## 6 Mazda6 1 19.0 24.2 1 0 0
Fazendo Análise Exploratória
Nome das variáveis
## [1] "CarType" "Age" "Price" "Mileage" "Mazda6" "Accord" "Maxima"
Medidas Descritivas
## CarType Age Price Mileage Mazda6
## Accord:30 Min. : 0.00 Min. : 2.00 Min. : 3.00 Min. :0.0000
## Maxima:30 1st Qu.: 3.00 1st Qu.: 9.50 1st Qu.: 34.50 1st Qu.:0.0000
## Mazda6:30 Median : 4.00 Median :14.80 Median : 52.35 Median :0.0000
## Mean : 5.50 Mean :13.75 Mean : 59.50 Mean :0.3333
## 3rd Qu.: 7.75 3rd Qu.:17.57 3rd Qu.: 76.25 3rd Qu.:1.0000
## Max. :18.00 Max. :27.00 Max. :150.50 Max. :1.0000
## Accord Maxima
## Min. :0.0000 Min. :0.0000
## 1st Qu.:0.0000 1st Qu.:0.0000
## Median :0.0000 Median :0.0000
## Mean :0.3333 Mean :0.3333
## 3rd Qu.:1.0000 3rd Qu.:1.0000
## Max. :1.0000 Max. :1.0000
Histogramas das váriaveis
Verificando a normalidade dos dados
Verificando normalidade para identificar qual tipo de correlação utilizar
##
## Shapiro-Wilk normality test
##
## data: Price
## W = 0.97092, p-value = 0.04107
##
## Shapiro-Wilk normality test
##
## data: Age
## W = 0.87996, p-value = 5.706e-07
##
## Shapiro-Wilk normality test
##
## data: Mileage
## W = 0.9376, p-value = 0.0003102
como podemos visualisar atráves dos Resultados do teste de Shapiro ,os nossos dados não seguem uma distribuição normal, e com isso utilizaremos a correlação de Spearman
verificando a Correlação entre as variáveis:
Correlação de Spearman
## Age Price Mileage Mazda6 Accord
## Age 1.00000000 -0.89177971 0.826601141 0.05447174 0.01190139
## Price -0.89177971 1.00000000 -0.834876290 -0.24318458 0.05852763
## Mileage 0.82660114 -0.83487629 1.000000000 0.12157577 -0.11794665
## Mazda6 0.05447174 -0.24318458 0.121575774 1.00000000 -0.50000000
## Accord 0.01190139 0.05852763 -0.117946647 -0.50000000 1.00000000
## Maxima -0.06637313 0.18465695 -0.003629128 -0.50000000 -0.50000000
## Maxima
## Age -0.066373131
## Price 0.184656948
## Mileage -0.003629128
## Mazda6 -0.500000000
## Accord -0.500000000
## Maxima 1.000000000
Modelo inicial
##
## Call:
## lm(formula = Price ~ Age + Mileage + CarType)
##
## Residuals:
## Min 1Q Median 3Q Max
## -4.588 -1.632 -0.178 1.196 6.861
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 21.82336 0.53971 40.435 < 2e-16 ***
## Age -0.81720 0.10799 -7.567 4.17e-11 ***
## Mileage -0.05198 0.01158 -4.490 2.23e-05 ***
## CarTypeMaxima 0.32571 0.58733 0.555 0.58065
## CarTypeMazda6 -1.79011 0.57428 -3.117 0.00249 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.187 on 85 degrees of freedom
## Multiple R-squared: 0.8517, Adjusted R-squared: 0.8447
## F-statistic: 122 on 4 and 85 DF, p-value: < 2.2e-16
Podemos observar que o coeficiente R² do nosso modelo foi de 0,8447 (84,47%), indicando que o modelo ajustado explica quase totalmente a variabilidade dos dados. Em contraste, a variabilidade não explicada pelo modelo é de apenas 0,1553 (15,53%). Portanto, este é um excelente modelo, capaz de capturar a relação e o comportamento das variáveis de maneira precisa.
Agora iremos para o Método de seleção de Váriavel(Método Backward)
## Start: AIC=145.72
## Price ~ Age + Mileage + CarType
##
## Df Sum of Sq RSS AIC
## <none> 406.58 145.72
## - CarType 2 76.218 482.80 157.18
## - Mileage 1 96.414 503.00 162.87
## - Age 1 273.926 680.51 190.07
##
## Call:
## lm(formula = Price ~ Age + Mileage + CarType)
##
## Residuals:
## Min 1Q Median 3Q Max
## -4.588 -1.632 -0.178 1.196 6.861
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 21.82336 0.53971 40.435 < 2e-16 ***
## Age -0.81720 0.10799 -7.567 4.17e-11 ***
## Mileage -0.05198 0.01158 -4.490 2.23e-05 ***
## CarTypeMaxima 0.32571 0.58733 0.555 0.58065
## CarTypeMazda6 -1.79011 0.57428 -3.117 0.00249 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.187 on 85 degrees of freedom
## Multiple R-squared: 0.8517, Adjusted R-squared: 0.8447
## F-statistic: 122 on 4 and 85 DF, p-value: < 2.2e-16
Todas as variáveis foram mantidas no modelo, sem sofrerem alterações. Assim, voltaremos a nosso modelo inicial. para que possamos seguir nossa ánalise de regressão múltipla
Checando os Pressupostos Da Regressão Linear Múltipla, que são eles
1° Normalidade dos Resíduos
2° indepêndência dos Resíduos
3° Variância constante
4° Ausência de multicolinearidade
Agora iremos fazer esse checagem
Teste de normalidade dos Resíduos
##
## Shapiro-Wilk normality test
##
## data: modelo1$residuals
## W = 0.97349, p-value = 0.06249
como obtevemos um, P-valor > 0,05 . Não rejeitamos H0, portanto os residuos seguem normalidade
indepêndência dos resíduos
##
## Breusch-Godfrey test for serial correlation of order up to 3
##
## data: modelo1
## LM test = 7.0722, df = 3, p-value = 0.06963
como obtevemos um, P-valor > 0,05 . Não rejeitamos H0, portantoos erros são independentes.
Variância constante
##
## studentized Breusch-Pagan test
##
## data: modelo1
## BP = 2.4257, df = 4, p-value = 0.658
como obtevemos um, P-valor > 0,05 . Não rejeitamos H0, portanto temos Variância constante
Ausência de multicolinearidade
## GVIF Df GVIF^(1/(2*Df))
## Age 3.365583 1 1.834552
## Mileage 3.323603 1 1.823075
## CarType 1.103499 2 1.024927
valores baixos não são entendidos como multicolinearidade
Ánalisando Graficamente
Apesar da variação significativa, esta se mantém constante ao longo do tempo, indicando uma estabilidade no comportamento dos dados, mesmo com flutuações aparentes. Isso sugere que, embora existam mudanças, a amplitude dessas variações não aumenta nem diminuiu de forma significativa, proporcionando uma base confiável para análise e previsões
Agora gráfico de envelope simulado
## [1] 39 61
Os pontos do gráfico estão praticamente todos contidos dentro do envelope, embora haja algumas exceções. Isto indica que a maioria dos dados segue o padrão esperado, com os pontos se distribuindo de maneira consistente dentro dos limites estabelecidos pelo envelope.
ANOVA
Todas as variáveis são significativas para o modelo?
## Analysis of Variance Table
##
## Response: Price
## Df Sum Sq Mean Sq F value Pr(>F)
## Age 1 2150.85 2150.85 449.655 < 2.2e-16 ***
## Mileage 1 107.62 107.62 22.498 8.398e-06 ***
## CarType 2 76.22 38.11 7.967 0.0006741 ***
## Residuals 85 406.58 4.78
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Todas as variáveis são significativas ao modelo, retornaremos ao mesmo para as devidas interpretações.
Gráfico de perpctiva
A imagem em 3d mostra a relação entre três variáveis: preço, quilometragem e idade. O eixo x representa a quilometragem, o eixo y representa a idade, e o eixo z representa o preço. O gráfico mostra uma superfície colorida que inclina-se negativamente, sugerindo que, à medida que a quilometragem e a idade aumentam, o preço tende a diminuir. As cores na superfície variam de acordo com a altura (valor do Preço), indo do vermelho ao roxo.
Interpretando o modelo
Um coeficiente de determinação (R²) de 0.8447 indica que o modelo de regressão ajustado é capaz de explicar cerca de 84.47% da variabilidade observada nos dados. Isso sugere que a grande maioria da variação na variável dependente pode ser atribuída às variáveis independentes incluídas no modelo. Portanto, apenas uma pequena parte da variabilidade dos dados não é explicada pelo modelo, e com isso concluimos que quanto mais quilometros rodados e idade tiver o carro mais isso vai interferir no seu preço.