Dados

Com a instabilidade atual da economia, muitas pessoas acabam optando por comprar um carro usado ao invés de um zero quilômetro. Além de não contar com a depreciação de um carro novo, ele é mais acessível. Mas, comprar um carro de segunda mão requer alguns cuidados. Aqui analisaremos o quanto a condição em que o carro se encontra e quantos quilômetros rodados ele tem influenciam no preço de venda. O conjunto de dados utilizado tem preços de vendas de carros em leilões coletados em 2015 juntamente com um valor entre 0 e 5 que representa a condição atual e a quantidade de quilômetros rodados. O restante das informações sobre os modelos vendidos não são utilizados nessa análise. Os dados estão disponíveis em https://www.kaggle.com/tunguz/used-car-auction-prices. Os dados mais recentes são apenas até o ano de 2015, mas representam a influência desses fatores num passado próximo.

ggplot(dados_so, aes(x = "", y = sellingprice)) + 
  geom_quasirandom(size = 1, width = .2,alpha = 0.2) + 
  geom_point(aes(y = median(sellingprice)), color = "red", size = 3) + 
  labs(y="Preço de Venda", x= "", title = "Distribuição dos preços de Venda") 

Para os preços de venda temos uma distribuição assimétrica, com predominância de preços mais baixos na faixa de valores e poucos valores mais altos, sendo metade dos valores acima de 20000 (mediana) e metade abaixo, com poucos valores extremos na faixa.

ggplot(dados_so, aes(x = "", y = condition)) + 
  geom_quasirandom(size = 1, width = .2,alpha = 0.2) + 
  geom_point(aes(y = median(condition)), color = "red", size = 3) + 
  labs(y="Condição", x= "", title = "Distribuição da condição atual dos carros") 

Para a condição temos uma distribuição também assimétrica, com predominância de condição melhor na faixa de valores e menos valores baixos, sendo metade dos valores acima de 4.4 (mediana) e metade abaixo, com alguns valores extremos na porção inferior da faixa sem outros valores próximos.

ggplot(dados_so, aes(x = "", y = odometer)) + 
  geom_quasirandom(size = 1, width = .2,alpha = 0.2) + 
  geom_point(aes(y = median(odometer)), color = "red", size = 3) + 
  labs(y="Km rodados", x= "", title = "Distribuição da quilometragem dos carros") 

Para a quilometragem temos uma distribuição mais uma vez assimétrica, com predominância de quilometragem menor na faixa de valores e menos valores altos, sendo metade dos valores acima de 12000 (mediana) e metade abaixo, com poucos valores na porção superior da faixa.


Análise

m1 = lm(sellingprice ~ condition + odometer, data = dados_so)

tidy(m1, conf.int = TRUE) %>% select(-p.value, -std.error)
glance(m1) 

Foi utilizada regressão linear múltipla para analisar a associação entre a condição em que o carro se encontra, quantos quilometros rodados ele tem e o preço de venda. Um modelo no seguinte formato: preço de venda = 7 + 4.2 x condição + 4.2 x quilometragem explica 12% da variância da variável de resposta (R^2 = 0.1205). Com isso vemos que a variação no preço de venda de um carro usado é pouco influenciada pelos fatores condição e quilometragem, se apenas eles são considerados.