QUAIS CARACTERÍSTICAS DO CARRO EXPLICA A SUA EFICIÊNCIA? UMA ANÁLISE EXPLORATÓRIA DA BASE DE DADOS MTCARS

Saulo Gil

2021-10-04

INTRODUÇÃO

A base de dados r mtcars consiste de uma planilha disponível no base r cujo os dados foram extraídos da revista Motor Trend US magazine de 1974. Os dados inseridos consistem do consumo de combustível, 10 características físicas e/ou performance de 32 automóveis (modelos de 1973-1974). A planilha do r mtcars consiste em 32 obsevações (modelo do carro) com 11 variáveis numéricas.

  • mpg = Milhas por galão (do inglês Miles/(US) gallon);
  • cyl = Número de cilindos (do inglês Number of cylinders);
  • disp = Deslocamento do motor (cu.in.)(do inglês Displacement);
  • hp = Cavalos de potência (do inglês Gross horsepower);
  • drat = Razão do eixo traseiro (do inglês Rear axle ratio);
  • wt = Peso (1000 lbs)(do inglês Weight);
  • qsec = Tempo para percorrer 1/4 de uma milha (do inglês 1/4 mile time);
  • vs = Motor (0 = V-shaped, 1 = straight)(do ingês Engine);
  • am = Transmissão (0 = automatic, 1 = manual)(do inglês Transmission);
  • gear = Número de eixos dianteiros (do inglês Number of forward gears);
  • carb = Número de carburadores (do inglês Number of carburetors).

Uma breve descrição da variáveis pode ser visualizada abaixo e o súmario das variaveis pode ser visualizado na tabela 1.

tibble::glimpse(mtcars)
## Rows: 32
## Columns: 11
## $ mpg  <dbl> 21.0, 21.0, 22.8, 21.4, 18.7, 18.1, 14.3, 24.4, 22.8, 19.2, 17.8,~
## $ cyl  <dbl> 6, 6, 4, 6, 8, 6, 8, 4, 4, 6, 6, 8, 8, 8, 8, 8, 8, 4, 4, 4, 4, 8,~
## $ disp <dbl> 160.0, 160.0, 108.0, 258.0, 360.0, 225.0, 360.0, 146.7, 140.8, 16~
## $ hp   <dbl> 110, 110, 93, 110, 175, 105, 245, 62, 95, 123, 123, 180, 180, 180~
## $ drat <dbl> 3.90, 3.90, 3.85, 3.08, 3.15, 2.76, 3.21, 3.69, 3.92, 3.92, 3.92,~
## $ wt   <dbl> 2.620, 2.875, 2.320, 3.215, 3.440, 3.460, 3.570, 3.190, 3.150, 3.~
## $ qsec <dbl> 16.46, 17.02, 18.61, 19.44, 17.02, 20.22, 15.84, 20.00, 22.90, 18~
## $ vs   <dbl> 0, 0, 1, 1, 0, 1, 0, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0,~
## $ am   <dbl> 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0,~
## $ gear <dbl> 4, 4, 4, 3, 3, 3, 3, 4, 4, 4, 4, 3, 3, 3, 3, 3, 3, 4, 4, 4, 3, 3,~
## $ carb <dbl> 4, 4, 1, 1, 2, 1, 4, 2, 2, 4, 4, 3, 3, 3, 4, 4, 4, 1, 2, 1, 1, 2,~
Tabela 1. Estatistíca descritiva de cada variável.
name Paramêtro Q1 Mediana Média Desvio Padrão Q3 Máximo
am 0.00 0.00 0.00 0.41 0.50 1.00 1.00
carb 1.00 2.00 2.00 2.81 1.62 4.00 8.00
cyl 4.00 4.00 6.00 6.19 1.79 8.00 8.00
disp 71.10 120.83 196.30 230.72 123.94 326.00 472.00
drat 2.76 3.08 3.70 3.60 0.53 3.92 4.93
gear 3.00 3.00 4.00 3.69 0.74 4.00 5.00
hp 52.00 96.50 123.00 146.69 68.56 180.00 335.00
mpg 10.40 15.43 19.20 20.09 6.03 22.80 33.90
qsec 14.50 16.89 17.71 17.85 1.79 18.90 22.90
vs 0.00 0.00 0.00 0.44 0.50 1.00 1.00
wt 1.51 2.58 3.33 3.22 0.98 3.61 5.42

A eficiência de um carro pode ser avaliada, ao menos em parte, pela distância percorrida por unidade de combustível utilizado como, por exemplo, milhas por galão de combustível (expresso na base de dados mtcars como mpg). Dado que um carro é composto por um complexo sistema mecânico, é razoávelmente lógico imaginar que outras caracterísitcas do carro possam estar associadas com a sua eficiência. Desta forma, o objetivo deste projeto é buscar, de maneira exploratória, possíveis associações entre distintas características do carro com a variável de eficiência, ou seja, mpg.

VERIFICANDO A PRESENÇA DE OUTLIERS

Uma vez que a presença de dados faltantes pode influenciar na análise dos dados, primeiramente, foi verificada a presença de outliers utilizando a função md.pattern do pacote mice. Como podemos ver no output da função, não há dados faltantes nesta base de dados e, portanto, podemos partir para os próximos da passos da análise.

##  /\     /\
## {  `---'  }
## {  O   O  }
## ==>  V <==  No need for mice. This data set is completely observed.
##  \  \|/  /
##   `-----'
##    mpg cyl disp hp drat wt qsec vs am gear carb  
## 32   1   1    1  1    1  1    1  1  1    1    1 0
##      0   0    0  0    0  0    0  0  0    0    0 0

VISUALIZANDO OS DADOS - mpg vs. CARACTERÍSTICAS:

O primeiro passo foi explorar as associações bivariada plotando as distintas variáveis dos carros (eixo x - variável independente) com o mpg (eixo y - variável dependente). Após análise por inspeção visual da nuvem dos dados de cada gráfico é possível identificar alguns padrões de dispersão que sugerem associações lineares entre os diferentes paramêtros do carro com a variável mpg (Figura 1).

Também foi realizada a correlação bivariada (Pearson) e, corroborando a inspeção visual, nota-se que distintas variáveis apresentam forte associação com a variável mpg.

MODELAGEM

Conforme observado nas análises exploratórias acima descritas (gráfico de dispersão e matriz de correlação), há várias relações lineares entre as diferentes características físicas e desempenho do carro com a variável de eficiência, ou seja, mpg. Por conta disso, optei por construir um modelo de regressão utilizando a estratégia de “redução do modelo” onde são inseridas todas as variáveis preditoras candidatas ao modelo e, em seguida, são removidas sistematicamente as variáveis com o valor-p mais alto, um a um, até que você fique com apenas variáveis preditoras significativas.

O descrição do modelo pode ser observado abaixo:

lm(mpg ~ wt + cyl + disp + hp + drat + wt + qsec + vs + am + gear + carb, mtcars)

O retorno da fórmula acima pode ser visto na tabela abaixo:

Tabela 2. Resultados da regressão linear multivariada.
Parameter Coefficient SE CI CI_low CI_high t df_error p
(Intercept) 12.30 18.72 0.95 -26.62 51.23 0.66 21 0.52
cyl -0.11 1.05 0.95 -2.28 2.06 -0.11 21 0.92
disp 0.01 0.02 0.95 -0.02 0.05 0.75 21 0.46
hp -0.02 0.02 0.95 -0.07 0.02 -0.99 21 0.33
drat 0.79 1.64 0.95 -2.61 4.19 0.48 21 0.64
wt -3.72 1.89 0.95 -7.65 0.22 -1.96 21 0.06
qsec 0.82 0.73 0.95 -0.70 2.34 1.12 21 0.27
vs 0.32 2.10 0.95 -4.06 4.69 0.15 21 0.88
am 2.52 2.06 0.95 -1.76 6.80 1.23 21 0.23
gear 0.66 1.49 0.95 -2.45 3.76 0.44 21 0.67
carb -0.20 0.83 0.95 -1.92 1.52 -0.24 21 0.81

Após observado os valores de p do modelo em cima foi iniciada a estratégia de “redução do modelo”. Por fim, o modelo com apenas variáveis preditoras significantes foi o seguinte:

lm(mpg ~ wt + qsec + am, mtcars)

Tabela 3. Resultados da regressão linear multivariada do modelo reduzido.
Parameter Coefficient SE CI CI_low CI_high t df_error p
(Intercept) 9.62 6.96 0.95 -4.64 23.87 1.38 28 0.18
wt -3.92 0.71 0.95 -5.37 -2.46 -5.51 28 0.00
qsec 1.23 0.29 0.95 0.63 1.82 4.25 28 0.00
am 2.94 1.41 0.95 0.05 5.83 2.08 28 0.05

Embora este modelo se resuma em apenas variáveis preditoras significantes, o que pode ser uma crítica, visto que outras variáveis podem ser importantes mesmo que elas náo apresentem relação significante, a inserção de muitas variáveis preditoras, em contrapartida, pode introduzir ao modelo ruídos aleatórios por conta de overfitting. Sendo assim, verificar indicadores de qualidade do modelo se torna fundamental.

DIAGNÓSTICO DO MODELO

Um dos problemas que podem afetar a qualidade do modelo é a multicolinearidade. Vale lembrar que a matriz de correlação apresentada anterioremente já indicava distintas correlações entre as variáveis. Um indicador de multicolinearidade é o “Fator de inflação da Variância (VIF)”. Este indicador sugere que variáveis com índices maiores que 5 podem ser excluídos do modelo. Como podemos observar no modelo proposto, o modelo não apresenta problemas com multicolinearidade visto que todos os valores observados são menores que 5 (Tabela 4).

Tabela 4. Fator de Inflação da Variância (VIF) das variáveis inseridas no modelo.
Term VIF SE_factor
wt 2.48 1.58
qsec 1.36 1.17
am 2.54 1.59

Os indicadores R2, R2 ajustado e a Raiz do Erro Quadrático Médio são indicadores de qualidade do modelo. Resumidamente, o R2 e R2 ajustado indicam o quão próximos os dados estão da linha de regressão ajustada. Estes índices variam de 0 á 1, sendo 1 o modelo “perfeito”. Já a Raiz do Erro Quadrático Médio consiste na raiz quadrática média dos erros entre valores observados e predições e, sendo assim, quanto menor o valor menor o erro. Como podemos observar na tabela 5, os 3 paramêtros apresentaram valores aceitavéis e, desta maneira, indicam uma qualidade do modelo proposto.

Tabela 5. Indicadores de qualidade do modelo de regessão.
Name Model R2 R2_adjusted RMSE
M7 lm 0.85 0.83 2.3

A heterocedasticidade consiste na variância dos dados cuja distribuição não é constante. Em particular a heterocedasticidade dos resíduos de um modelo de regressão pode afetar a qualidade da predição e, portanto, não é sugerido que o resíduos apresentem esse padrão de distribuição. Outro indicador de qualidade de modelo é que os resíduos devem apresentar distribuição normal. Ao verificar no layout mais alto a esquerda e a direita na figura abaixo, o modelo aqui proposto parece asssumir um padrão homocedástico e uma distrivuição normal dos resíduos.

Adicionalmente, foi realizado o teste de heterocedasticidade de Breusch-Pagan e o teste de normalidade de Shapiro-Wilk e ambos os testes rejeitaram a hipótese nula e, portanto, reforçam a sugestão acima de homocedasticidade e normalidade dos resíduos. Embora alguns 3 valores apresentaram uma elevada distância de Cook, estes não apresentaram um elevado fator de alavancagem e, portanto, foram mantidos no modelo. Esses resultados analisados em conjunto sugerem uma boa qualidade no modelo de regressão proposto.

## 
##  Breusch-Godfrey test for serial correlation of order up to 1
## 
## data:  M7
## LM test = 0.57175, df = 1, p-value = 0.4496
## 
##  Shapiro-Wilk normality test
## 
## data:  norm_test$.resid
## W = 0.9411, p-value = 0.08043

EXPLORANDO AS INTERAÇÕES

O modelo proposto para explicar a eficiência do carro (mpg) envolve as variáveis peso (wt), qsec (1/4 mile time) e tramsnmissão (automático ou manual). Embora eu tenha pouco conhecimento sobre mecânica de automóveis, eu imagino que os elementos constituintes para alterar a transmissão do automóvel possam impactar o peso e a eficiência do automóvel.

Sendo assim, quando suspeita-se que a inclinação das retas podem variar entre as categorias da variável preditora, no caso transmissão do automóvel, sugere-se testar a interação entre as duas variáveis. A figura abaixo indica o a inclinação das retas considerando a transmissão do automóvel.

Primeiramente, podemos observar que carros com transmissão automática apresentam maior peso e menor eficiência do que carros com transmissão manual. Além disso, nota-se que a variável am (transmissão) influência na inclinação da reta.

Neste sentido foi ajustado o modelo proposto com uma interação entre as variáveis peso (wt) e transmissão (am) do automóvel. O novo modelo ficou da seguinte maneira:

lm(mpg ~ qsec + wt * am, mtcars)

Tabela 6. Resultados da regressão linear multivariada do modelo reduzido com interação.
Parameter Coefficient SE CI CI_low CI_high t df_error p
(Intercept) 9.72 5.90 0.95 -2.38 21.83 1.65 27 0.11
qsec 1.02 0.25 0.95 0.50 1.53 4.04 27 0.00
wt -2.94 0.67 0.95 -4.30 -1.57 -4.41 27 0.00
am 14.08 3.44 0.95 7.03 21.13 4.10 27 0.00
wt:am -4.14 1.20 0.95 -6.60 -1.69 -3.46 27 0.00

Como podemos observar, a inserção da interação entre as variáveis de peso e transmissão do automóvel promoveu um ajuste no modelo de regressão sendo que as variáveis preditores aumentaram o coeficiente e a probabilidade de acerto (todos p < 0.01).

DIAGNÓSTICO DO NOVO MODELO

Afim de testar a qualidade do modelo coma interação, as métricas de diagnóstico foram realizadas novamente. Como podemos observar, tanto a variável am quanto a wt*am apresentaram elevados valores de VIF, indicando multicolinearidade. Considerando que as variáveis com VIF elevado não adicionam ajustes importantes ao modelo, optei por não seguir o diagnóstico deste modelo uma vez que o modelo anteriormente proposto atendeu todos os requisitos de diagnóstico e, portanto, apresentam melhor qualidade.

Tabela 7. Fator de Inflação da Variância (VIF) das variáveis inseridas no novo modelo.
Term VIF SE_factor
qsec 1.45 1.20
wt 3.03 1.74
am 20.97 4.58
wt:am 16.30 4.04

CONCLUSÃO

O modelo ajustado indica que as variáveis independentes wt, qsec e am estão significativamente associadas com a variável dependente mpg. Assim, o modelo proposto fica da seguinte forma:

mpg = 9.62(intercept) - 3.92 (wt) + 1.23 (qsec) + 2.94 (am)

Podendo ser descrito como:

  1. Para cada unidade de peso (1000 libras) aumentada, o carro perderá 3.92 de sua eficiência (milhas por galão);

  2. Para cada aumento na variável qsec, o carro aumentará sua eficiência em 1.23 mpg;

  3. Quando a transmissão do carro for manual, a eficiência do carro aumentará 2.94 mpg.

Após análise diagnóstica pudemos observar que o modelo proposto apresenta homocedasticidade e normalidade dos dados e nenhum ponto de alavancagem sugerindo uma boa qualidade do modelo proposto.

Pro fim, os resultados analisados em conjunto indicam que carros mais leves, com maior torque e com transmissão manual serão mais eficiêntes e, portanto, farão uma maior distância por galão de combustível.