Modelo de Regressão Múltipla para predição do valor de revenda de motos usadas.

Um estudo de caso para veículos listados no site bikewale de 2001 a 2020.

Escola Nacional de Ciências Estatísticas

Pedro Henrique Ribeiro Alves e Vitor Hugo Cruz de Souza

Resumo

Este trabalho consiste em prever o preço de vendas de motocicletas. Para isso, foi feita a análise e seleção de um modelo de regressão linear múltipla com 3 fatores que explicam os preços de venda das motocicletas: Ano, preço em showroom e quantidade de antigos proprietários. Para a seleção do modelo foi realizada uma análise exploratória seguida do método de seleção stepwise, comparando diversas possibilidades de modelo para explicar os preços de vendas de motocicletas dos anos de 2001 até 2020.

Palavras chave: Modelos Lineares, regressão linear múltipla, stepwise

Introdução

Cresce no mundo cada vez mais a abundância dos dados, de igual forma, cresce a capacidade computacional para analisar estes dados. Com isso, os modelos estatísticos-computacionais para classificação e predição de fenômenos vem ganhando popularidade. Com este artigo, objetiva-se ajustar um modelo de regressão linear múltipla para predição dos valores de venda encontrados para motocicletas no site indiano bikewale. O modelo de regressão múltipla é amplamente utilizado para predição de uma variável resposta com dependência linear da variável explicativa ou da combinação linear de múltiplas variáveis explicativas. O modelo baseia-se em quatro suposições iniciais, são elas: Independência de observações, linearidade, homoscedasticidade, e normalidade dos erros.

Metodologia

A extração dos dados realizou-se através de web-scrapping do site bikeWale e disponibilizados no site kaggle.com, donde foram obtidos para este trabalho. Utilizou-se a modelagem de regressão linear múltipla, em estatística, a regressão linear é uma abordagem linear para modelar a relação entre uma resposta escalar e uma ou mais variáveis explicativas. O caso de uma variável explicativa é chamado de regressão linear simples; para mais de um, o processo é chamado de regressão linear múltipla. Para a seleção do melhor modelo utilizou-se desde seleção manual retirando as variáveis sem significância estatística. Houve ainda a utilização de modelo stepwise para obtenção do melhor modelo em relação ao AIC.

Conjunto de Dados

A base de dados foi adquirida através dos usuários Nehal Birla e Nishant Verma no site kaggle.com, que por sua vez, extraíram de informações contidas no site bikewale.com. BikeWale é uma das principais fontes da Índia de informações relacionadas a bicicletas e scooters. O conjunto de dados é formado pelos seguintes campos.

  • name: Informações sobre o nome da motocicleta.

  • selling_price: Preço pelo qual o vendedor está vendendo a motocicleta.

  • year: Ano em que a bicicleta foi comprada.

  • seller_type: Informa se um vendedor é um indivíduo (Individual) ou um revendedor (Dealer).

  • owner: Número de proprietários anteriores do veículo.

  • km_driven: Número de quilômetros que a motocicleta percorreu.

  • ex_showrrom_price: Preço da motocicleta no showroom.

Dados ausentes

Investigação dos dados ausentes

Investigando os valores NAs nos campos presentes, percebe-se nenhum valor ausente para os campos selling_price, year, owner e km_driven. Mas encontra-se quantidade considerável de valores faltantes para o campo ex_showroom_price.

ex_showroom_price
    Informado Não informado 
          626           435 
Figura 1 - Representação visual da frequência dos dados preço de showroom por tipo de informação.

Figura 1 - Representação visual da frequência dos dados preço de showroom por tipo de informação.

Tratamento dos dados ausentes

Rubin [1] classificou os problemas de dados perdidos em três categorias. Em sua teoria, cada ponto de dados tem alguma probabilidade de estar faltando. O processo que governa essas probabilidades é chamado de mecanismo de dados ausentes ou mecanismo de resposta. O modelo para o processo é chamado de modelo de dados ausentes ou modelo de resposta. É usual definir três tipos de classificações para os dados não informados. Classifica-os em Dados ausentes com distribuição completamente aleatória, Dados ausentes aleatoriamente distribuídos e Dados ausentes não aleatoriamente distribuídos.

No conjunto de dados de estudo, os dados ausentes não são aleatoriamente distribuídos. Vê-se que o ano da compra está diretamente relacionado a presença de dado ausente para a variável preço em showroom para a respectiva motocicleta.

Figura 2 - Proporção de dados ausentes na categoria showroom por ano.

Figura 2 - Proporção de dados ausentes na categoria showroom por ano.

Desta forma, é possível perceber graficamente que a exclusão dos dados faltantes resultará na exclusão dos dados com ano de compra inferior a 2001, e ainda valores dos anos 2002 e 2003. Há assim duas possibilidades: Remover os dados ausentes ou remover a coluna com grande quantidade de dados ausentes. Optamos por permanecer a coluna, pois o campo ex_showroom_price (em tradução livre: preço em showroom) é a variável com maior correlação com a variável resposta. Desta forma, excluí-la não é uma boa opção. Mais informações a respeito desta decisão serão vistas na seção de análise exploratória dados.

Análise Exploratória dos dados

Figura 3 - Gráfico da relação entre as variáveis

Figura 3 - Gráfico da relação entre as variáveis

Observa-se com o gráfico acima a forte correlação entre a variável resposta (preço de venda) e a variável preço em showroom (ex_showroom_price). É possível notar também que a variável tipo de vendedor (seller_type) parece ter um desbalanceamento considerável entre suas respectivas categorias. Há no gráfico ainda, uma apresentação de um possível problema de escala entre as variáveis contínuas do conjunto de dados. Parece que a variável ano (year) está em ordem de grandeza diferente das demais, o que é totalmente previsível dado a natureza da variável em comparação com as demais variáveis contínuas presentes no dataset.

Desbalanceamento nas categorias da variável tipo de vendedor

Figura 4 - Balanceamento entre as categorias da variável tipo de vendedor

Figura 4 - Balanceamento entre as categorias da variável tipo de vendedor

O conjunto de dados utilizado neste estudo tem um desbalanceamento entre as categorias da variável tipo de vendedor (seller_type), Revendedor (Dealer) e Individual (Individual). Desta forma, optamos por excluir os dados referente os revendedores (Dealer). Como apresentou-se em apenas 3 observações, não parece danoso ao estudo destes dados a exclusão destas. De igual forma, havendo homogeneidade perfeita neste campo de dados, excluir-se-á também o campo sobre o tipo de vendedor (seller_type), posto não haver mais necessidade.

Analisando a escala das variáveis

Uma segunda observação notada na introdução desta seção foi o possível desbalanceamento entre as variáveis numéricas do conjunto de dados.

Figura 05.1 - Comparação entre as escalas das variáeis numéricas.

Figura 05.1 - Comparação entre as escalas das variáeis numéricas.

Figura 05.2 - Comparação entre as escalas das variáveis numéricas com limitação nas escalas.

Figura 05.2 - Comparação entre as escalas das variáveis numéricas com limitação nas escalas.

Com as figuras 05, fica claro a diferença de escalas. E isso, provavelmente ocorre pela natureza das variáveis, enquanto a variável ano é discreta, as demais são contínuas. E a variável ano, no contexto que se discute, parece como uma característica qualitativa. Desta forma, será considerado a modelagem de um ajuste com a transformação desta variável para valores categóricos, na seguinte disposição: Motocicletas com ano de venda nos anos 2000s e Motocicletas com ano de venda nos anos 2010s. Serão comparados os dois tratamentos e por fim será utilizado aquele que apresentar melhores métricas para ajuste do modelo. Analisando a distribuição da frequência de motos pelo corte temporal, percebe-se que a presença é predominante a partir do ano 2010.

Analisando a variável Ano

Figura 06 - Densidade da variável ano.

Figura 06 - Densidade da variável ano.

Analisando a variável proprietário

Apesar da diferença entre as frequências, carecemos de mais investigações para saber como remodelar a qualidade dos seus tipos. Uma hipótese inicial seria a aglutinação das categorias 3º proprietário (3rd owner) e 4º proprietário (4th owner). Decide-se proceder desta maneira, pois a categoria 4º proprietário é inexpressiva, mas ainda queremos entender manter uma variável qualitativa com mais de duas categorias. Desta forma, remodela-se o campo proprietário para ter as categorias: 1º e 2º proprietário e 3º proprietário ou mais.

Figura 07 - Frequência das categorias de tipo de proprietário.

Figura 07 - Frequência das categorias de tipo de proprietário.

Análise relacionamento entre as variáveis através de uma abordagem gráfica

Relação entre preço de venda e de showroom

Figura 08.1 - Relação entre preço de venda e de showroom

Figura 08.1 - Relação entre preço de venda e de showroom

Figura 08.2 - Relação entre preço de venda e de showroom (escala limitada)

Figura 08.2 - Relação entre preço de venda e de showroom (escala limitada)

Os dois gráficos anteriores, são na verdade, o mesmo, mas com a diferença de limitação das escalas. Percebe-se não haver significativa diferença entre as categorias de tipo de proprietários. De forma contrária, o próximo gráfico, parece especificar uma diferença entre a natureza do comportamento linear do preço de showroom e preço de venda quando levado em consideração a década do modelo da motocicleta.

Figura 09 - Relação entre preço de venda e de showroom (Agrupamento por década)

Figura 09 - Relação entre preço de venda e de showroom (Agrupamento por década)

Relação entre preço de venda e quilometros dirigidos

Figura 10 - Relação entre preço de venda e quilometros dirigidos (escala limitada)

Figura 10 - Relação entre preço de venda e quilometros dirigidos (escala limitada)

Figura 11 - Relação entre preço de venda e quilometros dirigidos (Agrupamento por década)

Figura 11 - Relação entre preço de venda e quilometros dirigidos (Agrupamento por década)

A relação entre preço de venda e quilômetros parece dispor de aleatoriedade quanto ao tipo de vendedor, mas não dispõe de mesma sorte quando agrupado por década. Os modelos referentes aos valores para os anos 2000s parecem concentrar-se apenas na parte inferior dos preços de vendas, conquanto o contrário não é verdadeiro. Isto também se deve a diferença de quantidade de dados de cada uma das décadas, como também a desvalorização prevista com o passar do tempo.

Modelagem Estatística para Regressão Múltipla

Ajustando o melhor modelo

Realizando seleção manual do modelo.

Parte-se de um modelo com todos as variáveis possíveis e as interações que fazem-se expressivas através das análises gráficas supracitadas. Desta forma, o modelo a seguir exemplifica este pensamento.

Tem-se, contudo, algumas variáveis sem significância estatística. Desta forma, removeremos uma-a-uma, como também as variáveis provenientes a partir delas.

Continua o processo de remoção de variáveis por teste de significância estatística, objetiva-se 5% de significância.

Como x3 não tem significância, considera-se alteração do campo tipo de proprietário. Parece que a manutenção de múltiplas categorias para o campo tipo de proprietário parece não estar correta. Isto é, a quantidade múltipla de categorias afeta a significância estatística dos testes. Repare que a simples remoção de x3 torna a variável em binária.

Desta forma, obtemos o seguinte modelo. As estatísticas de testes para cada variável explicativa tem significância estatística, bem como o modelo em geral.

Método de seleção Stepwise

Em estatística, a regressão stepwise é um método de ajuste de modelos de regressão em que a escolha das variáveis preditivas é realizada por um procedimento automático. Em cada etapa, uma variável é considerada para adição ou subtração do conjunto de variáveis explicativas com base em algum critério pré-especificado. Normalmente, isso assume a forma de uma sequência direta, inversa ou combinada de testes F ou testes t. No modelo abaixo, utiliza-se a medida AIC para determinar qual modelo será escolhido. O AIC estima a quantidade relativa de informação perdida por um determinado modelo: quanto menos informações um modelo perde, maior a qualidade desse modelo e menor a pontuação AIC.

Há uma indicação que a variável ano de forma categórica poderá ser uma boa transformação para a modelagem estatística. Desta forma, transformaremos a variável ano para o tipo categórica e utilizaremos o modelo stepwise para ajuste do modelo.

Modelo ajustado em a variável preço em showroom

O modelo sem a variável ex_showroom_price não será tratada nos testes de comparação de modelos, pois o R-quadrado ajustado não foi relevante. Como todas as variáveis e suas iterações foram utilizadas para a modelagem, infere-se que não haverá grandes melhoras no modelo quanto a explicação da variância dos dados, e por isso, iremos abortar a tentativa de descartar o campo preço de showroom.

Comparação entre os modelos

Analysis of Variance Table

Model 1: y ~ x1 + x2 + x5 + x2 * x5
Model 2: y ~ x5 + x1 + x3 + x4 + x5:x1 + x5:x3 + x1:x4
Model 3: y ~ x5 + x1_new + x2 + x4 + x5:x2 + x2:x4
  Res.Df        RSS Df   Sum of Sq      F    Pr(>F)    
1    621 1.8497e+11                                    
2    618 1.1281e+11  3  7.2164e+10 131.78 < 2.2e-16 ***
3    619 2.5294e+11 -1 -1.4012e+11 767.63 < 2.2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
         R2      R2aj        QM      AIC           pr
1 0.9175263 0.9169951 297865636 13998.10 220629337246
2 0.9497017 0.9491320 182541475 13694.54 144479611273
3 0.8872249 0.8861318 408619747 14197.98 295051827902

É notório que a utilização da variável ano como categórica prejudica o ajuste do modelo. Por esse motivo, a variável ano será mantida em sua condição inicial, de forma a ter o melhor modelo ajustado, desde a explicação da variação da variável resposta a qualidade preditora. Repare que como nosso objetivo é a predição do modelo, a métrica Quadrado Médio dos resíduos e PRESS terão maior peso na decisão final. O modelo ajustado manualmente teve performance melhor ao stepwise com variável ano transformada, contudo, o modelo stepwise com os nenhuma transformação em variáveis, tem o melhor desempenho e, portanto, há de ser o modelo ajustado para continuidade da modelagem estatística.

Análise de resíduos

Existem quatro suposições associadas a um modelo de regressão linear:

  1. Linearidade: A relação entre X e a média de Y é linear.
  2. Homoscedasticidade: A variância do resíduo é a mesma para qualquer valor de X.
  3. Independência: As observações são independentes umas das outras.
  4. Normalidade: Para qualquer valor fixo de X, Y é normalmente distribuído.

A análise de resíduos desempenha um papel importante na validação do modelo de regressão. Se os resíduos do modelo de regressão satisfizerem as quatro premissas mencionadas acima, então o modelo é considerado válido. Como os testes estatísticos de significância também se baseiam nestes pressupostos, as conclusões resultantes destes testes de significância são postas em causa se os pressupostos relativos não forem satisfeitos.

Homoscedasticidade

Com a regressão, assume-se que cada ponto de dados contribui com uma explicação igual para a variabilidade que estamos tentando modelar. Se alguns pontos de dados contribuíram com mais explicações do que outros, nossa linha de regressão será puxada para os pontos com mais informações. homoscedasticidade é o termo para designar variância constante de erros/resíduos para observações distintas.

Figura 12.1 - Modelo de resíduos por valores ajustados.

Figura 12.1 - Modelo de resíduos por valores ajustados.

Figura 12.2 - Modelo de resíduos por valores ajustados. (Escala limitada)

Figura 12.2 - Modelo de resíduos por valores ajustados. (Escala limitada)


    Breusch-Pagan test

data:  formula(ajuste)
BP = 753.2, df = 7, p-value < 2.2e-16

Percebendo os gráficos de pontos entre valores ajustados e resíduos, percebe-se que a suposição de homoscedasticidade não é perfeitamente aceitável. Há ainda o teste Breusch-Pagan que nos mostra a necessidade de rejeição da hipótese nula, em outras palavras. Assume-se heterocedasticidade. Serão realizadas a remoção de pontos influentes para tentativa de garantia desta suposição.

Normalidade

Figura 13 - Distribuição dos resíduos.

Figura 13 - Distribuição dos resíduos.

Figura 14 - QQlot para ajuste a normalidade

Figura 14 - QQlot para ajuste a normalidade


    Shapiro-Wilk normality test

data:  res_t
W = 0.87146, p-value < 2.2e-16

    One-sample Kolmogorov-Smirnov test

data:  res_t
D = 0.083951, p-value = 0.0002944
alternative hypothesis: two-sided

    Lilliefors (Kolmogorov-Smirnov) normality test

data:  res_t
D = 0.093379, p-value = 3.561e-14

Apesar do gráfico de distribuição dos resíduos e o gráfico qqplot, que compara os quantis observados e os quantis teóricos de uma normal padrão, aparentar boa proximidade da suposição de normalidade dos resíduos, os testes estatísticos referentes a suposição de normalidade, mostram não ser correto assumir normalidade dos erros. Para alcançar a suposição de normalidade, será realizado a transformação na variável reposta a partir da transformação de box cox.

Transformação de box-cox

Figura 14 - Gráfico de Box-Cox

Figura 14 - Gráfico de Box-Cox

[1] 0.755

O gráfico de box-cox e a transformação indicada serão implementadas a fim da correção para a suposição de normalidade.


Call:
lm(formula = y^0.75 ~ x5 + x1 + x4 + x2 + x5:x2 + x1:x4 + x5:x1 + 
    x4:x2)

Residuals:
     Min       1Q   Median       3Q      Max 
-3059.53  -365.47   -35.66   295.14  2823.11 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept) -2.241e+05  3.107e+04  -7.213 1.61e-12 ***
x5          -3.306e+00  2.711e-01 -12.196  < 2e-16 ***
x1           1.122e+02  1.543e+01   7.269 1.10e-12 ***
x4           1.505e+00  4.188e-01   3.592 0.000354 ***
x2          -6.679e+02  1.925e+02  -3.470 0.000556 ***
x5:x2        5.825e-03  7.480e-04   7.788 2.89e-14 ***
x1:x4       -7.540e-04  2.080e-04  -3.625 0.000313 ***
x5:x1        1.652e-03  1.346e-04  12.271  < 2e-16 ***
x4:x2        1.140e-02  4.915e-03   2.319 0.020711 *  
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 608.4 on 617 degrees of freedom
Multiple R-squared:  0.9306,    Adjusted R-squared:  0.9297 
F-statistic:  1034 on 8 and 617 DF,  p-value: < 2.2e-16

Repare que o modelo ajustado ganha significância estatística em todas as suas variáveis, sendo isso bom indicativo. Nas seções abaixo, iremos investigar o impacto desta transformação nas suposição anteriormente percebidas como violadas.

Checando suposições de normalidade no modelo ajustado


    Shapiro-Wilk normality test

data:  rstudent(ajuste_t)
W = 0.95306, p-value = 3.178e-13

    One-sample Kolmogorov-Smirnov test

data:  rstudent(ajuste_t)
D = 0.065889, p-value = 0.008719
alternative hypothesis: two-sided

    Lilliefors (Kolmogorov-Smirnov) normality test

data:  rstudent(ajuste_t)
D = 0.068578, p-value = 2.164e-07

Percebe-se aumento do p-valor no teste de Kolmogorov-Smirnov, contudo, não há significância estatística para a aceitação da hipótese de normalidade.

Pontos influentes

Potentially influential observations of
     lm(formula = y^0.75 ~ x5 + x1 + x4 + x2 + x5:x2 + x1:x4 + x5:x1 +      x4:x2) :

    dfb.1_  dfb.x5  dfb.x1  dfb.x4 dfb.x2 dfb.x5:2 dfb.x1:4 dfb.x5:1 dfb.x4:2
7    0.05   -0.05   -0.06   -0.02   0.30  -0.10     0.02     0.05    -0.24   
9    0.15   -0.24   -0.15    0.01  -0.01   0.09    -0.01     0.24    -0.01   
11   0.00    0.02    0.00    0.01   0.03   0.00    -0.01    -0.02    -0.06   
21   0.00    0.00    0.00    0.01  -0.02   0.00    -0.01     0.00     0.04   
57  -0.02    0.00    0.02   -0.04  -0.03   0.01     0.04     0.00     0.03   
    dffit   cov.r   cook.d  hat    
7   -0.32    1.03    0.01    0.05_*
9    0.41_*  1.06_*  0.02    0.07_*
11   0.09    1.05_*  0.00    0.03  
21  -0.05    1.06_*  0.00    0.04  
57   0.31    1.24_*  0.01    0.19_*
 [ reached getOption("max.print") -- omitted 48 rows ]

Checando suposição de homoscedasticidade após remoção dos pontos influentes


    Breusch-Pagan test

data:  formula(ajuste)
BP = 753.2, df = 7, p-value < 2.2e-16

A remoção dos pontos influentes não é suficiente para retirar heterocedasticidade do modelo. Portanto, realizado as transformações possíveis e análises exploratórias diversas, opta-se pelo modelo ajustado transformado, tanto por ganha de significância estatística nas variáveis posteriormente a transformação, quanto pela manutenção da métrica R-quadrado.

Modelo final

Escolhe-se por modelo final, dados todas explicações supracitadas. “lm(formula = y^0.75 ~ x5 + x1 + x4 + x2 + x5:x2 + x1:x4 + x5:x1 + x4:x2)”, ou \(Y^{0.75} = -2\times10^5 - 3.306\times\beta_5 + 112,2\times\beta_1 + 1,505\times\beta_4 -667,9\times\beta_2 + 5,825\times10^{-3}\times\beta_5\beta_2 - 7,540\times10^{-4}\times\beta_1\beta_4 + 1,652\times10^{-3}\times\beta_5\beta_1 + 1,140\times10^{-2}\times\beta_4\beta_2\). O modelo é um modelo hierárquico, isto é, todas as variáveis presentes nas interações também econtram-se no independetemente no modelo.

Métricas do Modelo

         R2     R2aj       QM      AIC        pr
1 0.9305673 0.929667 370208.4 9813.906 254633229

Repare que em relação aos modelos anteriormente propostos, o modelo ajustado transformado tem melhores métricas de Quadrado Médio dos Resíduos e PRESS, fundamentais para a predição. De forma contrária, há redução da medida de R-quadrado ajustado, mas não significativa, o modelo ainda explica 92% da variação da variável resposta. Além disso, a métrica AIC, sobre perda de informação, segue a percepção das variáveis, sendo menor que todos os anteriormente estudados. Ficando evidente que o modelo ajustado transformado é a melhor opção.

Análise dos resíduos

Normalidade

Figura 15 - Distribuição dos resíduos.

Figura 15 - Distribuição dos resíduos.

Figura 16 - QQlot para ajuste a normalidade

Figura 16 - QQlot para ajuste a normalidade


    Shapiro-Wilk normality test

data:  res_t
W = 0.95306, p-value = 3.178e-13

    One-sample Kolmogorov-Smirnov test

data:  res_t
D = 0.065889, p-value = 0.008719
alternative hypothesis: two-sided

    Lilliefors (Kolmogorov-Smirnov) normality test

data:  res_t
D = 0.068578, p-value = 2.164e-07

Conforme os gráficos anteriores, a suposição de normalidade não é viável quando reparado os valores extremos dos resíduos. Parece ter bom ajuste entre os quantis teóricos da normal e a distribuição dos erros para valores próximos a área central da curva gaussiana. Contudo, estendendo-se as periferias, não se vê o mesmo. Os testes estatísticos corroboram com esta percepção. Ao nível de significância estatística de 5%, não é possível garantir normalidade dos erros. Segundo Knief [2], a violação de normalidade pode ser um dos menores problemas. Há ainda, outras corroborações para a não existência de normalidade dos modelos em de predição de preço. Na literatura acadêmica existe a defesa de não transformação para ajuste a normalidade em valores muito grandes [3], pois tais transformações são muitas vezes desnecessárias e, pior, podem enviesar as estimativas do modelo.

homoscedasticidade

Figura 17 - Modelo de resíduos por valores ajustados. (Escala limitada)

Figura 17 - Modelo de resíduos por valores ajustados. (Escala limitada)


    Breusch-Pagan test

data:  formula(reg)
BP = 277.53, df = 8, p-value < 2.2e-16

É perceptível a violação da homoscedasticidade, isto é, existem pontos influenciados mais na variância dos ajustes que outros. Ainda que a remoção de pontos influentes possa ser eficaz na resolução ou amenização deste problema, não foi o caso quando aplicado no modelo ajustado. Houve ainda detrimento das métricas de predição, perda de informação e explicação da variação dos dados. Desta maneira, opta-se pela manutenção do modelo com os pontos de influência.

Palavras finais

\[Y^{0.75} = -2\times10^5 - 3.306\times\beta_5 + 112,2\times\beta_1 + 1,505\times\beta_4 -667,9\times\beta_2 + 5,825\times10^{-3}\times\beta_5\beta_2 - 7,540\times10^{-4}\times\beta_1\beta_4 + 1,652\times10^{-3}\times\beta_5\beta_1 + 1,140\times10^{-2}\times\beta_4\beta_2\]

Há violações em normalidade e homoscedasticidade, mas conforme argumentado anteriormente, não será possível realizar uma transformação que ajuste o modelo para estas suposições. Ainda assim, conforme apresentado em referências a literatura, mantêm-se o modelo como um preditor relativamente bom. É evidente que a qualidade do modelo é muito relativa à comparação a outros. Imagina-se haver outros tipos de modelagem estatísticas que se adequem melhor ao conjunto de dados deste estudo e a predição de valores. Contudo o modelo linear proposto, apesar de perda informação, tem grande explicação da variação dos dados e pouca perda de informação deles. Quando percebido as métricas para predição, repara-se o modelo linear múltiplo ajustado com transformação teve as menores diferença entre os valores reais e os valores preditos e menor quadrado médio dos resíduos.

Referências

[1] DONALD B. RUBIN, Inference and missing data, Biometrika, Volume 63, Issue 3, December 1976, Pages 581–592, https://doi.org/10.1093/biomet/63.3.581

[2] Knief, U., Forstmeier, W. Violating the normality assumption may be the lesser of two evils. Behav Res 53, 2576–2590 (2021). https://doi.org/10.3758/s13428-021-01587-5

[3] A F Schmidt, Chris Finan, Linear regression and the normality assumption, Institute of Cardiovascular Science, Faculty of Population Health, University College London, London, https://discovery.ucl.ac.uk/id/eprint/10070182/1/Schmidt_UCL_depos_JCE2018.pdf