Hotéis

Aplicação de Regressão Linear Múltipla

Daví Barbosa Pereira de Sousa

24 de Dezembro de 2022

Metodologia

Regressão Linear Múltipla

Na regressão linear múltipla é realizada a tentativa de explicação de uma variável em função de outras, desta forma, pode-se escrever a sua função da seguinte forma: \[y_i = \beta_0 + \beta_1x_{1i} + \beta_2x_{2i} + \cdots + \beta_jx_{ji} + \varepsilon_i, \ \ i=1,2,\dots,n\] onde,

  • \(y_i\) é a variável dependente a ser predita;
  • \(x_{ji}\) são as variáveis dependentes/explicativas;
  • \(\beta_j\) são os parâmetros do modelo;
  • \(\varepsilon_i\) é o erro aleatório do modelo.

Aplicação

O banco de dados foi obtido no site da Kaggle e trata-se de 150 observações de hotéis de três cidades da Alemanha. As variáveis são as que seguem:

  • Preco: valor de venda do hotel (em milhões de euros);
  • Lucro: quanto dinheiro este hotel faz em um ano;
  • MetroQuadrado: área do hotel;
  • Cidade: local onde está localizado o hotel.

Tendo conhecimento das variáveis contidas na base de dados, será realizada a leitura dela:

##   Preco  Lucro MetroQuadrado  Cidade
## 1 21.88 119000          3938  Berlim
## 2 27.95 250000          3986 Munique
## 3 16.09 250000          2574 Colonia
## 4 27.58 145000          4155 Munique
## 5 23.76 110000          3795  Berlim
## 6 22.88 246000          2773 Munique

Com esta observação, é realizada a análise descritiva de cada variável:

Tabela 1 - Preço
Mínimo Média Mediana Variância Máximo
4.16 17.10193 17.085 42.66298 35.35

Pode-se observar que o preço de venda dos dados coletados estão entre 4.16 milhões de euros a 35.5 milhões, com média e mediana em 17 milhões e variância em 42 milhões, segue histograma:

Pode-se verificar maior frequência de observações entre 5 a 25 milhões de euros, o que pode explicar a variância ser um tanto alta. Prosseguindo de forma semelhante para a variável “Lucro”:

Tabela 2 - Lucro
Mínimo Média Mediana Variância Máximo
2000 106126.7 88500 5839024116 250000

É possível identificar que o lucro anual vai de 2 mil euros a 250 mil, a média está em 106 mil, a mediana em 88 mil e variancia em 5.839 bilhões. Também é válido observar que como os valores da média e mediana estão bem distantes, há valores altos e baixos desproporcionais inflando o cálculo da média. Abaixo segue uma análise gráfica desta variável:

Como foi suposto, há grande quantidade de observações com valores altos e baixos, também há alta variabilidade, como observado na descritiva anterior. Será verificada a variável “Metro Quadrado”:

Tabela 3 - Metro Quadrado
Mínimo Média Mediana Variância Máximo
82 2594.68 2578.5 2057765 5741

Para a variável Metro Quadrado são observadas áreas de 82 metros quadrados a 5741 m², onde a média e mediana estão centradas na casa dos 2.5 mil m² e a variância em 2.057 milhões, sua análise gráfica:

é possível identificar que há menor frequência de observações com áreas superiores a 4 mil metroa quadrados, o que pode explicar a variância elevada, semelhante ao que ocorreu na variável Preço. Por fim, será verificada a variável Cidade:

Tabela 4 - Cidade
Berlim Colonia Munique
48 61 41

Pode-se identificar que Colônia foi a cidade com maior número de observações, seguida por Berlim e Munique. Segue uma análise gráfica, apenas para observação da discrepância:

Com a análise descritiva dos dados completos realizada, é importante que seja realizada a análise por classe, que no caso do banco de dados utilizado, apenas tem-se a variável Cidade composta por três classes. Seguem as análises:

Tabela 5 - Mínimo por cidade
Cidade Preço Lucro Metro Quadrado
Berlim 6.62 3000 114
Colonia 4.16 7000 179
Munique 7.84 2000 82

Fazendo as análises individuais para cada cidade, é possível observar que o preço mínimo de venda de hotéis em cada uma delas é bem diferente, sendo que Colônia é aquela com valor mais barato (4.6 milhões de euros), seguida por Berlim (6.62 milhões) e Munique, onde há o valor mínimo mais alto (7.84 milhões). Em compensação, Lucro e Metro Quadrado de Colônia são maiores, possuindo Lucro de 7 mil euros e área de 179 m², nestas mesmas duas variáveis, Berlim novamente fica entre as duas cidades, possuindo lucro de 3 mil euros e área de 114 m². Munique que possui maior preço de venda, também é aquela com menores lucros e menor área. Seguindo, será verificada a média:

Tabela 6 - Média por cidade
Cidade Preço Lucro Metro Quadrado
Berlim 17.12 91000.0 2589.96
Colonia 14.99 121475.4 2655.18
Munique 20.22 101000.0 2510.20

Para a média, pode-se observar que novamente Colônia é que apresenta menor preço de venda, Berlim segue como a segunda maior e Munique a que possui maior preço de venda (20.22 milhões de euros), analisando o lucro anual, tem-se que Berlim é a que possui menor lucratividade anual e Colônia se destaca com a maior dentre as três. Em termo de área, Munique possui menor média de metros quadrados utilizados, e Colônia a maior. Dando sequência, serão analisadas as medianas:

Tabela 7 - Mediana por cidade
Cidade Preço Lucro Metro Quadrado
Berlim 17.18 84500 2630
Colonia 14.69 102000 2574
Munique 19.37 85000 2501

Já para mediana, de forma semelhante ao observado anteriormente, tem-se que Colônia possui menor preço de venda e Munique o maior, já para lucro tem-se valores diferentes das médias por tratar-se de uma medida de centralidade que não é inflacionada por valores altos ou baixos, a partir disto, observa-se que Colônia (102 mil euros) tem lucros anuais altos em comparação a Berlim e Munique, que estão em par de igualdade com 84.5 mil e 85 mil euros, respectivamente. Já para a variável de metros quadrados é possível observar que Munique é aquela com menores áreas, semelhante ao observado em médias, mas, agora há um inversão de ranks, sendo que Colônia possui a segunda menor área e Berlim passa a ser considerada como aquela com maior área. Seguindo para a variância:

Tabela 8 - Variância por cidade
Cidade Preço Lucro Metro Quadrado
Berlim 39.32 4419191489 2107402
Colonia 37.86 6792853552 2015623
Munique 39.19 5707750000 2152617

Já para a variância é possível observar que Berlim e Munique possuem variabilidade semelhantes e maiores que a variabilidade de Colônia. Para lucro Colônia teve maior variabilidade, o que pode ser explicado devido a diferença entre os lucros de cada hotel desta cidade, além de ser aquela com maior número de hotéis. Já observando a variável de metros quadrados, é possível observar que Munique é a que possui maior variabilidade, devido a diferença entre as áreas observadas. Por último, serão analisados os valores máximos observados:

Tabela 9 - Máximo por cidade
Cidade Preço Lucro Metro Quadrado
Berlim 31.79 250000 5607
Colonia 28.49 250000 5741
Munique 35.35 250000 5702

No que se refere a preço de venda, é possível identificar que o apartamento maior precificado é em Munique, seguido por Berlim e por último Colônia, ambas com diferenças consideráveis, tendo em vista que a medida utilizada é milhões de euros. Já quanto ao Lucro, ambas as três cidades possuem máximos iguais e em termo de área, Colônia é a cidade que possui o hotel com maior área, seguida de Munique e Berlim. Com isto, dando sequência à análise descritiva, serão análisadas as correlações entre as variáveis quantitativas:

Pode-se identificar certa correlação entre as variáveis preço e lucro e também entre metro quadrado e lucro, já no que se refere ao preço e metro quadrado é possível verificar maior correlação, tendo em vista que estão mais próximos de forma alinhada. Por fim, será verificada a possível presença de outliers (valores discrepantes) nos dados:

Com base na visualização gráfica, não há presença de valores discrepantes em nenhuma das variáveis.

Regressão

Iniciando, é realizada a definição do modelo de regressão múltipla, onde foram obtidos os seguintes valores:

## 
## Call:
## lm(formula = Preco ~ Lucro + MetroQuadrado + Cidade, data = hoteis)
## 
## Coefficients:
##   (Intercept)          Lucro  MetroQuadrado  CidadeColonia  CidadeMunique  
##     6.108e+00      9.021e-06      3.935e-03     -2.658e+00      3.324e+00

Desta forma, o modelo pode ser escrito da seguinte forma:

\[Preço=6.108\ +\ 0.000009021 Lucro\ +\ 0.00393 m^2 \ - \ 2.658 Colônia \ + \ 3.324 Munique\] Com base no modelo proposto, tem-se o seguinte:

  • Cada aumento de um grau no lucro, ocasionará no aumento do preço em \(9.021 \times 10^{-6}\) unidades;
  • O aumento de um grau na área do hotel (em metros quadrados), aumentará o preço do imóvel em \(3.935 \times 10^{-3}\) unidades;
  • Se o hotel for localizado na cidade de Colônia, o valor do hotel diminuirá em \(2.658\) unidade;
  • Já se o hotel for situado na cidade de Munique, o valor do hotel valorizará em \(3.324\) unidades.

Com o modelo proposto, tendo em vista que foi obtida uma correlação moderada na descritiva, será verificado se as variáveis são independentes a partir do teste de Durbin-Watson, cujas hipóteses são as seguintes:

\[H_0:As \ variáveis \ do \ modelo \ são \ independentes\] \[H_1:As \ variáveis \ do \ modelo \ não \ são \ independentes\] Tendo em mente as hipóteses, seguem os resultados do teste:

## 
##  Durbin-Watson test
## 
## data:  modelo
## DW = 2.0112, p-value = 0.5264
## alternative hypothesis: true autocorrelation is greater than 0

Como \(p-valor=0.5264> \alpha=0.05\), não se pode rejeitar a hipótese nula, ou seja, ao nível de confiança de 0.95, afirma-se que as variáveis são independentes. Desta forma, dando sequências às análises, serão verificadas algumas medidas resumo do modelo:

## 
## Call:
## lm(formula = Preco ~ Lucro + MetroQuadrado + Cidade, data = hoteis)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -3.03315 -0.71668 -0.04559  0.60602  2.31211 
## 
## Coefficients:
##                 Estimate Std. Error t value Pr(>|t|)    
## (Intercept)    6.108e+00  2.256e-01  27.076  < 2e-16 ***
## Lucro          9.021e-06  1.512e-06   5.965 1.78e-08 ***
## MetroQuadrado  3.935e-03  7.938e-05  49.566  < 2e-16 ***
## CidadeColonia -2.658e+00  2.147e-01 -12.384  < 2e-16 ***
## CidadeMunique  3.324e+00  2.326e-01  14.290  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.09 on 145 degrees of freedom
## Multiple R-squared:  0.9729, Adjusted R-squared:  0.9722 
## F-statistic:  1302 on 4 and 145 DF,  p-value: < 2.2e-16

Pode-se verificar na parte “Residuals” que os resíduos estão contidos no intervalo de \(-3.03\) a \(2.31\) e mediana está centrada em \(-0.04\). Na parte de “Coefficients” pode-se verificar a significância de cada coeficiente do modelo que, neste caso, todos foram significantes, desta forma, não é necessária a exclusão de nenhuma das variáveis. Mais abaixo, pode-se verificar o R-ajustado, utilizado na regressão múltipla para identificar o quanto o modelo explica a variabilidade do preço de venda, que no caso especificado foi de \(0.9722\), o que é considerado bastante bom. Além disso, observando o \(p-value=2.2\times10^{-16}\), tem-se que o modelo é significante. Dando sequência, observa-se a Análise de Variância (ANOVA):

## Analysis of Variance Table
## 
## Response: Preco
##                Df  Sum Sq Mean Sq F value    Pr(>F)    
## Lucro           1 2240.97 2240.97 1886.48 < 2.2e-16 ***
## MetroQuadrado   1 3076.89 3076.89 2590.16 < 2.2e-16 ***
## Cidade          2  866.68  433.34  364.79 < 2.2e-16 ***
## Residuals     145  172.25    1.19                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Com base na ANOVA, pode-se observar que a soma de quadrado das três variáveis independentes são superiores a soma de quadrado dos resíduos, o que demonstra alta representatividade dos dados e com base no valor F tem-se que todas as três variáveis apresentaram diferença entre suas médias. Seguindo com as análise subsequentes, serão verificados os intervaloes de confiança para os coeficientes:

Tabela 10 - Intervalos de Confiança dos Coeficientes do Modelo
2.5 % 97.5 %
(Intercept) 5.6618698 6.5535526
Lucro 0.0000060 0.0000120
MetroQuadrado 0.0037778 0.0040916
CidadeColonia -3.0825451 -2.2340307
CidadeMunique 2.8642713 3.7837739

Com isto, é possível identificar que ao nível de \(95\%\) de confiança os valores de cada coeficiente do modelo estão contidos nos intervalos especificados na tabela acima. Com isto, serão realizadas as análises dos resíduos, para constatação dos pressupostos de regressão.

Análise dos resíduos

Para dar início às análises dos resíduos, será testada a homocedasticidade utilizando o teste de Breusch-Pagan, cujas hipóteses são as seguintes:

\[H_0:Há \ homocedasticidade \ nos \ resíduos\] \[H_1:Não \ há \ homocedasticidade \ nos \ resíduos\]

## 
##  studentized Breusch-Pagan test
## 
## data:  modelo
## BP = 3.316, df = 4, p-value = 0.5064

Como \(p-valor=0.5> \alpha=0.05\) não rejeita-se a hipótese nula, ou seja, a variância entre os resíduos é constante. Com base nisto, será verificado o comportamento dos resíduos graficamente:

Como a linha vermelha (variação observada) está muito próxima da linha azul (variação teórica) pode-se constatar que a varibilidade dos resíduos é constante. Seguindo, abaixo está representada a comparação entre a distribuição dos resíduos observados e os resíduos em distribuição normal:

Pode-se verificar que os resíduos do modelo seguem quase fielmente a linha normalizada, mas, para fins comprobatórios será realizado o teste de Shapiro-Wilk, cujas hipóteses são:

\[H_0:Há \ normalidade \ nos \ resíduos\] \[H_1:Não \ há \ normalidade \ nos \ resíduos\]

## 
##  Shapiro-Wilk normality test
## 
## data:  modelo$residuals
## W = 0.99062, p-value = 0.4211

Como \(p-valor=0.4211 > \alpha=0.05\), não se rejeita a hipótese nula ao nível de 0.95 de confiança, assim, os resíduos apresentam comportamento de normalidade, como já havia sido constatado na visualização gráfica. Agora será verificada a multicolinearidade entre as variáveis:

Tabela 11 - Multicolinearidade
GVIF Df GVIF^(1/(2*Df))
Lucro 1.674670 1 1.294090
MetroQuadrado 1.626535 1 1.275357
Cidade 1.043918 2 1.010803

Como os valores obtidos foram inferiores a 5, constata-se que não há multicolinearidade entre as variáveis.

Visualização gráfica do modelo

Predição

Para realizar predição acerca do Preço de Venda de um hotel é necessário que os valores das variáveis independentes sugeridos estejam dentro dos valores mínimos e máximos das variáveis originais, desta forma, a predição será realizada sobre um hotel localizado em Munique, com Lucro anual em torno de €125.000,00 e Área de 1950m²:

Tabela 12 - Predição
Lucro MetroQuadrado Cidade preco
125000 1950 Munique 18.23203

Assim, é esperado que um hotel com as características citadas custe cerca de 18.23 milhões de euros.

Conclusão

Com base no exposto, pode-se identificar que o modelo de regressão linear múltipla foi eficaz no que diz respeito à previsão de dados, além de ter obtido valores de resíduos bastante baixos se comparados a variabilidade explicada pelo modelo.

Referências