Pesquisa de Preços Imobiliários

João Vítor, Júnia Ortiz e Lucas Rabelo

Objetivos

Os objetivos específicos que norteiam o relatório que se segue são:

Realizar uma análise descritiva e exploratória dos dados;
Ajustar alguns modelos de regressão linear simples, buscando compreender a relação entre a variável resposta com cada uma das variáveis explicativas identificadas;
Realizar algumas análises complementares para auxílio da compreensão dos modelos propostos.

Variáveis

As seguintes variáveis compõem a base de dados analisada:

X2.house.age: idade da casa, em anos;
X3.distance.to.the.nearest.MRT.station: distância até a estação de metrô mais próxima, em jardas;
X4.number.of.convenience.stores: número de lojas de conveniência a menos de 1 milha de distância do imóvel;
Y.house.price.of.unit.area: preço do imóvel em dólares.

Dispersão

Variável Resposta e explicativas

Como o objetivo do departamento da empresa é ajudar a colega na compreensão dos preços imobiliários no novo país, naturalmente, a variável resposta é Y.house.price.of.unit.area, ou seja, o preço do imóvel em dólares.

Por consequência as variáveis explicativas são X2.house.age, X3.distance.to.the.nearest.MRT.station e X4.number.of.convenience.stores.

Modelo 3 - Lojas x Preços

Os efeitos da quantidade de lojas de conveniência próximas ao imóvel no seu preço foram analisados através do ajuste de um modelo de regressão linear simples. A variável resposta continua sendo preço e a variável explicativa agora é a quantidade de lojas de conveniência próximas ao imóvel. O modelo ajustado segue a equação abaixo:

\(Preço = \beta_{0} + Lojas\space \times \space \beta_{1} + \epsilon_{i}\)

Os valores encontrados para \(\beta_{0}\) e \(\beta_{1}\) foram respectivamente 27.181 e -2.638 O que nos sugere uma relação positiva entre a quantidade de lojas e o preço do imóvel, ou seja, quanto mais lojas de conveniência próximas ao imóvel, mais alto será o seu preço.

O valor aproximado do coeficiente \(\beta_{1}\), nos indica em média o crescimento do preço do imóvel para cada loja (unidade) adicionada ao número de lojas de conveniência que se localizam próximas ao imóvel. Assim, a cada adição de 1 loja, o preço médio do imóvel aumenta cerca de 2.638 dólares.

Já em relação ao \(\beta_{0}\), também conhecido como intercept, nos indica o valor esperado da variável resposta (nesse caso o preço dos imóveis), quando temos um imóvel que não é próximo a nenhuma loja de conveniência. Nesse caso, um imóvel com esse tipo de localização custaria em média 27.181 dólares.

Variâncias de \(\hat \beta_{0}\) e \(\hat \beta_{1}\)

Foi previamente mostrado que a variância de \(\hat \beta_{0}\) corresponde a: \[Var(\hat \beta_{0})=\frac{\sum_{i=1}^{n}X_{i}^{2}\cdot \sigma^2}{n\sum_{i=1}^{n}(X_{i}-\overline{X})^{2}}\] Enquanto a de \(\hat \beta_{1}\) é equivalente a: \[Var(\hat \beta_{1}) = \frac{\sigma^{2}}{\sum_{i=1}^{n}(X_{i}-\overline{X})^{2}}\]

Sabemos que \(\sigma^{2}=Var(\epsilon_{i})\), a precisão dos estimadores \(\hat \beta_{1}\) e \(\hat \beta_{0}\) é medida pela raiz quadrada destas variâncias, ou seja, por uma medida chamada de erro padrão, já a dependência entre estes estimadores é medida pela covariância entre eles. No Anexo de Regressão adicionamos o código de uma função para calcular as variâncias de nossos estimadores \(\hat \beta_{0}\) e \(\hat \beta_{1}\), como a função lm() utilizada para calcular os resíduos calcula os erros como \(\hat \epsilon_{i}=(Y_{i}-\hat Y_{i})\), por isso calculamos o estimador da variância \(\hat \sigma^2=\frac{\sum_{i=1}^{n}\hat \epsilon_{i}^{2}}{n-2}\) em nossa função de variâncias dos parâmetros.

Portanto se fossemos calcular a variância dos parâmetros para alguns modelos, como um modelo para responder o preço imobiliário de acordo com a distância para a estação de metrô (em que tivemos uma correlação de -0,62, ou seja, quanto maior a distância, menor os preços de imóveis), teríamos \(\hat \beta_{0} = 45,851\) e \(\hat \beta_{1} = -0,00726\), em que as variâncias dos parâmetros seriam respectivamente \(var(\hat \beta_{0})=0,4259\) e \(var(\hat \beta_{1})=1,541\cdot10^{-7}\), é interessante notar que a correlação é negativa e o estimado \(\hat \beta_{1}\) também é, o que não acontece ao considerarmos um modelo com a quantidade de lojas de conveniências para explicar o preço do imóvel (onde encontramos uma correlação de 0,571), onde tivemos \(\hat \beta_{0} = 27,181\) e \(\hat \beta_{1} = 2,637\), com \(\hat \beta_{1}\) com sinal positivo igualmente ao da correlação positiva, as variâncias dos estimadores foram \(var(\hat \beta_{0})=0,8872\) e \(var(\hat \beta_{1})=0,0349\).

Proposta de Função para calcular Variância


library(tidyverse)

house_prices=read.csv("lab3.csv")

#Funcao para calcular variancias estimadores parametros
variancias_parametros <- function(y,x){
  
  modelo=lm(y~x)
  variance_errors <- sum(modelo$residuals^2)/(length(modelo$residuals)-2)
  
  var_b0 <- (sum(x^2)*variance_errors)/(length(x)*sum((x-mean(x))^2))
  var_b1 <- variance_errors/(sum((x-mean(x))^2))
  return(list("Beta_0"=var_b0,"Beta_1"=var_b1))
  
  }