João Vítor, Júnia Ortiz e Lucas Rabelo
Os objetivos específicos que norteiam o relatório que se segue são:
As seguintes variáveis compõem a base de dados analisada:
Como o objetivo do departamento da empresa é ajudar a colega na compreensão dos preços imobiliários no novo país, naturalmente, a variável resposta é Y.house.price.of.unit.area, ou seja, o preço do imóvel em dólares.
Por consequência as variáveis explicativas são X2.house.age, X3.distance.to.the.nearest.MRT.station e X4.number.of.convenience.stores.
Os efeitos da quantidade de lojas de conveniência próximas ao imóvel no seu preço foram analisados através do ajuste de um modelo de regressão linear simples. A variável resposta continua sendo preço e a variável explicativa agora é a quantidade de lojas de conveniência próximas ao imóvel. O modelo ajustado segue a equação abaixo:
\(Preço = \beta_{0} + Lojas\space \times \space \beta_{1} + \epsilon_{i}\)
Os valores encontrados para \(\beta_{0}\) e \(\beta_{1}\) foram respectivamente 27.181 e -2.638 O que nos sugere uma relação positiva entre a quantidade de lojas e o preço do imóvel, ou seja, quanto mais lojas de conveniência próximas ao imóvel, mais alto será o seu preço.
O valor aproximado do coeficiente \(\beta_{1}\), nos indica em média o crescimento do preço do imóvel para cada loja (unidade) adicionada ao número de lojas de conveniência que se localizam próximas ao imóvel. Assim, a cada adição de 1 loja, o preço médio do imóvel aumenta cerca de 2.638 dólares.
Já em relação ao \(\beta_{0}\), também conhecido como intercept, nos indica o valor esperado da variável resposta (nesse caso o preço dos imóveis), quando temos um imóvel que não é próximo a nenhuma loja de conveniência. Nesse caso, um imóvel com esse tipo de localização custaria em média 27.181 dólares.
Foi previamente mostrado que a variância de \(\hat \beta_{0}\) corresponde a: \[Var(\hat \beta_{0})=\frac{\sum_{i=1}^{n}X_{i}^{2}\cdot \sigma^2}{n\sum_{i=1}^{n}(X_{i}-\overline{X})^{2}}\] Enquanto a de \(\hat \beta_{1}\) é equivalente a: \[Var(\hat \beta_{1}) = \frac{\sigma^{2}}{\sum_{i=1}^{n}(X_{i}-\overline{X})^{2}}\]
Sabemos que \(\sigma^{2}=Var(\epsilon_{i})\), a precisão dos estimadores \(\hat \beta_{1}\) e \(\hat \beta_{0}\) é medida pela raiz quadrada destas variâncias, ou seja, por uma medida chamada de erro padrão, já a dependência entre estes estimadores é medida pela covariância entre eles. No Anexo de Regressão adicionamos o código de uma função para calcular as variâncias de nossos estimadores \(\hat \beta_{0}\) e \(\hat \beta_{1}\), como a função lm() utilizada para calcular os resíduos calcula os erros como \(\hat \epsilon_{i}=(Y_{i}-\hat Y_{i})\), por isso calculamos o estimador da variância \(\hat \sigma^2=\frac{\sum_{i=1}^{n}\hat \epsilon_{i}^{2}}{n-2}\) em nossa função de variâncias dos parâmetros.
Portanto se fossemos calcular a variância dos parâmetros para alguns modelos, como um modelo para responder o preço imobiliário de acordo com a distância para a estação de metrô (em que tivemos uma correlação de -0,62, ou seja, quanto maior a distância, menor os preços de imóveis), teríamos \(\hat \beta_{0} = 45,851\) e \(\hat \beta_{1} = -0,00726\), em que as variâncias dos parâmetros seriam respectivamente \(var(\hat \beta_{0})=0,4259\) e \(var(\hat \beta_{1})=1,541\cdot10^{-7}\), é interessante notar que a correlação é negativa e o estimado \(\hat \beta_{1}\) também é, o que não acontece ao considerarmos um modelo com a quantidade de lojas de conveniências para explicar o preço do imóvel (onde encontramos uma correlação de 0,571), onde tivemos \(\hat \beta_{0} = 27,181\) e \(\hat \beta_{1} = 2,637\), com \(\hat \beta_{1}\) com sinal positivo igualmente ao da correlação positiva, as variâncias dos estimadores foram \(var(\hat \beta_{0})=0,8872\) e \(var(\hat \beta_{1})=0,0349\).
library(tidyverse)
house_prices=read.csv("lab3.csv")
#Funcao para calcular variancias estimadores parametros
variancias_parametros <- function(y,x){
modelo=lm(y~x)
variance_errors <- sum(modelo$residuals^2)/(length(modelo$residuals)-2)
var_b0 <- (sum(x^2)*variance_errors)/(length(x)*sum((x-mean(x))^2))
var_b1 <- variance_errors/(sum((x-mean(x))^2))
return(list("Beta_0"=var_b0,"Beta_1"=var_b1))
}