Introdução

Este relatório apresenta uma análise do mercado imobiliário de Boston, focando nas casas disponíveis para venda na cidade. O objetivo é fornecer informações sobre as propriedades disponíveis, os preços médios, as tendências do mercado e outros dados relevantes para compradores em potencial, investidores e profissionais do setor imobiliário a partir de um modelo linear generalizado com distribuição Gama. O conjunto de dados está disponível na plataforma Kaggle, a partir do link: https://www.kaggle.com/code/prasadperera/the-boston-housing-dataset/notebook.

Sobre um modelo linear generalizado

Um modelo linear generalizado é uma extensão do modelo de regressão linear clássico que permite lidar com uma ampla variedade de distribuições de probabilidade e relacionamentos entre variáveis dependentes e independentes. O MLG é composto por três componentes principais: função de ligação, estrutura de distribuição de probabilidade (componente aleatório) e componente sistemático.

Sobre os dados

Cada registro no banco de dados descreve uma residência/apartamento num subúrbio, bairro da cidade de Boston. Os dados foram extraídos da Boston Standard Metropolitan Statistical Area (SMSA) em 1970. As variáveis são definidas da seguinte forma:

  1. CRIM: Taxa de criminalidade per capita;
  2. RM: Número médio de quartos por habitação;
  3. DIS: Distâncias ponderadas para cinco centros de emprego de Boston;
  4. LSTAT: Percentual de pessoas pobres no bairro;
  5. MEDV: Valor do apartamento a cada US$ 1.000,00 (Variável resposta).

Abaixo vemos uma amostra dos dados descritos que serão utilizados.

CRIM RM DIS LSTAT MEDV
0.00632 6.575 4.0900 4.98 24.0
0.02731 6.421 4.9671 9.14 21.6
0.02729 7.185 4.9671 4.03 34.7
0.03237 6.998 6.0622 2.94 33.4
0.06905 7.147 6.0622 5.33 36.2
0.02985 6.430 6.0622 5.21 28.7

O valor médio das residências/apartamentos, indicado pela variável MEDV, é de 22,5 mil dólares e sua mediana é de 21,2 mil dólares. É possível observar a partir da Figura 1 que há alguns valores que podem ser considerados outliers de acordo com o box-plot, todos eles quando o preço está acima de 36 mil dólares. Pela Figura 2 vemos um histograma assimétrico, com muitos valores acumulados em torno da média. Esse comportamento sugere que os dados sigam uma distribuição gama, que é a que será usada para realizar o nosso modelo linear generalizado com função de ligação reciproca.

Podemos observar também algumas estatísticas gerais das variáveis explicativas como a média, mediana e valores mínimos e máximos.

CRIM RM DIS LSTAT
Min. : 0.00632 Min. :3.561 Min. : 1.130 Min. : 1.73
1st Qu.: 0.08205 1st Qu.:5.886 1st Qu.: 2.100 1st Qu.: 6.95
Median : 0.25651 Median :6.208 Median : 3.207 Median :11.36
Mean : 3.61352 Mean :6.285 Mean : 3.795 Mean :12.65
3rd Qu.: 3.67708 3rd Qu.:6.623 3rd Qu.: 5.188 3rd Qu.:16.95
Max. :88.97620 Max. :8.780 Max. :12.127 Max. :37.97

Objetivos

O objetivo deste relatório é observar qual seria a melhor opção para compradores em potencial, investidores e profissionais do setor imobiliário a tomar decisões informadas, com base em dados confiáveis da época. Além disso, temos como objetivo:

  1. Realizar um modelo de regressão linear generalizado com a distribuição de probabilidade gama e função de ligação recíproca, onde a variável resposta é o valor do apartamento/residência a cada U$D 1.000 (MEDV);

  2. Observar quais variáveis podem influenciar a variável resposta MEDV

Resultados

Para dar início a estimação do modelo de regressão Gama com função de ligação recíproca, utilizando o software Rstudio, foram consideradas as variáveis independentes “CRIM”, “RM”, “DIS” e “LSTAT” com a variável dependente “MEDV”. A Tabela abaixo mostra as estimativas dos parâmetros do modelo ajustado junto com seus respectivos p-valores para descrever o preço dos apartamentos da cidade de Boston em relação a taxa de criminalidade per-capita, a quantidade média de quartos, a distância média para cinco centros de emprego em Boston e a porcentagem de pessoas pobres na região.

## 
## Call:
## glm(formula = MEDV ~ LSTAT + DIS + CRIM + RM, family = Gamma(link = "inverse"), 
##     data = dados)
## 
## Deviance Residuals: 
##      Min        1Q    Median        3Q       Max  
## -0.69686  -0.12008  -0.02700   0.07879   0.97075  
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  0.0497740  0.0053713   9.267  < 2e-16 ***
## LSTAT        0.0018312  0.0001092  16.769  < 2e-16 ***
## DIS          0.0011745  0.0002193   5.355 1.31e-07 ***
## CRIM         0.0008029  0.0001105   7.265 1.44e-12 ***
## RM          -0.0048049  0.0006494  -7.399 5.81e-13 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for Gamma family taken to be 0.04498603)
## 
##     Null deviance: 81.425  on 505  degrees of freedom
## Residual deviance: 20.502  on 501  degrees of freedom
## AIC: 2900.1
## 
## Number of Fisher Scoring iterations: 5

Dado que a função de ligação usada foi a função recíproca, o nosso modelo se apresenta como:

\(μ_i=\frac{1}{(0,049+0,0018*LSTAT+0,0008*CRIM-0,0048*RM+0,00117*DIS)}\)

Vemos que todas as variáveis foram significativas a um nível de 5% de confiança. Além disso, os seus valores fazem sentido para a interpretabilidade do modelo, já que, à medida que se aumenta os valores de LSTAT, CRIM e DIS, há uma diminuição no preço do apartamento. Já para a variável RM (número de quartos), à medida que o número de quartos aumenta, também se aumenta o preço previsto dos apartamentos.

Para esse modelo ajustado, temos um valor de AIC de 2900 junto com um valor de 20,5 para a função desvio com 501 graus de liberdade. Comparando o valor do desvio com o valor tabelado da distribuição qui-quadrado com 501 graus de liberdade ao nível de 5% de significância, vemos que podemos considerar esse um modelo adequado, pois o valor tabelado da qui-quadrado (554,1) é maior do que o valor da função desvio (20,5).

A partir das Figuras abaixo podemos observar como os resíduos do modelo gama com função de ligação recíproca se comportam, e a partir disso verificar quais observações o nosso modelo não consegue generalizar:

Vemos que, a partir dos gráficos inclusos, os resíduos parecem se comportar bem. Ainda assim, há observações que não puderam ser generalizadas pelo nosso modelo. Tais observações estão destacadas nas Figuras e presentes na abaixo para que possamos investigar as causas de erros tão discrepantes:

CRIM RM DIS LSTAT MEDV PREDITO
215 0.28955 5.412 3.5875 29.55 23.7 12.14639
365 3.47428 8.780 1.9047 5.29 21.9 44.84159
369 4.89822 4.970 1.3325 3.26 50.0 26.76566
372 9.23230 6.216 1.1691 9.53 50.0 21.67115
373 8.26725 5.875 1.1296 8.88 50.0 21.84779

Para a observação 215 vemos que o modelo previu um valor abaixo do real por causa da covariável LSTAT que nos indica uma porcentagem de pessoas pobres na região de 29,55%, valor muito acima da média de 12,65%. O mesmo se pode afirmar para as observações 369, 372 e 373, mas levando em consideração a variável CRIM, que indica a taxa de criminalidade. Para a observação 365 o modelo previu um valor muito acima do real por conta da variável RM (número médio de quartos do apartamento) ser acima da média, ou seja, apesar de ter um número alto de quartos o valor real do apartamento está relativamente baixo. De modo geral, o modelo se adequa bem aos dados, seus coeficientes estão de acordo com cada covariável e as exceções, ou seja, observações que não foram captadas de forma ótima pelo modelo devem ser investigadas mais a fundo.

Referências

The Boston Housing Dataset. Disponível em: https://www.kaggle.com/code/prasadperera/the-boston-housing-dataset/notebook . \