library(knitr)
## Warning: package 'knitr' was built under R version 3.5.3
library(readxl)
## Warning: package 'readxl' was built under R version 3.5.3
library(esquisse)
## Warning: package 'esquisse' was built under R version 3.5.3
library(ggplot2)
## Warning: package 'ggplot2' was built under R version 3.5.3

O caso Easton

Introdução

O caso Easton se baseia numa situação que ocorreu com a imobiliária Easton localizada na regiao de Dallas e Fort Worth no Texas, Estados Unidos. Mais especificamente ela se refere ao caso onde duas pessoas reclamaram com o concelho local contra a imobiliaria por eles terem vendido a casa dessas pessoas por um valor menor do que o do mercado.

Essas duas pessoas se baseiam num artigo no jornal local que mencionava o preco e o valor medio das casas na região que essa imobiliária atua e que apresentava um valor maior que o dos imoveis deles.

Levando isso em consideração Sam Easton, O dono da imobiliária precisa saber se a acusação é verdadeira.

Objetivo

O objetivo desse trabalho será confirmar se a acusação é verdadeira ou não utilizando os dados de venda da imobiliária Easton e comparando ela com outras tambem da região num mesmo periodo de tempo.

Informações importantes a serem consideradas

As informações mais importantes a serem consideradas é o os valores notificados no artigo do jornal local, abaixo:

A segunda informação vem das casas dos dois clientes da imobiliária

  1. Em Arlington, tem 4 anos, tem 203 m² e foi vendida por 88.500 dólares.
  1. Em Fort Worth, tem 9 anos, tem 172 m² e foi vendida por 79.500.

A terceira informação necessaria é o banco de dados oferecido por Pat McCloskey uma avaliadora imobiliara local com os dados principais dos imoveis vendidos durante quatro meses daquele ano

library(readxl)
dadoseaston <- read_excel("dadoseaston.xlsx", 
    col_types = c("numeric", "numeric", "numeric", 
        "numeric", "numeric", "text", "text"))
View(dadoseaston)

Nesse banco de dados são considerados * Mês que ocorreu a venda * Preço de venda * Tamanho do imovel * Quantidade de quartos * Idade da casa * localização * Corretora

Manipulação do banco de dados

dadoseaston$Mes <- as.factor(dadoseaston$Mes)
levels(dadoseaston$Mes) <- c("Março","Abril","Maio","Junho")

dadoseaston$Corretora <- as.factor(dadoseaston$Corretora)
levels(dadoseaston$Corretora) <- c("Outros","Easton")

dadoseaston$Localizacao <- as.factor(dadoseaston$Localizacao)
levels(dadoseaston$Localizacao) <- c("Dallas","Fort Worth","Arredores")

dadoseaston$Quartos <- as.factor(dadoseaston$Quartos)
levels(dadoseaston$Quartos) <- c("2","3","4")

Avaliação preliminar dos dados

Um dos primeiros passos antes de fazer qualquer coisa é fazer uma pequena analise do banco de dados

summary(dadoseaston)
##     Mes          Preco           Tamanho       Quartos     Idade       
##  Março:126   Min.   : 99000   Min.   : 99.31   2: 60   Min.   : 1.000  
##  Abril:118   1st Qu.:121800   1st Qu.:154.13   3:290   1st Qu.: 5.000  
##  Maio :114   Median :138600   Median :169.27   4:111   Median : 6.000  
##  Junho:103   Mean   :140057   Mean   :173.48           Mean   : 6.139  
##              3rd Qu.:157200   3rd Qu.:192.40           3rd Qu.: 8.000  
##              Max.   :190650   Max.   :266.82           Max.   :13.000  
##      Localizacao   Corretora  
##  Dallas    :217   Outros:415  
##  Fort Worth:147   Easton: 46  
##  Arredores : 97               
##                               
##                               
## 

Como existe diversos fatores que influenciam o preço de um imovel, o próximo passo será realizado graficos que comparam o preço com as outras variaveis para checar preliminarmente se existe uma correlação entre essas variaveis.As variaveis escolhidas foram tamnho do imovel,idade da casa, localização e corretora. O motivo da retirada do mês como variavel é porque no documento do caso não menciona esses dados da casa dos clientes então não pode ser utilizado para verificar se as casas foram vendidas por um valor menor por causa disso

par(mfrow=c(1,2))
library(ggplot2)
ggplot(dadoseaston) +
 aes(x = Corretora, y = Preco) +
 geom_boxplot(fill = "#0c4c8a") +
 theme_minimal()

ggplot(dadoseaston) +
 aes(x = Localizacao, y = Preco) +
 geom_boxplot(fill = "#0c4c8a") +
 theme_minimal()

par(mfrow=c(1,2))

ggplot(dadoseaston) +
 aes(x = Tamanho, y = Preco) +
 geom_point(size = 1L, colour = "#0c4c8a") +
 geom_smooth(span = 0.75) +
 theme_minimal()
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'

ggplot(dadoseaston) +
 aes(x = Idade, y = Preco) +
 geom_point(size = 1L, colour = "#0c4c8a") +
 geom_smooth(span = 0.75) +
 theme_minimal()
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'

ggplot(dadoseaston) +
 aes(x = Quartos, y = Preco) +
 geom_boxplot(fill = "#0c4c8a") +
 labs(title = "Preço por Numero de quartos") +
 theme_minimal()

Observações iniciais

Ao observar os graficos acima se observa o que aparenta ser uma correlação positiva entre preço e tamanho enquanto com a idade não aparenta variar muito o preço.

Com relação a corretora Easton claramente aparente possuir um preço de venda menor que o das outras corretoras o que confirmaria a principio o argumento desses dois clientes.

Outra observação é que imoveis na região de Dallas são mais caros enquanto os de Fort Worth apresentão uma variancia maior em comparação com o dos arredores apesar desses dois terem medias bem próximas.

Obseervações aprofundada

O proximo passo é mesclar os graficos e comparar os resultados com os dois clientes que reclamaram

library(dplyr)
## Warning: package 'dplyr' was built under R version 3.5.3
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(maditr)
## Warning: package 'maditr' was built under R version 3.5.3
## 
## To drop variable use NULL: let(mtcars, am = NULL) %>% head()
## 
## Attaching package: 'maditr'
## The following objects are masked from 'package:dplyr':
## 
##     between, coalesce, first, last
library(ggplot2)
dadoseaston <- dadoseaston %>%
 filter(Quartos %in% "3") %>%
 filter(!(Localizacao %in% "Dallas"))
 
ggplot(dadoseaston) +
 aes(x = Tamanho, y = Preco, colour = Localizacao, size = Idade) +
 geom_point() +
 geom_smooth(span = 0.75) +
 scale_color_hue() +
ylim(80000,200000) +
 theme_minimal()
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'

O gráfico acima representa os dados do banco de dados considerando se a localização, o preço, a idade e o tamanho do imovel.

Abaixo fica a o grafico acima com a localização das casas dos clientes que reclamaram no gráfico acima caso esses clientes façam parte do banco de dados. Foi desconsiderado as casas vendidas a região de Dallas já que nenhum dos clientes

Conclusões

Ao comparar a localização dos pontos no gráfico acima se vê uma clara distinção entre os moveis dos clientes que reclamaram com os outros imoveis o que leva a um ponto de argumentação contra a imobiliária Easton

Pontos de melhoria

Infelizmente o banco de dados disponivel desconsidera informações importante que desvalorizam um imovel como por exemplo: * Estado de conservação * Distancia a transporte publico * Facilidades no entorno

Um exemplo disso, seria a primeira casa ficar perto do parque de diversão Six Flag que fica na região ou a segunda casa ficar perto do aeroporto. Isso levaria a uma desvalorização por causa do barulho

Levando isso em consideração, apesar dos dados levantados apontarem contra a imobiliária Easton, ele nao pode ainda ser condenado até haver uma analise mais detalhada dos motivos por trás dessa desvalorização