library(Rcmdr)
## Loading required package: splines
## Loading required package: RcmdrMisc
## Loading required package: car
## Loading required package: carData
## Loading required package: sandwich
## Loading required package: effects
## lattice theme set by effectsTheme()
## See ?effectsTheme for details.
## A interface gráfica do Rcmdr só é lançada no modo interativo
##
## Attaching package: 'Rcmdr'
## The following object is masked from 'package:car':
##
## Confint
library(RcmdrMisc)
library(corrplot)
## corrplot 0.84 loaded
#cARREGAR BASE DE DADOS
DF_GERAL <-
readXL("C:/Users/Matheus/Desktop/Base_de_dados-master/Base de dados - Easton.xlsx",
rownames=FALSE, header=TRUE, na="", sheet="Banco de Dados",
stringsAsFactors=TRUE)
#TRANSFORMAR NUMÉRICA EM FATOR
DF_GERAL <- within(DF_GERAL, {
Corretora <- factor(Corretora, labels=c('Outras Imobiliárias',
'Easton Imobiliária'))
})
DF_GERAL <- within(DF_GERAL, {
Localização <- factor(Localização, labels=c('Dallas','Fort Worth',
'Arredores'))
})
DF_GERAL <- within(DF_GERAL, {
Mês <- factor(Mês, labels=c('MARÇO','ABRIL','MAIO','JUNHO'))
})
#Transformar em sub data bases
DF_EASTON <- subset(DF_GERAL, Corretora=="Easton Imobiliária")
DF_OUTRAS <- subset(DF_GERAL, Corretora=="Outras Imobiliárias")
Problema
A imobiliária Easton está sofrendo acusações de estar agindo de má fé ao subvalorizar os seus imóveis. A alegação de subvalorização tem como base a venda de dois imóveis. O primeiro localizado na região de Arlington, 3 quartos, área de 203m², preço de venda de 88.500,00 dólares e preço por metro quadrado de 403.961,00 dólares por metro quadrado. O segundo é localizado na região de Fort Worth, 3 quartos, área de 172m², preço de venda de 79.500,00 dólares e preço por metro quadrado de 462.210,00 dólares por metro quadrado.
Objetivo
Nesse relatório há dois objetivos:
Provar que o imobiliária Easton não subvalorizou os preços de suas vendas em geral.
Provar que as duas casas citadas acima não foram subvalorizadas propositalmente e nem os seus corretores agiram de má fé.
Abordagem estatística para objetivo i
Serão utlizadas ferramentas estatísticas de análise qualitativa x quantitativa assim como análise quantitativa x quantitativa a fim de responder se a Imobiliária Easton subaloriza o preço de seus imóveis em geral.
Análise de Correlação entre Preço e Variáveis quantitativas
O objetivo dessa análise é verificar qual(s) característica(s) influencia(m) no preço de venda dos imóveis. Para isso foi feito uma matriz de correlação entre todos as variáveis quantitativas disponíveis no banco de dados. Abaixo foi feito uma análise em três cenárias: todas as imobiliárias, outras imobiliárias(excluindo a easton) , somente a easton imobiliária.
library(corrplot)
CORRELACAO_GERAL <- cor(DF_GERAL[,c("Idade","Preço","Quartos","Tamanho")], use="complete")
corrplot(CORRELACAO_GERAL, method="number",main="Todas as imobiliárias")
CORRELACAO_OUTRAS <- cor(DF_OUTRAS[,c("Idade","Preço","Quartos","Tamanho")], use="complete")
corrplot(CORRELACAO_OUTRAS, method="number",main="Outras Imobiliárias")
CORRELACAO_EASTON <- cor(DF_EASTON[,c("Idade","Preço","Quartos","Tamanho")], use="complete")
corrplot(CORRELACAO_EASTON, method="number",main="Easton Imobiliária")
A partir das análises acima, pode-se concluir que os fatores que mais influenciam no preço,em todos os cenárias, são o tamanho e o número de quartos, ambos positivos. Isso significa que quanto maior em área e quanto mais quarto o imóvel possuir, maior será também o seu preço. A idade do imóvel mostrou ter correlação fraca, logo pode ser considerada um fator que não influencia no preço dos imóveis.
Análise entre Preço VS Imobiliária.
Essa análise tem como objetivo relacionar o preço dos imóveis com as imobiliárias. Para isso foi usado um box plot e uma resumo de dados númericos no qual extraiu-se a média, mediana, máximos e mínimos, quartis, desvio padrão e erro padrão.
Boxplot(Preço~Corretora, data=DF_GERAL, id=list(method="y"),col=c(2:3))
## [1] "177" "254" "255"
O boxplot acima nos mostra que a distribuição de ambas as imobiliárias são levemente assimétricas e que as suas medianas possuem valores próximos. A Easton Imobiliária tem outliers enquanto que as Outras Imobiliárias não têm.
library(abind, pos=18)
library(e1071, pos=19)
numSummary(DF_GERAL[,"Preço", drop=FALSE], groups=DF_GERAL$Corretora,
statistics=c("mean", "sd", "se(mean)", "IQR", "quantiles"), quantiles=c(0,
.25,.5,.75,1))
## mean sd se(mean) IQR 0% 25% 50%
## Outras Imobiliárias 141066.1 22239.58 1091.698 35400.0 99000 122475 139950
## Easton Imobiliária 130950.0 19097.96 2815.840 21187.5 99450 118875 128100
## 75% 100% Preço:n
## Outras Imobiliárias 157875.0 190650 415
## Easton Imobiliária 140062.5 176550 46
Legenda: Mean=média Sd=Desvio Padrão se(mean)= Erro Padrão 0%,25%,50%,75% e 100% representam os quantis.
Intervalo de confiança de 99%:
Abaixo foi feito o cálculo do intervalo da média com confiança de 99%, ou seja, há 99% de chance da média estar contida no intervalo abaixo.
Outras imobiliárias [média - Erro Padrão2.576 , média + Erro Padrão2.576] Outras imoviliárias [138253.89 ,143878.31] ( HÁ 99% DE CHANCE DE O INTERVALO DE MÉDIAS SER ESTE)
Easton imobiliárias [média - Erro Padrão2.576 , média + Erro Padrão2.576] Easton imobiliárias [123696.40 , 138203.60] ( HÁ 99% DE CHANCE DE O INTERVALO DE MÉDIAS SER ESTE)
Os valores dos intervalos da médias são próximos e quase se sobrepuseram nos limites inferiores com superiores das outras imobiliárias e Easton imobiliária respecitivamente. Além disso, os valores das medianas e os valores dos quantis também são próximos.
Conclusão do objetivo i
A partir da correlação preço e outras variáveis quantitativas concluiu-se que os fatores que influenciavam no preço eram a quantidade de quartos e o tamanho do imóvel em todos os cenários. O que nos mostra que a Imobiliária Easton e o mercado apresentam o mesmo comportamento na valoração de imóveis. A análise de preço e imobiliária mostrou-nos que os preços praticados pela Easton Imobiliária são bem próximos aos praticados pelas outras imobiliárias. Tendo em vista as duas análises anteriores, não se pode concluir que as Easton Imobiliária tenha praticado subvalorização geral dos seus imóveis.
Abordagem estatística para objetivo ii
Os dois imóveis acusados de subvalorização têm 3 quartos, portanto para essa análise separou-se somente os imóveis de 3 quartos presentes na base de dados.Além disso, dado que ambos imóveis ficam situados em Fort Worth e Arlingtom, dois banco de dados contendo somente cada uma dessas localidades separadamente também foi criado.
Casa em Fort Worth
Gráfico de Dispersão Imóveis de 3 quartos na localidade de Fort Worth
# criando preço por m² e base somente com 3 quartos
DF_EASTON$PRECO_POR_M2 <- DF_EASTON[,2]/DF_EASTON[,3]
DF_OUTRAS$PRECO_POR_M2 <- DF_OUTRAS[,2]/DF_OUTRAS[,3]
DF_GERAL$PRECO_POR_M2 <- DF_GERAL[,2]/DF_GERAL[,3]
DF_OUTRAS_QUARTO_3<- subset(DF_OUTRAS, Quartos==3)
DF_EASTON_QUARTO_3<- subset(DF_EASTON, Quartos==3)
#GRAFICO DISPESAO
DF_OUTRAS_QUARTO_3_FW <- subset(DF_OUTRAS_QUARTO_3, Localização=="Fort Worth")
scatterplot(Tamanho~Preço, regLine=TRUE,pch=19,col=c("gray") ,smooth=FALSE, boxplots=FALSE,
data=DF_OUTRAS_QUARTO_3_FW)
REGRESSAOLINEAR_FW <- lm(Preço~Tamanho, data=DF_OUTRAS_QUARTO_3_FW)
summary(REGRESSAOLINEAR_FW)
##
## Call:
## lm(formula = Preço ~ Tamanho, data = DF_OUTRAS_QUARTO_3_FW)
##
## Residuals:
## Min 1Q Median 3Q Max
## -19073.4 -5789.5 -556.6 6463.2 21972.4
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 16699.96 8390.43 1.99 0.0505 .
## Tamanho 637.46 48.04 13.27 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 9080 on 70 degrees of freedom
## Multiple R-squared: 0.7155, Adjusted R-squared: 0.7114
## F-statistic: 176 on 1 and 70 DF, p-value: < 2.2e-16
anova(REGRESSAOLINEAR_FW)
## Analysis of Variance Table
##
## Response: Preço
## Df Sum Sq Mean Sq F value Pr(>F)
## Tamanho 1 1.4514e+10 1.4514e+10 176.04 < 2.2e-16 ***
## Residuals 70 5.7710e+09 8.2443e+07
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
confint(REGRESSAOLINEAR_FW)
## 2.5 % 97.5 %
## (Intercept) -34.22852 33434.1490
## Tamanho 541.64180 733.2854
Para melhor entender como a variável preço se relaciona com a variável àrea na localidade de Fort William foi proposto uma análise em regressão linear. Para validar o modelo, um F-test utilizando a mediana foi realizado.
var.test(residuals(REGRESSAOLINEAR_FW)[DF_OUTRAS_QUARTO_3_FW$Tamanho>173.2126],residuals(REGRESSAOLINEAR_FW)[DF_OUTRAS_QUARTO_3_FW$Tamanho<173.2126])
##
## F test to compare two variances
##
## data: residuals(REGRESSAOLINEAR_FW)[DF_OUTRAS_QUARTO_3_FW$Tamanho > and residuals(REGRESSAOLINEAR_FW)[DF_OUTRAS_QUARTO_3_FW$Tamanho < 173.2126] and 173.2126]
## F = 1.0755, num df = 26, denom df = 44, p-value = 0.8124
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 0.5521181 2.2315134
## sample estimates:
## ratio of variances
## 1.0755
O valor P do teste ( P-value=0.8124) é muito maior que os níveis de significância mais atuais (0,01;0,05;0,10). Portanto conclui-se que a variância dos dois subconjuntos é igual, o que implica que a homocedasticidade dos erros, ou seja, o modelo de regresssão linear é válido.
summary(REGRESSAOLINEAR_FW)
##
## Call:
## lm(formula = Preço ~ Tamanho, data = DF_OUTRAS_QUARTO_3_FW)
##
## Residuals:
## Min 1Q Median 3Q Max
## -19073.4 -5789.5 -556.6 6463.2 21972.4
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 16699.96 8390.43 1.99 0.0505 .
## Tamanho 637.46 48.04 13.27 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 9080 on 70 degrees of freedom
## Multiple R-squared: 0.7155, Adjusted R-squared: 0.7114
## F-statistic: 176 on 1 and 70 DF, p-value: < 2.2e-16
Temos que a regressão linear para a distribuição Preço x Área na região de Fort Worth é : y=16699.96+637.46x ; onde x é a variável tamanho e y é a variável preço.
Ajustando o preço de venda da casa alegada subvalorizada na área de Forth Worth ,temos:
Área da casa = 172m²
Y=16699.96+637.46*172 = 126343.08 dólares (PREÇO AJUSTADO DA CASA SUBVALORIZADA DE FORT WORTH )
numSummary(DF_OUTRAS_QUARTO_3_FW[,"PRECO_POR_M2", drop=FALSE],
statistics=c("mean", "sd", "IQR", "quantiles"), quantiles=c(0,.25,.5,.75,1))
## mean sd IQR 0% 25% 50% 75% 100%
## 735.5792 55.77485 69.93237 623.0297 697.1124 736.3502 767.0448 860.0985
## n
## 72
O preço médio e a mediana do metro quadrado de uma casa de 3 quarto na área de Fort Worth são 735.58 e 736.36 dólares por metro quadrado respectivamente.
Finalmente, o valor por metro quadrado da casa de Forth Worth corrigido pelo modelo é de:
Valor Corrigido/área da casa = (126343.08 dólares)/ (172m²) =
734.56 dólares por metro quadrado
Logo, o valor de 734.56 dólares por metro quadrado da casa do cliente corrigido está próximo a 735.58 que é a média praticada pelo mercado.
Casa em Arlingtom
Os resultados foram obtidos de forma análoga a anterior.
Gráfico de Dispersão Imóveis de 3 quartos na localidade de Arlingtom(Arredores)
DF_OUTRAS_QUARTO_3_AR<- subset(DF_OUTRAS_QUARTO_3, Localização=="Arredores")
scatterplot(Tamanho~Preço, regLine=TRUE,pch=19, smooth=FALSE, boxplots=FALSE,
data=DF_OUTRAS_QUARTO_3_AR)
numSummary(DF_OUTRAS_QUARTO_3_AR[,"Tamanho", drop=FALSE], statistics=c("mean",
"sd", "IQR", "quantiles"), quantiles=c(0,.25,.5,.75,1))
## mean sd IQR 0% 25% 50% 75% 100%
## 177.3782 21.36289 29.14833 140.7481 160.0255 177.5377 189.1738 232.2576
## n
## 46
Para melhor entender como a variável preço se relaciona com a variável àrea na localidade de Arlingtom foi proposto uma análise em regressão linear. Para validar o modelo, um F-test utilizando a mediana foi realizado.
REGRESSAOLINEAR_AR <- lm(Preço~Tamanho, data=DF_OUTRAS_QUARTO_3_AR)
var.test(residuals(REGRESSAOLINEAR_AR)[DF_OUTRAS_QUARTO_3_AR$Tamanho>177.5377],residuals(REGRESSAOLINEAR_AR)[DF_OUTRAS_QUARTO_3_AR$Tamanho<177.5377])
##
## F test to compare two variances
##
## data: residuals(REGRESSAOLINEAR_AR)[DF_OUTRAS_QUARTO_3_AR$Tamanho > and residuals(REGRESSAOLINEAR_AR)[DF_OUTRAS_QUARTO_3_AR$Tamanho < 177.5377] and 177.5377]
## F = 0.95708, num df = 22, denom df = 22, p-value = 0.919
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 0.4059053 2.2566725
## sample estimates:
## ratio of variances
## 0.9570764
O valor P do teste ( P-value=0.919) é muito maior que os níveis de significância mais atuais (0,01;0,05;0,10). Portanto conclui-se que a variância dos dois subconjuntos é igual, o que implica que a homocedasticidade dos erros, ou seja, o modelo de regresssão linear é válido.
summary(REGRESSAOLINEAR_AR)
##
## Call:
## lm(formula = Preço ~ Tamanho, data = DF_OUTRAS_QUARTO_3_AR)
##
## Residuals:
## Min 1Q Median 3Q Max
## -20922 -6528 1339 5983 17765
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 38344.50 11246.70 3.409 0.0014 **
## Tamanho 484.50 62.96 7.695 1.11e-09 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 9023 on 44 degrees of freedom
## Multiple R-squared: 0.5737, Adjusted R-squared: 0.564
## F-statistic: 59.22 on 1 and 44 DF, p-value: 1.109e-09
Temos que a regressão linear para a distribuição Preço x Área na região de Arlingtom é : y=38344.5+484.5x ; onde x é a variável tamanho e y é a variável preço.
Ajustando o preço de venda da casa alegada subvalorizada na área de Arlingtom ,temos:
Área da casa = 203m²
y=38344.5+484.5*203 = 136698 dólares (PREÇO AJUSTADO DA CASA SUBVALORIZADA DE ARLINGTOM)
numSummary(DF_OUTRAS_QUARTO_3_AR[,"PRECO_POR_M2", drop=FALSE],
statistics=c("mean", "sd", "IQR", "quantiles"), quantiles=c(0,.25,.5,.75,1))
## mean sd IQR 0% 25% 50% 75% 100%
## 703.9039 58.47724 99.49227 582.2271 652.8134 703.0559 752.3057 826.4927
## n
## 46
O preço médio e a mediana do metro quadrado de uma casa de 3 quarto na área de Arlingtom são 703.91 e 703.06 dólares por metro quadrado respectivamente.
Finalmente, o valor por metro quadrado da casa de Arlingtom corrigido pelo modelo é de:
Valor Corrigido/área da casa = (136698 dólares)/ (203m²) =
673.39 dólares por metro quadrado
Logo, o valor de 673,39 dólares por metro quadrado da casa do cliente corrigido está próximo a 703.91 que é a média praticada pelo mercado.
Conclusão Objetivo ii
Observa-se que ao corrigir, através de uma regressão linear, os dados dispersos de Preço x Área, obtem-se números mais próximos daqueles praticados pelo mercado.Logo a hipótese de as casas estarem subvalorização é falsa. A imobiliária easton, portanto, praticou preços próximos ao mercado ao vender as duas casas.