Ejemplo Regresión Lineal

A continuación se cargan los datos de ofertas de vivienda en Cali:

library(readxl)
datos = read_excel("~/Desktop/datos.xlsx")
head(datos)
Zona piso Estrato precio_millon Area_contruida parqueaderos Banos Habitaciones Tipo Barrio cordenada_longitud Cordenada_latitud
Zona Sur 2 6 880 237 2 5 4 Casa pance -76.46300 3.43000
Zona Oeste 2 4 1200 800 3 6 7 Casa miraflores -76.46400 3.42800
Zona Sur 3 5 250 86 NA 2 3 Apartamento multicentro -76.46400 3.42900
Zona Sur NA 6 1280 346 4 6 5 Apartamento ciudad jardín -76.46400 3.43300
Zona Sur 2 6 1300 600 4 7 5 Casa pance -76.46438 3.43463
Zona Sur 3 6 513 160 2 4 4 Casa pance -76.46438 3.43463

Como se observa en la base de datos contamos con 12 variables como: el precio de la vivienda, tipo de vivienda,cantidad de parqueaderos entre otras. La base cuenta con un total de 8322 ofertas para la ciudad de Cali.

Modelo de Regresión para el precio de la viviednda:

A continuación se realiza una exploración de la relación entre el precio de la vivienda y el area contruida:

attach(datos)
plot(Area_contruida,precio_millon)

cor(Area_contruida,precio_millon,use="complete.obs")
## [1] 0.687352

Como se observa en la figura existe una relación positiva entre el area y el precio indicando que las viviendas a mayor area son mas costosas sin embargo existe una variación alta debido a que se mezclaron muchos otros factores (estrato, zona..). Adicionalmente el coeficiente de correlación muestra que esta relación es media con un valor de 0.68 (max de 1).

Estrato=as.character(Estrato)
mod=lm(precio_millon~Area_contruida:Estrato+Zona+Tipo)
summary(mod)
## 
## Call:
## lm(formula = precio_millon ~ Area_contruida:Estrato + Zona + 
##     Tipo)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1757.13   -80.27   -28.80    47.18  1130.00 
## 
## Coefficients:
##                          Estimate Std. Error t value Pr(>|t|)    
## (Intercept)             197.15520   17.50910  11.260  < 2e-16 ***
## ZonaZona Norte          -30.13087   17.63090  -1.709 0.087492 .  
## ZonaZona Oeste          150.17290   18.34812   8.185 3.14e-16 ***
## ZonaZona Oriente        -65.91632   19.23050  -3.428 0.000612 ***
## ZonaZona Sur             -7.90443   17.47741  -0.452 0.651090    
## TipoCasa                 29.97108    5.43411   5.515 3.59e-08 ***
## Area_contruida:Estrato3   0.36041    0.03589  10.043  < 2e-16 ***
## Area_contruida:Estrato4   0.77925    0.03129  24.903  < 2e-16 ***
## Area_contruida:Estrato5   1.15758    0.02297  50.393  < 2e-16 ***
## Area_contruida:Estrato6   1.96119    0.01880 104.318  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 183.9 on 8309 degrees of freedom
##   (3 observations deleted due to missingness)
## Multiple R-squared:  0.6873, Adjusted R-squared:  0.687 
## F-statistic:  2029 on 9 and 8309 DF,  p-value: < 2.2e-16