REGRESIÓN LINEAL SIMPLE

Con base en los datos de ofertas de vivienda descargadas del portal Fincaraiz (datos_vivienda.xls - descarga) realizar los siguientes puntos:

PUNTO 1. ANÁLISIS EXPLORATORIO DE LAS VARIABLES

A continuación se observa que los datos corresponden al precio y área de 26 propiedades publicadas en la plataforma Finca Raiz:

Area_contruida precio_millon
86.00 250
118.00 385
130.00 395
181.00 419
86.00 240
98.00 320
170.00 480
96.00 268
85.00 240
170.00 450
87.00 240
118.42 385
86.00 290
85.00 240
96.00 272
86.00 250
86.00 250
130.00 395
134.00 385
80.00 255
130.00 430
87.00 260
130.00 385
89.00 290
195.00 450
170.00 410

A continuación se relacionan los indicadores de centralidad y variabilidad de las variables en cuestión:

Área Construida

De acuerdo a los indicadores calculados y al histograma, se concluye que el área construida de las viviendas se encuentra entre 80 y 195 metros cuadrados (m2). El 50% de las viviendas posee un área construida de 97 m2 .Por su parte,el área construida promedio es de 115,7 m2. La desviación del área construida de las viviendas con respecto al área promedio es de aproximadamente 35,5 m2, lo que se traduce en una alta dispersion de los datos. También, resalta que el 25% de las viviendas posee un área construida de 86 m2 o menos.El 75% de las viviendas posee un área construida de 130 m2 o menos.

En el histograma, se observa que hay una distribución muestral asimétrica positiva: el coeficiente de asimetría calculado es 0.8. Dado el resultado positivo de la curtosis, se trata de una distribución leptocúrtica, con una mayor concentración de los datos en torno a la media.En este sentido, el sesgo es positivo, la distribución tiene una cola asimétrica extendida hacia los valores positivos.

#Histograma
hist(x=Area_contruida)
abline(v=mean(Area_contruida),col="magenta", lwd=4)
abline(v=median(Area_contruida),col="green", lwd=4)
legend(x="topright",legend = c("media", "mediana"), col = c("magenta", "green"),lwd = 4 )

#Indicadores de centralidad, variabilidad, simetría y normalidad:
library(moments)
Indicadores_Area=data.frame("Media"=mean(Area_contruida),"Mediana"=median(Area_contruida),"Desvest"=sd(Area_contruida),"Varianza"=var(Area_contruida),"Min"=min(Area_contruida),"Max"=max(Area_contruida),"Asimetria"=skewness(Area_contruida), "Curtosis"= kurtosis(Area_contruida))
Indicadores_Area
Media Mediana Desvest Varianza Min Max Asimetria Curtosis
115.7469 97 35.54332 1263.328 80 195 0.8624262 2.436188
#Cuartiles de área construida
cuartil_area=data.frame("Cuartiles_AreaConstruida_m2"=quantile(Area_contruida))
cuartil_area
Cuartiles_AreaConstruida_m2
0% 80
25% 86
50% 97
75% 130
100% 195

Precio de la vivienda

De acuerdo a los indicadores calculados y al histograma, se concluye que el precio de las viviendas se encuentra entre 240 y 480 millones de pesos. El 50% de las viviendas tiene un precio de 305 millones de pesos aproximadamente .Por su parte,el precio promedio promedio es de 332 millones de pesos. La desviación del precio de las viviendas en relación al precio promedio es alta, lo que se traduce en una alta dispersion de los datos. También, resalta que el 25% de las viviendas tiene un precio de 251 millones de pesos o menos.Por su parte el 75% de las viviendas tiene un precio de 395 millones de pesos o menos.

En el histograma, se observa que hay una distribución muestral asimétrica positiva: el coeficiente de asimetría calculado es 0.25. Dado el resultado positivo de la curtosis, se trata de una distribución leptocúrtica, con una mayor concentración de los datos en torno a la media.En este sentido, el sesgo es positivo, la distribución tiene una cola asimétrica extendida hacia los valores positivos.

#Histograma
hist(x = precio_millon)
abline(v = mean(precio_millon),col="orange", lwd=4)
abline(v = median(precio_millon),col="purple", lwd=4)
legend(x ="topright",legend = c("media", "mediana"), col = c("orange", "purple"),lwd = 4 )

library(moments)

#Indicadores de centralidad, variabilidad, simetría y normalidad:

Indicadores_Precio=data.frame("Media"=mean(precio_millon),"Mediana"=median(precio_millon),"Desvest"=sd(precio_millon),"Varianza"=var(precio_millon),"Min."=min(precio_millon),"Max"=max(precio_millon),"Asimetria"=skewness(precio_millon), "Curtosis"= kurtosis(precio_millon))
Indicadores_Precio
Media Mediana Desvest Varianza Min. Max Asimetria Curtosis
332.0769 305 82.14423 6747.674 240 480 0.2525831 1.495015
#Cuartiles de área construida
cuartiles_Precio=data.frame("Cuartiles_Precio_Millones$"=quantile(precio_millon))
cuartiles_Precio
Cuartiles_Precio_Millones.
0% 240.00
25% 251.25
50% 305.00
75% 395.00
100% 480.00

PUNTO 2. ANÁLISIS EXPLORATORIO BIVARIADO DE LAS VARIABLES

Interpretación En el gráfico siguiente se puede observar que existe una relación lineal entre el precio de la vivienda y el área construida, a medida que aumenta el área, el precio de la vivienda también incrementa.Esto lo confirma el coeficiente de correlacion = 0.919, que indica que entre el precio y el área construida de la vivienda existe una relación positiva fuerte.

Correlación:

cor(datos$precio_millon,datos$Area_contruida)
## [1] 0.9190295

ESTIMACIÓN DEL MODELO DE REGRESIÓN LINEAL

Modelo lineal: Precio de la vivienda= β0 + β1 * Área construida + e

Precio=86.234+2.124∗Area_Construida+e

mod=lm(precio_millon~Area_contruida)
summary (mod)
## 
## Call:
## lm(formula = precio_millon ~ Area_contruida)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -51.673 -25.612  -6.085  24.875  67.650 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)      86.234     22.479   3.836 0.000796 ***
## Area_contruida    2.124      0.186  11.422 3.45e-11 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 33.05 on 24 degrees of freedom
## Multiple R-squared:  0.8446, Adjusted R-squared:  0.8381 
## F-statistic: 130.5 on 1 and 24 DF,  p-value: 3.45e-11

PUNTO 3. INTERPRETACIÓN DEL MODELO

La pendiente del modelo es β1=2.124, lo que quiere decir que si en las viviendas se incrementa en un metro cuadrado el área construida, el incremento que se esperaría en el precio es de aproximadamente 2.1 millones de pesos.

El intercepto es β0=86.234, lo que quiere decir es que el precio del lote o terreno de la vivienda (sin área construida) seria de aproximadamente 86 millones de pesos.

PUNTO 4. COMPROBACIÓN DE HIPÓTESIS CON VALOR P

La prueba de hipotesis realizada sobre el β1 nos da un valor p < 5% por lo que tenemos evidencia estadistica que nos hace pensar que este parametro es significativo dentro del modelo, dado que su coeficiente se puede pensar que es diferente a 0.

De acuerdo al valor-P se puede concluir que el área construida si es una variable estadísticamente significativa (***) en el modelo, es decir que cualquier variación en el área construida afecta de manera importante el precio de las viviendas.

PUNTO 5. BONDAD DE AJUSTE DEL MODELO

Se observa que hay un ajuste “bueno” de los datos analizados al obtener un R2 de 0.8446. Este indicador refleja que el modelo planteado lograr explicar en un 84,46% la variable respuesta, en este caso,el area construida explica el 84.46% de la variabilidad de los precios de las viviendas.

PUNTO 6. ESTIMACIÓN DEL PRECIO DE UNA VIVIENDA DE 110 M2

Interpretación El precio estimado para un apartamento de 110 metros cuadrados seria alrededor de $319 millones. La oferta de 200 millones en la misma zona y con la misma área no seria una buena oferta porque el precio que se obtendria por una vivienda de este tipo estaría entre 303 y 333 millones de pesos.

predict(mod,list(Area_contruida=110))
##        1 
## 319.8706
predict(mod,list(Area_contruida=110),interval = "confidence",level = 0.95)
##        fit      lwr      upr
## 1 319.8706 306.3133 333.4279

PUNTO 7. VALIDACIÓN DE LOS SUPUESTOS DEL MODELO

Interpretación En los gráficos siguientes se observa que NO se cumple con los supuestos del modelo: Aletoriedad y normalidad de los residuos (término de error).

Se observa graficamente que la relación entre los errores y los errores ajustados no es lineal o aleatoria. De esta forma se puede concluir que los residuales tienen un componente sistemático que eventualmente podría incorporarse en el modelo, es decir, que esa asociación lineal que asumimos entre el precio de las viviendas y el área construida, no es correcta, porque probablemente la relación entre precio y área podria tener representarse a través de un modelo cuadrático (ver gráfico Residual vs Fitted).

Por otro lado, la normalidad se podria validar con el gráfico “Normal Q-Q”, donde se observa que los puntos se encuentran muy cerca a la línea de normalidad, pero no exactamente supuerpuestos sobre ella, que sería lo ideal para garantizar este supuesto. Por lo tanto, se podría ajustar el modelo utilizando una transformación en la variable dependiente o independiente y validar si lo observado se puede corregir o mejorar (asumiendo que la relación entre precio y área fuera lineal).

par(mfrow=c(2,2))
plot(mod)

PUNTO 8. TRANSFORMACIÓN DEL MODELO

Interpretación Como se mencionó en el punto anterior, asumir una relación lineal entre precio y área estaría mal porque probablemente es un modelo cuadrático el que mejor represente esta relación. Sin embargo, si asumimos que la relación es lineal, podriamos validar ajuste en la variable dependiente o independiente para determinar si hay alguna mejora en el ajuste y en los supuestos.

A continuación usaremos un modelo logarítmico:

Y= B0+B1 (Log X) Y= precio de la vivienda X= área construida

mod2=lm((precio_millon) ~ log (Area_contruida))
summary(mod2)
## 
## Call:
## lm(formula = (precio_millon) ~ log(Area_contruida))
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -45.837 -20.153  -1.878  20.145  55.145 
## 
## Coefficients:
##                     Estimate Std. Error t value Pr(>|t|)    
## (Intercept)          -948.53      89.09  -10.65 1.42e-10 ***
## log(Area_contruida)   271.88      18.88   14.40 2.63e-13 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 27 on 24 degrees of freedom
## Multiple R-squared:  0.8963, Adjusted R-squared:  0.8919 
## F-statistic: 207.4 on 1 and 24 DF,  p-value: 2.63e-13

PUNTO 9. COMPARACIÓN DE AJUSTE DEL MODELO INICIAL Y EL TRANSFORMADO

INterpretación Utilizando el modelo logarítmico, observamos en la salida anterior que, se sigue manteniendo un ajuste “bueno” de los datos analizados al obtener un R2 de 0.8963. Este indicador refleja que el modelo planteado lograr explicar en un 89,63% la variable respuesta, en este caso, el precio de las viviendas.

En concreto, se pasó de un R2 de 0,84 a un R2 de 0,89 utilizando un modelo logarítmico.

No obstante, en la validación de los supuestos del modelo se encuentra que la aletoriedad de los residuos sigue sin cumplirse. Por su parte, el supuesto de normalidad si mejora un poco.

CONCLUSIÓN Con los resultados evidenciados, se confirma que los datos del precio de las viviendas y el área construida se ajustan a un modelo no lineal, probablemnte se ajuste a un modelo cuadrático de acuerdo a la relación que evidencian los residuos.

par(mfrow=c(2,2))
plot(mod2)