MODULO 3. METODOS Y SIMULACION ESTADISTICA
                            TALLER DE SIMULACION ESTADISTICA EN R
                            Alumno: Oscar Andres Ramirez Avendaño
                                      codigo: 1118863919
                                  Maestria en Ciencia de datos
                                Pontificia Universidad Javeriana
                                
                                

Con base en los datos de ofertas de vivienda descargadas del portal Fincaraiz (datos_vivienda.xls - descarga) realizar los siguientes puntos:

  1. Realice un análisis exploratorio de las variables precio de vivienda (millones de pesos COP) y área de la vivienda (metros cuadrados) - incluir graficos e indicadores apropiados interpretados.
library(readxl)
datos_vivienda_3 <- read_excel("Modulo 3/datos_vivienda-3.xlsx")
View(datos_vivienda_3)
attach(datos_vivienda_3)

summary(Area_contruida)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    80.0    86.0    97.0   115.7   130.0   195.0
hist(Area_contruida,xlab = "Area Construida", ylab = "Cantidad de Viviendas",main="AREA CONSTRUIDA")

boxplot(Area_contruida)

summary(precio_millon)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   240.0   251.2   305.0   332.1   395.0   480.0
hist(precio_millon,xlab = "Precio (Millones)", ylab = "Frecuencia",main="PRECIO VIVIENDAS (MILLONES)")

boxplot(precio_millon)

                                             INTERPRETACION

AREA CONSTRUIDA: Se observa que el area de las viviendas evaluadas se encuentran con mayor concentracion (53 %) en el rango de 80 a 100 m2, esto se ve reflejado en la mediana que corresponde a 97 m2, la media obtenida de la muestra es 115 m2, la cual se aleja un poco de la mediana debido a que se tienen algunas viviendas con areas construidas de 195 m2, lo cual eleva el valor de la mediana.

PRECIO= Se observa que el precio se encuentra enfocado en dos rangos (200-300 millones) y de (350-450 millones), la mediana corresponde a 305 millones, la media obtenida de la muestra es 332 millones, la cual se aleja un poco de la mediana debido a que se tienen algunas viviendas con precios elevados de hasta 480 millones, lo cual eleva el valor de la mediana.

  1. Realice un análisis exploratorio bivariado de datos enfocado en la relación entre la variable respuesta (y=precio) en función de la variable predictora (x=area) - incluir graficos e indicadores apropiados interpretados.
cor(Area_contruida,precio_millon)
## [1] 0.9190295
plot(Area_contruida,precio_millon)

                                       INTERPRETACION
                                     

Se observa un coeficiente de correlacion de pearson de 0.91 lo cual nos indicado un grado de correlacion “Muy Alta”, y directamente proporcional, es decir, que a medida que aumento el Area construida, aumento el precio de forma proporcional. con algunas desviaciones que seguramente corresponde a factores diferenciadores como: La Ubicacion, la calidad de los acabados, el tiempo de uso de la vivienda, la proyeccion a futuro de la zona. Entre otras.

3.Estime el modelo de regresión lineal simple entre precio = f(area) + e. Interprete los coeficientes del modelo β 0 , β 1 en caso de ser correcto.

modelo=lm(precio_millon~Area_contruida)
summary(modelo)
## 
## Call:
## lm(formula = precio_millon ~ Area_contruida)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -51.673 -25.612  -6.085  24.875  67.650 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)      86.234     22.479   3.836 0.000796 ***
## Area_contruida    2.124      0.186  11.422 3.45e-11 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 33.05 on 24 degrees of freedom
## Multiple R-squared:  0.8446, Adjusted R-squared:  0.8381 
## F-statistic: 130.5 on 1 and 24 DF,  p-value: 3.45e-11
                                           INTERPRETACION

Del modelo se interpreta que el punto medio de partida de un predio sin construccion es de $86.234.000 (β0) es decir el valor del lote, una vez que se inicia la construccion el precio aumenta en $ 2.124.000 (β1) por cada m2 de construccion adiccional, logrando con este modelo explicar en un 84 % el comportamiento de las viviendas muestreadas.

4)Construir un intervalo de confianza (95%) para el coeficiente β1, interpretar y concluir si el coeficiente es igual a cero o no. Compare este resultado con una prueba de hipotesis

summary(modelo)
## 
## Call:
## lm(formula = precio_millon ~ Area_contruida)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -51.673 -25.612  -6.085  24.875  67.650 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)      86.234     22.479   3.836 0.000796 ***
## Area_contruida    2.124      0.186  11.422 3.45e-11 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 33.05 on 24 degrees of freedom
## Multiple R-squared:  0.8446, Adjusted R-squared:  0.8381 
## F-statistic: 130.5 on 1 and 24 DF,  p-value: 3.45e-11
confint(modelo)
##                   2.5 %     97.5 %
## (Intercept)    39.83983 132.627917
## Area_contruida  1.74017   2.507771

Se observa que para el intervalo de confianza del 95% se podria obtener un β0 entre $39.839.000 y 132.627.917 es decir en estos rangos se mueven los valores de los predios sin construccion y un β1 que podria estar $ 1.740.000 y $ 2.507.771 millones es decir, coeficiente que representa el incremento de precio de la vivienda por cada unidad de metro cuadrado construida.

                                  COMPROBACION DE LA HIPOTESIS.

-Hipótesis alternativa (Ha): los coeficientes NO son iguales a cero, indicando que el area construida es una variable influyente sobre el precio de la vivienda.

P_value = 3.45e-11 < 0.05, lo cual rechaza la Hipotesis Nula y acepta la Hipotesis Alternativa, es decir, La Variable “Area Construida” si es influyente sobre el precio de la vivienda.

  1. Calcule e interprete el indicador de bondad y ajuste R2.
summary(modelo)$r.squared
## [1] 0.8446152

Se obtiene un indicador de r2 de 0.84 lo cual significa que el modelo explica en un 84 % el comportamiento de la muestra, lo cual indicado que el modelo es BUENO.

  1. Cual seria el precio promedio estimado para un apartamento de 110 metros cuadrados? Considera entonces con este resultado que un apartemento en la misma zona con 110 metros cuadrados en un precio de 200 millones seria una buena oferta? Que consideraciones adicionales se deben tener?.
valor_110m2= predict(modelo,list(Area_contruida=110))

Se estima que una vivienda con un area de 110 m2, costara en promedio $319.870.600 millones

Si se consigue una vivienda en este misma zona con un area de 110 m2 en un costo de $200.000.000 seria una buena oferta, si nos enfocamos solo en la variable “Area Construida”, sin embargo esta evaluacion requiere de evaluar variables diferentes, como por ejemplo. Tipos de Acabados, Distribucion de espacios, Tiempo de uso de la vivienda,el piso en el que se encuentra si esta dentro de un edificio, la reglamentacion, entre otros.

  1. Realice la validación de supuestos del modelo por medio de graficos apropiados, interpretarlos y sugerir posibles soluciones si se violan algunos de ellos.
par(mfrow=c(2,2))
plot(modelo)

Se observa que los Residuales no tienen una distribucion simetrica con respecto al Eje y que la distribucion se aleja un poco de la linea normal en los valores extremos.

  1. De ser necesario realice una transformación apropiada para mejorar el ajuste y supuestos del modelo.
modelo_ajustado=lm(precio_millon~log(Area_contruida))
summary(modelo_ajustado)
## 
## Call:
## lm(formula = precio_millon ~ log(Area_contruida))
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -45.837 -20.153  -1.878  20.145  55.145 
## 
## Coefficients:
##                     Estimate Std. Error t value Pr(>|t|)    
## (Intercept)          -948.53      89.09  -10.65 1.42e-10 ***
## log(Area_contruida)   271.88      18.88   14.40 2.63e-13 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 27 on 24 degrees of freedom
## Multiple R-squared:  0.8963, Adjusted R-squared:  0.8919 
## F-statistic: 207.4 on 1 and 24 DF,  p-value: 2.63e-13

Transformando el modelo con “Log” de la variable independiente “Area_Construida” se obtiene un modelo de prediccion que logra explicar en un 89 % el comportamiento de la muestra, lo cual es una mejora significativa frente al 84 % que se obtuvo en el modelo de regresion lineal.

par(mfrow=c(2,2))
plot(modelo_ajustado)