MODULO 3. METODOS Y SIMULACION ESTADISTICA
TALLER DE SIMULACION ESTADISTICA EN R
Alumno: Oscar Andres Ramirez Avendaño
codigo: 1118863919
Maestria en Ciencia de datos
Pontificia Universidad Javeriana
Con base en los datos de ofertas de vivienda descargadas del portal Fincaraiz (datos_vivienda.xls - descarga) realizar los siguientes puntos:
library(readxl)
datos_vivienda_3 <- read_excel("Modulo 3/datos_vivienda-3.xlsx")
View(datos_vivienda_3)
attach(datos_vivienda_3)
summary(Area_contruida)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 80.0 86.0 97.0 115.7 130.0 195.0
hist(Area_contruida,xlab = "Area Construida", ylab = "Cantidad de Viviendas",main="AREA CONSTRUIDA")
boxplot(Area_contruida)
summary(precio_millon)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 240.0 251.2 305.0 332.1 395.0 480.0
hist(precio_millon,xlab = "Precio (Millones)", ylab = "Frecuencia",main="PRECIO VIVIENDAS (MILLONES)")
boxplot(precio_millon)
INTERPRETACION
AREA CONSTRUIDA: Se observa que el area de las viviendas evaluadas se encuentran con mayor concentracion (53 %) en el rango de 80 a 100 m2, esto se ve reflejado en la mediana que corresponde a 97 m2, la media obtenida de la muestra es 115 m2, la cual se aleja un poco de la mediana debido a que se tienen algunas viviendas con areas construidas de 195 m2, lo cual eleva el valor de la mediana.
PRECIO= Se observa que el precio se encuentra enfocado en dos rangos (200-300 millones) y de (350-450 millones), la mediana corresponde a 305 millones, la media obtenida de la muestra es 332 millones, la cual se aleja un poco de la mediana debido a que se tienen algunas viviendas con precios elevados de hasta 480 millones, lo cual eleva el valor de la mediana.
cor(Area_contruida,precio_millon)
## [1] 0.9190295
plot(Area_contruida,precio_millon)
INTERPRETACION
Se observa un coeficiente de correlacion de pearson de 0.91 lo cual nos indicado un grado de correlacion “Muy Alta”, y directamente proporcional, es decir, que a medida que aumento el Area construida, aumento el precio de forma proporcional. con algunas desviaciones que seguramente corresponde a factores diferenciadores como: La Ubicacion, la calidad de los acabados, el tiempo de uso de la vivienda, la proyeccion a futuro de la zona. Entre otras.
3.Estime el modelo de regresión lineal simple entre precio = f(area) + e. Interprete los coeficientes del modelo β 0 , β 1 en caso de ser correcto.
modelo=lm(precio_millon~Area_contruida)
summary(modelo)
##
## Call:
## lm(formula = precio_millon ~ Area_contruida)
##
## Residuals:
## Min 1Q Median 3Q Max
## -51.673 -25.612 -6.085 24.875 67.650
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 86.234 22.479 3.836 0.000796 ***
## Area_contruida 2.124 0.186 11.422 3.45e-11 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 33.05 on 24 degrees of freedom
## Multiple R-squared: 0.8446, Adjusted R-squared: 0.8381
## F-statistic: 130.5 on 1 and 24 DF, p-value: 3.45e-11
INTERPRETACION
Del modelo se interpreta que el punto medio de partida de un predio sin construccion es de $86.234.000 (β0) es decir el valor del lote, una vez que se inicia la construccion el precio aumenta en $ 2.124.000 (β1) por cada m2 de construccion adiccional, logrando con este modelo explicar en un 84 % el comportamiento de las viviendas muestreadas.
4)Construir un intervalo de confianza (95%) para el coeficiente β1, interpretar y concluir si el coeficiente es igual a cero o no. Compare este resultado con una prueba de hipotesis
summary(modelo)
##
## Call:
## lm(formula = precio_millon ~ Area_contruida)
##
## Residuals:
## Min 1Q Median 3Q Max
## -51.673 -25.612 -6.085 24.875 67.650
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 86.234 22.479 3.836 0.000796 ***
## Area_contruida 2.124 0.186 11.422 3.45e-11 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 33.05 on 24 degrees of freedom
## Multiple R-squared: 0.8446, Adjusted R-squared: 0.8381
## F-statistic: 130.5 on 1 and 24 DF, p-value: 3.45e-11
confint(modelo)
## 2.5 % 97.5 %
## (Intercept) 39.83983 132.627917
## Area_contruida 1.74017 2.507771
Se observa que para el intervalo de confianza del 95% se podria obtener un β0 entre $39.839.000 y 132.627.917 es decir en estos rangos se mueven los valores de los predios sin construccion y un β1 que podria estar $ 1.740.000 y $ 2.507.771 millones es decir, coeficiente que representa el incremento de precio de la vivienda por cada unidad de metro cuadrado construida.
COMPROBACION DE LA HIPOTESIS.
-Hipótesis alternativa (Ha): los coeficientes NO son iguales a cero, indicando que el area construida es una variable influyente sobre el precio de la vivienda.
P_value = 3.45e-11 < 0.05, lo cual rechaza la Hipotesis Nula y acepta la Hipotesis Alternativa, es decir, La Variable “Area Construida” si es influyente sobre el precio de la vivienda.
summary(modelo)$r.squared
## [1] 0.8446152
Se obtiene un indicador de r2 de 0.84 lo cual significa que el modelo explica en un 84 % el comportamiento de la muestra, lo cual indicado que el modelo es BUENO.
valor_110m2= predict(modelo,list(Area_contruida=110))
Se estima que una vivienda con un area de 110 m2, costara en promedio $319.870.600 millones
Si se consigue una vivienda en este misma zona con un area de 110 m2 en un costo de $200.000.000 seria una buena oferta, si nos enfocamos solo en la variable “Area Construida”, sin embargo esta evaluacion requiere de evaluar variables diferentes, como por ejemplo. Tipos de Acabados, Distribucion de espacios, Tiempo de uso de la vivienda,el piso en el que se encuentra si esta dentro de un edificio, la reglamentacion, entre otros.
par(mfrow=c(2,2))
plot(modelo)
Se observa que los Residuales no tienen una distribucion simetrica con respecto al Eje y que la distribucion se aleja un poco de la linea normal en los valores extremos.
modelo_ajustado=lm(precio_millon~log(Area_contruida))
summary(modelo_ajustado)
##
## Call:
## lm(formula = precio_millon ~ log(Area_contruida))
##
## Residuals:
## Min 1Q Median 3Q Max
## -45.837 -20.153 -1.878 20.145 55.145
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -948.53 89.09 -10.65 1.42e-10 ***
## log(Area_contruida) 271.88 18.88 14.40 2.63e-13 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 27 on 24 degrees of freedom
## Multiple R-squared: 0.8963, Adjusted R-squared: 0.8919
## F-statistic: 207.4 on 1 and 24 DF, p-value: 2.63e-13
Transformando el modelo con “Log” de la variable independiente “Area_Construida” se obtiene un modelo de prediccion que logra explicar en un 89 % el comportamiento de la muestra, lo cual es una mejora significativa frente al 84 % que se obtuvo en el modelo de regresion lineal.
par(mfrow=c(2,2))
plot(modelo_ajustado)