Realice un análisis exploratorio de las variables precio de vivienda (millones de pesos COP) y área de la vivienda (metros cuadrados) - incluir gráficos e indicadores apropiados interpretados.
## preciom areaconst
## Min. :207.4 Min. : 40.00
## 1st Qu.:228.8 1st Qu.: 60.00
## Median :236.1 Median : 70.00
## Mean :237.7 Mean : 75.48
## 3rd Qu.:243.6 3rd Qu.: 84.00
## Max. :305.2 Max. :200.00
Distribución del precio por metro cuadrado (millones de COP)
##Interpretación de los resultados:
El resumen descriptivo y los histogramas proporcionan información básica sobre la distribución de las variables preciom y areaconst.
#Punto 2
Realice un análisis exploratorio bivariado de datos, enfocado en la relación entre la variable respuesta (precio) en función de la variable predictora (área construida) - incluir gráficos e indicadores apropiados interpretados.
## [1] 0.8463271
El diagrama de dispersión permite observar que sí existe una tendencia lineal entre el precio por metro cuadrado y el área construida.
El coeficiente de correlación cuantifica la fuerza y la dirección de la relación entre las variables. El valor de 0.8463271 cercano a 1 indica una fuerte correlación positiva, entre las variables Area y Precio, en el entendido que la variable independiente Area explica a la variable dependiente Precio en un 84.6% de los registros.
#Punto 3
Estime el modelo de regresión lineal simple entre precio=f(area)+ε. Interprete los coeficientes del modelo β0, β1 en caso de ser correcto.
## (Intercept) areaconst
## 200.0634552 0.4984164
##
## Call:
## lm(formula = preciom ~ areaconst, data = apartamentos4)
##
## Residuals:
## Min 1Q Median 3Q Max
## -26.5139 -5.0886 -0.0031 4.6406 24.3309
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 2.001e+02 6.698e-01 298.67 <2e-16 ***
## areaconst 4.984e-01 8.503e-03 58.62 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 7.081 on 1361 degrees of freedom
## Multiple R-squared: 0.7163, Adjusted R-squared: 0.7161
## F-statistic: 3436 on 1 and 1361 DF, p-value: < 2.2e-16
##Interpretación de los coeficientes
##Interpretación del gráfico
#Punto 4 Construir un intervalo de confianza (95%) para el coeficiente β1, interpretar y concluir si el coeficiente es igual a cero o no. Compare este resultado con una prueba de hipótesis t.
## Intervalo de confianza 95% para β1: 0.2616686 0.7351641
##Interpretación del resultado xxxxxxxxxx xxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxx xxxxxxxxxx xxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxx xxxxxxxxxx xxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxx xxxxxxxxxx xxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxx
#Punto 5 Calcule e interprete el indicador de bondad R2
## R^2: 0.7162696
##Explicación del resultado
El valor de R^2 al ser relativamente cercano a 1 indica que el modelo explica en buena parte la variabilidad del precio, y por lo tanto, es un buen modelo para predecir el precio por metro cuadrado en función del área construida.
#Punto 6 ¿Cuál sería el precio promedio estimado para un apartamento de 110 metros cuadrados? ¿Considera entonces con este resultado que un apartamento en la misma zona con 110 metros cuadrados en un precio de 200 millones sería una atractiva esta oferta? ¿Qué consideraciones adicionales se deben tener?.
## Precio promedio estimado: 254.8893
##Interpretación de los resultados
Este es solo un estimado y el precio real de un apartamento puede variar dependiendo de otros factores que no se han considerado en el modelo, como la ubicación, el estado del inmueble, las amenidades, etc.
#Punto 7 Realice la validación de los supuestos del modelo por medio de gráficos apropiados, interpretarlos y sugerir posibles soluciones si se violan algunos de ellos. Utilice las pruebas de hipótesis para la validación de supuestos y compare los resultados con lo observado en los gráficos asociados.
##Validación de los supuestos del modelo
##Interpretación de los gráficos HOMOCEDASTICIDAD (Varianza constante de los residuos) El gráfico de la dispersión de los residuos nos da una indicación visual de una varianza constante. Éste supuesto será revisado más adelante con la prueba BREUSH-PAGAN.
NORMALIDAD DE LOS RESIDUOS (errores) El gráfico de cuantiles teóricos nos sugiere claramente una relación lineal de los mismos, lo que también nos indica visualmente una posible distribución normal de los mismos
GRAFICO DE LOS RESIDUOS DEL MODELO
##Revision de homocedasticidad Para validar la homocedasticidad del modelo, aplicamos la prueba BREUSH-PAGAN, que nos indica que si el p-value obtenido es menor a 0.05 el modelo tiene HETEROCEDASTICIDAD, caso contrario al p-value ser mayor a 0.05 nos indica que el modelo tiene HOMOCEDASTICIDAD.
##
## studentized Breusch-Pagan test
##
## data: reg_ap4
## BP = 0.83288, df = 1, p-value = 0.3614
##Interpretación de la homocedasticidad
El p-value es mayor a 0.05 por lo tanto podemos afirmar la homocedasticidad del modelo
##SUPUESTO DE NORMALIDAD DE LOS RESIDUOS
El supuesto de normalidad indica que la distribución de los residuos debe corresponder con la forma de una distribuión normal
Se corrobora de manera visual la normalidad de distribuión de los
residuos del modelo
##Validación estadística de la normalidad de los residuos
Para validar el supuesto de la normalidad de los residuos, aplicamos el test de normalidad JARQUE-BERA, el cuál nos indica que si el p-value es mayor a 0.05, podemos concluir que los datos analizados cumplen una distribución normal.
##
## Jarque Bera Test
##
## data: reg_ap4$residuals
## X-squared = 0.56616, df = 2, p-value = 0.7535
Dado que el p-value de los residuos del modelo de regresión lineal planteado es 0.7535, lo cual es significativamente mayor que 0.05, concluimos que en efecto estamos frente a una distribución normal de los residuos, por lo tanto, este supuesto también se cumple para éste modelo de regresión lineal.
#Punto 8
De ser necesario realice una transformación apropiada para mejorar el ajuste y supuestos del modelo.
##Transformaciones a la variable independiente areaconst
Si bien las validaciones de los supuestos de regresión lineal aplicados al modelo inicial indican que estamos frente a un modelo válido, aplicaremos algunas transformaciones a la variable independiente “areaconst” para corroborrar si podemos hallar un modelo aún más apropiado.
Se aplican transformaciones logarítmica, cuadrado, raiz cuadrada e inversa.
##Transformada Logarítmica
###Gráfico de dispersión de transformada logarítmica
##Modelo de regresión lineal para la transformada logarítmica y Gráficos del modelo de regresión lineal
##
## Call:
## lm(formula = apartamentos4$preciom ~ apartamentos4$log_areaconst)
##
## Residuals:
## Min 1Q Median 3Q Max
## -22.9725 -5.4109 -0.1832 4.9141 24.1899
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 53.8202 3.4091 15.79 <2e-16 ***
## apartamentos4$log_areaconst 42.8778 0.7936 54.03 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 7.496 on 1361 degrees of freedom
## Multiple R-squared: 0.682, Adjusted R-squared: 0.6818
## F-statistic: 2919 on 1 and 1361 DF, p-value: < 2.2e-16
##Interpretación de gráficos
Podemos validar de manera visual que el gráfico de dispersión de los residuos indica que no se cumple el supuesto de hocedasticidad pues la linea de tendencia curva indica una varianza no constante de los residuos.
##Transformada Cuadrada
##Gráfico de dispersión de transformada cuadrada
##Modelo de regresión lineal para la transformada cuadrada y Gráficos del modelo de regresión lineal
##
## Call:
## lm(formula = apartamentos4$preciom ~ apartamentos4$cuadrado_areaconst)
##
## Residuals:
## Min 1Q Median 3Q Max
## -25.9915 -5.1300 0.1114 4.8775 25.3448
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 2.228e+02 3.408e-01 653.8 <2e-16 ***
## apartamentos4$cuadrado_areaconst 2.399e-03 4.418e-05 54.3 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 7.471 on 1361 degrees of freedom
## Multiple R-squared: 0.6842, Adjusted R-squared: 0.6839
## F-statistic: 2948 on 1 and 1361 DF, p-value: < 2.2e-16
##Interpretación de gráficos
Podemos validar de manera visual que el gráfico de dispersión de los residuos indica que no se cumple el supuesto de hocedasticidad pues la linea de tendencia curva indica una varianza no constante de los residuos.
##Transformada de Raiz Cuadrada
#Gráfico de dispersión de transformada raiz cuadrada
##Modelo de regresión lineal para la transformada raiz cuadrada y Gráficos del modelo de regresión lineal
##
## Call:
## lm(formula = apartamentos4$preciom ~ apartamentos4$raiz_areaconst)
##
## Residuals:
## Min 1Q Median 3Q Max
## -25.1087 -5.2451 -0.0772 4.7355 23.6388
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 156.3863 1.4349 108.99 <2e-16 ***
## apartamentos4$raiz_areaconst 9.4454 0.1652 57.19 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 7.206 on 1361 degrees of freedom
## Multiple R-squared: 0.7061, Adjusted R-squared: 0.7059
## F-statistic: 3271 on 1 and 1361 DF, p-value: < 2.2e-16
##Interpretación de gráficos
Podemos validar de manera visual que el gráfico de dispersión de los residuos indica que no se cumple el supuesto de hocedasticidad pues la linea de tendencia curva indica una varianza no constante de los residuos.
##Transformada Inversa
#Gráfico de dispersión de transformada inversa
##Modelo de regresión lineal para la transformada inversa y Gráficos del
modelo de regresión lineal
##
## Call:
## lm(formula = apartamentos4$preciom ~ apartamentos4$inverse_areaconst)
##
## Residuals:
## Min 1Q Median 3Q Max
## -23.768 -5.886 -0.464 4.947 38.381
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 282.722 1.005 281.4 <2e-16 ***
## apartamentos4$inverse_areaconst -3182.604 69.187 -46.0 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 8.317 on 1361 degrees of freedom
## Multiple R-squared: 0.6086, Adjusted R-squared: 0.6083
## F-statistic: 2116 on 1 and 1361 DF, p-value: < 2.2e-16
##Interpretación de gráficos
Podemos validar de manera visual que el gráfico de dispersión de los residuos indica que no se cumple el supuesto de hocedasticidad pues la linea de tendencia curva indica una varianza no constante de los residuos.
#Punto 9 Compare el ajuste y supuestos del modelo inicial y el transformado.
#Punto 10
Estime varios modelos y compare los resultados obtenidos. En el mejor de los modelos, ¿se cumplen los supuestos sobre los errores?
#Punto 11 Con los resultados obtenidos construya un informe para los directivos de la inmobiliaria, indicando el modelo apropiado y sus principales características. A este informe se deben añadir los anexos como evidencia de la realización de los pasos anteriores
##Informe de resultados de Análisis de Regresión Lineal para la empresa Inmobiliaria A&C
El presente estudio se realizó con base en los datos de ofertas de vivienda descargadas del portal Fincaraiz para apartamento de estrato 4 con área construida menor a 200 m2., con el fin de poder a futuro determinar los precios de los inmuebles a negociar.
Descripción del modelo de regresión lineal utilizado. Para el presente estudio se usaron un modelo de regresión lineal inicial basado directamente en la información contenida en la data suministrada, sin aplicar cambios o transformaciones a la misma, y a renglón seguido se realizaron 4 simulaciones adicionales denominadas transformaciones, las cuáles se aplicaron a la variable independiente área construida, con la que se fijó como supuesto que determinaba el valor de un inmueble en una relación lineal.
Principales resultados del análisis:
Realizadas las 4 transformaciones al modelo inicial, se determinó que el indicador de bondad R^2 más alto correspondió al modelo de regresión lineal inicial, siendo este de 0.7162696, lo cuál nos indica que el modelo explica el comportamiento de la variable dependiente (precio) hasta en un 71,62%.
Basados en los coeficientes arrojados por el modelo mas significativo, encontramos que la ecuación lineal más apropiada para calcular el valor de la variable dependiente, en éste caso el precio de un inmueble y siendo β0 = 200.0634552 y β1 = 0.4984164 los coeficientes resultantes del modelo, es la determinada por la siguiente fórmula:
Precio del inmueble = 200.0634552 + (0.4984164 * area_construida)
Para el presente estudio se utilizó el modelo de regresión lineal a partir de la información obtenida del portal Finca Raiz, dentro de la cuál se incluyen las variables de Zona, Estrato, Precio, Area y tipo de vivienda.
Se determinó como supuesto, que la variable independiente sería el área construida, como la variable que explique el valor de la variable dependiente, en este caso, el precio del inmueble y más específicamente de los inmuebles tipo Apartamento.
Se desarrolló un primer modelo que se denominó Modelo Inicial, para el cuál no se aplicó ninguna transformación a los datos. De igual manera se trabajaron 4 modelos adicionales basados en el modelo inicial, aplicándosele a éste una serie de procesos matemáticos denominados trasnformaciones, que para este estudio fueron: transformación logarítmica, transformación cuadrada, transformación raiz cuadrada y transformación inversa.
A los cinco modelos se les aplicaron pruebas para determinar su viabilidad, como prueba de normalidad, de homocedasticidad y linealidad.