El mercado inmobiliario en Cali ha experimentado una desaceleración significativa en lo que va del año, influenciado por las tensiones políticas y sociales que han afectado la actividad económica en la región. Sin embargo, el sector se mantiene en expectativa de una pronta reactivación, impulsada por el aumento en los créditos otorgados por las instituciones bancarias para la construcción comercial y residencial.
En este contexto, la agencia C&A, con sede en Cali, se ha destacado por su capacidad para adaptarse a las cambiantes condiciones del mercado y por ofrecer asesoría personalizada a sus clientes. Con un equipo de ocho agentes especializados, C&A se compromete a proporcionar soluciones efectivas y ajustadas a las necesidades específicas de cada cliente.
Este informe tiene como objetivo responder a la solicitud de la compañía internacional que busca adquirir dos propiedades en Cali para ubicar a dos de sus empleados y sus familias. Estas solicitud presenta características y requisitos específicos que requieren un análisis detallado del mercado inmobiliario actual.
Para verificar el ajuste de los criterios solicitados por la compañía y su correspondencia con la oferta actual del mercado inmobiliarios de la ciudad se usaron de los datos disponibles en el conjunto “Vivienda”, que contiene información de más de ocho mil inmuebles ofertados en la ciudad de Cali.
Los datos fueron tratados debidamente para imputar los valores faltantes usando el algoritmo MICE.
## # A tibble: 6 × 13
## id zona piso estrato preciom areaconst parqueaderos banios habitaciones
## <dbl> <chr> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 1147 Zona O… <NA> 3 250 70 1 3 6
## 2 1169 Zona O… <NA> 3 320 120 1 2 3
## 3 1350 Zona O… <NA> 3 350 220 2 2 4
## 4 5992 Zona S… 02 4 400 280 3 5 3
## 5 1212 Zona N… 01 5 260 90 1 2 3
## 6 1724 Zona N… 01 5 240 87 1 3 3
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>
| Caso 1: Vivienda 1 (Casa en el Norte) | Caso 2: Vivienda 2 (Apartamento en el Sur) |
|---|---|
| Área construida: 200 m² | Área construida: 300 m² |
| Parqueaderos: 1 | Parqueaderos: 3 |
| Baños: 2 | Baños: 3 |
| Habitaciones: 4 | Habitaciones: 5 |
| Estrato: 4 o 5 | Estrato: 5 o 6 |
| Crédito preaprobado: 350 millones de pesos | Crédito preaprobado: 850 millones de pesos |
El informe a continuación presenta un análisis detallado de ambas solicitudes, considerando las condiciones actuales del mercado y utilizando técnicas de modelación para determinar la viabilidad de las adquisiciones y realizar recomendaciones fundamentadas en datos.
Para la evaluación del primer caso se usó una fracción del conjunto de datos de vivienda enfocándose en inmuebles con un perfil similar a la requerida por la empresa, una vivienda del tipo casa ubicada en la zona norte de la ciudad.
## # A tibble: 6 × 13
## id zona piso estrato preciom areaconst parqueaderos banios habitaciones
## <dbl> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 1209 Zona N… 2 5 320 150 2 4 6
## 2 1592 Zona N… 2 5 780 380 2 3 3
## 3 4057 Zona N… 2 6 750 445 6 7 6
## 4 4460 Zona N… 2 4 625 355 3 5 5
## 5 6081 Zona N… 2 5 750 237 2 6 6
## 6 7824 Zona N… 2 4 600 160 1 4 5
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>
Los inmuebles que cumplen con los requisitos propuestos son un total de 722, que fueron la base para generar un modelo predictivo que permita corroborar lo realista que es el precio que se está dispuesto a pagar por la propiedad con la oferta real. Los inmuebles se distribuyen en la ciudad de la siguiente manera:
La concentración de viviendas por supuesto se observa en la zona norte de la ciudad como es esperado y algunos registros escapan de esta zona geográfica al menos en el mapa, sin embargo, los barrios en los que están registrados los inmuebles si corresponden con la zona norte, lo cual deja entre ver que los registros dispersos son posiblemente un producto de la mala anotación de coordenadas.
A continuación, se presenta un resumen estadístico con las métricas mas relevantes para el conjunto de datos utilizado en la evaluación del primer caso.
| variable | mean | median | sd | min | max | n | mode | count | unique |
|---|---|---|---|---|---|---|---|---|---|
| piso | 1.99168975069252 | 2 | 0.807343324377982 | 1 | 7 | 722 | NA | NA | NA |
| preciom | 445.905817174515 | 390 | 268.364604892116 | 89 | 1940 | 722 | NA | NA | NA |
| areaconst | 264.850457063712 | 240 | 167.166832630432 | 30 | 1440 | 722 | NA | NA | NA |
| parqueaderos | 2.13434903047091 | 2 | 1.49801910072481 | 1 | 10 | 722 | NA | NA | NA |
| banios | 3.55540166204986 | 3 | 1.52386650242838 | 0 | 10 | 722 | NA | NA | NA |
| habitaciones | 4.50692520775623 | 4 | 1.82769014920462 | 0 | 10 | 722 | NA | NA | NA |
| zona | NA | NA | NA | NA | NA | NA | Zona Norte | 722 | 1 |
| estrato | NA | NA | NA | NA | NA | NA | 5 | 722 | 4 |
| tipo | NA | NA | NA | NA | NA | NA | Casa | 722 | 1 |
Como preparación para el modelamiento es importante entender las relaciones que existen entre las variables, en este caso mediante gráficos de correlación. La variable de interés en este caso particular es el precio, el cual debemos ser capaces de predecir en base a otras variables como el área construida, el estrato, el número de habitaciones y baños, etc. La siguiente grafica presenta la correlación de las variables cuantitativas con la variable de respuesta (el precio) y permite identificar aquellas que puedan aportar el mayor poder predictivo.
Para un correcto modelamiento también es importante verificar las relaciones que existan entre las variables predictoras con el fin de evitar posibles problemas de multicolinealidad, o variables que son redundantes en el análisis. La siguiente grafica explica el nivel de correlación que existe entre las variables predictoras:
Se observa que la correlación más alta reportada es la existente entre el número de baño y habitaciones, denotando que entre mayor es el número de baños en una vivienda también lo es el número de habitaciones. Es posible que excluir alguna de las dos variables sea lo mejor para el modelo predictivo final en caso de presentarse problemas de multicolinealidad. En este caso particular la variable baños (banios) reporta correlaciones altas con múltiples variables como área construida y parqueaderos lo que la convierte en un foco de atención importante.
Para generar un modelo predictivo del precio de un inmueble con ciertas características se usaron los métodos de regresión lineal múltiples, con un modelo que obedece a la siguiente representación:
\[ \text{precio} = \beta_0 + \beta_1 \times \text{piso} + \beta_2 \times \text{estrato} + \beta_3 \times \text{areaconst} + \beta_4 \times \text{parqueaderos} + \beta_5 \times \text{banios} + \beta_6 \times \text{habitaciones} + \epsilon \] El modelo generado bajo estos criterios presenta los siguientes coeficientes:
##
## Call:
## lm(formula = preciom ~ piso + estrato + areaconst + parqueaderos +
## banios + habitaciones, data = base)
##
## Residuals:
## Min 1Q Median 3Q Max
## -929.65 -76.48 -16.65 44.07 1093.12
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -225.46296 36.30698 -6.210 8.99e-10 ***
## piso -4.62451 7.78662 -0.594 0.552764
## estrato 82.43819 7.54494 10.926 < 2e-16 ***
## areaconst 0.81101 0.04341 18.683 < 2e-16 ***
## parqueaderos 14.96512 4.41899 3.387 0.000746 ***
## banios 21.88796 5.70948 3.834 0.000137 ***
## habitaciones 2.12974 4.11735 0.517 0.605134
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 158 on 715 degrees of freedom
## Multiple R-squared: 0.6563, Adjusted R-squared: 0.6535
## F-statistic: 227.6 on 6 and 715 DF, p-value: < 2.2e-16
Intercepto: El intercepto del modelo es -225.46. Esto representa el valor esperado de preciom cuando todas las variables predictoras son iguales a cero. Aunque no tiene una interpretación práctica directa en este contexto (ya que un valor de cero en algunas variables no es realista), su valor negativo sugiere que en ausencia de todas las variables predictoras, el modelo proyecta un valor negativo, lo cual refuerza la importancia de las variables en el modelo.
piso: El coeficiente de piso es -4.62, con un valor p de 0.552. Esto indica que, manteniendo todas las demás variables constantes, cada aumento de un piso se asocia con una disminución promedio de 4.62 unidades en el precio. Sin embargo, este coeficiente no es estadísticamente significativo, lo que sugiere que piso no tiene un impacto significativo en el precio en este modelo. Debido a que no tiene un aporte significativo y que el piso no es uno de los requerimiento del caso, se opta por eliminar la variable del modelo final
Estrato: El coeficiente de estrato es 82.44, con un valor p < 2e-16. Este coeficiente es estadísticamente significativo y sugiere que, en promedio, un aumento en el estrato se asocia con un incremento de 82.44 unidades en el precio.
areaconst: El coeficiente de areaconst es 0.81, con un valor p < 2e-16. Esto indica que, en promedio, por cada aumento de una unidad en el área construida, el precio aumenta en 0.81 unidades. Este coeficiente es también estadísticamente significativo.
Parqueaderos: El coeficiente de parqueaderos es 14.97, con un valor p de 0.000746. Esto sugiere que cada parqueadero adicional está asociado con un incremento promedio de 14.97 unidades en el precio, siendo estadísticamente significativo.
Baños/banios: El coeficiente de banios es 21.89, con un valor p de 0.000137. Indica que cada baño adicional aumenta el precio en promedio 21.89 unidades, y es estadísticamente significativo.
Habitaciones: El coeficiente de habitaciones es 2.13, con un valor p de 0.605. Este coeficiente no es estadísticamente significativo, sugiriendo que el número de habitaciones no tiene un impacto significativo en el precio en este modelo.
R2: R-cuadrado: El R-cuadrado del modelo es 0.6563, por lo cual el 65.63% de la variabilidad en preciom está explicada por las variables predictoras en el modelo actual. Es necesario verificar los supuestos del modelo y el comportamiento de los residuos para entender si este valor puede ser mejorado o no. Usualmente la transformación de variables puede mejorar sustancialmente el valor del R2 cuadrado puesto que permite controlar mejor la varianza o contrarrestar problemas de linealidad. Otras estrategias incluyen eliminar valores atípicos, cambiar las varaibles incluidas o escalarlas.
Los gráficos de diagnóstico indican que existen ciertos problemas que deben ser tratados para poder obtener resultados fiables. En la primera grafica (Residuals vs Fitted) se observa un efecto embudo con una dispersión creciente en los residuos, lo cual indica que el modelo no esta capturando en su totalidad las relaciones entre los datos. En la segunda grafica (Q-Q residuals) se observa que existen problemas de normalidad en los datos, sobre todos en valores de los extremos, lo cual puede comprometer las estimaciones y pruebas que se hagan a partir del modelo.
En la grafica (Scale-Location) podemos corroborar que el supuesto de homocedasticidad no se cumple puesto que se observa una tendencia creciente en los residuos. La ultima grafica (Residuals vs Leverage) aporta información sobre registros que podrían estar afectando negativamente el ajuste general del modelo por su carácter atipico.(Una exploración de la optimizacion del modelo puede ser consultada en anexos)
## 1 2
## 325.5345 409.3525
| Caso 1 | Estrato 4 | Estrato 5 |
|---|---|---|
| Precio | 325 millones | 406 millones |
El modelo propone un rango de precios entre los 325 a 406 millones considerando la diferencia que trae la selección de un estrato u otro. Este es el valor que debería de tener una casa con las características descritas en el caso 1 de acuerdo a la generalización realizada por el modelo de regresión múltiple. Una búsqueda con filtros acordes a los criterios sobre los datos de oferta inmobiliaria en Cali arroja un total de 7 viviendas con características similares a las buscadas. La principal diferencia se encuentra por supuesto en el precio y el área construida.
## # A tibble: 7 × 8
## piso estrato preciom areaconst parqueaderos banios habitaciones tipo
## <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <chr>
## 1 2 5 405 280 1 2 4 Casa
## 2 1 5 900 850 1 2 4 Casa
## 3 1 5 350 346 1 2 4 Casa
## 4 2 4 275 120 1 2 4 Casa
## 5 2 4 215 144. 1 2 4 Casa
## 6 1 4 520 350 1 2 4 Casa
## 7 2 4 550 265 1 2 4 Casa
Hay dos inmuebles que se encuentran por debajo del precio esperado, sin embargo, el área construida también está por debajo de los requerimientos. También hay dos viviendas que se encuentran dentro del rango de precios obtenido con el modelo, siendo la casa de 350 millones la opción excepcional en términos de la relación precio-área construida, muy superior a la vivienda de 405 millones. Las otras tres viviendas que cumplen con algunos de los criterios son mucho mas costosas y se escapan de los esperado por el modelo, indicando un precio posiblemente inflado. En conclusión, la casa de 350 millones es la mejor opción pues se ajusta perfectamente a lo requerido por la empresa e incluso otorga mejores condiciones en la variable de área construida.
Para la evaluación del segundo caso se usó una fracción del conjunto de datos de vivienda enfocándose en inmuebles con un perfil similar a la requerida por la empresa, una vivienda del tipo apartamento ubicada en la zona sur de la ciudad.
## # A tibble: 6 × 13
## id zona piso estrato preciom areaconst parqueaderos banios habitaciones
## <dbl> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 5098 Zona S… 5 4 290 96 1 2 3
## 2 698 Zona S… 2 3 78 40 1 1 2
## 3 8199 Zona S… 2 6 875 194 2 5 3
## 4 1241 Zona S… 4 3 135 117 1 2 3
## 5 5370 Zona S… 4 3 135 78 1 1 3
## 6 6975 Zona S… 6 4 220 75 1 2 3
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>
Los inmuebles que cumplen con los requisitos propuestos son un total de 2787, que fueron la base para generar un modelo predictivo que permita corroborar lo realista que es el precio que se está dispuesto a pagar por la propiedad con la oferta real. Los inmuebles se distribuyen en la ciudad de la siguiente manera:
La concentración de viviendas por supuesto se observa en la zona sur de la ciudad y similar a lo que pasaba en el caso, varios de los registros escapan de esta zona geográfica. En el caso de la zona sur, las fronteras definidas para esta zona parecen ser mucho más ambiguas y adicionalmente es muy grande, llegando a ocupar cerca del 50 de la zona urbana de toda la ciudad. La mala anotación de coordenadas nuevamente podría ser la explicación, con un aumento proporcional en los datos mal anotados acorde con el tamaño de la zona y el número de registros disponibles
A continuación, se presenta un resumen estadístico con las métricas más relevantes para el conjunto de datos utilizado en la evaluación del primer caso.
| variable | mean | median | sd | min | max | n | mode | count | unique |
|---|---|---|---|---|---|---|---|---|---|
| piso | 4.4556871187657 | 4 | 2.65234170054893 | 1 | 12 | 2787 | NA | NA | NA |
| preciom | 297.291711517761 | 245 | 191.550579464988 | 75 | 1750 | 2787 | NA | NA | NA |
| areaconst | 97.4702762827413 | 85 | 52.5666926380735 | 40 | 932 | 2787 | NA | NA | NA |
| parqueaderos | 1.36813778256189 | 1 | 0.640321010185148 | 1 | 10 | 2787 | NA | NA | NA |
| banios | 2.48833871546466 | 2 | 0.93438176240139 | 0 | 8 | 2787 | NA | NA | NA |
| habitaciones | 2.96555435952637 | 3 | 0.632538731726142 | 0 | 6 | 2787 | NA | NA | NA |
| zona | NA | NA | NA | NA | NA | NA | Zona Sur | 2787 | 1 |
| estrato | NA | NA | NA | NA | NA | NA | 4 | 2787 | 4 |
| tipo | NA | NA | NA | NA | NA | NA | Apartamento | 2787 | 1 |
Para el caso número dos, la correlación entre las variables predictoras con la variable de respuesta aparentan ser mas fuertes, indicando un potencial mayor explicativo para este nuevo conjunto de viviendas compuesto por apartamentos del Sur.
Para un correcto modelamiento también es importante verificar las relaciones que existan entre las variables predictoras con el fin de evitar posibles problemas de multicolinealidad, o variables que son redundantes en el análisis. La siguiente grafica explica el nivel de correlación que existe entre las variables predictoras:
Para este conjunto de datos se reportan niveles de correlación bastante altos en algunas variables, similares a las observadas en el caso 1 como la relación entre el numero de baños y habitaciones, también entre parqueaderos. El área construida muestra una correlación muy alta con los baños y parqueaderos, esta asociación es esperable pero debe ser tomada en cuenta en caso de que el modelo tenga problemas o se quieran eliminar redundancias.
Aplicando la experiencia del primer caso y que se observó una baja correlación entre la variable piso y el precio, no se incluirá en el planteamiento del modelo.
\[ \text{precio} = \beta_0 + \beta_1 \times \text{habitaciones} + \beta_2 \times \text{estrato} + \beta_3 \times \text{areaconst} + \beta_4 \times \text{parqueaderos} + \beta_5 \times \text{banios} + \epsilon \] El modelo generado bajo estos criterios presenta los siguientes coeficientes:
##
## Call:
## lm(formula = preciom ~ estrato + areaconst + parqueaderos + banios +
## habitaciones, data = base)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1136.78 -37.84 -2.33 38.63 926.24
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -265.18773 12.89683 -20.562 < 2e-16 ***
## estrato 58.80725 2.67240 22.005 < 2e-16 ***
## areaconst 1.34356 0.04874 27.568 < 2e-16 ***
## parqueaderos 73.29854 3.67683 19.935 < 2e-16 ***
## banios 45.14045 2.98684 15.113 < 2e-16 ***
## habitaciones -17.99549 3.32944 -5.405 7.03e-08 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 93.03 on 2781 degrees of freedom
## Multiple R-squared: 0.7645, Adjusted R-squared: 0.7641
## F-statistic: 1806 on 5 and 2781 DF, p-value: < 2.2e-16
Intercepto: El intercepto del modelo es -265.19.
Esto representa el valor esperado de preciom cuando todas
las variables predictoras son iguales a cero. Aunque no tiene una
interpretación práctica directa en este contexto (ya que un valor de
cero en algunas variables no es realista).
Estrato: El coeficiente de estrato
es 58.81, con un valor p < 2e-16. Este coeficiente es
estadísticamente significativo y sugiere que, en promedio, un aumento en
el estrato se asocia con un incremento de 58.81 unidades en el
precio.
Área Construida (areaconst): El coeficiente de
areaconst es 1.34, con un valor p < 2e-16. Esto indica
que, en promedio, por cada aumento de una unidad en el área construida,
el precio aumenta en 1.34 unidades. Este coeficiente es también
estadísticamente significativo.
Parqueaderos: El coeficiente de
parqueaderos es 73.30, con un valor p < 2e-16. Esto
sugiere que cada parqueadero adicional está asociado con un incremento
promedio de 73.30 unidades en el precio, siendo estadísticamente
significativo.
Baños (banios): El coeficiente de
banios es 45.14, con un valor p < 2e-16. Indica que cada
baño adicional aumenta el precio en promedio 45.14 unidades, y es
estadísticamente significativo.
Habitaciones: El coeficiente de
habitaciones es -17.99, con un valor p = 7.03e-08.
Sorprendentemente, este coeficiente es negativo, lo que indica que cada
habitación adicional se asocia con una disminución promedio de 17.99
unidades en el precio, manteniendo constantes las demás variables.
Aunque este coeficiente es estadísticamente significativo, su valor
negativo puede ser un indicador de problemas por parte del modelo para
interpretarlo o colinealidad con otras variables ya que no tiene mucho
sentido.
R-cuadrado: El R-cuadrado del modelo es 0.7645,
por lo cual el 76.45% de la variabilidad en preciom está
explicada por las variables predictoras en el modelo actual. Es
necesario verificar los supuestos del modelo y el comportamiento de los
residuos para entender si este valor puede ser mejorado o no.
En la primera gráfica (Residuals vs Fitted), se observa un patrón de efecto embudo, donde la dispersión de los residuos aumenta a medida que los valores ajustados se incrementan. Esto sugiere que el modelo no está capturando adecuadamente las relaciones entre las variables predictoras y la variable de respuesta. La gráfica de Q-Q Residuals revela problemas de normalidad en los residuos, especialmente en los valores extremos.
En la gráfica Scale-Location, se confirma que el supuesto de homocedasticidad no se cumple, ya que se observa una tendencia creciente en la varianza de los residuos estandarizados en función de los valores ajustados. Esta heterocedasticidad puede comprometer la precisión de los intervalos de confianza y los valores p de las estimaciones de los coeficientes.
Finalmente, la gráfica de Residuos vs Leverage nos permite identificar puntos que podrían estar afectando negativamente el ajuste general del modelo debido a su carácter atípico. Puntos como los numerados en la gráfica (2383, 1536, 2380) podrían ejercer una influencia significativa en el modelo, y es crucial investigarlos para determinar si deben ser tratados o eliminados.
## 1 2
## 697.2563 756.0635
| Caso 2 | Estrato 5 | Estrato 6 |
|---|---|---|
| Precio | 697 millones | 756 millones |
El modelo propone un rango de precios entre los 697 a 756 millones considerando la diferencia que trae la selección de un estrato u otro. Este es el valor que debería de tener una casa con las características descritas en el caso 2 de acuerdo a la generalización realizada por el modelo de regresión múltiple. Una búsqueda con filtros acordes a los criterios sobre los datos de oferta inmobiliaria en Cali arroja un total de 5 viviendas con características similares a las buscadas. La principal diferencia se encuentra en el precio y el área construida.
## # A tibble: 5 × 8
## piso estrato preciom areaconst parqueaderos banios habitaciones tipo
## <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <chr>
## 1 5 5 730 573 3 8 5 Apartamento
## 2 1 5 670 300 3 5 6 Apartamento
## 3 8 6 1150 344 4 5 5 Apartamento
## 4 8 6 1150 464 4 6 5 Apartamento
## 5 7 6 1280 346 4 6 5 Apartamento
Una de las viviendas tiene un precio de 670 millones, situándose por debajo del rango de precios esperado. A pesar de ello, cumple con todos los requisitos e incluso supera el número de baños y habitaciones solicitados, lo que la convierte en la mejor opción en términos de precio y cumplimiento de criterios. El segundo inmueble, con un precio de 730 millones, se encuentra dentro del rango esperado y destaca por ofrecer casi el doble de área construida en comparación con la requerida. Esto se refleja en el número total de baños, lo que sugiere que cada una de las cinco habitaciones podría tener un baño propio, además de contar con baños adicionales para uso común.
Las otras viviendas disponibles no presentan una relación ideal entre los criterios y el precio, ya que superan los 1000 millones. La diferencia principal en términos de características es el estrato, siendo de nivel 6 para estas propiedades más caras, en contraste con el estrato 5 de las viviendas descritas anteriormente.
En conclusión, la vivienda con un precio de 670 millones es ideal para la empresa si busca satisfacer los criterios de sus trabajadores y ahorrar dinero. Sin embargo, la propiedad de 730 millones es una excelente opción que no excede el crédito preaprobado y ofrece una ventaja significativa en términos de mayor área construida y una excelente distribución de baños.
### Imputación base 1
#df=base1
#df_imputacion = df[, c('zona','piso','estrato','preciom', 'areaconst','parqueaderos', 'banios','habitaciones','tipo','barrio')]
#df_imputacion$zona <- as.factor(df_imputacion$zona)
#df_imputacion$zona <- as.numeric(df_imputacion$zona)
#df_imputacion$tipo <- as.factor(df_imputacion$tipo)
#df_imputacion$tipo <- as.numeric(df_imputacion$tipo)
#df_imputacion$barrio <- as.factor(df_imputacion$barrio)
#df_imputacion$barrio <- as.numeric(df_imputacion$barrio)
#df_imputacion$piso <- as.numeric(df_imputacion$piso)
#Modelo de imputación
#Imputados <- mice(df_imputacion, method = 'pmm', m = 20, maxit = 50, seed = 500)
#df_imputacion <- complete(Imputados)
#base1$parqueaderos=df_imputacion$parqueaderos
#base1$piso=df_imputacion$piso
### Imputación base 2
#df=base2
#df_imputacion = df[, c('zona','piso','estrato','preciom', 'areaconst','parqueaderos', 'banios','habitaciones','tipo','barrio')]
#df_imputacion$zona <- as.factor(df_imputacion$zona)
#df_imputacion$zona <- as.numeric(df_imputacion$zona)
#df_imputacion$tipo <- as.factor(df_imputacion$tipo)
#df_imputacion$tipo <- as.numeric(df_imputacion$tipo)
#df_imputacion$barrio <- as.factor(df_imputacion$barrio)
#df_imputacion$barrio <- as.numeric(df_imputacion$barrio)
#df_imputacion$piso <- as.numeric(df_imputacion$piso)
#Modelo de imputación
#Imputados <- mice(df_imputacion, method = 'pmm', m = 20, maxit = 50, seed = 500)
#df_imputacion <- complete(Imputados)
#base2$parqueaderos=df_imputacion$parqueaderos
#base2$piso=df_imputacion$piso
Dentro de las formas de mejorar el modelo actual, la transformación de variables parece ser la mas acertada, en especial considerando que hay dos variables que tienen rangos bastante amplios con algunos valores muy alto, lo cual podría estar sesgando los datos. Las transformaciones también pueden ayudar a linealizar los datos, en especial las transformaciones de tipo logarítmica. Sin embargo, las transformaciones implican un cambio en la interpretación de los coeficientes y de las predicciones, estas últimas deben ser “des transformadas” si es que la variable transformada fue la variable dependiente.
\[ \log(\text{preciom})= \beta_0 + \beta_1 \times \text{habitaciones} + \beta_2 \times \text{estrato} + \beta_3 \times \log(\text{areaconst}) + \beta_4 \times \text{parqueaderos} + \beta_5 \times \text{banios} + \epsilon \] Para el siguiente modelo tratado con transformaciones logaritmicas, el comportamiento observado en los graficos de diagnostico mejora, al igual que el valor de ajuste y captura de varianza (R2 & R2 adjustado).
##
## Call:
## lm(formula = log(preciom) ~ estrato + log(areaconst) + parqueaderos +
## banios + habitaciones, data = base)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.77686 -0.17843 -0.01577 0.15962 1.08963
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 2.255709 0.092394 24.414 < 2e-16 ***
## estrato 0.198009 0.012793 15.478 < 2e-16 ***
## log(areaconst) 0.479436 0.021692 22.102 < 2e-16 ***
## parqueaderos 0.023112 0.007533 3.068 0.00224 **
## banios 0.052312 0.009512 5.500 5.3e-08 ***
## habitaciones 0.006667 0.006996 0.953 0.34095
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.269 on 716 degrees of freedom
## Multiple R-squared: 0.7768, Adjusted R-squared: 0.7753
## F-statistic: 498.4 on 5 and 716 DF, p-value: < 2.2e-16
Dentro de las formas de mejorar el modelo actual, la transformación de variables parece ser la mas acertada en este caso, acompañada tambien del manejo de los valores atipicos.
\[ \log(\text{preciom})= \beta_0 + \beta_1 \times \text{habitaciones} + \beta_2 \times \text{estrato} + \beta_3 \times \log(\text{areaconst}) + \beta_4 \times \text{parqueaderos} + \beta_5 \times \text{banios} + \epsilon \] Para el siguiente modelo tratado con transformaciones logaritmicas, el comportamiento observado en los graficos de diagnostico mejora, al igual que el valor de ajuste y captura de varianza (R2 & R2 adjustado).Adicionalmente se eliminaron cuatro valores atipicos que estaban cambiando drasticamente las dinámicas del modelo.
##
## Call:
## lm(formula = log(preciom) ~ estrato + log(areaconst) + parqueaderos +
## banios + habitaciones, data = base)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.86935 -0.11635 0.00606 0.13304 0.78376
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.343505 0.060473 22.216 < 2e-16 ***
## estrato 0.203271 0.005863 34.669 < 2e-16 ***
## log(areaconst) 0.694510 0.017772 39.079 < 2e-16 ***
## parqueaderos 0.100533 0.009051 11.108 < 2e-16 ***
## banios 0.057611 0.006649 8.665 < 2e-16 ***
## habitaciones -0.044791 0.007302 -6.134 9.79e-10 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.1961 on 2777 degrees of freedom
## Multiple R-squared: 0.8532, Adjusted R-squared: 0.853
## F-statistic: 3229 on 5 and 2777 DF, p-value: < 2.2e-16