Actividad 2: Caso C&A

CONTEXTO DEL CASO

Maria comenzó como agente de bienes raíces en Cali hace 10 años. Después de laborar dos años para una empresa nacional, se traslado a Bogotá y trabajó para otra agencia de bienes raíces. Sus amigos y familiares la convencieron de que con su experiencia y conocimientos del negocio debía abrir su propia agencia. Terminó por adquirir la licencia de intermediario y al poco tiempo fundó su propia compañía, C&A (Casas y Apartamentos) en Cali. Santiago y Lina, dos vendedores de la empresa anterior aceptaron trabajar en la nueva compaña. En la actualidad ocho agentes de bienes raíces colaboran con ella en C&A.

Actualmente las ventas de bienes raíces en Cali se han visto disminuidas de manera significativa en lo corrido del año. Durante este periodo muchas instituciones bancarias de ahorro y vivienda están prestando grandes sumas de dinero para la industria y la construcción comercial y residencial. Cuando el efecto producto de las tensiones políticas y sociales disminuya, se espera que la actividad económica de este sector se reactive.

Objetivo

Hace dos días, María recibió una carta solicitando asesoría para la compra de dos viviendas por parte de una compañía internacional que desea ubicar a dos de sus empleados con sus familias en la ciudad. Las solicitudes incluyen las siguientes condiciones:

foco de análisis

foco de análisis

Ayude a María a responder la solicitud, mediante técnicas modelación que usted conoce. Ella requiere le envíe un informe ejecutivo donde analice los dos casos y sus recomendaciones (Informe). Como soporte del informe debe anexar las estimaciones, validaciones y comparación de modelos requeridos (Anexos) .

ANÁLISIS EXPLORATORIO DE LOS DATOS

1. REVISIÓN DE LOS DATOS

La siguiente sección pretende efectuar una verificación de las variables contenidas en la base de datos, donde se pudieron identificar un total de 13 variables y 8322 registros, identificando variables tipo categorico y númerico, para su posterior análisis se pueden dividir estas variables en dos grandes grupos, el primero relacionado con características propias de la infraestructura de las viviendas y el segundo referente a la ubicación.

## Rows: 8,322
## Columns: 13
## $ id           <dbl> 1147, 1169, 1350, 5992, 1212, 1724, 2326, 4386, 1209, 159…
## $ zona         <chr> "Zona Oriente", "Zona Oriente", "Zona Oriente", "Zona Sur…
## $ piso         <chr> NA, NA, NA, "02", "01", "01", "01", "01", "02", "02", "02…
## $ estrato      <dbl> 3, 3, 3, 4, 5, 5, 4, 5, 5, 5, 6, 4, 5, 6, 4, 5, 5, 4, 5, …
## $ preciom      <dbl> 250, 320, 350, 400, 260, 240, 220, 310, 320, 780, 750, 62…
## $ areaconst    <dbl> 70, 120, 220, 280, 90, 87, 52, 137, 150, 380, 445, 355, 2…
## $ parqueaderos <dbl> 1, 1, 2, 3, 1, 1, 2, 2, 2, 2, NA, 3, 2, 2, 1, 4, 2, 2, 2,…
## $ banios       <dbl> 3, 2, 2, 5, 2, 3, 2, 3, 4, 3, 7, 5, 6, 2, 4, 4, 4, 3, 2, …
## $ habitaciones <dbl> 6, 3, 4, 3, 3, 3, 3, 4, 6, 3, 6, 5, 6, 2, 5, 5, 4, 3, 3, …
## $ tipo         <chr> "Casa", "Casa", "Casa", "Casa", "Apartamento", "Apartamen…
## $ barrio       <chr> "20 de julio", "20 de julio", "20 de julio", "3 de julio"…
## $ longitud     <dbl> -76.51168, -76.51237, -76.51537, -76.54000, -76.51350, -7…
## $ latitud      <dbl> 3.43382, 3.43369, 3.43566, 3.43500, 3.45891, 3.36971, 3.4…

Posterior a la verificación de datos se estudian los datos faltantes, donde se identificaron un total de 4275 lo que representa el 51.36% de la información, por lo tanto, eliminarlos no sería una opción prudente, se opta por efectuar un análisis más profundo con el fin de identificar otro tipo de procesos.

De los datos faltantes se decide eliminar la variable piso, ya que no se incluye dentro de las condiciones para nuestro análisis.

2. LIMPIEZA DE LOS DATOS

Una vez se revisaron los datos se logró determinar que la variable ID posee un total de 03 registros que se encuentran sin ninguna información, por lo tanto, se procederá a eliminarlos ya que no aportan datos al análisis, las otras variables con datos faltantes son la variable de piso con un total de 2638 y parqueadero con 1605.

Variable piso: teniendo en cuenta que no se incluye dentro de las condiciones del ejercicio, será eliminada.

Variable parqueadero: se imputará con un valor de 0 para las viviendas de estrato 3 considerando que considerando que pueden ser parqueaderos comunales y no propios, quedaron un total de 1260 registros que serán imputados por la media dependiendo el estrato.

La siguiente imagen nos permite comprobar la correcta limpieza de nuestros datos al corregir errores como duplicación, normalización de caracteres, datos faltantes, e imputación de datos, por ejemplo, uno de los errores encontrados es que habían registros con cero baños y las viviendas por más pequeña que sean al menos cuentan con 1.

2.1 DATOS ATÍPICOS

Existen varios datos que al ser atípicos pueden generar una distorsión o ruido en nuestro análisis, a continuación, se presentan los valores calculados para el valor de las propiedades en miles de millones. De acuerdo a la gráfica anterior se puede observar los valores entre los que se mueven los precios para las casas y apartamento. para las viviendas tipo apartamentos encontramos valores desde los 150M hasta los 400M, en cambio que para las casas estos valors varian entre los 375M hasta 650M.

3. VISUALIZACIÓN DE DATOS

En esta sección identificaremos las características relevantes de nuestra base de datos para analizar y enfocar nuestra estrategia:

El anterior gráfico nos indica que de acuerdo a los datos que el tipo de vivienda predominante en la ciudad de cali son los apartamentos con un 61.3% y las casas con 38.7%. Teniendo en cuenta que nuestro objetivo de búsqueda se basa en viviendas en las zonas sur para apartamentos y zona norte para casa, se presenta el siguiente gráfico:

Ahora bien, conociendo el tipo de vivienda que es más predominante, es importante empezar a analizar las zonas de la ciudad donde estan más concentradas, para nuestro ejercicio nos enfocaremos en la zona sur con una representación del 56.8% donde encontramos 2787 apartamentos, la zona norte representa un 23.1% donde la vivienda tipo casa se acerca a los 722 registros, para una representación total del 79.9 de los datos. Más adelante dividieremos nuestra base de datos para enfocarnos en los casos de búsqueda.

Si analizamos el diagrama de distribución de precios de casas y apartamentos se puede evidenciar que precios de los apto estan entre los 200 y 400 millones, haciendo que sean viviendas más asequibles para los compradores, mientras que las casas concentran sus precios entre los 250 y 700 millones.

ANEXO 1. CASAS EN ZONA NORTE

En esta sección enfocaremos los esfuerzos al primer caso que se debe analizar, iniciaremos filtrando la base de datos para cada uno de los casos que se van a analizar.

Datos1 = Filtro Casa - Zona Norte

## # A tibble: 3 × 12
##      id zona    estrato preciom areaconst parqueaderos banios habitaciones tipo 
##   <dbl> <chr>   <fct>     <dbl>     <dbl>        <dbl>  <dbl>        <dbl> <chr>
## 1  1209 ZONA N… 5           320       150            2      4            6 CASA 
## 2  1592 ZONA N… 5           780       380            2      3            3 CASA 
## 3  4057 ZONA N… 6           750       445            2      7            6 CASA 
## # ℹ 3 more variables: barrio <fct>, longitud <dbl>, latitud <dbl>

Se puede evidenciar con los tres primeros registros que las bases de datos quedaron debidamente filtradas para nuestro caso de estudio.

Paso 1. Filtro y mapas (Casas/Zona Norte)

El primer caso a analizar serán las casas de la zona norte, el mapa inicialmente permite identificar que existen viviendas que se encuentran fuera de la zona, esto se debe que su úbicación geográfica en latitud y longitud no es la correcta, para filtrar esta información emplearemos la información solo de las viviendas que se encuentren dentro de la zona de estudio (Zona norte). De acuerdo a la página de la alcadia de cali, la ciudad se encuentra dividida en las siguientes zonas:

Zonas de Acuerdo alcaldía de Cali

Zonas de Acuerdo alcaldía de Cali

Las siguientes imágenes permiten indentificar que para el caso de las casas en la zona norte encontramos varias viviendas que se encuentran fuera de su zona, estas viviendas serán filtradas para poder enfocarnos solo en aquellas que de acuerdo a la distribución de la alcadia de Cali si se encuentren en la zona de interés.

## # A tibble: 3 × 12
##      id zona    estrato preciom areaconst parqueaderos banios habitaciones tipo 
##   <dbl> <chr>     <dbl>   <dbl>     <dbl>        <dbl>  <dbl>        <dbl> <chr>
## 1  1209 ZONA N…       5     320       150            2      4            6 CASA 
## 2  1592 ZONA N…       5     780       380            2      3            3 CASA 
## 3  4057 ZONA N…       6     750       445            2      7            6 CASA 
## # ℹ 3 more variables: barrio <chr>, longitud <dbl>, latitud <dbl>

A continuación se realiza un filtrado de viviendas y se presentan los siguientes resultados, donde solo se tendrán en cuenta las viviendas que se encuentren dentro de la zona de interés, con el fin, de no ubicar al cliente en una zona de la ciudad que no sea la requerida.

Paso 2. Análisis Exploratorio

Teniendo en cuenta la base de datos filtrada realizaremos el siguiente análisis, es importante recordar que al filtrar la ubicación de las viviendas hay algunas dentro del poligono con zonas diferente a la norte, por lo tanto, estas viviendas tambien fueron filtradas. Lo anterior que se pretende minimizar el riesgo de no ubicar al cliente en la zona requerida.

##        id           zona              estrato         preciom      
##  Min.   :  88   Length:565         Min.   :3.000   Min.   :  89.0  
##  1st Qu.: 719   Class :character   1st Qu.:3.000   1st Qu.: 245.0  
##  Median :1660   Mode  :character   Median :4.000   Median : 380.0  
##  Mean   :2207                      Mean   :4.186   Mean   : 428.8  
##  3rd Qu.:3588                      3rd Qu.:5.000   3rd Qu.: 540.0  
##  Max.   :6209                      Max.   :6.000   Max.   :1940.0  
##    areaconst       parqueaderos        banios       habitaciones   
##  Min.   :  30.0   Min.   : 0.000   Min.   : 1.00   Min.   : 1.000  
##  1st Qu.: 140.0   1st Qu.: 1.000   1st Qu.: 2.00   1st Qu.: 3.000  
##  Median : 240.0   Median : 2.000   Median : 3.00   Median : 4.000  
##  Mean   : 257.9   Mean   : 1.704   Mean   : 3.54   Mean   : 4.611  
##  3rd Qu.: 334.0   3rd Qu.: 2.000   3rd Qu.: 4.00   3rd Qu.: 5.000  
##  Max.   :1440.0   Max.   :10.000   Max.   :10.00   Max.   :10.000  
##      tipo              barrio         
##  Length:565         Length:565        
##  Class :character   Class :character  
##  Mode  :character   Mode  :character  
##                                       
##                                       
## 

De acuerdo a la anterior información se puede observar que las casas en la zona norte oscilan entre los 245M hasta los 540 millones, donde la mediana se encuentra en 375 M. considerando el presupuesto del cliente de 350 sería posible encontrar un valor que se ajuste a su presupuesto actual.

A continuación se presenta el gráfico de correlaciones para las variables cuantitativas:

Una vez que se filtrara la zona norte, la database final es de 565 casas, que se puede garantizar que debido a su ubicación geográfica estan dentro de la distribución espacial de la alcaldía de Cali, la tabla de correlaciones, muestra que el precio tiene una correlación positiva considerable (0.732) con la variable área construida, mientras que las variables independientes no presentan correlación significativa entre ellas, aunque la variable baños y habitaciones tiene un 0.617 aún se considera muy baja.

Teniendo en cuenta que la variable estrato es de naturaleza cualitativa, calcularemos la correlación aplicando el coeficiente de spearman:

## 
##  Spearman's rank correlation rho
## 
## data:  as.numeric(casas_norte_new$estrato) and casas_norte_new$preciom
## S = 8860836, p-value < 2.2e-16
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##       rho 
## 0.7052309

El coeficiente de correlación entre estas dos variables es de 0.70, por lo que puede considerarse significativa, además que el valor-p es cero estaría indicando que el estrato tiene alta correlación con la variable respuesta. Gráficamente en el boXplot se observa la notable diferencia que hay en los precios según aumenta el estrato de la vivienda.

Paso 3. Modelo de Regresión Lineal Múltiple

Estime un modelo de regresión lineal múltiple con las variables del punto anterior (precio = f(área construida, estrato, número de cuartos, número de parqueaderos, número de baños ) ) e interprete los coeficientes si son estadísticamente significativos. Las interpretaciones deber están contextualizadas y discutir si los resultados son lógicos. Adicionalmente interprete el coeficiente R2 y discuta el ajuste del modelo e implicaciones (que podrían hacer para mejorarlo).

## 
## Call:
## lm(formula = preciom ~ areaconst + parqueaderos + banios + habitaciones + 
##     estrato, data = casas_norte_new)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -921.99  -68.72  -14.96   35.35 1074.64 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -184.98964   36.58543  -5.056 5.80e-07 ***
## areaconst       0.75846    0.05342  14.197  < 2e-16 ***
## parqueaderos   17.69232    5.56019   3.182 0.001544 ** 
## banios         23.82050    6.35128   3.751 0.000195 ***
## habitaciones    8.08891    5.10755   1.584 0.113824    
## estrato        63.64635    9.06629   7.020 6.45e-12 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 156.7 on 559 degrees of freedom
## Multiple R-squared:  0.6378, Adjusted R-squared:  0.6346 
## F-statistic: 196.9 on 5 and 559 DF,  p-value: < 2.2e-16

El valor predicho de precio cuando todas las variables independientes son cero es negativo. En este caso, no tiene mucho sentido práctico porque no puede haber una vivienda con área construida, parqueaderos, baños, habitaciones y estrato iguales a cero y que su costo sea un valor negativo, en la práctica no tendría sentido un precio negativo, Por lo tanto, el intercepto en este caso es más una herramienta matemática para ajustar el modelo que un valor interpretable en el mundo real.

Los residuales indican que en el peor caso el modelo subestima el precio en 921.9 M, mientras que en el mejor caso lo sobreestima en 1074 M.

Las variables independientes se pueden interpretar:

areaconst: Por cada metro cuadrado adicional de área construida, el precio aumenta en 0.75846 millones.

parqueaderos: Por cada parqueadero adicional, el precio aumenta en 17.69232 millones.

bañoss: Por cada baño adicional, el precio aumenta en 23.82050 millones.

habitaciones: Por cada habitación adicional, el precio aumenta en 8.08891 millones (pero este coeficiente no es estadísticamente significativo).

estrato: Por cada aumento en el estrato, el precio aumenta en 63.64635 millones.

También se puede afirmar que el área, parqueaderos, baños y estrato son altamente significativos debido a su valor P = (p-valor < 0.001 o < 0.01). Mientras que la variable habitaciones no es significativo (p-valor = 0.113824), lo que sugiere que el número de habitaciones no tiene un efecto estadísticamente significativo sobre el precio de las viviendas en este modelo.

El coeficiente de determinación (R2) representa la relación de las variables en el modelo, con un R2=0.6336, este modelo indica que en un 63.3% la variabilidad en el precio del inmueble puede explicarse por las variables independientes.

Posibles mejoras

Revisar la posible colinealidad entre las variables explicativas, especialmente entre variables que pueden estar relacionadas, como el número de baños y el número de habitaciones. Reducir la colinealidad podría mejorar la precisión del modelo.

Transformaciones logarítmicas o polinomiales para variables como el precio de la vivienda o el área construida, en caso de que éstas tengan distribuciones sesgadas, lo que podría llevar a un mejor ajuste y a un modelo más robusto.

Analizar modelos alternativos que puedan capturar relaciones no lineales, como árboles de decisión, Random Forest, o modelos de Boosting. Estos modelos podrían manejar mejor las no linealidades y los posibles datos atípicos presentes en los datos.

Paso 4. Validación de supuestos

Se realiza la validación de supuestos:

Normalidad: En la gráfica “Q-Q residuals” se puede evidenciar que no todos los puntos caen en la línea de distribución normal, hay presencia de datos atípicos, por lo tanto, esto nos puede sugerir que no se distribuyen normalmente.

El shapiro test tambien permite verificar la normalidad, donde siel p-valor es extremadamente pequeño (prácticamente cero), se rechaza la hipótesis nula, lo que sugiere que los datos no siguen una normalidad.

## 
##  Shapiro-Wilk normality test
## 
## data:  modelo_casa1$residuals
## W = 0.78628, p-value < 2.2e-16

Homocedasticidad: De acuerdo con el gráfico “Scale-Location” la dispersión de los residuos no es igual en todos los valores ajustados. Vemos que la línea roja no es totalmente horizontal. Adicionalmente el valor p-valor es extremadamente pequeño. por lo tanto, se puede afirmar que hay una fuerte evidencia en contra de la hipótesis nula de homocedasticidad. En otras palabras, hay evidencia significativa de que la varianza de los errores no es constante en el modelo.

## 
##  studentized Breusch-Pagan test
## 
## data:  modelo_casa1
## BP = 111.11, df = 5, p-value < 2.2e-16

Autocorrelación: El valor de p es extremadamente pequeño, donde se asume que los errores son independientes entre sí, por lo tanto, no se rechaza la hipótesis nula.

## 
##  Durbin-Watson test
## 
## data:  modelo_casa1
## DW = 1.6449, p-value = 9.53e-06
## alternative hypothesis: true autocorrelation is greater than 0

Outlier: Se espera que la data no contenga datos atípicos que generen sesgos en los estimadores de los coeficientes, pero como se aprecia en el gráfico “Residuals vs Leverage,” se identifican numerosos puntos atípicos, lo que sugiere que podrían ejercer una influencia significativa en la determinación de una línea de regresión.

Multiconealidad: el calculo del VIF sufiere que las variables independientes no están altamente correlacionadas entre sí, y por lo tanto, no están inflando la varianza de los coeficientes estimados. ESto se traduce en una correlación leves entre algunas variables independientes que no son lo suficientemente alta como para causar problemas en el modelo.

##    areaconst parqueaderos       banios habitaciones      estrato 
##     1.753689     1.546344     2.068146     1.862509     1.719666

Sugerencias

Aplicar transformaciones a la variable de respuesta precio, ya sea logarítmica, la raíz cuadrada, o la inversa. Esto ayudaría a normalizar la distribución de los residuales si la variable original tiene una distribución sesgada y a su vez estabilizaría la varianza.

Si la transformación de la variable dependiente no mejora la normalidad de los residuales, se puede considerar un modelo que no asuma normalidad de los residuales, como una regresión robusta o modelos como Random Forest o Gradient Boosting Machines o también un modelo de regresión ponderada (WLS), que mitiga el problema de la homocedasticidad asignando un peso a cada observación basado en la varianza de los residuales.

Paso 5. - Predicción del Modelo

Con el modelo identificado debe predecir el precio de la vivienda con las características de la primera solicitud.

## [1] "Predicción del precio para estrato 4:  318.976170855197"
## [1] "Predicción del precio para estrato 5:  382.622522153296"

Paso 6. - Propuestas de Ofertas

Una vez estimados los precios para las viviendas tipo casa en la zona norte, en los estratos 4 y 5 se procede a realizar la revisión de la oferta con el fin de encontrar las mejores opciones para las caracteristicas solicitadas por el cliente:

## # A tibble: 34 × 10
##       id zona   estrato preciom areaconst parqueaderos banios habitaciones tipo 
##    <dbl> <chr>    <dbl>   <dbl>     <dbl>        <dbl>  <dbl>        <dbl> <chr>
##  1  1020 ZONA …       4     230       250            2      3            5 CASA 
##  2  1009 ZONA …       5     250       243            1      4            5 CASA 
##  3  4727 ZONA …       4     296       232            2      6            4 CASA 
##  4  1914 ZONA …       5     300       205            2      5            6 CASA 
##  5  4458 ZONA …       4     315       270            2      4            4 CASA 
##  6  1343 ZONA …       5     320       200            2      4            4 CASA 
##  7  3053 ZONA …       5     320       230            2      4            4 CASA 
##  8  1144 ZONA …       4     320       200            2      4            4 CASA 
##  9  1151 ZONA …       5     320       210            2      3            5 CASA 
## 10   766 ZONA …       5     321       249            1      5            5 CASA 
## # ℹ 24 more rows
## # ℹ 1 more variable: barrio <chr>

De este conjunto se escogerá la vivienda estrato 5 que más se acerque a los requerimientos del cliente y que presente una mejor relación área vs precio, La primera opción de vivienda es la 1943, la cual cumple con todos los requisitos del cliente, la segunda opción es la 1163 que duplica las necesidades del cliente en parqueadero, la tercera opción es la 4210, la cual ofrece mayor cantidad de parqueaderos y baños, la cuarta opción es la 937, la cual baja a estrato 4 pero aumenta el area construida significativamente la última es la 1343 con un precio de 320 y un area construida de 200 metros.

En total hay 34 opciones disponibles que cumplen con las necesidades del cliente, sin embargo, se decide adopatar aquellas que más criterios abarquen sin ir a los extremos.

ANEXO 2. APARTAMENTOS EN ZONA SUR.

Realizar los pasos anteriores para tipo vivienda apartamento en la zona Sur.

Paso 1.

Filtramos los datos para el caso de vivienda tipo apartamento y zona sur:

Datos2 = Filtro Apartamento - Zona Sur

## # A tibble: 3 × 12
##      id zona    estrato preciom areaconst parqueaderos banios habitaciones tipo 
##   <dbl> <chr>   <fct>     <dbl>     <dbl>        <dbl>  <dbl>        <dbl> <chr>
## 1  5098 ZONA S… 4           290        96            1      2            3 APAR…
## 2   698 ZONA S… 3            78        40            1      1            2 APAR…
## 3  8199 ZONA S… 6           875       194            2      5            3 APAR…
## # ℹ 3 more variables: barrio <fct>, longitud <dbl>, latitud <dbl>

Se puede verificar que para el segundo caso de estudio se filtraron correctamente las vivienda tipo apartamento que están ubicadas en la zona sur.

Psterior se realiza un filtrado de viviendas y se presentan los siguientes resultados, donde solo se tendrán en cuenta las viviendas que se encuentren dentro de la zona de interés, con el fin, de no ubicar al cliente en una zona de la ciudad que no sea la requerida.

Al igual que para la zona norte, la estrategia esta enmarcada en identificar las viviendas que esten dentro de las zona para entregarle al cliente la mejor oferta en la ubicación correcta.

Una vez filtrada la base realizaremos el siguiente análisis, es importante recordar que al filtrar la ubicación de las viviendas hay algunas dentro del poligono con zonas diferente a la sur, por lo tanto, estas viviendas tambien fueron filtradas. Lo anterior con el fin de minimizar el riesgo de no ubicar al cliente en la zona requerida.

##        id           zona              estrato         preciom      
##  Min.   :1250   Length:1928        Min.   :3.000   Min.   :  85.0  
##  1st Qu.:2205   Class :character   1st Qu.:4.000   1st Qu.: 190.0  
##  Median :3606   Mode  :character   Median :5.000   Median : 259.0  
##  Mean   :3799                      Mean   :4.779   Mean   : 316.1  
##  3rd Qu.:5351                      3rd Qu.:5.000   3rd Qu.: 350.0  
##  Max.   :7669                      Max.   :6.000   Max.   :1750.0  
##    areaconst       parqueaderos        banios       habitaciones  
##  Min.   : 40.00   Min.   : 0.000   Min.   :1.000   Min.   :1.000  
##  1st Qu.: 67.00   1st Qu.: 1.000   1st Qu.:2.000   1st Qu.:3.000  
##  Median : 86.00   Median : 1.000   Median :2.000   Median :3.000  
##  Mean   : 98.79   Mean   : 1.485   Mean   :2.555   Mean   :2.956  
##  3rd Qu.:110.00   3rd Qu.: 2.000   3rd Qu.:3.000   3rd Qu.:3.000  
##  Max.   :932.00   Max.   :10.000   Max.   :7.000   Max.   :6.000  
##      tipo              barrio         
##  Length:1928        Length:1928       
##  Class :character   Class :character  
##  Mode  :character   Mode  :character  
##                                       
##                                       
## 

De acuerdo a la anterior información se puede observar que loa apartamentos en la zona sur oscilan entre los 190M hasta los 350 millones, donde la mediana se encuentra en 259 M. considerando el presupuesto del cliente de 850 sería posible encontrar un valor que se ajuste a su presupuesto actual. inclusive podrían considerarse algunos outliers dentro de la propuesta.

A continuación se presenta el gráfico de correlaciones para las variables cuantitativas:

Una vez que se filtra la zona sur, la database final es de 1928 apartamentos, que se puede garantizar que debido a su ubicación geográfica estan dentro de la distribución espacial de la alcaldía de Cali, la tabla de correlaciones, muestra que el precio tiene una correlación positiva considerable (0.771) con la variable área construida, así como con la variable baños (0.747), mientras que las variables independientes no presentan correlación significativa entre ellas, aunque la variable baños y area construida tiene un 0.663 aún se considera muy baja. La baja correlación de las variables independientes podrían comprobar que el modelo no tendría problemas con la Multiconealidad.

Teniendo en cuenta que la variable estrato es de naturaleza cualitativa, calcularemos la correlación aplicando el coeficiente de spearman:

## 
##  Spearman's rank correlation rho
## 
## data:  as.numeric(casas_sur_new$estrato) and casas_sur_new$preciom
## S = 284535869, p-value < 2.2e-16
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##      rho 
## 0.761786

El coeficiente de correlación entre estas dos variables es de 0.76, por lo que puede considerarse significativa, además que el valor-p es cero estaría indicando que el estrato tiene alta correlación con la variable respuesta. Gráficamente en el boXplot se observa la notable diferencia que hay en los precios según aumenta el estrato de la vivienda.

Paso 3. Modelo de Regresión Lineal Múltiple

Estime un modelo de regresión lineal múltiple con las variables del punto anterior (precio = f(área construida, estrato, número de cuartos, número de parqueaderos, número de baños ) ) e interprete los coeficientes si son estadísticamente significativos. Las interpretaciones deber están contextualizadas y discutir si los resultados son lógicos. Adicionalmente interprete el coeficiente R2 y discuta el ajuste del modelo e implicaciones (que podrían hacer para mejorarlo).

## 
## Call:
## lm(formula = preciom ~ areaconst + parqueaderos + banios + habitaciones + 
##     estrato, data = casas_sur_new)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1261.14   -48.72    -1.82    41.07   914.66 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -316.40026   17.91769 -17.659   <2e-16 ***
## areaconst       1.47736    0.06006  24.596   <2e-16 ***
## parqueaderos   52.96532    4.11579  12.869   <2e-16 ***
## banios         58.62259    3.93192  14.909   <2e-16 ***
## habitaciones   -8.24655    4.56230  -1.808   0.0708 .  
## estrato        59.11061    3.64563  16.214   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 99.56 on 1922 degrees of freedom
## Multiple R-squared:   0.76,  Adjusted R-squared:  0.7593 
## F-statistic:  1217 on 5 and 1922 DF,  p-value: < 2.2e-16

El valor predicho de precio cuando todas las variables independientes son cero es negativo. En este caso, no tiene mucho sentido práctico porque no puede haber una vivienda con área construida, parqueaderos, baños, habitaciones y estrato iguales a cero y que su costo sea un valor negativo, en la práctica no tendría sentido un precio negativo, Por lo tanto, el intercepto en este caso es más una herramienta matemática para ajustar el modelo que un valor interpretable en el mundo real.

Los residuales indican que en el peor caso el modelo subestima el precio en 1261.41 M, mientras que en el mejor caso lo sobreestima en 914.66M.

Las variables independientes se pueden interpretar:

areaconst: Por cada metro cuadrado adicional de área construida, el precio aumenta en 1.47 millones.

parqueaderos: Por cada parqueadero adicional, el precio aumenta en 52.96 millones.

bañoss: Por cada baño adicional, el precio aumenta en 58.62 millones.

habitaciones: Por cada habitación adicional, el precio disminuye en 8.24 millones (pero este coeficiente no es estadísticamente significativo), ya que su correlación con el precio es de 0.35, adicionalmente tampoco tendría sentido que al aumentar las habitaciones el precio disminuya.

estrato: Por cada aumento en el estrato, el precio aumenta en 59.11 millones.

También se puede afirmar que el área, parqueaderos, baños y estrato son altamente significativos debido a su valor P = (p-valor < 0.001 o < 0.01). Mientras que la variable habitaciones no es significativo (p-valor = 0.07), lo que sugiere que el número de habitaciones no tiene un efecto estadísticamente significativo sobre el precio de las viviendas en este modelo.

El coeficiente de determinación (R2) representa la relación de las variables en el modelo, con un R2=0.76, este modelo indica que en un 76% la variabilidad en el precio del inmueble puede explicarse por las variables independientes.

Posibles mejoras

Transformaciones logarítmicas o polinomiales para variables como el precio de la vivienda o el área construida, en caso de que éstas tengan distribuciones sesgadas, lo que podría llevar a un mejor ajuste y a un modelo más robusto.

Analizar modelos alternativos que puedan capturar relaciones no lineales, como árboles de decisión, Random Forest, o modelos de Boosting. Estos modelos podrían manejar mejor las no linealidades y los posibles datos atípicos presentes en los datos.

Paso 4. Validación de supuestos

Se realiza la validación de supuestos:

Normalidad: En la gráfica “Q-Q residuals” se puede evidenciar que no todos los puntos caen en la línea de distribución normal, hay presencia de datos atípicos, por lo tanto, esto nos puede sugerir que no se distribuyen normalmente.

El shapiro test tambien permite verificar la normalidad, donde siel p-valor es extremadamente pequeño (prácticamente cero), se rechaza la hipótesis nula, lo que sugiere que los datos no siguen una normalidad.

## 
##  Shapiro-Wilk normality test
## 
## data:  modelo_apto$residuals
## W = 0.77418, p-value < 2.2e-16

Homocedasticidad: De acuerdo con el gráfico “Scale-Location” la dispersión de los residuos no es igual en todos los valores ajustados. Adicionalmente el valor p-valor es extremadamente pequeño. por lo tanto, se puede afirmar que hay una fuerte evidencia en contra de la hipótesis nula de homocedasticidad. En otras palabras, hay evidencia significativa de que la varianza de los errores no es constante en el modelo.

## 
##  studentized Breusch-Pagan test
## 
## data:  modelo_apto
## BP = 799.6, df = 5, p-value < 2.2e-16

Autocorrelación: El valor de p es extremadamente pequeño, donde se asume que los errores son independientes entre sí, por lo tanto, no se rechaza la hipótesis nula.

## 
##  Durbin-Watson test
## 
## data:  modelo_apto
## DW = 1.5846, p-value < 2.2e-16
## alternative hypothesis: true autocorrelation is greater than 0

Outlier: Se espera que la data no contenga datos atípicos que generen sesgos en los estimadores de los coeficientes, pero como se aprecia en el gráfico “Residuals vs Leverage,” se identifican numerosos puntos atípicos, lo que sugiere que podrían ejercer una influencia significativa en la determinación de una línea de regresión.

Multiconealidad: el calculo del VIF sufiere que las variables independientes no están altamente correlacionadas entre sí, y por lo tanto, no están inflando la varianza de los coeficientes estimados. Esto se traduce en una correlación leve entre algunas variables independientes que no son lo suficientemente alta como para causar problemas en el modelo.

##    areaconst parqueaderos       banios habitaciones      estrato 
##     2.014100     1.533819     2.601579     1.413620     1.678394

Sugerencias

Aplicar transformaciones a la variable de respuesta precio, ya sea logarítmica, la raíz cuadrada, o la inversa. Esto ayudaría a normalizar la distribución de los residuales si la variable original tiene una distribución sesgada y a su vez estabilizaría la varianza.

Si la transformación de la variable dependiente no mejora la normalidad de los residuales, se puede considerar un modelo que no asuma normalidad de los residuales, como una regresión robusta o modelos como Random Forest o Gradient Boosting Machines o también un modelo de regresión ponderada (WLS), que mitiga el problema de la homocedasticidad asignando un peso a cada observación basado en la varianza de los residuales.

Paso 5. - Predicción del Modelo

Con el modelo identificado debe predecir el precio de la vivienda con las características de la primera solicitud.

## [1] "Predicción del precio para estrato 5:  715.890872221684"
## [1] "Predicción del precio para estrato 6:  775.001481674877"

Paso 6. - Propuestas de Ofertas

Una vez estimados los precios para las viviendas tipo apartamento en la zona sur, en los estratos 5 y 6 se procede a realizar la revisión de la oferta con el fin de encontrar las mejores opciones para las caracteristicas solicitadas por el cliente, Sin embargo no se encontraron apartamentos con estas caracteristicas en la zona sur de Cali, por lo anterior, se adopta bajar la cantidad de habitaciones haciendola igual o mayor a 3, donde se encuentra la siguiente oferta:

## # A tibble: 1 × 10
##      id zona    estrato preciom areaconst parqueaderos banios habitaciones tipo 
##   <dbl> <chr>     <dbl>   <dbl>     <dbl>        <dbl>  <dbl>        <dbl> <chr>
## 1  5574 ZONA S…       6     850       352            4      3            3 APAR…
## # ℹ 1 more variable: barrio <chr>

Teniendo en cuenta que en esta zona de la ciudad no existen viviendas de las caracteristicas obtenidas la otra estrategia planteada sugiere disminuir el area cuadrada y la cantidad de parqueaderos y habitaciones para encontrar más opciones de oferta, donde se obtienen los siguientes resultados:

## # A tibble: 3 × 10
##      id zona    estrato preciom areaconst parqueaderos banios habitaciones tipo 
##   <dbl> <chr>     <dbl>   <dbl>     <dbl>        <dbl>  <dbl>        <dbl> <chr>
## 1  4952 ZONA S…       5     650       600            2      4            5 APAR…
## 2  4394 ZONA S…       5     690       486            2      4            4 APAR…
## 3  5574 ZONA S…       6     850       352            4      3            3 APAR…
## # ℹ 1 more variable: barrio <chr>

Se tomarán en cuenta las viviendas con mayor área construida para afectar lo menos posible las necesidades del cliente.

INFORME EJECUTIVO

Señores A&C

Cali 03 de marzo de 2025

El presente informe pretende brindar información del análisis detallado realizado con el fin de sugerir la selección de viviendas en dos zonas diferentes de la ciudad de Cali, las ofertas plasmadas en el presente documento se basan en los requerimientos específicos realizados por el cliente y las características principales de los tipos de vivienda solicitados disponibles en el mercado inmobiliario actual.

Teniendo en cuenta la trayectoria de la empresa inmobiliaria se ha realizado un análisis exhaustivo dentro del sector urbano enfocando los esfuerzos en dos zonas de interés que fueron solicitadas por el cliente, como lo son la zona norte y la zona sur de la ciudad, se ha realizado un proceso de segmentación e imputación de datos para evitar que las viviendas de tipo casa o apartamento quedaran fuera de estas áreas de interés.

Adicionalmente, se presenta un análisis detallado de la selección de viviendas en las diferentes zonas de la ciudad de Cali, basado en los requerimientos específicos del cliente y las características del mercado inmobiliario. Se ha realizado un proceso de segmentación y ajuste de los datos para garantizar que las ofertas se adapten a las necesidades del cliente, evitando distorsiones derivadas de la ubicación o sectorización de las viviendas.

1. Particularidades de la Selección por Zona:

Zona Norte: Se enfoca en viviendas tipo casa, con énfasis en los estratos 4 y 5, que representan el 23.1% de las propiedades en esta zona, donde 722 pertenecen a viviendas de tipo casa. Las viviendas seleccionadas cumplen con características como área construida, número de habitaciones, baños y parqueaderos, ajustándose al presupuesto del cliente.

Zona Sur: Se centra en apartamentos de lujo, principalmente en los estratos 5 y 6, que representan el 56.8% de las propiedades en esta zona, donde 2787 pertenecen a tipo apartamento. Las ofertas se ajustan a requerimientos más exigentes, como áreas construidas superiores a 300 metros cuadrados y múltiples parqueaderos y habitaciones.

Ahora bien, conociendo el tipo de vivienda que es más predominante, es importante empezar a analizar las zonas de la ciudad donde están más concentradas, para nuestro ejercicio nos enfocaremos en la zona sur con una representación del 56.8% donde encontramos 2787 apartamentos, la zona norte representa un 23.1% donde la vivienda tipo casa representa 722 registros, para una representación total del 79.9% de los datos.

2. Predicción de Precios del Modelo

Se ha utilizado un modelo de regresión lineal para estimar los precios promedio de las viviendas en función de variables como el área construida, número de parqueaderos, baños, habitaciones y estrato. A continuación, se presentan los precios predichos para los requerimientos del cliente:

Requerimiento 1 - Casa en la Zona Norte:

• Estrato 4: Área construida: 200 m², 1 parqueadero, 2 baños, 4 habitaciones. Precio predicho: 318.97 millones de pesos.

• Estrato 5: Área construida: 200 m², 1 parqueadero, 2 baños, 4 habitaciones. Precio predicho: 382.62 millones de pesos.

Requerimiento 2 - Apartamento en la Zona Sur:

• Estrato 5: Área construida: 300 m², 3 parqueaderos, 3 baños, 5 habitaciones. Precio predicho: 715.89 millones de pesos.

• Estrato 6: Área construida: 300 m², 3 parqueaderos, 3 baños, 5 habitaciones. Precio predicho: 775.00 millones de pesos.

3. Mejores Ofertas de Viviendas por Zona

A continuación, se presentan las mejores ofertas de viviendas para cada zona, seleccionadas en función de las predicciones del modelo y los requerimientos del cliente:

ZONA NORTE

ZONA NORTE

TABLA PROPUESTAS ZONA NORTE

TABLA PROPUESTAS ZONA NORTE

ZONA SUR

ZONA SUR

TABLA PROPUESTAS ZONA SUR

TABLA PROPUESTAS ZONA SUR

4. Conclusiones y Recomendaciones

• Selección de Viviendas: Las ofertas presentadas se ajustan a los requerimientos del cliente y a las características promedio de cada zona. En la Zona Norte, las casas seleccionadas ofrecen una buena relación entre área construida y precio. En la Zona Sur, los apartamentos ofrecen características ajustadas teniendo en cuenta que esas especificaciones no se encontraron dentro de la zona.

• Predicción de Precios: El modelo de regresión lineal utilizado proporciona estimaciones razonables para los precios, aunque se recomienda mejorar la precisión mediante otro tipos de técnicas o modelos log-lineales.

• Recomendaciones para la Inmobiliaria:

1.Mejorar la calidad de los datos, especialmente en el etiquetado de zonas y la normalización de variables categóricas.

2.Explorar técnicas de modelación más avanzadas para reducir la influencia de valores atípicos.

3.Complementar el análisis con indicadores espaciales para identificar patrones geográficos en los precios.