1 Introducción

El presente informe responde a la solicitud de asesoría para la compra de dos viviendas en la ciudad de Cali para los empleados de una compañía internacional. Se ha realizado un análisis de datos basado en la oferta inmobiliaria de los últimos tres meses, utilizando modelos estadísticos para estimar lso precios de mercado y seleccionar las propiedades más adecuadas según los requerimientos de cada caso

1.1 Descripción de Variables

A continuación, se presenta un desglose de cada columna del conjunto de datos, detallando su tipo y lo que representa en el contexto del mercado inmobiliario.

##        id           zona               piso              estrato     
##  Min.   :   1   Length:8322        Length:8322        Min.   :3.000  
##  1st Qu.:2080   Class :character   Class :character   1st Qu.:4.000  
##  Median :4160   Mode  :character   Mode  :character   Median :5.000  
##  Mean   :4160                                         Mean   :4.634  
##  3rd Qu.:6240                                         3rd Qu.:5.000  
##  Max.   :8319                                         Max.   :6.000  
##  NA's   :3                                            NA's   :3      
##     preciom         areaconst       parqueaderos        banios      
##  Min.   :  58.0   Min.   :  30.0   Min.   : 1.000   Min.   : 0.000  
##  1st Qu.: 220.0   1st Qu.:  80.0   1st Qu.: 1.000   1st Qu.: 2.000  
##  Median : 330.0   Median : 123.0   Median : 2.000   Median : 3.000  
##  Mean   : 433.9   Mean   : 174.9   Mean   : 1.835   Mean   : 3.111  
##  3rd Qu.: 540.0   3rd Qu.: 229.0   3rd Qu.: 2.000   3rd Qu.: 4.000  
##  Max.   :1999.0   Max.   :1745.0   Max.   :10.000   Max.   :10.000  
##  NA's   :2        NA's   :3        NA's   :1605     NA's   :3       
##   habitaciones        tipo              barrio             longitud     
##  Min.   : 0.000   Length:8322        Length:8322        Min.   :-76.59  
##  1st Qu.: 3.000   Class :character   Class :character   1st Qu.:-76.54  
##  Median : 3.000   Mode  :character   Mode  :character   Median :-76.53  
##  Mean   : 3.605                                         Mean   :-76.53  
##  3rd Qu.: 4.000                                         3rd Qu.:-76.52  
##  Max.   :10.000                                         Max.   :-76.46  
##  NA's   :3                                              NA's   :3       
##     latitud     
##  Min.   :3.333  
##  1st Qu.:3.381  
##  Median :3.416  
##  Mean   :3.418  
##  3rd Qu.:3.452  
##  Max.   :3.498  
##  NA's   :3
Primeras 5 observaciones del dataset
id zona piso estrato preciom areaconst parqueaderos banios habitaciones tipo barrio longitud latitud
1147 Zona Oriente NA 3 250 70 1 3 6 Casa 20 de julio -76.51168 3.43382
1169 Zona Oriente NA 3 320 120 1 2 3 Casa 20 de julio -76.51237 3.43369
1350 Zona Oriente NA 3 350 220 2 2 4 Casa 20 de julio -76.51537 3.43566
5992 Zona Sur 02 4 400 280 3 5 3 Casa 3 de julio -76.54000 3.43500
1212 Zona Norte 01 5 260 90 1 2 3 Apartamento acopi -76.51350 3.45891
  • id Tipo de Dato: Identificador Numérico (Entero). Descripción: Un número único asignado a cada oferta de vivienda. Sirve para diferenciar cada registro de manera individual.

  • zona Tipo de Dato: Categórica (Texto). Descripción: Indica la zona geográfica principal de la ciudad donde se ubica la propiedad (ej. “Zona Norte”, “Zona Sur”).

  • piso Tipo de Dato: Numérica (Entero) con valores nulos. Descripción: El número del piso en el que se encuentra la vivienda. Esta variable presenta valores faltantes (NA).

  • estrato

  • Tipo de Dato: Numérica (Ordinal).

  • Descripción: El estrato socioeconómico de la propiedad, un sistema de clasificación usado en Colombia. Valores más altos indican un mayor nivel socioeconómico.

  • preciom Tipo de Dato: Numérica (Continua). Descripción: Es la variable objetivo principal. Representa el precio de venta de la vivienda, expresado en millones de pesos colombianos (COP).

  • areaconst Tipo de Dato: Numérica (Continua). Descripción: El área total construida de la vivienda, medida en metros cuadrados (m²).

  • parqueaderos Tipo de Dato: Numérica (Discreta). Descripción: El número de puestos de estacionamiento o parqueaderos que incluye la propiedad.

  • banios Tipo de Dato: Numérica (Discreta). Descripción: La cantidad total de baños en la vivienda.

  • habitaciones Tipo de Dato: Numérica (Discreta). Descripción: El número de habitaciones o dormitorios de la propiedad.

  • tipo Tipo de Dato: Categórica (Texto). Descripción: Clasifica la propiedad en categorías como “Casa” o “Apartamento”.

  • barrio Tipo de Dato: Categórica (Texto). Descripción: El nombre del barrio específico donde está localizada la vivienda.

  • longitudylatitud Tipo de Dato: Numérica (Continua). Descripción: Las coordenadas geográficas de la propiedad. longitud corresponde al eje Oeste-Este y latitud al eje Norte-Sur, permitiendo ubicar cada vivienda en un mapa.

2 Informe Ejecutivo

Este informe presenta los resultados de un análisis de datos y modelamiento predictivo para el mercado de inmobilidario en dos Zonas de la ciudad. El objetivo fue doble: primero, construir un modelo de regresión lineal para entender los factores que determinan el precio de la vivienda en este segmento; y segundo, utilizar este modelo para generar recomendaciones de compra personalizadas para dos perfiles de clientes con presupuestos de $350 y $850 millones, respectivamente.

El modelo predictivo final demostró ser robusto, explicando una parte significativa de la variabilidad de los precios. Se identificaron ofertas de alto potencial para ambos clientes, cumpliendo con sus restricciones presupuestarias y características deseadas. Confirmando en ambos casos que el requerimiento del cliente es viable, y que cuenta con el presupuestos necesario para sus requerimientos

2.1 Solicitud 1: Cliente con Presupuesto Máximo de $350 Millones

Se realizó un análisis enfocado en identificar las mejores oportunidades de mercado para un cliente con un crédito pre-aprobado de $350 millones.

Análisis del Mercado y Modelo:

Se filtró la base de datos para aislar únicamente las casas ofertadas en la Zona Norte.

El modelo de regresión lineal múltiple (precio = f(área, estrato, baños, habitaciones, parqueaderos)) se ajustó a los datos, demostrando que variables como el área construida y el número de baños son los predictores más significativos del precio.

Diagnóstico del Modelo: La validación de supuestos reveló indicios de heteroscedasticidad, lo que sugiere que la precisión del modelo puede variar para diferentes rangos de precios. Para futuras implementaciones, se recomienda el uso de técnicas de corrección como errores estándar robustos.

Recomendaciones de Ofertas Potenciales (Presupuesto ≤ $350M):

Utilizando las predicciones del modelo, se identificaron 5 ofertas estratégicas cuyo precio de mercado estimado se alinea con el presupuesto del cliente.

Estas propiedades representan un equilibrio óptimo entre las características deseadas (ej. número de habitaciones, área) y un precio competitivo dentro del límite de crédito. El mapa de ofertas muestra que estas oportunidades se concentran en barrios específicos de la Zona Norte, permitiendo al cliente enfocar su búsqueda geográficamente.

2.2 Solicitud 2: Cliente con Presupuesto Máximo de $850 Millones

Se replicó el proceso para un segundo cliente con un poder adquisitivo mayor, buscando propiedades de gama más alta dentro de la Zona sur

Análisis del Mercado y Modelo:

El mismo modelo predictivo fue aplicado a un segmento de mercado de mayor valor. El análisis exploratorio para este nicho mostró una correlación aún más fuerte entre el área construida, el estrato y el precio final.

Los coeficientes del modelo confirmaron que, en este rango de precios, un baño o parqueadero adicional tiene un impacto porcentual significativo en el valor del inmueble, un hallazgo clave para la negociación y valoración.

Recomendaciones de Ofertas Potenciales (Presupuesto ≤ $850M):

Se generó una lista curada de 5 casas de alto valor que, según las predicciones del modelo, representan una compra justa y se ajustan al presupuesto de $850 millones, que aunque no cumplen con todas las caracteristicas requeridas por el cliente se mantiene dentro del rango de presupuesto y el modelo valida con un precio del mercado.

Estas propiedades se caracterizan por tener mayores áreas, más baños y, en general, ubicarse en estratos socioeconómicos más altos.

3 Anexos

4 Caso 1: Búsqueda de Casa en la Zona Norte

4.1 Características Solicitadas

  • Tipo: Casa
  • Ubicación: Zona Norte
  • Área construida: 200 m²
  • Parqueaderos: 1
  • Baños: 3
  • Habitaciones: 2
  • Estrato: 4 o 5
  • Presupuesto: $350 millones

4.2 Filtro Inicial y Exploración de Datos

Primero, realizamos un filtro para obtener únicamente las casas ubicadas en la “Zona Norte” según los datos originales.

Primeros 3 Registros (Filtro Inicial)
ID Zona Piso Estrato Precio (M) Área Parqueaderos Baños Hab. Tipo Barrio Longitud Latitud
1209 Zona Norte 02 5 320 150 2 4 6 Casa acopi -76.51341 3.47968
1592 Zona Norte 02 5 780 380 2 3 3 Casa acopi -76.51674 3.48721
4057 Zona Norte 02 6 750 445 NA 7 6 Casa acopi -76.52950 3.38527

A continuación, visualizamos estos puntos en un mapa para verificar su distribución geográfica.

Se observa claramente que algunas propiedades, a pesar de estar etiquetadas como “Zona Norte” se encuentran geográficamente muy lejos del grupo principal. Esto suele ocurrir por errores de digitación o geocodificació, lo que afecta la calidad de datos. Para solucinarlo se procede a realizar un filtro espacial para seleccionar solo los puntos que se encuentran del área geográfica correcta. Para esto tomamos la definición de la alcaldia de Cali en https://www.cali.gov.co/planeacion/publicaciones/169423/zonas-geograficas-idesc/

Zona Norte: Para su definición, se tuvieron en cuenta aspectos como los sectores de las calles y carreras norte establecidos en la guía para la nomenclatura urbana de Santiago de Cali, pero también aquellos barrios y sectores que la comunidad reconoce como norte de la ciudad. Esta zona comprende el territorio que va desde la KR 1 entre la CL 1 OESTE hasta el separador vial ubicado entre las CL 25 y CL 26, vía por la cual se continúa hasta la KR 7, y desde este punto, siguiendo el trazado del corredor férreo hasta llegar a la CL 88, a partir de la cual, se continua hacia el norte por el límite del suelo urbano hasta finalizar en el punto de inicio en la KR 1.

4.3 Corrección Espacial de Datos

Para asegurar la calidad de los datos, utilizamos un shapefile con el límite geográfico oficial de la Zona Norte para filtrar espacialmente las propiedades.

## Registros originales: 722
## Registros después de filtrar con el shapefile: 526

Ahora visualizamos los datos limpios junto con el límite del shapefile para confirmar que la corrección fue exitosa.

4.4 Análisis Exploratorio (EDA)

Con la base de datos ya limpia exploramos la relación entre el precio y las variables más importantes o de interes para el caso. preciom”, “areaconst”, “estrato”, “banios”, “habitaciones”, “parqueaderos

4.4.1 Estadistica Descriptiva

##     preciom         areaconst          banios        habitaciones   
##  Min.   : 110.0   Min.   :  30.0   Min.   : 0.000   Min.   : 0.000  
##  1st Qu.: 243.5   1st Qu.: 135.0   1st Qu.: 2.000   1st Qu.: 3.000  
##  Median : 375.0   Median : 233.0   Median : 3.000   Median : 4.000  
##  Mean   : 421.1   Mean   : 253.5   Mean   : 3.498   Mean   : 4.586  
##  3rd Qu.: 530.0   3rd Qu.: 330.8   3rd Qu.: 4.000   3rd Qu.: 5.000  
##  Max.   :1800.0   Max.   :1440.0   Max.   :10.000   Max.   :10.000  
##                                                                     
##   parqueaderos  
##  Min.   : 1.00  
##  1st Qu.: 1.00  
##  Median : 2.00  
##  Mean   : 2.23  
##  3rd Qu.: 3.00  
##  Max.   :10.00  
##  NA's   :174
Estadísticas Descriptivas - Casas Zona Norte
preciom areaconst banios habitaciones parqueaderos
Min. : 89.0 Min. : 30.0 Min. : 0.000 Min. : 0.000 Min. : 1.000
1st Qu.: 261.2 1st Qu.: 140.0 1st Qu.: 2.000 1st Qu.: 3.000 1st Qu.: 1.000
Median : 390.0 Median : 240.0 Median : 3.000 Median : 4.000 Median : 2.000
Mean : 445.9 Mean : 264.9 Mean : 3.555 Mean : 4.507 Mean : 2.182
3rd Qu.: 550.0 3rd Qu.: 336.8 3rd Qu.: 4.000 3rd Qu.: 5.000 3rd Qu.: 3.000
Max. :1940.0 Max. :1440.0 Max. :10.000 Max. :10.000 Max. :10.000
NA NA NA NA NA’s :287
  • Alta Variabilidad Tanto el precio (preciom) como el área construida (areaconst) muestran una dispersión muy amplia. El precio varía desde aproximadamente $89 millones hasta un máximo de $1,940 millones.
  • Media vs. Mediana: Para ambas variables, la media es considerablemente mayor que la mediana (ej. para el precio, Media: $445.9M vs. Mediana: $390M). Esto indica una distribución con sesgo a la derecha (asimétrica positiva), lo que sugiere la presencia de valores atípicos; es decir, unas pocas casas que son significativamente más grandes y costosas que la mayoría.
  • Concentración de Datos: El 50% de las casas (el rango intercuartílico) tienen un precio entre $261 y $550 millones y un área entre 140 y 337 m².

Características Típicas de las Viviendas

  • Estrato: Las propiedades se distribuyen entre los estratos 3 y 6, con una mediana en el estrato 4. Esto indica que la muestra está concentrada en la clase media y media-alta.
  • Composición: Una casa típica en esta zona tiene una mediana de 4 habitaciones, 3 baños y 2 parqueaderos. Los valores máximos (10 habitaciones/baños) confirman la presencia de propiedades de lujo en la muestra.

Calidad de Datos

  • Valores Faltantes (NA): El hallazgo más importante en cuanto a la calidad de los datos es la presencia de una cantidad significativa de valores faltantes en la variable parqueaderos. Dependiendo del resumen, se reportan entre 174 y 287 NA's.
  • Posibles Inconsistencias: Se registra un valor mínimo de 0 para habitaciones y banios, lo cual podría ser un error de digitación o representar propiedades especiales (lotes o locales) que deberían ser revisadas.

Aspectos a tratar antes de implementar el modelo

  1. El sesgo en la variable respuesta (preciom) sugiere que una transformación (como el logaritmo) podría ser necesaria para cumplir los supuestos del modelo de regresión.
  2. El manejo de los valores faltantes en parqueaderos es obligatorio. Se debe decidir una estrategia, ya sea mediante imputación de datos (ej. reemplazar los NA con la mediana) o la exclusión de la variable si no es crítica para el modelo.

4.4.2 Matriz de correlación

Matriz de Correlaciones
preciom areaconst estrato banios habitaciones parqueaderos
preciom 1.000 0.659 0.549 0.518 0.321 0.433
areaconst 0.659 1.000 0.366 0.486 0.428 0.320
estrato 0.549 0.366 1.000 0.384 0.058 0.256
banios 0.518 0.486 0.384 1.000 0.581 0.405
habitaciones 0.321 0.428 0.058 0.581 1.000 0.243
parqueaderos 0.433 0.320 0.256 0.405 0.243 1.000

Correlación Fuerte: La variable con la asociación lineal más fuerte y positiva con el precio es el área construida (areaconst), con un coeficiente de correlación (r) de 0.659. Esto confirma que, como es de esperar, a mayor tamaño de la casa, mayor es su precio.

Correlación Moderada: El estrato (r = 0.549) y el número de baños (banios) (r = 0.518) también presentan una correlación positiva moderada y significativa. Esto indica que son predictores importantes.

Correlación Débil a Moderada: El número de parqueaderos (r = 0.433) y de habitaciones (r = 0.321) tienen una relación positiva, aunque menos intensa que las variables anteriores.

La matriz de correlación confirma que todas las variables seleccionadas son candidatas relevantes para incluir en el modelo de regresión, ya que todas muestran una relación positiva con el precio. Sin embargo, las correlaciones observadas entre areaconst, banios y habitaciones sugieren la necesidad de realizar un diagnóstico formal de multicolinealidad

4.4.3 Precio vs Área construida por estrato

Se observa una relación positiva entre área y precio, con diferencias notables entre estratos.

4.4.4 Precio vs Número de baños

Mayor número de baños generalmente se asocia con precios más altos, especialmente en estratos superiores.

4.4.5 Precio vs Número de habitaciones

4.5 Tratamiento de Datos Previo al Modelo

4.5.1 Manejo de Valores Faltantes y Transformaciones

Antes de la estimación del modelo de regresión, es crucial realizar un preprocesamiento de los datos para asegurar su calidad y cumplir con los supuestos teóricos del modelo. Este proceso se centró en dos áreas clave: el manejo de datos faltantes e inconsistentes, y la transformación de la variable respuesta.

Imputación de Datos: El análisis descriptivo previo reveló una cantidad significativa de valores faltantes (NA) en la variable parqueaderos. Para evitar la pérdida de un gran número de observaciones, se optó por una estrategia de imputación, reemplazando los valores nulos con el promedio de los valores existentes. Esta técnica permite conservar la integridad del dataset.

Filtrado de Inconsistencias: Se identificaron y eliminaron registros de viviendas que no contaban con habitaciones ni baños (0 para ambas variables). Estas observaciones se consideran atípicas o erróneas para el mercado de casas y podrían distorsionar los resultados del modelo.

Dataset Final: Tras la imputación y el filtrado, el conjunto de datos final para el modelado quedó consolidado en 520 observaciones.

## Observaciones después del filtrado: 520

## Normalidad precio original p-valor: 0
## Normalidad log(precio) p-valor: 5.1e-05
## Variable de precio seleccionada: log_precio

El análisis exploratorio inicial demostró que la variable preciom tenía un fuerte sesgo positivo, lo cual puede violar los supuestos de normalidad y homocedasticidad en los residuos del modelo de regresión.

los histogramas comparativos son elocuentes. A la izquierda, el “Precio Original” muestra la concentración de datos en valores bajos y una larga cola hacia la derecha. A la derecha, el “Log(Precio)” revela cómo la transformación logarítmica ha corregido exitosamente esta asimetría, resultando en una distribución mucho más simétrica y similar a una campana de Gauss.

4.6 Modelo de Regresión Lineal Múltiple

4.6.1 Preprocesamiento para el Modelo

Basado en el EDA, se decide transformar la variable preciom con logaritmo para corregir el sesgo y se convierte estrato a factor.

## Observaciones disponibles para el modelo: 520
## 
## Call:
## lm(formula = log_precio ~ areaconst + estrato + habitaciones + 
##     parqueaderos + banios, data = datos_modelo)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.42766 -0.17058  0.00009  0.15649  1.08168 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  4.1145910  0.0673826  61.063  < 2e-16 ***
## areaconst    0.0013539  0.0001035  13.077  < 2e-16 ***
## estrato      0.2446732  0.0160209  15.272  < 2e-16 ***
## habitaciones 0.0262304  0.0099337   2.641  0.00853 ** 
## parqueaderos 0.0293157  0.0110364   2.656  0.00815 ** 
## banios       0.0628187  0.0126450   4.968 9.23e-07 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.281 on 514 degrees of freedom
## Multiple R-squared:  0.7483, Adjusted R-squared:  0.7458 
## F-statistic: 305.6 on 5 and 514 DF,  p-value: < 2.2e-16

Como podemos ver en los resultados, el modelo de regresión parece bastante bueno para predecir el precio de las casas. El R-cuadrado ajustado es de 0.746, lo que significa que nuestro modelo explica casi el 75% del precio, lo cual es un ajuste excelente. Todas las variables que incluimos resultaron ser significativas. ### Interpretación de Coeficientes

Intervalos de Confianza (95%) para Coeficientes
2.5 % 97.5 %
(Intercept) 3.9822117 4.2469702
areaconst 0.0011505 0.0015573
estrato 0.2131987 0.2761476
habitaciones 0.0067148 0.0457460
parqueaderos 0.0076337 0.0509977
banios 0.0379765 0.0876609
## === INTERPRETACIÓN DE COEFICIENTES  ===
## MODELO LOGARÍTMICO:
## - ÁREA CONSTRUIDA: Por cada m² adicional, el precio aumenta 0.14 %
## - ESTRATO: Por cada nivel superior, el precio aumenta 27.72 %
## - HABITACIONES: Por cada habitación adicional, el precio cambia 2.66 %
## - BAÑOS: Por cada baño adicional, el precio aumenta 6.48 %
## - PARQUEADEROS: Por cada parqueadero adicional, el precio aumenta 2.97 %
## R²: 0.7483
## R² ajustado: 0.7458
## El modelo explica el 74.6 % de la variabilidad en el log del precio
## EVALUACIÓN: (R² > 0.7)

4.6.2 Validación de Supuestos

## === PRUEBAS DE VALIDACIÓN ===
## Normalidad (Shapiro-Wilk) p-valor: 0
## Homocedasticidad (Breusch-Pagan) p-valor: 0
## Autocorrelación (Durbin-Watson) p-valor: 0
## Factores de Inflación de Varianza (VIF):
##    areaconst      estrato habitaciones parqueaderos       banios 
##         1.82         1.55         1.86         1.16         2.15

Interpretación de Supuestos:

  • Normalidad: Los residuos deben seguir distribución normal (p > 0.05)
  • Homocedasticidad: Varianza constante de residuos (p > 0.05)
  • Independencia: No autocorrelación en residuos (p > 0.05)
  • Multicolinealidad: VIF < 5 indica ausencia de multicolinealidad severa

  • Normalidad de los Residuos

Este supuesto no se cumple.

Test de Shapiro-Wilk: El p-valor de 0 es menor que cualquier nivel de significancia (ej. 0.05), lo que nos lleva a rechazar la hipótesis nula de que los residuos se distribuyen normalmente.

Gráfico Q-Q : Se observa que los puntos se desvían considerablemente de la línea diagonal, especialmente en los extremos (colas de la distribución). Esto confirma visualmente que los residuos no siguen una distribución normal. Los puntos 440 y 90 en la cola inferior y el 2020 en la superior son ejemplos claros de esta desviación.

  • Homocedasticidad (Varianza Constante de los Residuos) Este supuesto no se cumple.

Test de Breusch-Pagan: El p-valor de 0 indica que se rechaza la hipótesis nula de homocedasticidad. Por lo tanto, existe heterocedasticidad, lo que significa que la varianza de los errores no es constante a lo largo de los valores ajustados.

Gráfico de Residuos vs Ajustados (Residuals vs Fitted): La línea roja no es completamente horizontal y la dispersión de los puntos parece aumentar a medida que los valores ajustados crecen. Esto sugiere un patrón en los residuos.

Gráfico de Scale-Location: Este gráfico es aún más claro. La línea roja muestra una tendencia ascendente, confirmando que la varianza de los residuos aumenta con los valores ajustados, un signo claro de heterocedasticidad.

  • Independencia de los Residuos

Este supuesto no se cumple.

Test de Durbin-Watson: Un p-valor de 0 indica que los residuos están autocorrelacionados.

  • Ausencia de Multicolinealidad

Este supuesto sí se cumple.

Factores de Inflación de Varianza (VIF): Todos los valores VIF son bajos (el más alto es 2.15 para banios). Como regla general, valores VIF por debajo de 5 o 10 se consideran aceptables. Esto significa que las variables predictoras no están fuertemente correlacionadas entre sí, lo cual es bueno para el modelo.

  • Puntos Influyentes y Atípicos (Outliers) Se identifican varios puntos problemáticos. ️

Gráfico de Residuos vs Apalancamiento: Este gráfico nos ayuda a identificar puntos que pueden tener una influencia desproporcionada en el modelo.

Punto 440: Es el caso más preocupante. Tiene un apalancamiento alto y un residuo estandarizado muy negativo. Su distancia de Cook es grande (superior a 1), lo que lo convierte en un punto altamente influyente.

Puntos 90, 2020 y 105: Tienen residuos estandarizados grandes, lo que los identifica como posibles valores atípicos (outliers), aunque su influencia individual en el modelo no es tan alta como la del punto 440.

El modelo actual no es adecuado para realizar inferencias o predicciones fiables debido al incumplimiento de supuestos fundamentales. Se recomienda tomar las siguientes acciones:

Analizar la observación 440 para entender por qué es tan diferente. Podría ser un error de entrada de datos o un caso genuinamente excepcional. Aplicar transformaciones (diferentes a la logarítmica) a la variable dependiente y/o a las independientes para corregir la heterocedasticidad y la falta de normalidad.

Utilizar Métodos Alternativos: Considerar el uso de regresión robustao modelos de mínimos cuadrados ponderados (WLS) para abordar la heterocedasticidad.

4.6.3 Predicción para la Vivienda Solicitada

## === PREDICCIONES DEL MODELO ===
## Para una casa de 200m², 4 hab, 2 baños, 1 parqueadero:
## Precio estimado (Estrato 4): $ 277 millones
##   Intervalo de confianza 95%: [$ 159.2  - $ 481.8 ]
## Precio estimado (Estrato 5): $ 353.8 millones
##   Intervalo de confianza 95%: [$ 203.1  - $ 616.3 ]
## 
## === ANÁLISIS DE VIABILIDAD Financiera para el caso 1 ===
## Precio estimado promedio: $ 315.4 millones
## Presupuesto del cliente: $ 350 millones
## Déficit estimado: $ 34.6 millones
## RECOMENDACIÓN: El presupuesto es ajustado en estrato 5. Las ofertas reales por debajo de $350M probablemente tendrán un área menor a 200m² o estarán en estrato 4. Se sugiere priorizar estrato 4 si el area de la vivienda es importante

4.6.4 Búsqueda de Ofertas Potenciales

## === BÚSQUEDA DE OFERTAS POTENCIALES ===
## Criterios de filtrado:
## - Precio ≤ $350 millones
## - Estrato 4 o 5
## - Mínimo 2 habitaciones y 2 baños
## - Mínimo 1 parqueadero
## - Área mínima 150 m²
## Ofertas encontradas: 10 
## 
## === RESUMEN DE OFERTAS ENCONTRADAS ===
## Precio promedio: $ 319.1 millones
## Área promedio: 278 m²
## Valor promedio por m²: $ 1.16 
## Distribución por estrato:
## 
## 4 5 
## 1 9 
## 
## === VALIDACIÓN DEL MODELO CON OFERTAS REALES ===
## Precio predicho por el modelo: $ 315.37 millones
## Precio promedio ofertas reales: $ 319.1 millones
## Diferencia absoluta: $ 3.73 millones
## Error relativo: 1.2 %

Para complementar el modelo predictivo y facilitar una recomendación fundamentada en datos, se incorporó al análisis una métrica denominada Índice Calidad-Precio (indice_cp). Este índice compuesto se calcula como el producto de los atributos d el estrato socioeconómico y el areaconst— normalizado por el preciom del inmueble. La ratio resultante funciona como una variable. Por lo tanto, la función principal de este índice en el estudio es la de proveer un criterio de ordenamiento cuantitativo, permitiendo la priorización objetiva de las ofertas inmobiliarias viables y transformando el listado filtrado en una jerarquía de recomendaciones estratégicas basadas en el valor óptimo.

## === MEJORES 5 OFERTAS ENCONTRADAS ===
Top 5 Ofertas Potenciales (Ordenadas por Índice Calidad-Precio)
Barrio Precio (M$) Área (m²) Estrato Baños Hab. Índice C/P
san vicente 340 355 5 5 8 5.220588
vipasa 350 346 5 2 4 4.942857
el bosque 250 243 5 4 5 4.860000
la merced 230 250 4 3 5 4.347826
el bosque 350 300 5 5 6 4.285714

5 Análisis Caso 2: Apartamento en la Zona Sur

5.1 Requerimientos del Cliente

Para este segundo caso, se busca una propiedad con las siguientes características:

  • Tipo: Apartamento
  • Ubicación: Zona Sur
  • Área construida: 300 m²
  • Habitaciones: 5
  • Baños: 3
  • Parqueaderos: 3
  • Estrato: 5 o 6
  • Presupuesto Máximo: $850 millones de COP

5.2 Limpieza y Preprocesamiento de Datos

Se repite el proceso de limpieza, esta vez enfocado en los apartamentos de la Zona Sur, mismos pasos que en el caso 1, correccion espacial con shapefile de la zona sur, imputacion de datos faltantes y eliminación de datos incosistentes en este caso habitaciones y baños 0

## Se encontraron 2787 registros iniciales de apartamentos en Zona Sur.
## Después del filtro espacial, quedaron 1944 registros válidos.
## Después de la limpieza final, el dataset para análisis tiene 1939 observaciones.

A continuación se muestra el mapa con las propiedades y su distribución espacial

5.3 Análisis Exploratorio de Datos (EDA)

5.3.1 Estadísticas Descriptivas

Estadísticas Descriptivas (Apartamentos - Zona Sur)
preciom areaconst banios habitaciones parqueaderos piso
Min. : 85.0 Min. : 40.00 Min. :1.000 Min. :1.000 Min. :1.000 Min. : 1.000
1st Qu.: 195.0 1st Qu.: 68.00 1st Qu.:2.000 1st Qu.:3.000 1st Qu.:1.000 1st Qu.: 3.000
Median : 260.0 Median : 87.00 Median :2.000 Median :3.000 Median :1.000 Median : 4.000
Mean : 316.9 Mean : 99.37 Mean :2.569 Mean :2.973 Mean :1.388 Mean : 4.466
3rd Qu.: 350.0 3rd Qu.:110.00 3rd Qu.:3.000 3rd Qu.:3.000 3rd Qu.:2.000 3rd Qu.: 5.000
Max. :1750.0 Max. :932.00 Max. :7.000 Max. :6.000 Max. :4.000 Max. :12.000

Un apartamento promedio en esta zona de la ciudad tiene un precio mediano de $260 millones y un área de 87 m². Generalmente, cuenta con 3 habitaciones, 2 baños, 1 parqueadero.

El precio promedio es notablemente más alto ($316.9 millones), lo que indica que la distribución está sesgada por la presencia de propiedades mucho más costosas y grandes en el mercado. El rango de precios es muy amplio, yendo desde $85 millones hasta $1,750 millones, lo que confirma la existencia de un diverso segmento de apartamentos que incluye opciones de lujo.

5.3.2 Análisis Univariado de la Variable Precio

El histograma muestra claramente que la distribución de los precios no es simétrica. La mayoría de las propiedades se concentran en el rango de precios más bajo, con una “cola” larga que se extiende hacia la derecha, indicando la presencia de apartamentos con precios mucho más altos que el promedio.

El boxplot confirma esta observación al mostrar múltiples puntos por encima del “bigote” superior. Estos puntos son valores atípicos (outliers) que representan las propiedades de lujo que sesgan la distribución.

5.3.3 Matriz de Correlación

El área construida (areaconst) tiene, por un amplio margen, la correlación positiva más fuerte con el precio. A esta le siguen, con una correlación moderada, el número de baños y de parqueaderos.El número de habitaciones tiene una relación positiva pero más débil con el precio. Sorprendentemente, el piso en el que se encuentra el apartamento muestra una correlación casi nula, lo que sugiere que no es un factor lineal determinante en el precio para este conjunto de datos.

5.3.4 Precio vs Área construida por estrato

El gráfico de dispersión confirma una fuerte relación lineal positiva entre el área construida y el precio. Sin embargo, el hallazgo más dominante es el claro efecto de estratificación: para cualquier área dada, los apartamentos de estrato 6 se ubican en un rango de precios consistentemente superior a los de estrato 5, y así sucesivamente

5.3.5 Precio vs Número de baños

5.3.6 Precio vs Número de habitaciones

El número de baños muestra una relación monotónica y fuerte con el precio; a más baños, el precio mediano aumenta consistentemente. En contraste, el efecto del número de habitaciones parece estabilizarse o aplanarse después de las 4 habitaciones, sugiriendo que a partir de ese punto, el área total (areaconst) es un factor más importante que el número de divisiones.

5.4 Modelado de Regresión Lineal Múltiple

5.4.1 Preprocesamiento y Estimación del Modelo

## 
## Call:
## lm(formula = log_precio ~ areaconst + estrato + habitaciones + 
##     parqueaderos + banios, data = datos_modelo_caso2)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.86453 -0.14897  0.00498  0.15354  0.98610 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  4.3154787  0.0406115 106.262  < 2e-16 ***
## areaconst    0.0023199  0.0001369  16.945  < 2e-16 ***
## estrato4     0.2497512  0.0315144   7.925 3.82e-15 ***
## estrato5     0.4558351  0.0318242  14.324  < 2e-16 ***
## estrato6     0.7494131  0.0358146  20.925  < 2e-16 ***
## habitaciones 0.0388662  0.0103374   3.760 0.000175 ***
## parqueaderos 0.1623468  0.0116640  13.919  < 2e-16 ***
## banios       0.1175118  0.0089645  13.109  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.221 on 1931 degrees of freedom
## Multiple R-squared:  0.8096, Adjusted R-squared:  0.8089 
## F-statistic:  1173 on 7 and 1931 DF,  p-value: < 2.2e-16

5.4.2 Diagnóstico del Modelo

## 
## --- Pruebas de Supuestos ---
## Normalidad (Shapiro-Wilk) p-valor: 0
## Homocedasticidad (Breusch-Pagan) p-valor: 0
## 
## --- Diagnóstico de Multicolinealidad ---
Factores de Inflación de Varianza (VIF) - Caso 2
areaconst estrato habitaciones parqueaderos banios
GVIF 2.113431 1.977896 1.447724 2.101668 2.770653
Df 1.000000 3.000000 1.000000 1.000000 1.000000
GVIF^(1/(2*Df)) 1.453764 1.120385 1.203214 1.449713 1.664528
  • El R-cuadrado ajustado de 0.8111 indica que el 81.11% de la varianza en el logaritmo del precio es explicada por el conjunto de predictores incluidos. Este valor, al estar ajustado por el número de predictores

-La prueba F-statistic arroja un p-valor (< 2.2e-16) prácticamente nulo, lo que permite rechazar la hipótesis nula de que todos los coeficientes del modelo son iguales a cero. Esto confirma que el modelo en su conjunto es estadísticamente significativo y útil para la predicción.

5.4.3 Coeficientes del Modelo

  • Variables Continuas:

  • areaconst (β = 0.0023): Por cada metro cuadrado adicional, el precio se incrementa en aproximadamente 0.23%.

  • Variables Discretas:

  • parqueaderos (β = 0.1615): Un parqueadero adicional se asocia a un incremento del 16.2% en el precio, siendo uno de los predictores con mayor impacto marginal.

  • banios (β = 0.1159): Un baño adicional se relaciona con un aumento del 11.6% en el precio.

  • habitaciones (β = 0.0401): Una habitación adicional incrementa el precio en un 4.0%.

  • Variable Categórica (estrato): El estrato fue correctamente modelado como una variable categórica, con el estrato 3 sirviendo como nivel de referencia. Los coeficientes para los demás estratos representan el cambio porcentual en el precio en comparación con este nivel base.

  • estrato4 (β = 0.1060): Pertenecer al estrato 4 en lugar del 3 incrementa el precio en un 10.6%.

  • estrato5 (β = 0.4326): El cambio a estrato 5 representa un aumento del 43.3%.

  • estrato6 (β = 0.7505): El cambio a estrato 6 se asocia con un aumento del 75.1%.

5.4.3.1 Supuestos del Modelo

  • Normalidad de los Residuos:

(Q-Q Plot): El gráfico cuantil-cuantil muestra que los residuos se alinean estrechamente con la diagonal teórica, sugiriendo una distribución aproximadamente normal.

Prueba de Shapiro-Wilk: La prueba formal arroja un p-valor de 0, rechazando la hipótesis nula de normalidad. Esta discrepancia es común en muestras grandes (n=1930), donde las pruebas formales son excesivamente sensibles a desviaciones mínimas. Dado el Teorema del Límite Central y la robustez visual del Q-Q plot, la no normalidad no se considera una amenaza crítica para la inferencia del modelo.

  • Homocedasticidad de los Residuos:

(Residuals vs. Fitted y Scale-Location): Los gráficos de residuos no muestran patrones claros (ej. forma de embudo) y la línea de tendencia en el gráfico Scale-Location es relativamente horizontal. Visualmente, sugieren que la varianza de los residuos es constante.

Prueba de Breusch-Pagan: La prueba formal arroja un p-valor de 0, rechazando la hipótesis nula de homocedasticidad. Esto indica la presencia de heteroscedasticidad significativa. A pesar de la evidencia visual sutil, la prueba estadística confirma que la varianza del error no es constante a través de los niveles de las predicciones.

El diagnóstico de supuestos revela un punto crítico: la presencia de heteroscedasticidad, confirmada por la prueba de Breusch-Pagan. Aunque el modelo es insesgado, la heteroscedasticidad invalida los errores estándar calculados por Mínimos Cuadrados Ordinarios (MCO), afectando la fiabilidad de las pruebas t y los intervalos de confianza de los coeficientes.

5.4.3.2 Recomendación

Para asegurar la validez inferencial del modelo, es imperativo corregir el efecto de la heteroscedasticidad. La acción recomendada es recalcular el modelo utilizando errores estándar robustos (consistentes con heteroscedasticidad), como los estimadores de White. Esto ajustará los p-valores y los intervalos de confianza sin alterar los coeficientes, permitiendo realizar inferencias fiables sobre el impacto de cada predictor. ## Predicción y Búsqueda de Ofertas

5.4.4 Predicción para la Vivienda Solicitada

## ### Predicciones del Modelo
## El precio estimado para un apartamento de 300m² en **Estrato 5** es de **$666 millones**.
## El precio estimado para un apartamento de 300m² en **Estrato 6** es de **$893 millones**.
## ### Análisis de Viabilidad
## El precio promedio estimado es de **$666 millones**.
## El presupuesto del cliente es de **$850 millones**.
## El presupuesto del cliente es **suficiente y adecuado** para adquirir una propiedad que cumple con las características deseadas en la Zona Sur de la ciudad. Hay un buen margen para la negociación y la selección.

5.4.5 3.5.2. Búsqueda de Ofertas Potenciales en el Mercado

Ofertas encontradas: 5

=== RESUMEN DE OFERTAS ENCONTRADAS === Precio promedio: $ 478 millones Área promedio: 373 m² Valor promedio por m²: $ 1.31

5.4.6 3.5.3. Mapa de Ofertas Recomendadas