Caso C&A

Enunciado

María lleva más de una década en el sector inmobiliario de Cali. Tras años de experiencia como agente en empresas del sector, tanto en Cali como en Bogotá, decidió fundar su propia agencia: C&A (Casas y Apartamentos), respaldada por un equipo de ocho agentes con quienes opera actualmente en la ciudad.

El mercado, sin embargo, atraviesa un momento de contracción. Las ventas de bienes raíces en Cali han disminuido considerablemente durante el año en curso, en parte por un entorno de tensiones políticas y económicas que ha frenado la actividad del sector. Pese a ello, las instituciones financieras continúan canalizando recursos hacia la construcción residencial y comercial, lo que anticipa una reactivación del mercado una vez se estabilice el contexto.

En este escenario, C&A recibe una oportunidad estratégica: una compañía internacional solicita asesoría para la adquisición de dos viviendas destinadas a alojar a dos de sus empleados y sus familias en la ciudad. Las propiedades deben cumplir condiciones específicas en cuanto a ubicación, características físicas y precio, condiciones que se detallan a continuación.

Paso 1 — Filtrado y verificación de datos Filtrar la base de datos para conservar únicamente viviendas tipo casa ubicadas en la zona norte de Cali. Presentar un mapa con la ubicación de los inmuebles, discutiendo si todos los puntos caen dentro de la zona esperada o si existen registros geográficamente inconsistentes y a qué pueden atribuirse.

Paso 2 — Análisis exploratorio de datos (EDA) Examinar la relación entre el precio de la vivienda y las variables explicativas: área construida, estrato, número de baños, número de habitaciones y zona.

Paso 3 — Modelo de regresión lineal múltiple Interpretar cada coeficiente estadísticamente significativo en el contexto del mercado inmobiliario, discutiendo si los resultados son coherentes con lo observado en el EDA. Evaluar el ajuste del modelo mediante el coeficiente R², analizando su alcance explicativo y posibles estrategias para mejorarlo.

Paso 4 — Validación de supuestos Verificar los supuestos del modelo de regresión: normalidad de residuos, homocedasticidad, independencia y ausencia de multicolinealidad. Interpretar los resultados y, en caso de incumplimiento, proponer las correcciones metodológicas pertinentes.

Paso 5 — Predicción Usar el modelo estimado para predecir el precio de una vivienda con las características definidas en la primera solicitud del cliente internacional, reportando el valor predicho con su intervalo de confianza.

Paso 6 — Recomendación de ofertas Con base en la predicción obtenida y el crédito preaprobado de $400 millones de pesos, identificar al menos cinco ofertas de la base de datos que se ajusten al perfil y presupuesto del cliente. Presentar las opciones en un mapa interactivo y justificar cada recomendación considerando la relación entre precio, características físicas y ubicación.

Filtrado, Validación y Análisis Geoespacial del Mercado Inmobiliario — Zona Norte de Cali

Como primer paso del proyecto, se filtraron las viviendas tipo casa clasificadas en la Zona Norte y se verificó su coherencia geográfica. Para ello se construyó un mapa base con la delimitación oficial de comunas de Cali, sobre el cual se georeferenciaron los registros utilizando las variables de latitud y longitud de la base de datos. Esto permitió contrastar la zona declarada en cada registro con su ubicación geográfica real.

Grafica 1. Ofertas de vivienda tipo casa clasificado Zona Norte

Tabla 1. Distribución de viviendas tipo casa según zona y verificación geográfica
Zona (Mapa)	Verificación	Cantidad
Norte	Correcta	527
Centro	Incorrecta	98
Sur	Incorrecta	54
Oeste	Incorrecta	27
Oriente	Incorrecta	14
NA	NA	2

La superposición de los registros sobre el mapa permitió contrastar la clasificación declarada en la variable zona con la ubicación geográfica real de cada propiedad. Los resultados revelan que, si bien una parte significativa de los registros se encuentra correctamente ubicada dentro de los límites de la Zona Norte, se identificaron observaciones que, pese a estar etiquetadas como pertenecientes a dicha zona, se localizan geográficamente en otras áreas de la ciudad.

Estas inconsistencias constituyen un hallazgo relevante para la calidad del dato y pueden atribuirse a alguna de las siguientes causas:

Errores de captura: digitación incorrecta de la zona al momento del registro de la oferta inmobiliaria.
Imprecisiones de georreferenciación: coordenadas asignadas de forma automática a partir de direcciones incompletas o mal escritas, lo que desplaza el punto fuera de su ubicación real.
Criterios de zonificación no estandarizados: la delimitación de zonas utilizada en la fuente de datos original puede diferir de la cartografía oficial empleada en este análisis, especialmente en barrios ubicados en los límites entre zonas.
Desactualización de la base de datos: cambios en la estructura urbana o reclasificaciones administrativas posteriores al levantamiento de la información que no se ven reflejados en los registros.

Este hallazgo tiene una implicación directa: el filtrado categórico por zona no es suficiente cuando se trabaja con datos georreferenciados. La verificación espacial mediante coordenadas permite identificar y excluir registros territorialmente inconsistentes, garantizando que los análisis de correlación y predicción de las etapas siguientes se sustenten en información geográficamente válida.

Análisis exploratorio y correlacional de las variables - ZonaNorte

Con la base de datos depurada y geográficamente validada, esta etapa tiene como objetivo central comprender la estructura y el comportamiento de los datos antes de avanzar hacia el análisis de correlación, garantizando que las decisiones metodológicas posteriores estén fundamentadas en evidencia empírica.

El proceso se desarrolla de forma secuencial y con propósito definido en cada paso:

Primero, se realiza una inspección general en esta ocasion de la base de datos resultante: dimensiones, tipos de variables y estadísticas descriptivas básicas, confirmando que la depuración del paso anterior no introdujo inconsistencias.
Segundo, se evalúa la calidad de los datos identificando valores faltantes y duplicados, dado que su presencia puede sesgar directamente los coeficientes de correlación.
Tercero, se lleva a cabo el análisis univariado y bivariado de las variables de interés: precio, área construida, estrato, baños y habitaciones, con el propósito de caracterizar la distribución de cada una, detectar valores atípicos y determinar qué coeficiente de correlación es apropiado aplicar en la etapa siguiente.

Análisis Univariado

Distribución del precio de vivienda

El precio es la variable respuesta del proyecto, por lo que su comportamiento distribucional es el punto de partida del análisis. En su escala original presenta alta asimetría positiva, por lo que se aplicó una transformación logarítmica para estabilizar la varianza y permitir una lectura más clara de su distribución.

El histograma resultante muestra una distribución notablemente más simétrica, con la mayor concentración de viviendas en torno a los $316 millones de COP —valor que corresponde al pico de la distribución con 77 registros— y un rango central entre $200 y $500 millones. Hacia la derecha persiste una cola moderada que se extiende hasta valores superiores a $1.000 millones, confirmando la presencia del subsegmento de viviendas de alto valor ya identificado en la validación geoespacial.

Esto confirma que log10(Precio) es la escala adecuada para los análisis siguientes: reduce la influencia desproporcionada de los valores extremos y mejora la estabilidad de los coeficientes de correlación y regresión.

Distribución del Área Construida

En línea con lo observado en el precio, el área construida presenta una marcada asimetría positiva. El histograma muestra que cerca del 30% de las viviendas se concentra entre los 100 y 200 m², con una frecuencia decreciente a partir de los 300 m² y una cola que se extiende hasta los 1.400 m²,representada por un grupo reducido de propiedades que no supera el 1% del dataset en cada intervalo.

Estos valores extremos son los mismos que aparecen en la cola derecha del precio, lo cual es coherente: las viviendas más grandes tienden a ser también las más costosas. Su presencia puede inflar los coeficientes de correlación y regresión, por lo que su tratamiento se definirá antes de continuar con el análisis.

Distribución del número de baños y habitaciones

Ambas variables comparten el mismo patrón: concentración en rangos medios con una cola derecha de peso real. Los baños se concentran entre 2 y 4 con pico en 3 (184 viviendas), y las habitaciones entre 3 y 5 con pico en 4 (221 viviendas), representando en conjunto más del 70% de los datos en cada caso.

Sin embargo, lo relevante para el análisis es la cola: 24 viviendas superan los 7 baños y 97 superan las 7 habitaciones, este último equivalente al 14% de la base de datos. No son casos aislados. Sumados a los outliers identificados en precio y área, consolidan un patrón consistente a lo largo de todo el análisis univariado: existe un subsegmento de viviendas de gran envergadura cuya influencia sobre los coeficientes de correlación y regresión deberá evaluarse explícitamente antes de continuar.

Distribución del estrato socioeconómico

El estrato cierra el análisis univariado como la única variable categórica ordinal del conjunto. La distribución muestra que el estrato 5 es el más frecuente, seguido del 3 y el 4 con participación intermedia, mientras que el estrato 6 tiene una presencia notablemente menor. Este perfil refleja la composición real del mercado del área de estudio y no representa un sesgo en la muestra.

A diferencia de las variables anteriores, el estrato no presenta valores atipicos, ni problemas de asimetría relevantes. Su interés para el proyecto radica en otro lugar: como variable ordinal, es esperable que establezca una relación directa y progresiva con el precio y el área construida, hipótesis que el análisis bivariado y la matriz de correlación permitirán confirmar y cuantificar en la etapa siguiente.

Análisis Bivariado

Una vez completado el análisis individual de cada variable, se examinan sus relaciones por pares para identificar patrones, tendencias y combinaciones atípicas no evidentes en el análisis univariado. Este paso es clave para anticipar la dirección y fuerza de las correlaciones.

Relación entre precio y área construida

El gráfico confirma una relación positiva entre el área construida y el precio: a medida que aumenta el área, el precio tiende a crecer. Esta tendencia es clara en el rango central del mercado, viviendas entre 100 y 400 m², donde los puntos siguen una trayectoria ascendente relativamente coherente.

Sin embargo, a partir de los 500 m² la dispersión se amplía considerablemente: viviendas de áreas similares presentan precios muy distintos, lo que indica que el área por sí sola no determina el precio y que variables como el estrato o las características internas de la propiedad intervienen de forma significativa. Los puntos ubicados en los extremos como la vivienda de 1.400 m² a $316 millones o las propiedades que superan los $1.000 millones con áreas moderadas, refuerzan el patrón del subsegmento atípico identificado en el análisis univariado, cuya influencia sobre el modelo de regresión deberá controlarse.

Relación entre precio y número de habitaciones

A diferencia de lo observado con el área construida, la relación entre el precio y el número de habitaciones es positiva pero débil. El gráfico muestra que en cada categoría, desde 1 hasta 10 habitaciones, el rango de precios es prácticamente igual, con columnas de puntos que se solapan casi por completo entre niveles contiguos. Una vivienda de 3 habitaciones puede costar lo mismo que una de 6, lo que evidencia que esta variable por sí sola tiene escasa capacidad para explicar el precio.

El único patrón destacable es que los precios más altos (log > 3.0, equivalente a más de $1.000 millones) aparecen distribuidos a lo largo de casi todas las categorías, incluyendo viviendas con pocas habitaciones, lo que refuerza que el precio está siendo determinado por otras variables como área y/o estrato, más que por la cantidad de habitaciones. Su contribución al modelo de regresión será complementaria.

Relación entre precio y estrato socioeconómico

El estrato presenta la relación más clara y consistente de todo el análisis bivariado. El boxplot muestra una progresión ordenada y sostenida de los precios medianos: el estrato 3 se concentra en torno a los $200 millones (log ≈ 2.3), el estrato 4 alrededor de $400 millones (log ≈ 2.6), el estrato 5 cerca de $500 millones (log ≈ 2.75) y el estrato 6 supera los $630 millones (log ≈ 2.85), sin solapamiento entre las medianas de ningún nivel.

A diferencia de las habitaciones, donde los rangos de precio se confundían entre categorías. Aquí las cajas son progresivamente más compactas y elevadas, lo que indica que el estrato no solo se asocia con precios más altos sino que segmenta el mercado con mayor precisión que cualquier otra variable analizada hasta ahora. Este hallazgo anticipa que el estrato será uno de los predictores más relevantes en el modelo de regresión.

Test de normalidad — Shapiro-Wilk

Con el análisis exploratorio completado, el siguiente paso antes de construir la matriz de correlación es verificar el supuesto de normalidad de las variables. El test de Shapiro-Wilk evalúa si la distribución de cada variable es compatible con una distribución normal: valores p inferiores a 0.05 indican que no lo es.

Los resultados son contundentes y consistentes con lo observado en el análisis univariado: las seis variables rechazan la hipótesis de normalidad, con valores p extremadamente bajos que van desde 4.82e-05 en Precio_log hasta 5.69e-28 en Parqueaderos. Esto no es sorprendente, la asimetría positiva, los valores atipicos del subsegmento de alto valor y la naturaleza discreta de variables como baños y habitaciones son incompatibles con una distribución normal. En consecuencia, se descarta el coeficiente de Pearson y se adopta Spearman como medida de correlación, al ser no paramétrico, robusto ante asimetría y adecuado para variables ordinales como el estrato.

Resultados del test de normalidad Shapiro-Wilk
	Variable	P.value	Normalidad
Precio_log	Precio (log)	4.82e-05	No normal
Area_construida	Área construida	2.08e-24	No normal
Habitaciones	Habitaciones	2.82e-23	No normal
Banios	Baños	4.39e-19	No normal
Estrato	Estrato	4.93e-26	No normal
Parqueaderos	Parqueaderos	5.69e-28	No normal

Matriz de correlación de Spearman — ZonaNorte

La matriz confirma y cuantifica lo anticipado a lo largo del análisis exploratorio. Respecto al precio, las correlaciones se ordenan con claridad: el área construida lidera con ρ = 0.82, seguida por el estrato (ρ = 0.71) y los baños (ρ = 0.65). las tres variables que mostraron las relaciones más nítidas en el bivariado. Las habitaciones (ρ = 0.45) y los parqueaderos (ρ = 0.40) presentan correlaciones moderadas, con una influencia real pero secundaria. Ninguna correlación es negativa, lo que indica que todas las variables apuntan en la misma dirección: a mayor tamaño y nivel socioeconómico, mayor precio.

Un hallazgo adicional que la matriz revela y que tendrá implicaciones en el modelo de regresión es la correlación entre las propias variables explicativas. Los baños y el área construida presentan una correlación de ρ = 0.60, y los baños y las habitaciones de ρ = 0.60 también, lo que sugiere que estas variables comparten información redundante. Este nivel de correlación entre predictores,conocido como multicolinealidad, puede afectar la estabilidad e interpretación de los coeficientes del modelo y deberá tenerse en cuenta en la etapa siguiente.

Estimación e interpretación del modelo de regresión lineal múltiple

Con las relaciones entre variables cuantificadas, se estima el modelo de regresión lineal múltiple usando log10(Precio) como variable dependiente. Todas las variables incluidas resultan estadísticamente significativas (p < 0.05), aunque con niveles de impacto diferenciados.

El estrato es el predictor de mayor impacto individual (coeficiente = 0.105,): cada nivel adicional de estrato incrementa el precio en aproximadamente un 27% en escala original, lo que confirma lo anticipado en el análisis bivariado. Le siguen los baños con un impacto medio (coeficiente = 0.033, ), donde cada baño adicional representa un incremento aproximado del 7.8% en el precio. El área construida, pese a ser la variable con mayor correlación individual (ρ = 0.82), presenta el coeficiente más bajo (0.00059, **) al controlar por las demás variables, resultado coherente con la multicolinealidad identificada en la matriz de correlación, donde el área comparte información con baños y habitaciones. Habitaciones y parqueaderos son significativos pero de impacto bajo (), actuando como variables complementarias dentro del modelo.

El intercepto (1.81, ***) no tiene interpretación económica directa ya que representa el precio base cuando todas las variables son cero, un escenario sin sentido en el mercado inmobiliario real. En conjunto, el modelo es lógico y consistente: el precio de una vivienda en la Zona Norte está determinado principalmente por su nivel socioeconómico y sus características físicas, en ese orden de relevancia.

Estimación del modelo de regresión lineal múltiple para el precio de la vivienda (ordenado por significancia)
Nombre	Coeficiente	Error estándar	t value	P-value	Significancia	Impacto
Intercepto	1.81153	0.02535	71.45	2.91e-320	***	Alto
Estrato	0.10543	0.00597	17.66	8.03e-58	***	Alto
Área construida	0.00059	0.00004	15.90	1.02e-48	***	Bajo
Baños	0.03332	0.00467	7.14	2.45e-12	***	Medio
Habitaciones	0.00851	0.00389	2.19	2.89e-02	*	Bajo
Parqueaderos	0.00680	0.00338	2.01	4.46e-02	*	Bajo

Validación de supuestos del modelo de regresión lineal

La validación de supuestos revela un panorama mixto: el modelo cumple parcialmente con los requisitos de la regresión lineal clásica, lo cual es frecuente en datos de mercados inmobiliarios reales.

El único supuesto plenamente satisfecho es la ausencia de multicolinealidad: todos los valores VIF se encuentran por debajo de 2.2, umbral considerado adecuado, confirmando que, pese a las correlaciones moderadas entre predictores identificadas en la matriz de Spearman, no existe redundancia problemática entre las variables del modelo. La linealidad se considera aproximadamente adecuada según inspección gráfica, aunque sin garantía estadística formal.

Los tres supuestos restantes no se cumplen. La normalidad de residuos es rechazada por Shapiro-Wilk (W = 0.9848, p = 1.36e-06); la homocedasticidad es rechazada por Breusch-Pagan (estadístico = 77.46, p = 2.85e-15), indicando que la varianza de los errores no es constante; y la independencia es rechazada por Durbin-Watson (d = 1.49, p = 7.21e-12), sugiriendo autocorrelación positiva en los residuos. Para corregir estas limitaciones se podría considerar el uso de errores estándar robustos (HC3), transformaciones adicionales sobre las variables con mayor heterogeneidad, o la incorporación de variables que capturen mejor la segmentación del mercado, como la ubicación específica dentro de la zona o el año de construcción.

Validación de supuestos del modelo de regresión
Supuesto	Prueba	Estadistico	P.value	Resultado
Normalidad de residuos	Shapiro-Wilk	0.9848	1.36e-06	No cumple
Homocedasticidad	Breusch-Pagan	77.4588	2.85e-15	No cumple
Independencia	Durbin-Watson	1.4915	7.21e-12	No cumple

Factor de inflación de la varianza (VIF)
Variable	VIF	Diagnostico
Area_construida	1.709	Adecuado
Estrato	1.572	Adecuado
Habitaciones	1.887	Adecuado
Parqueaderos	1.228	Adecuado
Banios	2.122	Adecuado

Resumen general de la validación del modelo
Aspecto	Evaluacion
Linealidad	Aproximadamente adecuada según inspección gráfica
Normalidad de residuos	No cumple
Homocedasticidad	No cumple
Multicolinealidad	Sin evidencia de colinealidad relevante
Independencia	No cumple

Predicción del precio de la vivienda mediante el modelo de regresión

Con el modelo estimado y sus supuestos evaluados, se procede a predecir el precio de la vivienda solicitada por el cliente internacional. La predicción no se obtiene buscando registros similares en la base de datos, sino aplicando la ecuación del modelo a las características específicas de la solicitud: el modelo toma los valores de estrato, área construida, baños, habitaciones y parqueaderos de la vivienda objetivo y estima su precio a través de los coeficientes calculados en la etapa anterior.

El resultado se expresa en escala logarítmica y se convierte a pesos colombianos aplicando la transformación inversa (10^ŷ), obteniendo así el precio estimado junto con su intervalo de confianza, rango dentro del cual se espera que se ubique el valor real de la propiedad con un 95% de certeza. Este intervalo es especialmente relevante para la decisión de compra, ya que define el margen de negociación razonable y permite contrastar si el crédito preaprobado de $350 millones es suficiente para cubrir el perfil de vivienda solicitado.

Predicción del precio de la vivienda a partir del modelo de regresión lineal múltiple
Área construida (m²)	Estrato	Habitaciones	Parqueaderos	Baños	Precio estimado
100	5	3	1	2	$313

Identificación y georreferenciación de ofertas potenciale

Con el precio objetivo estimado como referencia, se identificaron cinco viviendas del dataset que se ajustan al perfil de la solicitud y cuyo precio real se encuentra por debajo del valor estimado por el modelo. Todas se ubican geográficamente en la Zona Norte, confirmadas en el mapa, y sus precios reales oscilan entre $250 y $380 millones, dentro del crédito preaprobado de $350 millones.

Sin embargo, los resultados exigen una lectura crítica. La vivienda de Villa del Prado presenta la diferencia más extrema: precio real de $370M frente a un estimado de $1.569M. Una brecha de $1.199M que no refleja una oportunidad real sino una sobreestimación del modelo provocada por sus características atípicas: 1.440 m² construidos, 10 habitaciones y 4 baños, valores que se ubican en el extremo del subsegmento identificado desde el análisis univariado. Este caso ilustra la principal limitación del modelo frente a observaciones fuera del rango central de los datos.

Las tres opciones más confiables, San Vicente ($340M), El Bosque ($350M y $250M) y Prados del Norte ($380M), presentan brechas menores y características más alineadas con el mercado estándar de la zona (entre 243 y 450 m², estrato 4-5). Estas propiedades constituyen las recomendaciones prioritarias para C&A, aunque su evaluación final debe complementarse con una visita técnica que considere el estado del inmueble, el entorno inmediato y condiciones no capturadas por el modelo.

Cinco ofertas potenciales identificadas por el modelo
Barrio	Precio real	Precio estimado	Diferencia	Área construida	Estrato	Habitaciones	Baños	Parqueaderos
villa del prado	$370 M	$1.569,9 M	$1.199,9 M	1440	3	10	4	1
san vicente	$340 M	$ 623,4 M	$ 283,4 M	355	5	8	5	2
el bosque	$350 M	$ 565,4 M	$ 215,4 M	300	5	6	5	3
el bosque	$250 M	$ 460,9 M	$ 210,9 M	243	5	5	4	1
prados del norte	$380 M	$ 588,5 M	$ 208,5 M	450	4	7	6	2

Durante la depuración se eliminaron únicamente los registros con inconsistencias geográficas o de captura verificables. Los valores atípicos en precio, área y características físicas se conservaron deliberadamente: en un mercado inmobiliario real, una vivienda de 1.400 m² o 10 habitaciones no es necesariamente un error —es un segmento diferente. Eliminarlos habría introducido un sesgo de selección que distorsionaría la representatividad del modelo.

El costo de esta decisión es visible en los resultados: el modelo sobreestima con mayor margen precisamente en esas propiedades extremas, como quedó evidenciado en el caso de Villa del Prado. Para análisis futuros, la recomendación es segmentar el mercado en dos grupos. Vivienda estándar y vivienda de gran envergadura, y estimar modelos independientes para cada uno, o aplicar regresión robusta que reduzca la influencia de observaciones extremas sin sacrificar información real del mercado.