1 DESCRIPCIÓN, PROBLEMA Y OBJETIVOS

1.1 Descripción del caso

La empresa C&A Casas y Apartamentos es una agencia inmobiliaria que intermedia en la compra y venta de viviendas en diferentes zonas de la ciudad. Los agentes hace poco recibieron una carta solicitando asesoría para la compra de dos viviendas por parte de una compañía internacional que desea ubicar a dos de sus empleados con sus familias en la ciudad. Las solicitudes incluyen características específicas de vivienda, como tipo de propiedad, ubicación, área construida, número de habitaciones, baños, parqueaderos y un presupuesto máximo definido por el crédito aprobado.

Para apoyar este proceso de decisión, se utilizará la base de datos vivienda, incluida en el paquete paqueteMODELOS, la cual contiene información sobre diferentes propiedades ofertadas en el mercado inmobiliario, incluyendo variables como precio, área construida, estrato socioeconómico, tipo de vivienda, zona y ubicación geográfica.

A partir de esta información se realizará un análisis exploratorio y se estimará un modelo de regresión lineal múltiple que permita analizar la relación entre las características de las viviendas y su precio, con el fin de generar predicciones y recomendar ofertas que se ajusten a las necesidades de los clientes.

1.2 Problema

En el mercado inmobiliario, el precio de una vivienda depende de múltiples características como el área construida, el estrato socioeconómico, el número de habitaciones, baños y parqueaderos, entre otras. Sin embargo, para un agente inmobiliario puede ser difícil identificar rápidamente cuáles propiedades disponibles se ajustan mejor a los requerimientos específicos de un cliente y a su presupuesto.

En el caso de la empresa C&A Casas y Apartamentos, se requiere un análisis que permita comprender cómo influyen las características de las viviendas en su precio y utilizar esta información para estimar valores esperados y recomendar ofertas que se ajusten a las condiciones solicitadas por los clientes.

1.3 Objetivo general

Aplicar técnicas de análisis exploratorio y regresión lineal múltiple sobre la base de datos de viviendas con el fin de modelar la relación entre las características de los inmuebles y su precio, y utilizar dicho modelo para generar predicciones que permitan recomendar ofertas inmobiliarias acordes con las solicitudes de los clientes.

1.4 Objetivos específicos

Realizar un proceso de filtrado y exploración de la base de datos para identificar las viviendas que cumplen con los criterios iniciales de tipo de propiedad y zona geográfica establecidos en las solicitudes de los clientes.
Desarrollar un análisis exploratorio de datos (EDA) mediante visualizaciones interactivas que permitan identificar posibles relaciones entre el precio de la vivienda y variables como el área construida, el estrato socioeconómico, el número de habitaciones, baños y parqueaderos.
Estimar un modelo de regresión lineal múltiple mediante el método de mínimos cuadrados ordinarios (MCO) para analizar el efecto de las características estructurales de las viviendas sobre su precio.
Evaluar los supuestos del modelo de regresión con el fin de verificar su validez estadística e identificar posibles limitaciones del modelo.
Utilizar el modelo estimado para realizar predicciones del precio esperado de viviendas con características específicas correspondientes a las solicitudes de los clientes.
Identificar y recomendar al menos cinco ofertas inmobiliarias disponibles que se ajusten a las condiciones establecidas por cada cliente, considerando su presupuesto máximo.
Analizar el rendimiento del modelo mediante indicadores de predicción, utilizando un conjunto de prueba para evaluar su capacidad de generalización.

2 BASE DE DATOS

2.1 Carga de datos

Para el desarrollo del análisis se utiliza la base de datos vivienda, disponible en el paquete paqueteMODELOS. Esta base contiene información sobre diferentes ofertas de viviendas en el mercado inmobiliario, incluyendo variables relacionadas con el precio, características estructurales del inmueble y su ubicación geográfica.

Entre las variables más relevantes para el análisis se encuentran:

preciom: precio de la vivienda en millones
areaconst: área construida de la vivienda
habitaciones: número de habitaciones
banios: número de baños
parqueaderos: número de parqueaderos
estrato: estrato socioeconómico
tipo: tipo de vivienda (casa o apartamento)
zona: zona geográfica de la ciudad
latitud y longitud: coordenadas geográficas del inmueble

A continuación, se procede a cargar la base de datos y realizar una exploración inicial de su estructura:

Indicador	Valor
Observaciones (filas)	8322
Variables (columnas)	13
% valores faltantes (global)	3.95%

3 VIVIENDA 1

3.1 Filtrado de la base 1

Con el fin de analizar las posibles ofertas que cumplan con la solicitud de la Vivienda 1, se realiza un filtrado de la base de datos vivienda, considerando únicamente aquellas propiedades cuyo tipo de vivienda corresponde a casas y cuya ubicación se encuentra en la zona norte de la ciudad.

Este proceso permite construir una nueva base denominada base1, la cual contiene únicamente las observaciones relevantes para el análisis del primer caso.

A continuación, se presentan los primeros 3 registros de la base filtrada con el fin de observar algunas de las características iniciales de casas ubicadas en la Zona Norte y algunas tablas que comprueban la consulta.

Tabla para verificación tipo de vivienda

Tabla para verificación zona

Las tablas anteriores permiten verificar que el proceso de filtrado fue correcto, ya que la base resultante (base1) contiene únicamente viviendas cuyo tipo corresponde a Casa y cuya ubicación pertenece a la Zona Norte de la ciudad.

A continuación se puede visualizar un mapa con los puntos de las bases:

El mapa muestra la distribución geográfica de las viviendas clasificadas como casas en la Zona Norte según la variable zona de la base de datos. No obstante, al analizar la ubicación de los puntos se observa que no todos se concentran estrictamente en el sector norte de la ciudad, ya que algunos registros aparecen en otras zonas de Cali.

Esta situación puede deberse a que la variable zona corresponde a una clasificación administrativa o comercial del mercado inmobiliario, que no necesariamente coincide con la ubicación geográfica exacta de las coordenadas. También podrían existir imprecisiones en la georreferenciación o inconsistencias en el registro de la variable zona.

Por lo tanto, aunque el filtro aplicado corresponde a viviendas etiquetadas como ubicadas en la Zona Norte, el análisis espacial sugiere que la correspondencia entre la variable de ubicación y las coordenadas geográficas no es completamente precisa en todos los casos.

3.2 EDA

Análisis exploratorio de datos

En este apartado se podrá ver el análisis exploratorio de datos enfocado en la correlación entre la variable respuesta (precio de la casa) en función del área construida, estrato, número de baños, número de habitaciones y zona donde se ubica la vivienda.

Para realizar el análisis exploratorio de datos se utilizaron gráficos interactivos implementados con el paquete plotly en R, lo cual permite explorar de manera dinámica la relación entre la variable respuesta (precio de la vivienda) y las variables explicativas consideradas en el análisis.

3.2.1 Correlación Precio vs Área construida

El gráfico muestra una relación positiva entre el área construida y el precio de la vivienda. En general, a medida que aumenta el tamaño de la vivienda, también tiende a incrementarse su valor en el mercado. Sin embargo, se observa dispersión en los puntos, lo cual sugiere que el precio no depende únicamente del área construida, sino también de otros factores como el estrato socioeconómico, el número de baños o la ubicación de la vivienda.

3.2.2 Precio vs Estrato

El gráfico muestra que el precio de las viviendas tiende a aumentar conforme se incrementa el estrato socioeconómico. Las viviendas ubicadas en estratos más altos presentan valores medianos y rangos de precios mayores en comparación con los estratos más bajos.

Este resultado es consistente con la estructura del mercado inmobiliario urbano, donde el estrato refleja diferencias en la calidad del entorno urbano, el acceso a servicios y el nivel socioeconómico de las zonas residenciales.

3.2.3 Precio vs Número de Baños

El gráfico evidencia una relación positiva entre el número de baños y el precio de la vivienda. A medida que aumenta el número de baños, también se observa un incremento en el valor de las viviendas.

Esto es consistente con el comportamiento del mercado inmobiliario, donde viviendas con mayor número de baños suelen corresponder a propiedades de mayor tamaño o con mejores características. No obstante, también se aprecia una dispersión considerable dentro de cada grupo, lo cual sugiere que el número de baños es solo uno de varios factores que influyen en el precio.

3.2.4 Precio vs Número de Habitaciones

El gráfico muestra la relación entre el número de habitaciones y el precio de la vivienda. En términos generales, se observa una tendencia creciente, donde las viviendas con mayor número de habitaciones tienden a presentar precios más elevados.

Sin embargo, también se observa una alta dispersión de los precios dentro de cada categoría de habitaciones, lo que indica que el número de habitaciones por sí solo no explica completamente el valor de la vivienda. Otros factores, como el área construida, el estrato socioeconómico o el número de baños, también influyen en la determinación del precio.

3.2.5 Precio vs zona

El gráfico muestra la distribución del precio de las viviendas ubicadas en la Zona Norte. Se observa una mediana cercana a los 400 millones, con una dispersión considerable en los precios. Además, se identifican varios valores atípicos correspondientes a viviendas con precios significativamente más altos, que superan incluso los 1500 millones.

Esta variabilidad sugiere que, incluso dentro de una misma zona de la ciudad, el precio de las viviendas puede variar considerablemente debido a factores como el tamaño de la vivienda, el estrato socioeconómico o las características internas del inmueble.

3.2.6 Análisis general EDA

El análisis exploratorio de datos permite identificar patrones importantes en la relación entre el precio de la vivienda y las variables explicativas consideradas. En general, se observa que variables como el área construida, el número de habitaciones, el número de baños y el estrato socioeconómico presentan una relación positiva con el precio de la vivienda. Esto sugiere que viviendas más grandes, con mayor número de espacios funcionales y ubicadas en estratos socioeconómicos más altos tienden a presentar valores de mercado más elevados.

Asimismo, se evidencia una alta variabilidad en los precios dentro de cada categoría, lo que indica que el valor de las viviendas no depende únicamente de una sola variable, sino de la combinación de múltiples características estructurales y de ubicación.

Adicionalmente, durante la exploración de los datos se identificó la presencia de valores atípicos en los precios de algunas viviendas, así como posibles registros con valores faltantes en ciertas variables, lo cual puede afectar el número efectivo de observaciones utilizadas en el modelo de regresión. No obstante, estos valores extremos pueden corresponder a viviendas con características particulares del mercado inmobiliario y, por tanto, se mantuvieron dentro del análisis.

En conjunto, los resultados del análisis exploratorio justifican el uso de un modelo de regresión lineal múltiple, ya que este tipo de modelo permite analizar simultáneamente el efecto de varias variables explicativas sobre el precio de la vivienda y cuantificar su influencia dentro del mercado inmobiliario analizado.

3.3 Estimación del modelo de regresión múltiple

En este apartado se va a estimar un modelo de regresión lineal múltiple con las variables del punto anterior (precio = f(área construida, estrato, número de cuartos, número de parqueaderos, número de baños)) y después se va a interpretar si los coeficientes son estadísticamente significativos.

Adicionalmente se interpretará el coeficiente 𝑅2 y se discutirá el ajuste del modelo e implicaciones (que se podría hacer para mejorarlo).

La variable respuesta corresponde al precio de la vivienda (preciom) y las variables explicativas consideradas son:

-área construida (areaconst)

-estrato socioeconómico (estrato)

-número de habitaciones (habitaciones)

-número de parqueaderos (parqueaderos)

-número de baños (banios)

El modelo estimado es:

Precio = _0 + _1 Área + _2 Estrato + _3 Habitaciones + _4 Parqueaderos + _5 Baños +

Para comenzar se estimará el modelo con las variables del ejercicio.

Resultados del modelo de regresión lineal múltiple
	Estimate	Std. Error	t value	Pr(>\|t\|)
(Intercept)	-238.171	44.406	-5.364	0.000
areaconst	0.677	0.053	12.814	0.000
estrato	80.635	9.826	8.206	0.000
habitaciones	7.645	5.659	1.351	0.177
parqueaderos	24.006	5.869	4.090	0.000
banios	18.899	7.488	2.524	0.012

3.3.1 Interpretación de los coeficientes del modelo

A partir de los resultados del modelo de regresión lineal múltiple se analizan los coeficientes estimados con el fin de identificar el efecto de cada variable sobre el precio de la vivienda, manteniendo constantes las demás variables del modelo.

Área construida

El coeficiente asociado a la variable área construida es aproximadamente 0.676 y resulta altamente significativo estadísticamente (p < 0.001).

Esto indica que, manteniendo constantes el estrato socioeconómico, el número de habitaciones, los parqueaderos y los baños, un incremento de un metro cuadrado en el área construida se asocia con un aumento promedio de aproximadamente 0.68 millones de pesos en el precio de la vivienda.

Este resultado es consistente con el comportamiento esperado del mercado inmobiliario, ya que viviendas con mayor tamaño construido suelen tener mayor valor comercial.

Estrato socioeconómico

El coeficiente estimado para la variable estrato socioeconómico es aproximadamente 80.63 y resulta altamente significativo (p < 0.001).

Esto implica que, manteniendo constantes las demás variables del modelo, un aumento de una unidad en el estrato se asocia con un incremento promedio de aproximadamente 80.6 millones de pesos en el precio de la vivienda.

Este resultado es lógico dentro del contexto urbano colombiano, donde los estratos más altos suelen estar asociados con mejores condiciones del entorno, mayor calidad de infraestructura urbana y mayor valorización inmobiliaria.

Número de habitaciones

El coeficiente asociado al número de habitaciones es aproximadamente 7.65, pero no resulta estadísticamente significativo (p ≈ 0.177).

Esto sugiere que, una vez controlado el efecto de variables como el área construida, el estrato socioeconómico, el número de parqueaderos y el número de baños, el número de habitaciones no aporta evidencia suficiente para explicar variaciones adicionales en el precio de la vivienda.

Una posible explicación es que esta variable está correlacionada con el área construida, ya que viviendas más grandes suelen tener más habitaciones. Por lo tanto, parte del efecto de esta variable ya está capturado por el área construida.

Número de parqueaderos

El coeficiente correspondiente al número de parqueaderos es aproximadamente 24.01 y resulta estadísticamente significativo (p < 0.001).

Esto indica que, manteniendo constantes las demás variables del modelo, cada parqueadero adicional incrementa el precio esperado de la vivienda en aproximadamente 24 millones de pesos.

Este resultado es coherente con la dinámica del mercado inmobiliario urbano, donde la disponibilidad de parqueaderos representa una característica altamente valorada por los compradores.

Número de baños

El coeficiente asociado al número de baños es aproximadamente 18.90 y resulta estadísticamente significativo (p ≈ 0.012).

Esto indica que, manteniendo constantes las demás variables del modelo, cada baño adicional se asocia con un incremento promedio de aproximadamente 18.9 millones de pesos en el precio de la vivienda.

Este resultado también es consistente con las preferencias del mercado, ya que viviendas con mayor número de baños suelen ofrecer mayor comodidad y funcionalidad.

3.3.2 Tabla de ajuste del modelo (R² y métricas)

Indicadores de ajuste del modelo
Indicador	Valor
R²	0.6041
R² ajustado	0.5995
Error estándar residual	155.11
Estadístico F	130.92
Valor p global	< 2.22e-16

3.3.3 Interpretación del coeficiente de determinación R²

El modelo presenta un coeficiente de determinación R² = 0.604.

Esto significa que aproximadamente el 60.4% de la variabilidad observada en el precio de las viviendas es explicada por las variables incluidas en el modelo, es decir, el área construida, el estrato socioeconómico, el número de habitaciones, los parqueaderos y los baños.

Este nivel de explicación puede considerarse moderadamente alto, teniendo en cuenta que el precio de las viviendas depende de muchos factores adicionales que no están incluidos en la base de datos, como:

-El barrio específico

-La antigüedad del inmueble

-El estado de conservación

-la cercanía a servicios urbanos

-Características del entorno urbano

Por lo tanto, aunque el modelo captura una parte importante de la variabilidad del precio, aún existen otros factores que también influyen en su determinación.

3.3.4 Discusión del ajuste del modelo

En general, los resultados obtenidos son coherentes con el comportamiento esperado del mercado inmobiliario.

Por otro lado, la variable número de habitaciones no resulta significativa, lo que puede estar asociado a su relación con otras variables estructurales como el área construida.

Esto sugiere que el número de habitaciones no aporta información adicional relevante una vez que el modelo ya considera el tamaño de la vivienda.

3.3.5 Posibles mejoras del modelo

El modelo estimado podría mejorarse mediante diferentes estrategias metodológicas:

Incluir variables adicionales, como el barrio específico, la antigüedad de la vivienda o el estado del inmueble.
Explorar transformaciones de variables, por ejemplo utilizando el logaritmo del precio para mejorar la linealidad del modelo.
Evaluar posibles interacciones entre variables, como entre área construida y estrato socioeconómico.
Analizar la posible multicolinealidad entre variables como área construida, número de habitaciones y número de baños.
Evaluar los supuestos del modelo de regresión, incluyendo normalidad de residuos, homocedasticidad e independencia.

3.3.6 Diagnóstico y evaluación gráfica del modelo

Con el fin de evaluar el comportamiento del modelo de regresión estimado y analizar la calidad de sus predicciones, se realiza un conjunto de gráficos de diagnóstico. Estos gráficos permiten examinar visualmente aspectos importantes del modelo, como la relación entre los valores observados y los valores predichos, la distribución de los residuos y la posible presencia de patrones sistemáticos en los errores de predicción.

En particular, se presentan tres visualizaciones principales:

El gráfico de valores reales versus valores predichos, que permite evaluar la capacidad del modelo para aproximar los datos observados.
El gráfico de residuos frente a los valores predichos, útil para identificar posibles problemas de heterocedasticidad o patrones no capturados por el modelo.
El histograma de residuos, que permite analizar la forma de la distribución de los errores del modelo.

El análisis conjunto de estos gráficos proporciona información relevante sobre el ajuste del modelo y la validez de sus supuestos, permitiendo identificar posibles limitaciones y oportunidades de mejora en la especificación del modelo de regresión.

Precio real vs precio predicho

El gráfico compara los precios reales observados con los valores predichos por el modelo. Se observa que muchos puntos se concentran alrededor de una relación creciente, lo que indica que el modelo logra capturar una parte importante del comportamiento del precio de las viviendas. No obstante, también se observa dispersión, lo cual sugiere que existen otros factores no incluidos en el modelo que influyen en el precio de las viviendas.

Residuos vs valores predichos

El gráfico de residuos permite evaluar si existe algún patrón sistemático en los errores del modelo. En este caso, los residuos se distribuyen de manera relativamente dispersa alrededor de cero, lo que sugiere que el modelo no presenta un patrón evidente de sesgo en sus predicciones. Sin embargo, la dispersión observada indica que todavía existen factores no capturados por el modelo que influyen en el precio de las viviendas.

Histográma de residuos

El histograma de los residuos permite observar la forma de su distribución. En general, los residuos tienden a concentrarse alrededor de cero, lo cual es consistente con el supuesto de que los errores del modelo tienen media cero. No obstante, la forma de la distribución puede presentar cierta asimetría o presencia de valores extremos, lo cual sugiere que el modelo podría mejorarse incorporando variables adicionales o explorando transformaciones de las variables.

3.3.7 Diagnóstico del modelo

En general, los gráficos de diagnóstico sugieren que el modelo logra capturar una parte importante de la relación entre las características de las viviendas y su precio. No obstante, la dispersión observada en los residuos y la presencia de algunos valores atípicos indican que existen factores adicionales que podrían mejorar la capacidad explicativa del modelo. Esto refuerza la idea de que el precio de las viviendas depende de múltiples variables estructurales y de ubicación que no necesariamente están incluidas en la base de datos analizada.

3.4 Validación de supuestos del modelo

Después de estimar el modelo de regresión lineal múltiple, es necesario evaluar si se cumplen los supuestos estadísticos sobre los cuales se basa este tipo de modelo. La verificación de estos supuestos permite determinar si las estimaciones obtenidas son confiables y si las inferencias realizadas a partir del modelo son válidas.

En particular, se evaluarán los siguientes supuestos:

-Linealidad

-Normalidad de los residuos

-Homoscedasticidad

-Independencia de los errores

Para ello se utilizan gráficos de diagnóstico que permiten analizar el comportamiento de los residuos del modelo.

Gráficos de diagnóstico del modelo

1. Residuos vs Valores Ajustados (Linealidad)

Este gráfico permite evaluar si la relación entre las variables explicativas y la variable respuesta es aproximadamente lineal. Idealmente, los residuos deberían distribuirse de manera aleatoria alrededor de la línea horizontal en cero.

Si se observa un patrón claro o una forma curvada, podría indicar que la relación entre las variables no es completamente lineal o que faltan variables relevantes en el modelo.

En este caso, los residuos se distribuyen de forma relativamente aleatoria alrededor de cero, lo que sugiere que el supuesto de linealidad se cumple de manera razonable.

2. QQ-Plot de residuos (Normalidad)

El gráfico Q-Q compara la distribución de los residuos del modelo con una distribución normal teórica.

Si los puntos se alinean aproximadamente sobre la línea diagonal, se puede considerar que los residuos siguen una distribución aproximadamente normal.

En el modelo estimado, la mayoría de los puntos se ubican cerca de la línea diagonal, aunque pueden observarse algunas desviaciones en los extremos, lo cual es relativamente común en datos reales.

Por lo tanto, se puede considerar que el supuesto de normalidad se cumple de manera aproximada.

3. Scale-Location (Homoscedasticidad)

Este gráfico permite evaluar si la varianza de los residuos es constante a lo largo de los valores predichos del modelo.

Si los puntos se distribuyen de manera aleatoria y sin formar patrones claros, se puede asumir que la varianza es aproximadamente constante.

En este caso, los residuos presentan una dispersión relativamente homogénea, lo que sugiere que no existe evidencia fuerte de heterocedasticidad.

4. Residuals vs Leverage (Observaciones influyentes)

Este gráfico permite identificar observaciones que puedan tener una influencia excesiva sobre el modelo.

Los puntos ubicados muy lejos del resto o fuera de las líneas de Cook’s distance podrían indicar observaciones influyentes.

En el modelo analizado no se observan valores extremadamente influyentes que comprometan significativamente la estabilidad de las estimaciones.

Conclusión

En general, los gráficos de diagnóstico sugieren que los supuestos principales del modelo de regresión lineal múltiple se cumplen de manera razonable. Los residuos se distribuyen aproximadamente de forma aleatoria alrededor de cero y el gráfico Q-Q indica una distribución cercana a la normalidad, aunque con pequeñas desviaciones en los extremos. Asimismo, no se observan patrones claros que indiquen problemas graves de heterocedasticidad ni observaciones extremadamente influyentes que afecten significativamente el modelo.

En caso de presentarse problemas en alguno de los supuestos, podrían considerarse alternativas como transformaciones de las variables, inclusión de nuevas variables explicativas, o el uso de métodos de regresión robusta para mejorar el ajuste del modelo.

3.5 Predicción del precio de viviendas

Una vez estimado y validado el modelo de regresión lineal múltiple, es posible utilizarlo para estimar el precio esperado de viviendas con características específicas. Esto permite apoyar el proceso de toma de decisiones de los clientes interesados en adquirir una propiedad que cumpla con ciertas condiciones estructurales y de ubicación.

A partir del modelo estimado, se calcularán los precios predichos para las viviendas disponibles en la base filtrada, con el fin de identificar aquellas propiedades que se ajusten mejor a las características solicitadas por los clientes.

Visualización de algunas predicciones

La tabla anterior permite comparar el precio real de las viviendas con el precio estimado por el modelo de regresión. Esta comparación permite evaluar la capacidad del modelo para aproximar el valor de mercado de los inmuebles a partir de sus características estructurales.

Tabla de viviendas recomendadas según la solicitud del cliente

La tabla anterior presenta un conjunto de viviendas que cumplen con varias de las condiciones principales solicitadas por el cliente, especialmente en términos de tipo de inmueble, estrato socioeconómico, número mínimo de habitaciones, baños, parqueaderos y presupuesto máximo disponible. En particular, se seleccionaron casas de estrato 4 o 5, con al menos cuatro habitaciones, dos baños, un parqueadero y un precio real de mercado inferior o igual a 350 millones de pesos.

Las viviendas fueron ordenadas según la cercanía entre su precio estimado y el presupuesto máximo del cliente, con el fin de priorizar aquellas opciones cuyo valor esperado de mercado se aproxima más al monto disponible para la compra. Esto permite identificar alternativas que no solo cumplen con restricciones básicas, sino que además se encuentran cercanas al rango objetivo definido por el cliente.

No obstante, se observa que algunas propiedades presentan diferencias frente al perfil original solicitado, particularmente en variables como el área construida, ya que no todas alcanzan los 200 m² deseados. Por esta razón, estas viviendas deben interpretarse como alternativas cercanas al perfil requerido, más que como coincidencias exactas con todas las características establecidas inicialmente.

En conjunto, la tabla permite identificar opciones viables dentro del mercado disponible, priorizando viviendas que combinan restricciones de presupuesto y características estructurales mínimas, aunque con cierta variación respecto al perfil ideal del cliente.

3.6 Ofertas potenciales para la vivienda 1

Para identificar posibles ofertas que se ajusten a la solicitud del cliente, se utilizan las predicciones generadas por el modelo de regresión lineal múltiple. El objetivo es encontrar viviendas cuyas características se aproximen a las condiciones solicitadas y cuyo precio estimado no supere el presupuesto máximo de 350 millones de pesos, correspondiente al crédito preaprobado por la empresa.

A partir de esta información se seleccionan algunas viviendas potenciales y se analizan sus características con el fin de recomendar alternativas que puedan ajustarse a las necesidades del cliente.

Para la selección de las viviendas recomendadas se consideró como restricción principal el presupuesto máximo del cliente, equivalente a 350 millones de pesos. Por esta razón, el filtrado final se realizó sobre el precio real de mercado de las viviendas, garantizando que todas las alternativas propuestas se encuentren dentro del límite del crédito preaprobado.

A partir de las predicciones generadas por el modelo de regresión y considerando las condiciones establecidas por el cliente, se identificaron varias viviendas que pueden considerarse ofertas potenciales dentro del mercado inmobiliario analizado. El proceso de filtrado permitió seleccionar propiedades tipo casa con características estructurales similares a las solicitadas, tales como número de habitaciones, baños, parqueaderos y estrato socioeconómico.

Aunque el criterio inicial priorizaba viviendas ubicadas en la zona norte, el análisis también evidencia que algunas propiedades con características muy similares y dentro del presupuesto disponible se encuentran en zonas cercanas o en otros sectores de la ciudad, lo cual amplía las posibles alternativas disponibles en el mercado.

El análisis espacial mediante el mapa permite visualizar la distribución geográfica de las viviendas recomendadas, facilitando la identificación de opciones dentro del área de interés y permitiendo evaluar la proximidad entre las distintas alternativas. Asimismo, el uso del modelo de regresión permitió estimar el valor esperado de las propiedades y compararlo con su precio real de mercado, aportando un criterio adicional para la toma de decisiones.

En conjunto, estas viviendas representan alternativas viables que podrían ser presentadas al cliente, considerando tanto sus características estructurales como su precio y localización dentro del mercado inmobiliario analizado. Este tipo de análisis evidencia cómo el uso de técnicas estadísticas y modelos predictivos puede apoyar los procesos de toma de decisiones en el sector inmobiliario.

3.7 Conclusión final

El análisis realizado permitió explorar la relación entre el precio de las viviendas y diversas características estructurales de los inmuebles, tales como el área construida, el estrato socioeconómico, el número de habitaciones, baños y parqueaderos. A partir del análisis exploratorio de datos se evidenció que variables como el área construida y el estrato presentan una relación positiva con el precio de la vivienda, resultado consistente con el comportamiento esperado del mercado inmobiliario.

Posteriormente, mediante la estimación de un modelo de regresión lineal múltiple, fue posible cuantificar el efecto de estas variables sobre el precio de las viviendas y construir una herramienta que permite estimar el valor esperado de las propiedades a partir de sus características estructurales.

A partir de las predicciones generadas por el modelo y considerando el presupuesto máximo de 350 millones de pesos, se identificaron algunas viviendas que representan alternativas potenciales para el cliente, dado que cumplen con varias de las condiciones solicitadas en términos de número de habitaciones, baños, parqueaderos y estrato socioeconómico. No obstante, el análisis también evidenció que ciertas combinaciones de características, especialmente viviendas con mayor área construida o ubicadas en estratos más altos, tienden a superar el presupuesto disponible.

En conjunto, los resultados muestran que el uso combinado de análisis exploratorio de datos y modelos de regresión permite apoyar los procesos de toma de decisiones en el mercado inmobiliario, facilitando la identificación de viviendas potenciales y la evaluación de su viabilidad frente a las restricciones presupuestales y las características requeridas por el cliente.

4 VIVIENDA 2

4.1 Filtrado de la base 2

Con el fin de analizar las posibles ofertas que cumplan con la solicitud de la Vivienda 2, se realiza un filtrado de la base de datos vivienda, considerando únicamente aquellas propiedades cuyo tipo de vivienda corresponde a apartamentos y cuya ubicación se encuentra en la zona sur de la ciudad.

Este proceso permite construir una nueva base denominada base2, la cual contiene únicamente las observaciones relevantes para el análisis del segundo caso.

A continuación, se presentan los primeros 3 registros de la base filtrada con el fin de observar algunas de las características iniciales de los apartamentos ubicados en la Zona Sur y algunas tablas que comprueban la consulta.

Tabla para verificación del tipo de vivienda

Tabla para verificación de la zona

Las tablas de verificación permiten confirmar que el proceso de filtrado de la base de datos se realizó correctamente. En particular, se observa que todas las observaciones incluidas en la base base2 corresponden a apartamentos ubicados en la Zona Sur, lo cual es consistente con los criterios establecidos en la solicitud de la Vivienda 2. De esta manera, se garantiza que el conjunto de datos utilizado para el análisis posterior contiene únicamente las ofertas relevantes para el caso de estudio.

A continuación se puede visualizar un mapa con los puntos de las bases:

El mapa muestra la distribución geográfica de las viviendas clasificadas como apartamentos en la Zona Sur según la variable zona del conjunto de datos. En general, se observa una concentración importante de puntos en sectores correspondientes al sur de la ciudad, lo cual sugiere coherencia entre el filtro aplicado y la ubicación geográfica registrada.

No obstante, algunos registros aparecen en sectores cercanos o ligeramente alejados de la zona esperada. Esto puede deberse a que la variable zona corresponde a una clasificación administrativa o comercial del mercado inmobiliario, la cual no necesariamente coincide de forma exacta con las coordenadas geográficas registradas. Asimismo, pueden existir imprecisiones en la georreferenciación o posibles inconsistencias en la clasificación de la variable zona dentro de la base de datos.

En consecuencia, aunque el filtro corresponde a apartamentos etiquetados como ubicados en la Zona Sur, el análisis espacial sugiere que la correspondencia entre la variable zona y las coordenadas geográficas no es completamente precisa en todos los registros.

4.2 EDA

Análisis exploratorio de datos

En este apartado se realiza un análisis exploratorio de datos (EDA) enfocado en estudiar la relación entre la variable respuesta (precio de la vivienda) y algunas variables explicativas relevantes del mercado inmobiliario.

Específicamente, se analizará la relación entre el precio de los apartamentos ubicados en la Zona Sur y las siguientes variables:

-Área construida

-Estrato socioeconómico

-Número de baños

-Número de habitaciones

-Número de parqueaderos

Para realizar este análisis se utilizan gráficos interactivos implementados con el paquete plotly en R, lo cual permite explorar de manera dinámica los datos, identificar patrones y detectar posibles relaciones entre las variables.

4.2.1 Correlación Precio vs Área construida

El gráfico evidencia una relación positiva entre el área construida y el precio del apartamento, ya que los inmuebles de mayor tamaño tienden a presentar valores de mercado más altos. La mayoría de las observaciones se concentran en apartamentos con áreas entre 80 y 200 m², con precios aproximados entre 200 y 700 millones de pesos.

A medida que aumenta el área construida, también se observa mayor dispersión en los precios, lo que indica que el valor del inmueble no depende únicamente del tamaño. Asimismo, los apartamentos ubicados en estratos socioeconómicos más altos tienden a presentar precios más elevados, lo cual sugiere que el precio está influenciado por múltiples características del inmueble y su entorno.

4.2.2 Precio vs Estrato

El gráfico evidencia que el precio de los apartamentos tiende a aumentar a medida que aumenta el estrato socioeconómico. Los apartamentos ubicados en estratos más altos presentan precios medianos y rangos superiores en comparación con los estratos más bajos.

Este comportamiento es consistente con la dinámica del mercado inmobiliario, donde el estrato suele reflejar diferencias en el nivel socioeconómico de las zonas, la calidad del entorno urbano y el acceso a servicios.

4.2.3 Precio vs Número de Baños

El gráfico muestra que los apartamentos con mayor número de baños tienden a presentar precios más elevados. Esto puede explicarse porque un mayor número de baños suele estar asociado a inmuebles más amplios o con mejores características internas.

Sin embargo, también se observa una dispersión importante dentro de cada grupo, lo cual indica que el número de baños por sí solo no explica completamente el valor del inmueble.

4.2.4 Precio vs Número de Habitaciones

El gráfico muestra la relación entre el número de habitaciones y el precio de los apartamentos. En general, se observa una tendencia creciente en la mediana de los precios a medida que aumenta el número de habitaciones. Sin embargo, también se identifican varios valores atípicos en apartamentos con 2 y 3 habitaciones, con precios considerablemente altos, posiblemente asociados a inmuebles de lujo o con mayor área construida.

Además, los apartamentos con 5 o 6 habitaciones presentan menos observaciones, lo que podría explicar que no aparezcan precios tan extremos. En conjunto, el gráfico sugiere que el número de habitaciones influye en el precio, pero no es el único factor que determina el valor del inmueble.

4.2.5 Precio vs Zona

El gráfico muestra la distribución del precio de los apartamentos ubicados en la Zona Sur. Se observa una mediana cercana a los 200–250 millones, con una dispersión considerable en los precios. Asimismo, se identifican varios valores atípicos, correspondientes a apartamentos con precios significativamente más altos. Esto sugiere que, incluso dentro de una misma zona de la ciudad, el precio de los inmuebles puede variar considerablemente dependiendo de características como el área construida, el estrato socioeconómico o las características del inmueble.

4.2.6 Análisis general EDA

El análisis exploratorio de datos permite identificar patrones relevantes en la relación entre el precio de los apartamentos y las variables explicativas consideradas. En general, se observa que variables como el área construida, el número de habitaciones, el número de baños y el estrato socioeconómico presentan una relación positiva con el precio del inmueble, lo cual sugiere que apartamentos más amplios, con mayor número de espacios funcionales y ubicados en estratos más altos tienden a presentar valores de mercado más elevados.

Asimismo, se evidencia una alta variabilidad en los precios dentro de cada categoría, lo que indica que el valor de los apartamentos no depende únicamente de una sola variable, sino de la combinación de múltiples características estructurales y del entorno.

En conjunto, estos resultados justifican la estimación de un modelo de regresión lineal múltiple, el cual permitirá analizar de manera conjunta el efecto de varias variables explicativas sobre el precio de los apartamentos y cuantificar su influencia dentro del mercado inmobiliario analizado.

4.3 Estimación del modelo de regresión múltiple

En este apartado se estima un modelo de regresión lineal múltiple con las variables analizadas en el punto anterior, con el fin de explicar el precio de los apartamentos en función de sus características estructurales.

El modelo planteado es:

Precio = f()

Posteriormente se analiza si los coeficientes del modelo son estadísticamente significativos, se interpreta el coeficiente de determinación R^2 y se discute el ajuste del modelo junto con posibles mejoras.

La variable respuesta corresponde al precio del apartamento (preciom) y las variables explicativas consideradas son:

-área construida (areaconst)

-estrato socioeconómico (estrato)

-número de habitaciones (habitaciones)

-número de parqueaderos (parqueaderos)

-número de baños (banios)

El modelo estimado es:

Precio = _0 + _1 Área + _2 Estrato + _3 Habitaciones + _4 Parqueaderos + _5 Baños +

Para comenzar se estimará el modelo con las variables del ejercicio utilizando la base filtrada de apartamentos ubicados en la zona sur de la ciudad.

Resultados del modelo de regresión lineal múltiple (Apartamentos Zona Sur)
	Estimate	Std. Error	t value
(Intercept)	-261.625	15.632	-16.736
areaconst	1.285	0.054	23.785
estrato	60.897	3.084	19.746
habitaciones	-24.837	3.892	-6.381
parqueaderos	72.915	3.958	18.422
banios	50.697	3.396	14.927

4.3.1 Interpretación de los coeficientes del modelo

A partir de los resultados del modelo de regresión lineal múltiple se analizan los coeficientes estimados con el fin de identificar el efecto de cada variable sobre el precio de los apartamentos, manteniendo constantes las demás variables del modelo.

Área construida

El coeficiente asociado a la variable área construida es positivo y resulta estadísticamente significativo.

Esto indica que, manteniendo constantes el estrato socioeconómico, el número de habitaciones, los parqueaderos y los baños, un incremento de un metro cuadrado en el área construida se asocia con un aumento en el precio del apartamento.

Este resultado es consistente con el comportamiento esperado del mercado inmobiliario, ya que apartamentos con mayor tamaño construido suelen tener mayor valor comercial.

Estrato socioeconómico

El coeficiente estimado para la variable estrato socioeconómico también resulta positivo y estadísticamente significativo.

Esto implica que, manteniendo constantes las demás variables del modelo, un aumento en el estrato se asocia con un incremento en el precio esperado del apartamento.

Este resultado es coherente con el contexto urbano colombiano, donde los estratos más altos suelen estar asociados con mejores condiciones urbanas, mayor valorización del suelo y mayor demanda inmobiliaria.

Número de habitaciones

El coeficiente asociado al número de habitaciones puede presentar menor significancia estadística en comparación con otras variables.

Esto sugiere que, una vez controlado el efecto de variables como el área construida y el estrato socioeconómico, el número de habitaciones no siempre aporta información adicional relevante para explicar el precio del apartamento.

Una posible explicación es que esta variable está correlacionada con el área construida, ya que apartamentos más grandes suelen tener más habitaciones.

Número de parqueaderos

El coeficiente correspondiente al número de parqueaderos es positivo y significativo.

Esto indica que cada parqueadero adicional incrementa el precio esperado del apartamento, manteniendo constantes las demás variables.

Este resultado es consistente con el mercado inmobiliario urbano, donde la disponibilidad de parqueaderos representa una característica altamente valorada por los compradores.

Número de baños

El coeficiente asociado al número de baños también resulta positivo y significativo.

Esto indica que apartamentos con mayor número de baños tienden a tener mayores valores de mercado, ya que esta característica mejora la funcionalidad y comodidad del inmueble.

4.3.2 Tabla de ajuste del modelo (R² y métricas)

Indicadores de ajuste del modelo
Indicador	Valor
R²	0.7485
R² ajustado	0.7480
Error estándar residual	98.0194
Estadístico F	1413.8018
Valor p global	0.0000

4.3.3 Interpretación del coeficiente de determinación R²

El modelo presenta un coeficiente de determinación R² que indica la proporción de la variabilidad observada en el precio de los apartamentos ubicados en la zona sur de la ciudad que es explicada por las variables incluidas en el modelo.

Esto significa que una parte importante de la variabilidad del precio puede ser explicada por variables estructurales del inmueble como el área construida, el estrato socioeconómico, el número de habitaciones, el número de parqueaderos y el número de baños.

Este nivel de explicación puede considerarse adecuado dentro del contexto del mercado inmobiliario, ya que el precio de los apartamentos también depende de múltiples factores adicionales que no están incluidos en la base de datos analizada, tales como:

-El barrio específico donde se ubica el inmueble

-La antigüedad del edificio

-El estado de conservación del apartamento

-La disponibilidad de zonas comunes o amenidades

-La cercanía a servicios urbanos y vías principales

Por lo tanto, aunque el modelo logra explicar una parte importante de la variabilidad del precio de los apartamentos, aún existen otros factores relevantes que influyen en la determinación del valor de los inmuebles dentro del mercado inmobiliario.

4.3.4 Discusión del ajuste del modelo

En general, los resultados obtenidos son coherentes con el comportamiento esperado del mercado inmobiliario para apartamentos ubicados en la zona sur de la ciudad.

Las variables área construida, estrato socioeconómico, número de parqueaderos y número de baños presentan efectos positivos y estadísticamente significativos sobre el precio del apartamento, lo cual resulta consistente con la lógica del mercado inmobiliario, donde características que aumentan el tamaño, la funcionalidad y la calidad del entorno suelen incrementar el valor del inmueble.

Por otro lado, la variable número de habitaciones puede presentar un comportamiento diferente al esperado, lo cual puede estar asociado a su relación con otras variables estructurales como el área construida. En muchos casos, apartamentos con mayor área tienden a tener más habitaciones, por lo que parte de la información de esta variable ya se encuentra capturada por el área construida dentro del modelo.

Esto sugiere que el número de habitaciones podría no aportar información adicional relevante una vez que el modelo ya considera el tamaño del apartamento.

4.3.5 Posibles mejoras del modelo

El modelo estimado podría mejorarse mediante diferentes estrategias metodológicas:

Incluir variables adicionales, ubicación específica del inmueble como el barrio específico, la antigüedad del edificio o el estado del inmueble.
Explorar transformaciones de variables, por ejemplo utilizando el logaritmo del precio para mejorar la linealidad del modelo.
Evaluar posibles interacciones entre variables, como entre área construida y estrato socioeconómico.
Analizar la posible multicolinealidad entre variables como área construida, número de habitaciones y número de baños.
Evaluar los supuestos del modelo de regresión, incluyendo normalidad de residuos, homocedasticidad e independencia.
Incorporar características del entorno urbano o servicios cercanos.
Aplicar técnicas robustas de regresión en presencia de valores atípicos.

4.3.6 Diagnóstico y evaluación gráfica del modelo

En particular, se presentan tres visualizaciones principales:

El gráfico de valores reales versus valores predichos, que permite evaluar la capacidad del modelo para aproximar los datos observados.
El gráfico de residuos frente a los valores predichos, útil para identificar posibles problemas de heterocedasticidad o patrones no capturados por el modelo.
El histograma de residuos, que permite analizar la forma de la distribución de los errores del modelo.

Precio real vs precio predicho

El gráfico compara los precios reales con los valores predichos por el modelo. Se observa que muchos puntos se concentran alrededor de la línea roja, lo que indica que el modelo logra aproximar razonablemente el comportamiento del precio de los apartamentos. Sin embargo, también se observa cierta dispersión, especialmente en valores de precio más altos, lo que sugiere que existen factores adicionales no incluidos en el modelo que también influyen en el precio de los inmuebles.

Residuos vs valores predichos

El gráfico muestra que los residuos se distribuyen alrededor de la línea horizontal en cero, lo que indica que el modelo no presenta un sesgo sistemático evidente. Sin embargo, se observa que la dispersión de los residuos aumenta para valores de precio predicho más altos, lo que sugiere la posible presencia de heterocedasticidad. Esto indica que el modelo tiende a presentar mayor error de predicción en apartamentos de mayor valor.

Histográma de residuos

El histograma muestra la distribución de los residuos del modelo. Se observa que la mayoría de los errores se concentran alrededor de cero, lo cual es consistente con el supuesto de que los residuos tienen media cercana a cero. Sin embargo, la presencia de algunos valores extremos sugiere que existen observaciones donde el modelo presenta mayores errores de predicción.

4.3.7 Diagnóstico del modelo

En general, el modelo logra predecir razonablemente el precio de las viviendas a partir de variables como el área construida, el estrato socioeconómico, el número de habitaciones, los baños y los parqueaderos. Esto se evidencia en el gráfico de precio real vs precio predicho, donde muchos puntos se concentran cerca de la línea diagonal, lo que indica que las predicciones del modelo son cercanas a los valores reales.

Además, el coeficiente de determinación R^2 sugiere que una proporción importante de la variabilidad del precio es explicada por las variables incluidas en el modelo. Sin embargo, la dispersión observada en algunos puntos y en los residuos indica que aún existen factores adicionales que influyen en el precio de las viviendas y que no están incluidos en el modelo.

Por lo tanto, el modelo ofrece una aproximación útil para estimar el precio de las viviendas, aunque su capacidad predictiva podría mejorarse incorporando variables adicionales relacionadas con la ubicación específica, el estado del inmueble o características del entorno urbano.

4.4 Validación de supuestos del modelo

Para verificar la validez del modelo de regresión lineal múltiple estimado, es necesario evaluar si se cumplen los principales supuestos del modelo. Estos supuestos permiten garantizar que las estimaciones obtenidas sean confiables y que las inferencias estadísticas sean válidas.

En particular, se analizan los siguientes supuestos:

-Linealidad entre las variables explicativas y la variable respuesta.

-Normalidad de los residuos.

-Homocedasticidad (varianza constante de los errores).

-Independencia de los errores.

A continuación, se presentan los gráficos de diagnóstico que permiten evaluar visualmente estos supuestos.

Gráficos de diagnóstico del modelo

Este conjunto de gráficos corresponde a los diagnósticos estándar del modelo de regresión lineal, los cuales permiten evaluar visualmente el cumplimiento de los supuestos del modelo.c

1. Residuos vs Valores Ajustados (Linealidad)

El gráfico Residuals vs Fitted permite evaluar si existe una relación lineal adecuada entre las variables explicativas y la variable respuesta.

En este tipo de gráfico se espera que los residuos se distribuyan de forma aleatoria alrededor de la línea horizontal en cero.

En el modelo estimado, los residuos se distribuyen en general alrededor de cero, aunque se observa una ligera tendencia y un aumento de la dispersión para valores predichos más altos. Esto sugiere que el modelo lineal captura en gran medida la relación entre las variables, pero pueden existir algunos efectos adicionales que no están completamente explicados por el modelo.

2. QQ-Plot de residuos (Normalidad)

El gráfico Normal Q-Q permite evaluar si los residuos siguen aproximadamente una distribución normal.

En el gráfico se observa que una gran parte de los puntos sigue la tendencia de la línea diagonal, lo que sugiere que la normalidad de los residuos se cumple de manera aproximada. Sin embargo, se presentan desviaciones en los extremos de la distribución, lo que indica la presencia de algunos valores atípicos o colas más pesadas de lo esperado bajo una distribución normal.

3. Scale-Location (Homoscedasticidad)

El supuesto de homocedasticidad establece que la varianza de los errores debe ser constante a lo largo de los valores predichos.

En el gráfico Scale-Location se observa que la dispersión de los residuos aumenta ligeramente a medida que crecen los valores ajustados, lo que sugiere la posible presencia de heterocedasticidad moderada. Esto indica que el error de predicción del modelo puede ser mayor para viviendas de mayor valor.

En el modelo estimado se observa cierta dispersión creciente en los residuos a medida que aumentan los valores predichos, lo que podría sugerir la presencia de heterocedasticidad moderada. Esto significa que el error de predicción del modelo podría aumentar para viviendas de mayor valor.

4. Residuals vs Leverage (Observaciones influyentes)

El gráfico Residuals vs Leverage permite identificar observaciones que puedan tener una influencia significativa sobre el modelo.

La mayoría de las observaciones se encuentran dentro de los límites esperados de la distancia de Cook, lo que sugiere que no existen puntos extremadamente influyentes que distorsionen de forma significativa el ajuste del modelo. No obstante, algunas observaciones presentan valores de leverage relativamente altos, lo cual es común en datos inmobiliarios donde pueden existir propiedades con características particulares.

Conclusión

En conjunto, los gráficos de diagnóstico sugieren que el modelo de regresión lineal múltiple proporciona una aproximación razonable para explicar el precio de los apartamentos a partir de sus características estructurales. Sin embargo, la presencia de cierta heterocedasticidad, desviaciones en la normalidad de los residuos y algunos valores atípicos indica que el modelo podría mejorarse incorporando variables adicionales o explorando transformaciones de las variables.

4.5 Predicción del precio de viviendas

Esta predicción permite comparar el precio estimado por el modelo con el precio real observado en el mercado, lo cual facilita identificar viviendas que podrían representar buenas oportunidades de compra.

Visualización de algunas predicciones

La tabla anterior compara el precio real observado con el precio estimado por el modelo para los apartamentos de la base filtrada. Esta comparación permite identificar qué tan cercanas son las predicciones del modelo a los valores reales del mercado y detectar posibles viviendas cuyo precio observado sea inferior al valor esperado según sus características.

Tabla de viviendas recomendadas según la solicitud del cliente

Al aplicar estrictamente los criterios del cliente, solo se identificaron tres apartamentos en la base de datos.

El análisis conjunto de ambas tablas permite observar la relación entre la solicitud inicial del cliente y la oferta disponible en el mercado inmobiliario analizado.

Por un lado, el filtrado estricto utilizando todas las características definidas por el cliente permitió identificar únicamente tres viviendas que cumplen simultáneamente con todos los requisitos planteados, lo que evidencia que este perfil de vivienda es relativamente poco frecuente dentro de la base de datos analizada.

Por otro lado, al realizar una flexibilización controlada de algunos criterios secundarios, fue posible identificar un conjunto más amplio de alternativas que se aproximan al perfil solicitado. Estas viviendas recomendadas conservan las condiciones más relevantes para el cliente —como el tipo de inmueble, la ubicación en la zona sur, el estrato socioeconómico y el presupuesto máximo— mientras que permiten ligeras variaciones en características como el área construida, el número de habitaciones o los parqueaderos.

En conjunto, este análisis sugiere que, aunque el mercado ofrece algunas opciones que cumplen completamente con los criterios establecidos, ampliar ligeramente los rangos de ciertas variables puede permitir identificar más alternativas potenciales de compra, facilitando así una toma de decisiones más informada por parte del cliente.

4.6 Ofertas potenciales para la vivienda 2

Para identificar posibles ofertas que se ajusten a la solicitud del cliente, se utilizan las predicciones generadas por el modelo de regresión lineal múltiple. El objetivo es encontrar apartamentos cuyas características estructurales se aproximen a las condiciones solicitadas y cuyo precio estimado se encuentre dentro del presupuesto máximo de 850 millones de pesos.

A partir de estas predicciones se construye una base con los precios estimados según el modelo, la cual permite comparar el valor esperado de los inmuebles con sus características estructurales. Posteriormente, se aplica un proceso de filtrado para identificar las viviendas que mejor se aproximan al perfil requerido por el cliente.

Durante el proceso de análisis se observó que algunos barrios clasificados en la base de datos dentro de una determinada zona no coinciden necesariamente con la división geográfica tradicional de la ciudad de Cali. Por ejemplo, barrios como Aguacatal, Alameda o Acopi aparecen asociados a ciertas zonas en el dataset, aunque en la clasificación urbana real pertenecen a otras áreas de la ciudad. Esta situación refleja una posible simplificación o clasificación interna de la base de datos utilizada, por lo que la variable zona debe interpretarse únicamente dentro del contexto del dataset analizado.

Al aplicar de forma estricta todos los criterios definidos por el cliente para la Vivienda 2, solo se identificaron tres apartamentos dentro de la base de datos que cumplían simultáneamente con las condiciones de tipo de inmueble, zona, estrato, área construida, número de habitaciones, número de baños, parqueaderos y presupuesto máximo.

Dado que el ejercicio solicita presentar al menos cinco ofertas potenciales, se realizó una flexibilización controlada de algunos criterios secundarios, manteniendo constantes las condiciones más relevantes para el cliente, como el tipo de inmueble, la ubicación en la zona sur, el estrato socioeconómico y el presupuesto máximo.

En particular, se amplió el rango del área construida a viviendas de al menos 220 m², se permitió incluir apartamentos con mínimo cuatro habitaciones y mínimo dos parqueaderos, conservando al menos tres baños y el mismo rango de estrato. Esta estrategia permitió identificar cinco opciones que, aunque no cumplen de manera exacta con todos los requerimientos originales, sí representan alternativas cercanas y plausibles dentro de la oferta disponible en el mercado analizado.

Durante la revisión de las viviendas seleccionadas se observó que algunos barrios clasificados dentro de la variable zona no coinciden exactamente con la división geográfica tradicional de la ciudad de Cali. Por ejemplo, barrios como Cuarto de Legua – Guadalupe aparecen asociados a la “Zona Sur” dentro de la base de datos utilizada, aunque geográficamente se ubican en el corredor centro-sur de la ciudad. Esta situación responde a la clasificación propia del dataset inmobiliario, por lo que la variable zona debe interpretarse dentro del contexto de la base de datos analizada.

4.7 Conclusión final

A partir del modelo de regresión lineal múltiple fue posible estimar el precio de los apartamentos considerando variables como el área construida, el estrato socioeconómico, el número de habitaciones, baños y parqueaderos. Estas predicciones permitieron comparar el precio real de mercado con el valor esperado según las características de cada inmueble.

Con base en esta información se filtraron viviendas que se aproximaran a las condiciones solicitadas por el cliente para la Vivienda 2, especialmente en términos de tipo de inmueble, ubicación, estrato y presupuesto máximo de 850 millones de pesos. Dado que pocas viviendas cumplían estrictamente con todos los criterios, se realizó una flexibilización moderada de algunas variables secundarias para identificar al menos cinco alternativas potenciales.

En conjunto, el análisis permitió identificar opciones de apartamentos que se aproximan al perfil requerido por el cliente, mostrando cómo el uso de modelos estadísticos y herramientas de análisis de datos puede apoyar la toma de decisiones en el mercado inmobiliario.

Actividad 2 Regresión Lineal Multiple

Catherin Salazar Pupiales

2026-03-09

1 DESCRIPCIÓN, PROBLEMA Y OBJETIVOS

1.1 Descripción del caso

1.2 Problema

1.3 Objetivo general

1.4 Objetivos específicos

2 BASE DE DATOS

2.1 Carga de datos

3 VIVIENDA 1

3.1 Filtrado de la base 1

3.2 EDA

3.2.1 Correlación Precio vs Área construida

3.2.2 Precio vs Estrato

3.2.3 Precio vs Número de Baños

3.2.4 Precio vs Número de Habitaciones

3.2.5 Precio vs zona

3.2.6 Análisis general EDA

3.3 Estimación del modelo de regresión múltiple

3.3.1 Interpretación de los coeficientes del modelo

3.3.2 Tabla de ajuste del modelo (R² y métricas)

3.3.3 Interpretación del coeficiente de determinación R²

3.3.4 Discusión del ajuste del modelo

3.3.5 Posibles mejoras del modelo

3.3.6 Diagnóstico y evaluación gráfica del modelo

3.3.7 Diagnóstico del modelo

3.4 Validación de supuestos del modelo

3.5 Predicción del precio de viviendas

3.6 Ofertas potenciales para la vivienda 1

3.7 Conclusión final

4 VIVIENDA 2

4.1 Filtrado de la base 2

4.2 EDA

4.2.1 Correlación Precio vs Área construida

4.2.2 Precio vs Estrato

4.2.3 Precio vs Número de Baños

4.2.4 Precio vs Número de Habitaciones

4.2.5 Precio vs Zona

4.2.6 Análisis general EDA

4.3 Estimación del modelo de regresión múltiple

4.3.1 Interpretación de los coeficientes del modelo

4.3.2 Tabla de ajuste del modelo (R² y métricas)

4.3.3 Interpretación del coeficiente de determinación R²

4.3.4 Discusión del ajuste del modelo

4.3.5 Posibles mejoras del modelo

4.3.6 Diagnóstico y evaluación gráfica del modelo

4.3.7 Diagnóstico del modelo

4.4 Validación de supuestos del modelo

4.5 Predicción del precio de viviendas

4.6 Ofertas potenciales para la vivienda 2

4.7 Conclusión final