El presente informe responde a la solicitud de asesoría para la compra de dos viviendas en la ciudad de Cali para los empleados de una compañía internacional. Se ha realizado un análisis de datos basado en la oferta inmobiliaria de los últimos tres meses, utilizando modelos estadísticos para estimar lso precios de mercado y seleccionar las propiedades más adecuadas según los requerimientos de cada caso
A continuación, se presenta un desglose de cada columna del conjunto de datos, detallando su tipo y lo que representa en el contexto del mercado inmobiliario.
## id zona piso estrato
## Min. : 1 Length:8322 Length:8322 Min. :3.000
## 1st Qu.:2080 Class :character Class :character 1st Qu.:4.000
## Median :4160 Mode :character Mode :character Median :5.000
## Mean :4160 Mean :4.634
## 3rd Qu.:6240 3rd Qu.:5.000
## Max. :8319 Max. :6.000
## NA's :3 NA's :3
## preciom areaconst parqueaderos banios
## Min. : 58.0 Min. : 30.0 Min. : 1.000 Min. : 0.000
## 1st Qu.: 220.0 1st Qu.: 80.0 1st Qu.: 1.000 1st Qu.: 2.000
## Median : 330.0 Median : 123.0 Median : 2.000 Median : 3.000
## Mean : 433.9 Mean : 174.9 Mean : 1.835 Mean : 3.111
## 3rd Qu.: 540.0 3rd Qu.: 229.0 3rd Qu.: 2.000 3rd Qu.: 4.000
## Max. :1999.0 Max. :1745.0 Max. :10.000 Max. :10.000
## NA's :2 NA's :3 NA's :1605 NA's :3
## habitaciones tipo barrio longitud
## Min. : 0.000 Length:8322 Length:8322 Min. :-76.59
## 1st Qu.: 3.000 Class :character Class :character 1st Qu.:-76.54
## Median : 3.000 Mode :character Mode :character Median :-76.53
## Mean : 3.605 Mean :-76.53
## 3rd Qu.: 4.000 3rd Qu.:-76.52
## Max. :10.000 Max. :-76.46
## NA's :3 NA's :3
## latitud
## Min. :3.333
## 1st Qu.:3.381
## Median :3.416
## Mean :3.418
## 3rd Qu.:3.452
## Max. :3.498
## NA's :3
| id | zona | piso | estrato | preciom | areaconst | parqueaderos | banios | habitaciones | tipo | barrio | longitud | latitud |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1147 | Zona Oriente | NA | 3 | 250 | 70 | 1 | 3 | 6 | Casa | 20 de julio | -76.51168 | 3.43382 |
| 1169 | Zona Oriente | NA | 3 | 320 | 120 | 1 | 2 | 3 | Casa | 20 de julio | -76.51237 | 3.43369 |
| 1350 | Zona Oriente | NA | 3 | 350 | 220 | 2 | 2 | 4 | Casa | 20 de julio | -76.51537 | 3.43566 |
| 5992 | Zona Sur | 02 | 4 | 400 | 280 | 3 | 5 | 3 | Casa | 3 de julio | -76.54000 | 3.43500 |
| 1212 | Zona Norte | 01 | 5 | 260 | 90 | 1 | 2 | 3 | Apartamento | acopi | -76.51350 | 3.45891 |
id Tipo de Dato: Identificador Numérico (Entero). Descripción: Un número único asignado a cada oferta de vivienda. Sirve para diferenciar cada registro de manera individual.
zona Tipo de Dato: Categórica (Texto). Descripción: Indica la zona geográfica principal de la ciudad donde se ubica la propiedad (ej. “Zona Norte”, “Zona Sur”).
piso Tipo de Dato: Numérica
(Entero) con valores nulos. Descripción: El número del
piso en el que se encuentra la vivienda. Esta variable presenta valores
faltantes (NA).
estrato
Tipo de Dato: Numérica (Ordinal).
Descripción: El estrato socioeconómico de la propiedad, un sistema de clasificación usado en Colombia. Valores más altos indican un mayor nivel socioeconómico.
preciom Tipo de Dato: Numérica (Continua). Descripción: Es la variable objetivo principal. Representa el precio de venta de la vivienda, expresado en millones de pesos colombianos (COP).
areaconst Tipo de Dato: Numérica (Continua). Descripción: El área total construida de la vivienda, medida en metros cuadrados (m²).
parqueaderos Tipo de Dato: Numérica (Discreta). Descripción: El número de puestos de estacionamiento o parqueaderos que incluye la propiedad.
banios Tipo de Dato: Numérica (Discreta). Descripción: La cantidad total de baños en la vivienda.
habitaciones Tipo de Dato: Numérica (Discreta). Descripción: El número de habitaciones o dormitorios de la propiedad.
tipo Tipo de Dato: Categórica (Texto). Descripción: Clasifica la propiedad en categorías como “Casa” o “Apartamento”.
barrio Tipo de Dato: Categórica (Texto). Descripción: El nombre del barrio específico donde está localizada la vivienda.
longitudylatitud Tipo de
Dato: Numérica (Continua). Descripción: Las
coordenadas geográficas de la propiedad. longitud
corresponde al eje Oeste-Este y latitud al eje Norte-Sur,
permitiendo ubicar cada vivienda en un mapa.
Este informe presenta los resultados de un análisis de datos y modelamiento predictivo para el mercado de inmobilidario en dos Zonas de la ciudad. El objetivo fue doble: primero, construir un modelo de regresión lineal para entender los factores que determinan el precio de la vivienda en este segmento; y segundo, utilizar este modelo para generar recomendaciones de compra personalizadas para dos perfiles de clientes con presupuestos de $350 y $850 millones, respectivamente.
El modelo predictivo final demostró ser robusto, explicando una parte significativa de la variabilidad de los precios. Se identificaron ofertas de alto potencial para ambos clientes, cumpliendo con sus restricciones presupuestarias y características deseadas. Confirmando en ambos casos que el requerimiento del cliente es viable, y que cuenta con el presupuestos necesario para sus requerimientos
Se realizó un análisis enfocado en identificar las mejores oportunidades de mercado para un cliente con un crédito pre-aprobado de $350 millones.
Análisis del Mercado y Modelo:
Se filtró la base de datos para aislar únicamente las casas ofertadas en la Zona Norte.
El modelo de regresión lineal múltiple (precio = f(área, estrato, baños, habitaciones, parqueaderos)) se ajustó a los datos, demostrando que variables como el área construida y el número de baños son los predictores más significativos del precio.
Diagnóstico del Modelo: La validación de supuestos reveló indicios de heteroscedasticidad, lo que sugiere que la precisión del modelo puede variar para diferentes rangos de precios. Para futuras implementaciones, se recomienda el uso de técnicas de corrección como errores estándar robustos.
Recomendaciones de Ofertas Potenciales (Presupuesto ≤ $350M):
Utilizando las predicciones del modelo, se identificaron 5 ofertas estratégicas cuyo precio de mercado estimado se alinea con el presupuesto del cliente.
Estas propiedades representan un equilibrio óptimo entre las características deseadas (ej. número de habitaciones, área) y un precio competitivo dentro del límite de crédito. El mapa de ofertas muestra que estas oportunidades se concentran en barrios específicos de la Zona Norte, permitiendo al cliente enfocar su búsqueda geográficamente.
Se replicó el proceso para un segundo cliente con un poder adquisitivo mayor, buscando propiedades de gama más alta dentro de la Zona sur
Análisis del Mercado y Modelo:
El mismo modelo predictivo fue aplicado a un segmento de mercado de mayor valor. El análisis exploratorio para este nicho mostró una correlación aún más fuerte entre el área construida, el estrato y el precio final.
Los coeficientes del modelo confirmaron que, en este rango de precios, un baño o parqueadero adicional tiene un impacto porcentual significativo en el valor del inmueble, un hallazgo clave para la negociación y valoración.
Recomendaciones de Ofertas Potenciales (Presupuesto ≤ $850M):
Se generó una lista curada de 5 casas de alto valor que, según las predicciones del modelo, representan una compra justa y se ajustan al presupuesto de $850 millones, que aunque no cumplen con todas las caracteristicas requeridas por el cliente se mantiene dentro del rango de presupuesto y el modelo valida con un precio del mercado.
Estas propiedades se caracterizan por tener mayores áreas, más baños y, en general, ubicarse en estratos socioeconómicos más altos.
Primero, realizamos un filtro para obtener únicamente las casas ubicadas en la “Zona Norte” según los datos originales.
| ID | Zona | Piso | Estrato | Precio (M) | Área | Parqueaderos | Baños | Hab. | Tipo | Barrio | Longitud | Latitud |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1209 | Zona Norte | 02 | 5 | 320 | 150 | 2 | 4 | 6 | Casa | acopi | -76.51341 | 3.47968 |
| 1592 | Zona Norte | 02 | 5 | 780 | 380 | 2 | 3 | 3 | Casa | acopi | -76.51674 | 3.48721 |
| 4057 | Zona Norte | 02 | 6 | 750 | 445 | NA | 7 | 6 | Casa | acopi | -76.52950 | 3.38527 |
A continuación, visualizamos estos puntos en un mapa para verificar su distribución geográfica.
Se observa claramente que algunas propiedades, a pesar de estar etiquetadas como “Zona Norte” se encuentran geográficamente muy lejos del grupo principal. Esto suele ocurrir por errores de digitación o geocodificació, lo que afecta la calidad de datos. Para solucinarlo se procede a realizar un filtro espacial para seleccionar solo los puntos que se encuentran del área geográfica correcta. Para esto tomamos la definición de la alcaldia de Cali en https://www.cali.gov.co/planeacion/publicaciones/169423/zonas-geograficas-idesc/
Zona Norte: Para su definición, se tuvieron en cuenta aspectos como los sectores de las calles y carreras norte establecidos en la guía para la nomenclatura urbana de Santiago de Cali, pero también aquellos barrios y sectores que la comunidad reconoce como norte de la ciudad. Esta zona comprende el territorio que va desde la KR 1 entre la CL 1 OESTE hasta el separador vial ubicado entre las CL 25 y CL 26, vía por la cual se continúa hasta la KR 7, y desde este punto, siguiendo el trazado del corredor férreo hasta llegar a la CL 88, a partir de la cual, se continua hacia el norte por el límite del suelo urbano hasta finalizar en el punto de inicio en la KR 1.
Para asegurar la calidad de los datos, utilizamos un shapefile con el límite geográfico oficial de la Zona Norte para filtrar espacialmente las propiedades.
## Registros originales: 722
## Registros después de filtrar con el shapefile: 526
Ahora visualizamos los datos limpios junto con el límite del shapefile para confirmar que la corrección fue exitosa.
Con la base de datos ya limpia exploramos la relación entre el precio y las variables más importantes o de interes para el caso. preciom”, “areaconst”, “estrato”, “banios”, “habitaciones”, “parqueaderos
## preciom areaconst banios habitaciones
## Min. : 110.0 Min. : 30.0 Min. : 0.000 Min. : 0.000
## 1st Qu.: 243.5 1st Qu.: 135.0 1st Qu.: 2.000 1st Qu.: 3.000
## Median : 375.0 Median : 233.0 Median : 3.000 Median : 4.000
## Mean : 421.1 Mean : 253.5 Mean : 3.498 Mean : 4.586
## 3rd Qu.: 530.0 3rd Qu.: 330.8 3rd Qu.: 4.000 3rd Qu.: 5.000
## Max. :1800.0 Max. :1440.0 Max. :10.000 Max. :10.000
##
## parqueaderos
## Min. : 1.00
## 1st Qu.: 1.00
## Median : 2.00
## Mean : 2.23
## 3rd Qu.: 3.00
## Max. :10.00
## NA's :174
| preciom | areaconst | banios | habitaciones | parqueaderos | |
|---|---|---|---|---|---|
| Min. : 89.0 | Min. : 30.0 | Min. : 0.000 | Min. : 0.000 | Min. : 1.000 | |
| 1st Qu.: 261.2 | 1st Qu.: 140.0 | 1st Qu.: 2.000 | 1st Qu.: 3.000 | 1st Qu.: 1.000 | |
| Median : 390.0 | Median : 240.0 | Median : 3.000 | Median : 4.000 | Median : 2.000 | |
| Mean : 445.9 | Mean : 264.9 | Mean : 3.555 | Mean : 4.507 | Mean : 2.182 | |
| 3rd Qu.: 550.0 | 3rd Qu.: 336.8 | 3rd Qu.: 4.000 | 3rd Qu.: 5.000 | 3rd Qu.: 3.000 | |
| Max. :1940.0 | Max. :1440.0 | Max. :10.000 | Max. :10.000 | Max. :10.000 | |
| NA | NA | NA | NA | NA’s :287 |
preciom) como el área construida
(areaconst) muestran una dispersión muy amplia. El precio
varía desde aproximadamente $89 millones hasta un máximo de $1,940
millones.Características Típicas de las Viviendas
Calidad de Datos
parqueaderos. Dependiendo del resumen, se
reportan entre 174 y 287 NA's.habitaciones y banios, lo
cual podría ser un error de digitación o representar propiedades
especiales (lotes o locales) que deberían ser revisadas.Aspectos a tratar antes de implementar el modelo
preciom) sugiere que una transformación (como el
logaritmo) podría ser necesaria para cumplir los supuestos del modelo de
regresión.parqueaderos es obligatorio. Se debe decidir una
estrategia, ya sea mediante imputación de datos (ej. reemplazar los
NA con la mediana) o la exclusión de la variable si no es
crítica para el modelo.| preciom | areaconst | estrato | banios | habitaciones | parqueaderos | |
|---|---|---|---|---|---|---|
| preciom | 1.000 | 0.659 | 0.549 | 0.518 | 0.321 | 0.433 |
| areaconst | 0.659 | 1.000 | 0.366 | 0.486 | 0.428 | 0.320 |
| estrato | 0.549 | 0.366 | 1.000 | 0.384 | 0.058 | 0.256 |
| banios | 0.518 | 0.486 | 0.384 | 1.000 | 0.581 | 0.405 |
| habitaciones | 0.321 | 0.428 | 0.058 | 0.581 | 1.000 | 0.243 |
| parqueaderos | 0.433 | 0.320 | 0.256 | 0.405 | 0.243 | 1.000 |
Correlación Fuerte: La variable con la asociación lineal más fuerte y positiva con el precio es el área construida (areaconst), con un coeficiente de correlación (r) de 0.659. Esto confirma que, como es de esperar, a mayor tamaño de la casa, mayor es su precio.
Correlación Moderada: El estrato (r = 0.549) y el número de baños (banios) (r = 0.518) también presentan una correlación positiva moderada y significativa. Esto indica que son predictores importantes.
Correlación Débil a Moderada: El número de parqueaderos (r = 0.433) y de habitaciones (r = 0.321) tienen una relación positiva, aunque menos intensa que las variables anteriores.
La matriz de correlación confirma que todas las variables seleccionadas son candidatas relevantes para incluir en el modelo de regresión, ya que todas muestran una relación positiva con el precio. Sin embargo, las correlaciones observadas entre areaconst, banios y habitaciones sugieren la necesidad de realizar un diagnóstico formal de multicolinealidad
Se observa una relación positiva entre área y precio, con diferencias notables entre estratos.
Mayor número de baños generalmente se asocia con precios más altos, especialmente en estratos superiores.
Antes de la estimación del modelo de regresión, es crucial realizar un preprocesamiento de los datos para asegurar su calidad y cumplir con los supuestos teóricos del modelo. Este proceso se centró en dos áreas clave: el manejo de datos faltantes e inconsistentes, y la transformación de la variable respuesta.
Imputación de Datos: El análisis descriptivo previo reveló una cantidad significativa de valores faltantes (NA) en la variable parqueaderos. Para evitar la pérdida de un gran número de observaciones, se optó por una estrategia de imputación, reemplazando los valores nulos con el promedio de los valores existentes. Esta técnica permite conservar la integridad del dataset.
Filtrado de Inconsistencias: Se identificaron y eliminaron registros de viviendas que no contaban con habitaciones ni baños (0 para ambas variables). Estas observaciones se consideran atípicas o erróneas para el mercado de casas y podrían distorsionar los resultados del modelo.
Dataset Final: Tras la imputación y el filtrado, el conjunto de datos final para el modelado quedó consolidado en 520 observaciones.
## Observaciones después del filtrado: 520
## Normalidad precio original p-valor: 0
## Normalidad log(precio) p-valor: 5.1e-05
## Variable de precio seleccionada: log_precio
El análisis exploratorio inicial demostró que la variable preciom tenía un fuerte sesgo positivo, lo cual puede violar los supuestos de normalidad y homocedasticidad en los residuos del modelo de regresión.
los histogramas comparativos son elocuentes. A la izquierda, el “Precio Original” muestra la concentración de datos en valores bajos y una larga cola hacia la derecha. A la derecha, el “Log(Precio)” revela cómo la transformación logarítmica ha corregido exitosamente esta asimetría, resultando en una distribución mucho más simétrica y similar a una campana de Gauss.
Basado en el EDA, se decide transformar la variable
preciom con logaritmo para corregir el sesgo y se convierte
estrato a factor.
## Observaciones disponibles para el modelo: 520
##
## Call:
## lm(formula = log_precio ~ areaconst + estrato + habitaciones +
## parqueaderos + banios, data = datos_modelo)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.42766 -0.17058 0.00009 0.15649 1.08168
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 4.1145910 0.0673826 61.063 < 2e-16 ***
## areaconst 0.0013539 0.0001035 13.077 < 2e-16 ***
## estrato 0.2446732 0.0160209 15.272 < 2e-16 ***
## habitaciones 0.0262304 0.0099337 2.641 0.00853 **
## parqueaderos 0.0293157 0.0110364 2.656 0.00815 **
## banios 0.0628187 0.0126450 4.968 9.23e-07 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.281 on 514 degrees of freedom
## Multiple R-squared: 0.7483, Adjusted R-squared: 0.7458
## F-statistic: 305.6 on 5 and 514 DF, p-value: < 2.2e-16
Como podemos ver en los resultados, el modelo de regresión parece bastante bueno para predecir el precio de las casas. El R-cuadrado ajustado es de 0.746, lo que significa que nuestro modelo explica casi el 75% del precio, lo cual es un ajuste excelente. Todas las variables que incluimos resultaron ser significativas. ### Interpretación de Coeficientes
| 2.5 % | 97.5 % | |
|---|---|---|
| (Intercept) | 3.9822117 | 4.2469702 |
| areaconst | 0.0011505 | 0.0015573 |
| estrato | 0.2131987 | 0.2761476 |
| habitaciones | 0.0067148 | 0.0457460 |
| parqueaderos | 0.0076337 | 0.0509977 |
| banios | 0.0379765 | 0.0876609 |
## === INTERPRETACIÓN DE COEFICIENTES ===
## MODELO LOGARÍTMICO:
## - ÁREA CONSTRUIDA: Por cada m² adicional, el precio aumenta 0.14 %
## - ESTRATO: Por cada nivel superior, el precio aumenta 27.72 %
## - HABITACIONES: Por cada habitación adicional, el precio cambia 2.66 %
## - BAÑOS: Por cada baño adicional, el precio aumenta 6.48 %
## - PARQUEADEROS: Por cada parqueadero adicional, el precio aumenta 2.97 %
## R²: 0.7483
## R² ajustado: 0.7458
## El modelo explica el 74.6 % de la variabilidad en el log del precio
## EVALUACIÓN: (R² > 0.7)
## === PRUEBAS DE VALIDACIÓN ===
## Normalidad (Shapiro-Wilk) p-valor: 0
## Homocedasticidad (Breusch-Pagan) p-valor: 0
## Autocorrelación (Durbin-Watson) p-valor: 0
## Factores de Inflación de Varianza (VIF):
## areaconst estrato habitaciones parqueaderos banios
## 1.82 1.55 1.86 1.16 2.15
Interpretación de Supuestos:
Este supuesto no se cumple.
Test de Shapiro-Wilk: El p-valor de 0 es menor que cualquier nivel de significancia (ej. 0.05), lo que nos lleva a rechazar la hipótesis nula de que los residuos se distribuyen normalmente.
Gráfico Q-Q : Se observa que los puntos se desvían considerablemente de la línea diagonal, especialmente en los extremos (colas de la distribución). Esto confirma visualmente que los residuos no siguen una distribución normal. Los puntos 440 y 90 en la cola inferior y el 2020 en la superior son ejemplos claros de esta desviación.
Test de Breusch-Pagan: El p-valor de 0 indica que se rechaza la hipótesis nula de homocedasticidad. Por lo tanto, existe heterocedasticidad, lo que significa que la varianza de los errores no es constante a lo largo de los valores ajustados.
Gráfico de Residuos vs Ajustados (Residuals vs Fitted): La línea roja no es completamente horizontal y la dispersión de los puntos parece aumentar a medida que los valores ajustados crecen. Esto sugiere un patrón en los residuos.
Gráfico de Scale-Location: Este gráfico es aún más claro. La línea roja muestra una tendencia ascendente, confirmando que la varianza de los residuos aumenta con los valores ajustados, un signo claro de heterocedasticidad.
Este supuesto no se cumple.
Test de Durbin-Watson: Un p-valor de 0 indica que los residuos están autocorrelacionados.
Este supuesto sí se cumple.
Factores de Inflación de Varianza (VIF): Todos los valores VIF son bajos (el más alto es 2.15 para banios). Como regla general, valores VIF por debajo de 5 o 10 se consideran aceptables. Esto significa que las variables predictoras no están fuertemente correlacionadas entre sí, lo cual es bueno para el modelo.
Gráfico de Residuos vs Apalancamiento: Este gráfico nos ayuda a identificar puntos que pueden tener una influencia desproporcionada en el modelo.
Punto 440: Es el caso más preocupante. Tiene un apalancamiento alto y un residuo estandarizado muy negativo. Su distancia de Cook es grande (superior a 1), lo que lo convierte en un punto altamente influyente.
Puntos 90, 2020 y 105: Tienen residuos estandarizados grandes, lo que los identifica como posibles valores atípicos (outliers), aunque su influencia individual en el modelo no es tan alta como la del punto 440.
El modelo actual no es adecuado para realizar inferencias o predicciones fiables debido al incumplimiento de supuestos fundamentales. Se recomienda tomar las siguientes acciones:
Analizar la observación 440 para entender por qué es tan diferente. Podría ser un error de entrada de datos o un caso genuinamente excepcional. Aplicar transformaciones (diferentes a la logarítmica) a la variable dependiente y/o a las independientes para corregir la heterocedasticidad y la falta de normalidad.
Utilizar Métodos Alternativos: Considerar el uso de regresión robustao modelos de mínimos cuadrados ponderados (WLS) para abordar la heterocedasticidad.
## === PREDICCIONES DEL MODELO ===
## Para una casa de 200m², 4 hab, 2 baños, 1 parqueadero:
## Precio estimado (Estrato 4): $ 277 millones
## Intervalo de confianza 95%: [$ 159.2 - $ 481.8 ]
## Precio estimado (Estrato 5): $ 353.8 millones
## Intervalo de confianza 95%: [$ 203.1 - $ 616.3 ]
##
## === ANÁLISIS DE VIABILIDAD Financiera para el caso 1 ===
## Precio estimado promedio: $ 315.4 millones
## Presupuesto del cliente: $ 350 millones
## Déficit estimado: $ 34.6 millones
## RECOMENDACIÓN: El presupuesto es ajustado en estrato 5. Las ofertas reales por debajo de $350M probablemente tendrán un área menor a 200m² o estarán en estrato 4. Se sugiere priorizar estrato 4 si el area de la vivienda es importante
## === BÚSQUEDA DE OFERTAS POTENCIALES ===
## Criterios de filtrado:
## - Precio ≤ $350 millones
## - Estrato 4 o 5
## - Mínimo 2 habitaciones y 2 baños
## - Mínimo 1 parqueadero
## - Área mínima 150 m²
## Ofertas encontradas: 10
##
## === RESUMEN DE OFERTAS ENCONTRADAS ===
## Precio promedio: $ 319.1 millones
## Área promedio: 278 m²
## Valor promedio por m²: $ 1.16
## Distribución por estrato:
##
## 4 5
## 1 9
##
## === VALIDACIÓN DEL MODELO CON OFERTAS REALES ===
## Precio predicho por el modelo: $ 315.37 millones
## Precio promedio ofertas reales: $ 319.1 millones
## Diferencia absoluta: $ 3.73 millones
## Error relativo: 1.2 %
Para complementar el modelo predictivo y facilitar una recomendación fundamentada en datos, se incorporó al análisis una métrica denominada Índice Calidad-Precio (indice_cp). Este índice compuesto se calcula como el producto de los atributos d el estrato socioeconómico y el areaconst— normalizado por el preciom del inmueble. La ratio resultante funciona como una variable. Por lo tanto, la función principal de este índice en el estudio es la de proveer un criterio de ordenamiento cuantitativo, permitiendo la priorización objetiva de las ofertas inmobiliarias viables y transformando el listado filtrado en una jerarquía de recomendaciones estratégicas basadas en el valor óptimo.
## === MEJORES 5 OFERTAS ENCONTRADAS ===
| Barrio | Precio (M$) | Área (m²) | Estrato | Baños | Hab. | Índice C/P |
|---|---|---|---|---|---|---|
| san vicente | 340 | 355 | 5 | 5 | 8 | 5.220588 |
| vipasa | 350 | 346 | 5 | 2 | 4 | 4.942857 |
| el bosque | 250 | 243 | 5 | 4 | 5 | 4.860000 |
| la merced | 230 | 250 | 4 | 3 | 5 | 4.347826 |
| el bosque | 350 | 300 | 5 | 5 | 6 | 4.285714 |
Para este segundo caso, se busca una propiedad con las siguientes características:
Se repite el proceso de limpieza, esta vez enfocado en los apartamentos de la Zona Sur, mismos pasos que en el caso 1, correccion espacial con shapefile de la zona sur, imputacion de datos faltantes y eliminación de datos incosistentes en este caso habitaciones y baños 0
## Se encontraron 2787 registros iniciales de apartamentos en Zona Sur.
## Después del filtro espacial, quedaron 1944 registros válidos.
## Después de la limpieza final, el dataset para análisis tiene 1939 observaciones.
A continuación se muestra el mapa con las propiedades y su distribución espacial
| preciom | areaconst | banios | habitaciones | parqueaderos | piso | |
|---|---|---|---|---|---|---|
| Min. : 85.0 | Min. : 40.00 | Min. :1.000 | Min. :1.000 | Min. :1.000 | Min. : 1.000 | |
| 1st Qu.: 195.0 | 1st Qu.: 68.00 | 1st Qu.:2.000 | 1st Qu.:3.000 | 1st Qu.:1.000 | 1st Qu.: 3.000 | |
| Median : 260.0 | Median : 87.00 | Median :2.000 | Median :3.000 | Median :1.000 | Median : 4.000 | |
| Mean : 316.9 | Mean : 99.37 | Mean :2.569 | Mean :2.973 | Mean :1.388 | Mean : 4.466 | |
| 3rd Qu.: 350.0 | 3rd Qu.:110.00 | 3rd Qu.:3.000 | 3rd Qu.:3.000 | 3rd Qu.:2.000 | 3rd Qu.: 5.000 | |
| Max. :1750.0 | Max. :932.00 | Max. :7.000 | Max. :6.000 | Max. :4.000 | Max. :12.000 |
Un apartamento promedio en esta zona de la ciudad tiene un precio mediano de $260 millones y un área de 87 m². Generalmente, cuenta con 3 habitaciones, 2 baños, 1 parqueadero.
El precio promedio es notablemente más alto ($316.9 millones), lo que indica que la distribución está sesgada por la presencia de propiedades mucho más costosas y grandes en el mercado. El rango de precios es muy amplio, yendo desde $85 millones hasta $1,750 millones, lo que confirma la existencia de un diverso segmento de apartamentos que incluye opciones de lujo.
El histograma muestra claramente que la distribución de los precios no es simétrica. La mayoría de las propiedades se concentran en el rango de precios más bajo, con una “cola” larga que se extiende hacia la derecha, indicando la presencia de apartamentos con precios mucho más altos que el promedio.
El boxplot confirma esta observación al mostrar múltiples puntos por encima del “bigote” superior. Estos puntos son valores atípicos (outliers) que representan las propiedades de lujo que sesgan la distribución.
El área construida (areaconst) tiene, por un amplio margen, la correlación positiva más fuerte con el precio. A esta le siguen, con una correlación moderada, el número de baños y de parqueaderos.El número de habitaciones tiene una relación positiva pero más débil con el precio. Sorprendentemente, el piso en el que se encuentra el apartamento muestra una correlación casi nula, lo que sugiere que no es un factor lineal determinante en el precio para este conjunto de datos.
El gráfico de dispersión confirma una fuerte relación lineal positiva entre el área construida y el precio. Sin embargo, el hallazgo más dominante es el claro efecto de estratificación: para cualquier área dada, los apartamentos de estrato 6 se ubican en un rango de precios consistentemente superior a los de estrato 5, y así sucesivamente
El número de baños muestra una relación monotónica y fuerte con el precio; a más baños, el precio mediano aumenta consistentemente. En contraste, el efecto del número de habitaciones parece estabilizarse o aplanarse después de las 4 habitaciones, sugiriendo que a partir de ese punto, el área total (areaconst) es un factor más importante que el número de divisiones.
##
## Call:
## lm(formula = log_precio ~ areaconst + estrato + habitaciones +
## parqueaderos + banios, data = datos_modelo_caso2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.86453 -0.14897 0.00498 0.15354 0.98610
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 4.3154787 0.0406115 106.262 < 2e-16 ***
## areaconst 0.0023199 0.0001369 16.945 < 2e-16 ***
## estrato4 0.2497512 0.0315144 7.925 3.82e-15 ***
## estrato5 0.4558351 0.0318242 14.324 < 2e-16 ***
## estrato6 0.7494131 0.0358146 20.925 < 2e-16 ***
## habitaciones 0.0388662 0.0103374 3.760 0.000175 ***
## parqueaderos 0.1623468 0.0116640 13.919 < 2e-16 ***
## banios 0.1175118 0.0089645 13.109 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.221 on 1931 degrees of freedom
## Multiple R-squared: 0.8096, Adjusted R-squared: 0.8089
## F-statistic: 1173 on 7 and 1931 DF, p-value: < 2.2e-16
##
## --- Pruebas de Supuestos ---
## Normalidad (Shapiro-Wilk) p-valor: 0
## Homocedasticidad (Breusch-Pagan) p-valor: 0
##
## --- Diagnóstico de Multicolinealidad ---
| areaconst | estrato | habitaciones | parqueaderos | banios | |
|---|---|---|---|---|---|
| GVIF | 2.113431 | 1.977896 | 1.447724 | 2.101668 | 2.770653 |
| Df | 1.000000 | 3.000000 | 1.000000 | 1.000000 | 1.000000 |
| GVIF^(1/(2*Df)) | 1.453764 | 1.120385 | 1.203214 | 1.449713 | 1.664528 |
-La prueba F-statistic arroja un p-valor (< 2.2e-16) prácticamente nulo, lo que permite rechazar la hipótesis nula de que todos los coeficientes del modelo son iguales a cero. Esto confirma que el modelo en su conjunto es estadísticamente significativo y útil para la predicción.
Variables Continuas:
areaconst (β = 0.0023): Por cada metro cuadrado adicional, el precio se incrementa en aproximadamente 0.23%.
Variables Discretas:
parqueaderos (β = 0.1615): Un parqueadero adicional se asocia a un incremento del 16.2% en el precio, siendo uno de los predictores con mayor impacto marginal.
banios (β = 0.1159): Un baño adicional se relaciona con un aumento del 11.6% en el precio.
habitaciones (β = 0.0401): Una habitación adicional incrementa el precio en un 4.0%.
Variable Categórica (estrato): El estrato fue correctamente modelado como una variable categórica, con el estrato 3 sirviendo como nivel de referencia. Los coeficientes para los demás estratos representan el cambio porcentual en el precio en comparación con este nivel base.
estrato4 (β = 0.1060): Pertenecer al estrato 4 en lugar del 3 incrementa el precio en un 10.6%.
estrato5 (β = 0.4326): El cambio a estrato 5 representa un aumento del 43.3%.
estrato6 (β = 0.7505): El cambio a estrato 6 se asocia con un aumento del 75.1%.
(Q-Q Plot): El gráfico cuantil-cuantil muestra que los residuos se alinean estrechamente con la diagonal teórica, sugiriendo una distribución aproximadamente normal.
Prueba de Shapiro-Wilk: La prueba formal arroja un p-valor de 0, rechazando la hipótesis nula de normalidad. Esta discrepancia es común en muestras grandes (n=1930), donde las pruebas formales son excesivamente sensibles a desviaciones mínimas. Dado el Teorema del Límite Central y la robustez visual del Q-Q plot, la no normalidad no se considera una amenaza crítica para la inferencia del modelo.
(Residuals vs. Fitted y Scale-Location): Los gráficos de residuos no muestran patrones claros (ej. forma de embudo) y la línea de tendencia en el gráfico Scale-Location es relativamente horizontal. Visualmente, sugieren que la varianza de los residuos es constante.
Prueba de Breusch-Pagan: La prueba formal arroja un p-valor de 0, rechazando la hipótesis nula de homocedasticidad. Esto indica la presencia de heteroscedasticidad significativa. A pesar de la evidencia visual sutil, la prueba estadística confirma que la varianza del error no es constante a través de los niveles de las predicciones.
El diagnóstico de supuestos revela un punto crítico: la presencia de heteroscedasticidad, confirmada por la prueba de Breusch-Pagan. Aunque el modelo es insesgado, la heteroscedasticidad invalida los errores estándar calculados por Mínimos Cuadrados Ordinarios (MCO), afectando la fiabilidad de las pruebas t y los intervalos de confianza de los coeficientes.
Para asegurar la validez inferencial del modelo, es imperativo corregir el efecto de la heteroscedasticidad. La acción recomendada es recalcular el modelo utilizando errores estándar robustos (consistentes con heteroscedasticidad), como los estimadores de White. Esto ajustará los p-valores y los intervalos de confianza sin alterar los coeficientes, permitiendo realizar inferencias fiables sobre el impacto de cada predictor. ## Predicción y Búsqueda de Ofertas
## ### Predicciones del Modelo
## El precio estimado para un apartamento de 300m² en **Estrato 5** es de **$666 millones**.
## El precio estimado para un apartamento de 300m² en **Estrato 6** es de **$893 millones**.
## ### Análisis de Viabilidad
## El precio promedio estimado es de **$666 millones**.
## El presupuesto del cliente es de **$850 millones**.
## El presupuesto del cliente es **suficiente y adecuado** para adquirir una propiedad que cumple con las características deseadas en la Zona Sur de la ciudad. Hay un buen margen para la negociación y la selección.
Ofertas encontradas: 5
=== RESUMEN DE OFERTAS ENCONTRADAS === Precio promedio: $ 478 millones Área promedio: 373 m² Valor promedio por m²: $ 1.31