1 Contexto

María, propietaria de la agencia inmobiliaria C&A, recibió una solicitud para asesorar la compra de dos viviendas para empleados de una empresa internacional en la ciudad.

Características Vivienda 1 Vivienda 2
Tipo Casa Apartamento
Área construida 200 300
Parqueaderos 1 3
Baños 2 3
Habitaciones 4 5
Estrato 4 o 5 5 o 6
Zona Norte Sur
Crédito preaprobado 350 millones 850 millones

Para apoyar la decisión se realiza un análisis de datos utilizando la base vivienda del paquete paqueteMODELOS, aplicando técnicas de:

  • Análisis exploratorio
  • Regresión lineal múltiple
  • Validación de supuestos
  • Predicción de precios

El objetivo es estimar el valor de las viviendas y recomendar ofertas que se ajusten al presupuesto disponible.

# Librerías
library(paqueteMODELOS)
library(dplyr)
library(ggplot2)
library(plotly)
library(leaflet)
library(car)
library(lmtest)

data("vivienda")

A continuación se presenta el informe del estudio realizado para las opciones de vivienda requeridas, se cuenta con los datos de los tres últimos meses, considerando las siguientes variables del dataset:

Variable Descripción
zona Ubicación de la vivienda: Zona Centro, Zona Norte, etc.
piso Piso que ocupa la vivienda: primer piso, segundo piso, etc.
estrato Estrato socioeconómico: 3, 4, 5, 6
preciom Precio de la vivienda en millones de pesos
areaconst Área construida
parqueaderos Número de parqueaderos
banios Número de baños
habitaciones Número de habitaciones
tipo Tipo de vivienda: Casa o Apartamento
barrio Barrio de ubicación de la vivienda: 20 de Julio, Álamos, etc.
longitud Coordenada geográfica
latitud Coordenada geográfica

Inicialmente se evidencia el tipo de vivienda según zona de la base de datos, esto se realiza con el fin de verificar más adelante los datos cuando se filtre según la zona de las viviendas de interés.

library(knitr)

tabla_tipo_zona <- table(vivienda$tipo, vivienda$zona)

kable(tabla_tipo_zona, caption = "Tipo de vivienda según zona")
Tipo de vivienda según zona
Zona Centro Zona Norte Zona Oeste Zona Oriente Zona Sur
Apartamento 24 1198 1029 62 2787
Casa 100 722 169 289 1939

La tabla de contingencia muestra que la distribución del tipo de vivienda varía significativamente entre las diferentes zonas de la ciudad. Se observa que los apartamentos predominan en las zonas Norte, Oeste y Sur, mientras que las casas tienen mayor presencia relativa en zonas como Centro y Oriente.

Este patrón puede reflejar características urbanísticas de cada sector. Las zonas con mayor presencia de apartamentos suelen corresponder a áreas más densamente urbanizadas, donde predominan proyectos de vivienda vertical. Por el contrario, las zonas con mayor proporción de casas pueden estar asociadas a desarrollos residenciales de menor densidad o urbanizaciones más tradicionales.

Este análisis inicial permite comprender la estructura del mercado inmobiliario de la ciudad y es útil para justificar los filtros aplicados posteriormente en el análisis, especialmente cuando se seleccionan viviendas por zona y tipo.

2 Análisis vivienda 1 (V1)

En este apartado se presenta el paso a paso requerido para el estudio solicitado en el caso de la primera vivienda.

2.1 Filtro inicial y depuración V1

Se eliminan valores faltantes y se filtran únicamente casas ubicadas en la zona norte.

vivienda <- vivienda %>%
  mutate(
    preciom = as.numeric(preciom),
    areaconst = as.numeric(areaconst),
    estrato = as.numeric(estrato),
    banios = as.numeric(banios),
    habitaciones = as.numeric(habitaciones),
    parqueaderos = as.numeric(parqueaderos),
    latitud = as.numeric(latitud),
    longitud = as.numeric(longitud)
  ) %>%
  filter(!is.na(preciom))

#Se filtran casas ubicadas en la zona norte.
base1 <- vivienda %>%
  filter(grepl("Casa", tipo),
         grepl("Norte", zona))

# primeros registros
head(base1,3)
## # A tibble: 3 × 13
##      id zona    piso  estrato preciom areaconst parqueaderos banios habitaciones
##   <dbl> <chr>   <chr>   <dbl>   <dbl>     <dbl>        <dbl>  <dbl>        <dbl>
## 1  1209 Zona N… 02          5     320       150            2      4            6
## 2  1592 Zona N… 02          5     780       380            2      3            3
## 3  4057 Zona N… 02          6     750       445           NA      7            6
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>

2.1.1 Tablas de verificación V1

Se verifica el filtro de la información realizado anteriormente.

# tabla por zona
table(base1$zona)
## 
## Zona Norte 
##        722
# tabla por tipo
table(base1$tipo)
## 
## Casa 
##  722
# resumen estadístico
summary(base1$preciom)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    89.0   261.2   390.0   445.9   550.0  1940.0

El resumen estadístico del precio de las viviendas muestra una amplia variabilidad en el mercado inmobiliario de la zona norte. El precio mínimo registrado es de aproximadamente 89 millones, mientras que el máximo alcanza 1940 millones, lo que evidencia una alta dispersión entre las propiedades disponibles.

La media (445 millones) es mayor que la mediana (390 millones), lo que sugiere la presencia de viviendas de alto valor que elevan el promedio, indicando una posible asimetría positiva en la distribución de precios. Esto es común en mercados inmobiliarios donde existen propiedades de lujo que incrementan significativamente el valor promedio del conjunto de datos.

2.1.2 Mapa de las viviendas 1

base1_map <- base1 %>%
  filter(!is.na(latitud), !is.na(longitud))

leaflet(base1) %>%
  addTiles() %>%
  addCircleMarkers(
    lng = ~longitud,
    lat = ~latitud,
    radius = 4,
    popup = ~paste(
      "Precio:", preciom,
      "<br>Área:", areaconst,
      "<br>Estrato:", estrato
    )
  )

La representación cartográfica de las ofertas inmobiliarias permitió complementar el análisis estadístico mediante una perspectiva espacial del mercado de vivienda. A partir del mapa generado se observa que la mayoría de los inmuebles filtrados presentan una concentración espacial en la zona norte de la ciudad, lo cual sugiere que el proceso de depuración y filtrado de la base de datos fue realizado de manera adecuada. Esta concentración es coherente con la dinámica del mercado inmobiliario, donde determinadas zonas presentan mayor densidad de oferta debido a factores como desarrollo urbano, infraestructura, acceso a servicios y niveles socioeconómicos más altos.

No obstante, en la visualización también pueden identificarse algunos puntos ubicados en sectores cercanos a los límites de la zona definida o ligeramente fuera de ella. Este fenómeno puede explicarse por diferentes factores relacionados con la calidad de los datos espaciales. En primer lugar, la clasificación de las zonas dentro de las bases inmobiliarias suele responder a criterios comerciales o administrativos, los cuales no siempre coinciden exactamente con los límites geográficos reales de la ciudad. En segundo lugar, pueden existir errores de geocodificación o imprecisiones en las coordenadas geográficas, lo cual genera desplazamientos leves en la ubicación de algunos registros dentro del mapa.

Adicionalmente, la presencia de observaciones en zonas limítrofes puede reflejar la existencia de efectos de transición espacial, donde barrios cercanos a los límites entre zonas comparten características similares en términos de precios, estrato socioeconómico y tipología de vivienda. En este sentido, la delimitación de zonas dentro del mercado inmobiliario no siempre es estrictamente geográfica, sino que también responde a percepciones del mercado y dinámicas urbanas.

2.2 Análisis exploratorio de datos V1

Se analiza la relación entre el precio y las variables explicativas, como se evidencia a continuación, el análisis exploratorio sugiere que varias características estructurales de las viviendas están asociadas con el precio del inmueble. En particular, el área construida presenta una relación positiva clara con el precio, lo cual es consistente con la teoría del mercado inmobiliario: viviendas con mayor superficie construida suelen ofrecer mayor funcionalidad y confort, lo que incrementa su valor comercial.

Así mismo, el estrato socioeconómico muestra una asociación positiva con el precio, lo que refleja diferencias en la calidad del entorno urbano, acceso a servicios, infraestructura y percepción de seguridad entre las distintas zonas socioeconómicas.

Variables como número de baños, habitaciones y parqueaderos también presentan tendencias positivas, ya que estas características incrementan la comodidad y funcionalidad de la vivienda, aumentando su atractivo en el mercado.

vars <- base1 %>%
  select(preciom, areaconst, estrato, banios, habitaciones, parqueaderos) %>%
  na.omit()

cor(vars)
##                preciom areaconst    estrato    banios habitaciones parqueaderos
## preciom      1.0000000 0.6853915 0.52827831 0.5086427   0.36508586    0.4116620
## areaconst    0.6853915 1.0000000 0.35352525 0.4574766   0.42068968    0.3069709
## estrato      0.5282783 0.3535252 1.00000000 0.3512569   0.05819709    0.2612647
## banios       0.5086427 0.4574766 0.35125685 1.0000000   0.59038214    0.3918638
## habitaciones 0.3650859 0.4206897 0.05819709 0.5903821   1.00000000    0.2413962
## parqueaderos 0.4116620 0.3069709 0.26126471 0.3918638   0.24139617    1.0000000

2.2.1 Matriz de correlación interactiva V1

plot_ly(
  z = cor(vars),
  x = colnames(vars),
  y = colnames(vars),
  type = "heatmap"
)

La matriz de correlación permite analizar la relación lineal entre el precio de la vivienda y las variables explicativas consideradas en el estudio: área construida, estrato socioeconómico, número de baños, número de habitaciones y número de parqueaderos.

En primer lugar, se observa que el área construida presenta la correlación más alta con el precio de la vivienda (0.685). Esto indica que existe una relación positiva relativamente fuerte entre el tamaño del inmueble y su valor de mercado, lo cual es consistente con la lógica del mercado inmobiliario: viviendas con mayor área construida suelen ofrecer más espacio y funcionalidad, lo que incrementa su precio.

El estrato socioeconómico también presenta una correlación positiva moderada con el precio (0.528). Este resultado sugiere que las viviendas ubicadas en estratos socioeconómicos más altos tienden a tener valores más elevados, lo cual puede explicarse por factores asociados a la ubicación, calidad del entorno urbano, acceso a servicios y percepción de seguridad.

De manera similar, el número de baños muestra una correlación positiva moderada con el precio (0.509). Esto indica que las viviendas con mayor número de baños suelen tener precios más altos, ya que este atributo se asocia con mayor comodidad y funcionalidad dentro del inmueble.

El número de parqueaderos presenta una correlación positiva moderada con el precio (0.412), lo que refleja la importancia del espacio de estacionamiento en contextos urbanos, donde la disponibilidad de parqueaderos puede aumentar significativamente el valor de la propiedad.

Por su parte, el número de habitaciones presenta una correlación positiva más baja con el precio (0.365). Esto sugiere que, aunque existe cierta relación entre ambas variables, el número de habitaciones por sí solo no explica gran parte de la variación en el precio. Es posible que esta variable esté parcialmente asociada al área construida, lo que reduce su efecto individual.

Adicionalmente, la matriz de correlación muestra relaciones entre las variables explicativas. Por ejemplo, el número de baños y habitaciones presenta una correlación relativamente alta (0.590), lo cual es lógico ya que viviendas con más habitaciones suelen requerir más baños. Así mismo, el área construida presenta correlaciones moderadas con variables como baños (0.457) y habitaciones (0.421), lo que refleja que viviendas más grandes tienden a tener mayor cantidad de espacios.

En conjunto, estos resultados sugieren que las variables incluidas tienen relaciones coherentes con el precio de la vivienda y proporcionan evidencia preliminar que justifica la utilización de un modelo de regresión lineal múltiple para analizar de manera conjunta el efecto de estas características sobre el valor del inmueble.

2.2.2 Gráficos de relación entre variables V1

# 1
p1 <- ggplot(base1, aes(areaconst, preciom)) +
  geom_point() +
  geom_smooth(method="lm") +
  labs(title="Precio vs Área Construida")

# 2
p2 <- ggplot(base1, aes(estrato, preciom)) +
  geom_point() +
  geom_smooth(method="lm") +
  labs(title="Precio vs Estrato")

# 3
p3 <- ggplot(base1, aes(banios, preciom)) +
  geom_point() +
  geom_smooth(method="lm") +
  labs(title="Precio vs Número de Baños")

# 4
p4 <- ggplot(base1, aes(habitaciones, preciom)) +
  geom_point() +
  geom_smooth(method="lm") +
  labs(title="Precio vs Número de Habitaciones")

# 5
p5 <- ggplot(base1, aes(parqueaderos, preciom)) +
  geom_point() +
  geom_smooth(method="lm") +
  labs(title="Precio vs Número de Parqueaderos")

# 6
p6 <- ggplot(base1, aes(zona, preciom)) +
  geom_point() +
  geom_smooth(method="lm") +
  labs(title="Precio vs Zona")

# Convertir a plotly
g1 <- ggplotly(p1)
g2 <- ggplotly(p2)
g3 <- ggplotly(p3)
g4 <- ggplotly(p4)
g5 <- ggplotly(p5)
g6 <- ggplotly(p6)

# Organización 3 filas x 2 columnas
subplot(g1, g2,
        g3, g4,
        g5, g6,
        nrows = 3,
        margin = 0.05)

Los gráficos muestran una relación positiva entre el precio de la vivienda y variables como el área construida, el estrato y el número de baños. Esto sugiere que estas variables influyen en el valor del inmueble. Interpretación del análisis exploratorio

Los resultados muestran que:

  • El área construida presenta una relación positiva con el precio, lo cual es consistente con la teoría económica del mercado inmobiliario.
  • Las viviendas de estratos más altos tienden a ser más costosas.
  • El número de baños, habitaciones y parqueaderos también influye positivamente en el precio.

Estas relaciones justifican el uso de un modelo de regresión lineal múltiple.

2.2.3 Conclusión del EDA V1

El análisis exploratorio permitió identificar relaciones importantes entre el precio de las viviendas y sus características estructurales. En particular, se observó una relación positiva entre el área construida y el precio del inmueble, lo cual indica que viviendas con mayor tamaño tienden a presentar precios más elevados. De manera similar, el estrato socioeconómico muestra una asociación positiva con el precio, evidenciando que propiedades ubicadas en estratos más altos tienen valores de mercado superiores.

Adicionalmente, variables como el número de baños y parqueaderos también presentan una relación positiva con el precio de la vivienda, mientras que el número de habitaciones no siempre muestra un comportamiento lineal claro, posiblemente debido a la interacción con otras variables como el tamaño del inmueble o su distribución interna.

2.3 Estimación del modelo de regresión V1

modelo <- lm(preciom ~ areaconst + estrato + habitaciones + parqueaderos + banios,
             data = base1)

summary(modelo)
## 
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos + 
##     banios, data = base1)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -784.29  -77.56  -16.03   47.67  978.61 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -238.17090   44.40551  -5.364 1.34e-07 ***
## areaconst       0.67673    0.05281  12.814  < 2e-16 ***
## estrato        80.63495    9.82632   8.206 2.70e-15 ***
## habitaciones    7.64511    5.65873   1.351    0.177    
## parqueaderos   24.00598    5.86889   4.090 5.14e-05 ***
## banios         18.89938    7.48800   2.524    0.012 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 155.1 on 429 degrees of freedom
##   (287 observations deleted due to missingness)
## Multiple R-squared:  0.6041, Adjusted R-squared:  0.5995 
## F-statistic: 130.9 on 5 and 429 DF,  p-value: < 2.2e-16
coef(modelo)
##  (Intercept)    areaconst      estrato habitaciones parqueaderos       banios 
## -238.1708979    0.6767346   80.6349477    7.6451100   24.0059798   18.8993776

El modelo de regresión lineal múltiple estimado permite analizar cómo diferentes características estructurales y socioeconómicas de las viviendas influyen en su precio de mercado. La ecuación estimada del modelo es:

Precio = -238.17 + 0.68 Área + 80.63 Estrato + 7.65 Habitaciones + 24.01 Parqueaderos + 18.90 Baños

Este modelo cuantifica el efecto de cada variable explicativa sobre el precio de la vivienda manteniendo constantes las demás variables incluidas en el modelo. En primer lugar, el área construida presenta un coeficiente positivo de 0.68, lo que indica que, manteniendo constantes las demás variables, cada metro cuadrado adicional incrementa el precio de la vivienda en aproximadamente 0.68 millones de pesos. Este resultado confirma que el tamaño del inmueble es un factor determinante en la formación del precio en el mercado inmobiliario. El estrato socioeconómico presenta un coeficiente positivo de 80.63, lo que implica que un incremento de un nivel en el estrato se asocia con un aumento promedio de aproximadamente 80.6 millones de pesos en el precio de la vivienda. Este resultado evidencia la fuerte influencia que tiene la ubicación y el contexto socioeconómico del entorno sobre la valoración de los inmuebles.

El número de parqueaderos también muestra un efecto positivo significativo, con un coeficiente de 24.01, indicando que cada parqueadero adicional incrementa el precio de la vivienda en aproximadamente 24 millones de pesos. Este resultado refleja la importancia del espacio de estacionamiento en zonas urbanas, donde la disponibilidad de parqueaderos puede aumentar considerablemente el valor del inmueble. De igual forma, el número de baños presenta un coeficiente positivo de 18.90, lo que sugiere que cada baño adicional incrementa el precio de la vivienda en cerca de 18.9 millones de pesos. Este resultado está asociado con el mayor nivel de comodidad y funcionalidad que ofrecen las viviendas con más baños.

Por su parte, el número de habitaciones presenta un coeficiente positivo de 7.65, lo cual indicaría que, en promedio, cada habitación adicional incrementaría el precio en aproximadamente 7.6 millones de pesos. Sin embargo, el valor p asociado a esta variable (p = 0.177) indica que no es estadísticamente significativa al nivel del 5%, lo que sugiere que su efecto sobre el precio no es suficientemente fuerte cuando se controla por las demás variables del modelo. Esto puede explicarse porque el número de habitaciones suele estar relacionado con el área construida, lo que reduce su capacidad explicativa independiente.

En términos de significancia estadística global, el modelo presenta un estadístico F de 130.9 con un valor p menor a 2.2e-16, lo que indica que el conjunto de variables explicativas tiene un efecto significativo sobre el precio de la vivienda.

En cuanto a la capacidad explicativa del modelo, el coeficiente de determinación (R² = 0.604) indica que aproximadamente el 60.4% de la variabilidad del precio de las viviendas es explicada por las variables incluidas en el modelo. El R² ajustado (0.5995) muestra un valor muy similar, lo cual sugiere que las variables incluidas aportan información relevante para explicar el comportamiento del precio.

Por otro lado, el error estándar residual del modelo es de aproximadamente 155 millones de pesos, lo que indica que las predicciones del modelo pueden desviarse en promedio alrededor de esta magnitud respecto al precio real observado. Este nivel de error refleja la variabilidad inherente al mercado inmobiliario, donde existen múltiples factores no observados que también influyen en el valor de las viviendas, como la ubicación específica dentro del barrio, la antigüedad del inmueble, la calidad de los acabados o la cercanía a servicios y equipamientos urbanos.

Finalmente, es importante mencionar que 287 observaciones fueron eliminadas debido a valores faltantes, lo que redujo el tamaño efectivo de la muestra utilizada en la estimación. Esto puede afectar parcialmente la capacidad explicativa del modelo y sugiere la importancia de revisar la calidad y completitud de los datos en análisis posteriores. En conjunto, los resultados muestran que el área construida, el estrato socioeconómico, el número de parqueaderos y el número de baños son variables relevantes para explicar el precio de las viviendas, mientras que el número de habitaciones no presenta un efecto estadísticamente significativo cuando se consideran simultáneamente las demás características del inmueble.

2.4 Validación de supuestos V1

2.4.1 Gráficos diagnósticos V1

par(mfrow=c(2,2))
plot(modelo)

Los gráficos de diagnóstico permiten evaluar si el modelo de regresión cumple con los supuestos básicos. En el gráfico Residuals vs Fitted los residuos se distribuyen alrededor de cero, aunque se observa una ligera dispersión mayor para valores ajustados altos, lo que sugiere cierta heterocedasticidad.

En el gráfico Q-Q Residuals la mayoría de los puntos sigue la línea teórica, pero existen desviaciones en los extremos, lo que indica que los residuos no son perfectamente normales y que pueden existir algunos valores atípicos.

El gráfico Scale-Location muestra una tendencia ascendente en la línea roja, lo que confirma que la variabilidad de los residuos aumenta con los valores ajustados, evidenciando nuevamente varianza no constante.

Finalmente, el gráfico Residuals vs Leverage muestra que la mayoría de las observaciones tiene un leverage bajo, aunque algunos puntos (como 632, 513 y 186) presentan mayor influencia potencial según la distancia de Cook. En conjunto, el modelo presenta un comportamiento general adecuado, pero existen indicios de heterocedasticidad y algunas observaciones influyentes, lo cual es relativamente común en datos de precios de vivienda.

2.4.2 Normalidad de residuos V1

shapiro.test(residuals(modelo))
## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(modelo)
## W = 0.85246, p-value < 2.2e-16

La prueba de Shapiro-Wilk indica que los residuos del modelo no siguen una distribución normal (p-value < 0.05). Esto sugiere la presencia de desviaciones respecto al supuesto de normalidad.

No obstante, dado que el tamaño de la muestra es relativamente grande, pequeñas desviaciones de la normalidad no necesariamente afectan de manera significativa la validez de las estimaciones del modelo. En estos casos, el estimador de mínimos cuadrados sigue siendo consistente. Para mejorar este aspecto podrían aplicarse alternativas como: transformación logarítmica del precio, eliminación de valores atípicos, uso de modelos robustos.

2.4.3 Homocedasticidad V1

bptest(modelo)
## 
##  studentized Breusch-Pagan test
## 
## data:  modelo
## BP = 80.281, df = 5, p-value = 7.33e-16

La prueba de Breusch-Pagan detecta heterocedasticidad en el modelo, lo cual indica que la varianza de los errores no es constante a lo largo de los valores predichos. Este fenómeno es común en modelos de precios inmobiliarios, donde las viviendas de mayor valor suelen presentar mayor variabilidad en los errores. Para corregir este problema se pueden aplicar diferentes estrategias: estimación con errores estándar robustos, transformación logarítmica del precio, uso de modelos ponderado. Estas técnicas permitirían obtener inferencias más confiables sobre los coeficientes estimados.

2.4.4 Multicolinealidad V1

vif(modelo)
##    areaconst      estrato habitaciones parqueaderos       banios 
##     1.460998     1.307757     1.721015     1.226334     1.967421

Los valores del factor de inflación de la varianza (VIF) se encuentran por debajo de 5 para todas las variables, lo cual indica que no existe multicolinealidad significativa entre las variables explicativas. Esto sugiere que cada variable aporta información distinta al modelo y que las estimaciones de los coeficientes son relativamente estables.

En conjunto, los resultados evidencian que el precio de las viviendas está fuertemente determinado por características físicas del inmueble (área, baños, parqueaderos) y por factores socioeconómicos asociados a la ubicación (estrato). El modelo estimado presenta una capacidad explicativa alta, lo cual sugiere que las variables consideradas capturan una proporción importante de la dinámica del mercado inmobiliario analizado.

No obstante, los resultados de las pruebas de diagnóstico indican la presencia de heterocedasticidad y desviaciones de la normalidad en los residuos, lo cual sugiere la conveniencia de explorar modelos alternativos o transformaciones de variables para mejorar el ajuste y la robustez de las inferencias.

2.5 Predicción para la vivienda 1

Características solicitadas:

  • Área: 200
  • Estrato: 4
  • Habitaciones: 4
  • Parqueaderos: 1
  • Baños: 2
vivienda1 <- data.frame(
  areaconst = 200,
  estrato = 4,
  habitaciones = 4,
  parqueaderos = 1,
  banios = 2
)

predict(modelo, vivienda1)
##       1 
## 312.101

Dado que la variable preciom está expresada en millones de pesos, el modelo estima que el precio de la vivienda con las características especificadas sería aproximadamente 312.1 millones de pesos.

Esta predicción se obtiene al sustituir en la ecuación del modelo los valores de las variables explicativas (área construida, estrato, número de habitaciones, número de parqueaderos y número de baños) correspondientes a la vivienda analizada.

Es importante señalar que esta estimación representa el valor esperado del precio según el modelo, considerando únicamente las variables incluidas en la regresión. En la práctica, el precio real de la vivienda puede diferir de esta estimación debido a otros factores no considerados en el modelo, como la ubicación específica dentro del barrio, la antigüedad del inmueble, el estado de conservación, la calidad de los acabados o la cercanía a servicios y equipamientos urbanos.

Por lo tanto, el modelo sugiere que una vivienda con las características de la primera solicitud tendría un valor aproximado en el mercado cercano a los 312 millones de pesos, aunque este valor debe interpretarse como una estimación promedio basada en la información disponible en los datos analizados.

2.6 Ofertas potenciales (presupuesto 350 millones) V1

ofertas <- base1 %>%
  filter(preciom <= 350)

ofertas5 <- ofertas %>%
  arrange(preciom) %>%
  slice(1:5)

ofertas5
## # A tibble: 5 × 13
##      id zona    piso  estrato preciom areaconst parqueaderos banios habitaciones
##   <dbl> <chr>   <chr>   <dbl>   <dbl>     <dbl>        <dbl>  <dbl>        <dbl>
## 1  5056 Zona N… 02          3      89       130            1      1            1
## 2   246 Zona N… <NA>        3     110        62           NA      1            3
## 3   595 Zona N… <NA>        3     115       160           NA      1            3
## 4   289 Zona N… <NA>        3     117       120           NA      1            3
## 5   282 Zona N… 02          3     118       115           NA      1            3
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>

El filtrado de viviendas con precio inferior o igual a 350 millones permite identificar opciones viables dentro del presupuesto disponible. Las cinco ofertas seleccionadas representan las alternativas más económicas dentro del conjunto de viviendas disponibles en la zona norte, lo que facilita el proceso de toma de decisiones para la empresa.

Este procedimiento permite priorizar viviendas que cumplen con la restricción presupuestaria y posteriormente evaluarlas según otros criterios como ubicación, tamaño o características del inmueble.

2.6.1 Mapa de ofertas V1

leaflet(ofertas5) %>%
  addTiles() %>%
  addCircleMarkers(
    lng = ~longitud,
    lat = ~latitud,
    radius = 6,
    color = "red",
    popup = ~paste(
      "Precio:", preciom,
      "<br>Área:", areaconst,
      "<br>Habitaciones:", habitaciones,
      "<br>Baños:", banios,
      "<br>Estrato:", estrato
    )
  )

El mapa muestra la localización geográfica de las viviendas seleccionadas dentro de la zona norte de la ciudad. Esta visualización permite identificar la distribución espacial de las ofertas disponibles en este sector, lo cual resulta relevante para analizar aspectos como la accesibilidad, la cercanía a servicios urbanos, centros comerciales, instituciones educativas y la conectividad con otras zonas de la ciudad.

Así mismo, la representación geográfica facilita reconocer posibles concentraciones de viviendas en determinados sectores de la zona norte, lo que puede reflejar áreas con mayor desarrollo urbano o con una oferta inmobiliaria más amplia. Estas concentraciones también pueden estar asociadas a zonas con mayor valorización del suelo o con características urbanísticas que incrementan el atractivo del sector para potenciales compradores.

Además, el análisis espacial permite complementar la información obtenida a partir del modelo estadístico, ya que incorpora factores territoriales que influyen en la formación del precio de las viviendas y que no siempre se capturan completamente mediante variables cuantitativas.

En este sentido, la visualización geográfica aporta una perspectiva adicional para comprender el comportamiento del mercado inmobiliario en la zona norte y constituye una herramienta útil para apoyar la toma de decisiones relacionadas con la compra, venta o valoración de propiedades.

3 Análisis vivienda 2 (V2)

En este apartado se presenta el paso a paso requerido para el estudio solicitado en el caso de la segunda vivienda.

3.1 Filtro inicial y depuración V2

Se eliminan valores faltantes y se filtran únicamente casas ubicadas en la zona sur.

base2 <- vivienda %>%
  filter(grepl("Apartamento", tipo),
         grepl("Sur", zona))

# primeros registros
head(base2,3)
## # A tibble: 3 × 13
##      id zona    piso  estrato preciom areaconst parqueaderos banios habitaciones
##   <dbl> <chr>   <chr>   <dbl>   <dbl>     <dbl>        <dbl>  <dbl>        <dbl>
## 1  5098 Zona S… 05          4     290        96            1      2            3
## 2   698 Zona S… 02          3      78        40            1      1            2
## 3  8199 Zona S… <NA>        6     875       194            2      5            3
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>

3.1.1 Tablas de verificación V2

Se verifica el filtro de la información realizado anteriormente.

# tabla por zona
table(base2$zona)
## 
## Zona Sur 
##     2787
# tabla por tipo
table(base2$tipo)
## 
## Apartamento 
##        2787
# resumen estadístico
summary(base2$preciom)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    75.0   175.0   245.0   297.3   335.0  1750.0

El resumen estadístico del precio de las viviendas en la zona sur muestra una variabilidad considerable dentro del mercado inmobiliario de este sector. El precio mínimo registrado es de aproximadamente 75 millones de pesos, mientras que el máximo alcanza cerca de 1750 millones, lo que evidencia una dispersión importante entre las viviendas disponibles en la zona.

Por otra parte, el primer cuartil (175 millones) indica que el 25% de las viviendas tiene precios inferiores a este valor, mientras que la mediana (245 millones) representa el punto central de la distribución, es decir, la mitad de las viviendas tiene precios por debajo de esta cifra y la otra mitad por encima. El tercer cuartil (335 millones) muestra que el 75% de las viviendas se encuentra por debajo de este valor.

Adicionalmente, la media del precio es aproximadamente 297.3 millones, valor que es superior a la mediana. Esta diferencia sugiere la presencia de algunas viviendas con precios relativamente altos que elevan el promedio general, lo que indica una asimetría positiva en la distribución de los precios. Este comportamiento es frecuente en los mercados inmobiliarios, donde ciertas propiedades de mayor tamaño, mejor ubicación o con características superiores pueden incrementar significativamente el valor promedio del mercado.

3.1.2 Mapa de las viviendas 2

base2_map <- base2 %>%
  filter(!is.na(latitud), !is.na(longitud))

leaflet(base2) %>%
  addTiles() %>%
  addCircleMarkers(
    lng = ~longitud,
    lat = ~latitud,
    radius = 4,
    popup = ~paste(
      "Precio:", preciom,
      "<br>Área:", areaconst,
      "<br>Estrato:", estrato
    )
  )

La representación cartográfica de las ofertas inmobiliarias permitió complementar el análisis estadístico incorporando una perspectiva espacial del mercado de vivienda en la zona sur de la ciudad. A partir del mapa generado se observa que la mayoría de los inmuebles filtrados presentan una concentración espacial dentro de la zona sur, lo cual sugiere que el proceso de depuración y filtrado de la base de datos se realizó de manera adecuada. Esta concentración es consistente con la dinámica del mercado inmobiliario de este sector, donde determinados barrios presentan una mayor densidad de oferta debido a factores como el crecimiento urbano, la disponibilidad de suelo residencial y el desarrollo progresivo de infraestructura y servicios.

No obstante, en la visualización también pueden identificarse algunos puntos localizados en sectores cercanos a los límites de la zona sur o en áreas próximas a otras zonas de la ciudad. Este comportamiento puede explicarse por diversos factores asociados a la calidad y clasificación de la información geográfica. En primer lugar, la delimitación de las zonas dentro de las bases de datos inmobiliarias suele basarse en criterios comerciales o administrativos, los cuales no siempre coinciden exactamente con los límites geográficos reales del territorio urbano. En segundo lugar, pueden presentarse imprecisiones en el proceso de geocodificación, lo que ocasiona pequeños desplazamientos en la ubicación de algunas observaciones dentro del mapa.

Adicionalmente, la presencia de viviendas en zonas cercanas a los límites puede reflejar procesos de transición espacial entre diferentes sectores de la ciudad, donde barrios colindantes comparten características similares en términos de precios, estrato socioeconómico, accesibilidad y tipología de vivienda. En este sentido, la delimitación de zonas dentro del mercado inmobiliario no responde únicamente a criterios geográficos estrictos, sino también a dinámicas urbanas y percepciones del mercado, que influyen en la forma en que se clasifican y comercializan las propiedades dentro de cada sector.

3.2 Análisis exploratorio de datos V2

Se analiza la relación entre el precio y las variables explicativas.

vars2 <- base2 %>%
  select(preciom, areaconst, estrato, banios, habitaciones, parqueaderos) %>%
  na.omit()

cor(vars2)
##                preciom areaconst   estrato    banios habitaciones parqueaderos
## preciom      1.0000000 0.7407150 0.6497479 0.7111289    0.2957800    0.6934386
## areaconst    0.7407150 1.0000000 0.4518617 0.6639216    0.4073401    0.5783506
## estrato      0.6497479 0.4518617 1.0000000 0.5348003    0.1768269    0.4859027
## banios       0.7111289 0.6639216 0.5348003 1.0000000    0.5204718    0.5563189
## habitaciones 0.2957800 0.4073401 0.1768269 0.5204718    1.0000000    0.2367067
## parqueaderos 0.6934386 0.5783506 0.4859027 0.5563189    0.2367067    1.0000000

3.2.1 Matriz de correlación interactiva V2

plot_ly(
  z = cor(vars2),
  x = colnames(vars2),
  y = colnames(vars2),
  type = "heatmap"
)

La matriz de correlación muestra asociaciones positivas entre el precio de la vivienda y la mayoría de las variables explicativas. En particular, el área construida presenta una correlación fuerte con el precio (0.74), lo cual indica que viviendas más grandes tienden a tener valores más altos en el mercado inmobiliario.

De forma similar, el número de baños (0.71) y parqueaderos (0.69) muestran una relación considerable con el precio, lo cual sugiere que las características de confort y funcionalidad influyen significativamente en el valor del inmueble.

El estrato socioeconómico (0.65) también presenta una correlación importante, reflejando la influencia de la ubicación y las condiciones socioeconómicas del entorno en la determinación del precio.

Por otro lado, el número de habitaciones presenta una correlación más baja (0.29), lo que indica que esta variable por sí sola no explica gran parte de la variación del precio, posiblemente porque su efecto está parcialmente capturado por el área construida.

3.2.2 Gráficos de relación entre variables V2

# 1
p12 <- ggplot(base2, aes(areaconst, preciom)) +
  geom_point() +
  geom_smooth(method="lm") +
  labs(title="Precio vs Área Construida")

# 2
p22 <- ggplot(base2, aes(estrato, preciom)) +
  geom_point() +
  geom_smooth(method="lm") +
  labs(title="Precio vs Estrato")

# 3
p32 <- ggplot(base2, aes(banios, preciom)) +
  geom_point() +
  geom_smooth(method="lm") +
  labs(title="Precio vs Número de Baños")

# 4
p42 <- ggplot(base2, aes(habitaciones, preciom)) +
  geom_point() +
  geom_smooth(method="lm") +
  labs(title="Precio vs Número de Habitaciones")

# 5
p52 <- ggplot(base2, aes(parqueaderos, preciom)) +
  geom_point() +
  geom_smooth(method="lm") +
  labs(title="Precio vs Número de Parqueaderos")

# 6
p62 <- ggplot(base2, aes(zona, preciom)) +
  geom_point() +
  geom_smooth(method="lm") +
  labs(title="Precio vs Zona")

# Convertir a plotly
g12 <- ggplotly(p12)
g22 <- ggplotly(p22)
g32 <- ggplotly(p32)
g42 <- ggplotly(p42)
g52 <- ggplotly(p52)
g62 <- ggplotly(p62)

# Organización 3 filas x 2 columnas
subplot(g12, g22,
        g32, g42,
        g52, g62,
        nrows = 3,
        margin = 0.05)

Los gráficos muestran una relación positiva entre el precio de la vivienda y variables como el área construida, el estrato y el número de baños. Esto sugiere que estas variables influyen en el valor del inmueble. Interpretación del análisis exploratorio

Los resultados muestran que:

  • El área construida presenta una relación positiva con el precio.
  • Las viviendas de estratos más altos tienden a ser más costosas.
  • El número de baños, habitaciones y parqueaderos también influye positivamente en el precio.

Estas relaciones justifican el uso de un modelo de regresión lineal múltiple.

3.2.3 Conclusión del EDA V2

El análisis exploratorio permitió identificar relaciones importantes entre el precio de las viviendas y sus características estructurales. En particular, se observó una relación positiva entre el área construida y el precio del inmueble, lo cual indica que viviendas con mayor tamaño tienden a presentar precios más elevados. De manera similar, el estrato socioeconómico muestra una asociación positiva con el precio, evidenciando que propiedades ubicadas en estratos más altos tienen valores de mercado superiores.

Adicionalmente, variables como el número de baños y parqueaderos también presentan una relación positiva con el precio de la vivienda, mientras que el número de habitaciones no siempre muestra un comportamiento lineal claro, posiblemente debido a la interacción con otras variables como el tamaño del inmueble o su distribución interna.

3.3 Estimación del modelo de regresión V2

modelo2 <- lm(preciom ~ areaconst + estrato + habitaciones + parqueaderos + banios,
             data = base2)

summary(modelo2)
## 
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos + 
##     banios, data = base2)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1092.02   -42.28    -1.33    40.58   926.56 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -261.62501   15.63220 -16.736  < 2e-16 ***
## areaconst       1.28505    0.05403  23.785  < 2e-16 ***
## estrato        60.89709    3.08408  19.746  < 2e-16 ***
## habitaciones  -24.83693    3.89229  -6.381 2.11e-10 ***
## parqueaderos   72.91468    3.95797  18.422  < 2e-16 ***
## banios         50.69675    3.39637  14.927  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 98.02 on 2375 degrees of freedom
##   (406 observations deleted due to missingness)
## Multiple R-squared:  0.7485, Adjusted R-squared:  0.748 
## F-statistic:  1414 on 5 and 2375 DF,  p-value: < 2.2e-16
coef(modelo2)
##  (Intercept)    areaconst      estrato habitaciones parqueaderos       banios 
##  -261.625007     1.285049    60.897089   -24.836930    72.914680    50.696747

La ecuación estimada del modelo es: Precio = -261.62 + 1.28 Área + 60.89 Estrato − 24.83 Habitaciones + 72.91 Parqueaderos + 50.69 Baños

El modelo de regresión lineal múltiple permite cuantificar el efecto de cada variable sobre el precio de la vivienda manteniendo constantes las demás variables. Los resultados muestran que:

  • Área construida: cada metro cuadrado adicional incrementa el precio en aproximadamente 1.28 millones de pesos, lo cual confirma que el tamaño de la vivienda es uno de los principales determinantes del valor del inmueble.
  • Estrato socioeconómico: un aumento de un nivel de estrato incrementa el precio en cerca de 60.9 millones, lo cual refleja la importancia de la ubicación y las condiciones socioeconómicas del entorno en el mercado inmobiliario.
  • Parqueaderos: cada parqueadero adicional aumenta el precio aproximadamente 72.9 millones, lo que evidencia el alto valor del estacionamiento en zonas urbanas.
  • Baños: cada baño adicional incrementa el precio cerca de 50.7 millones, lo cual refleja que las características de confort influyen positivamente en el valor del inmueble.
  • Habitaciones: el coeficiente es negativo (-24.8), lo cual puede parecer contraintuitivo; sin embargo, esto puede deberse a que el efecto del número de habitaciones ya está parcialmente capturado por el área construida. Cuando se controla por tamaño del inmueble, más habitaciones pueden implicar espacios más pequeños por habitación, lo cual podría reducir el valor percibido.

El coeficiente de determinación indica que aproximadamente 74.8% de la variabilidad del precio de las viviendas es explicada por las variables incluidas en el modelo. Esto sugiere que el modelo tiene una capacidad explicativa alta, aunque todavía existe cerca de un 25% de variabilidad que depende de otros factores no incluidos, como ubicación específica del barrio, antigüedad del inmueble, calidad de los acabados o cercanía a servicios urbanos.

El error estándar residual del modelo es aproximadamente 98 millones de pesos, lo cual indica que las predicciones del modelo pueden desviarse en promedio alrededor de esta magnitud respecto al precio real observado. Este valor refleja la variabilidad inherente al mercado inmobiliario, donde factores no observados pueden afectar significativamente el precio final de las propiedades.

3.4 Validación de supuestos V2

3.4.1 Gráficos diagnósticos V2

par(mfrow=c(2,2))
plot(modelo2)

Los gráficos de diagnóstico del modelo permiten evaluar el cumplimiento de los principales supuestos de la regresión lineal. En el gráfico Residuals vs Fitted se observa que los residuos no se distribuyen completamente de forma aleatoria alrededor de cero y presentan una ligera tendencia creciente, lo que sugiere posibles problemas de heterocedasticidad y cierta falta de linealidad en el modelo.

El gráfico Q-Q Residuals muestra desviaciones de los puntos respecto a la línea teórica, especialmente en los extremos, lo que indica que los residuos no siguen perfectamente una distribución normal y que existen algunos valores atípicos en los datos.

Por su parte, el gráfico Scale-Location confirma la presencia de heterocedasticidad, ya que la dispersión de los residuos aumenta a medida que crecen los valores ajustados del modelo. Esto sugiere que la variabilidad del error es mayor para viviendas con precios más altos.

Finalmente, el gráfico Residuals vs Leverage permite identificar algunas observaciones potencialmente influyentes que podrían afectar la estimación del modelo. Aunque la mayoría de los datos presenta un leverage bajo, algunos puntos se acercan a los límites de la distancia de Cook, lo que sugiere la presencia de observaciones con influencia moderada en el modelo.

En conjunto, estos resultados indican que el modelo explica una parte importante del comportamiento del precio de las viviendas, aunque existen algunas desviaciones respecto a los supuestos clásicos que podrían mejorarse mediante transformaciones de variables o métodos de estimación más robustos.

3.4.2 Normalidad de residuos V2

shapiro.test(residuals(modelo2))
## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(modelo2)
## W = 0.79118, p-value < 2.2e-16

La prueba de Shapiro-Wilk indica que los residuos del modelo no siguen una distribución normal (p-value < 0.05). Esto sugiere la presencia de desviaciones respecto al supuesto de normalidad.

No obstante, dado que el tamaño de la muestra es relativamente grande, pequeñas desviaciones de la normalidad no necesariamente afectan de manera significativa la validez de las estimaciones del modelo. En estos casos, el estimador de mínimos cuadrados sigue siendo consistente. Para mejorar este aspecto podrían aplicarse alternativas como: transformación logarítmica del precio, eliminación de valores atípicos, uso de modelos robustos.

3.4.3 Homocedasticidad V2

bptest(modelo2)
## 
##  studentized Breusch-Pagan test
## 
## data:  modelo2
## BP = 754.81, df = 5, p-value < 2.2e-16

La prueba de Breusch-Pagan detecta heterocedasticidad en el modelo, lo cual indica que la varianza de los errores no es constante a lo largo de los valores predichos. Este fenómeno es común en modelos de precios inmobiliarios, donde las viviendas de mayor valor suelen presentar mayor variabilidad en los errores. Para corregir este problema se pueden aplicar diferentes estrategias: estimación con errores estándar robustos, transformación logarítmica del precio, uso de modelos ponderado. Estas técnicas permitirían obtener inferencias más confiables sobre los coeficientes estimados.

3.4.4 Multicolinealidad V2

vif(modelo2)
##    areaconst      estrato habitaciones parqueaderos       banios 
##     2.066518     1.545162     1.429280     1.737878     2.529494

Los valores del factor de inflación de la varianza (VIF) se encuentran por debajo de 5 para todas las variables, lo cual indica que no existe multicolinealidad significativa entre las variables explicativas. Esto sugiere que cada variable aporta información distinta al modelo y que las estimaciones de los coeficientes son relativamente estables.

En conjunto, los resultados evidencian que el precio de las viviendas está fuertemente determinado por características físicas del inmueble (área, baños, parqueaderos) y por factores socioeconómicos asociados a la ubicación (estrato). El modelo estimado presenta una capacidad explicativa alta, lo cual sugiere que las variables consideradas capturan una proporción importante de la dinámica del mercado inmobiliario analizado.

No obstante, los resultados de las pruebas de diagnóstico indican la presencia de heterocedasticidad y desviaciones de la normalidad en los residuos, lo cual sugiere la conveniencia de explorar modelos alternativos o transformaciones de variables para mejorar el ajuste y la robustez de las inferencias.

3.5 Predicción para la vivienda 2

Características:

  • Área: 300
  • Estrato: 5
  • Habitaciones: 5
  • Parqueaderos: 3
  • Baños: 3
vivienda2 <- data.frame(
  areaconst = 300,
  estrato = 5,
  habitaciones = 5,
  parqueaderos = 3,
  banios = 3
)

predict(modelo2, newdata = vivienda2)
##        1 
## 675.0247

El modelo estima que una vivienda con 300 m² de área construida, estrato 5, cinco habitaciones, tres parqueaderos y tres baños tendría un precio aproximado de 675 millones de pesos.

Este valor representa el precio esperado según las tendencias observadas en los datos históricos del mercado inmobiliario. Dado que el presupuesto disponible para esta vivienda es de 850 millones, el resultado sugiere que el presupuesto es suficiente para adquirir una propiedad con estas características, e incluso podría permitir considerar opciones de mayor calidad o mejor ubicación.

3.6 Ofertas potenciales (presupuesto 850 millones) V2

ofertas_sur <- base2 %>%
  filter(preciom <= 850)

ofertas5_sur <- ofertas_sur %>%
  arrange(preciom) %>%
  slice(1:5)

ofertas5_sur
## # A tibble: 5 × 13
##      id zona    piso  estrato preciom areaconst parqueaderos banios habitaciones
##   <dbl> <chr>   <chr>   <dbl>   <dbl>     <dbl>        <dbl>  <dbl>        <dbl>
## 1  3442 Zona S… 01          3      75        40           NA      1            2
## 2   776 Zona S… 03          3      75        60           NA      1            2
## 3  3441 Zona S… 05          3      75        48           NA      1            2
## 4   698 Zona S… 02          3      78        40            1      1            2
## 5  8027 Zona S… <NA>        4      78        46            1      1            2
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>

El filtrado de viviendas con precio inferior o igual a 850 millones permite identificar opciones viables dentro del presupuesto disponible. Las cinco ofertas seleccionadas representan las alternativas más económicas dentro del conjunto de viviendas disponibles en la zona sur, lo que facilita el proceso de toma de decisiones para la empresa.

Este procedimiento permite priorizar viviendas que cumplen con la restricción presupuestaria y posteriormente evaluarlas según otros criterios como ubicación, tamaño o características del inmueble.

3.6.1 Mapa de ofertas - Sur

leaflet(ofertas5_sur) %>%
  addTiles() %>%
  addCircleMarkers(
    lng = ~longitud,
    lat = ~latitud,
    radius = 6,
    color = "blue",
    popup = ~paste(
      "Precio:", preciom,
      "<br>Área:", areaconst,
      "<br>Habitaciones:", habitaciones,
      "<br>Baños:", banios
    )
  )

El mapa muestra la localización geográfica de las viviendas seleccionadas dentro de la zona sur de la ciudad. La visualización permite identificar la distribución espacial de las ofertas disponibles, lo cual es relevante para evaluar aspectos como accesibilidad, cercanía a servicios urbanos y conectividad vial.

Además, la representación geográfica facilita detectar posibles concentraciones de viviendas en determinados sectores, lo que podría indicar zonas con mayor disponibilidad de oferta inmobiliaria o con precios más competitivos.

Este tipo de análisis espacial complementa el análisis estadístico, ya que permite incorporar el componente territorial en la toma de decisiones inmobiliarias.

3.7 Conclusiones

El modelo de regresión lineal múltiple permitió cuantificar la relación entre el precio de la vivienda y sus características. Los resultados indican que variables como área construida, estrato, número de baños y número de parqueaderos tienen un efecto positivo sobre el precio del inmueble. El coeficiente de determinación R² muestra que el modelo logra explicar una proporción importante de la variabilidad del precio de las viviendas a partir de las variables incluidas. Esto sugiere que las características físicas y socioeconómicas de la vivienda son determinantes relevantes en la formación del precio en el mercado inmobiliario. Sin embargo, también es posible mejorar el modelo incorporando variables adicionales como ubicación más detallada, antigüedad del inmueble, cercanía a servicios urbanos o características del barrio, las cuales pueden influir significativamente en el valor de mercado.

Las pruebas realizadas para evaluar los supuestos del modelo evidencian que pueden existir algunas limitaciones, como posibles problemas de heterocedasticidad o desviaciones de la normalidad en los residuos. No obstante, los valores de VIF indican que no existe multicolinealidad significativa entre las variables explicativas, lo cual sugiere que las variables incluidas en el modelo aportan información relevante y no redundante. En futuros análisis se podrían aplicar métodos alternativos, como transformaciones de variables o modelos robustos, con el fin de mejorar el cumplimiento de los supuestos y la capacidad predictiva del modelo.

A partir del modelo estimado se realizó la predicción del precio para una vivienda con características específicas. Este ejercicio permite ilustrar la utilidad del modelo como herramienta para estimar valores de mercado aproximados, lo cual puede ser de gran utilidad para procesos de evaluación inmobiliaria, toma de decisiones de inversión o análisis de crédito hipotecario. Con base en las restricciones de crédito preaprobado establecidas por la empresa, se identificaron diferentes ofertas potenciales dentro de los rangos de precio establecidos. El análisis espacial mediante mapas permitió visualizar la ubicación de estas viviendas y evaluar si cumplen con las condiciones de zona solicitadas. La identificación de al menos cinco ofertas potenciales permite orientar la toma de decisiones hacia opciones que se ajustan tanto a las características deseadas de la vivienda como a la capacidad financiera disponible, facilitando un proceso de búsqueda más eficiente en el mercado inmobiliario.

Desde una perspectiva analítica, el uso de mapas en este tipo de estudios resulta particularmente relevante, ya que permite identificar posibles patrones de concentración, clustering espacial o dispersión de la oferta inmobiliaria, aspectos que no siempre son evidentes a partir del análisis estadístico tradicional. Así mismo, la visualización espacial facilita la detección de posibles valores atípicos o inconsistencias en la base de datos, lo cual contribuye a mejorar la calidad del análisis posterior.

En general, el análisis realizado demuestra cómo el uso de técnicas de análisis exploratorio, modelos econométricos y herramientas de visualización espacial permite comprender mejor el comportamiento del mercado inmobiliario y apoyar procesos de toma de decisiones basados en datos. Se recomienda a la agencia C&A considerar estas estimaciones como apoyo en la selección de viviendas para sus clientes.