Informe Ejecutivo - Regresión Múltiple | Mercado inmobiliario Cali

Contexto del caso

Maria, fundadora de la angecia C&A, recibió una solicitud de asesoría para la compra de dos viviendas por parte de una compañía internacional que busca ubicar empleados en Cali. Las condiciones solicitadas requieren analizar la oferta del mercado inmobiliario con técnicas estadísticas para identificar precios de referencia y oportunidades de compra.

Objetivo

Aplicar un modelo de regresión múltiple y técnicas de análisis exploratorio de datos. Con el propósito de analizar los dos casos y brindar las correspondientes recomendaciones.

Preprocesamiento de la base de datos

Cantidad de registros

## [1] 8322   13

Tipo de datos

##           id         zona         piso      estrato      preciom    areaconst 
##    "numeric"  "character"  "character"    "numeric"    "numeric"    "numeric" 
## parqueaderos       banios habitaciones         tipo       barrio     longitud 
##    "numeric"    "numeric"    "numeric"  "character"  "character"    "numeric" 
##      latitud 
##    "numeric"

Cantidad de datos faltantes por campo

## [1] 4275
##           id         zona         piso      estrato      preciom    areaconst 
##            3            3         2638            3            2            3 
## parqueaderos       banios habitaciones         tipo       barrio     longitud 
##         1605            3            3            3            3            3 
##      latitud 
##            3

- Eliminación e Imputación de datos (Se aplica depuración al igual que Actividad 2)

  • Variables críticas con faltantes: “Parqueadero” y “piso”. Las cuales se imputarán mediante la librería “mice”

  • Variables con pocos faltantes: “zona”, “estrato”, “preciom”, “areaconst”, “banios”, “habitaciones”,“tipo”,“barrio”, “longitud” y “latitud”

  • Eliminación de la variable “Id”, la cual no genera valor al conjunto de datos a analizar

##         zona         piso      estrato      preciom    areaconst parqueaderos 
##            0            0            0            0            0            0 
##       banios habitaciones         tipo       barrio     longitud      latitud 
##            0            0            0            0            0            0



1. Filtro de la Base de datos (Base 1: casas, de la zona norte )

Primeros 3 registros de base1
zona piso estrato preciom areaconst parqueaderos banios habitaciones tipo barrio longitud latitud
Zona Norte 2 5 320 150 2 4 6 Casa acopi -76.51341 3.47968
Zona Norte 2 5 780 380 2 3 3 Casa acopi -76.51674 3.48721
Zona Norte 2 6 750 445 3 7 6 Casa acopi -76.52950 3.38527
Distribución por estrato en base1
Estrato Frecuencia
3 235
4 161
5 271
6 55

Registros de casas en zona norte = 722

## [1] 722  12



Mapa con puntos de la base1

  • Del mapa se puede observar que todos los puntos no se ubican en la zona Norte. Esto puede darse a inconsistencias en la data de lo declarado en latitud y longitud. Por ejemplo la zona de la Buitrera se encuentra en la zona sur de la ciudad de cali

  • Se revisa el rango de latitudes y se obtiene un min 3.33 y un máximo 3.50.

Para validar la coherencia, se aplicó el algoritmo de k-meas(k=2) sobre la variable latitud, permitiendo identiticar dos grupos :

  1. Latitudes altas asociadas a Zona norte
  2. Latitudes bajas asociadas a no Zona norte (posiblemente Sur)
## # A tibble: 1 × 3
##   zona       lat_min lat_max
##   <chr>        <dbl>   <dbl>
## 1 Zona Norte    3.33    3.50
##             
##              Zona no norte Zona Norte
##   Zona Norte           108        614

La definición de límites de “Zona Norte” usada en la codificación no corresponde a la delimitación geográfica real. Por lo que se decide excluir los registros clasificados geográficamente al sur a pesar de estar declarados como Zona norte

Total registros de casas zona norte depurados: 614

## [1] 614  14


2. Análisis exploratorio de datos enfocado en la correlación

##     preciom         areaconst          banios        habitaciones   
##  Min.   :  89.0   Min.   :  30.0   Min.   : 0.000   Min.   : 0.000  
##  1st Qu.: 245.0   1st Qu.: 140.0   1st Qu.: 2.000   1st Qu.: 3.000  
##  Median : 380.0   Median : 240.0   Median : 3.000   Median : 4.000  
##  Mean   : 430.3   Mean   : 262.2   Mean   : 3.511   Mean   : 4.578  
##  3rd Qu.: 550.0   3rd Qu.: 336.8   3rd Qu.: 4.000   3rd Qu.: 5.000  
##  Max.   :1940.0   Max.   :1440.0   Max.   :10.000   Max.   :10.000  
##   parqueaderos   
##  Min.   : 1.000  
##  1st Qu.: 1.000  
##  Median : 2.000  
##  Mean   : 2.096  
##  3rd Qu.: 3.000  
##  Max.   :10.000

2.1 Distribución y asimetría

## # A tibble: 2 × 3
##   variable  skewness kurtosis
##   <chr>        <dbl>    <dbl>
## 1 preciom       1.88     5.63
## 2 areaconst     1.88     6.63

El precio (preciom) presenta asimetría positiva marcada. La mayoría de observaciones se ubican en 200–500 MM. Existe una cola larga hacia la derecha (Precios de 1000 hasta casi 2000 millones). Esto indica que puede haber propiedades muy costosas que no son frecuentes, pero alargan la distribución.

El área tambien presenta asimetría positiva marcada. La mayoría de observaciones se ubican en 100 m² y 300m², con una cola derecha que incluye pocas viviendas de gran metraje (hasta ~1.500 m²). Estas son propiedades poco frecuentes, probablemente casas de lujo, fincas o construcciones especiales que elevan el rango máximo.

La distribución muestra que la mayor parte de los inmuebles tienen entre 2 y 4 baños, con unos pocos casos extremos de propiedades con muchos más baños.Se evidencia quen hay registros con 0 baños.

La mayor concentración está en 3, 4 y 5 habitaciones, con un pico fuerte en 4. Existen casos menos frecuentes con 7, 8, 9 o hasta 10 habitaciones.Se evidencia quen hay registros con 0 habitaciones.

2.2 Matriz de Correlación

##              preciom areaconst banios habitaciones parqueaderos
## preciom        1.000     0.739  0.549        0.402        0.273
## areaconst      0.739     1.000  0.497        0.434        0.223
## banios         0.549     0.497  1.000        0.627        0.257
## habitaciones   0.402     0.434  0.627        1.000        0.166
## parqueaderos   0.273     0.223  0.257        0.166        1.000

La información contenida en la matriz de correlaciones permite valorar la magnitud relación lineal entre las variables y el sentido de la misma.

- PrecioVivienda y ÁreaConstruccion (0.739): Esta correlación es la más fuerte y positiva. Indica que a mayor área, mayor es el precio

- PrecioVivienda y Parqueaderos (0.237): La correlación positiva, aunque moderada, sugiere que hay una relación entre el número de parqueaderos y el precio de la vivienda, pero no es tan fuerte como con el área de

- PrecioVivienda y CantidadBanos (0.549): Esta correlación positiva indica que las viviendas con más baños tienden a tener precios más altos. La relación es significativa pero no tan fuerte como la del área de construcción.

- PrecioVivienda y CantidadHabitaciones (0.42): La correlación positiva sugiere que las viviendas con más habitaciones tienden a ser costosas.

- ÁreaConstruccion y CantidadBanos (0.497) / ÁreaConstruccion y CantidadHabitaciones (0.434): Estas correlaciones indican que viviendas más grandes no solo son más costosas sino que tienden a tener más baños y habitaciones.

- CantidadBanos y CantidadHabitaciones (0.627): Existe una correlación positiva y moderadamente fuerte entre estas dos variables. Entre más personas para acomodar en habitaciones, mayor número de baños a tener.



Relación precio - área construida

  • Se observa una pendiente ascendente clara. A mayor área, mayor precio.
  • La dispersión del precio crece con el área (más variabilidad en viviendas grandes)
  • A partir de los ~ 450–500 m² cambia la relación entre las variables.



- Relación precio - número de baños

  • La relación entre precio y número de baños es positiva pero débil y con alta dispersión: para un mismo número de baños se observan rangos amplios de precio. Esto sugiere que el número de baños por sí solo no determina el valor del inmueble. Se evidencia 0 baños en algunas viviendas.

2.2.1 Relación precio - número de habitaciones

El precio aumenta con el número de habitaciones, aunque con alta dispersión; para el mismo número de habitaciones existen amplios rangos de precio.



2.2.2 Relación precio - parqueaderos

Se observa mucha dispersión. El mismo número de parqueaderos con precios muy distintos. Se presenta una relación positiva débil.



2.2.3 Relación precio - estrato

  • Estratos más altos, tienden a precios más altos
  • En los estratos 5 y 6 se evidencia mayor variabilidad de precios.
  • La variable estrato por si sola no determina el precio.

    Cantidad registros con valor 0
## Registros con baños = 0: 7
## Registros con habitaciones = 0: 11
## Nuevo registro de datos: 602

Depuración de datos. Se identificaron 7 registros con banios = 0 y 11 con habitaciones = 0. Dada su baja proporción, se excluyeron del set de modelado; esta depuración no sesga los resultados

3. Estimación modelo de regresión líneal múltiple

## 
## Call:
## lm(formula = preciom ~ areaconst + factor(estrato) + habitaciones + 
##     parqueaderos + banios, data = base1)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -928.73  -69.74  -17.39   43.92 1071.38 
## 
## Coefficients:
##                   Estimate Std. Error t value Pr(>|t|)    
## (Intercept)      -11.83755   20.38731  -0.581 0.561708    
## areaconst          0.76971    0.04868  15.811  < 2e-16 ***
## factor(estrato)4  76.09095   18.60469   4.090 4.91e-05 ***
## factor(estrato)5 134.55902   17.47269   7.701 5.67e-14 ***
## factor(estrato)6 279.02008   30.76469   9.069  < 2e-16 ***
## habitaciones       9.28509    5.02334   1.848 0.065043 .  
## parqueaderos      13.54033    4.85861   2.787 0.005492 ** 
## banios            23.94660    6.34457   3.774 0.000177 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 153.3 on 594 degrees of freedom
## Multiple R-squared:  0.662,  Adjusted R-squared:  0.658 
## F-statistic: 166.2 on 7 and 594 DF,  p-value: < 2.2e-16

Interpretación de coeficientes

- Intercepto (β₀ = −11.8, p = 0.56): Corresponde al precio cuando área, baños, habitaciones y parqueaderos son 0 y el estrato es 3. Ese punto está fuera del rango real (no hay casas con 0 m²), por lo que no tiene interpretación económica y además no es significativo.

- Área construida (β = 0.7697, p < 0.001; significativo).Por cada unidad de aumento en el área +1 m² se asocia con +0.7697 millones (≈ $770.000).

- Estrato (base = 3; todos significativos):los coeficientes de Estrato 4, 5 y 6 son positivos y estadísticamente significativos. Esto sugiere que viviendas en estratos más altos tienen precios significativamente más altos, con el mayor aumento observado en el Estrato 6. La estimación de los estratos 3 y 4 son más precisas que las del estrato 6 (std. errror= 30,76)

- Cantidad de Habitaciones: Cada habitación adicional está asociada con un incremento promedio de 9,28 unidades en el precio de la vivienda.Su valor p está por encima de 0.05, por lo tanto no es estadísticamente significativo al nivel de confianza del 95%

- Cantidad Baños (β = 23.95, p < 0.001; significativo) +1 baño se asocia con +23.95 millones

- Parqueaderos: Cada parqueadero adicional se asocia con un incremento de 13.54 unidades en el precio de la vivienda.

Cada coeficiente muestra la magnitud y dirección del efecto de la variable sobre el precio (Estimate), junto con la precisión de la estimación (Std. Error). El estadístico t refleja la fuerza de evidencia frente a la hipótesis nula de coeficiente nulo, y el valor p determina la significancia estadística. En este modelo, el área construida, el estrato, los baños y los parqueaderos son significativos, mientras que las habitaciones no lo son.

R² y ajuste del modelo

- R² = 0.662: El modelo explica ≈ 66% de la variabilidad observada en el precio de las casas en la zona norte. El 43% podría estar asociado a factores no incluidos como por ejemplo la antiguedad del inmueble.

R² ajustado: 0,658 ajusta el R² en función del número de predictores en el modelo, proporcionando una medida más precisa de la bondad de ajuste para modelos con múltiples variables.

Prueba F (p < 2.2e-16) Confirma que el modelo, en conjunto, es altamente significativo

El ajuste podría mejorarse:

  • Si se excluye la variable habitaciones, pues fue la variable con menor correlación.

  • Agregar variables explicativas clave como antiguedad (No es lo mismo una casa nueva que vieja)

  • Transformando las variables_ Como el precio y área son asímetricas, se podría probar con log(precio) y log(area) para mejorar la normalidad.

  • Aplicar regresión más robusta y menos sensible a outliers como casas de lujo (alto precio y tamaño)



4.Validación de Supuestos del modelo

Pruebas formales y diagnóstico complementarios

Observaciones influyentes

Linealiad

  • El gráfico Residuals vs Fitted muestra cierta corvatura y dispersión creciente en los valores altos. Posiblemente no linealidad o variables omitidas

Normalidad

  • Gráfico QQ- Residuals se observa que sigue la diagonal en la parte central, pero en los extremos (colas) se separa bastante → residuos no perfectamente normales.Este hallazgo se confirma con la prueba de Shapiro-Wilk (W = 0.799, p < 2.2e-16), que permite rechazar la hipótesis nula de normalidad de los residuos.Esto indica que los errores del modelo no siguen una distribución normal, probablemente debido a la presencia de valores atípicos en los precios (inmuebles de alto valor).

Homocedasticidad

  • Gráfico Scale-Location: No se observa una dispersión constante. La varianza aumenta con el precio (línea roja). Esto indica heterocedasticidad

Influencia de observaciones

  • Gráfico Residual vs Leverage Se identifican observaciones (584, 117 y 518) muy alejadas de las demás. Alto laveragge y alto residuo. Esto puede darse a outliers o inmuebles atípicos (propiedades costosas)



4.1 Validaciones adicionales

- Prueba de normalidad Shapiro–Wilk de los residuos

Prueba de normalidad Shapiro–Wilk de los residuos
statistic p.value method
0.7998746 0 Shapiro-Wilk normality test

- Breusch-Pagan (homocedasticidad)

Prueba de homocedasticidad (Breusch–Pagan)
statistic p.value parameter method
117.1307 <2e-16 7 studentized Breusch-Pagan test

p-value < 2e-16 → extremadamente pequeño ⇒ rechazas H₀. Hay heterocedasticidad: la varianza del error cambia con el nivel de las variables/valores ajustados (coincide con tu Scale-Location, donde la dispersión crece para precios altos).

Multicolinealidad

Multicolinealidad: VIF (o GVIF ajustado)
Variable GVIF Df GVIF_ajust
areaconst areaconst 1.733 1 1.316
factor(estrato) factor(estrato) 1.552 3 1.076
habitaciones habitaciones 1.932 1 1.390
parqueaderos parqueaderos 1.090 1 1.044
banios banios 2.215 1 1.488

Los VIF (y el GVIF ajustado para el estrato) se sitúan entre 1.09 y 2.22, muy por debajo de los umbrales de 5/10; por tanto, no se evidencia multicolinealidad que requiera eliminar o combinar variables.

La distancia de Cook identifica observaciones influyentes. El umbral de referencia 4/n (~0.006) señala a la obs. 518 como altamente influyente y a 584 como influyente. Varias observaciones adicionales se ubican próximas al umbral. La presencia de estos casos sugiere que los coeficientes pueden ser sensibles a valores extremos.

Sugerencias

  • La validación de supuestos muestra problemas de no linealidad, normalidad (Shapiro-Wilk p < 0.05), heterocedasticidad y observaciones influyentes. Aunque no se corrigen en este ejercicio, se sugiere: aplicar logaritmos a precio y área, usar errores estándar robustos (White/HC), recurrir a regresión robusta (Huber) o regresión cuantílica para atípicos.Estas alternativas mejorarían la estabilidad y el ajuste del modelo.

  • Revisar si los datos atípicos son realmente errroes o,si son reales, usar regresión robusta
    <br/ #### 5. Predecir el precio de la vivienda 1

Vivienda 1: precio estimado e intervalos (millones)
estrato tipo Precio_estimado LI LS
1…1 4 Predicción (obs) 316.8 13.9 619.6
1…2 5 Predicción (obs) 375.2 72.7 677.8

Para una casa de 200 m², 1 parqueadero, 2 baños, 4 habitaciones, estrato 4 o 5, el modelo estima:

  • Estrato 4: un precio central de 316,8 M, pero con mucha variabilidad, de 13,9 a 619,6 M.

  • Estrato 5: predice 375,2 M, con un rango de 72,7 a 677,8 M.

Conclusión: El estrato 4 es la alternativa con menor riesgo relativo, pero su límite superior del PI (Intervalo de predicción) excede el tope de 350 M, por lo que no se garantiza cumplir el presupuesto. El límite inferior muy bajo refleja alta variabilidad del modelo (heterocedasticidad y/o outliers). Para reducir la incertidumbre, conviene considerar transformaciones/ajustes robustos (p. ej., log-precio) y depurar outliers.



6. Ofertas potenciales

6.1 Intervalo de confianza (IC): Refleja la estimación del precio promedio esperado para vivienda con esas características

Top 5 ofertas potenciales (E4 + E5) — precio predicho ≤ 350 M
barrio estrato areaconst banios habitaciones parqueaderos precio_pred (M)
la merced 4 216 2 4 2 342.6
acopi 4 190 2 3 1 299.8
los andes 4 180 3 4 1 325.3
la merced 4 240 2 3 1 338.3
la merced 4 192 3 4 2 348.1

Se identificaron 5 viviendas en estrato 4 con precios promedio estimados entre 299,8 y 348,1 millones. Estas opciones cumplen, en promedio, con el presupuesto establecido y se presentan en el mapa como alternativas iniciales a discutir

No obstante, para una vivienda individual la incertidumbre es mayor. Por ello, se complementa el análisis con el Intervalo de Predicción (PI), que refleja el rango donde podría caer el precio de una vivienda específica con las características de la vivienda 1. Las ofertas finales mostradas se seleccionan usando el PI y el tope de 350 millones.

6.2 Intervalo de predicción: Refleja el rango donde puede caear el precio de una vivienda individual (Vivienda 1 )

Top 5 ofertas similares a Vivienda 1 en zona Norte (predicción e intervalos, millones)
id barrio estrato areaconst habitaciones banios parqueaderos Pred (M) LI (M) LS (M) ≤ 350 M Riesgo LS>350
24 la merced 4 192 4 3 2 348.1 45.8 650.4
22 la merced 4 216 4 2 2 342.6 39.8 645.4
20 la merced 4 240 3 2 1 338.3 35.4 641.1
25 los andes 4 180 4 3 1 325.3 22.9 627.8
38 zona norte 4 162 4 3 1 311.5 9.0 614.0

Las 5 ofertas presentadas constituyen candidatos viables bajo el criterio de precio estimado, pero con la advertencia de que existe un riesgo significativo de exceder el presupuesto al momento de la compra

Conclusión

El análisis permitió identificar 5 viviendas en estrato 4 que cumplen con el precio promedio estimado (IC 95%) y se ajustan al presupuesto de 350 millones. No obstante, al considerar el intervalo de predicción (PI 95%), se observa que todas las ofertas presentan límites superiores que superan dicho presupuesto, lo cual refleja la alta variabilidad del modelo y un riesgo latente de sobrepasar el tope disponible.



Vivienda 2

1. Filtro de la Base de datos (Base 2: Apartamentos, de la zona sur )

Primeros 3 registros de base2
zona piso estrato preciom areaconst parqueaderos banios habitaciones tipo barrio longitud latitud
Zona Sur 5 4 290 96 1 2 3 Apartamento acopi -76.53464 3.44987
Zona Sur 2 3 78 40 1 1 2 Apartamento aguablanca -76.50100 3.40000
Zona Sur 1 6 875 194 2 5 3 Apartamento aguacatal -76.55700 3.45900
Distribución por estrato en base2
Estrato Frecuencia
3 201
4 1091
5 1033
6 462

Registros de apartamentos en zona Sur = 2.787

## [1] 2787   12

Mapa con puntos de las base2

  • Del mapa se observa que no todos los puntos corresponden a la zona Sur, lo cual puede deberse a inconsistencias en la información declarada de latitud y longitud. Por ejemplo, aparecen registros ubicados cerca de La Merced y el Acopi, sectores que no pertenecen al sur de la ciudad.

  • Al igual que en la Base 1, se analizó qué registros se encuentran efectivamente en la zona Sur. En este caso, se decidió aplicar la metodología rectangular, con el fin de mostrar un enfoque alternativo y complementar el análisis. Si bien se evaluó el uso de k-means, finalmente se optó por la regla rectangular, ya que permite aislar con mayor precisión la zona Sur y diferenciar entre el suroccidente y el suroriente de la ciudad

Total registros de apartamentos zona sur

## [1] 1879



2. Análisis exploratorio de datos enfocado en la correlación

##     preciom         areaconst          banios       habitaciones  
##  Min.   :  75.0   Min.   : 40.00   Min.   :0.000   Min.   :0.000  
##  1st Qu.: 166.5   1st Qu.: 63.00   1st Qu.:2.000   1st Qu.:3.000  
##  Median : 245.0   Median : 80.00   Median :2.000   Median :3.000  
##  Mean   : 282.7   Mean   : 91.07   Mean   :2.394   Mean   :2.903  
##  3rd Qu.: 320.0   3rd Qu.:102.00   3rd Qu.:3.000   3rd Qu.:3.000  
##  Max.   :1600.0   Max.   :600.00   Max.   :7.000   Max.   :6.000  
##   parqueaderos  
##  Min.   :1.000  
##  1st Qu.:1.000  
##  Median :1.000  
##  Mean   :1.434  
##  3rd Qu.:2.000  
##  Max.   :5.000



2.1 Distribución y asimetría

## # A tibble: 5 × 3
##   variable     skewness kurtosis
##   <chr>           <dbl>    <dbl>
## 1 preciom         2.67     11.2 
## 2 areaconst       3.50     22.1 
## 3 banios          1.29      2.22
## 4 habitaciones   -0.147     2.71
## 5 parqueaderos    1.97      4.81

El precio (preciom) presenta asimetría positiva marcada. La mayoría de apartamentos se concentran entre $200MM y $500MM. Existe una cola larga hacia la derecha precios que alcanzan hasta los 1.500-2.000 millones.

El área tambien presenta asimetría positiva marcada. La mayoría de observaciones se ubican entre 50 y 150 m². Existen algunos atípicos de gran área de hasta 600m²

La distribución muestra que la mayor parte de los apartamentos tienen 2 baños. El segundo grupo más común es el de 3 baños.

La mayor concentración está 3 habitaciones. Existen casos menos frecuentes con 5 habitaciones.

2.2 Matriz de Correlación

##              preciom areaconst banios habitaciones parqueaderos
## preciom        1.000     0.847  0.736        0.346        0.446
## areaconst      0.847     1.000  0.719        0.463        0.413
## banios         0.736     0.719  1.000        0.485        0.364
## habitaciones   0.346     0.463  0.485        1.000        0.141
## parqueaderos   0.446     0.413  0.364        0.141        1.000

- PrecioApto y ÁreaConstruccion (0.847): Esta correlación es la más fuerte y positiva. Indica que a mayor área, mayor es el precio

- PrecioApto y CantidadBanos (0.736): Esta correlación positiva indica que los apartamentos con más baños tienden a tener precios más altos. La relación es significativa pero no tan fuerte como la del área de construcción.

- PrecioApto y Parqueaderos (0.446): La correlación positiva, aunque moderada, sugiere que hay una relación entre el número de parqueaderos y el precio del apartamento.

- PrecioApto y CantidadHabitaciones (0.346): La correlación positiva sugiere que las viviendas con más habitaciones tienden a incrementar.

- ÁreaConstruccion y CantidadBanos (0.719) / ÁreaConstruccion y CantidadHabitaciones (0.463): Estas correlaciones indican que apartamentos más grandes no solo son más costosos sino que tienden a tener más baños y habitaciones.



Relación precio - área construida

  • Se observa una pendiente ascendente. A mayor área, mayor precio.
  • A partir de los ~ 200–350 m² cambia la relación entre las variables.
  • Se identifican apartamentos con área moderada pero precios altamente costosos (ejemplo: 200-300m² y >$1.200 MM)



- Relación precio - número de baños

  • Existe una relación positiva
  • La mayoría de apartamentos se concentran entre 2 y 4 baños
  • Asímismo para una misma cantidad de baño, los precios presentan alta dispersión, lo cual influyen otras variables como el área y estrato.



Relación precio - número de habitaciones

  • Relación positiva pero débil
  • El precio aumenta con el número de habitaciones, aunque con alta dispersión; para el mismo número de habitaciones existen amplios rangos de precio.



Relación precio - parqueaderos

  • Relación positiva. Más parqueaderos tienden a asociarse con mayor precio, auque la tendencia no estan marcada como la variable área.



Relación precio - estrato

  • Estratos más altos, tienden a precios más altos

  • Estrato 3 concentra precios bajos, entre ~100 y 200 millones, con poca dispersión.

  • Estrato 4 muestra precios entre ~150 y 300 millones, con una mediana cercana a 200 M.

  • Estrato 5, la mediana se ubica alrededor de 300 M, con una mayor dispersión y algunos valores atípicos que superan los 1.200 M.

  • Estrato 6: presenta la mayor variabilidad.La mediana está entre 500–600 M, pero con un rango que va desde 200 M hasta más de 1.500 M, incluyendo numerosos outliers de alto valor.



Cantidad registros con valor 0

## Registros con baños = 0: 2
## Registros con habitaciones = 0: 5
## Nuevo registro de datos: 1873

Depuración de datos. Se identificaron 2 registros con banios = 0 y 5 con habitaciones = 0. Dada su baja proporción, se excluyeron del set de modelado; esta depuración no sesga los resultados

3. Estimación modelo de regresión líneal múltiple

## 
## Call:
## lm(formula = preciom ~ areaconst + factor(estrato) + habitaciones + 
##     parqueaderos + banios, data = base2)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -758.43  -29.93    0.90   32.86  649.37 
## 
## Coefficients:
##                   Estimate Std. Error t value Pr(>|t|)    
## (Intercept)      -21.63248   11.37335  -1.902 0.057321 .  
## areaconst          2.16524    0.06037  35.865  < 2e-16 ***
## factor(estrato)4  25.46594    7.50685   3.392 0.000707 ***
## factor(estrato)5  62.07073    7.83364   7.924 3.93e-15 ***
## factor(estrato)6 174.46847    9.52842  18.310  < 2e-16 ***
## habitaciones     -18.14514    3.49622  -5.190 2.33e-07 ***
## parqueaderos      15.87350    2.67376   5.937 3.46e-09 ***
## banios            31.95691    3.15158  10.140  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 71.32 on 1865 degrees of freedom
## Multiple R-squared:  0.8232, Adjusted R-squared:  0.8226 
## F-statistic:  1241 on 7 and 1865 DF,  p-value: < 2.2e-16

Interpretación de coeficientes

- Intercepto (β₀ = 21.6, p = 0.0573): Corresponde al precio cuando área, baños, habitaciones y parqueaderos son 0 y el estrato es 3. Ese punto está fuera del rango real (no hay apartamentos con 0 m²), por lo que no tiene interpretación económica y además no es significativo.

- Área construida (β = 2.165, p < 0.001; significativo).Por cada unidad de aumento en el área +1 m² se asocia con 2.16 millones de pesos. Es el predictor más fuerte.

- Estrato (base = 3; todos significativos):los coeficientes de Estrato 4, 5 y 6 son positivos y estadísticamente significativos, lo que confirma que los apartamentos en estratos más altos presentan precios mayores. El mayor incremento se observa en Estrato 6, con un efecto muy superior frente a los demás, pero presenta mayor error estándar (≈ 30,8), reflejando más variabilidad.

- Cantidad de Habitaciones: Curiosamente, aparece con coeficiente negativo: a mayor número de habitaciones, el precio disminuye en promedio 18.1 millones, manteniendo constantes las demás variables.Esto puede reflejar multicolinealidad con el área

- Cantidad Baños (β = 31.96, p < 0.001; significativo)Cada baño adicional incrementa en promedio 32 millones el valor de la vivienda, confirmando su peso como variable explicativa.

Parqueaderos: Cada parqueadero adicional se asocia con un aumento promedio de 15.9 millones en el precio.

R² y ajuste del modelo

- R² = 0.823:: El modelo explica ≈ 82% de la variabilidad observada en el precio de los apartamentos en la zona Sur. El 18% restante podría estar asociado a factores no incluidos, como la ubicación , antigüedad del inmueble o calidad de acabados

R² ajustado: 0.8226 ajusta el R² en función del número de predictores en el modelo, proporcionando una medida más precisa de la bondad de ajuste para modelos con múltiples variables.

Prueba F (p < 2.2e-16) Confirma que el modelo, en conjunto, es altamente significativo

El ajuste podría mejorarse:

  • Agregar variables explicativas clave como antiguedad

  • Dado que el precio presenta asimetría positiva (cola larga a la derecha), aplicar transformaciones como log(precio) puede estabilizar la varianza y mejorar la linealidad.

  • Maneo de datos atípicos, ya que existen apartamentos demasiados costosos

4.Validación de Supuestos del modelo

Pruebas formales y diagnóstico complementarios

Observaciones influyentes

Linealiad

  • El gráfico Residuals vs Fitted Se observa una ligera curvatura y mayor dispersión en los valores altos de precio.

Normalidad

  • Gráfico QQ- Residuals se observa que los puntos siguen en gran parte la línea diagonal, pero en los extremos (colas) se desvían bastante.Esto indica que los residuos no son perfectamente normales, especialmente en las colas (outliers influyen en la distribución).

Homocedasticidad

  • Gráfico Scale-Location: La tendencia ascendente muestra que los residuos no tienen varianza constante: la dispersión aumenta a medida que crecen los valores ajustados.Esto confirma heterocedasticidad → el modelo es menos preciso en viviendas de alto valor.

Influencia de observaciones

  • Gráfico Residual vs Leverage Se identifican observaciones (987, 550 y 631) muy alejadas de las demás. Alto laveragge y alto residuo. Esto puede darse a outliers o inmuebles atípicos (propiedades costosas)



Validaciones adicionales

Prueba de normalidad Shapiro–Wilk de los residuos

Prueba de normalidad Shapiro–Wilk de los residuos
statistic p.value method
0.8203831 0 Shapiro-Wilk normality test

Breusch-Pagan (homocedasticidad)

Prueba de homocedasticidad (Breusch–Pagan)
statistic p.value parameter method
572.7976 <2e-16 7 studentized Breusch-Pagan test

p-value < 2e-16 → extremadamente pequeño ⇒ rechazas H₀. Hay heterocedasticidad: la varianza del error cambia con el nivel de las variables/valores ajustados (coincide con tu Scale-Location, donde la dispersión crece para precios altos).

Las validaciones confirman que el modelo viola dos supuestos clave:

Normalidad de residuos (Shapiro–Wilk).

Homoscedasticidad (Breusch–Pagan).

Multicolinealidad

Multicolinealidad: VIF (o GVIF ajustado)
Variable GVIF Df GVIF_ajust
areaconst areaconst 2.518 1 1.587
factor(estrato) factor(estrato) 1.871 3 1.110
habitaciones habitaciones 1.466 1 1.211
parqueaderos parqueaderos 1.276 1 1.130
banios banios 2.672 1 1.634

Los valores de GVIF y GVIF ajustado se encuentran entre 1.1 y 2.7, muy por debajo de los umbrales críticos (5 o 10). Esto significa que no existe multicolinealidad severa entre las variables explicativas incluidas en el modelo. Es decir las variables no están excesivamente correlacionadas entre sí, por lo que cada una aporta información diferenciada al modelo.

La mayoría de las observaciones tiene valores muy bajos,, lo que indica que no influyen de forma relevante en el modelo.Sin embargo, aparecen algunos casos atípicos con influencia alta: por ejemplo, las observaciones 631, 550 y 1680 sobresalen del resto.Estas corresponden probablemente a viviendas con precios o características muy extremos (outliers).

Sugerencias

  • Revisar los registros para verificar si son errores de captura o casos válidos pero atípicos.

  • Aplicar transformaciones (ej. log(precio)

  • Identificar y evaluar el impacto de outliers (decidir si excluirlos o tratarlos).

5. Predecir el precio de la vivienda 2

Vivienda 2: precio estimado e intervalos (millones)
estrato tipo Precio_estimado LI LS
1…1 5 Predicción (obs) 742.8 600.9 884.6
1…2 6 Predicción (obs) 855.2 713.4 996.9

Con las características de la Vivienda 2 (apartamento de 300mm², 3 parqueadero, 3 baños,5 habitaciones, el precio estimado es:

- Estrato 5: $742,8 millones; intervalo de predicción 95%: [$600,9; $884,6] millones

- Estrato 6: $855,2 millones; intervalo de predicción 95%: [$713,4; $996,9] millones.

Frente al crédito preaprobado de $850 millones:

En estrato 5, el estimado está por debajo del presupuesto, pero el límite superior ($884,6 M) supera $850 M, por lo que existe riesgo de que el precio real lo exceda.

6. Ofertas potenciales

6.1 Intervalo de confianza (IC): Refleja la estimación del precio promedio esperado para vivienda con esas características

Top 5 ofertas potenciales (E5 + E6,Zona Sur— precio predicho ≤ 850 M
barrio estrato areaconst banios habitaciones parqueaderos precio_pred (M)
San Fernando 5 258 4 5 2 667.9
el ingenio 6 250 4 5 2 763.0
ciudad jardin 6 274 4 4 3 849.0
pance 6 220 4 4 4 747.9
ciudadela pasoancho 5 249 4 4 2 666.6

Con el IC (95%) se identifican apartamentos en estratos 5–6 que, en promedio, se ajustan al perfil de la Vivienda 2 (apto 300 m², 3 baños, 5 habitaciones, 3 parqueaderos) y ≤ 850 M.

Sin embargo como la vivenda 1, se realizará el análisis del intervalo de predicción

6.2 Intervalo de predicción: Refleja el rango donde puede caear el precio de una vivienda individual (Vivienda 1 )

Top 5 ofertas similares a Vivienda 2 en Zona Sur (predicción e intervalos, millones)
id barrio estrato areaconst habitaciones banios parqueaderos Pred (M) LI (M) LS (M) ≤ 850 M Riesgo LS>850
1 ciudad jardin 6 274 4 4 3 849 708.2 989.7

Conclusión

El análisis permitió identificar, mediante el Intervalo de Confianza (IC 95%), 5 ofertas potenciales en estratos 5 y 6 que cumplen, en promedio, con el perfil definido para la Vivienda 2 (apartamento de 300 m², 3 baños, 5 habitaciones, 3 parqueaderos) y con el presupuesto máximo de 850 millones.

Sin embargo, al aplicar el Intervalo de Predicción (PI 95%), la disponibilidad se restringió a una única alternativa (Ciudad Jardín, estrato 6), cuyo valor predicho (849 M) está dentro del presupuesto, pero cuyo límite superior (989,7 M) refleja un riesgo significativo de sobrecosto.

En consecuencia, las 5 ofertas identificadas por IC pueden considerarse como la filtro inicial de alternativas, mientras que la única oferta que cumple bajo PI constituye la opción más realista, aunque debe analizarse con cautela y con posibilidades de negociación para no exceder el crédito aprobado.