Maria, fundadora de la angecia C&A, recibió una solicitud de asesoría para la compra de dos viviendas por parte de una compañía internacional que busca ubicar empleados en Cali. Las condiciones solicitadas requieren analizar la oferta del mercado inmobiliario con técnicas estadísticas para identificar precios de referencia y oportunidades de compra.
Aplicar un modelo de regresión múltiple y técnicas de análisis
exploratorio de datos. Con el propósito de analizar los dos casos y
brindar las correspondientes recomendaciones.
Cantidad de registros
## [1] 8322 13
Tipo de datos
## id zona piso estrato preciom areaconst
## "numeric" "character" "character" "numeric" "numeric" "numeric"
## parqueaderos banios habitaciones tipo barrio longitud
## "numeric" "numeric" "numeric" "character" "character" "numeric"
## latitud
## "numeric"
Cantidad de datos faltantes por campo
## [1] 4275
## id zona piso estrato preciom areaconst
## 3 3 2638 3 2 3
## parqueaderos banios habitaciones tipo barrio longitud
## 1605 3 3 3 3 3
## latitud
## 3
- Eliminación e Imputación de datos (Se aplica depuración al igual que Actividad 2)
Variables críticas con faltantes: “Parqueadero” y “piso”. Las cuales se imputarán mediante la librería “mice”
Variables con pocos faltantes: “zona”, “estrato”, “preciom”, “areaconst”, “banios”, “habitaciones”,“tipo”,“barrio”, “longitud” y “latitud”
Eliminación de la variable “Id”, la cual no genera valor al conjunto de datos a analizar
## zona piso estrato preciom areaconst parqueaderos
## 0 0 0 0 0 0
## banios habitaciones tipo barrio longitud latitud
## 0 0 0 0 0 0
| zona | piso | estrato | preciom | areaconst | parqueaderos | banios | habitaciones | tipo | barrio | longitud | latitud |
|---|---|---|---|---|---|---|---|---|---|---|---|
| Zona Norte | 2 | 5 | 320 | 150 | 2 | 4 | 6 | Casa | acopi | -76.51341 | 3.47968 |
| Zona Norte | 2 | 5 | 780 | 380 | 2 | 3 | 3 | Casa | acopi | -76.51674 | 3.48721 |
| Zona Norte | 2 | 6 | 750 | 445 | 3 | 7 | 6 | Casa | acopi | -76.52950 | 3.38527 |
| Estrato | Frecuencia |
|---|---|
| 3 | 235 |
| 4 | 161 |
| 5 | 271 |
| 6 | 55 |
Registros de casas en zona norte = 722
## [1] 722 12
Del mapa se puede observar que todos los puntos no se ubican en la zona Norte. Esto puede darse a inconsistencias en la data de lo declarado en latitud y longitud. Por ejemplo la zona de la Buitrera se encuentra en la zona sur de la ciudad de cali
Se revisa el rango de latitudes y se obtiene un min 3.33 y un máximo 3.50.
Para validar la coherencia, se aplicó el algoritmo de k-meas(k=2) sobre la variable latitud, permitiendo identiticar dos grupos :
## # A tibble: 1 × 3
## zona lat_min lat_max
## <chr> <dbl> <dbl>
## 1 Zona Norte 3.33 3.50
##
## Zona no norte Zona Norte
## Zona Norte 108 614
La definición de límites de “Zona Norte” usada en la codificación no corresponde a la delimitación geográfica real. Por lo que se decide excluir los registros clasificados geográficamente al sur a pesar de estar declarados como Zona norte
Total registros de casas zona norte depurados: 614
## [1] 614 14
## preciom areaconst banios habitaciones
## Min. : 89.0 Min. : 30.0 Min. : 0.000 Min. : 0.000
## 1st Qu.: 245.0 1st Qu.: 140.0 1st Qu.: 2.000 1st Qu.: 3.000
## Median : 380.0 Median : 240.0 Median : 3.000 Median : 4.000
## Mean : 430.3 Mean : 262.2 Mean : 3.511 Mean : 4.578
## 3rd Qu.: 550.0 3rd Qu.: 336.8 3rd Qu.: 4.000 3rd Qu.: 5.000
## Max. :1940.0 Max. :1440.0 Max. :10.000 Max. :10.000
## parqueaderos
## Min. : 1.000
## 1st Qu.: 1.000
## Median : 2.000
## Mean : 2.096
## 3rd Qu.: 3.000
## Max. :10.000
2.1 Distribución y asimetría
## # A tibble: 2 × 3
## variable skewness kurtosis
## <chr> <dbl> <dbl>
## 1 preciom 1.88 5.63
## 2 areaconst 1.88 6.63
El precio (preciom) presenta asimetría positiva marcada. La mayoría de observaciones se ubican en 200–500 MM. Existe una cola larga hacia la derecha (Precios de 1000 hasta casi 2000 millones). Esto indica que puede haber propiedades muy costosas que no son frecuentes, pero alargan la distribución.
El área tambien presenta asimetría positiva marcada. La mayoría de observaciones se ubican en 100 m² y 300m², con una cola derecha que incluye pocas viviendas de gran metraje (hasta ~1.500 m²). Estas son propiedades poco frecuentes, probablemente casas de lujo, fincas o construcciones especiales que elevan el rango máximo.
La distribución muestra que la mayor parte de los inmuebles tienen entre 2 y 4 baños, con unos pocos casos extremos de propiedades con muchos más baños.Se evidencia quen hay registros con 0 baños.
La mayor concentración está en 3, 4 y 5 habitaciones, con un pico fuerte en 4. Existen casos menos frecuentes con 7, 8, 9 o hasta 10 habitaciones.Se evidencia quen hay registros con 0 habitaciones.
2.2 Matriz de Correlación
## preciom areaconst banios habitaciones parqueaderos
## preciom 1.000 0.739 0.549 0.402 0.273
## areaconst 0.739 1.000 0.497 0.434 0.223
## banios 0.549 0.497 1.000 0.627 0.257
## habitaciones 0.402 0.434 0.627 1.000 0.166
## parqueaderos 0.273 0.223 0.257 0.166 1.000
La información contenida en la matriz de correlaciones permite valorar la magnitud relación lineal entre las variables y el sentido de la misma.
- PrecioVivienda y ÁreaConstruccion (0.739): Esta correlación es la más fuerte y positiva. Indica que a mayor área, mayor es el precio
- PrecioVivienda y Parqueaderos (0.237): La correlación positiva, aunque moderada, sugiere que hay una relación entre el número de parqueaderos y el precio de la vivienda, pero no es tan fuerte como con el área de
- PrecioVivienda y CantidadBanos (0.549): Esta correlación positiva indica que las viviendas con más baños tienden a tener precios más altos. La relación es significativa pero no tan fuerte como la del área de construcción.
- PrecioVivienda y CantidadHabitaciones (0.42): La correlación positiva sugiere que las viviendas con más habitaciones tienden a ser costosas.
- ÁreaConstruccion y CantidadBanos (0.497) / ÁreaConstruccion y CantidadHabitaciones (0.434): Estas correlaciones indican que viviendas más grandes no solo son más costosas sino que tienden a tener más baños y habitaciones.
- CantidadBanos y CantidadHabitaciones (0.627): Existe una correlación positiva y moderadamente fuerte entre estas dos variables. Entre más personas para acomodar en habitaciones, mayor número de baños a tener.
Relación precio - área construida
- Relación precio - número de baños
2.2.1 Relación precio - número de habitaciones
El precio aumenta con el número de habitaciones, aunque con alta dispersión; para el mismo número de habitaciones existen amplios rangos de precio.
2.2.2 Relación precio - parqueaderos
Se observa mucha dispersión. El mismo número de parqueaderos con precios muy distintos. Se presenta una relación positiva débil.
2.2.3 Relación precio - estrato
## Registros con baños = 0: 7
## Registros con habitaciones = 0: 11
## Nuevo registro de datos: 602
Depuración de datos. Se identificaron 7 registros
con banios = 0 y 11 con habitaciones = 0. Dada su baja proporción, se
excluyeron del set de modelado; esta depuración no sesga los resultados
##
## Call:
## lm(formula = preciom ~ areaconst + factor(estrato) + habitaciones +
## parqueaderos + banios, data = base1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -928.73 -69.74 -17.39 43.92 1071.38
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -11.83755 20.38731 -0.581 0.561708
## areaconst 0.76971 0.04868 15.811 < 2e-16 ***
## factor(estrato)4 76.09095 18.60469 4.090 4.91e-05 ***
## factor(estrato)5 134.55902 17.47269 7.701 5.67e-14 ***
## factor(estrato)6 279.02008 30.76469 9.069 < 2e-16 ***
## habitaciones 9.28509 5.02334 1.848 0.065043 .
## parqueaderos 13.54033 4.85861 2.787 0.005492 **
## banios 23.94660 6.34457 3.774 0.000177 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 153.3 on 594 degrees of freedom
## Multiple R-squared: 0.662, Adjusted R-squared: 0.658
## F-statistic: 166.2 on 7 and 594 DF, p-value: < 2.2e-16
Interpretación de coeficientes
- Intercepto (β₀ = −11.8, p = 0.56): Corresponde al precio cuando área, baños, habitaciones y parqueaderos son 0 y el estrato es 3. Ese punto está fuera del rango real (no hay casas con 0 m²), por lo que no tiene interpretación económica y además no es significativo.
- Área construida (β = 0.7697, p < 0.001; significativo).Por cada unidad de aumento en el área +1 m² se asocia con +0.7697 millones (≈ $770.000).
- Estrato (base = 3; todos significativos):los coeficientes de Estrato 4, 5 y 6 son positivos y estadísticamente significativos. Esto sugiere que viviendas en estratos más altos tienen precios significativamente más altos, con el mayor aumento observado en el Estrato 6. La estimación de los estratos 3 y 4 son más precisas que las del estrato 6 (std. errror= 30,76)
- Cantidad de Habitaciones: Cada habitación adicional está asociada con un incremento promedio de 9,28 unidades en el precio de la vivienda.Su valor p está por encima de 0.05, por lo tanto no es estadísticamente significativo al nivel de confianza del 95%
- Cantidad Baños (β = 23.95, p < 0.001; significativo) +1 baño se asocia con +23.95 millones
- Parqueaderos: Cada parqueadero adicional se asocia con un incremento de 13.54 unidades en el precio de la vivienda.
Cada coeficiente muestra la magnitud y dirección del efecto de la variable sobre el precio (Estimate), junto con la precisión de la estimación (Std. Error). El estadístico t refleja la fuerza de evidencia frente a la hipótesis nula de coeficiente nulo, y el valor p determina la significancia estadística. En este modelo, el área construida, el estrato, los baños y los parqueaderos son significativos, mientras que las habitaciones no lo son.
R² y ajuste del modelo
- R² = 0.662: El modelo explica ≈ 66% de la variabilidad observada en el precio de las casas en la zona norte. El 43% podría estar asociado a factores no incluidos como por ejemplo la antiguedad del inmueble.
R² ajustado: 0,658 ajusta el R² en función del número de predictores en el modelo, proporcionando una medida más precisa de la bondad de ajuste para modelos con múltiples variables.
Prueba F (p < 2.2e-16) Confirma que el modelo, en conjunto, es altamente significativo
El ajuste podría mejorarse:
Si se excluye la variable habitaciones, pues fue la variable con menor correlación.
Agregar variables explicativas clave como antiguedad (No es lo mismo una casa nueva que vieja)
Transformando las variables_ Como el precio y área son asímetricas, se podría probar con log(precio) y log(area) para mejorar la normalidad.
Aplicar regresión más robusta y menos sensible a outliers como casas de lujo (alto precio y tamaño)
Pruebas formales y diagnóstico complementarios
Observaciones influyentes
Linealiad
Normalidad
Homocedasticidad
Influencia de observaciones
4.1 Validaciones adicionales
- Prueba de normalidad Shapiro–Wilk de los residuos
| statistic | p.value | method |
|---|---|---|
| 0.7998746 | 0 | Shapiro-Wilk normality test |
- Breusch-Pagan (homocedasticidad)
| statistic | p.value | parameter | method |
|---|---|---|---|
| 117.1307 | <2e-16 | 7 | studentized Breusch-Pagan test |
p-value < 2e-16 → extremadamente pequeño ⇒ rechazas H₀. Hay
heterocedasticidad: la varianza del error cambia con el nivel de las
variables/valores ajustados (coincide con tu Scale-Location, donde la
dispersión crece para precios altos).
Multicolinealidad
| Variable | GVIF | Df | GVIF_ajust | |
|---|---|---|---|---|
| areaconst | areaconst | 1.733 | 1 | 1.316 |
| factor(estrato) | factor(estrato) | 1.552 | 3 | 1.076 |
| habitaciones | habitaciones | 1.932 | 1 | 1.390 |
| parqueaderos | parqueaderos | 1.090 | 1 | 1.044 |
| banios | banios | 2.215 | 1 | 1.488 |
Los VIF (y el GVIF ajustado para el estrato) se sitúan entre 1.09 y 2.22, muy por debajo de los umbrales de 5/10; por tanto, no se evidencia multicolinealidad que requiera eliminar o combinar variables.
La distancia de Cook identifica observaciones influyentes. El umbral de referencia 4/n (~0.006) señala a la obs. 518 como altamente influyente y a 584 como influyente. Varias observaciones adicionales se ubican próximas al umbral. La presencia de estos casos sugiere que los coeficientes pueden ser sensibles a valores extremos.
Sugerencias
La validación de supuestos muestra problemas de no linealidad, normalidad (Shapiro-Wilk p < 0.05), heterocedasticidad y observaciones influyentes. Aunque no se corrigen en este ejercicio, se sugiere: aplicar logaritmos a precio y área, usar errores estándar robustos (White/HC), recurrir a regresión robusta (Huber) o regresión cuantílica para atípicos.Estas alternativas mejorarían la estabilidad y el ajuste del modelo.
Revisar si los datos atípicos son realmente errroes o,si son
reales, usar regresión robusta
<br/ #### 5. Predecir el
precio de la vivienda 1
| estrato | tipo | Precio_estimado | LI | LS | |
|---|---|---|---|---|---|
| 1…1 | 4 | Predicción (obs) | 316.8 | 13.9 | 619.6 |
| 1…2 | 5 | Predicción (obs) | 375.2 | 72.7 | 677.8 |
Para una casa de 200 m², 1 parqueadero, 2 baños, 4 habitaciones, estrato 4 o 5, el modelo estima:
Estrato 4: un precio central de 316,8 M, pero con mucha variabilidad, de 13,9 a 619,6 M.
Estrato 5: predice 375,2 M, con un rango de 72,7 a 677,8 M.
Conclusión: El estrato 4 es la alternativa con menor riesgo relativo, pero su límite superior del PI (Intervalo de predicción) excede el tope de 350 M, por lo que no se garantiza cumplir el presupuesto. El límite inferior muy bajo refleja alta variabilidad del modelo (heterocedasticidad y/o outliers). Para reducir la incertidumbre, conviene considerar transformaciones/ajustes robustos (p. ej., log-precio) y depurar outliers.
6.1 Intervalo de confianza (IC): Refleja la estimación del precio promedio esperado para vivienda con esas características
| barrio | estrato | areaconst | banios | habitaciones | parqueaderos | precio_pred (M) |
|---|---|---|---|---|---|---|
| la merced | 4 | 216 | 2 | 4 | 2 | 342.6 |
| acopi | 4 | 190 | 2 | 3 | 1 | 299.8 |
| los andes | 4 | 180 | 3 | 4 | 1 | 325.3 |
| la merced | 4 | 240 | 2 | 3 | 1 | 338.3 |
| la merced | 4 | 192 | 3 | 4 | 2 | 348.1 |
Se identificaron 5 viviendas en estrato 4 con precios promedio estimados entre 299,8 y 348,1 millones. Estas opciones cumplen, en promedio, con el presupuesto establecido y se presentan en el mapa como alternativas iniciales a discutir
No obstante, para una vivienda individual la incertidumbre es mayor. Por ello, se complementa el análisis con el Intervalo de Predicción (PI), que refleja el rango donde podría caer el precio de una vivienda específica con las características de la vivienda 1. Las ofertas finales mostradas se seleccionan usando el PI y el tope de 350 millones.
6.2 Intervalo de predicción: Refleja el rango donde puede caear el precio de una vivienda individual (Vivienda 1 )
| id | barrio | estrato | areaconst | habitaciones | banios | parqueaderos | Pred (M) | LI (M) | LS (M) | ≤ 350 M | Riesgo LS>350 |
|---|---|---|---|---|---|---|---|---|---|---|---|
| 24 | la merced | 4 | 192 | 4 | 3 | 2 | 348.1 | 45.8 | 650.4 | Sí | Sí |
| 22 | la merced | 4 | 216 | 4 | 2 | 2 | 342.6 | 39.8 | 645.4 | Sí | Sí |
| 20 | la merced | 4 | 240 | 3 | 2 | 1 | 338.3 | 35.4 | 641.1 | Sí | Sí |
| 25 | los andes | 4 | 180 | 4 | 3 | 1 | 325.3 | 22.9 | 627.8 | Sí | Sí |
| 38 | zona norte | 4 | 162 | 4 | 3 | 1 | 311.5 | 9.0 | 614.0 | Sí | Sí |
Las 5 ofertas presentadas constituyen candidatos viables bajo el criterio de precio estimado, pero con la advertencia de que existe un riesgo significativo de exceder el presupuesto al momento de la compra
Conclusión
El análisis permitió identificar 5 viviendas en estrato 4 que cumplen con el precio promedio estimado (IC 95%) y se ajustan al presupuesto de 350 millones. No obstante, al considerar el intervalo de predicción (PI 95%), se observa que todas las ofertas presentan límites superiores que superan dicho presupuesto, lo cual refleja la alta variabilidad del modelo y un riesgo latente de sobrepasar el tope disponible.
| zona | piso | estrato | preciom | areaconst | parqueaderos | banios | habitaciones | tipo | barrio | longitud | latitud |
|---|---|---|---|---|---|---|---|---|---|---|---|
| Zona Sur | 5 | 4 | 290 | 96 | 1 | 2 | 3 | Apartamento | acopi | -76.53464 | 3.44987 |
| Zona Sur | 2 | 3 | 78 | 40 | 1 | 1 | 2 | Apartamento | aguablanca | -76.50100 | 3.40000 |
| Zona Sur | 1 | 6 | 875 | 194 | 2 | 5 | 3 | Apartamento | aguacatal | -76.55700 | 3.45900 |
| Estrato | Frecuencia |
|---|---|
| 3 | 201 |
| 4 | 1091 |
| 5 | 1033 |
| 6 | 462 |
Registros de apartamentos en zona Sur = 2.787
## [1] 2787 12
Del mapa se observa que no todos los puntos corresponden a la zona Sur, lo cual puede deberse a inconsistencias en la información declarada de latitud y longitud. Por ejemplo, aparecen registros ubicados cerca de La Merced y el Acopi, sectores que no pertenecen al sur de la ciudad.
Al igual que en la Base 1, se analizó qué registros se encuentran efectivamente en la zona Sur. En este caso, se decidió aplicar la metodología rectangular, con el fin de mostrar un enfoque alternativo y complementar el análisis. Si bien se evaluó el uso de k-means, finalmente se optó por la regla rectangular, ya que permite aislar con mayor precisión la zona Sur y diferenciar entre el suroccidente y el suroriente de la ciudad
Total registros de apartamentos zona sur
## [1] 1879
2. Análisis exploratorio de datos enfocado en la
correlación
## preciom areaconst banios habitaciones
## Min. : 75.0 Min. : 40.00 Min. :0.000 Min. :0.000
## 1st Qu.: 166.5 1st Qu.: 63.00 1st Qu.:2.000 1st Qu.:3.000
## Median : 245.0 Median : 80.00 Median :2.000 Median :3.000
## Mean : 282.7 Mean : 91.07 Mean :2.394 Mean :2.903
## 3rd Qu.: 320.0 3rd Qu.:102.00 3rd Qu.:3.000 3rd Qu.:3.000
## Max. :1600.0 Max. :600.00 Max. :7.000 Max. :6.000
## parqueaderos
## Min. :1.000
## 1st Qu.:1.000
## Median :1.000
## Mean :1.434
## 3rd Qu.:2.000
## Max. :5.000
2.1 Distribución y asimetría
## # A tibble: 5 × 3
## variable skewness kurtosis
## <chr> <dbl> <dbl>
## 1 preciom 2.67 11.2
## 2 areaconst 3.50 22.1
## 3 banios 1.29 2.22
## 4 habitaciones -0.147 2.71
## 5 parqueaderos 1.97 4.81
El precio (preciom) presenta asimetría positiva marcada. La mayoría de apartamentos se concentran entre $200MM y $500MM. Existe una cola larga hacia la derecha precios que alcanzan hasta los 1.500-2.000 millones.
El área tambien presenta asimetría positiva marcada. La mayoría de observaciones se ubican entre 50 y 150 m². Existen algunos atípicos de gran área de hasta 600m²
La distribución muestra que la mayor parte de los apartamentos tienen 2 baños. El segundo grupo más común es el de 3 baños.
La mayor concentración está 3 habitaciones. Existen casos menos frecuentes con 5 habitaciones.
2.2 Matriz de Correlación
## preciom areaconst banios habitaciones parqueaderos
## preciom 1.000 0.847 0.736 0.346 0.446
## areaconst 0.847 1.000 0.719 0.463 0.413
## banios 0.736 0.719 1.000 0.485 0.364
## habitaciones 0.346 0.463 0.485 1.000 0.141
## parqueaderos 0.446 0.413 0.364 0.141 1.000
- PrecioApto y ÁreaConstruccion (0.847): Esta correlación es la más fuerte y positiva. Indica que a mayor área, mayor es el precio
- PrecioApto y CantidadBanos (0.736): Esta correlación positiva indica que los apartamentos con más baños tienden a tener precios más altos. La relación es significativa pero no tan fuerte como la del área de construcción.
- PrecioApto y Parqueaderos (0.446): La correlación positiva, aunque moderada, sugiere que hay una relación entre el número de parqueaderos y el precio del apartamento.
- PrecioApto y CantidadHabitaciones (0.346): La correlación positiva sugiere que las viviendas con más habitaciones tienden a incrementar.
- ÁreaConstruccion y CantidadBanos (0.719) / ÁreaConstruccion y CantidadHabitaciones (0.463): Estas correlaciones indican que apartamentos más grandes no solo son más costosos sino que tienden a tener más baños y habitaciones.
Relación precio - área construida
- Relación precio - número de baños
Relación precio - número de habitaciones
Relación precio - parqueaderos
Relación precio - estrato
Estratos más altos, tienden a precios más altos
Estrato 3 concentra precios bajos, entre ~100 y 200 millones, con poca dispersión.
Estrato 4 muestra precios entre ~150 y 300 millones, con una mediana cercana a 200 M.
Estrato 5, la mediana se ubica alrededor de 300 M, con una mayor dispersión y algunos valores atípicos que superan los 1.200 M.
Estrato 6: presenta la mayor variabilidad.La mediana está entre 500–600 M, pero con un rango que va desde 200 M hasta más de 1.500 M, incluyendo numerosos outliers de alto valor.
Cantidad registros con valor 0
## Registros con baños = 0: 2
## Registros con habitaciones = 0: 5
## Nuevo registro de datos: 1873
Depuración de datos. Se identificaron 2 registros
con banios = 0 y 5 con habitaciones = 0. Dada su baja proporción, se
excluyeron del set de modelado; esta depuración no sesga los resultados
##
## Call:
## lm(formula = preciom ~ areaconst + factor(estrato) + habitaciones +
## parqueaderos + banios, data = base2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -758.43 -29.93 0.90 32.86 649.37
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -21.63248 11.37335 -1.902 0.057321 .
## areaconst 2.16524 0.06037 35.865 < 2e-16 ***
## factor(estrato)4 25.46594 7.50685 3.392 0.000707 ***
## factor(estrato)5 62.07073 7.83364 7.924 3.93e-15 ***
## factor(estrato)6 174.46847 9.52842 18.310 < 2e-16 ***
## habitaciones -18.14514 3.49622 -5.190 2.33e-07 ***
## parqueaderos 15.87350 2.67376 5.937 3.46e-09 ***
## banios 31.95691 3.15158 10.140 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 71.32 on 1865 degrees of freedom
## Multiple R-squared: 0.8232, Adjusted R-squared: 0.8226
## F-statistic: 1241 on 7 and 1865 DF, p-value: < 2.2e-16
Interpretación de coeficientes
- Intercepto (β₀ = 21.6, p = 0.0573): Corresponde al precio cuando área, baños, habitaciones y parqueaderos son 0 y el estrato es 3. Ese punto está fuera del rango real (no hay apartamentos con 0 m²), por lo que no tiene interpretación económica y además no es significativo.
- Área construida (β = 2.165, p < 0.001; significativo).Por cada unidad de aumento en el área +1 m² se asocia con 2.16 millones de pesos. Es el predictor más fuerte.
- Estrato (base = 3; todos significativos):los coeficientes de Estrato 4, 5 y 6 son positivos y estadísticamente significativos, lo que confirma que los apartamentos en estratos más altos presentan precios mayores. El mayor incremento se observa en Estrato 6, con un efecto muy superior frente a los demás, pero presenta mayor error estándar (≈ 30,8), reflejando más variabilidad.
- Cantidad de Habitaciones: Curiosamente, aparece con coeficiente negativo: a mayor número de habitaciones, el precio disminuye en promedio 18.1 millones, manteniendo constantes las demás variables.Esto puede reflejar multicolinealidad con el área
- Cantidad Baños (β = 31.96, p < 0.001; significativo)Cada baño adicional incrementa en promedio 32 millones el valor de la vivienda, confirmando su peso como variable explicativa.
Parqueaderos: Cada parqueadero adicional se asocia con un aumento promedio de 15.9 millones en el precio.
R² y ajuste del modelo
- R² = 0.823:: El modelo explica ≈ 82% de la variabilidad observada en el precio de los apartamentos en la zona Sur. El 18% restante podría estar asociado a factores no incluidos, como la ubicación , antigüedad del inmueble o calidad de acabados
R² ajustado: 0.8226 ajusta el R² en función del número de predictores en el modelo, proporcionando una medida más precisa de la bondad de ajuste para modelos con múltiples variables.
Prueba F (p < 2.2e-16) Confirma que el modelo, en conjunto, es altamente significativo
El ajuste podría mejorarse:
Agregar variables explicativas clave como antiguedad
Dado que el precio presenta asimetría positiva (cola larga a la derecha), aplicar transformaciones como log(precio) puede estabilizar la varianza y mejorar la linealidad.
Maneo de datos atípicos, ya que existen apartamentos demasiados
costosos
Pruebas formales y diagnóstico complementarios
Observaciones influyentes
Linealiad
Normalidad
Homocedasticidad
Influencia de observaciones
Validaciones adicionales
Prueba de normalidad Shapiro–Wilk de los residuos
| statistic | p.value | method |
|---|---|---|
| 0.8203831 | 0 | Shapiro-Wilk normality test |
Breusch-Pagan (homocedasticidad)
| statistic | p.value | parameter | method |
|---|---|---|---|
| 572.7976 | <2e-16 | 7 | studentized Breusch-Pagan test |
p-value < 2e-16 → extremadamente pequeño ⇒ rechazas H₀. Hay heterocedasticidad: la varianza del error cambia con el nivel de las variables/valores ajustados (coincide con tu Scale-Location, donde la dispersión crece para precios altos).
Las validaciones confirman que el modelo viola dos supuestos clave:
Normalidad de residuos (Shapiro–Wilk).
Homoscedasticidad (Breusch–Pagan).
Multicolinealidad
| Variable | GVIF | Df | GVIF_ajust | |
|---|---|---|---|---|
| areaconst | areaconst | 2.518 | 1 | 1.587 |
| factor(estrato) | factor(estrato) | 1.871 | 3 | 1.110 |
| habitaciones | habitaciones | 1.466 | 1 | 1.211 |
| parqueaderos | parqueaderos | 1.276 | 1 | 1.130 |
| banios | banios | 2.672 | 1 | 1.634 |
Los valores de GVIF y GVIF ajustado se encuentran entre 1.1 y 2.7, muy por debajo de los umbrales críticos (5 o 10). Esto significa que no existe multicolinealidad severa entre las variables explicativas incluidas en el modelo. Es decir las variables no están excesivamente correlacionadas entre sí, por lo que cada una aporta información diferenciada al modelo.
La mayoría de las observaciones tiene valores muy bajos,, lo que indica que no influyen de forma relevante en el modelo.Sin embargo, aparecen algunos casos atípicos con influencia alta: por ejemplo, las observaciones 631, 550 y 1680 sobresalen del resto.Estas corresponden probablemente a viviendas con precios o características muy extremos (outliers).
Sugerencias
Revisar los registros para verificar si son errores de captura o casos válidos pero atípicos.
Aplicar transformaciones (ej. log(precio)
Identificar y evaluar el impacto de outliers (decidir si excluirlos o tratarlos).
| estrato | tipo | Precio_estimado | LI | LS | |
|---|---|---|---|---|---|
| 1…1 | 5 | Predicción (obs) | 742.8 | 600.9 | 884.6 |
| 1…2 | 6 | Predicción (obs) | 855.2 | 713.4 | 996.9 |
Con las características de la Vivienda 2 (apartamento de 300mm², 3 parqueadero, 3 baños,5 habitaciones, el precio estimado es:
- Estrato 5: $742,8 millones; intervalo de predicción 95%: [$600,9; $884,6] millones
- Estrato 6: $855,2 millones; intervalo de predicción 95%: [$713,4; $996,9] millones.
Frente al crédito preaprobado de $850 millones:
En estrato 5, el estimado está por debajo del presupuesto, pero el límite superior ($884,6 M) supera $850 M, por lo que existe riesgo de que el precio real lo exceda.
6.1 Intervalo de confianza (IC): Refleja la estimación del precio promedio esperado para vivienda con esas características
| barrio | estrato | areaconst | banios | habitaciones | parqueaderos | precio_pred (M) |
|---|---|---|---|---|---|---|
| San Fernando | 5 | 258 | 4 | 5 | 2 | 667.9 |
| el ingenio | 6 | 250 | 4 | 5 | 2 | 763.0 |
| ciudad jardin | 6 | 274 | 4 | 4 | 3 | 849.0 |
| pance | 6 | 220 | 4 | 4 | 4 | 747.9 |
| ciudadela pasoancho | 5 | 249 | 4 | 4 | 2 | 666.6 |
Con el IC (95%) se identifican apartamentos en estratos 5–6 que, en promedio, se ajustan al perfil de la Vivienda 2 (apto 300 m², 3 baños, 5 habitaciones, 3 parqueaderos) y ≤ 850 M.
Sin embargo como la vivenda 1, se realizará el análisis del intervalo de predicción
6.2 Intervalo de predicción: Refleja el rango donde puede caear el precio de una vivienda individual (Vivienda 1 )
| id | barrio | estrato | areaconst | habitaciones | banios | parqueaderos | Pred (M) | LI (M) | LS (M) | ≤ 850 M | Riesgo LS>850 |
|---|---|---|---|---|---|---|---|---|---|---|---|
| 1 | ciudad jardin | 6 | 274 | 4 | 4 | 3 | 849 | 708.2 | 989.7 | Sí | Sí |
Conclusión
El análisis permitió identificar, mediante el Intervalo de Confianza (IC 95%), 5 ofertas potenciales en estratos 5 y 6 que cumplen, en promedio, con el perfil definido para la Vivienda 2 (apartamento de 300 m², 3 baños, 5 habitaciones, 3 parqueaderos) y con el presupuesto máximo de 850 millones.
Sin embargo, al aplicar el Intervalo de Predicción (PI 95%), la disponibilidad se restringió a una única alternativa (Ciudad Jardín, estrato 6), cuyo valor predicho (849 M) está dentro del presupuesto, pero cuyo límite superior (989,7 M) refleja un riesgo significativo de sobrecosto.
En consecuencia, las 5 ofertas identificadas por IC pueden considerarse como la filtro inicial de alternativas, mientras que la única oferta que cumple bajo PI constituye la opción más realista, aunque debe analizarse con cautela y con posibilidades de negociación para no exceder el crédito aprobado.