Introducción

El siguiente reporte busca presentar un análisis estadístico exploratorio, incluyendo la modelación de modelos de regresión lineal múltiple, con el propósito de identificar viviendas que se ajusten a los requerimientos de la cliente María para el escenario establecido. Los vendedores de C&A encontrarán, en los anexos, cada uno de los insumos para cada caso, siendo estos específicamente el análisis exploratorio de datos junto con análisis univariado y multivariado, modelaciones, prueba de supuestos, aplicación de modelos y mapas de referenciación.

Análisis del mercado inmobiliario general - para contexto, usado en el reporte anterior

El análisis detallado de la base de datos de viviendas en Cali revela un mercado inmobiliario principalmente de clase media-alta, con una fuerte representación en los estratos 4 y 5, abarcando el 58.63% de las viviendas (25.59% en estrato 4 y 33.04% en estrato 5). El precio por M2 depende estrechamente de la zona y el estrato donde se encuentra la vivienda, existiendo fuerte variabilidad por casos extremos (muy costosos), mientras que el área construida es más estable en el panorama actual. En general, el mercado está orientado hacia el sector multifamiliar de clase media, con una mayor proporción de apartamentos (61%) que de casas (39%), y con viviendas típicas que tienen un área construida de alrededor de 175m² (promedio general), al menos un parqueadero, tres baños y tres habitaciones. En cuanto al precio por metro cuadrado, el 50% de las viviendas ofertadas tienen un precio que ronda entre los COP 220,000 y COP 540,000, siendo el promedio COP 432,425.

Disclaimer: para un análisis más completo por favor visitar el siguiente link https://rpubs.com/cardonanl/1269516

Asesoría Vivienda 1

El análisis estadístico para esta zona indica que es un mercado caracterizado por una orientación hacia la clase media y alta, lo que se refleja en la ausencia de vivienda popular (estratos menores a 3). En términos de características promedio, una vivienda típica en esta zona tiene un área construida de 259.57 m2, 1.42 parqueaderos (tal cosa es imposible, luego sabemos que el 50% tienen por lo menos 1 parqueadero), 3.52 baños y 4.59 habitaciones, mientras que su precio por m2 ronda los COP 428,190.

Ahora, la fórmula para proyectar precios en esta zona, producto de la modelación de la regresión lineal múltiple, sugiere la siguiente aproximación:

\(\hat{y} = -2.08 + 1.3881 \cdot \text{Área Construida} + 18.2219 \cdot \text{Estrato 4} + 38.0364 \cdot \text{Estrato 5} + 200.0779 \cdot \text{Estrato 6} - 14.8544 \cdot \text{Habitaciones} + 45.1798 \cdot \text{Parqueaderos} + 39.8380 \cdot \text{Baños}\)

Teniendo en cuenta las necesidades de la clienta, el valor del m2 esperado de una vivienda en este sector es de entre COP 258,720 en el estrato 3 hasta los COP 583,000 en el estrato 6. Vale la pena mencionar que el área construida es una variable muy importante a tener en cuenta a la hora del precio, así como el estrato en el que se ubica y algunas de las disposiciones internas como el número de baños.

Así, se identifican cinco viviendas que se ajustan a los criterios presentados por la clienta (ver Mapa 5 en anexos para encontrar todos los detalles):

ID Vivienda Barrio Precio por M2 Precio total
5122 Chipichape 600,000 132,000,000
4555 Santa Mónica Residencial 550,000 110,000,000
2742 Vipasa 450,000 99,000,000
1410 Vipasa 449,000 98,780,000
4557 Santa Mónica Residencial 490,000 98,000,000

Se le sugiere a los vendedores tener extremo cuidado con el uso de la fórmula propeusta en cuanto adolece de múltiples problemas en sus supuestos y, por tanto, en su precisión. Sin emabrgo, se invita a consultar el resto del documento para visibilizar la caracterización de las zonas de interés y la georeferenciación basada en filtros directos.

ANEXOS

Antes de detallar este análisis vale la pena señalar que se realizó un proceso de limpieza y tratamiento de datos:

Vivienda 1

Creación de sub-sets de datos y análisis exploratorio

## # A tibble: 3 × 13
##      id zona     piso estrato preciom areaconst parqueaderos banios habitaciones
##   <dbl> <chr>   <dbl>   <dbl>   <dbl>     <dbl>        <dbl>  <dbl>        <dbl>
## 1  1209 Zona N…     2       5     320       150            2      4            6
## 2  1592 Zona N…     2       5     780       380            2      3            3
## 3  4057 Zona N…     2       6     750       445            0      7            6
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>
## [1] "Número de viviendas por zona (verificar que solo salga Zona Norte):"
## 
## Zona Norte 
##        722

Después de realizada la limpieza inicial y el primer filtro notamos que existen un número considerable de viviendas que se encuentran mal catalogadas bajo el rótulo de Zona Norte, aunque el mapa de calor creado a partir del número de viviedas pareciese indicar que de cualquier manera el subset de datos se concentra en esta zona.

Mapa 1 y 2: Ubicación y mapa de calor por concentración de viviendas en el subset de datos Zona Norte + Casas

## ℹ <https://maps.googleapis.com/maps/api/staticmap?center=3.460184,-76.517117&zoom=12&size=640x640&scale=2&maptype=roadmap&language=en-EN&key=xxx>
## Warning: The dot-dot notation (`..level..`) was deprecated in ggplot2 3.4.0.
## ℹ Please use `after_stat(level)` instead.
## ℹ The deprecated feature was likely used in the ggmap package.
##   Please report the issue at <https://github.com/dkahle/ggmap/issues>.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
## Warning: Removed 4 rows containing non-finite outside the scale range
## (`stat_density2d()`).

Debido a la situación anterior, y teniendo en cuenta que la bifurcacións de la Carrera 15 con respecto a la Calle 5 bordea las Comunas 3, 4, 5 y 6, se eligió la latitud 3.44222 (punto sur de la Carrera 15) como valor arbitrario para excluir los puntos incorrectamente catalogados y así, como indica el Mapa 3, quedar con una base robusta para esta zona y este tipo de vivienda.

Mapa 3: Ubicación de las viviendas con ajuste empírico por coordenadas

Con el set de datos corregidos, las siguientes tres tablas permiten observar las medidas de tendencia central y dispersión de las variables cuantitativas de interés. Se evidencia que el mercado inmobiliario en la zona norte para casas sigue una orientación hacia la clase media y alta, lo que se refleja en la ausencia de vivienda popular (estratos menores a 3). En términos de características promedio, una vivienda típica en esta zona tiene un área construida de 259.57 m2, 1.42 parqueaderos (tal cosa es imposible, luego sabemos que el 50% tienen por lo menos 1 parqueadero), 3.52 baños y 4.59 habitaciones, mientras que su precio por m2 ronda los COP 428,190.

Sin embargo, esta visión general debe matizarse debido a la alta variabilidad en algunas dimensiones. Por ejemplo, el precio por m2 tiene un coeficiente de variación del 61%, lo que indica una dispersión considerable en los valores del mercado, reflejando la heterogeneidad de la oferta inmobiliaria en la zona. Para precisar mejor esta caracterización, podemos afirmar que el 50% de las viviendas ofertadas tienen entre 140 y 334.25 m², pertenecen mayoritariamente a estratos 3 y 5 (73% de las viviendas), y su precio por m² oscila entre COP 244,500 y COP 536,250. Adicionalmente, las viviendas en esta zona suelen contar con entre 3 y 5 habitaciones, de 2 a 4 baños y hasta 2 parqueaderos, lo que confirma un segmento de mercado orientado a familias de ingresos medios y altos.

Estadísticas descriptivas de las variables numéricas - Primera Vivienda
Variable Mean Median SD Min Max CV
preciom 428.19 380.0 260.93 89 1940 0.61
areaconst 259.57 239.5 167.09 30 1440 0.64
parqueaderos 1.42 1.0 1.55 0 10 1.09
banios 3.52 3.0 1.51 0 10 0.43
habitaciones 4.59 4.0 1.81 0 10 0.39
Frecuencia y Porcentaje de Viviendas por Estrato - Primera Vivienda
Estrato Frecuencia Porcentaje (%)
5 230 38.33
3 208 34.67
4 128 21.33
6 34 5.67
Cuartiles para variables de interés - Primera Vivienda
Variable Q1 Mediana Q3
areaconst 140.0 239.5 334.25
preciom 244.5 380.0 536.25
habitac 3.0 4.0 5.00
parqueaderos 0.0 1.0 2.00
banios 2.0 3.0 4.00

Pasando a un análisis de correlación de Pearson por pares de variables, parece ser que en todos los casos hay un nivel de significancia estadística alta (*** indica p < 0.001) aunque se observa que no todas las variables tienden hacia la normalidad y que, además, el nivel de correlación cambien en intensidad.

Vease, por ejemplo, que existe una fuerte relación positiva fuerte entre preciom y área constuida (0.74) indicando que, en general, las viviendas más grandes tienden a tener un mayor precio por metro cuadrado o que sencillamente el tamaño es determinante para el precio. Por otra parte, la relación de precio por metro cuadrado con el número de baños (0.55), parqueaderos (0.41) y habitaciones (0.5) indican una influencia importante de estos factores al precio final aunque de manera moderada. A la final, puede que haya una situación de endogeneidad en cuanto para tener más baños y habitaciones necesariamente si debe tener un área de construcción mayor.

Notese que las distribuciones de las variables preciom, area construida y parqueaderos están sesgadas a la derecha, evidenciando la presencia de valores atípicos, es decir, vivienda excepcionalmente costosas, grandes y con ofertas anormales de parqueaderos.

Gráfica 1: Correlación por variables (pares) junto con gráficos de densidad

Gráfica 2: BoxPlot de PrecioM para las casas de la zona norte

En cuanto a los estratos, la distribución no es completamente homogénea, pero los rangos intercuartiles de los estratos 3, 4 y 5 son similares, lo que sugiere que podrían agruparse operativamente sin generar grandes diferencias en precios. En contraste, el estrato 6 presenta los valores más altos y una mayor dispersión, evidenciada en la longitud de sus bigotes y la presencia de múltiples valores atípicos, indicando mayor heterogeneidad, dando respuesta parcial a la razón del fenómeno del sesgo a la derecha observado en la distribución de esta variable.

Para medir el nivel de relación entre estrato y preciom se usó una ANOVA y un test de Kruskal-Wallis que confirman diferencias significativas en el precio de la vivienda según el estrato (F = 108.6, p < 2.2e-16), validando la segmentación con base en este criterio. El alto valor de F indica que la variabilidad entre los grupos es considerablemente mayor que la variabilidad dentro de cada grupo, lo que sugiere que el estrato es un factor clave en la determinación del precio.

Gráfica 3: Box plot del precio por M2 en cada estrato y ANOVA (estrato ~ preciom)

##                     Df   Sum Sq Mean Sq F value Pr(>F)    
## as.factor(estrato)   3 14417782 4805927   108.6 <2e-16 ***
## Residuals          596 26365858   44238                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
##  Kruskal-Wallis rank sum test
## 
## data:  preciom by as.factor(estrato)
## Kruskal-Wallis chi-squared = 305.85, df = 3, p-value < 2.2e-16

Conociendo la diferencia entre estratos, se hace pertinente conocer además la diferencia entre barrios en cuanto incluso en un mismo estrato y barrio puede haber una distribución sesgada del valor de la vivienda. Solo de manera exploratoria, podemos ver que los cinco barrios con más viviendas en la base de datos tienen rangos intercuartiles dentro de casi los mismos valores pero cada uno con valores extremos presentes que marcan la diferencia. Esto puede permiter un llamado a la calma en cuanto la oferta de vivienda en este caso, con excepciones, igual parece tener patrones similares.

Gráfica 4: BoxPlot de precios en los 5 barrios con más viviendas

Teniendo en cuenta lo anterior, vale la pena hacer una mención de la distribución del precio por metro cuadrado en cuanto será la variable independiente en la modelación de la regresión. Esta presenta un sesgo a la derecha, lo que indica que la mayoría de las viviendas tienen precios más bajos, mientras que hay algunas con valores significativamente más altos que elevan la media (428.19 COP/m2) por encima de la mediana (380 COP/m2). Se confirma la presencia de un segmento de mercado premium que incrementa la dispersión de los precios. La concentración de precios en el rango inferior también refuerza la idea de que el mercado predominante se encuentra en estratos medios.

Gráfica 5: Histograma del precio por M2

Finalmente, se deja a disposición del equipo inmobiliario el siguiente mapa para una concepción espacial de la discusión, donde se ven tres cluster geográficos preliminares: la Zona de la Comuna 2 con barrios claves como Granada y La Flora, la zona de la Comuna 19 hacia San Antonio y el casco histórico, y la zona de las comunas 4,8,5 y 7 donde se ubica barrios como La Base, representativos de las clases medias y trabajadoras.

Mapa 4: Mapa de calor por PrecioM en las casas de la Zona Norte

## ℹ <https://maps.googleapis.com/maps/api/staticmap?center=3.460184,-76.517117&zoom=12&size=640x640&scale=2&maptype=roadmap&language=en-EN&key=xxx>
## Scale for fill is already present.
## Adding another scale for fill, which will replace the existing scale.

Estimación de modelo líneal múltiple para predecir precios

Debido a la necesidad de contar con variables independientes con distribución normal se hace una revisión repliminar de estas en detalle. Se observa que ninguna parece distribuirse normalmente lo que puede estar relacionado con outliers

Gráfica 6: Gráficas de densidad para variables numéricas

Prueba de Normalidad Shapiro-Wilk para variables numéricas
Variable P_valor Conclusión
p_valor_areaconst 0 Rechazar H0 (No Normalidad)
p_valor_banios 0 Rechazar H0 (No Normalidad)
p_valor_habitaciones 0 Rechazar H0 (No Normalidad)
p_valor_parqueaderos 0 Rechazar H0 (No Normalidad)
p_valor_piso 0 Rechazar H0 (No Normalidad)
p_valor_preciom 0 Rechazar H0 (No Normalidad)

Intentando aplicar la Regla de Tukey con el propósito de reducir la incidencia de outliers en algunas de las variables, vemos que continuan existiendo problemas de normalidad. Esto puede afectar considerablemente el rendimiento del modelo y puede sugerir que estos datos no sean modelables bajo modelos lineales.

Gráfica 7: Gráficas de densidad para variables numéricas sin outliers (Regla de Tukey)

## Filas antes: 600
## Filas después: 490
Prueba de Normalidad Shapiro-Wilk para variables numéricas
Variable P_valor Conclusión
p_valor_areaconst 0 Rechazar H0 (No Normalidad)
p_valor_banios 0 Rechazar H0 (No Normalidad)
p_valor_habitaciones 0 Rechazar H0 (No Normalidad)
p_valor_parqueaderos 0 Rechazar H0 (No Normalidad)
p_valor_piso 0 Rechazar H0 (No Normalidad)
p_valor_preciom 0 Rechazar H0 (No Normalidad)

De cualquier manera, a continuación se presenta un modelo lineal múltiple como ejercicio de aproximación a la proyección de precios. Los resultados indican que:

  • Área construida como principal predictor: El coeficiente de areaconst es 0.78, lo que indica que por cada metro cuadrado adicional, el precio por metro cuadrado aumenta en 0.79 COP en promedio. Además, su p-valor confirma que es altamente significativo.

  • Impacto del estrato en el precio: Los coeficientes de los estratos muestran un efecto positivo y creciente en el precio por metro cuadrado. En comparación con el estrato 3 (referencia), el estrato 4 aumenta el precio en 77 COP, el estrato 5 en 124 COP y el estrato 6 en 264 COP, siendo todos estos efectos estadísticamente significativos (p < 0.001).

  • Significancia de baños y parqueaderos: Aunque el número de baños tiene un impacto positivo (23.28 COP adicionales por cada baño), el número de parqueaderos también influye pero con menor magnitud (10.11 COP por parqueadero). Ambos son significativos, aunque los baños tienen un efecto más fuerte en el precio.

  • Variables sin significancia estadística: El número de habitaciones no es un predictor significativo del precio (p = 0.177), lo que puede estar relacionado con la suposición que el efecto de las habitaciones es asumido por la priorización sobre el área construida.

  • Calidad del ajuste del modelo: El R2 ajustado de 0.6436 indica que el modelo explica aproximadamente el 64.4% de la variabilidad en el precio por metro cuadrado. Aunque es un buen ajuste, hay factores adicionales que pueden estar influyendo en los precios.

## 
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos + 
##     banios, data = base1)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -950.07  -72.10  -17.39   36.63 1081.67 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   18.8336    19.2066   0.981 0.327201    
## areaconst      0.7872     0.0492  15.999  < 2e-16 ***
## estrato4      77.0009    19.0824   4.035 6.17e-05 ***
## estrato5     124.4351    18.5064   6.724 4.17e-11 ***
## estrato6     264.8720    32.2390   8.216 1.33e-15 ***
## habitaciones   6.4391     4.7668   1.351 0.177275    
## parqueaderos  10.1091     4.8003   2.106 0.035632 *  
## banios        23.2861     6.1076   3.813 0.000152 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 155.8 on 592 degrees of freedom
## Multiple R-squared:  0.6477, Adjusted R-squared:  0.6436 
## F-statistic: 155.5 on 7 and 592 DF,  p-value: < 2.2e-16

Lamentablemente, este modelo no cumple con la mayor parte de los supuestos: los residuos no siguen una distribución normal, afectando la validez del intervalo de confianza y la significancia real del modelo; la varianza de los residuos no es constante debido a la heterocedasticidad, sugiriendo la no uniformidad de la relación y, a su vez, la posibilidad necesidad de modelos no lineales; y se presenta autocorrelación de residuos, afectando confiabilidad de coeficientes. Sin embargo, parece haber linealidad en la relación, abriendo la posibilidad de modelaciones con modelos de estimación generalizada, por ejemplo.

Resultados de las pruebas de hipótesis para validar los supuestos del modelo, incluyendo linealidad
Prueba Valor_P Conclusión
Shapiro-Wilk Test de Normalidad 0.0e+00 Rechazar H0 (No Normalidad)
Breusch-Pagan Test para Homocedasticidad 0.0e+00 Rechazar H0 (Heterocedasticidad)
Durbin-Watson Test para Autocorrelación 1.3e-05 Rechazar H0 (Autocorrelación)
Verificación de Linealidad (Media de Residuos cercana a 0) 0.0e+00 No se rechaza H0 (Linealidad)

Gráfica 8: Supuestos del modelo (homocedasticidad y normalidad)

## [1] "Valores VIF (Factor de Inflación de Varianza):"
##                  GVIF Df GVIF^(1/(2*Df))
## areaconst    1.668368  1        1.291653
## estrato      1.675361  3        1.089812
## habitaciones 1.839605  1        1.356321
## parqueaderos 1.361243  1        1.166723
## banios       2.096084  1        1.447786

Aplicación del modelo

No se recomienda proyectar precios con este modelo. Sin embargo, y para términos ilustrativos, la forma de aplicarlo es remplazar las variables por los valores deseados sobre la siguiente fórmula:

\(\hat{y} = 18.83 + 0.7872 \cdot \text{Área Construida} + 77.009\cdot \text{Estrato 4} + 124.4351 \cdot \text{Estrato 5} + 264.8720 \cdot \text{Estrato 6} + 6.4391 \cdot \text{Habitaciones} + 10.1091 \cdot \text{Parqueaderos} + 23.2861 \cdot \text{Baños}\)

Así, bajo las necesidades de las clientes, se podría esperar que una vivienda con 200 m2 de área construida, 4 habitaciones, 1 parqueadero y 2 baños, el modelo estima que el precio por metro cuadrado será de:

  • Estrato 4: COP 335,720/m², con un intervalo de confianza entre COP 303,230 y COP 368,200/m².

  • Estrato 5: COP 383,150/m², con un intervalo de confianza entre COP 353,620 y COP 412,670/m².

  • Estrato 6: COP 523,590/m², con un intervalo de confianza entre COP 463,290 y COP 583,88/m².

Esto significa que, con un 95% de confianza, el precio por metro cuadrado de una vivienda con estas características caerá dentro de esos rangos según su estrato.

Predicción del Precio con Intervalos de Confianza (95%)
Estrato Precio_Predicho IC_Lower IC_Upper
4 335.72 303.23 368.20
5 383.15 353.62 412.67
6 523.59 463.29 583.88

A continuación se presenta un mapa y una tabla con viviendas que cumplen estos criterios. Dar click en los puntos para mayor detalle.

Mapa 5: Mapa con la ubicación de cinco viviendas que cumplen con el criterio seleccionado

## # A tibble: 5 × 14
##      id zona     piso estrato preciom areaconst parqueaderos banios habitaciones
##   <dbl> <chr>   <dbl> <fct>     <dbl>     <dbl>        <dbl>  <dbl>        <dbl>
## 1  5152 Zona N…     2 5           600       220            2      4            4
## 2  4555 Zona N…     1 5           550       200            3      2            4
## 3  2742 Zona N…     1 4           450       220            2      5            5
## 4  1410 Zona N…     1 4           449       220            4      4            3
## 5  4557 Zona N…     1 5           490       200            4      3            4
## # ℹ 5 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>,
## #   precio_total <dbl>

Vivienda 2 - Sin análisis

Creación de sub-sets de datos y análisis exploratorio

## # A tibble: 3 × 13
##      id zona     piso estrato preciom areaconst parqueaderos banios habitaciones
##   <dbl> <chr>   <dbl>   <dbl>   <dbl>     <dbl>        <dbl>  <dbl>        <dbl>
## 1  5098 Zona S…     5       4     290        96            1      2            3
## 2   698 Zona S…     2       3      78        40            1      1            2
## 3  8199 Zona S…     5       6     875       194            2      5            3
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>
## [1] "Número de viviendas por zona (verificar que solo salga Zona Sur):"
## 
## Zona Sur 
##     2787

Mapa 6 y 7: Ubicación y mapa de calor por concentración de viviendas en el subset de datos Zona Sur + Apartamentos

## ℹ <https://maps.googleapis.com/maps/api/staticmap?center=3.389542,-76.529116&zoom=12&size=640x640&scale=2&maptype=roadmap&language=en-EN&key=xxx>

Mapa 8: Ubicación de las viviendas con ajuste empírico por coordenadas

Estadísticas descriptivas de las variables numéricas - Segunda Vivienda
Variable Mean Median SD Min Max CV
preciom 297.29 245 191.55 75 1750 0.64
areaconst 97.47 85 52.57 40 932 0.54
parqueaderos 1.21 1 0.79 0 10 0.66
banios 2.49 2 0.93 0 8 0.38
habitaciones 2.97 3 0.63 0 6 0.21
Cuartiles para variables de interés - Segunda Vivienda
Variable Q1 Mediana Q3
areaconst 65 85 110
preciom 175 245 335
habitac 3 3 3
parqueaderos 1 1 2
banios 2 2 3

Gráfica 9: Correlación por variables (pares) junto con gráficos de densidad - zona sur

Gráfica 10: BoxPlot de PrecioM para las casas de la zona sur

Gráfica 11: Box plot del precio por M2 en cada estrato y ANOVA (estrato ~ preciom)

##                      Df   Sum Sq  Mean Sq F value Pr(>F)    
## as.factor(estrato)    3 55301626 18433875    1093 <2e-16 ***
## Residuals          2783 46921240    16860                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
##  Kruskal-Wallis rank sum test
## 
## data:  preciom by as.factor(estrato)
## Kruskal-Wallis chi-squared = 1601, df = 3, p-value < 2.2e-16

Gráfica 12: BoxPlot de precios en los 5 barrios con más viviendas - Zona Sur

Gráfica 13: Histograma del precio por M2 - Zona Sur

Mapa 9: Mapa de calor por PrecioM en las casas de la Zona Sur

## Warning in stat_density2d(aes(x = longitud, y = latitud, weight = preciom, :
## Ignoring unknown aesthetics: weight
## Scale for fill is already present.
## Adding another scale for fill, which will replace the existing scale.
## Warning: The following aesthetics were dropped during statistical transformation:
## weight.
## ℹ This can happen when ggplot fails to infer the correct grouping structure in
##   the data.
## ℹ Did you forget to specify a `group` aesthetic or to convert a numerical
##   variable into a factor?

Estimación de modelo líneal múltiple para predecir precios

Gráfica 14: Distribución de Tipos de Vivienda por Zona Sur

## 
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos + 
##     banios, data = base2)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1150.78   -36.57     0.30    32.72   899.13 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   -2.08000    9.92911  -0.209  0.83409    
## areaconst      1.38808    0.04552  30.491  < 2e-16 ***
## estrato4      18.22187    6.93492   2.628  0.00865 ** 
## estrato5      38.03643    7.25139   5.245 1.68e-07 ***
## estrato6     200.07789    9.10792  21.967  < 2e-16 ***
## habitaciones -14.85444    3.18508  -4.664 3.25e-06 ***
## parqueaderos  45.17983    2.81080  16.074  < 2e-16 ***
## banios        39.83801    2.86856  13.888  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 88.32 on 2779 degrees of freedom
## Multiple R-squared:  0.788,  Adjusted R-squared:  0.7874 
## F-statistic:  1475 on 7 and 2779 DF,  p-value: < 2.2e-16
Resultados de las pruebas de hipótesis para validar los supuestos del modelo, incluyendo linealidad - Zona Sur
Prueba Valor_P Conclusión
Shapiro-Wilk Test de Normalidad 0 Rechazar H0 (No Normalidad)
Breusch-Pagan Test para Homocedasticidad 0 Rechazar H0 (Heterocedasticidad)
Durbin-Watson Test para Autocorrelación 0 Rechazar H0 (Autocorrelación)
Verificación de Linealidad (Media de Residuos cercana a 0) 0 No se rechaza H0 (Linealidad)

## [1] "Valores VIF (Factor de Inflación de Varianza):"
##                  GVIF Df GVIF^(1/(2*Df))
## areaconst    2.045582  1        1.430239
## estrato      1.847355  3        1.107707
## habitaciones 1.449855  1        1.204099
## parqueaderos 1.782681  1        1.335171
## banios       2.566178  1        1.601930

Aplicación del modelo

\(\hat{y} = -2.08 + 1.3881 \cdot \text{Área Construida} + 18.2219 \cdot \text{Estrato 4} + 38.0364 \cdot \text{Estrato 5} + 200.0779 \cdot \text{Estrato 6} - 14.8544 \cdot \text{Habitaciones} + 45.1798 \cdot \text{Parqueaderos} + 39.8380 \cdot \text{Baños}\)

Predicción del Precio con Intervalos de Confianza (95%) - Segunda vivienda
Estrato Precio_Predicho IC_Lower IC_Upper
5 633.16 613.97 652.35
6 795.20 775.45 814.96
## # A tibble: 1 × 14
##      id zona     piso estrato preciom areaconst parqueaderos banios habitaciones
##   <dbl> <chr>   <dbl> <fct>     <dbl>     <dbl>        <dbl>  <dbl>        <dbl>
## 1  7512 Zona S…     5 5           670       300            3      5            6
## # ℹ 5 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>,
## #   precio_total <dbl>