El siguiente reporte busca presentar un análisis estadístico exploratorio, incluyendo la modelación de modelos de regresión lineal múltiple, con el propósito de identificar viviendas que se ajusten a los requerimientos de la cliente María para el escenario establecido. Los vendedores de C&A encontrarán, en los anexos, cada uno de los insumos para cada caso, siendo estos específicamente el análisis exploratorio de datos junto con análisis univariado y multivariado, modelaciones, prueba de supuestos, aplicación de modelos y mapas de referenciación.
El análisis detallado de la base de datos de viviendas en Cali revela un mercado inmobiliario principalmente de clase media-alta, con una fuerte representación en los estratos 4 y 5, abarcando el 58.63% de las viviendas (25.59% en estrato 4 y 33.04% en estrato 5). El precio por M2 depende estrechamente de la zona y el estrato donde se encuentra la vivienda, existiendo fuerte variabilidad por casos extremos (muy costosos), mientras que el área construida es más estable en el panorama actual. En general, el mercado está orientado hacia el sector multifamiliar de clase media, con una mayor proporción de apartamentos (61%) que de casas (39%), y con viviendas típicas que tienen un área construida de alrededor de 175m² (promedio general), al menos un parqueadero, tres baños y tres habitaciones. En cuanto al precio por metro cuadrado, el 50% de las viviendas ofertadas tienen un precio que ronda entre los COP 220,000 y COP 540,000, siendo el promedio COP 432,425.
Disclaimer: para un análisis más completo por favor visitar el siguiente link https://rpubs.com/cardonanl/1269516
El análisis estadístico para esta zona indica que es un mercado caracterizado por una orientación hacia la clase media y alta, lo que se refleja en la ausencia de vivienda popular (estratos menores a 3). En términos de características promedio, una vivienda típica en esta zona tiene un área construida de 259.57 m2, 1.42 parqueaderos (tal cosa es imposible, luego sabemos que el 50% tienen por lo menos 1 parqueadero), 3.52 baños y 4.59 habitaciones, mientras que su precio por m2 ronda los COP 428,190.
Ahora, la fórmula para proyectar precios en esta zona, producto de la modelación de la regresión lineal múltiple, sugiere la siguiente aproximación:
\(\hat{y} = -2.08 + 1.3881 \cdot \text{Área Construida} + 18.2219 \cdot \text{Estrato 4} + 38.0364 \cdot \text{Estrato 5} + 200.0779 \cdot \text{Estrato 6} - 14.8544 \cdot \text{Habitaciones} + 45.1798 \cdot \text{Parqueaderos} + 39.8380 \cdot \text{Baños}\)
Teniendo en cuenta las necesidades de la clienta, el valor del m2 esperado de una vivienda en este sector es de entre COP 258,720 en el estrato 3 hasta los COP 583,000 en el estrato 6. Vale la pena mencionar que el área construida es una variable muy importante a tener en cuenta a la hora del precio, así como el estrato en el que se ubica y algunas de las disposiciones internas como el número de baños.
Así, se identifican cinco viviendas que se ajustan a los criterios presentados por la clienta (ver Mapa 5 en anexos para encontrar todos los detalles):
| ID Vivienda | Barrio | Precio por M2 | Precio total |
|---|---|---|---|
| 5122 | Chipichape | 600,000 | 132,000,000 |
| 4555 | Santa Mónica Residencial | 550,000 | 110,000,000 |
| 2742 | Vipasa | 450,000 | 99,000,000 |
| 1410 | Vipasa | 449,000 | 98,780,000 |
| 4557 | Santa Mónica Residencial | 490,000 | 98,000,000 |
Se le sugiere a los vendedores tener extremo cuidado con el uso de la fórmula propeusta en cuanto adolece de múltiples problemas en sus supuestos y, por tanto, en su precisión. Sin emabrgo, se invita a consultar el resto del documento para visibilizar la caracterización de las zonas de interés y la georeferenciación basada en filtros directos.
Antes de detallar este análisis vale la pena señalar que se realizó un proceso de limpieza y tratamiento de datos:
Se excluyeron las filas totalmente vacías y aquellas que tuvieran más de cinco variables NULL al considerarse errores (y potencialmente sesgar la información).
Se unificaron términos relacionados a los barrios y tipo de vivienda para evitar falsos agrupamientos.
Los valores NULL en la variable piso para los apartamentos se computaron según la mediana respectiva la zona donde se encontrara, mientras que en las casas donde se asumió que el valor NULL correspondía a un piso. En el caso del parqueadero se consideró toda variable NULL como 0 en cuanto su no reporte impide hacer una oferta concreta sobre este.
En algunos casos se excluyeron los valores NULL sin eliminar la observación ni computar valores en cuanto la ausencia de datos era menor al 1% de la variable abordada.
Se considera que los valores de preciom están divididos en una escala de mil (e.g. 58 es realmente COP 58,000 por M2).
El formato de la longitud y latitud (ubicación de la vivienda) fue ajustado a escalas de mil para realizar visualizaciones espaciales.
## # A tibble: 3 × 13
## id zona piso estrato preciom areaconst parqueaderos banios habitaciones
## <dbl> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 1209 Zona N… 2 5 320 150 2 4 6
## 2 1592 Zona N… 2 5 780 380 2 3 3
## 3 4057 Zona N… 2 6 750 445 0 7 6
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>
## [1] "Número de viviendas por zona (verificar que solo salga Zona Norte):"
##
## Zona Norte
## 722
Después de realizada la limpieza inicial y el primer filtro notamos que existen un número considerable de viviendas que se encuentran mal catalogadas bajo el rótulo de Zona Norte, aunque el mapa de calor creado a partir del número de viviedas pareciese indicar que de cualquier manera el subset de datos se concentra en esta zona.
## ℹ <https://maps.googleapis.com/maps/api/staticmap?center=3.460184,-76.517117&zoom=12&size=640x640&scale=2&maptype=roadmap&language=en-EN&key=xxx>
## Warning: The dot-dot notation (`..level..`) was deprecated in ggplot2 3.4.0.
## ℹ Please use `after_stat(level)` instead.
## ℹ The deprecated feature was likely used in the ggmap package.
## Please report the issue at <https://github.com/dkahle/ggmap/issues>.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
## Warning: Removed 4 rows containing non-finite outside the scale range
## (`stat_density2d()`).
Debido a la situación anterior, y teniendo en cuenta que la bifurcacións de la Carrera 15 con respecto a la Calle 5 bordea las Comunas 3, 4, 5 y 6, se eligió la latitud 3.44222 (punto sur de la Carrera 15) como valor arbitrario para excluir los puntos incorrectamente catalogados y así, como indica el Mapa 3, quedar con una base robusta para esta zona y este tipo de vivienda.
Con el set de datos corregidos, las siguientes tres tablas permiten observar las medidas de tendencia central y dispersión de las variables cuantitativas de interés. Se evidencia que el mercado inmobiliario en la zona norte para casas sigue una orientación hacia la clase media y alta, lo que se refleja en la ausencia de vivienda popular (estratos menores a 3). En términos de características promedio, una vivienda típica en esta zona tiene un área construida de 259.57 m2, 1.42 parqueaderos (tal cosa es imposible, luego sabemos que el 50% tienen por lo menos 1 parqueadero), 3.52 baños y 4.59 habitaciones, mientras que su precio por m2 ronda los COP 428,190.
Sin embargo, esta visión general debe matizarse debido a la alta variabilidad en algunas dimensiones. Por ejemplo, el precio por m2 tiene un coeficiente de variación del 61%, lo que indica una dispersión considerable en los valores del mercado, reflejando la heterogeneidad de la oferta inmobiliaria en la zona. Para precisar mejor esta caracterización, podemos afirmar que el 50% de las viviendas ofertadas tienen entre 140 y 334.25 m², pertenecen mayoritariamente a estratos 3 y 5 (73% de las viviendas), y su precio por m² oscila entre COP 244,500 y COP 536,250. Adicionalmente, las viviendas en esta zona suelen contar con entre 3 y 5 habitaciones, de 2 a 4 baños y hasta 2 parqueaderos, lo que confirma un segmento de mercado orientado a familias de ingresos medios y altos.
| Variable | Mean | Median | SD | Min | Max | CV |
|---|---|---|---|---|---|---|
| preciom | 428.19 | 380.0 | 260.93 | 89 | 1940 | 0.61 |
| areaconst | 259.57 | 239.5 | 167.09 | 30 | 1440 | 0.64 |
| parqueaderos | 1.42 | 1.0 | 1.55 | 0 | 10 | 1.09 |
| banios | 3.52 | 3.0 | 1.51 | 0 | 10 | 0.43 |
| habitaciones | 4.59 | 4.0 | 1.81 | 0 | 10 | 0.39 |
| Estrato | Frecuencia | Porcentaje (%) |
|---|---|---|
| 5 | 230 | 38.33 |
| 3 | 208 | 34.67 |
| 4 | 128 | 21.33 |
| 6 | 34 | 5.67 |
| Variable | Q1 | Mediana | Q3 |
|---|---|---|---|
| areaconst | 140.0 | 239.5 | 334.25 |
| preciom | 244.5 | 380.0 | 536.25 |
| habitac | 3.0 | 4.0 | 5.00 |
| parqueaderos | 0.0 | 1.0 | 2.00 |
| banios | 2.0 | 3.0 | 4.00 |
Pasando a un análisis de correlación de Pearson por pares de variables, parece ser que en todos los casos hay un nivel de significancia estadística alta (*** indica p < 0.001) aunque se observa que no todas las variables tienden hacia la normalidad y que, además, el nivel de correlación cambien en intensidad.
Vease, por ejemplo, que existe una fuerte relación positiva fuerte entre preciom y área constuida (0.74) indicando que, en general, las viviendas más grandes tienden a tener un mayor precio por metro cuadrado o que sencillamente el tamaño es determinante para el precio. Por otra parte, la relación de precio por metro cuadrado con el número de baños (0.55), parqueaderos (0.41) y habitaciones (0.5) indican una influencia importante de estos factores al precio final aunque de manera moderada. A la final, puede que haya una situación de endogeneidad en cuanto para tener más baños y habitaciones necesariamente si debe tener un área de construcción mayor.
Notese que las distribuciones de las variables preciom, area construida y parqueaderos están sesgadas a la derecha, evidenciando la presencia de valores atípicos, es decir, vivienda excepcionalmente costosas, grandes y con ofertas anormales de parqueaderos.
En cuanto a los estratos, la distribución no es completamente homogénea, pero los rangos intercuartiles de los estratos 3, 4 y 5 son similares, lo que sugiere que podrían agruparse operativamente sin generar grandes diferencias en precios. En contraste, el estrato 6 presenta los valores más altos y una mayor dispersión, evidenciada en la longitud de sus bigotes y la presencia de múltiples valores atípicos, indicando mayor heterogeneidad, dando respuesta parcial a la razón del fenómeno del sesgo a la derecha observado en la distribución de esta variable.
Para medir el nivel de relación entre estrato y preciom se usó una ANOVA y un test de Kruskal-Wallis que confirman diferencias significativas en el precio de la vivienda según el estrato (F = 108.6, p < 2.2e-16), validando la segmentación con base en este criterio. El alto valor de F indica que la variabilidad entre los grupos es considerablemente mayor que la variabilidad dentro de cada grupo, lo que sugiere que el estrato es un factor clave en la determinación del precio.
Gráfica 3: Box plot del precio por M2 en cada estrato y ANOVA (estrato ~ preciom)
## Df Sum Sq Mean Sq F value Pr(>F)
## as.factor(estrato) 3 14417782 4805927 108.6 <2e-16 ***
## Residuals 596 26365858 44238
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Kruskal-Wallis rank sum test
##
## data: preciom by as.factor(estrato)
## Kruskal-Wallis chi-squared = 305.85, df = 3, p-value < 2.2e-16
Conociendo la diferencia entre estratos, se hace pertinente conocer además la diferencia entre barrios en cuanto incluso en un mismo estrato y barrio puede haber una distribución sesgada del valor de la vivienda. Solo de manera exploratoria, podemos ver que los cinco barrios con más viviendas en la base de datos tienen rangos intercuartiles dentro de casi los mismos valores pero cada uno con valores extremos presentes que marcan la diferencia. Esto puede permiter un llamado a la calma en cuanto la oferta de vivienda en este caso, con excepciones, igual parece tener patrones similares.
Teniendo en cuenta lo anterior, vale la pena hacer una mención de la distribución del precio por metro cuadrado en cuanto será la variable independiente en la modelación de la regresión. Esta presenta un sesgo a la derecha, lo que indica que la mayoría de las viviendas tienen precios más bajos, mientras que hay algunas con valores significativamente más altos que elevan la media (428.19 COP/m2) por encima de la mediana (380 COP/m2). Se confirma la presencia de un segmento de mercado premium que incrementa la dispersión de los precios. La concentración de precios en el rango inferior también refuerza la idea de que el mercado predominante se encuentra en estratos medios.
Finalmente, se deja a disposición del equipo inmobiliario el siguiente mapa para una concepción espacial de la discusión, donde se ven tres cluster geográficos preliminares: la Zona de la Comuna 2 con barrios claves como Granada y La Flora, la zona de la Comuna 19 hacia San Antonio y el casco histórico, y la zona de las comunas 4,8,5 y 7 donde se ubica barrios como La Base, representativos de las clases medias y trabajadoras.
Mapa 4: Mapa de calor por PrecioM en las casas de la Zona Norte
## ℹ <https://maps.googleapis.com/maps/api/staticmap?center=3.460184,-76.517117&zoom=12&size=640x640&scale=2&maptype=roadmap&language=en-EN&key=xxx>
## Scale for fill is already present.
## Adding another scale for fill, which will replace the existing scale.
Debido a la necesidad de contar con variables independientes con distribución normal se hace una revisión repliminar de estas en detalle. Se observa que ninguna parece distribuirse normalmente lo que puede estar relacionado con outliers
| Variable | P_valor | Conclusión |
|---|---|---|
| p_valor_areaconst | 0 | Rechazar H0 (No Normalidad) |
| p_valor_banios | 0 | Rechazar H0 (No Normalidad) |
| p_valor_habitaciones | 0 | Rechazar H0 (No Normalidad) |
| p_valor_parqueaderos | 0 | Rechazar H0 (No Normalidad) |
| p_valor_piso | 0 | Rechazar H0 (No Normalidad) |
| p_valor_preciom | 0 | Rechazar H0 (No Normalidad) |
Intentando aplicar la Regla de Tukey con el propósito de reducir la incidencia de outliers en algunas de las variables, vemos que continuan existiendo problemas de normalidad. Esto puede afectar considerablemente el rendimiento del modelo y puede sugerir que estos datos no sean modelables bajo modelos lineales.
## Filas antes: 600
## Filas después: 490
| Variable | P_valor | Conclusión |
|---|---|---|
| p_valor_areaconst | 0 | Rechazar H0 (No Normalidad) |
| p_valor_banios | 0 | Rechazar H0 (No Normalidad) |
| p_valor_habitaciones | 0 | Rechazar H0 (No Normalidad) |
| p_valor_parqueaderos | 0 | Rechazar H0 (No Normalidad) |
| p_valor_piso | 0 | Rechazar H0 (No Normalidad) |
| p_valor_preciom | 0 | Rechazar H0 (No Normalidad) |
De cualquier manera, a continuación se presenta un modelo lineal múltiple como ejercicio de aproximación a la proyección de precios. Los resultados indican que:
Área construida como principal predictor: El coeficiente de areaconst es 0.78, lo que indica que por cada metro cuadrado adicional, el precio por metro cuadrado aumenta en 0.79 COP en promedio. Además, su p-valor confirma que es altamente significativo.
Impacto del estrato en el precio: Los coeficientes de los estratos muestran un efecto positivo y creciente en el precio por metro cuadrado. En comparación con el estrato 3 (referencia), el estrato 4 aumenta el precio en 77 COP, el estrato 5 en 124 COP y el estrato 6 en 264 COP, siendo todos estos efectos estadísticamente significativos (p < 0.001).
Significancia de baños y parqueaderos: Aunque el número de baños tiene un impacto positivo (23.28 COP adicionales por cada baño), el número de parqueaderos también influye pero con menor magnitud (10.11 COP por parqueadero). Ambos son significativos, aunque los baños tienen un efecto más fuerte en el precio.
Variables sin significancia estadística: El número de habitaciones no es un predictor significativo del precio (p = 0.177), lo que puede estar relacionado con la suposición que el efecto de las habitaciones es asumido por la priorización sobre el área construida.
Calidad del ajuste del modelo: El R2 ajustado de 0.6436 indica que el modelo explica aproximadamente el 64.4% de la variabilidad en el precio por metro cuadrado. Aunque es un buen ajuste, hay factores adicionales que pueden estar influyendo en los precios.
##
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos +
## banios, data = base1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -950.07 -72.10 -17.39 36.63 1081.67
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 18.8336 19.2066 0.981 0.327201
## areaconst 0.7872 0.0492 15.999 < 2e-16 ***
## estrato4 77.0009 19.0824 4.035 6.17e-05 ***
## estrato5 124.4351 18.5064 6.724 4.17e-11 ***
## estrato6 264.8720 32.2390 8.216 1.33e-15 ***
## habitaciones 6.4391 4.7668 1.351 0.177275
## parqueaderos 10.1091 4.8003 2.106 0.035632 *
## banios 23.2861 6.1076 3.813 0.000152 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 155.8 on 592 degrees of freedom
## Multiple R-squared: 0.6477, Adjusted R-squared: 0.6436
## F-statistic: 155.5 on 7 and 592 DF, p-value: < 2.2e-16
Lamentablemente, este modelo no cumple con la mayor parte de los supuestos: los residuos no siguen una distribución normal, afectando la validez del intervalo de confianza y la significancia real del modelo; la varianza de los residuos no es constante debido a la heterocedasticidad, sugiriendo la no uniformidad de la relación y, a su vez, la posibilidad necesidad de modelos no lineales; y se presenta autocorrelación de residuos, afectando confiabilidad de coeficientes. Sin embargo, parece haber linealidad en la relación, abriendo la posibilidad de modelaciones con modelos de estimación generalizada, por ejemplo.
| Prueba | Valor_P | Conclusión |
|---|---|---|
| Shapiro-Wilk Test de Normalidad | 0.0e+00 | Rechazar H0 (No Normalidad) |
| Breusch-Pagan Test para Homocedasticidad | 0.0e+00 | Rechazar H0 (Heterocedasticidad) |
| Durbin-Watson Test para Autocorrelación | 1.3e-05 | Rechazar H0 (Autocorrelación) |
| Verificación de Linealidad (Media de Residuos cercana a 0) | 0.0e+00 | No se rechaza H0 (Linealidad) |
Gráfica 8: Supuestos del modelo (homocedasticidad y normalidad)
## [1] "Valores VIF (Factor de Inflación de Varianza):"
## GVIF Df GVIF^(1/(2*Df))
## areaconst 1.668368 1 1.291653
## estrato 1.675361 3 1.089812
## habitaciones 1.839605 1 1.356321
## parqueaderos 1.361243 1 1.166723
## banios 2.096084 1 1.447786
No se recomienda proyectar precios con este modelo. Sin embargo, y para términos ilustrativos, la forma de aplicarlo es remplazar las variables por los valores deseados sobre la siguiente fórmula:
\(\hat{y} = 18.83 + 0.7872 \cdot \text{Área Construida} + 77.009\cdot \text{Estrato 4} + 124.4351 \cdot \text{Estrato 5} + 264.8720 \cdot \text{Estrato 6} + 6.4391 \cdot \text{Habitaciones} + 10.1091 \cdot \text{Parqueaderos} + 23.2861 \cdot \text{Baños}\)
Así, bajo las necesidades de las clientes, se podría esperar que una vivienda con 200 m2 de área construida, 4 habitaciones, 1 parqueadero y 2 baños, el modelo estima que el precio por metro cuadrado será de:
Estrato 4: COP 335,720/m², con un intervalo de confianza entre COP 303,230 y COP 368,200/m².
Estrato 5: COP 383,150/m², con un intervalo de confianza entre COP 353,620 y COP 412,670/m².
Estrato 6: COP 523,590/m², con un intervalo de confianza entre COP 463,290 y COP 583,88/m².
Esto significa que, con un 95% de confianza, el precio por metro cuadrado de una vivienda con estas características caerá dentro de esos rangos según su estrato.
| Estrato | Precio_Predicho | IC_Lower | IC_Upper |
|---|---|---|---|
| 4 | 335.72 | 303.23 | 368.20 |
| 5 | 383.15 | 353.62 | 412.67 |
| 6 | 523.59 | 463.29 | 583.88 |
A continuación se presenta un mapa y una tabla con viviendas que cumplen estos criterios. Dar click en los puntos para mayor detalle.
Mapa 5: Mapa con la ubicación de cinco viviendas que cumplen con el criterio seleccionado
## # A tibble: 5 × 14
## id zona piso estrato preciom areaconst parqueaderos banios habitaciones
## <dbl> <chr> <dbl> <fct> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 5152 Zona N… 2 5 600 220 2 4 4
## 2 4555 Zona N… 1 5 550 200 3 2 4
## 3 2742 Zona N… 1 4 450 220 2 5 5
## 4 1410 Zona N… 1 4 449 220 4 4 3
## 5 4557 Zona N… 1 5 490 200 4 3 4
## # ℹ 5 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>,
## # precio_total <dbl>
## # A tibble: 3 × 13
## id zona piso estrato preciom areaconst parqueaderos banios habitaciones
## <dbl> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 5098 Zona S… 5 4 290 96 1 2 3
## 2 698 Zona S… 2 3 78 40 1 1 2
## 3 8199 Zona S… 5 6 875 194 2 5 3
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>
## [1] "Número de viviendas por zona (verificar que solo salga Zona Sur):"
##
## Zona Sur
## 2787
## ℹ <https://maps.googleapis.com/maps/api/staticmap?center=3.389542,-76.529116&zoom=12&size=640x640&scale=2&maptype=roadmap&language=en-EN&key=xxx>
| Variable | Mean | Median | SD | Min | Max | CV |
|---|---|---|---|---|---|---|
| preciom | 297.29 | 245 | 191.55 | 75 | 1750 | 0.64 |
| areaconst | 97.47 | 85 | 52.57 | 40 | 932 | 0.54 |
| parqueaderos | 1.21 | 1 | 0.79 | 0 | 10 | 0.66 |
| banios | 2.49 | 2 | 0.93 | 0 | 8 | 0.38 |
| habitaciones | 2.97 | 3 | 0.63 | 0 | 6 | 0.21 |
| Variable | Q1 | Mediana | Q3 |
|---|---|---|---|
| areaconst | 65 | 85 | 110 |
| preciom | 175 | 245 | 335 |
| habitac | 3 | 3 | 3 |
| parqueaderos | 1 | 1 | 2 |
| banios | 2 | 2 | 3 |
Gráfica 11: Box plot del precio por M2 en cada estrato y ANOVA (estrato ~ preciom)
## Df Sum Sq Mean Sq F value Pr(>F)
## as.factor(estrato) 3 55301626 18433875 1093 <2e-16 ***
## Residuals 2783 46921240 16860
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Kruskal-Wallis rank sum test
##
## data: preciom by as.factor(estrato)
## Kruskal-Wallis chi-squared = 1601, df = 3, p-value < 2.2e-16
Mapa 9: Mapa de calor por PrecioM en las casas de la Zona Sur
## Warning in stat_density2d(aes(x = longitud, y = latitud, weight = preciom, :
## Ignoring unknown aesthetics: weight
## Scale for fill is already present.
## Adding another scale for fill, which will replace the existing scale.
## Warning: The following aesthetics were dropped during statistical transformation:
## weight.
## ℹ This can happen when ggplot fails to infer the correct grouping structure in
## the data.
## ℹ Did you forget to specify a `group` aesthetic or to convert a numerical
## variable into a factor?
Gráfica 14: Distribución de Tipos de Vivienda por Zona Sur
##
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos +
## banios, data = base2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1150.78 -36.57 0.30 32.72 899.13
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -2.08000 9.92911 -0.209 0.83409
## areaconst 1.38808 0.04552 30.491 < 2e-16 ***
## estrato4 18.22187 6.93492 2.628 0.00865 **
## estrato5 38.03643 7.25139 5.245 1.68e-07 ***
## estrato6 200.07789 9.10792 21.967 < 2e-16 ***
## habitaciones -14.85444 3.18508 -4.664 3.25e-06 ***
## parqueaderos 45.17983 2.81080 16.074 < 2e-16 ***
## banios 39.83801 2.86856 13.888 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 88.32 on 2779 degrees of freedom
## Multiple R-squared: 0.788, Adjusted R-squared: 0.7874
## F-statistic: 1475 on 7 and 2779 DF, p-value: < 2.2e-16
| Prueba | Valor_P | Conclusión |
|---|---|---|
| Shapiro-Wilk Test de Normalidad | 0 | Rechazar H0 (No Normalidad) |
| Breusch-Pagan Test para Homocedasticidad | 0 | Rechazar H0 (Heterocedasticidad) |
| Durbin-Watson Test para Autocorrelación | 0 | Rechazar H0 (Autocorrelación) |
| Verificación de Linealidad (Media de Residuos cercana a 0) | 0 | No se rechaza H0 (Linealidad) |
## [1] "Valores VIF (Factor de Inflación de Varianza):"
## GVIF Df GVIF^(1/(2*Df))
## areaconst 2.045582 1 1.430239
## estrato 1.847355 3 1.107707
## habitaciones 1.449855 1 1.204099
## parqueaderos 1.782681 1 1.335171
## banios 2.566178 1 1.601930
\(\hat{y} = -2.08 + 1.3881 \cdot \text{Área Construida} + 18.2219 \cdot \text{Estrato 4} + 38.0364 \cdot \text{Estrato 5} + 200.0779 \cdot \text{Estrato 6} - 14.8544 \cdot \text{Habitaciones} + 45.1798 \cdot \text{Parqueaderos} + 39.8380 \cdot \text{Baños}\)
| Estrato | Precio_Predicho | IC_Lower | IC_Upper |
|---|---|---|---|
| 5 | 633.16 | 613.97 | 652.35 |
| 6 | 795.20 | 775.45 | 814.96 |
## # A tibble: 1 × 14
## id zona piso estrato preciom areaconst parqueaderos banios habitaciones
## <dbl> <chr> <dbl> <fct> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 7512 Zona S… 5 5 670 300 3 5 6
## # ℹ 5 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>,
## # precio_total <dbl>