Maria comenzó como agente de bienes raíces en Cali hace 10 años. Después de laborar dos años para una empresa nacional, se traslado a Bogotá y trabajó para otra agencia de bienes raíces. Sus amigos y familiares la convencieron de que con su experiencia y conocimientos del negocio debía abrir su propia agencia. Terminó por adquirir la licencia de intermediario y al poco tiempo fundó su propia compañía, C&A (Casas y Apartamentos) en Cali. Santiago y Lina, dos vendedores de la empresa anterior aceptaron trabajar en la nueva compaña. En la actualidad ocho agentes de bienes raíces colaboran con ella en C&A.
Actualmente las ventas de bienes raíces en Cali se han visto disminuidas de manera significativa en lo corrido del año. Durante este periodo muchas instituciones bancarias de ahorro y vivienda están prestando grandes sumas de dinero para la industria y la construcción comercial y residencial. Cuando el efecto producto de las tensiones políticas y sociales disminuya, se espera que la actividad económica de este sector se reactive.
Hace dos días, María recibió una carta solicitando asesoría para la compra de dos viviendas por parte de una compañía internacional que desea ubicar a dos de sus empleados con sus familias en la ciudad. Las solicitudes incluyen las siguientes condiciones:
| Características | Vivienda 1 | Vivienda 2 |
|---|---|---|
| Tipo | Casa | Apartamento |
| Área construida | 200 | 300 |
| parqueaderos | 1 | 3 |
| Baños | 28 | 3 |
| Habitaciones | 4 | 5 |
| Estrato | 4 o 5 | 5 o 6 |
| Zona | Norte | Sur |
## spc_tbl_ [8,322 × 13] (S3: spec_tbl_df/tbl_df/tbl/data.frame)
## $ id : num [1:8322] 1147 1169 1350 5992 1212 ...
## $ zona : chr [1:8322] "Zona Oriente" "Zona Oriente" "Zona Oriente" "Zona Sur" ...
## $ piso : chr [1:8322] NA NA NA "02" ...
## $ estrato : num [1:8322] 3 3 3 4 5 5 4 5 5 5 ...
## $ preciom : num [1:8322] 250 320 350 400 260 240 220 310 320 780 ...
## $ areaconst : num [1:8322] 70 120 220 280 90 87 52 137 150 380 ...
## $ parqueaderos: num [1:8322] 1 1 2 3 1 1 2 2 2 2 ...
## $ banios : num [1:8322] 3 2 2 5 2 3 2 3 4 3 ...
## $ habitaciones: num [1:8322] 6 3 4 3 3 3 3 4 6 3 ...
## $ tipo : chr [1:8322] "Casa" "Casa" "Casa" "Casa" ...
## $ barrio : chr [1:8322] "20 de julio" "20 de julio" "20 de julio" "3 de julio" ...
## $ longitud : num [1:8322] -76.5 -76.5 -76.5 -76.5 -76.5 ...
## $ latitud : num [1:8322] 3.43 3.43 3.44 3.44 3.46 ...
## - attr(*, "spec")=
## .. cols(
## .. id = col_double(),
## .. zona = col_character(),
## .. piso = col_character(),
## .. estrato = col_double(),
## .. preciom = col_double(),
## .. areaconst = col_double(),
## .. parqueaderos = col_double(),
## .. banios = col_double(),
## .. habitaciones = col_double(),
## .. tipo = col_character(),
## .. barrio = col_character(),
## .. longitud = col_double(),
## .. latitud = col_double()
## .. )
## - attr(*, "problems")=<externalptr>
Se observa que la base de datos tiene 8322 registros y 13 variables dentro de las cuales cuenta con 3 variables cualitativas y 10 cuantitativas, 4 variables tipo texto y 8 variables tipo númericas. dentro de las variables tipo texto se encuentra piso, sin embargo, se realiza la transformación a tipo númerico.
A continuación, se hace la descripción de la base de datos:
| Variable | Descripción |
|---|---|
| Zona | Ubicación de la vivienda : Zona Centro, Zona Norte,… |
| Piso | Piso que ocupa la vivienda : primer piso, segundo piso… |
| Estrato | Estrato socio-económico : 3,4,5,6 |
| Preciom | Precio de la vivienda en millones de pesos |
| areaconst | Área construida |
| Parqueaderos | Número de parqueaderos |
| Banios | Número de baños |
| Habitaciones | Número de habitaciones |
| Tipo | Tipo de vivienda: Casa, Apartamento |
| Barrio | Barrio de ubicación de la vivienda : 20 de Julio, alamos,.. |
| Longitud | Coordenada geográfica |
| Latitud | Coordenada geográfica |
## spc_tbl_ [8,322 × 13] (S3: spec_tbl_df/tbl_df/tbl/data.frame)
## $ id : num [1:8322] 1147 1169 1350 5992 1212 ...
## $ zona : chr [1:8322] "Zona Oriente" "Zona Oriente" "Zona Oriente" "Zona Sur" ...
## $ piso : num [1:8322] NA NA NA 2 1 1 1 1 2 2 ...
## $ estrato : num [1:8322] 3 3 3 4 5 5 4 5 5 5 ...
## $ preciom : num [1:8322] 250 320 350 400 260 240 220 310 320 780 ...
## $ areaconst : num [1:8322] 70 120 220 280 90 87 52 137 150 380 ...
## $ parqueaderos: num [1:8322] 1 1 2 3 1 1 2 2 2 2 ...
## $ banios : num [1:8322] 3 2 2 5 2 3 2 3 4 3 ...
## $ habitaciones: num [1:8322] 6 3 4 3 3 3 3 4 6 3 ...
## $ tipo : chr [1:8322] "Casa" "Casa" "Casa" "Casa" ...
## $ barrio : chr [1:8322] "20 de julio" "20 de julio" "20 de julio" "3 de julio" ...
## $ longitud : num [1:8322] -76.5 -76.5 -76.5 -76.5 -76.5 ...
## $ latitud : num [1:8322] 3.43 3.43 3.44 3.44 3.46 ...
## - attr(*, "spec")=
## .. cols(
## .. id = col_double(),
## .. zona = col_character(),
## .. piso = col_character(),
## .. estrato = col_double(),
## .. preciom = col_double(),
## .. areaconst = col_double(),
## .. parqueaderos = col_double(),
## .. banios = col_double(),
## .. habitaciones = col_double(),
## .. tipo = col_character(),
## .. barrio = col_character(),
## .. longitud = col_double(),
## .. latitud = col_double()
## .. )
## - attr(*, "problems")=<externalptr>
Se procede a realizar la verificación de la existencia de datos faltantes.
De acuerdo a esto, se observa en el siguiente gráfico la existencia de valores faltantes en el dataset, siendo las variables piso y parqueaderos las que mayor cantidad de datos faltantes presentan.
## preciom id zona estrato areaconst banios habitaciones tipo barrio longitud
## 4808 1 1 1 1 1 1 1 1 1 1
## 1909 1 1 1 1 1 1 1 1 1 1
## 876 1 1 1 1 1 1 1 1 1 1
## 726 1 1 1 1 1 1 1 1 1 1
## 1 1 0 0 0 0 0 0 0 0 0
## 2 0 0 0 0 0 0 0 0 0 0
## 2 3 3 3 3 3 3 3 3 3
## latitud parqueaderos piso
## 4808 1 1 1 0
## 1909 1 1 0 1
## 876 1 0 1 1
## 726 1 0 0 2
## 1 0 0 0 12
## 2 0 0 0 13
## 3 1605 2638 4275
A continuación, vemos de forma más detallada la distribución de los valores faltantes en el dataset.
| zona | piso | estrato | preciom | areaconst | parqueaderos | banios | habitaciones | tipo | barrio | longitud | latitud | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1209 | Zona Norte | 2 | 5 | 320 | 150 | 2 | 4 | 6 | Casa | acopi | -76.51341 | 3.47968 |
| 1592 | Zona Norte | 2 | 5 | 780 | 380 | 2 | 3 | 3 | Casa | acopi | -76.51674 | 3.48721 |
| 4057 | Zona Norte | 2 | 6 | 750 | 445 | NA | 7 | 6 | Casa | acopi | -76.52950 | 3.38527 |
## Reading layer `mazanascali' from data source
## `C:\Users\juanr\Downloads\Mapa\mazanascali.shp' using driver `ESRI Shapefile'
## Simple feature collection with 16071 features and 25 fields
## Geometry type: POLYGON
## Dimension: XY
## Bounding box: xmin: -76.63822 ymin: 3.297279 xmax: -76.46032 ymax: 3.521935
## Geodetic CRS: MAGNA-SIRGAS
Como se observa no todos los puntos se ubican en la zona correspondiente, esto se debe a:
Errores en los datos de latitud y longitud: Es posible que haya errores en la recolección o ingreso de los datos de latitud y longitud. Por ejemplo, si se ingresaron incorrectamente las coordenadas de algunas viviendas, estas podrían aparecer en zonas incorrectas en el mapa.
Inconsistencias en la definición de las zonas: Es posible que la definición de las zonas no sea precisa o esté basada en criterios subjetivos. Si no hay una definición clara de los límites de cada zona, es probable que algunas viviendas sean asignadas incorrectamente a una zona.
Problemas en la geocodificación: La asignación de las viviendas a una zona específica podría basarse en un proceso de geocodificación automática o manual. Si este proceso no es preciso o si las direcciones no están bien formateadas, las viviendas podrían ser asignadas incorrectamente a una zona.
A continuación, el análisis está enfocado en la correlación entre la variable respuesta (precio de la casa) en función del área construida, estrato, número de baños, número de habitaciones y zona donde se ubica la vivienda.
Podemos observar que el precio de la vivienda es mucho mayor cuando el área construida es mayor, se puede decir que hay relación lineal directa entre estas dos variables. También, se analiza que hay una gran concentración de casas con área menores a 500 m2 .
Con relación al estrato, los precios de las casas de estrato 5 y 6 son significativamente mayores a de los estratos 3 y 4. El 75% de las casas de los estratos 5 y 6 tiene precios iguales o menores a 642 y 945 millones de pesos respectivamente, en cambio, para los estratos 3 y 4 es de 530 y 300 millones de pesos respectivamente.
Las casas de estratos 5 representan el 37,53% del total de las casas, seguidamente del estrato 3 con una representación de 32,55%, y los estratos 4 y 6 representan el 22,30% y 7,62% respectivamente.
## ### Frequencies
## #### vivienda_casas$estrato
## **Type:** Numeric
##
## | | Freq | % Valid | % Valid Cum. | % Total | % Total Cum. |
## |-----------:|-----:|--------:|-------------:|--------:|-------------:|
## | **3** | 235 | 32.55 | 32.55 | 32.55 | 32.55 |
## | **4** | 161 | 22.30 | 54.85 | 22.30 | 54.85 |
## | **5** | 271 | 37.53 | 92.38 | 37.53 | 92.38 |
## | **6** | 55 | 7.62 | 100.00 | 7.62 | 100.00 |
## | **\<NA\>** | 0 | | | 0.00 | 100.00 |
## | **Total** | 722 | 100.00 | 100.00 | 100.00 | 100.00 |
Con relación a la cantidad de baños, los mayores precios de las viviendas se encuentran en casas que contienen entre 4 a 8 baños, los precios de estas viviendas ascienden hasta 1.940 millones de pesos según la cantidad de baños. Las casas con menos baños (0,1,2 o 3) tienden a tener un valor menor.
Por otro lado, el 72.43% de las casas se distribuyen en viviendas que tienen 2,3 y 4 baños.
## ### Frequencies
## #### vivienda_casas$banios
## **Type:** Numeric
##
## | | Freq | % Valid | % Valid Cum. | % Total | % Total Cum. |
## |-----------:|-----:|--------:|-------------:|--------:|-------------:|
## | **0** | 10 | 1.39 | 1.39 | 1.39 | 1.39 |
## | **1** | 17 | 2.35 | 3.74 | 2.35 | 3.74 |
## | **2** | 165 | 22.85 | 26.59 | 22.85 | 26.59 |
## | **3** | 187 | 25.90 | 52.49 | 25.90 | 52.49 |
## | **4** | 171 | 23.68 | 76.18 | 23.68 | 76.18 |
## | **5** | 101 | 13.99 | 90.17 | 13.99 | 90.17 |
## | **6** | 46 | 6.37 | 96.54 | 6.37 | 96.54 |
## | **7** | 11 | 1.52 | 98.06 | 1.52 | 98.06 |
## | **8** | 11 | 1.52 | 99.58 | 1.52 | 99.58 |
## | **9** | 1 | 0.14 | 99.72 | 0.14 | 99.72 |
## | **10** | 2 | 0.28 | 100.00 | 0.28 | 100.00 |
## | **\<NA\>** | 0 | | | 0.00 | 100.00 |
## | **Total** | 722 | 100.00 | 100.00 | 100.00 | 100.00 |
De acuerdo con lo anterior, caso similar ocurre con la cantidad de habitaciones, entre más habitaciones cuente una casa mayor va a ser el valor del inmueble. Las casas con 3 o más habitaciones son las más costosas. También, hay una gran concentración de casas que tienen entre 3, 4 o 5 habitaciones, estas representan el 73.41% del total de viviendas, y son casas que pueden llegar a tener valores entre 1.400 a 1.940 millones de pesos.
## ### Frequencies
## #### vivienda_casas$habitaciones
## **Type:** Numeric
##
## | | Freq | % Valid | % Valid Cum. | % Total | % Total Cum. |
## |-----------:|-----:|--------:|-------------:|--------:|-------------:|
## | **0** | 20 | 2.77 | 2.77 | 2.77 | 2.77 |
## | **1** | 2 | 0.28 | 3.05 | 0.28 | 3.05 |
## | **2** | 12 | 1.66 | 4.71 | 1.66 | 4.71 |
## | **3** | 171 | 23.68 | 28.39 | 23.68 | 28.39 |
## | **4** | 222 | 30.75 | 59.14 | 30.75 | 59.14 |
## | **5** | 137 | 18.98 | 78.12 | 18.98 | 78.12 |
## | **6** | 60 | 8.31 | 86.43 | 8.31 | 86.43 |
## | **7** | 42 | 5.82 | 92.24 | 5.82 | 92.24 |
## | **8** | 29 | 4.02 | 96.26 | 4.02 | 96.26 |
## | **9** | 14 | 1.94 | 98.20 | 1.94 | 98.20 |
## | **10** | 13 | 1.80 | 100.00 | 1.80 | 100.00 |
## | **\<NA\>** | 0 | | | 0.00 | 100.00 |
## | **Total** | 722 | 100.00 | 100.00 | 100.00 | 100.00 |
El 50% de las casas ubicadas en la zona Norte tiene precios iguales o menores a 390 millones de pesos, sin embargo, hay casas que pueden tener precios entre 950 y 1940 millones de pesos. Las casas con menor valor en esta zona cuentan con un precio de 89 millones de pesos.
## ### Frequencies
## #### vivienda_casas$zona
## **Type:** Character
##
## | | Freq | % Valid | % Valid Cum. | % Total | % Total Cum. |
## |---------------:|-----:|--------:|-------------:|--------:|-------------:|
## | **Zona Norte** | 722 | 100.00 | 100.00 | 100.00 | 100.00 |
## | **\<NA\>** | 0 | | | 0.00 | 100.00 |
## | **Total** | 722 | 100.00 | 100.00 | 100.00 | 100.00 |
Cantidad de habitaciones y Estrato (0.11):
La correlación es baja, indicando una relación débil entre la cantidad de habitaciones y el estrato. Esto podría sugerir que el número de habitaciones no varía significativamente con el estrato.
La correlación es moderada, indicando una relación positiva entre la cantidad de habitaciones y el precio. Esto sugiere que, en promedio, las viviendas con más habitaciones tienden a tener precios más altos. Cantidad de habitaciones y Área construida (0.38):
La correlación es moderada, indicando una relación positiva entre la cantidad de habitaciones y el área construida. Esto podría interpretarse como que, en general, las viviendas con más habitaciones tienden a tener más espacio construido.
La correlación es fuerte, indicando una relación positiva significativa entre la cantidad de habitaciones y la cantidad de baños. Esto sugiere que las viviendas con más habitaciones tienden a tener más baños.
La correlación es moderada, indicando una relación positiva entre la cantidad de baños y el estrato. Esto podría sugerir que, en promedio, las viviendas con más baños tienden a tener un estrato más alto.
La correlación es moderada, indicando una relación positiva entre la cantidad de baños y el precio. Esto sugiere que las viviendas con más baños tienden a tener precios más altos.
La correlación es moderada, indicando una relación positiva entre la cantidad de baños y el área construida. Esto podría interpretarse como que las viviendas con más baños tienden a tener más espacio construido.
La correlación es moderada, indicando una relación positiva entre el área construida y el estrato. Esto podría sugerir que las viviendas más grandes tienden a tener un estrato más alto.
La correlación es fuerte, indicando una relación positiva significativa entre el área construida y el precio. Esto sugiere que las viviendas más grandes tienden a tener precios más altos.
La correlación es fuerte, indicando una relación positiva significativa entre el precio y el estrato. Esto sugiere que las viviendas con precios más altos tienden a tener un estrato más alto.
En general, estas correlaciones proporcionan información valiosa sobre las relaciones entre estas variables. Por ejemplo, la fuerte correlación entre el área construida y el precio indica que el tamaño de la vivienda es un factor clave en la determinación del precio. Además, las correlaciones moderadas entre la cantidad de habitaciones y el precio, así como entre la cantidad de baños y el precio, sugieren que estas características también influyen en el valor de la vivienda.
A continuación, se llevará a cabo el modelo de regresión múltiple utilizando la siguiente ecuación:
\[ \operatorname{Precio Casa} = \alpha + \beta_{1}(\operatorname{Área construida}) + \beta_{2}(\operatorname{Estrato}) + \beta_{2}(\operatorname{Número de cuartos})+\beta_{2}(\operatorname{Número de parqueaderos})+\beta_{2}(\operatorname{Número de baños})+\epsilon \]
##
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos +
## banios, data = vivienda_3)
##
## Residuals:
## Min 1Q Median 3Q Max
## -784.29 -77.56 -16.03 47.67 978.61
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -238.17090 44.40551 -5.364 1.34e-07 ***
## areaconst 0.67673 0.05281 12.814 < 2e-16 ***
## estrato 80.63495 9.82632 8.206 2.70e-15 ***
## habitaciones 7.64511 5.65873 1.351 0.177
## parqueaderos 24.00598 5.86889 4.090 5.14e-05 ***
## banios 18.89938 7.48800 2.524 0.012 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 155.1 on 429 degrees of freedom
## (287 observations deleted due to missingness)
## Multiple R-squared: 0.6041, Adjusted R-squared: 0.5995
## F-statistic: 130.9 on 5 and 429 DF, p-value: < 2.2e-16
El coeficiente de determinación múltiple (Multiple R-squared) indica que aproximadamente el 60.41% de la variabilidad en la variable dependiente (precio) puede ser explicada por las variables independientes incluidas en el modelo de regresión múltiple. Esto implica que al menos el 60% de la variabilidad en el precio puede ser atribuida a las variables explicativas (área construida, estrato, número de cuartos, número de parqueaderos, número de baños) consideradas en el modelo.
La interpretacipon de los estimadores del modelo es la siguiente:
\[ \operatorname{\widehat{preciom}} = -238.17 + 0.68(\operatorname{areaconst}) + 80.63(\operatorname{estrato}) + 7.65(\operatorname{habitaciones}) + 24.01(\operatorname{parqueaderos}) + 18.9(\operatorname{banios}) \]
areaconst: Por cada unidad adicional en el área construida de la casa, se espera un aumento estimado de 0.6767 millones de pesos en el precio, manteniendo constantes todas las demás variables.
estrato: Por cada unidad adicional en el estrato de la casa, se espera un aumento estimado de 80 millones de pesos en el precio, manteniendo constantes todas las demás variables.
habitaciones: Por cada unidad adicional en el número de habitaciones de la casa, se espera una disminución estimada de 7 millones de pesos en el precio, manteniendo constantes todas las demás variables.
parqueaderos: Por cada unidad adicional en el número de parqueaderos de la casa, se espera un aumento estimado de 24 millones de pesos en el precio, manteniendo constantes todas las demás variables.
banios: Por cada unidad adicional en el número de baños de la casa, se espera un aumento estimado de 18 millones de pesos en el precio, manteniendo constantes todas las demás variables.
Para mejorar el modelo podríamos implementar:
Transformación de Variables.
Realizar validación cruzada.
Probar técnicas de regularización como la regresión de Ridge o la regresión LASSO. Estas técnicas pueden ayudar a mitigar el sobreajuste y mejorar la generalización del modelo.
Considera la posibilidad de aplicar transformaciones a las variables independientes o dependientes. Por ejemplo, puedes probar logaritmos, raíces cuadradas u otras funciones.
Utilizarr la estrategía stepwise. con el Criterio de información de Akaike.
Realizar amputación de valores NA.
Diviridir los datos en entramiento y prueba.
EL grafico anterior nos muestra de forma grafica los supuestos de nuestro modelo.
Por el lado de la predicción de l modelo, que, si bien no es un supuesto, no da una imagen de la capacidad predictiva de nuestro modelo, según el grafico el modelo de predicción no se esta juagando tan bien a nuestros datos.
Por el lado de la linealidad observamos no todos los valores (residuos) están alrededor de cero y la línea que en teoría debería ser horizontal (color verde) empieza a declinarse hacia valores negativas. Lo cual nos indica que gráficamente nuestros datos no se comportan de forma lineal y no se estaría cumpliendo este supuesto.
Por otra parte, la Homogeneidad de Varianza, los residuos deben tener una varianza constante en todos los niveles de las variables independientes. En este caso no es así, ya que los residuos del modelo se encuentran concentrados y no están dispersos uniformemente a lo largo de la línea horizontal.
En relación cono Observaciones Influyentes vemos que no hay observaciones que estén influyendo en nuestro modelo, esto se visualiza ya que no hay valores por encima o debajo de las lianas (banda) de color verde.
Al evaluar la Colinealidad, no tamos que las variables con mayor VIF es Cantidad de baños, sin embargo, según el criterio para detectar la multicolinealidad de acuerdo a esta medida.
• Si VIFj ≤5 VIF no hay problemas de multicolinealidad.
• Si 5<VIFj≤10 hay problemas de multicolinealidad moderada.
• Si VIFj>10 hay problemas de multicolinealidad graves.
En este caso todas las variables tienen un VIF < 5, por lo tanto no hay problemas de Colinealidad.
Por último, en relación con la Normalidad de los Residuos encontramos que estos no se distribuyen normalmente alrededor de la línea cero, el grafico de residuos muestra una distribución asimétrica alrededor de cero, no cumple este supuesto.
##
## Anderson-Darling normality test
##
## data: mod_multi_1$residuals
## A = 13.227, p-value < 2.2e-16
La prueba de Anderson-Darling evalúa si los residuales siguen una distribución normal. En este caso, el valor estadístico A es 13.227 y el p-valor es menor que 2.2e-16, lo que indica evidencia significativa en contra de la normalidad. En otras palabras, los residuos no siguen una distribución normal.
##
## studentized Breusch-Pagan test
##
## data: mod_multi_1
## BP = 80.281, df = 5, p-value = 7.33e-16
La prueba Breusch-Pagan para la homocedasticidad evalúa si la varianza de los residuales es constante en todos los niveles de las variables predictoras. En este caso, el valor de prueba BP es 80.281 con 5 grados de libertad y un p-valor menor que 7.33e-16. Esto sugiere evidencia significativa en contra de la homocedasticidad, lo que indica que la varianza de los residuos no es constante.
## areaconst estrato habitaciones parqueaderos banios
## 1.460998 1.307757 1.721015 1.226334 1.967421
El Análisis de Inflación de Varianza (VIF) evalúa la multicolinealidad entre las variables predictoras. Los valores del VIF cercanos a 1 indican baja multicolinealidad. En este caso, los valores del VIF son razonablemente bajos, lo que sugiere que la multicolinealidad no es un problema significativo.
##
## Durbin-Watson test
##
## data: mod_multi_1
## DW = 1.7615, p-value = 0.005472
## alternative hypothesis: true autocorrelation is greater than 0
La prueba de Durbin-Watson evalúa si hay autocorrelación de primer orden en los residuales.El p-value asociado al estadístico DW es 0.005472. Este p-value es comparado con un nivel de significancia (como 0.05) para determinar si hay evidencia estadística suficiente para rechazar la hipótesis nula. En este caso, el p-value es menor que 0.05, lo que sugiere evidencia significativa contra la hipótesis nula de ausencia de autocorrelación. Por lo tanto, se podría concluir que hay evidencia de autocorrelación positiva en los residuos.
Los residuales no siguen una distribución normal según la prueba de Anderson-Darling.
Existe heterocedasticidad en los residuales según la prueba Breusch-Pagan, no hya homocedasticidad.
La multicolinealidad entre las variables predictoras no parece ser un problema significativo según el análisis de VIF.
Hay evidencia de autocorrelación positiva de primer orden en los residuales según la prueba de Durbin-Watson.
Recordemos las caracteristicas de la solicitud:
| Variable | Descripción |
|---|---|
| Tipo | Casa |
| Área construida | 200 |
| Cantidad de parqueaderos | 1 |
| Cantidad de baños | 2 |
| Cantidad de habitaciones | 4 |
| Estrato | 4 o 5 |
| Zona | Norte |
| Crédito preaprobado | 350 Millones |
## El precio de una vivienda con estas características pero con estrato 4 en la zona Zorte es de: 312.101
## El precio de una vivienda con estas características pero con estrato 5 en la zona Zorte es de: 392.7359
Con las predicciones del modelo sugiera potenciales ofertas que responda a la solicitud de la vivienda 1. Teniendo en cuenta que la empresa tiene crédito pre-aprobado de máximo 350.
Al realizar la verificación en la base de datos, se optiene que las potenciales ofertas son:
| zona | piso | estrato | preciom | areaconst | parqueaderos | banios | habitaciones | tipo | barrio | longitud | latitud | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 4210 | Zona Norte | 1 | 5 | 350 | 200 | 3 | 3 | 4 | Casa | el bosque | -76.53010 | 3.48503 |
| 4800 | Zona Norte | 1 | 5 | 340 | 250 | 2 | 4 | 4 | Casa | el bosque | -76.53300 | 3.46500 |
| 4458 | Zona Norte | 2 | 4 | 315 | 270 | 2 | 4 | 4 | Casa | el bosque | -76.53176 | 3.48780 |
| 3352 | Zona Norte | NA | 4 | 335 | 300 | 3 | 4 | 4 | Casa | el bosque | -76.52600 | 3.43400 |
| 819 | Zona Norte | 2 | 5 | 350 | 264 | 2 | 3 | 4 | Casa | la flora | -76.50330 | 3.46412 |
Ahora se realice los pasos del 1 al 6. Para la segunda solicitud que tiene un crédito pre-aprobado por valor de $850 millones.
| zona | piso | estrato | preciom | areaconst | parqueaderos | banios | habitaciones | tipo | barrio | longitud | latitud | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 5098 | Zona Sur | 5 | 4 | 290 | 96 | 1 | 2 | 3 | Apartamento | acopi | -76.53464 | 3.44987 |
| 698 | Zona Sur | 2 | 3 | 78 | 40 | 1 | 1 | 2 | Apartamento | aguablanca | -76.50100 | 3.40000 |
| 8199 | Zona Sur | NA | 6 | 875 | 194 | 2 | 5 | 3 | Apartamento | aguacatal | -76.55700 | 3.45900 |
## Reading layer `mazanascali' from data source
## `C:\Users\juanr\Downloads\Mapa\mazanascali.shp' using driver `ESRI Shapefile'
## Simple feature collection with 16071 features and 25 fields
## Geometry type: POLYGON
## Dimension: XY
## Bounding box: xmin: -76.63822 ymin: 3.297279 xmax: -76.46032 ymax: 3.521935
## Geodetic CRS: MAGNA-SIRGAS
Como se observa no todos los puntos se ubican en la zona correspondiente, esto se debe a:
Errores en los datos de latitud y longitud: Es posible que haya errores en la recolección o ingreso de los datos de latitud y longitud. Por ejemplo, si se ingresaron incorrectamente las coordenadas de algunas viviendas, estas podrían aparecer en zonas incorrectas en el mapa.
Inconsistencias en la definición de las zonas: Es posible que la definición de las zonas no sea precisa o esté basada en criterios subjetivos. Si no hay una definición clara de los límites de cada zona, es probable que algunas viviendas sean asignadas incorrectamente a una zona.
Problemas en la geocodificación: La asignación de las viviendas a una zona específica podría basarse en un proceso de geocodificación automática o manual. Si este proceso no es preciso o si las direcciones no están bien formateadas, las viviendas podrían ser asignadas incorrectamente a una zona.
A continuación, el análisis está enfocado en la correlación entre la variable respuesta (precio de la casa) en función del área construida, estrato, número de baños, número de habitaciones y zona donde se ubica la vivienda.
Podemos observar que el precio de la vivienda es mucho mayor cuando el área construida es mayor, se puede decir que hay relación lineal directa entre estas dos variables. También, se analiza que hay una gran concentración de casas con área menores a 500 m2 .
Con relación al estrato, los precios de los apartamentos del estrato 6 son significativamente mayores que los demás estratos, el 75% de los apartamentos en este estrato tienen un premio igual o menor a 700 millones de pesos, sin embargo, hay apartamentos que pueden llegar a valer 1.750 millones de pesos.
Los apartamentos de estrato 3, 4 y 5 tiene precios más bajos que los de estrato 6, pues el 50% de los apartamentos en el estrato 3 tiene precios iguales o menores a 148 millones, en el estrato 4 de 240 millones y en el estrato 5 de 330 millones de pesos.
Por otro lado, hay una concentración del 76.21% de los apartamentos en los estratos 4 y 5.
## ### Frequencies
## #### vivienda_apartamentos$estrato
## **Type:** Numeric
##
## | | Freq | % Valid | % Valid Cum. | % Total | % Total Cum. |
## |-----------:|-----:|--------:|-------------:|--------:|-------------:|
## | **3** | 201 | 7.21 | 7.21 | 7.21 | 7.21 |
## | **4** | 1091 | 39.15 | 46.36 | 39.15 | 46.36 |
## | **5** | 1033 | 37.06 | 83.42 | 37.06 | 83.42 |
## | **6** | 462 | 16.58 | 100.00 | 16.58 | 100.00 |
## | **\<NA\>** | 0 | | | 0.00 | 100.00 |
## | **Total** | 2787 | 100.00 | 100.00 | 100.00 | 100.00 |
Los apartamentos que cuentan con 3 hasta 6 baños son los más costosos, aquellos que tiene 3 baños pueden llegar a tener un precio de 1.200 millones;4 y 5 baños un precio de 1.750 millones de pesos, y con 6 baños un precio de 1600 millones de pesos.
Por otro lado, hay una concentración del 80.73% de los apartamentos con 2 y 3 baños.
## ### Frequencies
## #### vivienda_apartamentos$banios
## **Type:** Numeric
##
## | | Freq | % Valid | % Valid Cum. | % Total | % Total Cum. |
## |-----------:|-----:|--------:|-------------:|--------:|-------------:|
## | **0** | 6 | 0.215 | 0.215 | 0.215 | 0.215 |
## | **1** | 167 | 5.992 | 6.207 | 5.992 | 6.207 |
## | **2** | 1588 | 56.979 | 63.186 | 56.979 | 63.186 |
## | **3** | 662 | 23.753 | 86.939 | 23.753 | 86.939 |
## | **4** | 229 | 8.217 | 95.156 | 8.217 | 95.156 |
## | **5** | 123 | 4.413 | 99.569 | 4.413 | 99.569 |
## | **6** | 10 | 0.359 | 99.928 | 0.359 | 99.928 |
## | **7** | 1 | 0.036 | 99.964 | 0.036 | 99.964 |
## | **8** | 1 | 0.036 | 100.000 | 0.036 | 100.000 |
## | **\<NA\>** | 0 | | | 0.000 | 100.000 |
## | **Total** | 2787 | 100.000 | 100.000 | 100.000 | 100.000 |
Los apartamentos con 3 y 4 habitaciones son los más costoso, ya que en ambos casos se registran precios de 1.750 millones de pesos, en relación con aquellos apartamentos de 1 y 2 habitaciones done pueden llegar a tener un precio de 320 y 840 millones de pesos.
Por otro lado, se encuentra mayor oferta de apartamentos en aquellos que tienen 3 habitaciones, con una representación del 68.25%
## ### Frequencies
## #### vivienda_apartamentos$habitaciones
## **Type:** Numeric
##
## | | Freq | % Valid | % Valid Cum. | % Total | % Total Cum. |
## |-----------:|-----:|--------:|-------------:|--------:|-------------:|
## | **0** | 8 | 0.29 | 0.29 | 0.29 | 0.29 |
## | **1** | 19 | 0.68 | 0.97 | 0.68 | 0.97 |
## | **2** | 463 | 16.61 | 17.58 | 16.61 | 17.58 |
## | **3** | 1902 | 68.25 | 85.83 | 68.25 | 85.83 |
## | **4** | 366 | 13.13 | 98.96 | 13.13 | 98.96 |
## | **5** | 24 | 0.86 | 99.82 | 0.86 | 99.82 |
## | **6** | 5 | 0.18 | 100.00 | 0.18 | 100.00 |
## | **\<NA\>** | 0 | | | 0.00 | 100.00 |
## | **Total** | 2787 | 100.00 | 100.00 | 100.00 | 100.00 |
El 75% de los apartamentos ubicados en la zona sur tienen precios iguales o menores a 335 millones de pesos, sin embargo, hay apartamentos que pueden tener precios entre 575 y 1.750 millones de pesos. Los apartamentos con menor valor en esta zona cuentan con un precio de 75 millones de pesos.
## ### Frequencies
## #### vivienda_apartamentos$zona
## **Type:** Character
##
## | | Freq | % Valid | % Valid Cum. | % Total | % Total Cum. |
## |-------------:|-----:|--------:|-------------:|--------:|-------------:|
## | **Zona Sur** | 2787 | 100.00 | 100.00 | 100.00 | 100.00 |
## | **\<NA\>** | 0 | | | 0.00 | 100.00 |
## | **Total** | 2787 | 100.00 | 100.00 | 100.00 | 100.00 |
Interpretación: Existe una correlación positiva fuerte (0.76) entre el precio de la vivienda y el área construida. Esto sugiere que, en general, a medida que el área construida aumenta, el precio tiende a aumentar.
Interpretación: Existe una correlación positiva bastante fuerte (0.72) entre la cantidad de baños y el precio de la vivienda. Esto indica que las viviendas con más baños tienden a tener precios más altos.
Interpretación: Hay una correlación positiva moderada (0.48) entre el área construida y el estrato. Esto sugiere que las viviendas con un área construida más grande tienden a estar en estratos más altos.
Interpretación: Existe una correlación moderada (0.51) entre la cantidad de habitaciones y la cantidad de baños. Esto indica que las viviendas con más habitaciones también tienden a tener más baños.
Interpretación: Hay una correlación positiva fuerte (0.67) entre el precio de la vivienda y el estrato. Esto sugiere que las viviendas en estratos más altos tienden a tener precios más altos.
Es importante recordar que la correlación no implica causalidad, y otros factores pueden influir en estas relaciones. Estas interpretaciones se basan en la fuerza y dirección de las asociaciones lineales observadas.
A continuación, se llevará a cabo el modelo de regresión múltiple utilizando la siguiente ecuación:
\[ \operatorname{Precio Apartamento} = \alpha + \beta_{1}(\operatorname{Área construidal}) + \beta_{2}(\operatorname{Estrato}) + \beta_{2}(\operatorname{Número de cuartos})+\beta_{2}(\operatorname{Número de parqueaderos})+\beta_{2}(\operatorname{Número de baños}) + \epsilon \]
##
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos +
## banios, data = Vivienda_aparta_21)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1092.02 -42.28 -1.33 40.58 926.56
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -261.62501 15.63220 -16.736 < 2e-16 ***
## areaconst 1.28505 0.05403 23.785 < 2e-16 ***
## estrato 60.89709 3.08408 19.746 < 2e-16 ***
## habitaciones -24.83693 3.89229 -6.381 2.11e-10 ***
## parqueaderos 72.91468 3.95797 18.422 < 2e-16 ***
## banios 50.69675 3.39637 14.927 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 98.02 on 2375 degrees of freedom
## (406 observations deleted due to missingness)
## Multiple R-squared: 0.7485, Adjusted R-squared: 0.748
## F-statistic: 1414 on 5 and 2375 DF, p-value: < 2.2e-16
El coeficiente de determinación múltiple (Multiple R-squared) indica que aproximadamente el 78.72% de la variabilidad en la variable dependiente (precio) puede ser explicada por las variables independientes incluidas en el modelo de regresión múltiple. Esto implica que al menos el 78% de la variabilidad en el precio puede ser atribuida a las variables explicativas (área construida, estrato, número de cuartos, número de parqueaderos, número de baños) consideradas en el modelo.
La interpretacipon de los estimadores del modelo es la siguiente:
\[ \operatorname{\widehat{preciom}} = -261.63 + 1.29(\operatorname{areaconst}) + 60.9(\operatorname{estrato}) - 24.84(\operatorname{habitaciones}) + 72.91(\operatorname{parqueaderos}) + 50.7(\operatorname{banios}) \]
areaconst: Por cada unidad adicional en el área construida de la casa, se espera un aumento estimado de 1.28 millones de pesos en el precio, manteniendo constantes todas las demás variables.
estrato: Por cada unidad adicional en el estrato de la casa, se espera un aumento estimado de 60 millones de pesos en el precio, manteniendo constantes todas las demás variables.
habitaciones: Por cada unidad adicional en el número de habitaciones de la casa, se espera una disminución estimada de 24 millones de pesos en el precio, manteniendo constantes todas las demás variables.
parqueaderos: Por cada unidad adicional en el número de parqueaderos de la casa, se espera un aumento estimado de 72 millones de pesos en el precio, manteniendo constantes todas las demás variables.
banios: Por cada unidad adicional en el número de baños de la casa, se espera un aumento estimado de 50 millones de pesos en el precio, manteniendo constantes todas las demás variables.
Para mejorar el modelo podríamos implementar:
Transformación de Variables.
Realizar validación cruzada.
Probar técnicas de regularización como la regresión de Ridge o la regresión LASSO. Estas técnicas pueden ayudar a mitigar el sobreajuste y mejorar la generalización del modelo.
Considera la posibilidad de aplicar transformaciones a las variables independientes o dependientes. Por ejemplo, puedes probar logaritmos, raíces cuadradas u otras funciones.
Utilizarr la estrategía stepwise. con el Criterio de información de Akaike.
Realizar amputación de valores NA.
EL grafico anterior nos muestra de forma grafica los supuestos de nuestro modelo.
Por el lado de la predicción de l modelo, que, si bien no es un supuesto, no da una imagen de la capacidad predictiva de nuestro modelo, según el grafico el modelo de predicción no se esta juagando tan bien a nuestros datos.
Por el lado de la linealidad observamos no todos los valores (residuos) están alrededor de cero y la línea que en teoría debería ser horizontal (color verde) empieza a declinarse hacia valores negativas. Lo cual nos indica que gráficamente nuestros datos no se comportan de forma lineal y no se estaría cumpliendo este supuesto.
Por otra parte, la Homogeneidad de Varianza, los residuos deben tener una varianza constante en todos los niveles de las variables independientes. En este caso no es así, ya que los residuos del modelo se encuentran concentrados y no están dispersos uniformemente a lo largo de la línea horizontal.
En relación cono Observaciones Influyentes vemos que no hay observaciones que estén influyendo en nuestro modelo, esto se visualiza ya que no hay valores por encima o debajo de las lianas (banda) de color verde.
Al evaluar la Colinealidad, no tamos que las variables con mayor VIF es Cantidad de baños, sin embargo, según el criterio para detectar la multicolinealidad de acuerdo a esta medida.
• Si VIFj ≤5 VIF no hay problemas de multicolinealidad.
• Si 5<VIFj≤10 hay problemas de multicolinealidad moderada.
• Si VIFj>10 hay problemas de multicolinealidad graves.
En este caso todas las variables tienen un VIF < 5, por lo tanto no hay problemas de Colinealidad.
Por último, en relación con la Normalidad de los Residuos encontramos que estos no se distribuyen normalmente alrededor de la línea cero, el grafico de residuos muestra una distribución asimétrica alrededor de cero, no cumple este supuesto.
##
## Anderson-Darling normality test
##
## data: mod_multi_1_aparta$residuals
## A = 72.413, p-value < 2.2e-16
La prueba de Anderson-Darling evalúa si los residuales siguen una distribución normal. En este caso, el valor estadístico A es 72.413 y el p-valor es menor que 2.2e-16, lo que indica evidencia significativa en contra de la normalidad. En otras palabras, los residuos no siguen una distribución normal.
##
## studentized Breusch-Pagan test
##
## data: mod_multi_1_aparta
## BP = 754.81, df = 5, p-value < 2.2e-16
La prueba Breusch-Pagan para la homocedasticidad evalúa si la varianza de los residuales es constante en todos los niveles de las variables predictoras. En este caso, el valor de prueba BP es 754.81 con 5 grados de libertad y un p-valor menor que 2.2e-16. Esto sugiere evidencia significativa en contra de la homocedasticidad, lo que indica que la varianza de los residuos no es constante.
## areaconst estrato habitaciones parqueaderos banios
## 2.066518 1.545162 1.429280 1.737878 2.529494
El Análisis de Inflación de Varianza (VIF) evalúa la multicolinealidad entre las variables predictoras. Los valores del VIF cercanos a 1 indican baja multicolinealidad. En este caso, los valores del VIF son razonablemente bajos, lo que sugiere que la multicolinealidad no es un problema significativo.
##
## Durbin-Watson test
##
## data: mod_multi_1_aparta
## DW = 1.5333, p-value < 2.2e-16
## alternative hypothesis: true autocorrelation is greater than 0
La prueba de Durbin-Watson evalúa si hay autocorrelación de primer orden en los residuales.El p-value asociado al estadístico DW es 1.5333. Este p-value es comparado con un nivel de significancia (como 0.05) para determinar si hay evidencia estadística suficiente para rechazar la hipótesis nula. En este caso, el p-value es menor (2.2e-16) que 0.05 , lo que sugiere evidencia significativa contra la hipótesis nula de ausencia de autocorrelación. Por lo tanto, se podría concluir que hay evidencia de autocorrelación positiva en los residuos.
Los residuales no siguen una distribución normal según la prueba de Anderson-Darling.
Existe heterocedasticidad en los residuales según la prueba Breusch-Pagan, no hya homocedasticidad.
La multicolinealidad entre las variables predictoras no parece ser un problema significativo según el análisis de VIF.
Hay evidencia de autocorrelación positiva de primer orden en los residuales según la prueba de Durbin-Watson.
Recordemos las caracteristicas de la solicitud:
| Variable | Descripción |
|---|---|
| Tipo | Apartamento |
| Área construida | 300 |
| Cantidad de parqueaderos | 3 |
| Cantidad de baños | 3 |
| Cantidad de habitaciones | 5 |
| Estrato | 5 o 6 |
| Zona | Sur |
| Crédito preaprobado | 850 Millones |
## El precio de un apartamento con estas características pero con estrato 5 en la zona Sur es de: 534.9658
## El precio de un apartamento con estas características pero con estrato 6 en la zona Sur es de: 615.6008
Con las predicciones del modelo sugiera potenciales ofertas que responda a la solicitud de la vivienda 2. Teniendo en cuenta que la empresa tiene crédito pre-aprobado de máximo 850.
| zona | piso | estrato | preciom | areaconst | parqueaderos | banios | habitaciones | tipo | barrio | longitud | latitud | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 7182 | Zona Sur | NA | 5 | 730 | 573 | 3 | 8 | 5 | Apartamento | guadalupe | -76.548 | 3.408 |
| 7512 | Zona Sur | NA | 5 | 670 | 300 | 3 | 5 | 6 | Apartamento | seminario | -76.550 | 3.409 |
El código utilizado se encuentra disponible en el repositorio de GITHUB: