Maria comenzó como agente de bienes raíces en Cali hace 10 años. Después de laborar dos años para una empresa nacional, se traslado a Bogotá y trabajó para otra agencia de bienes raíces. Sus amigos y familiares la convencieron de que con su experiencia y conocimientos del negocio debía abrir su propia agencia. Terminó por adquirir la licencia de intermediario y al poco tiempo fundó su propia compañía, C&A (Casas y Apartamentos) en Cali. Santiago y Lina, dos vendedores de la empresa anterior aceptaron trabajar en la nueva compaña. En la actualidad ocho agentes de bienes raíces colaboran con ella en C&A.

Actualmente las ventas de bienes raíces en Cali se han visto disminuidas de manera significativa en lo corrido del año. Durante este periodo muchas instituciones bancarias de ahorro y vivienda están prestando grandes sumas de dinero para la industria y la construcción comercial y residencial. Cuando el efecto producto de las tensiones políticas y sociales disminuya, se espera que la actividad económica de este sector se reactive.

Hace dos días, María recibió una carta solicitando asesoría para la compra de dos viviendas por parte de una compañía internacional que desea ubicar a dos de sus empleados con sus familias en la ciudad. Las solicitudes incluyen las siguientes condiciones:

Características Vivienda 1 Vivienda 2
Tipo Casa Apartamento
Área construida 200 300
parqueaderos 1 3
Baños 28 3
Habitaciones 4 5
Estrato 4 o 5 5 o 6
Zona Norte Sur

Exploración base de datos

## spc_tbl_ [8,322 × 13] (S3: spec_tbl_df/tbl_df/tbl/data.frame)
##  $ id          : num [1:8322] 1147 1169 1350 5992 1212 ...
##  $ zona        : chr [1:8322] "Zona Oriente" "Zona Oriente" "Zona Oriente" "Zona Sur" ...
##  $ piso        : chr [1:8322] NA NA NA "02" ...
##  $ estrato     : num [1:8322] 3 3 3 4 5 5 4 5 5 5 ...
##  $ preciom     : num [1:8322] 250 320 350 400 260 240 220 310 320 780 ...
##  $ areaconst   : num [1:8322] 70 120 220 280 90 87 52 137 150 380 ...
##  $ parqueaderos: num [1:8322] 1 1 2 3 1 1 2 2 2 2 ...
##  $ banios      : num [1:8322] 3 2 2 5 2 3 2 3 4 3 ...
##  $ habitaciones: num [1:8322] 6 3 4 3 3 3 3 4 6 3 ...
##  $ tipo        : chr [1:8322] "Casa" "Casa" "Casa" "Casa" ...
##  $ barrio      : chr [1:8322] "20 de julio" "20 de julio" "20 de julio" "3 de julio" ...
##  $ longitud    : num [1:8322] -76.5 -76.5 -76.5 -76.5 -76.5 ...
##  $ latitud     : num [1:8322] 3.43 3.43 3.44 3.44 3.46 ...
##  - attr(*, "spec")=
##   .. cols(
##   ..   id = col_double(),
##   ..   zona = col_character(),
##   ..   piso = col_character(),
##   ..   estrato = col_double(),
##   ..   preciom = col_double(),
##   ..   areaconst = col_double(),
##   ..   parqueaderos = col_double(),
##   ..   banios = col_double(),
##   ..   habitaciones = col_double(),
##   ..   tipo = col_character(),
##   ..   barrio = col_character(),
##   ..   longitud = col_double(),
##   ..   latitud = col_double()
##   .. )
##  - attr(*, "problems")=<externalptr>

Se observa que la base de datos tiene 8322 registros y 13 variables dentro de las cuales cuenta con 3 variables cualitativas y 10 cuantitativas, 4 variables tipo texto y 8 variables tipo númericas. dentro de las variables tipo texto se encuentra piso, sin embargo, se realiza la transformación a tipo númerico.

A continuación, se hace la descripción de la base de datos:

Variable Descripción
Zona Ubicación de la vivienda : Zona Centro, Zona Norte,…
Piso Piso que ocupa la vivienda : primer piso, segundo piso…
Estrato Estrato socio-económico : 3,4,5,6
Preciom Precio de la vivienda en millones de pesos
areaconst Área construida
Parqueaderos Número de parqueaderos
Banios Número de baños
Habitaciones Número de habitaciones
Tipo Tipo de vivienda: Casa, Apartamento
Barrio Barrio de ubicación de la vivienda : 20 de Julio, alamos,..
Longitud Coordenada geográfica
Latitud Coordenada geográfica
## spc_tbl_ [8,322 × 13] (S3: spec_tbl_df/tbl_df/tbl/data.frame)
##  $ id          : num [1:8322] 1147 1169 1350 5992 1212 ...
##  $ zona        : chr [1:8322] "Zona Oriente" "Zona Oriente" "Zona Oriente" "Zona Sur" ...
##  $ piso        : num [1:8322] NA NA NA 2 1 1 1 1 2 2 ...
##  $ estrato     : num [1:8322] 3 3 3 4 5 5 4 5 5 5 ...
##  $ preciom     : num [1:8322] 250 320 350 400 260 240 220 310 320 780 ...
##  $ areaconst   : num [1:8322] 70 120 220 280 90 87 52 137 150 380 ...
##  $ parqueaderos: num [1:8322] 1 1 2 3 1 1 2 2 2 2 ...
##  $ banios      : num [1:8322] 3 2 2 5 2 3 2 3 4 3 ...
##  $ habitaciones: num [1:8322] 6 3 4 3 3 3 3 4 6 3 ...
##  $ tipo        : chr [1:8322] "Casa" "Casa" "Casa" "Casa" ...
##  $ barrio      : chr [1:8322] "20 de julio" "20 de julio" "20 de julio" "3 de julio" ...
##  $ longitud    : num [1:8322] -76.5 -76.5 -76.5 -76.5 -76.5 ...
##  $ latitud     : num [1:8322] 3.43 3.43 3.44 3.44 3.46 ...
##  - attr(*, "spec")=
##   .. cols(
##   ..   id = col_double(),
##   ..   zona = col_character(),
##   ..   piso = col_character(),
##   ..   estrato = col_double(),
##   ..   preciom = col_double(),
##   ..   areaconst = col_double(),
##   ..   parqueaderos = col_double(),
##   ..   banios = col_double(),
##   ..   habitaciones = col_double(),
##   ..   tipo = col_character(),
##   ..   barrio = col_character(),
##   ..   longitud = col_double(),
##   ..   latitud = col_double()
##   .. )
##  - attr(*, "problems")=<externalptr>

Se procede a realizar la verificación de la existencia de datos faltantes.

De acuerdo a esto, se observa en el siguiente gráfico la existencia de valores faltantes en el dataset, siendo las variables piso y parqueaderos las que mayor cantidad de datos faltantes presentan.

##      preciom id zona estrato areaconst banios habitaciones tipo barrio longitud
## 4808       1  1    1       1         1      1            1    1      1        1
## 1909       1  1    1       1         1      1            1    1      1        1
## 876        1  1    1       1         1      1            1    1      1        1
## 726        1  1    1       1         1      1            1    1      1        1
## 1          1  0    0       0         0      0            0    0      0        0
## 2          0  0    0       0         0      0            0    0      0        0
##            2  3    3       3         3      3            3    3      3        3
##      latitud parqueaderos piso     
## 4808       1            1    1    0
## 1909       1            1    0    1
## 876        1            0    1    1
## 726        1            0    0    2
## 1          0            0    0   12
## 2          0            0    0   13
##            3         1605 2638 4275

A continuación, vemos de forma más detallada la distribución de los valores faltantes en el dataset.

1. Base de datos de solo las ofertas de la base1: casas, de la zona norte de la ciudad.

zona piso estrato preciom areaconst parqueaderos banios habitaciones tipo barrio longitud latitud
1209 Zona Norte 2 5 320 150 2 4 6 Casa acopi -76.51341 3.47968
1592 Zona Norte 2 5 780 380 2 3 3 Casa acopi -76.51674 3.48721
4057 Zona Norte 2 6 750 445 NA 7 6 Casa acopi -76.52950 3.38527
## Reading layer `mazanascali' from data source 
##   `C:\Users\juanr\Downloads\Mapa\mazanascali.shp' using driver `ESRI Shapefile'
## Simple feature collection with 16071 features and 25 fields
## Geometry type: POLYGON
## Dimension:     XY
## Bounding box:  xmin: -76.63822 ymin: 3.297279 xmax: -76.46032 ymax: 3.521935
## Geodetic CRS:  MAGNA-SIRGAS

Como se observa no todos los puntos se ubican en la zona correspondiente, esto se debe a:

  • Errores en los datos de latitud y longitud: Es posible que haya errores en la recolección o ingreso de los datos de latitud y longitud. Por ejemplo, si se ingresaron incorrectamente las coordenadas de algunas viviendas, estas podrían aparecer en zonas incorrectas en el mapa.

  • Inconsistencias en la definición de las zonas: Es posible que la definición de las zonas no sea precisa o esté basada en criterios subjetivos. Si no hay una definición clara de los límites de cada zona, es probable que algunas viviendas sean asignadas incorrectamente a una zona.

  • Problemas en la geocodificación: La asignación de las viviendas a una zona específica podría basarse en un proceso de geocodificación automática o manual. Si este proceso no es preciso o si las direcciones no están bien formateadas, las viviendas podrían ser asignadas incorrectamente a una zona.

2. Análisis exploratorio de datos.

A continuación, el análisis está enfocado en la correlación entre la variable respuesta (precio de la casa) en función del área construida, estrato, número de baños, número de habitaciones y zona donde se ubica la vivienda.

Relación entre el precio y el área construida

Podemos observar que el precio de la vivienda es mucho mayor cuando el área construida es mayor, se puede decir que hay relación lineal directa entre estas dos variables. También, se analiza que hay una gran concentración de casas con área menores a 500 m2 .

Relación entre el precio y el estrato.

Con relación al estrato, los precios de las casas de estrato 5 y 6 son significativamente mayores a de los estratos 3 y 4. El 75% de las casas de los estratos 5 y 6 tiene precios iguales o menores a 642 y 945 millones de pesos respectivamente, en cambio, para los estratos 3 y 4 es de 530 y 300 millones de pesos respectivamente.

Las casas de estratos 5 representan el 37,53% del total de las casas, seguidamente del estrato 3 con una representación de 32,55%, y los estratos 4 y 6 representan el 22,30% y 7,62% respectivamente.

## ### Frequencies  
## #### vivienda_casas$estrato  
## **Type:** Numeric  
## 
## |     &nbsp; | Freq | % Valid | % Valid Cum. | % Total | % Total Cum. |
## |-----------:|-----:|--------:|-------------:|--------:|-------------:|
## |      **3** |  235 |   32.55 |        32.55 |   32.55 |        32.55 |
## |      **4** |  161 |   22.30 |        54.85 |   22.30 |        54.85 |
## |      **5** |  271 |   37.53 |        92.38 |   37.53 |        92.38 |
## |      **6** |   55 |    7.62 |       100.00 |    7.62 |       100.00 |
## | **\<NA\>** |    0 |         |              |    0.00 |       100.00 |
## |  **Total** |  722 |  100.00 |       100.00 |  100.00 |       100.00 |

Relación entre el precio y número de baños.

Con relación a la cantidad de baños, los mayores precios de las viviendas se encuentran en casas que contienen entre 4 a 8 baños, los precios de estas viviendas ascienden hasta 1.940 millones de pesos según la cantidad de baños. Las casas con menos baños (0,1,2 o 3) tienden a tener un valor menor.

Por otro lado, el 72.43% de las casas se distribuyen en viviendas que tienen 2,3 y 4 baños.

## ### Frequencies  
## #### vivienda_casas$banios  
## **Type:** Numeric  
## 
## |     &nbsp; | Freq | % Valid | % Valid Cum. | % Total | % Total Cum. |
## |-----------:|-----:|--------:|-------------:|--------:|-------------:|
## |      **0** |   10 |    1.39 |         1.39 |    1.39 |         1.39 |
## |      **1** |   17 |    2.35 |         3.74 |    2.35 |         3.74 |
## |      **2** |  165 |   22.85 |        26.59 |   22.85 |        26.59 |
## |      **3** |  187 |   25.90 |        52.49 |   25.90 |        52.49 |
## |      **4** |  171 |   23.68 |        76.18 |   23.68 |        76.18 |
## |      **5** |  101 |   13.99 |        90.17 |   13.99 |        90.17 |
## |      **6** |   46 |    6.37 |        96.54 |    6.37 |        96.54 |
## |      **7** |   11 |    1.52 |        98.06 |    1.52 |        98.06 |
## |      **8** |   11 |    1.52 |        99.58 |    1.52 |        99.58 |
## |      **9** |    1 |    0.14 |        99.72 |    0.14 |        99.72 |
## |     **10** |    2 |    0.28 |       100.00 |    0.28 |       100.00 |
## | **\<NA\>** |    0 |         |              |    0.00 |       100.00 |
## |  **Total** |  722 |  100.00 |       100.00 |  100.00 |       100.00 |

Relación entre el precio y número de habitaciones.

De acuerdo con lo anterior, caso similar ocurre con la cantidad de habitaciones, entre más habitaciones cuente una casa mayor va a ser el valor del inmueble. Las casas con 3 o más habitaciones son las más costosas. También, hay una gran concentración de casas que tienen entre 3, 4 o 5 habitaciones, estas representan el 73.41% del total de viviendas, y son casas que pueden llegar a tener valores entre 1.400 a 1.940 millones de pesos.

## ### Frequencies  
## #### vivienda_casas$habitaciones  
## **Type:** Numeric  
## 
## |     &nbsp; | Freq | % Valid | % Valid Cum. | % Total | % Total Cum. |
## |-----------:|-----:|--------:|-------------:|--------:|-------------:|
## |      **0** |   20 |    2.77 |         2.77 |    2.77 |         2.77 |
## |      **1** |    2 |    0.28 |         3.05 |    0.28 |         3.05 |
## |      **2** |   12 |    1.66 |         4.71 |    1.66 |         4.71 |
## |      **3** |  171 |   23.68 |        28.39 |   23.68 |        28.39 |
## |      **4** |  222 |   30.75 |        59.14 |   30.75 |        59.14 |
## |      **5** |  137 |   18.98 |        78.12 |   18.98 |        78.12 |
## |      **6** |   60 |    8.31 |        86.43 |    8.31 |        86.43 |
## |      **7** |   42 |    5.82 |        92.24 |    5.82 |        92.24 |
## |      **8** |   29 |    4.02 |        96.26 |    4.02 |        96.26 |
## |      **9** |   14 |    1.94 |        98.20 |    1.94 |        98.20 |
## |     **10** |   13 |    1.80 |       100.00 |    1.80 |       100.00 |
## | **\<NA\>** |    0 |         |              |    0.00 |       100.00 |
## |  **Total** |  722 |  100.00 |       100.00 |  100.00 |       100.00 |

Relación entre el precio y zona.

El 50% de las casas ubicadas en la zona Norte tiene precios iguales o menores a 390 millones de pesos, sin embargo, hay casas que pueden tener precios entre 950 y 1940 millones de pesos. Las casas con menor valor en esta zona cuentan con un precio de 89 millones de pesos.

## ### Frequencies  
## #### vivienda_casas$zona  
## **Type:** Character  
## 
## |         &nbsp; | Freq | % Valid | % Valid Cum. | % Total | % Total Cum. |
## |---------------:|-----:|--------:|-------------:|--------:|-------------:|
## | **Zona Norte** |  722 |  100.00 |       100.00 |  100.00 |       100.00 |
## |     **\<NA\>** |    0 |         |              |    0.00 |       100.00 |
## |      **Total** |  722 |  100.00 |       100.00 |  100.00 |       100.00 |

Matriz de Correlación

Cantidad de habitaciones y Estrato (0.11):

La correlación es baja, indicando una relación débil entre la cantidad de habitaciones y el estrato. Esto podría sugerir que el número de habitaciones no varía significativamente con el estrato.

  • Cantidad de habitaciones y Precio (0.32):

La correlación es moderada, indicando una relación positiva entre la cantidad de habitaciones y el precio. Esto sugiere que, en promedio, las viviendas con más habitaciones tienden a tener precios más altos. Cantidad de habitaciones y Área construida (0.38):

La correlación es moderada, indicando una relación positiva entre la cantidad de habitaciones y el área construida. Esto podría interpretarse como que, en general, las viviendas con más habitaciones tienden a tener más espacio construido.

  • Cantidad de habitaciones y Cantidad de baños (0.58):

La correlación es fuerte, indicando una relación positiva significativa entre la cantidad de habitaciones y la cantidad de baños. Esto sugiere que las viviendas con más habitaciones tienden a tener más baños.

  • Cantidad de baños y Estrato (0.41):

La correlación es moderada, indicando una relación positiva entre la cantidad de baños y el estrato. Esto podría sugerir que, en promedio, las viviendas con más baños tienden a tener un estrato más alto.

  • Cantidad de baños y Precio (0.52):

La correlación es moderada, indicando una relación positiva entre la cantidad de baños y el precio. Esto sugiere que las viviendas con más baños tienden a tener precios más altos.

  • Cantidad de baños y Área construida (0.46):

La correlación es moderada, indicando una relación positiva entre la cantidad de baños y el área construida. Esto podría interpretarse como que las viviendas con más baños tienden a tener más espacio construido.

  • Área construida y Estrato (0.46):

La correlación es moderada, indicando una relación positiva entre el área construida y el estrato. Esto podría sugerir que las viviendas más grandes tienden a tener un estrato más alto.

  • Área construida y Precio (0.73):

La correlación es fuerte, indicando una relación positiva significativa entre el área construida y el precio. Esto sugiere que las viviendas más grandes tienden a tener precios más altos.

  • Precio y Estrato (0.61):

La correlación es fuerte, indicando una relación positiva significativa entre el precio y el estrato. Esto sugiere que las viviendas con precios más altos tienden a tener un estrato más alto.

En general, estas correlaciones proporcionan información valiosa sobre las relaciones entre estas variables. Por ejemplo, la fuerte correlación entre el área construida y el precio indica que el tamaño de la vivienda es un factor clave en la determinación del precio. Además, las correlaciones moderadas entre la cantidad de habitaciones y el precio, así como entre la cantidad de baños y el precio, sugieren que estas características también influyen en el valor de la vivienda.

3. Estimación del modelo.

A continuación, se llevará a cabo el modelo de regresión múltiple utilizando la siguiente ecuación:

\[ \operatorname{Precio Casa} = \alpha + \beta_{1}(\operatorname{Área construida}) + \beta_{2}(\operatorname{Estrato}) + \beta_{2}(\operatorname{Número de cuartos})+\beta_{2}(\operatorname{Número de parqueaderos})+\beta_{2}(\operatorname{Número de baños})+\epsilon \]

## 
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos + 
##     banios, data = vivienda_3)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -784.29  -77.56  -16.03   47.67  978.61 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -238.17090   44.40551  -5.364 1.34e-07 ***
## areaconst       0.67673    0.05281  12.814  < 2e-16 ***
## estrato        80.63495    9.82632   8.206 2.70e-15 ***
## habitaciones    7.64511    5.65873   1.351    0.177    
## parqueaderos   24.00598    5.86889   4.090 5.14e-05 ***
## banios         18.89938    7.48800   2.524    0.012 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 155.1 on 429 degrees of freedom
##   (287 observations deleted due to missingness)
## Multiple R-squared:  0.6041, Adjusted R-squared:  0.5995 
## F-statistic: 130.9 on 5 and 429 DF,  p-value: < 2.2e-16

El coeficiente de determinación múltiple (Multiple R-squared) indica que aproximadamente el 60.41% de la variabilidad en la variable dependiente (precio) puede ser explicada por las variables independientes incluidas en el modelo de regresión múltiple. Esto implica que al menos el 60% de la variabilidad en el precio puede ser atribuida a las variables explicativas (área construida, estrato, número de cuartos, número de parqueaderos, número de baños) consideradas en el modelo.

La interpretacipon de los estimadores del modelo es la siguiente:

\[ \operatorname{\widehat{preciom}} = -238.17 + 0.68(\operatorname{areaconst}) + 80.63(\operatorname{estrato}) + 7.65(\operatorname{habitaciones}) + 24.01(\operatorname{parqueaderos}) + 18.9(\operatorname{banios}) \]

areaconst: Por cada unidad adicional en el área construida de la casa, se espera un aumento estimado de 0.6767 millones de pesos en el precio, manteniendo constantes todas las demás variables.

estrato: Por cada unidad adicional en el estrato de la casa, se espera un aumento estimado de 80 millones de pesos en el precio, manteniendo constantes todas las demás variables.

habitaciones: Por cada unidad adicional en el número de habitaciones de la casa, se espera una disminución estimada de 7 millones de pesos en el precio, manteniendo constantes todas las demás variables.

parqueaderos: Por cada unidad adicional en el número de parqueaderos de la casa, se espera un aumento estimado de 24 millones de pesos en el precio, manteniendo constantes todas las demás variables.

banios: Por cada unidad adicional en el número de baños de la casa, se espera un aumento estimado de 18 millones de pesos en el precio, manteniendo constantes todas las demás variables.

Para mejorar el modelo podríamos implementar:

  • Transformación de Variables.

  • Realizar validación cruzada.

  • Probar técnicas de regularización como la regresión de Ridge o la regresión LASSO. Estas técnicas pueden ayudar a mitigar el sobreajuste y mejorar la generalización del modelo.

  • Considera la posibilidad de aplicar transformaciones a las variables independientes o dependientes. Por ejemplo, puedes probar logaritmos, raíces cuadradas u otras funciones.

  • Utilizarr la estrategía stepwise. con el Criterio de información de Akaike.

  • Realizar amputación de valores NA.

  • Diviridir los datos en entramiento y prueba.

4. validación de supuestos del modelo

EL grafico anterior nos muestra de forma grafica los supuestos de nuestro modelo.

Por el lado de la predicción de l modelo, que, si bien no es un supuesto, no da una imagen de la capacidad predictiva de nuestro modelo, según el grafico el modelo de predicción no se esta juagando tan bien a nuestros datos.

Por el lado de la linealidad observamos no todos los valores (residuos) están alrededor de cero y la línea que en teoría debería ser horizontal (color verde) empieza a declinarse hacia valores negativas. Lo cual nos indica que gráficamente nuestros datos no se comportan de forma lineal y no se estaría cumpliendo este supuesto.

Por otra parte, la Homogeneidad de Varianza, los residuos deben tener una varianza constante en todos los niveles de las variables independientes. En este caso no es así, ya que los residuos del modelo se encuentran concentrados y no están dispersos uniformemente a lo largo de la línea horizontal.

En relación cono Observaciones Influyentes vemos que no hay observaciones que estén influyendo en nuestro modelo, esto se visualiza ya que no hay valores por encima o debajo de las lianas (banda) de color verde.

Al evaluar la Colinealidad, no tamos que las variables con mayor VIF es Cantidad de baños, sin embargo, según el criterio para detectar la multicolinealidad de acuerdo a esta medida.

• Si VIFj ≤5 VIF no hay problemas de multicolinealidad.

• Si 5<VIFj≤10 hay problemas de multicolinealidad moderada.

• Si VIFj>10 hay problemas de multicolinealidad graves.

En este caso todas las variables tienen un VIF < 5, por lo tanto no hay problemas de Colinealidad.

Por último, en relación con la Normalidad de los Residuos encontramos que estos no se distribuyen normalmente alrededor de la línea cero, el grafico de residuos muestra una distribución asimétrica alrededor de cero, no cumple este supuesto.

  • Prueba de normalidad en los residuales
## 
##  Anderson-Darling normality test
## 
## data:  mod_multi_1$residuals
## A = 13.227, p-value < 2.2e-16

La prueba de Anderson-Darling evalúa si los residuales siguen una distribución normal. En este caso, el valor estadístico A es 13.227 y el p-valor es menor que 2.2e-16, lo que indica evidencia significativa en contra de la normalidad. En otras palabras, los residuos no siguen una distribución normal.

  • Prueba de homocedasticidad.
## 
##  studentized Breusch-Pagan test
## 
## data:  mod_multi_1
## BP = 80.281, df = 5, p-value = 7.33e-16

La prueba Breusch-Pagan para la homocedasticidad evalúa si la varianza de los residuales es constante en todos los niveles de las variables predictoras. En este caso, el valor de prueba BP es 80.281 con 5 grados de libertad y un p-valor menor que 7.33e-16. Esto sugiere evidencia significativa en contra de la homocedasticidad, lo que indica que la varianza de los residuos no es constante.

  • Análisis de Inflación de Varianza (VIF):
##    areaconst      estrato habitaciones parqueaderos       banios 
##     1.460998     1.307757     1.721015     1.226334     1.967421

El Análisis de Inflación de Varianza (VIF) evalúa la multicolinealidad entre las variables predictoras. Los valores del VIF cercanos a 1 indican baja multicolinealidad. En este caso, los valores del VIF son razonablemente bajos, lo que sugiere que la multicolinealidad no es un problema significativo.

  • Prueba de no autocorrelación de errores.
## 
##  Durbin-Watson test
## 
## data:  mod_multi_1
## DW = 1.7615, p-value = 0.005472
## alternative hypothesis: true autocorrelation is greater than 0

La prueba de Durbin-Watson evalúa si hay autocorrelación de primer orden en los residuales.El p-value asociado al estadístico DW es 0.005472. Este p-value es comparado con un nivel de significancia (como 0.05) para determinar si hay evidencia estadística suficiente para rechazar la hipótesis nula. En este caso, el p-value es menor que 0.05, lo que sugiere evidencia significativa contra la hipótesis nula de ausencia de autocorrelación. Por lo tanto, se podría concluir que hay evidencia de autocorrelación positiva en los residuos.

  • Los residuales no siguen una distribución normal según la prueba de Anderson-Darling.

  • Existe heterocedasticidad en los residuales según la prueba Breusch-Pagan, no hya homocedasticidad.

  • La multicolinealidad entre las variables predictoras no parece ser un problema significativo según el análisis de VIF.

  • Hay evidencia de autocorrelación positiva de primer orden en los residuales según la prueba de Durbin-Watson.

5. Modelo con las características de la primera solicitud.

Recordemos las caracteristicas de la solicitud:

Variable Descripción
Tipo Casa
Área construida 200
Cantidad de parqueaderos 1
Cantidad de baños 2
Cantidad de habitaciones 4
Estrato 4 o 5
Zona Norte
Crédito preaprobado 350 Millones
## El precio de una vivienda con estas características pero con estrato 4 en la zona Zorte es de: 312.101
## El precio de una vivienda con estas características pero con estrato 5 en la zona Zorte es de: 392.7359

6. Potenciales ofertas.

Con las predicciones del modelo sugiera potenciales ofertas que responda a la solicitud de la vivienda 1. Teniendo en cuenta que la empresa tiene crédito pre-aprobado de máximo 350.

Al realizar la verificación en la base de datos, se optiene que las potenciales ofertas son:

zona piso estrato preciom areaconst parqueaderos banios habitaciones tipo barrio longitud latitud
4210 Zona Norte 1 5 350 200 3 3 4 Casa el bosque -76.53010 3.48503
4800 Zona Norte 1 5 340 250 2 4 4 Casa el bosque -76.53300 3.46500
4458 Zona Norte 2 4 315 270 2 4 4 Casa el bosque -76.53176 3.48780
3352 Zona Norte NA 4 335 300 3 4 4 Casa el bosque -76.52600 3.43400
819 Zona Norte 2 5 350 264 2 3 4 Casa la flora -76.50330 3.46412
  • Mapa potenciales ofertas:

7. Base de datos de solo las ofertas de la base2: Apartamentos, de la zona norte de la Sur..

Ahora se realice los pasos del 1 al 6. Para la segunda solicitud que tiene un crédito pre-aprobado por valor de $850 millones.

1. Base de datos de solo las ofertas de la base2: apartamentos, de la zona sur de la ciudad.

zona piso estrato preciom areaconst parqueaderos banios habitaciones tipo barrio longitud latitud
5098 Zona Sur 5 4 290 96 1 2 3 Apartamento acopi -76.53464 3.44987
698 Zona Sur 2 3 78 40 1 1 2 Apartamento aguablanca -76.50100 3.40000
8199 Zona Sur NA 6 875 194 2 5 3 Apartamento aguacatal -76.55700 3.45900
## Reading layer `mazanascali' from data source 
##   `C:\Users\juanr\Downloads\Mapa\mazanascali.shp' using driver `ESRI Shapefile'
## Simple feature collection with 16071 features and 25 fields
## Geometry type: POLYGON
## Dimension:     XY
## Bounding box:  xmin: -76.63822 ymin: 3.297279 xmax: -76.46032 ymax: 3.521935
## Geodetic CRS:  MAGNA-SIRGAS

Como se observa no todos los puntos se ubican en la zona correspondiente, esto se debe a:

  • Errores en los datos de latitud y longitud: Es posible que haya errores en la recolección o ingreso de los datos de latitud y longitud. Por ejemplo, si se ingresaron incorrectamente las coordenadas de algunas viviendas, estas podrían aparecer en zonas incorrectas en el mapa.

  • Inconsistencias en la definición de las zonas: Es posible que la definición de las zonas no sea precisa o esté basada en criterios subjetivos. Si no hay una definición clara de los límites de cada zona, es probable que algunas viviendas sean asignadas incorrectamente a una zona.

  • Problemas en la geocodificación: La asignación de las viviendas a una zona específica podría basarse en un proceso de geocodificación automática o manual. Si este proceso no es preciso o si las direcciones no están bien formateadas, las viviendas podrían ser asignadas incorrectamente a una zona.

2. Análisis exploratorio de datos.

A continuación, el análisis está enfocado en la correlación entre la variable respuesta (precio de la casa) en función del área construida, estrato, número de baños, número de habitaciones y zona donde se ubica la vivienda.

Relación entre el precio y el área construida

Podemos observar que el precio de la vivienda es mucho mayor cuando el área construida es mayor, se puede decir que hay relación lineal directa entre estas dos variables. También, se analiza que hay una gran concentración de casas con área menores a 500 m2 .

Relación entre el precio y el estrato.

Con relación al estrato, los precios de los apartamentos del estrato 6 son significativamente mayores que los demás estratos, el 75% de los apartamentos en este estrato tienen un premio igual o menor a 700 millones de pesos, sin embargo, hay apartamentos que pueden llegar a valer 1.750 millones de pesos.

Los apartamentos de estrato 3, 4 y 5 tiene precios más bajos que los de estrato 6, pues el 50% de los apartamentos en el estrato 3 tiene precios iguales o menores a 148 millones, en el estrato 4 de 240 millones y en el estrato 5 de 330 millones de pesos.

Por otro lado, hay una concentración del 76.21% de los apartamentos en los estratos 4 y 5.

## ### Frequencies  
## #### vivienda_apartamentos$estrato  
## **Type:** Numeric  
## 
## |     &nbsp; | Freq | % Valid | % Valid Cum. | % Total | % Total Cum. |
## |-----------:|-----:|--------:|-------------:|--------:|-------------:|
## |      **3** |  201 |    7.21 |         7.21 |    7.21 |         7.21 |
## |      **4** | 1091 |   39.15 |        46.36 |   39.15 |        46.36 |
## |      **5** | 1033 |   37.06 |        83.42 |   37.06 |        83.42 |
## |      **6** |  462 |   16.58 |       100.00 |   16.58 |       100.00 |
## | **\<NA\>** |    0 |         |              |    0.00 |       100.00 |
## |  **Total** | 2787 |  100.00 |       100.00 |  100.00 |       100.00 |

Relación entre el precio y número de baños.

Los apartamentos que cuentan con 3 hasta 6 baños son los más costosos, aquellos que tiene 3 baños pueden llegar a tener un precio de 1.200 millones;4 y 5 baños un precio de 1.750 millones de pesos, y con 6 baños un precio de 1600 millones de pesos.

Por otro lado, hay una concentración del 80.73% de los apartamentos con 2 y 3 baños.

## ### Frequencies  
## #### vivienda_apartamentos$banios  
## **Type:** Numeric  
## 
## |     &nbsp; | Freq | % Valid | % Valid Cum. | % Total | % Total Cum. |
## |-----------:|-----:|--------:|-------------:|--------:|-------------:|
## |      **0** |    6 |   0.215 |        0.215 |   0.215 |        0.215 |
## |      **1** |  167 |   5.992 |        6.207 |   5.992 |        6.207 |
## |      **2** | 1588 |  56.979 |       63.186 |  56.979 |       63.186 |
## |      **3** |  662 |  23.753 |       86.939 |  23.753 |       86.939 |
## |      **4** |  229 |   8.217 |       95.156 |   8.217 |       95.156 |
## |      **5** |  123 |   4.413 |       99.569 |   4.413 |       99.569 |
## |      **6** |   10 |   0.359 |       99.928 |   0.359 |       99.928 |
## |      **7** |    1 |   0.036 |       99.964 |   0.036 |       99.964 |
## |      **8** |    1 |   0.036 |      100.000 |   0.036 |      100.000 |
## | **\<NA\>** |    0 |         |              |   0.000 |      100.000 |
## |  **Total** | 2787 | 100.000 |      100.000 | 100.000 |      100.000 |

Relación entre el precio y número de habitaciones.

Los apartamentos con 3 y 4 habitaciones son los más costoso, ya que en ambos casos se registran precios de 1.750 millones de pesos, en relación con aquellos apartamentos de 1 y 2 habitaciones done pueden llegar a tener un precio de 320 y 840 millones de pesos.

Por otro lado, se encuentra mayor oferta de apartamentos en aquellos que tienen 3 habitaciones, con una representación del 68.25%

## ### Frequencies  
## #### vivienda_apartamentos$habitaciones  
## **Type:** Numeric  
## 
## |     &nbsp; | Freq | % Valid | % Valid Cum. | % Total | % Total Cum. |
## |-----------:|-----:|--------:|-------------:|--------:|-------------:|
## |      **0** |    8 |    0.29 |         0.29 |    0.29 |         0.29 |
## |      **1** |   19 |    0.68 |         0.97 |    0.68 |         0.97 |
## |      **2** |  463 |   16.61 |        17.58 |   16.61 |        17.58 |
## |      **3** | 1902 |   68.25 |        85.83 |   68.25 |        85.83 |
## |      **4** |  366 |   13.13 |        98.96 |   13.13 |        98.96 |
## |      **5** |   24 |    0.86 |        99.82 |    0.86 |        99.82 |
## |      **6** |    5 |    0.18 |       100.00 |    0.18 |       100.00 |
## | **\<NA\>** |    0 |         |              |    0.00 |       100.00 |
## |  **Total** | 2787 |  100.00 |       100.00 |  100.00 |       100.00 |

Relación entre el precio y zona.

El 75% de los apartamentos ubicados en la zona sur tienen precios iguales o menores a 335 millones de pesos, sin embargo, hay apartamentos que pueden tener precios entre 575 y 1.750 millones de pesos. Los apartamentos con menor valor en esta zona cuentan con un precio de 75 millones de pesos.

## ### Frequencies  
## #### vivienda_apartamentos$zona  
## **Type:** Character  
## 
## |       &nbsp; | Freq | % Valid | % Valid Cum. | % Total | % Total Cum. |
## |-------------:|-----:|--------:|-------------:|--------:|-------------:|
## | **Zona Sur** | 2787 |  100.00 |       100.00 |  100.00 |       100.00 |
## |   **\<NA\>** |    0 |         |              |    0.00 |       100.00 |
## |    **Total** | 2787 |  100.00 |       100.00 |  100.00 |       100.00 |

Matriz de Correlación

  • Precio y Área Construida (0.76):

Interpretación: Existe una correlación positiva fuerte (0.76) entre el precio de la vivienda y el área construida. Esto sugiere que, en general, a medida que el área construida aumenta, el precio tiende a aumentar.

  • Cantidad de Baños y Precio (0.72):

Interpretación: Existe una correlación positiva bastante fuerte (0.72) entre la cantidad de baños y el precio de la vivienda. Esto indica que las viviendas con más baños tienden a tener precios más altos.

  • Área Construida y Estrato (0.48):

Interpretación: Hay una correlación positiva moderada (0.48) entre el área construida y el estrato. Esto sugiere que las viviendas con un área construida más grande tienden a estar en estratos más altos.

  • Cantidad de Habitaciones y Cantidad de Baños (0.51):

Interpretación: Existe una correlación moderada (0.51) entre la cantidad de habitaciones y la cantidad de baños. Esto indica que las viviendas con más habitaciones también tienden a tener más baños.

  • Precio y Estrato (0.67):

Interpretación: Hay una correlación positiva fuerte (0.67) entre el precio de la vivienda y el estrato. Esto sugiere que las viviendas en estratos más altos tienden a tener precios más altos.

Es importante recordar que la correlación no implica causalidad, y otros factores pueden influir en estas relaciones. Estas interpretaciones se basan en la fuerza y dirección de las asociaciones lineales observadas.

3. Estimación del modelo.

A continuación, se llevará a cabo el modelo de regresión múltiple utilizando la siguiente ecuación:

\[ \operatorname{Precio Apartamento} = \alpha + \beta_{1}(\operatorname{Área construidal}) + \beta_{2}(\operatorname{Estrato}) + \beta_{2}(\operatorname{Número de cuartos})+\beta_{2}(\operatorname{Número de parqueaderos})+\beta_{2}(\operatorname{Número de baños}) + \epsilon \]

## 
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos + 
##     banios, data = Vivienda_aparta_21)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1092.02   -42.28    -1.33    40.58   926.56 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -261.62501   15.63220 -16.736  < 2e-16 ***
## areaconst       1.28505    0.05403  23.785  < 2e-16 ***
## estrato        60.89709    3.08408  19.746  < 2e-16 ***
## habitaciones  -24.83693    3.89229  -6.381 2.11e-10 ***
## parqueaderos   72.91468    3.95797  18.422  < 2e-16 ***
## banios         50.69675    3.39637  14.927  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 98.02 on 2375 degrees of freedom
##   (406 observations deleted due to missingness)
## Multiple R-squared:  0.7485, Adjusted R-squared:  0.748 
## F-statistic:  1414 on 5 and 2375 DF,  p-value: < 2.2e-16

El coeficiente de determinación múltiple (Multiple R-squared) indica que aproximadamente el 78.72% de la variabilidad en la variable dependiente (precio) puede ser explicada por las variables independientes incluidas en el modelo de regresión múltiple. Esto implica que al menos el 78% de la variabilidad en el precio puede ser atribuida a las variables explicativas (área construida, estrato, número de cuartos, número de parqueaderos, número de baños) consideradas en el modelo.

La interpretacipon de los estimadores del modelo es la siguiente:

\[ \operatorname{\widehat{preciom}} = -261.63 + 1.29(\operatorname{areaconst}) + 60.9(\operatorname{estrato}) - 24.84(\operatorname{habitaciones}) + 72.91(\operatorname{parqueaderos}) + 50.7(\operatorname{banios}) \]

areaconst: Por cada unidad adicional en el área construida de la casa, se espera un aumento estimado de 1.28 millones de pesos en el precio, manteniendo constantes todas las demás variables.

estrato: Por cada unidad adicional en el estrato de la casa, se espera un aumento estimado de 60 millones de pesos en el precio, manteniendo constantes todas las demás variables.

habitaciones: Por cada unidad adicional en el número de habitaciones de la casa, se espera una disminución estimada de 24 millones de pesos en el precio, manteniendo constantes todas las demás variables.

parqueaderos: Por cada unidad adicional en el número de parqueaderos de la casa, se espera un aumento estimado de 72 millones de pesos en el precio, manteniendo constantes todas las demás variables.

banios: Por cada unidad adicional en el número de baños de la casa, se espera un aumento estimado de 50 millones de pesos en el precio, manteniendo constantes todas las demás variables.

Para mejorar el modelo podríamos implementar:

  • Transformación de Variables.

  • Realizar validación cruzada.

  • Probar técnicas de regularización como la regresión de Ridge o la regresión LASSO. Estas técnicas pueden ayudar a mitigar el sobreajuste y mejorar la generalización del modelo.

  • Considera la posibilidad de aplicar transformaciones a las variables independientes o dependientes. Por ejemplo, puedes probar logaritmos, raíces cuadradas u otras funciones.

  • Utilizarr la estrategía stepwise. con el Criterio de información de Akaike.

  • Realizar amputación de valores NA.

4. Validación de los supuestos.

EL grafico anterior nos muestra de forma grafica los supuestos de nuestro modelo.

Por el lado de la predicción de l modelo, que, si bien no es un supuesto, no da una imagen de la capacidad predictiva de nuestro modelo, según el grafico el modelo de predicción no se esta juagando tan bien a nuestros datos.

Por el lado de la linealidad observamos no todos los valores (residuos) están alrededor de cero y la línea que en teoría debería ser horizontal (color verde) empieza a declinarse hacia valores negativas. Lo cual nos indica que gráficamente nuestros datos no se comportan de forma lineal y no se estaría cumpliendo este supuesto.

Por otra parte, la Homogeneidad de Varianza, los residuos deben tener una varianza constante en todos los niveles de las variables independientes. En este caso no es así, ya que los residuos del modelo se encuentran concentrados y no están dispersos uniformemente a lo largo de la línea horizontal.

En relación cono Observaciones Influyentes vemos que no hay observaciones que estén influyendo en nuestro modelo, esto se visualiza ya que no hay valores por encima o debajo de las lianas (banda) de color verde.

Al evaluar la Colinealidad, no tamos que las variables con mayor VIF es Cantidad de baños, sin embargo, según el criterio para detectar la multicolinealidad de acuerdo a esta medida.

• Si VIFj ≤5 VIF no hay problemas de multicolinealidad.

• Si 5<VIFj≤10 hay problemas de multicolinealidad moderada.

• Si VIFj>10 hay problemas de multicolinealidad graves.

En este caso todas las variables tienen un VIF < 5, por lo tanto no hay problemas de Colinealidad.

Por último, en relación con la Normalidad de los Residuos encontramos que estos no se distribuyen normalmente alrededor de la línea cero, el grafico de residuos muestra una distribución asimétrica alrededor de cero, no cumple este supuesto.

  • Prueba de normalidad en los residuales
## 
##  Anderson-Darling normality test
## 
## data:  mod_multi_1_aparta$residuals
## A = 72.413, p-value < 2.2e-16

La prueba de Anderson-Darling evalúa si los residuales siguen una distribución normal. En este caso, el valor estadístico A es 72.413 y el p-valor es menor que 2.2e-16, lo que indica evidencia significativa en contra de la normalidad. En otras palabras, los residuos no siguen una distribución normal.

  • Prueba de homocedasticidad.
## 
##  studentized Breusch-Pagan test
## 
## data:  mod_multi_1_aparta
## BP = 754.81, df = 5, p-value < 2.2e-16

La prueba Breusch-Pagan para la homocedasticidad evalúa si la varianza de los residuales es constante en todos los niveles de las variables predictoras. En este caso, el valor de prueba BP es 754.81 con 5 grados de libertad y un p-valor menor que 2.2e-16. Esto sugiere evidencia significativa en contra de la homocedasticidad, lo que indica que la varianza de los residuos no es constante.

  • Análisis de Inflación de Varianza (VIF):
##    areaconst      estrato habitaciones parqueaderos       banios 
##     2.066518     1.545162     1.429280     1.737878     2.529494

El Análisis de Inflación de Varianza (VIF) evalúa la multicolinealidad entre las variables predictoras. Los valores del VIF cercanos a 1 indican baja multicolinealidad. En este caso, los valores del VIF son razonablemente bajos, lo que sugiere que la multicolinealidad no es un problema significativo.

  • Prueba de no autocorrelación de errores.
## 
##  Durbin-Watson test
## 
## data:  mod_multi_1_aparta
## DW = 1.5333, p-value < 2.2e-16
## alternative hypothesis: true autocorrelation is greater than 0

La prueba de Durbin-Watson evalúa si hay autocorrelación de primer orden en los residuales.El p-value asociado al estadístico DW es 1.5333. Este p-value es comparado con un nivel de significancia (como 0.05) para determinar si hay evidencia estadística suficiente para rechazar la hipótesis nula. En este caso, el p-value es menor (2.2e-16) que 0.05 , lo que sugiere evidencia significativa contra la hipótesis nula de ausencia de autocorrelación. Por lo tanto, se podría concluir que hay evidencia de autocorrelación positiva en los residuos.

  • Los residuales no siguen una distribución normal según la prueba de Anderson-Darling.

  • Existe heterocedasticidad en los residuales según la prueba Breusch-Pagan, no hya homocedasticidad.

  • La multicolinealidad entre las variables predictoras no parece ser un problema significativo según el análisis de VIF.

  • Hay evidencia de autocorrelación positiva de primer orden en los residuales según la prueba de Durbin-Watson.

5. Modelo con las características de la segunda solicitud.

Recordemos las caracteristicas de la solicitud:

Variable Descripción
Tipo Apartamento
Área construida 300
Cantidad de parqueaderos 3
Cantidad de baños 3
Cantidad de habitaciones 5
Estrato 5 o 6
Zona Sur
Crédito preaprobado 850 Millones
## El precio de un apartamento con estas características pero con estrato 5 en la zona Sur es de: 534.9658
## El precio de un apartamento con estas características pero con estrato 6 en la zona Sur es de: 615.6008

6. Potenciales ofertas.

Con las predicciones del modelo sugiera potenciales ofertas que responda a la solicitud de la vivienda 2. Teniendo en cuenta que la empresa tiene crédito pre-aprobado de máximo 850.

zona piso estrato preciom areaconst parqueaderos banios habitaciones tipo barrio longitud latitud
7182 Zona Sur NA 5 730 573 3 8 5 Apartamento guadalupe -76.548 3.408
7512 Zona Sur NA 5 670 300 3 5 6 Apartamento seminario -76.550 3.409
  • Mapa potenciales ofertas:

El código utilizado se encuentra disponible en el repositorio de GITHUB:

https://github.com/JuanRaigoso/Modelo-de-Regresion-Multiple/blob/main/Modelo%20de%20Regresion%20Lineal.R