1 Introducción

En este informe se analiza el caso de la empresa C&A, que necesita responder dos solicitudes de compra de vivienda en la ciudad de Cali. Para ello se emplea un modelo de regresión lineal múltiple, con el fin de explicar y predecir el precio de las viviendas a partir de variables físicas y comerciales de la base de datos.

El trabajo se desarrolla siguiendo los 7 pasos solicitados en la guía:

  1. Filtrar la base de datos para cada solicitud.
  2. Realizar el análisis exploratorio de datos.
  3. Estimar el modelo de regresión lineal múltiple.
  4. Validar los supuestos del modelo.
  5. Predecir el precio de la vivienda solicitada.
  6. Sugerir ofertas potenciales de acuerdo con el presupuesto.
  7. Repetir el procedimiento para la segunda solicitud.

2 Objetivo

Implementar un modelo de regresión lineal múltiple en R para analizar el precio de viviendas en Cali y apoyar la recomendación de ofertas para dos clientes de la empresa C&A.

3 Librerías y carga de datos

##  [1] "id"           "zona"         "piso"         "estrato"      "preciom"     
##  [6] "areaconst"    "parqueaderos" "banios"       "habitaciones" "tipo"        
## [11] "barrio"       "longitud"     "latitud"
##        id           zona               piso              estrato     
##  Min.   :   1   Length:8322        Length:8322        Min.   :3.000  
##  1st Qu.:2080   Class :character   Class :character   1st Qu.:4.000  
##  Median :4160   Mode  :character   Mode  :character   Median :5.000  
##  Mean   :4160                                         Mean   :4.634  
##  3rd Qu.:6240                                         3rd Qu.:5.000  
##  Max.   :8319                                         Max.   :6.000  
##  NA's   :3                                            NA's   :3      
##     preciom         areaconst       parqueaderos        banios      
##  Min.   :  58.0   Min.   :  30.0   Min.   : 1.000   Min.   : 0.000  
##  1st Qu.: 220.0   1st Qu.:  80.0   1st Qu.: 1.000   1st Qu.: 2.000  
##  Median : 330.0   Median : 123.0   Median : 2.000   Median : 3.000  
##  Mean   : 433.9   Mean   : 174.9   Mean   : 1.835   Mean   : 3.111  
##  3rd Qu.: 540.0   3rd Qu.: 229.0   3rd Qu.: 2.000   3rd Qu.: 4.000  
##  Max.   :1999.0   Max.   :1745.0   Max.   :10.000   Max.   :10.000  
##  NA's   :2        NA's   :3        NA's   :1605     NA's   :3       
##   habitaciones        tipo              barrio             longitud     
##  Min.   : 0.000   Length:8322        Length:8322        Min.   :-76.59  
##  1st Qu.: 3.000   Class :character   Class :character   1st Qu.:-76.54  
##  Median : 3.000   Mode  :character   Mode  :character   Median :-76.53  
##  Mean   : 3.605                                         Mean   :-76.53  
##  3rd Qu.: 4.000                                         3rd Qu.:-76.52  
##  Max.   :10.000                                         Max.   :-76.46  
##  NA's   :3                                              NA's   :3       
##     latitud     
##  Min.   :3.333  
##  1st Qu.:3.381  
##  Median :3.416  
##  Mean   :3.418  
##  3rd Qu.:3.452  
##  Max.   :3.498  
##  NA's   :3

4 Descripción de las solicitudes

4.1 Solicitud 1

  • Tipo: Casa
  • Zona: Norte
  • Área construida: 200 m2
  • Parqueaderos: 1
  • Baños: 2
  • Habitaciones: 4
  • Estrato: 4 o 5
  • Crédito preaprobado máximo: 350 millones

4.2 Solicitud 2

  • Tipo: Apartamento
  • Zona: Sur
  • Área construida: 300 m2
  • Parqueaderos: 3
  • Baños: 3
  • Habitaciones: 5
  • Estrato: 5 o 6
  • Crédito preaprobado máximo: 850 millones

5 1. Filtro de la base de datos

5.1 1.1 Base 1: casas en zona norte

## [1] 722

5.2 1.2 Base 2: apartamentos en zona sur

## [1] 2787

6 2. Análisis exploratorio de datos

En esta sección se estudia la relación entre el precio de la vivienda y las variables explicativas entre área construida, estrato, número de baños, número de habitaciones y número de parqueaderos.

A tener en cuenta: una vez se filtra cada base por zona, la variable zona queda constante dentro de cada subconjunto. Por eso se usa para filtrar, pero no se incluye en la regresión, porque ya no aporta variación estadística.

6.1 2.1 Exploración para base 1

##     preciom         areaconst         estrato       parqueaderos   
##  Min.   :  89.0   Min.   :  30.0   Min.   :3.000   Min.   : 1.000  
##  1st Qu.: 261.2   1st Qu.: 140.0   1st Qu.:3.000   1st Qu.: 1.000  
##  Median : 390.0   Median : 240.0   Median :4.000   Median : 2.000  
##  Mean   : 445.9   Mean   : 264.9   Mean   :4.202   Mean   : 2.182  
##  3rd Qu.: 550.0   3rd Qu.: 336.8   3rd Qu.:5.000   3rd Qu.: 3.000  
##  Max.   :1940.0   Max.   :1440.0   Max.   :6.000   Max.   :10.000  
##                                                    NA's   :287     
##      banios        habitaciones   
##  Min.   : 0.000   Min.   : 0.000  
##  1st Qu.: 2.000   1st Qu.: 3.000  
##  Median : 3.000   Median : 4.000  
##  Mean   : 3.555   Mean   : 4.507  
##  3rd Qu.: 4.000   3rd Qu.: 5.000  
##  Max.   :10.000   Max.   :10.000  
## 
##                preciom areaconst    estrato parqueaderos    banios habitaciones
## preciom      1.0000000 0.6853915 0.52827831    0.4116620 0.5086427   0.36508586
## areaconst    0.6853915 1.0000000 0.35352525    0.3069709 0.4574766   0.42068968
## estrato      0.5282783 0.3535252 1.00000000    0.2612647 0.3512569   0.05819709
## parqueaderos 0.4116620 0.3069709 0.26126471    1.0000000 0.3918638   0.24139617
## banios       0.5086427 0.4574766 0.35125685    0.3918638 1.0000000   0.59038214
## habitaciones 0.3650859 0.4206897 0.05819709    0.2413962 0.5903821   1.00000000

6.1.1 Interpretación base 1

A partir de los gráficos de dispersión, se observa que el precio de las casas en la zona norte presenta una relación positiva con las variables analizadas: área construida, número de baños, número de habitaciones y número de parqueaderos.

La relación más clara se presenta entre precio y área construida, ya que a medida que aumenta el área de la vivienda, el precio también tiende a incrementarse. Esto sugiere que esta variable puede ser una de las más importantes dentro del modelo.

En el caso de los baños y las habitaciones, también se observa una tendencia creciente: las viviendas con más baños o más habitaciones suelen presentar precios más altos. Sin embargo, en ambos casos hay una dispersión considerable, lo que indica que estas variables influyen en el precio, pero no lo explican completamente por sí solas.

Por su parte, la relación entre precio y número de parqueaderos es más débil. Aunque algunas viviendas con más parqueaderos tienen precios más elevados, la variabilidad es alta y la tendencia no es tan marcada como en las otras variables.

Se muestra que existe una asociación positiva entre el precio y las variables seleccionadas, especialmente con el área construida, lo cual respalda el uso de un modelo de regresión lineal múltiple para esta base.

6.2 2.2 Exploración para base 2

##     preciom         areaconst         estrato      parqueaderos   
##  Min.   :  75.0   Min.   : 40.00   Min.   :3.00   Min.   : 1.000  
##  1st Qu.: 175.0   1st Qu.: 65.00   1st Qu.:4.00   1st Qu.: 1.000  
##  Median : 245.0   Median : 85.00   Median :5.00   Median : 1.000  
##  Mean   : 297.3   Mean   : 97.47   Mean   :4.63   Mean   : 1.415  
##  3rd Qu.: 335.0   3rd Qu.:110.00   3rd Qu.:5.00   3rd Qu.: 2.000  
##  Max.   :1750.0   Max.   :932.00   Max.   :6.00   Max.   :10.000  
##                                                   NA's   :406     
##      banios       habitaciones  
##  Min.   :0.000   Min.   :0.000  
##  1st Qu.:2.000   1st Qu.:3.000  
##  Median :2.000   Median :3.000  
##  Mean   :2.488   Mean   :2.966  
##  3rd Qu.:3.000   3rd Qu.:3.000  
##  Max.   :8.000   Max.   :6.000  
## 
##                preciom areaconst   estrato parqueaderos    banios habitaciones
## preciom      1.0000000 0.7407150 0.6497479    0.6934386 0.7111289    0.2957800
## areaconst    0.7407150 1.0000000 0.4518617    0.5783506 0.6639216    0.4073401
## estrato      0.6497479 0.4518617 1.0000000    0.4859027 0.5348003    0.1768269
## parqueaderos 0.6934386 0.5783506 0.4859027    1.0000000 0.5563189    0.2367067
## banios       0.7111289 0.6639216 0.5348003    0.5563189 1.0000000    0.5204718
## habitaciones 0.2957800 0.4073401 0.1768269    0.2367067 0.5204718    1.0000000

6.2.1 Interpretación base 2

En esta base se observa que el precio de los apartamentos en la zona sur tiende a aumentar a medida que aumentan las variables analizadas. como la base 1 ,esto se nota especialmente en el caso del área construida, donde claramente los apartamentos con mayor tamaño suelen presentar precios más altos, aunque en valores grandes también aparece más dispersión.

Con los baños ocurre algo similar ya que a medida que aumenta su número, el precio generalmente también sube, lo que sugiere que esta característica aporta valor al inmueble. La misma línea se observa con las habitaciones, ya que los apartamentos con mayor cantidad suelen ubicarse en rangos de precio superiores, aunque con cierta variabilidad.

En el caso de los parqueaderos, también se aprecia una tendencia positiva, pero menos marcada que en las demás variables. Es decir, tener más parqueaderos puede estar asociado con un mayor precio, aunque su comportamiento no es tan claro ni tan fuerte como el del área construida.

7 3. Estimación del modelo de regresión lineal múltiple

7.1 3.1 Modelo para casas en zona norte

## 
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos + 
##     banios, data = base1)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -784.29  -77.56  -16.03   47.67  978.61 
## 
## Coefficients:
##                Estimate Std. Error t value             Pr(>|t|)    
## (Intercept)  -238.17090   44.40551  -5.364   0.0000001337033031 ***
## areaconst       0.67673    0.05281  12.814 < 0.0000000000000002 ***
## estrato        80.63495    9.82632   8.206   0.0000000000000027 ***
## habitaciones    7.64511    5.65873   1.351                0.177    
## parqueaderos   24.00598    5.86889   4.090   0.0000514440170084 ***
## banios         18.89938    7.48800   2.524                0.012 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 155.1 on 429 degrees of freedom
##   (287 observations deleted due to missingness)
## Multiple R-squared:  0.6041, Adjusted R-squared:  0.5995 
## F-statistic: 130.9 on 5 and 429 DF,  p-value: < 0.00000000000000022

7.1.1 Interpretación del modelo 1

El modelo de regresión para las casas en zona norte es globalmente significativo, ya que la prueba F presenta un valor p muy pequeño, lo que indica que las variables incluidas ayudan a explicar el precio del inmueble.

Entre las variables analizadas, las más importantes son área construida y estrato, ambas con efecto positivo y estadísticamente significativo. Esto significa que, a mayor área y mayor estrato, el precio de la vivienda tiende a aumentar. También los parqueaderos y los baños muestran una relación positiva significativa con el precio, aunque con menor impacto que las dos variables anteriores.

Por su parte, la variable habitaciones no resulta estadísticamente significativa, por lo que en este modelo no evidencia un efecto claro sobre el precio al controlar por las demás variables.

Finalmente, el modelo presenta un R² de 0.6041, lo que indica que explica aproximadamente el 60.4% de la variación del precio, mostrando un ajuste aceptable para esta base. ## 3.2 Modelo para apartamentos en zona sur

## 
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos + 
##     banios, data = base2)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1092.02   -42.28    -1.33    40.58   926.56 
## 
## Coefficients:
##                Estimate Std. Error t value             Pr(>|t|)    
## (Intercept)  -261.62501   15.63220 -16.736 < 0.0000000000000002 ***
## areaconst       1.28505    0.05403  23.785 < 0.0000000000000002 ***
## estrato        60.89709    3.08408  19.746 < 0.0000000000000002 ***
## habitaciones  -24.83693    3.89229  -6.381       0.000000000211 ***
## parqueaderos   72.91468    3.95797  18.422 < 0.0000000000000002 ***
## banios         50.69675    3.39637  14.927 < 0.0000000000000002 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 98.02 on 2375 degrees of freedom
##   (406 observations deleted due to missingness)
## Multiple R-squared:  0.7485, Adjusted R-squared:  0.748 
## F-statistic:  1414 on 5 and 2375 DF,  p-value: < 0.00000000000000022

7.1.2 Interpretación del modelo 2

El modelo de regresión para los apartamentos en zona sur es globalmente significativo, ya que la prueba F presenta un valor p prácticamente igual a cero. Esto indica que, en conjunto, las variables incluidas explican de manera importante el comportamiento del precio.

Las variables área construida, estrato, parqueaderos y baños presentan coeficientes positivos y estadísticamente significativos, por lo que a medida que estas aumentan, el precio del apartamento tiende a incrementarse. Entre ellas, el área construida destaca como una de las variables más influyentes sobre el valor del inmueble.

Por su parte, la variable habitaciones resulta significativa, pero con coeficiente negativo. Esto sugiere que, manteniendo constantes las demás variables, un mayor número de habitaciones podría asociarse con una reducción en el precio, posiblemente por la relación que esta variable tiene con la distribución interna del área y otras características del apartamento.

Finalmente, el modelo presenta un R² de 0.7485, lo que indica que explica aproximadamente el 74.85% de la variación del precio, mostrando un ajuste alto y mejor desempeño que el modelo de la Base 1.

8 4. Validación de supuestos del modelo

8.1 4.1 Supuestos para el modelo 1

## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(modelo1)
## W = 0.85246, p-value < 0.00000000000000022
## 
##  studentized Breusch-Pagan test
## 
## data:  modelo1
## BP = 80.281, df = 5, p-value = 0.000000000000000733
##    areaconst      estrato habitaciones parqueaderos       banios 
##     1.460998     1.307757     1.721015     1.226334     1.967421

8.1.1 Interpretación de supuestos - modelo 1

Aunque el modelo presenta una capacidad explicativa aceptable, la evaluación de supuestos evidenció incumplimiento de normalidad y homocedasticidad de los residuos. ## 4.2 Supuestos para el modelo 2

## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(modelo2)
## W = 0.79118, p-value < 0.00000000000000022
## 
##  studentized Breusch-Pagan test
## 
## data:  modelo2
## BP = 754.81, df = 5, p-value < 0.00000000000000022
##    areaconst      estrato habitaciones parqueaderos       banios 
##     2.066518     1.545162     1.429280     1.737878     2.529494

8.1.2 Interpretación de supuestos - modelo 2

Aunque el modelo 2 presenta un buen nivel de ajuste, los supuestos de normalidad y homocedasticidad no se cumplen completamente, sin emabargo los resultados se analizan con cautela

9 5. Predicción del precio de la vivienda solicitada

9.1 5.1 Predicción para la solicitud 1

##       fit      lwr      upr
## 1 312.101 6.205196 617.9968

9.1.1 Interpretación solicitud 1

Para una casa con 200 m², estrato 4, 4 habitaciones, 1 parqueadero y 2 baños, el modelo estima un precio de 312.10 millones. El intervalo de predicción al 95% se ubica entre 6.21 y 617.99 millones, lo que evidencia una alta variabilidad en la estimación individual.

9.2 5.2 Predicción para la solicitud 2

##        fit     lwr      upr
## 1 675.0247 481.455 868.5945

9.2.1 Interpretación solicitud 2

Con base en el modelo 2, para un apartamento con 300 m² de área construida, estrato 5, 5 habitaciones, 3 parqueaderos y 3 baños, se estima un precio esperado de 675.02 millones.

Además, el intervalo de predicción al 95% indica que el precio de un inmueble con estas características podría ubicarse aproximadamente entre 481.46 millones y 868.59 millones.

En comparación con la predicción de la Base 1, este intervalo es más estrecho, lo que sugiere una estimación más precisa para esta solicitud dentro del modelo 2.

10 6. Selección de ofertas potenciales

En lugar de usar una función compleja o que conlleve a un grado mayor de dificulta, se opta por construir un criterio sencillo de similitud. Se filtran las viviendas que cumplen el presupuesto y el rango de estrato, y luego se calcula una medida de cercanía respecto a las características deseadas.

10.1 6.1 Ofertas sugeridas para la solicitud 1

10.1.1 Comentario sobre la solicitud 1

Se identificaron cinco ofertas similares a la vivienda solicitada, ubicadas en los barrios El Bosque, La Flora, La Merced y Vipasa, en la zona norte. Estas propiedades presentan características cercanas en área, estrato, número de baños, habitaciones y parqueaderos, con precios entre 320 y 350 millones.

En conjunto, estas opciones resultan coherentes con la estimación del modelo y representan alternativas viables dentro del perfil buscado.

10.2 6.2 Ofertas sugeridas para la solicitud 2

10.2.1 Comentario sobre la solicitud 2

Se identificaron cinco ofertas similares al apartamento solicitado, ubicadas en los barrios Seminario, Cuarto de Legua y Ciudadela Pasoancho, en la zona sur. Estas propiedades presentan características cercanas en área, estrato, número de baños, habitaciones y parqueaderos, con precios entre 410 y 670 millones.

En conjunto, estas opciones son consistentes con la estimación obtenida por el modelo y representan alternativas viables dentro del perfil buscado.

11 7. Análisis del rendimiento del modelo con set de prueba

Para complementar la interpretación de los modelos y cumplir con la evaluación predictiva solicitada, se realiza una partición simple de cada base en entrenamiento (80%) y prueba (20%). El modelo se ajusta con el conjunto de entrenamiento y se evalúa en el conjunto de prueba mediante RMSE, MAE y R2. De esta forma, las métricas reflejan mejor la capacidad predictiva sobre datos no usados en el ajuste.

11.1 7.1 Evaluación del modelo 1 con set de prueba

11.2 7.2 Evaluación del modelo 2 con set de prueba

11.2.1 Interpretación de las métricas

Los dos modelos de regresión permitieron estimar el precio de los inmuebles a partir de variables como el área construida, el estrato, los baños, las habitaciones y los parqueaderos. En ambos casos, el área construida y el estrato fueron las variables más influyentes, lo que indica que el tamaño del inmueble y su ubicación socioeconómica son factores clave en la formación del precio.

Al analizar las métricas sobre el set de prueba, se observa que el modelo 1 presenta un RMSE de 126.83, un MAE de 87.89 y un R² de 0.6979, lo que significa que explica aproximadamente el 69.8% de la variación del precio en datos no usados en el entrenamiento y que sus errores de predicción son moderados. Por su parte, el modelo 2 obtuvo un RMSE de 94.41, un MAE de 58.87 y un R² de 0.7539, por lo que explica cerca del 75.4% de la variación del precio en el conjunto de prueba y presenta errores menores. En consecuencia, el modelo 2 muestra un mejor desempeño predictivo y una mayor precisión que el modelo 1.

Aunque ambos modelos resultan útiles, el modelo 2 ofrece una estimación más confiable dentro de la información analizada. Además, en los dos casos se complementó la predicción con la búsqueda de ofertas similares, lo que permite contrastar el valor estimado con alternativas reales del mercado y darle un mayor sentido práctico al análisis.

En el caso de Camila, se le puede indicar que este estudio sí le aporta una base objetiva para tomar decisiones, ya que no solo estima el precio del inmueble que busca, sino que también permite compararlo con ofertas reales de características similares. En particular, el modelo del apartamento en zona sur resulta más confiable por presentar menor error y mayor capacidad explicativa en el set de prueba. Sin embargo, ambos modelos sirven como una guía útil para evaluar si el precio de una vivienda está dentro de un rango razonable según sus características.

En este sentido, el análisis ayuda a Camila a reducir la incertidumbre al momento de comprar, porque le brinda una referencia técnica del valor esperado del inmueble y le muestra opciones comparables en el mercado, facilitando una decisión más informada.

12 Anexo: ecuación general del modelo

La forma general del modelo estimado es:

\[ Precio_i = \beta_0 + \beta_1(Área_i) + \beta_2(Estrato_i) + \beta_3(Habitaciones_i) + \beta_4(Parqueaderos_i) + \beta_5(Baños_i) + \varepsilon_i \]

Donde: