1 CONTEXTO, OBJETIVO Y ALCANCE DEL ANÁLISIS

1.1 CONTEXTO

María comenzó como agente de bienes raíces en Cali hace 10 años. Después de trabajar para una empresa nacional y posteriormente trasladarse a Bogotá para laborar en otra agencia inmobiliaria, decidió fundar su propia compañía en Cali, denominada C&A (Casas y Apartamentos). Actualmente cuenta con un equipo de ocho agentes de bienes raíces.

En el contexto actual, las ventas de bienes raíces en Cali han disminuido significativamente en lo corrido del año. No obstante, varias instituciones financieras están otorgando créditos importantes para el sector de construcción y vivienda, por lo cual se espera una reactivación del mercado cuando disminuyan las tensiones políticas y sociales.

Hace dos días, María recibió una solicitud de asesoría por parte de una compañía internacional que desea adquirir dos viviendas para ubicar a dos de sus empleados con sus familias en la ciudad de Cali. Para responder a esta solicitud se requiere un análisis basado en técnicas de modelación estadística.

1.2 OBJETIVO GENERAL

Desarrollar un análisis estadístico que permita apoyar la recomendación de vivienda para las dos solicitudes recibidas por María, mediante:

  • Depuración y validación de la base de datos
  • Análisis exploratorio de datos
  • Estudio de correlaciones
  • Estimación de modelos de regresión lineal múltiple
  • Validación de supuestos
  • Predicción puntual del precio
  • Selección y visualización de ofertas potenciales

1.3 SOLICITUDES DEL CLIENTE

1.3.1 Vivienda 1

  • Tipo: Casa
  • Área construida: 200 m2
  • Parqueaderos: 1
  • Baños: 2
  • Habitaciones: 4
  • Estrato: 4 o 5
  • Zona: Norte
  • Crédito preaprobado: 350 millones de pesos

1.3.2 Vivienda 2

  • Tipo: Apartamento
  • Área construida: 300 m2
  • Parqueaderos: 3
  • Baños: 3
  • Habitaciones: 5
  • Estrato: 5 o 6
  • Zona: Sur
  • Crédito preaprobado: 850 millones de pesos

1.4 Procedimiento para el cumplimiento de la solicitud

  1. Exploración y limpieza de datos.
  2. Revisión de faltantes e imputación simple.
  3. Análisis exploratorio de datos con énfasis en correlación.
  4. Regresión lineal múltiple por Mínimos Cuadrados Ordinarios.
  5. Inferencia sobre coeficientes.
  6. Evaluación del ajuste mediante R² y R² ajustado.
  7. Validación de supuestos.
  8. Diagnóstico de multicolinealidad.
  9. Validación cruzada.
  10. Pronósticos y selección de ofertas potenciales.
  11. Visualización geográfica con mapas.

1.5 VARIABLES RELEVANTES

  • zona: ubicación general de la vivienda.
  • piso: piso que ocupa la vivienda.
  • estrato: estrato socioeconómico.
  • preciom: precio de la vivienda en millones de pesos.
  • areaconst: área construida en metros cuadrados.
  • parqueaderos: número de parqueaderos.
  • banios: número de baños.
  • habitaciones: número de habitaciones.
  • tipo: tipo de vivienda.
  • barrio: barrio de ubicación.
  • longitud, latitud: coordenadas geográficas.

2 CARGA DE DATOS

Para el desarrollo del caso se utiliza la base de datos vivienda, disponible en el paquete paqueteMODELOS, la cual reune la información necesaria para analizar las dos solicitudes planteadas.

## Rows: 8,322
## Columns: 13
## $ id           <dbl> 1147, 1169, 1350, 5992, 1212, 1724, 2326, 4386, 1209, 159…
## $ zona         <fct> Zona Oriente, Zona Oriente, Zona Oriente, Zona Sur, Zona …
## $ piso         <fct> NA, NA, NA, 02, 01, 01, 01, 01, 02, 02, 02, 02, 02, 02, 0…
## $ estrato      <dbl> 3, 3, 3, 4, 5, 5, 4, 5, 5, 5, 6, 4, 5, 6, 4, 5, 5, 4, 5, …
## $ preciom      <dbl> 250, 320, 350, 400, 260, 240, 220, 310, 320, 780, 750, 62…
## $ areaconst    <dbl> 70, 120, 220, 280, 90, 87, 52, 137, 150, 380, 445, 355, 2…
## $ parqueaderos <dbl> 1, 1, 2, 3, 1, 1, 2, 2, 2, 2, NA, 3, 2, 2, 1, 4, 2, 2, 2,…
## $ banios       <dbl> 3, 2, 2, 5, 2, 3, 2, 3, 4, 3, 7, 5, 6, 2, 4, 4, 4, 3, 2, …
## $ habitaciones <dbl> 6, 3, 4, 3, 3, 3, 3, 4, 6, 3, 6, 5, 6, 2, 5, 5, 4, 3, 3, …
## $ tipo         <fct> Casa, Casa, Casa, Casa, Apartamento, Apartamento, Apartam…
## $ barrio       <fct> 20 de julio, 20 de julio, 20 de julio, 3 de julio, acopi,…
## $ longitud     <dbl> -76.51168, -76.51237, -76.51537, -76.54000, -76.51350, -7…
## $ latitud      <dbl> 3.43382, 3.43369, 3.43566, 3.43500, 3.45891, 3.36971, 3.4…

3 DEPURACIÓN Y ANÁLISIS PREVIO DE LA BASE

3.1 Resumen general

En esta sección se presenta una visión general de la base de datos, con el fin de identificar la estructura de las variables, sus rangos de valores y la posible presencia de datos faltantes o comportamientos atípicos. Esta revisión inicial permite verificar que la información disponible sea consistente con el objetivo del análisis y sirve como punto de partida para la etapa de depuración.

##        id                 zona           piso         estrato     
##  Min.   :   1   Zona Centro : 124   02     :1450   Min.   :3.000  
##  1st Qu.:2080   Zona Norte  :1920   03     :1097   1st Qu.:4.000  
##  Median :4160   Zona Oeste  :1198   01     : 860   Median :5.000  
##  Mean   :4160   Zona Oriente: 351   04     : 607   Mean   :4.634  
##  3rd Qu.:6240   Zona Sur    :4726   05     : 567   3rd Qu.:5.000  
##  Max.   :8319   NA's        :   3   (Other):1103   Max.   :6.000  
##  NA's   :3                          NA's   :2638   NA's   :3      
##     preciom         areaconst       parqueaderos        banios      
##  Min.   :  58.0   Min.   :  30.0   Min.   : 1.000   Min.   : 0.000  
##  1st Qu.: 220.0   1st Qu.:  80.0   1st Qu.: 1.000   1st Qu.: 2.000  
##  Median : 330.0   Median : 123.0   Median : 2.000   Median : 3.000  
##  Mean   : 433.9   Mean   : 174.9   Mean   : 1.835   Mean   : 3.111  
##  3rd Qu.: 540.0   3rd Qu.: 229.0   3rd Qu.: 2.000   3rd Qu.: 4.000  
##  Max.   :1999.0   Max.   :1745.0   Max.   :10.000   Max.   :10.000  
##  NA's   :2        NA's   :3        NA's   :1605     NA's   :3       
##   habitaciones             tipo                 barrio        longitud     
##  Min.   : 0.000   Apartamento:5100   valle del lili:1008   Min.   :-76.59  
##  1st Qu.: 3.000   Casa       :3219   ciudad jardín : 516   1st Qu.:-76.54  
##  Median : 3.000   NA's       :   3   pance         : 409   Median :-76.53  
##  Mean   : 3.605                      la flora      : 366   Mean   :-76.53  
##  3rd Qu.: 4.000                      santa teresita: 262   3rd Qu.:-76.52  
##  Max.   :10.000                      (Other)       :5758   Max.   :-76.46  
##  NA's   :3                           NA's          :   3   NA's   :3       
##     latitud     
##  Min.   :3.333  
##  1st Qu.:3.381  
##  Median :3.416  
##  Mean   :3.418  
##  3rd Qu.:3.452  
##  Max.   :3.498  
##  NA's   :3

3.2 Revisión de valores faltantes

##           id         zona         piso      estrato      preciom    areaconst 
##            3            3         2638            3            2            3 
## parqueaderos       banios habitaciones         tipo       barrio     longitud 
##         1605            3            3            3            3            3 
##      latitud 
##            3
##           id         zona         piso      estrato      preciom    areaconst 
##         0.04         0.04        31.70         0.04         0.02         0.04 
## parqueaderos       banios habitaciones         tipo       barrio     longitud 
##        19.29         0.04         0.04         0.04         0.04         0.04 
##      latitud 
##         0.04

En esta parte se revisa si existen valores faltantes en las variables que se van a usar en el modelo. Esta verificación es importante porque, si los faltantes no se tratan de forma adecuada, pueden afectar tanto el ajuste del modelo como la interpretación de los resultados.

3.3 Estrategia de imputación y depuración

Para esta actividad se utiliza una estrategia simple y transparente:

  • Las variables numéricas del modelo se imputan con la mediana cuando presentan faltantes.
  • Los registros sin zona, tipo, latitud o longitud se eliminan, ya que impiden realizar filtros correctos o construir mapas.
##           id         zona         piso      estrato      preciom    areaconst 
##            0            0         2635            0            0            0 
## parqueaderos       banios habitaciones         tipo       barrio     longitud 
##            0            0            0            0            0            0 
##      latitud 
##            0

Se decidió imputar con la mediana porque esta medida no se ve tan afectada por valores extremos y permite conservar registros útiles para el análisis. De esta manera se evita perder información que puede aportar al modelo, sin recurrir a procedimientos más complejos que no son necesarios para el alcance de esta actividad. ## Detección exploratoria de valores atípicos

Se identifican algunos valores extremos, sobre todo en precio y área construida. Esto no resulta extraño en una base inmobiliaria, ya que pueden aparecer viviendas de alto valor o inmuebles con características poco frecuentes frente al resto del mercado. En esta actividad no se eliminan, pero sí se tienen en cuenta porque pueden influir en el comportamiento del modelo y en el cumplimiento de algunos supuestos.

4 CASO 1: VIVIENDA 1 - CASAS EN ZONA NORTE

4.1 Filtro de la base 1

Para responder la primera solicitud se construye una base específica con las ofertas de casas ubicadas en la zona norte de la ciudad. Este filtro permite concentrar el análisis en un segmento comparable con el perfil solicitado y evita mezclar observaciones de otras zonas o de otros tipos de vivienda.

4.2 Tablas de comprobación de la consulta

## 
## Apartamento        Casa 
##           0         722
## 
##  Zona Centro   Zona Norte   Zona Oeste Zona Oriente     Zona Sur 
##            0          722            0            0            0

Las tablas anteriores confirman que la consulta se realizó correctamente, ya que todos los registros de la base 1 corresponden a casas ubicadas en la zona norte.

4.3 Mapa de la base 1

Discusión del mapa.

Idealmente, los puntos deben concentrarse en la zona norte. Si algunos registros parecen quedar fuera de la zona esperada, esto puede explicarse por errores de georreferenciación, diferencias entre la clasificación comercial de la zona y la ubicación exacta, imprecisiones en los límites espaciales o errores de digitación en las coordenadas.

5 ANÁLISIS EXPLORATORIO DE DATOS - BASE 1

5.1 Estadísticos descriptivos

##     preciom         areaconst         estrato       parqueaderos   
##  Min.   :  89.0   Min.   :  30.0   Min.   :3.000   Min.   : 1.000  
##  1st Qu.: 261.2   1st Qu.: 140.0   1st Qu.:3.000   1st Qu.: 2.000  
##  Median : 390.0   Median : 240.0   Median :4.000   Median : 2.000  
##  Mean   : 445.9   Mean   : 264.9   Mean   :4.202   Mean   : 2.109  
##  3rd Qu.: 550.0   3rd Qu.: 336.8   3rd Qu.:5.000   3rd Qu.: 2.000  
##  Max.   :1940.0   Max.   :1440.0   Max.   :6.000   Max.   :10.000  
##      banios        habitaciones   
##  Min.   : 0.000   Min.   : 0.000  
##  1st Qu.: 2.000   1st Qu.: 3.000  
##  Median : 3.000   Median : 4.000  
##  Mean   : 3.555   Mean   : 4.507  
##  3rd Qu.: 4.000   3rd Qu.: 5.000  
##  Max.   :10.000   Max.   :10.000

5.2 Correlación entre variables

##                preciom areaconst   estrato    banios habitaciones parqueaderos
## preciom      1.0000000 0.7313480 0.6123503 0.5233357    0.3227096    0.3033762
## areaconst    0.7313480 1.0000000 0.4573818 0.4628152    0.3753323    0.2586839
## estrato      0.6123503 0.4573818 1.0000000 0.4083039    0.1073141    0.2039056
## banios       0.5233357 0.4628152 0.4083039 1.0000000    0.5755314    0.2922145
## habitaciones 0.3227096 0.3753323 0.1073141 0.5755314    1.0000000    0.1928669
## parqueaderos 0.3033762 0.2586839 0.2039056 0.2922145    0.1928669    1.0000000

La matriz de correlación permite ver qué tan relacionadas están las variables entre sí y en qué dirección se mueven. En este caso, lo esperable es que el precio aumente junto con el área construida, el estrato y algunas características de comodidad de la vivienda, como el número de baños o parqueaderos.

5.3 Gráficos

5.3.1 Precio vs área construida

5.3.2 Precio vs estrato

5.3.3 Precio vs baños

5.3.4 Precio vs habitaciones

Interpretación general del EDA.

En general, los gráficos muestran que el precio de las casas en la zona norte tiende a ser mayor cuando aumentan el área construida, el estrato y el número de baños. En el caso de las habitaciones, la relación no siempre se ve tan marcada, posiblemente porque parte de ese efecto ya está reflejado en el tamaño total de la vivienda. Por esta razón, conviene estimar un modelo de regresión múltiple que permita evaluar el efecto conjunto de todas las variables.

6 MODELO DE REGRESIÓN LINEAL MÚLTIPLE - BASE 1

6.1 Especificación del modelo

Se estima el siguiente modelo:

\[ preciom_i = \beta_0 + \beta_1 areaconst_i + \beta_2 estrato_i + \beta_3 habitaciones_i + \beta_4 parqueaderos_i + \beta_5 banios_i + \varepsilon_i \]

donde los parámetros se estiman mediante Mínimos Cuadrados Ordinarios (MCO).

6.2 Estimación del modelo

## 
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos + 
##     banios, data = base1)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -924.94  -77.71  -17.66   45.90 1081.29 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -251.05177   30.11848  -8.335 3.94e-16 ***
## areaconst       0.81090    0.04352  18.634  < 2e-16 ***
## estrato        84.61108    7.17727  11.789  < 2e-16 ***
## habitaciones    0.95948    4.10569   0.234  0.81529    
## parqueaderos   16.55976    5.70396   2.903  0.00381 ** 
## banios         24.57669    5.35583   4.589 5.26e-06 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 158.2 on 716 degrees of freedom
## Multiple R-squared:  0.6548, Adjusted R-squared:  0.6524 
## F-statistic: 271.6 on 5 and 716 DF,  p-value: < 2.2e-16

6.3 Indicadores de ajuste

##          R2 R2_Ajustado 
##   0.6547860   0.6523753

Interpretación de R².

El coeficiente R² muestra qué parte de la variación del precio logra explicar el modelo con las variables incluidas. Por su parte, el R² ajustado hace una corrección teniendo en cuenta cuántos predictores se incorporaron. Si estos valores resultan razonables, el modelo puede servir como apoyo para la decisión de compra, aunque no recoge todos los factores que influyen en el precio, como el estado del inmueble, la antigüedad, los acabados o detalles más finos de la ubicación.

6.4 Interpretación de coeficientes

La interpretación puntual debe realizarse con base en el summary(modelo1) obtenido al ejecutar el código:

  • Área construida: si el coeficiente es positivo y significativo, cada metro cuadrado adicional aumenta el precio esperado, manteniendo constantes las demás variables.
  • Estrato: si es positivo y significativo, indica que las casas ubicadas en estratos más altos tienden a tener mayor valor de mercado.
  • Habitaciones: su signo y significancia deben leerse controlando por área, baños y parqueaderos.
  • Parqueaderos: si el coeficiente es positivo, contar con más parqueaderos incrementa el valor esperado del inmueble.
  • Baños: suele reflejar un mayor estándar de vivienda, por lo que normalmente se espera un efecto positivo.

Desde el punto de vista del caso, estos resultados son lógicos, ya que el mercado inmobiliario suele valorar de manera favorable viviendas más amplias, mejor dotadas y ubicadas en estratos más altos.

7 VALIDACIÓN DE SUPUESTOS - BASE 1

7.1 Gráficos de diagnóstico

7.2 Pruebas formales

Las pruebas formales permiten complementar la revisión gráfica del modelo y ayudan a verificar si los supuestos de la regresión lineal se cumplen de manera razonable. En particular, se revisa la normalidad de los residuos, la homogeneidad de varianzas, la posible autocorrelación y el nivel de multicolinealidad entre las variables explicativas.

## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(modelo1)
## W = 0.83433, p-value < 2.2e-16
## 
##  studentized Breusch-Pagan test
## 
## data:  modelo1
## BP = 132.24, df = 5, p-value < 2.2e-16
## 
##  Durbin-Watson test
## 
## data:  modelo1
## DW = 1.6319, p-value = 2.93e-07
## alternative hypothesis: true autocorrelation is greater than 0
##    areaconst      estrato habitaciones parqueaderos       banios 
##     1.523989     1.433058     1.621630     1.120670     1.918323

7.3 Validación cruzada

## [1] NaN NaN

Interpretación.

  • La prueba de Shapiro-Wilk permite revisar si los residuos siguen una distribución aproximadamente normal.
  • La prueba de Breusch-Pagan ayuda a identificar si la varianza de los errores se mantiene constante.
  • La prueba de Durbin-Watson permite revisar si existe autocorrelación en los residuos.
  • El VIF muestra si hay problemas de multicolinealidad entre los predictores.
  • La validación cruzada ayuda a valorar si el modelo mantiene un comportamiento razonable cuando se evalúa fuera de la muestra usada para ajustarlo.

Si alguno de los supuestos no se cumple, no es necesario corregirlo en esta actividad, pero sí sugerir posibles alternativas, por ejemplo transformar el precio con logaritmo, incluir variables adicionales como barrio o antigüedad, usar modelos robustos o explorar relaciones no lineales.

8 PREDICCIÓN PARA LA VIVIENDA 1

8.1 Pronóstico del precio

Dado que la solicitud acepta estrato 4 o 5, se calculan ambos escenarios.

##       fit      lwr      upr
## 1 319.124 7.853564 630.3945
##        fit      lwr      upr
## 1 403.7351 91.96195 715.5082

Estas predicciones representan el valor estimado de mercado para una casa con las características solicitadas. Al compararlas con el crédito preaprobado de 350 millones, se puede valorar si la búsqueda resulta más viable en estrato 4, en estrato 5 o en ambos escenarios.

9 OFERTAS POTENCIALES PARA LA VIVIENDA 1

9.1 Filtro de ofertas

Para sugerir inmuebles potenciales, se construye un filtro razonable alrededor de las características solicitadas y respetando el presupuesto máximo.

## [1] 36

9.2 Selección de al menos 5 ofertas potenciales

9.3 Mapa de ofertas potenciales

Discusión.

Las ofertas seleccionadas se consideran viables porque cumplen con la zona requerida, se acercan al perfil solicitado y se mantienen dentro del presupuesto disponible. A partir de estas opciones, María puede discutir con el cliente no solo el precio, sino también la ubicación puntual, el barrio y qué tan bien se ajusta cada inmueble a las necesidades de la familia.

10 CASO 2: VIVIENDA 2 - APARTAMENTOS EN ZONA SUR

10.1 Filtro de la base 2

10.2 Tablas de comprobación de la consulta

## 
## Apartamento        Casa 
##        2787           0
## 
##  Zona Centro   Zona Norte   Zona Oeste Zona Oriente     Zona Sur 
##            0            0            0            0         2787

Estas tablas permiten verificar que el filtro se aplicó correctamente y que la base 2 contiene únicamente apartamentos ubicados en la zona sur, tal como lo requiere la segunda solicitud del caso.

10.3 Mapa de la base 2

Discusión del mapa.

Al igual que en el caso anterior, si se observan puntos aparentemente fuera de la zona sur, esto puede relacionarse con problemas de georreferenciación o con diferencias entre la clasificación comercial y la localización cartográfica exacta.

11 ANÁLISIS EXPLORATORIO DE DATOS - BASE 2

11.1 Estadísticos descriptivos

El análisis exploratorio de esta segunda base permite describir cómo se comportan, en términos generales, los apartamentos ubicados en la zona sur. En particular, interesa observar los rangos de precio, área construida, estrato y demás características físicas del inmueble, para reconocer si este segmento presenta un comportamiento parecido o distinto al observado en las casas de la zona norte.

##     preciom         areaconst         estrato      parqueaderos 
##  Min.   :  75.0   Min.   : 40.00   Min.   :3.00   Min.   : 1.0  
##  1st Qu.: 175.0   1st Qu.: 65.00   1st Qu.:4.00   1st Qu.: 1.0  
##  Median : 245.0   Median : 85.00   Median :5.00   Median : 1.0  
##  Mean   : 297.3   Mean   : 97.47   Mean   :4.63   Mean   : 1.5  
##  3rd Qu.: 335.0   3rd Qu.:110.00   3rd Qu.:5.00   3rd Qu.: 2.0  
##  Max.   :1750.0   Max.   :932.00   Max.   :6.00   Max.   :10.0  
##      banios       habitaciones  
##  Min.   :0.000   Min.   :0.000  
##  1st Qu.:2.000   1st Qu.:3.000  
##  Median :2.000   Median :3.000  
##  Mean   :2.488   Mean   :2.966  
##  3rd Qu.:3.000   3rd Qu.:3.000  
##  Max.   :8.000   Max.   :6.000

11.2 Correlación entre variables

##                preciom areaconst   estrato    banios habitaciones parqueaderos
## preciom      1.0000000 0.7579955 0.6727067 0.7196705    0.3317538    0.5357706
## areaconst    0.7579955 1.0000000 0.4815593 0.6618179    0.4339608    0.4472369
## estrato      0.6727067 0.4815593 1.0000000 0.5686171    0.2125953    0.3021866
## banios       0.7196705 0.6618179 0.5686171 1.0000000    0.5149227    0.4092575
## habitaciones 0.3317538 0.4339608 0.2125953 0.5149227    1.0000000    0.1418243
## parqueaderos 0.5357706 0.4472369 0.3021866 0.4092575    0.1418243    1.0000000

11.3 Gráficos

11.3.1 Precio vs área construida

11.3.2 Precio vs estrato

11.3.3 Precio vs baños

11.3.4 Precio vs habitaciones

Interpretación general del EDA.

En los apartamentos de la zona sur también se espera una asociación positiva entre el precio y el área, el estrato y el número de baños. Esto confirma que la estructura del precio depende de varias características simultáneas y justifica estimar un modelo de regresión específico para este segmento.

12 MODELO DE REGRESIÓN LINEAL MÚLTIPLE - BASE 2

12.1 Estimación del modelo

## 
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos + 
##     banios, data = base2)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1233.80   -45.98    -2.05    42.25   927.76 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -314.61850   13.51614 -23.277  < 2e-16 ***
## areaconst       1.45139    0.04876  29.766  < 2e-16 ***
## estrato        68.93151    2.66560  25.860  < 2e-16 ***
## habitaciones  -16.28835    3.41634  -4.768 1.96e-06 ***
## parqueaderos   51.59374    3.16010  16.327  < 2e-16 ***
## banios         49.11206    3.02770  16.221  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 95.01 on 2781 degrees of freedom
## Multiple R-squared:  0.7544, Adjusted R-squared:  0.754 
## F-statistic:  1709 on 5 and 2781 DF,  p-value: < 2.2e-16

12.2 Indicadores de ajuste

##          R2 R2_Ajustado 
##   0.7544366   0.7539951

Interpretación de R².

El valor de R² indica la proporción de la variabilidad del precio explicada por el modelo. Esto permite valorar si el modelo es una herramienta adecuada para apoyar la recomendación del segundo caso.

12.3 Interpretación de coeficientes

La lectura debe hacerse igual que en el primer caso:

  • un coeficiente positivo en areaconst indica mayor precio esperado para apartamentos de mayor tamaño;
  • un coeficiente positivo en estrato señala mayor valoración en estratos altos;
  • banios y parqueaderos normalmente reflejan mayor nivel de amenidades;
  • habitaciones debe interpretarse controlando por el resto de variables.

13 VALIDACIÓN DE SUPUESTOS - BASE 2

13.1 Gráficos de diagnóstico

13.2 Pruebas formales

Las pruebas formales complementan la revisión gráfica del modelo y permiten revisar si los supuestos clásicos de la regresión lineal se cumplen de manera aceptable. En esta parte se analiza la normalidad de los residuos, la homogeneidad de varianzas, la posible autocorrelación y la presencia de multicolinealidad entre las variables explicativas. Aunque en esta actividad no se busca corregir el modelo, esta revisión sí permite identificar sus limitaciones y proponer mejoras futuras.

## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(modelo2)
## W = 0.79864, p-value < 2.2e-16
## 
##  studentized Breusch-Pagan test
## 
## data:  modelo2
## BP = 929.2, df = 5, p-value < 2.2e-16
## 
##  Durbin-Watson test
## 
## data:  modelo2
## DW = 1.5597, p-value < 2.2e-16
## alternative hypothesis: true autocorrelation is greater than 0
##    areaconst      estrato habitaciones parqueaderos       banios 
##     2.027751     1.555176     1.441342     1.310740     2.470269

13.3 Validación cruzada

## [1] NaN NaN

Los supuestos se revisan exactamente igual que en el caso 1. Si se detectan problemas, basta con sugerir mejoras metodológicas, sin necesidad de corregir el modelo para esta entrega.

14 PREDICCIÓN PARA LA VIVIENDA 2

14.1 Pronóstico del precio

Dado que la solicitud permite estrato 5 o 6, se estiman ambos escenarios.

##        fit      lwr      upr
## 1 686.1331 498.7416 873.5246
##        fit      lwr      upr
## 1 755.0646 567.6303 942.4988

Estas predicciones permiten revisar si el crédito preaprobado de 850 millones resulta coherente con el valor estimado de mercado de un apartamento con las características solicitadas.

15 OFERTAS POTENCIALES PARA LA VIVIENDA 2

15.1 Filtro de ofertas

## [1] 11

15.2 Selección de al menos 5 ofertas potenciales

15.3 Mapa de ofertas potenciales

Discusión.

Las ofertas seleccionadas se consideran adecuadas porque cumplen razonablemente con el perfil del cliente, se ubican en la zona solicitada y están dentro del límite presupuestal establecido.

16 VARIABLES CATEGÓRICAS EN EL CONTEXTO DEL MODELO

En esta actividad, tipo y zona son variables categóricas. No se incluyeron directamente en los modelos porque el análisis se segmentó previamente en dos bases:

  • casas en zona norte
  • apartamentos en zona sur

Si se hubiera querido estimar un modelo único con toda la base, R habría transformado estas variables en variables indicadoras o dummies.

17 RESUMEN DE PREDICCIONES

La siguiente tabla resume las predicciones puntuales obtenidas para los cuatro escenarios evaluados, junto con sus respectivos intervalos de predicción. Esta comparación facilita revisar de forma directa qué tan cercanos están los valores estimados frente a los montos de crédito disponibles en cada solicitud.

18 CONCLUSIONES Y RECOMENDACIONES PARA MARÍA

  1. El filtro inicial permitió construir correctamente dos subconjuntos de análisis: casas en la zona norte y apartamentos en la zona sur, cumpliendo con lo solicitado en el caso.

  2. El análisis exploratorio mostró que variables como el área construida, el estrato, el número de baños y los parqueaderos presentan asociación positiva con el precio de la vivienda, lo cual es consistente con la lógica del mercado inmobiliario.

  3. Los modelos de regresión lineal múltiple estimados mediante Mínimos Cuadrados Ordinarios permiten analizar el precio a partir de varias características del inmueble de manera simultánea, por lo que resultan útiles como apoyo para la toma de decisiones de la inmobiliaria C&A.

  4. El coeficiente R² y el R² ajustado permiten valorar la capacidad explicativa de cada modelo. Aunque no capturan la totalidad de la variabilidad del precio, sí aportan una base cuantitativa importante para la recomendación.

  5. La validación de supuestos permite identificar las principales limitaciones del modelo. Si aparecen problemas de heterocedasticidad o de no normalidad, una alternativa futura sería probar transformaciones, incorporar variables adicionales o considerar modelos más robustos.

  6. En el caso de la primera vivienda, la comparación entre el precio predicho y el crédito máximo de 350 millones permite establecer si la búsqueda es más viable en estrato 4, en estrato 5 o en ambos.

  7. En el caso de la segunda vivienda, el mismo procedimiento permite evaluar la viabilidad de la compra en estratos 5 y 6, considerando el crédito máximo de 850 millones.

  8. Las ofertas potenciales identificadas y ubicadas en el mapa representan alternativas concretas para presentar al cliente. Estas deben discutirse no solo por precio, sino también por ubicación, entorno barrial y compatibilidad con las necesidades familiares de los empleados.

  9. Como mejora futura, el modelo podría fortalecerse incorporando variables como antiguedad del inmueble, estado de conservación, acabados, amenidades del edificio o información más detallada de localización.