Caso de estudio

Una empresa inmobiliaria de la ciudad de Cali-Colombia desea realizar un estudio y análisis de las mejores ofertas para compra de viviendas tipo casa y apartamento en la ciudad para una multinacional que desea reubicar a dos empleados y sus familias. La multinacional desea que cada de las viviendas tenga las siguientes características:

Caption for the picture. El objetivo principal es econtrar las mejores ofertas de vivienda para las familias y brindarles 5 diferentes ofertas para que ellos puedan escoger la que mejor se adapte a sus necesidades y sus gustos.

Desarrollo del informe

Teniendo presente los requerimientos puntuales dados por la multinacional para cada tipo de viviendas que desean adquirir, se procede a realizar el análisis y estudio para cada tipo de vivienda obtneiendo los siguientes resultados. El presente informe se dividirá en 3 etapas:

La siguiente imágen muestra el mapa de las zonas en la ciudad de Santiago de Cali-Colombia, está imágen fue tomada de la página oficial de la alcaldía de Cali.

Imágen 1: Mapa de zonas de la ciuda de Santiago de Cali- Colombia Las zona norte esta conformada por las comunas 2,4,5 y 6 y la zona sur esta conformada por las comunas 22 y 17. Los barrios que perteneces a cada zona son:

Vivienda 1: Casa en zona Norte

Etapa 1: Conocimiento de las ofertas de viviendas

La siguiente tabla (tabla 1) muestra los atributos y/o características de las viviendas tomadas en cuenta para el presente informe, dicha tabla solo contiene los datos de viviendas tipo casa de la Zona Norte de la ciudad de Cali.

Tabla 1: Ejemplo de las Primeras 3 Filas del Dataset
piso estrato preciom areaconst parqueaderos banios habitaciones barrio longitud latitud
02 5 320 150 2 4 6 acopi -76.51341 3.47968
02 5 780 380 2 3 3 acopi -76.51674 3.48721
NA 3 230 160 NA 2 3 acopi -76.48641 3.44956

Las dimensiones de la anterior tabla (tabla 1) son (557, 10) donde el primero representa el número de registros o datos y el segundo el número de atributos o columnas del dataset

La siguiente tabla (tabla 2) muestra un resumén estadístico de los atributos de las viviendas en la zona norte de la ciudad

Tabla 2: Resumen Estadístico
estrato preciom areaconst parqueaderos banios habitaciones
Min. :3.000 Min. : 89.0 Min. : 30.0 Min. : 1.000 Min. : 1.000 Min. : 1.000
1st Qu.:3.000 1st Qu.: 240.0 1st Qu.: 135.0 1st Qu.: 1.000 1st Qu.: 2.000 1st Qu.: 3.000
Median :4.000 Median : 365.0 Median : 230.0 Median : 2.000 Median : 3.000 Median : 4.000
Mean :4.126 Mean : 412.5 Mean : 250.5 Mean : 2.159 Mean : 3.483 Mean : 4.548
3rd Qu.:5.000 3rd Qu.: 520.0 3rd Qu.: 320.0 3rd Qu.: 3.000 3rd Qu.: 4.000 3rd Qu.: 5.000
Max. :6.000 Max. :1940.0 Max. :1440.0 Max. :10.000 Max. :10.000 Max. :10.000
NA NA NA NA’s :192 NA NA

El siguiente mapa geográfico muestra las ubicaciones de las viviendas tipo casas de la zona norte de la ciudad, este es un mapa interáctivo y dinámico que permite navegar por las diferentes zonas, muestra cada ubicación de las viviendas y permite dibujar lineas sobre este para una mejor interacción.

Los siguientes gráfica (grafica 1) muestra la relación entre el atributo areaconst vs preciom

La siguiente gráfica (grafica 2) muestra la distrbución de los precios de las casas en la zona norte de la ciudad.

La siguiente gráfica (grafica 3) muestra la distrbución del área de las casas en la zona norte de la ciudad.

La siguiente gráfica (grafica 4) muestra la distribución de las viviendas según el estrato en la zona norte de la ciudad

Etapa 2: Análisis exploratorio y de correlación

Está etapa abarca el análisis exploratorio de las principales variables predictoras del precio de las viviendas y a la vez como estas están relacionadas con el precio.

El siguiente gráfico (grafica 5) muestra como están correlacionados cada uno de los atributos principales o características de las viviendas.

La siguiente gráfica (grafica 6) muestra la distribución de los atributos areaconst y preciom en cuartiles y la presencía si o no de datos átipicos.

Etapa 3: Preparación de los datos

Esta etapa abaca la preparación de los datos, haciendo un análisis más a detalle y técnico del dataset el cual será el insumo para el modelado.

La siguiente tabla (tabla 3) muestra un resúmen de los atributos numéricos de las casas donde se pueden validar el tipo de dato de cada atributo y algunos ejemplos de los valores de los mismos

## Tabla 3: Tabla resumen de los atributos numericos
## Rows: 557
## Columns: 6
## $ estrato      <dbl> 3, 3, 1, 1, 3, 1, 3, 1, 1, 3, 3, 3, 2, 3, 4, 2, 2, 3, 1, …
## $ preciom      <dbl> 320, 780, 230, 180, 520, 380, 395, 270, 270, 460, 390, 78…
## $ areaconst    <dbl> 150, 380, 160, 120, 455, 300, 165, 330, 330, 319, 357, 38…
## $ parqueaderos <dbl> 2, 2, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA,…
## $ banios       <dbl> 4, 3, 2, 3, 5, 5, 4, 3, 3, 5, 3, 3, 6, 2, 5, 2, 8, 3, 4, …
## $ habitaciones <dbl> 6, 3, 3, 3, 4, 8, 4, 1, 1, 4, 6, 3, 7, 3, 3, 3, 1, 4, 4, …

Debido a que los modelos de inteligencia artificial no pueden trabajar bien con valores nulos en el dataset procedemos a validar cúantos nulos existen en cada atributo del dataset obteniendo los siguientes resultados (tabla 4):

Tabla 4: Conteo de valores nulos por atributo
x
estrato 0
preciom 0
areaconst 0
parqueaderos 192
banios 0
habitaciones 0

debido a que los valores nulos de la variable parqueaderos representan alrededor del 34% se procede a eliminar esta columna debido a una imputación de valores para una proporción tan grande puede afectar considerablemente la calidad de los datos, quedando el dataset como se muestra en la siguiente tabla (tabla 5)

Tabla 5: Dataset con los atributos finales
estrato preciom areaconst banios habitaciones
3 320 150 4 6
3 780 380 3 3
1 230 160 2 3
1 180 120 3 3
3 520 455 5 4
1 380 300 5 8

De la Grafica 5 se evidencia que existe una correlación media-fuerte entre la variable objetivo (preciom) y el atributo areaconst, teniendo esto presente se procede a construír una nueva variable que relacione estos atributos y con ello validar si podemos incrementar esta correlación, para lo anterior se construyó un nuevo atributo de prueba llamado precio_metro que resulta de la division de preciom entre areaconst. Los resultados de la correlación entre estos atributos se presentan en la siguiente gráfica (grafica 7)

De la anterior gráfica (Grafica 7) se evidencia que este nuevo atributo no agrega valor al modelo, por lo que se proecedió a ignorar. Por otro lado debido a que los atributos de las casas tienen diferentes escalas, se procedió a escalar las columnas preciom y areaconst, con esto último el dataset quedó libre de valores nulos, con variables numéricas y donde los atributos tienen escalas similares, por todo lo anterior la siguiente tabla (tabla 6) muestra el dataset final listo para la etapa de modelado.

Tabla 6: Dataset con atributos estandarizados
estrato preciom areaconst banios habitaciones
3 -0.3784245 -0.6353001 4 6
3 1.5028678 0.8187885 3 3
1 -0.7465034 -0.5720788 2 3
1 -0.9509917 -0.8249638 3 3
3 0.4395287 1.2929479 5 4
1 -0.1330385 0.3130186 5 8

Etapa 4: Estimación de los modelos

En esta etapa se estimaron y evaluaron varios modelos de regresión cuyos resultados se mostrarán a continuación.

Estimación mediante el método de mínimos cuadrados (MCO)

## 
## Call:
## lm(formula = preciom ~ estrato + areaconst + banios + habitaciones, 
##     data = dataset_norte_final)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -3.7242 -0.2681 -0.0625  0.1448  4.4300 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -1.19208    0.11313 -10.537  < 2e-16 ***
## estrato       0.31254    0.03399   9.194  < 2e-16 ***
## areaconst     0.48045    0.03360  14.299  < 2e-16 ***
## banios        0.09395    0.02548   3.687 0.000249 ***
## habitaciones  0.04409    0.02021   2.182 0.029559 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.6156 on 552 degrees of freedom
## Multiple R-squared:  0.6238, Adjusted R-squared:  0.6211 
## F-statistic: 228.8 on 4 and 552 DF,  p-value: < 2.2e-16

Como resultado del anterior modelo obtengo la ecuación: \[ \boldsymbol{\text{preciom} = 0.312\cdot \text{estrato} + 0.480\cdot \text{areaconst} + 0.093\cdot \text{banios} + 0.044\cdot \text{habitaciones} -1.192 + \epsilon} \]

análisis de linealidad de las variables: las siguientes gráficas muestran el comportamiento de los valores residuales adicional, las gráficas de Nomal Q-Q y Scale-Location

Evaluación de los supuestos de los residuales del modelo
  • La siguiente tabla representa los resultados de la prueba de normalidad de Shapiro-Wilk
## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(modelo1)
## W = 0.77616, p-value < 2.2e-16

Conociendo que la potencia de la prueba es 0.001 se concluye que existe suficiente evidencia estadística para rechazar la hipotesis Nula (H0: Los errores están normalmente distribuidos) por lo tanto se asume que los errores NO estan normalmente distribuídos.

  • La siguiente tabla representa los resultados de la prueba de normalidad de Durbin-Watson
## 
##  Durbin-Watson test
## 
## data:  modelo1
## DW = 1.6388, p-value = 8.17e-06
## alternative hypothesis: true autocorrelation is greater than 0

Conociendo que la potencia de la prueba es 0.001 se concluye que existe suficiente evidencia estadística para rechazar la hipotesis Nula (H0: No hay autocorrelación entre los errores (independencia)) por lo tanto se asume que los errores NO son independientes.

  • La siguiente tabla representa los resultados de la prueba de normalidad de Breusch-Pagan
## Non-constant Variance Score Test 
## Variance formula: ~ fitted.values 
## Chisquare = 600.4883, Df = 1, p = < 2.22e-16

Conociendo que la potencia de la prueba es 0.001 se concluye que existe suficiente evidencia estadística para rechazar la hipotesis Nula (H0: Los errores tienen varianza constante (homocedasticidad)) por lo tanto se asume que los errores NO son homocedasticidados.

Diagnóstico puntos influyente para el modelo original sin transformaciones: Distancia de cook

La siguiente tabla (tabla 7) muestra un resúmen de los primeros 10 puntos influyentes en el modelo, adicional muestra gráficamente cada uno de ellos:

Tabla 7: Puntos influyentes
x
17
57
102
118
120
136
280
281
320
352

Visualización de la distancia de Cook para validación de puntos influyentes (grafica 8):

Adicional la siguiente gráfica (grafica 9) muestra visualmente cada uno de los puntos influyentes y el nivel de influencia de cada uno ellos representados, donde a mayor támaño de punto mayor disntancia de Cook:

##       StudRes        Hat     CookD
## 102 -4.220059 0.08323895 0.3138414
## 118  7.633378 0.01892897 0.2037138
## 472 -6.922228 0.17121214 1.8246738

De las anteriores gráfica se evidencia que existen 28 puntos influyentes y que los 2 puntos con mayor distancia de Cool son 472 y 102

Teniendo presente todo lo anterior se procedió a calcular y evaluar un vuevo modelo retirando y eliminando los puntos influyentes, obteniendo los siguiente resultados.

## 
## Call:
## lm(formula = preciom ~ estrato + areaconst + banios + habitaciones, 
##     data = data_clean)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.06713 -0.20876 -0.04472  0.15791  1.62537 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -0.97472    0.07473 -13.044  < 2e-16 ***
## estrato       0.25233    0.02162  11.673  < 2e-16 ***
## areaconst     0.50718    0.02586  19.616  < 2e-16 ***
## banios        0.09558    0.01696   5.635 2.86e-08 ***
## habitaciones  0.01148    0.01307   0.879     0.38    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.3677 on 524 degrees of freedom
## Multiple R-squared:  0.7633, Adjusted R-squared:  0.7615 
## F-statistic: 422.5 on 4 and 524 DF,  p-value: < 2.2e-16

Donde la nueva ecuación que describe el modelo es: \[ \boldsymbol{\text{preciom} = 0.252\cdot \text{estrato} + 0.507\cdot \text{areaconst} + 0.095\cdot \text{banios} + 0.011\cdot \text{habitaciones} -0.974 + \epsilon} \]

Despues de calcular el nuevo modelo ser procedió a evaluar los supuestos del modelo, obteniendo los siguientes resultados:

  • La siguiente tabla representa los resultados de la prueba de normalidad de Shapiro-Wilk
## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(model_clean)
## W = 0.9585, p-value = 4.719e-11

Conociendo que la potencia de la prueba es 0.001 se concluye que existe suficiente evidencia estadística para rechazar la hipotesis Nula (H0: Los errores están normalmente distribuidos) por lo tanto se asume que los errores NO estan normalmente distribuídos.

  • La siguiente tabla representa los resultados de la prueba de normalidad de Durbin-Watson
## 
##  Durbin-Watson test
## 
## data:  model_clean
## DW = 1.7079, p-value = 0.0003276
## alternative hypothesis: true autocorrelation is greater than 0

Conociendo que la potencia de la prueba es 0.001 se concluye que existe suficiente evidencia estadística para rechazar la hipotesis Nula (H0: No hay autocorrelación entre los errores (independencia)) por lo tanto se asume que los errores NO son independientes.

  • La siguiente tabla representa los resultados de la prueba de normalidad de Breusch-Pagan
## Non-constant Variance Score Test 
## Variance formula: ~ fitted.values 
## Chisquare = 96.21937, Df = 1, p = < 2.22e-16

Conociendo que la potencia de la prueba es 0.001 se concluye que existe suficiente evidencia estadística para rechazar la hipotesis Nula (H0: Los errores tienen varianza constante (homocedasticidad)) por lo tanto se asume que los errores NO son homocedasticidados.

Estimación modelo eliminando Outliers

En busqueda del mejor modelo se evaluó y calculó el modelo eliminando los Outliers de los atributos obteniendo los siguientes resultados, notar que para la identificación de los outliers se utilizó el método del rango intercartílico (IQR) obteniendo los siguientes resultados:

  • IQR preciom: 1.146
  • IQR areaconst: 1.169
  • IQR estrato: 2
  • IQR banios: 2
  • IQR habitaciones: 2

La siguiente tabla (tabla 8) muestra un resúmen del nuevo dataset despues de eliminar los valores átipicos

Tabla 8: Dataset sin outliers
estrato preciom areaconst banios habitaciones
3 -0.3784245 -0.6353001 4 6
3 1.5028678 0.8187885 3 3
1 -0.7465034 -0.5720788 2 3
1 -0.9509917 -0.8249638 3 3
3 0.4395287 1.2929479 5 4
1 -0.1330385 0.3130186 5 8

Las nuevas dimensiones del dataset son (513, 5) donde el primero representa el número de registros y el segundo el número de columnas

Despues de evaluar y calcular se obtuvo el siguiente modelo con los resultados que se muestran a continuación:

## 
## Call:
## lm(formula = preciom ~ estrato + areaconst + banios + habitaciones, 
##     data = dataset_final_sin_outliers)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.09481 -0.21637 -0.05941  0.15131  2.10297 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -0.849564   0.088825  -9.564  < 2e-16 ***
## estrato       0.247200   0.024498  10.091  < 2e-16 ***
## areaconst     0.530269   0.032194  16.471  < 2e-16 ***
## banios        0.084960   0.019617   4.331 1.79e-05 ***
## habitaciones -0.005106   0.015978  -0.320    0.749    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.3995 on 508 degrees of freedom
## Multiple R-squared:  0.7094, Adjusted R-squared:  0.7071 
## F-statistic:   310 on 4 and 508 DF,  p-value: < 2.2e-16

Donde la nueva ecuación que describe el modelo es: \[ \boldsymbol{\text{preciom} = 0.247\cdot \text{estrato} + 0.530\cdot \text{areaconst} + 0.084\cdot \text{banios} - 0.005\cdot \text{habitaciones} - 0.849 + \epsilon} \]

Despues de calcular el nuevo modelo ser procedió a evaluar los supuestos del modelo, obteniendo los siguientes resultados:

  • La siguiente tabla representa los resultados de la prueba de normalidad de Shapiro-Wilk
## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(modelo_sin_outliers)
## W = 0.93175, p-value = 1.511e-14

Conociendo que la potencia de la prueba es 0.001 se concluye que existe suficiente evidencia estadística para rechazar la hipotesis Nula (H0: Los errores están normalmente distribuidos) por lo tanto se asume que los errores NO estan normalmente distribuídos.

  • La siguiente tabla representa los resultados de la prueba de normalidad de Durbin-Watson
## 
##  Durbin-Watson test
## 
## data:  modelo_sin_outliers
## DW = 1.6855, p-value = 0.0001538
## alternative hypothesis: true autocorrelation is greater than 0

Conociendo que la potencia de la prueba es 0.001 se concluye que existe suficiente evidencia estadística para rechazar la hipotesis Nula (H0: No hay autocorrelación entre los errores (independencia)) por lo tanto se asume que los errores NO son independientes.

  • La siguiente tabla representa los resultados de la prueba de normalidad de Breusch-Pagan
## Non-constant Variance Score Test 
## Variance formula: ~ fitted.values 
## Chisquare = 93.70443, Df = 1, p = < 2.22e-16

Conociendo que la potencia de la prueba es 0.001 se concluye que existe suficiente evidencia estadística para rechazar la hipotesis Nula (H0: Los errores tienen varianza constante (homocedasticidad)) por lo tanto se asume que los errores NO son homocedasticidados.

Diagnóstico puntos influyente para el modelo sin outliers: Distancia de cook

La siguiente tabla (tabla 9) muestra un resúmen de los primeros 10 puntos influyentes en el modelo, adicional muestra gráficamente cada uno de ellos:

Tabla 9: Puntos influyentes
x
17
57
102
118
120
136
280
281
320
352

Visualización de la distancia de Cook para validación de puntos influyentes (grafica 10):

Adicional la siguiente tabla (tabla 11) muestra visualmente cada uno de los puntos influyentes y el nivel de influencia de cada uno ellos representados, donde a mayor támaño de punto mayor disntancia de Cook:

##       StudRes         Hat       CookD
## 14  0.9805771 0.043592558 0.008765886
## 57  3.6682952 0.019820225 0.053117885
## 120 5.4765437 0.023147827 0.134468315
## 343 1.1122741 0.037544093 0.009647432
## 358 4.1632867 0.002925596 0.009854757

De las anteriores gráfica se evidencia que existen 26 puntos influyentes y que el punto con mayor distancia de Cool es 120

Teniendo presente todo lo anterior se procedió a calcular y evaluar un vuevo modelo retirando y eliminando los puntos influyentes, obteniendo los siguiente resultados.

## 
## Call:
## lm(formula = preciom ~ estrato + areaconst + banios + habitaciones, 
##     data = data_clean2)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.05953 -0.21043 -0.04717  0.15808  1.62416 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -0.98166    0.07551 -13.000  < 2e-16 ***
## estrato       0.25124    0.02193  11.456  < 2e-16 ***
## areaconst     0.50222    0.02621  19.165  < 2e-16 ***
## banios        0.09770    0.01719   5.685 2.17e-08 ***
## habitaciones  0.01192    0.01322   0.902    0.368    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.3731 on 526 degrees of freedom
## Multiple R-squared:  0.7573, Adjusted R-squared:  0.7554 
## F-statistic: 410.3 on 4 and 526 DF,  p-value: < 2.2e-16

Donde la nueva ecuación que describe el modelo es: \[ \boldsymbol{\text{preciom} = 0.251\cdot \text{estrato} + 0.502\cdot \text{areaconst} + 0.097\cdot \text{banios} + 0.011\cdot \text{habitaciones} - 0.981 + \epsilon} \]

Despues de calcular el nuevo modelo se procedió a evaluar los supuestos del modelo, obteniendo los siguientes resultados:

  • La siguiente tabla representa los resultados de la prueba de normalidad de Shapiro-Wilk
## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(model_clean2)
## W = 0.95694, p-value = 2.456e-11

Conociendo que la potencia de la prueba es 0.001 se concluye que existe suficiente evidencia estadística para rechazar la hipotesis Nula (H0: Los errores están normalmente distribuidos) por lo tanto se asume que los errores NO estan normalmente distribuídos.

  • La siguiente tabla representa los resultados de la prueba de normalidad de Durbin-Watson
## 
##  Durbin-Watson test
## 
## data:  model_clean2
## DW = 1.7232, p-value = 0.0006038
## alternative hypothesis: true autocorrelation is greater than 0

Conociendo que la potencia de la prueba es 0.001 se concluye que existe suficiente evidencia estadística para rechazar la hipotesis Nula (H0: No hay autocorrelación entre los errores (independencia)) por lo tanto se asume que los errores NO son independientes.

  • La siguiente tabla representa los resultados de la prueba de normalidad de Breusch-Pagan
## Non-constant Variance Score Test 
## Variance formula: ~ fitted.values 
## Chisquare = 99.57364, Df = 1, p = < 2.22e-16

Conociendo que la potencia de la prueba es 0.001 se concluye que existe suficiente evidencia estadística para rechazar la hipotesis Nula (H0: Los errores tienen varianza constante (homocedasticidad)) por lo tanto se asume que los errores NO son homocedasticidados.

Modelo original con transformación Box-Cox

La siguiente gráfica representa el comportamiento de la variable lambda la cual será usada para aplicar la transformación Box-Cox:

De la anterior gráfica se identifica que la mejor lambda es -0.020202 el cual es un valor diferente de cero 0 lo cual significa que ni es necesario aplicar transformación logaritmica a la variable dependiente preciom

Etapa 5: Resultados de la modelación

A continuación se muestran los 4 modelos de regresión lineal calculados y construídos y sus respectivos errores cuadrados:

  • Modelo 1: Modelo original sin transformación, este modelo NO cumplió con los supuestos de los residuales y su error cuadrático fue de 0.623 \[ \boldsymbol{\text{preciom} = 0.312\cdot \text{estrato} + 0.480\cdot \text{areaconst} + 0.093\cdot \text{banios} + 0.044\cdot \text{habitaciones} -1.192 + \epsilon} \]

  • Modelo 2: Modelo original sin transformación eliminando puntos influyentes, este modelo NO cumplió con los supuestos de los residuales y su error cuadrático fue de 0.763 \[ \boldsymbol{\text{preciom} = 0.252\cdot \text{estrato} + 0.507\cdot \text{areaconst} + 0.095\cdot \text{banios} + 0.011\cdot \text{habitaciones} -0.974 + \epsilon} \]

  • Modelo 3: Modelo original eliminando los outliers, este modelo NO cumplió con los supuestos de los residuales y su error cuadrático fue de 0.709 \[ \boldsymbol{\text{preciom} = 0.247\cdot \text{estrato} + 0.530\cdot \text{areaconst} + 0.084\cdot \text{banios} - 0.005\cdot \text{habitaciones} - 0.849 + \epsilon} \]

  • Modelo 4: Modelo original eliminando los outliers y puntos influyentes, este modelo NO cumplió con los supuestos de los residuales y su error cuadrático fue de 0.757 \[ \boldsymbol{\text{preciom} = 0.251\cdot \text{estrato} + 0.502\cdot \text{areaconst} + 0.097\cdot \text{banios} - 0.011\cdot \text{habitaciones} - 0.981 + \epsilon} \]

Etapa 6: Recomendaciones

Despúes de hacer el análisis y explorar los datos se evidencia que no no hay ofertas de casas en la zona norte con las carácterísticas exactas solicitadas, no hay casas que cumplan plenamente la los requerimientos, se procede a compartir las siguientes ofertas que se ajustan a su tipo de vivienda, el número de habitaciones, zona de la ciudad y están dentro del presupuesto. Las características de las mismas están consolidadas en la siguiente tabla (tabla 12), estás son las mejores ofertas de casas y están ordenadas en orden ascendente de menor a mayor precio, la selección se hizo al estimar el precio de los apartamentos utilizando el mejor modelo de regresión linean filtrando aquellos apartamentos cuyos precios fueron menores a los valores de las predicciónes garantizando con ello las mejores ofertas:
Tabla 12: Mejores ofertas de casas en la Zona Norte
estrato preciom areaconst banios habitaciones
3182 3 165 142 4 6
1854 3 170 105 2 5
4044 3 175 250 2 5
4043 3 180 140 3 5
4057 3 180 138 2 5
4053 3 185 160 2 5

El siguiente mapa muestra la ubicación geográfica de cada apartamento:

Vivienda 2: Apartamento en zona sur

Etapa 1: Conocimiento de las ofertas de viviendas

La siguiente tabla (tabla 1.1) muestra los atributos y/o características de las viviendas tomadas en cuenta para el presente informe, dicha tabla solo contiene los datos de viviendas tipo apartamento de la Zona Sur de la ciudad de Cali.

Tabla 1.1: Ejemplo de las Primeras 3 Filas del Dataset
piso estrato preciom areaconst parqueaderos banios habitaciones barrio longitud latitud
03 4 155 62 1 2 2 bochalema -76.520 3.367
07 4 225 84 1 2 3 bochalema -76.512 3.405
NA 4 265 86 1 2 2 bochalema -76.514 3.406

Las dimensiones de la anterior tabla (tabla 1.1) son (939, 10) donde el primero representa el número de registros o datos y el segundo el número de atributos o columnas del dataset

La siguiente tabla (tabla 2.2) muestra un resumén estadístico de los atributos de las viviendas en la zona sur de la ciudad

Tabla 2.2: Resumen Estadístico
estrato preciom areaconst parqueaderos banios habitaciones
Min. :3.000 Min. : 85.0 Min. : 45.00 Min. :1.000 Min. :1.000 Min. :1.000
1st Qu.:4.000 1st Qu.:155.0 1st Qu.: 60.00 1st Qu.:1.000 1st Qu.:2.000 1st Qu.:3.000
Median :4.000 Median :220.0 Median : 70.00 Median :1.000 Median :2.000 Median :3.000
Mean :4.345 Mean :219.5 Mean : 74.52 Mean :1.131 Mean :2.138 Mean :2.787
3rd Qu.:5.000 3rd Qu.:265.0 3rd Qu.: 86.00 3rd Qu.:1.000 3rd Qu.:2.000 3rd Qu.:3.000
Max. :6.000 Max. :760.0 Max. :260.00 Max. :3.000 Max. :5.000 Max. :5.000
NA NA NA NA’s :186 NA NA

El siguiente mapa geográfico muestra las ubicaciones de las viviendas tipo casas de la zona sur de la ciudad, este es un mapa interáctivo y dinámico que permite navegar por las diferentes zonas, muestra cada ubicación de las viviendas y permite dibujar lineas sobre este para una mejor interacción.

Los siguientes gráfica (grafica 1.1) muestra la relación entre el atributo areaconst vs preciom

La siguiente gráfica (grafica 2.2) muestra la distrbución de los precios de las casas en la zona sur de la ciudad.

La siguiente gráfica (grafica 3.3) muestra la distrbución del área de las casas en la zona sur de la ciudad.

La siguiente gráfica (grafica 4.4) muestra la distribución de las viviendas según el estrato en la zona sur de la ciudad

Etapa 2: Análisis exploratorio y de correlación

Está etapa abarca el análisis exploratorio de las principales variables predictoras del precio de las viviendas y a la vez como estas están relacionadas con el precio.

El siguiente gráfico (grafica 5.5) muestra como están correlacionados cada uno de los atributos principales o características de las viviendas.

La siguiente gráfica (grafica 6.6) muestra la distribución de los atributos areaconst y preciom en cuartiles y la presencía si o no de datos átipicos.

Etapa 3: Preparación de los datos

Esta etapa abaca la preparación de los datos, haciendo un análisis más a detalle y técnico del dataset el cual será el insumo para el modelado.

La siguiente tabla (tabla 3.3) muestra un resúmen de los atributos numéricos de las casas donde se pueden validar el tipo de dato de cada atributo y algunos ejemplos de los valores de los mismos

## Tabla 3.3: Tabla resumen de los atributos numericos
## Rows: 939
## Columns: 6
## $ estrato      <dbl> 2, 2, 2, 2, 3, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, …
## $ preciom      <dbl> 155, 225, 265, 215, 320, 130, 135, 125, 130, 130, 129, 13…
## $ areaconst    <dbl> 62, 84, 86, 72, 90, 58, 58, 60, 58, 61, 60, 65, 52, 53, 5…
## $ parqueaderos <dbl> 1, 1, 1, NA, 1, 1, NA, 1, NA, 1, 1, NA, 1, NA, NA, NA, 1,…
## $ banios       <dbl> 2, 2, 2, 2, 3, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, …
## $ habitaciones <dbl> 2, 3, 2, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, …

Debido a que los modelos de inteligencia artificial no pueden trabajar bien con valores nulos en el dataset procedemos a validar cúantos nulos existen en cada atributo del dataset obteniendo los siguientes resultados (tabla 4.4):

Tabla 4.4: Conteo de valores nulos por atributo
x
estrato 0
preciom 0
areaconst 0
parqueaderos 186
banios 0
habitaciones 0

debido a que los valores nulos de la variable parqueaderos representan alrededor del 19% se procede a eliminar esta columna debido a una imputación de valores para una proporción tan grande puede afectar considerablemente la calidad de los datos, quedando el dataset como se muestra en la siguiente tabla (tabla 5.5)

Tabla 5.5: Dataset con los atributos finales
estrato preciom areaconst banios habitaciones
2 155 62 2 2
2 225 84 2 3
2 265 86 2 2
2 215 72 2 3
3 320 90 3 3
2 130 58 1 3

De la Grafica 5 se evidencia que existe una correlación media-fuerte entre la variable objetivo (preciom) y el atributo areaconst, teniendo esto presente se procede a construír una nueva variable que relacione estos atributos y con ello validar si podemos incrementar esta correlación, para lo anterior se construyó un nuevo atributo de prueba llamado precio_metro que resulta de la division de preciom entre areaconst. Los resultados de la correlación entre estos atributos se presentan en la siguiente gráfica (grafica 7.7)

De la anterior gráfica (Grafica 7.7) se evidencia que este nuevo atributo no agrega valor al modelo, por lo que se proecedió a ignorar. Por otro lado debido a que los atributos de las casas tienen diferentes escalas, se procedió a escalar las columnas preciom y areaconst, con esto último el dataset quedó libre de valores nulos, con variables numéricas y donde los atributos tienen escalas similares, por todo lo anterior la siguiente tabla (tabla 6.6) muestra el dataset final listo para la etapa de modelado.

Tabla 6.6: Dataset con atributos estandarizados
estrato preciom areaconst banios habitaciones
2 -0.88244502 -0.6541240 2 2
2 0.07452832 0.4949922 2 3
2 0.62137023 0.5994573 2 2
2 -0.06218216 -0.1317985 2 3
3 1.37327785 0.8083875 3 3
2 -1.22422121 -0.8630542 1 3

Etapa 4: Estimación de los modelos

En esta etapa se estimaron y evaluaron varios modelos de regresión cuyos resultados se mostrarán a continuación.

Estimación mediante el método de mínimos cuadrados (MCO)

## 
## Call:
## lm(formula = preciom ~ estrato + areaconst + banios + habitaciones, 
##     data = dataset_sur_final)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -3.7104 -0.2770 -0.0343  0.2561  2.0654 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -1.41496    0.14616  -9.681  < 2e-16 ***
## estrato       0.40896    0.03039  13.456  < 2e-16 ***
## areaconst     0.66338    0.02306  28.773  < 2e-16 ***
## banios        0.18419    0.04120   4.471 8.75e-06 ***
## habitaciones  0.02226    0.03561   0.625    0.532    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.4688 on 934 degrees of freedom
## Multiple R-squared:  0.7811, Adjusted R-squared:  0.7802 
## F-statistic: 833.4 on 4 and 934 DF,  p-value: < 2.2e-16

Como resultado del anterior modelo obtengo la ecuación: \[ \boldsymbol{\text{preciom} = 0.408\cdot \text{estrato} + 0.663\cdot \text{areaconst} + 0.184\cdot \text{banios} + 0.022\cdot \text{habitaciones} -1.414 + \epsilon} \]

análisis de linealidad de las variables: las siguientes gráficas muestran el comportamiento de los valores residuales adicional, las gráficas de Nomal Q-Q y Scale-Location

Evaluación de los supuestos de los residuales del modelo
  • La siguiente tabla representa los resultados de la prueba de normalidad de Shapiro-Wilk
## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(modelo11)
## W = 0.91998, p-value < 2.2e-16

Conociendo que la potencia de la prueba es 0.001 se concluye que existe suficiente evidencia estadística para rechazar la hipotesis Nula (H0: Los errores están normalmente distribuidos) por lo tanto se asume que los errores NO estan normalmente distribuídos.

  • La siguiente tabla representa los resultados de la prueba de normalidad de Durbin-Watson
## 
##  Durbin-Watson test
## 
## data:  modelo11
## DW = 1.666, p-value = 1.339e-07
## alternative hypothesis: true autocorrelation is greater than 0

Conociendo que la potencia de la prueba es 0.001 se concluye que existe suficiente evidencia estadística para rechazar la hipotesis Nula (H0: No hay autocorrelación entre los errores (independencia)) por lo tanto se asume que los errores NO son independientes.

  • La siguiente tabla representa los resultados de la prueba de normalidad de Breusch-Pagan
## Non-constant Variance Score Test 
## Variance formula: ~ fitted.values 
## Chisquare = 850.1257, Df = 1, p = < 2.22e-16

Conociendo que la potencia de la prueba es 0.001 se concluye que existe suficiente evidencia estadística para rechazar la hipotesis Nula (H0: Los errores tienen varianza constante (homocedasticidad)) por lo tanto se asume que los errores NO son homocedasticidados.

Diagnóstico puntos influyente para el modelo original sin transformaciones: Distancia de cook

La siguiente tabla (tabla 7.7) muestra un resúmen de los primeros 10 puntos influyentes en el modelo, adicional muestra gráficamente cada uno de ellos:

Tabla 7.7: Puntos influyentes
x
27
31
33
51
89
104
110
177
181
214

Visualización de la distancia de Cook para validación de puntos influyentes (grafica 8.8):

Adicional la siguiente gráfica (grafica 9.9) muestra visualmente cada uno de los puntos influyentes y el nivel de influencia de cada uno ellos representados, donde a mayor támaño de punto mayor disntancia de Cook:

##       StudRes        Hat     CookD
## 214 -8.196282 0.05275881 0.6988231
## 245 -8.767685 0.11901856 1.9210036
## 280  2.536296 0.07694083 0.1066199

De las anteriores gráfica se evidencia que existen 51 puntos influyentes y que los 2 puntos con mayor distancia de Cool son 245 y 214

Teniendo presente todo lo anterior se procedió a calcular y evaluar un vuevo modelo retirando y eliminando los puntos influyentes, obteniendo los siguiente resultados.

## 
## Call:
## lm(formula = preciom ~ estrato + areaconst + banios + habitaciones, 
##     data = data_clean2)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.10186 -0.20482 -0.01899  0.21405  1.01459 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -0.92417    0.11447  -8.074 2.22e-15 ***
## estrato       0.30669    0.02343  13.088  < 2e-16 ***
## areaconst     0.86643    0.02067  41.927  < 2e-16 ***
## banios        0.13718    0.03195   4.294 1.95e-05 ***
## habitaciones -0.02665    0.02650  -1.006    0.315    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.3309 on 883 degrees of freedom
## Multiple R-squared:  0.8668, Adjusted R-squared:  0.8662 
## F-statistic:  1436 on 4 and 883 DF,  p-value: < 2.2e-16

Donde la nueva ecuación que describe el modelo es: \[ \boldsymbol{\text{preciom} = 0.306\cdot \text{estrato} + 0.866\cdot \text{areaconst} + 0.137\cdot \text{banios} - 0.026\cdot \text{habitaciones} -0.924 + \epsilon} \]

Despues de calcular el nuevo modelo ser procedió a evaluar los supuestos del modelo, obteniendo los siguientes resultados:

  • La siguiente tabla representa los resultados de la prueba de normalidad de Shapiro-Wilk
## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(model_clean2)
## W = 0.99769, p-value = 0.2546

Conociendo que la potencia de la prueba es 0.001 se concluye que existe suficiente evidencia estadística para NO rechazar la hipotesis Nula (H0: Los errores están normalmente distribuidos) por lo tanto se asume que los errores estan normalmente distribuídos.

  • La siguiente tabla representa los resultados de la prueba de normalidad de Durbin-Watson
## 
##  Durbin-Watson test
## 
## data:  model_clean2
## DW = 1.7171, p-value = 1.094e-05
## alternative hypothesis: true autocorrelation is greater than 0

Conociendo que la potencia de la prueba es 0.001 se concluye que existe suficiente evidencia estadística para rechazar la hipotesis Nula (H0: No hay autocorrelación entre los errores (independencia)) por lo tanto se asume que los errores NO son independientes.

  • La siguiente tabla representa los resultados de la prueba de normalidad de Breusch-Pagan
## Non-constant Variance Score Test 
## Variance formula: ~ fitted.values 
## Chisquare = 56.77326, Df = 1, p = 4.8907e-14

Conociendo que la potencia de la prueba es 0.001 se concluye que existe suficiente evidencia estadística para rechazar la hipotesis Nula (H0: Los errores tienen varianza constante (homocedasticidad)) por lo tanto se asume que los errores NO son homocedasticidados.

Estimación modelo eliminando Outliers

En busqueda del mejor modelo se evaluó y calculó el modelo eliminando los Outliers de los atributos obteniendo los siguientes resultados, notar que para la identificación de los outliers se utilizó el método del rango intercartílico (IQR) obteniendo los siguientes resultados:

  • IQR preciom: 1.503
  • IQR areaconst: 1.358
  • IQR estrato: 1
  • IQR banios: 0
  • IQR habitaciones: 0

La siguiente tabla (tabla 8.8) muestra un resúmen del nuevo dataset despues de eliminar los valores átipicos

Tabla 8.8: Dataset sin outliers
estrato preciom areaconst banios habitaciones
2 2 0.074528320 0.49499217 2 3
4 2 -0.062182156 -0.13179847 2 3
22 2 -1.087510730 -0.75858912 2 3
26 2 -0.335603109 0.28606195 2 3
30 2 0.006173082 0.02489919 2 3
35 3 1.099856894 1.59187579 2 3

Las nuevas dimensiones del dataset son (514, 5) donde el primero representa el número de registros y el segundo el número de columnas

Despues de evaluar y calcular se obtuvo el siguiente modelo con los resultados que se muestran a continuación:

## 
## Call:
## lm(formula = preciom ~ estrato + areaconst + banios + habitaciones, 
##     data = dataset_final_sin_outliers2)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.30681 -0.22053 -0.00931  0.21786  1.59376 
## 
## Coefficients: (2 not defined because of singularities)
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -0.64729    0.07915  -8.178  2.3e-15 ***
## estrato       0.28287    0.03289   8.601  < 2e-16 ***
## areaconst     0.89120    0.02603  34.238  < 2e-16 ***
## banios             NA         NA      NA       NA    
## habitaciones       NA         NA      NA       NA    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.3533 on 511 degrees of freedom
## Multiple R-squared:  0.7736, Adjusted R-squared:  0.7728 
## F-statistic: 873.3 on 2 and 511 DF,  p-value: < 2.2e-16

Donde la nueva ecuación que describe el modelo es: \[ \boldsymbol{\text{preciom} = 0.282\cdot \text{estrato} + 0.891\cdot \text{areaconst} + 0.0\cdot \text{banios} + 0.0\cdot \text{habitaciones} - 0.647 + \epsilon} \]

Despues de calcular el nuevo modelo ser procedió a evaluar los supuestos del modelo, obteniendo los siguientes resultados:

  • La siguiente tabla representa los resultados de la prueba de normalidad de Shapiro-Wilk
## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(modelo_sin_outliers2)
## W = 0.98949, p-value = 0.0009694

Conociendo que la potencia de la prueba es 0.001 se concluye que existe suficiente evidencia estadística para rechazar la hipotesis Nula (H0: Los errores están normalmente distribuidos) por lo tanto se asume que los errores NO estan normalmente distribuídos.

  • La siguiente tabla representa los resultados de la prueba de normalidad de Durbin-Watson

Conociendo que la potencia de la prueba es 0.001 se concluye que existe suficiente evidencia estadística para rechazar la hipotesis Nula (H0: No hay autocorrelación entre los errores (independencia)) por lo tanto se asume que los errores NO son independientes.

  • La siguiente tabla representa los resultados de la prueba de normalidad de Breusch-Pagan
## Non-constant Variance Score Test 
## Variance formula: ~ fitted.values 
## Chisquare = 50.03371, Df = 1, p = 1.5113e-12

Conociendo que la potencia de la prueba es 0.001 se concluye que existe suficiente evidencia estadística para rechazar la hipotesis Nula (H0: Los errores tienen varianza constante (homocedasticidad)) por lo tanto se asume que los errores NO son homocedasticidados.

Diagnóstico puntos influyente para el modelo sin outliers: Distancia de cook

La siguiente tabla (tabla 9.9) muestra un resúmen de los primeros 10 puntos influyentes en el modelo, adicional muestra gráficamente cada uno de ellos:

Tabla 9.9: Puntos influyentes
x
27
31
33
51
89
110
177
181
214
228

Visualización de la distancia de Cook para validación de puntos influyentes (grafica 10.10):

Adicional la siguiente tabla (tabla 11.11) muestra visualmente cada uno de los puntos influyentes y el nivel de influencia de cada uno ellos representados, donde a mayor támaño de punto mayor disntancia de Cook:

##       StudRes         Hat      CookD
## 278 -3.800646 0.028019964 0.13524612
## 299 -2.068624 0.032962344 0.04831018
## 876  4.607907 0.003751778 0.02563845

De las anteriores gráfica se evidencia que existen 26 puntos influyentes y que el punto con mayor distancia de Cool es 278

Teniendo presente todo lo anterior se procedió a calcular y evaluar un vuevo modelo retirando y eliminando los puntos influyentes, obteniendo los siguiente resultados.

## 
## Call:
## lm(formula = preciom ~ estrato + areaconst + banios + habitaciones, 
##     data = data_clean22)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.27074 -0.21782 -0.01275  0.21582  1.63041 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -0.88286    0.12322  -7.165 1.61e-12 ***
## estrato       0.32898    0.02502  13.150  < 2e-16 ***
## areaconst     0.87705    0.02186  40.117  < 2e-16 ***
## banios        0.12190    0.03400   3.585 0.000355 ***
## habitaciones -0.04485    0.02877  -1.559 0.119340    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.3627 on 908 degrees of freedom
## Multiple R-squared:  0.8532, Adjusted R-squared:  0.8526 
## F-statistic:  1320 on 4 and 908 DF,  p-value: < 2.2e-16

Donde la nueva ecuación que describe el modelo es: \[ \boldsymbol{\text{preciom} = 0.328\cdot \text{estrato} + 0.877\cdot \text{areaconst} + 0.121\cdot \text{banios} - 0.044\cdot \text{habitaciones} - 0.882 + \epsilon} \]

Despues de calcular el nuevo modelo se procedió a evaluar los supuestos del modelo, obteniendo los siguientes resultados:

  • La siguiente tabla representa los resultados de la prueba de normalidad de Shapiro-Wilk
## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(model_clean22)
## W = 0.99088, p-value = 1.953e-05

Conociendo que la potencia de la prueba es 0.001 se concluye que existe suficiente evidencia estadística para rechazar la hipotesis Nula (H0: Los errores están normalmente distribuidos) por lo tanto se asume que los errores NO estan normalmente distribuídos.

  • La siguiente tabla representa los resultados de la prueba de normalidad de Durbin-Watson
## 
##  Durbin-Watson test
## 
## data:  model_clean22
## DW = 1.7361, p-value = 2.949e-05
## alternative hypothesis: true autocorrelation is greater than 0

Conociendo que la potencia de la prueba es 0.001 se concluye que existe suficiente evidencia estadística para rechazar la hipotesis Nula (H0: No hay autocorrelación entre los errores (independencia)) por lo tanto se asume que los errores NO son independientes.

  • La siguiente tabla representa los resultados de la prueba de normalidad de Breusch-Pagan
## Non-constant Variance Score Test 
## Variance formula: ~ fitted.values 
## Chisquare = 100.2621, Df = 1, p = < 2.22e-16

Conociendo que la potencia de la prueba es 0.001 se concluye que existe suficiente evidencia estadística para rechazar la hipotesis Nula (H0: Los errores tienen varianza constante (homocedasticidad)) por lo tanto se asume que los errores NO son homocedasticidados.

Modelo original con transformación Box-Cox

La siguiente gráfica representa el comportamiento de la variable lambda la cual será usada para aplicar la transformación Box-Cox:

De la anterior gráfica se identifica que la mejor lambda es -0.020202 el cual es un valor diferente de cero 0 lo cual significa que ni es necesario aplicar transformación logaritmica a la variable dependiente preciom

Etapa 5: Resultados de la modelación

A continuación se muestran los 4 modelos de regresión lineal calculados y construídos y sus respectivos errores cuadrados:

  • Modelo 1: Modelo original sin transformación, este modelo NO cumplió con los supuestos de los residuales y su error cuadrático fue de 0.781 \[ \boldsymbol{\text{preciom} = 0.408\cdot \text{estrato} + 0.663\cdot \text{areaconst} + 0.184\cdot \text{banios} + 0.022\cdot \text{habitaciones} -1.414 + \epsilon} \]

  • Modelo 2: Modelo original sin transformación eliminando puntos influyentes, este modelo NO cumplió con los supuestos de los residuales pero si el supuesto de normalidad y su error cuadrático fue de 0.866 \[ \boldsymbol{\text{preciom} = 0.306\cdot \text{estrato} + 0.866\cdot \text{areaconst} + 0.137\cdot \text{banios} - 0.026\cdot \text{habitaciones} -0.924 + \epsilon} \]

  • Modelo 3: Modelo original eliminando los outliers, este modelo NO cumplió con los supuestos de los residuales y su error cuadrático fue de 0.773 \[ \boldsymbol{\text{preciom} = 0.282\cdot \text{estrato} + 0.891\cdot \text{areaconst} + 0.0\cdot \text{banios} - 0.0\cdot \text{habitaciones} - 0.647 + \epsilon} \]

  • Modelo 4: Modelo original eliminando los outliers y puntos influyentes, este modelo NO cumplió con los supuestos de los residuales y su error cuadrático fue de 0.853 \[ \boldsymbol{\text{preciom} = 0.328\cdot \text{estrato} + 0.877\cdot \text{areaconst} + 0.121\cdot \text{banios} - 0.044\cdot \text{habitaciones} - 0.882 + \epsilon} \]

Etapa 6: Recomendaciones

Despúes de hacer el análisis y explorar los datos se evidencia que no no hay ofertas de apartamentos en la zona sur con las carácterísticas exactas solicitadas, no hay apartamentos que cumplan plenamente la los requerimientos, se procede a compartir las siguientes ofertas que se ajustan a su tipo de vivienda, el número de habitaciones, zona de la ciudad y están dentro del presupuesto. Las características de las mismas están consolidadas en la siguiente tabla (tabla 12.12), estás son las mejores ofertas de apartamentos y están ordenadas en orden ascendente de menor a mayor precio, la selección se hizo al estimar el precio de los apartamentos utilizando el mejor modelo de regresión linean filtrando aquellos apartamentos cuyos precios fueron menores a los valores de las predicciónes garantizando con ello las mejores ofertas:
Tabla 12.12: Mejores ofertas de apartamentos en la Zona Sur
estrato preciom areaconst banios habitaciones
1935 3 155 150 2 6
1952 4 390 300 5 6
8269 4 575 410 4 6
6669 5 670 300 5 6

El siguiente mapa muestra la ubicación geográfica de cada apartamento: