Una empresa inmobiliaria de la ciudad de Cali-Colombia desea realizar un estudio y análisis de las mejores ofertas para compra de viviendas tipo casa y apartamento en la ciudad para una multinacional que desea reubicar a dos empleados y sus familias. La multinacional desea que cada de las viviendas tenga las siguientes características:
El objetivo principal es econtrar las
mejores ofertas de vivienda para las familias y brindarles 5 diferentes
ofertas para que ellos puedan escoger la que mejor se adapte a sus
necesidades y sus gustos.
Teniendo presente los requerimientos puntuales dados por la multinacional para cada tipo de viviendas que desean adquirir, se procede a realizar el análisis y estudio para cada tipo de vivienda obtneiendo los siguientes resultados. El presente informe se dividirá en 3 etapas:
La siguiente imágen muestra el mapa de las zonas en la ciudad de Santiago de Cali-Colombia, está imágen fue tomada de la página oficial de la alcaldía de Cali.
Las zona norte esta conformada por las comunas 2,4,5 y 6 y la zona sur
esta conformada por las comunas 22 y 17. Los barrios que perteneces a
cada zona son:
Zona Norte: Jorge Isaacs - Santander - Porvenir - Las Delicias - Manzanares - Salomia - Fátima - Sultana - Berlín - San Francisco - Popular - Ignacio Rengifo - Guillermo Valencia - La Isla - Marco Fidel Suárez - Evaristo García - La Esmeralda - Bolivariano - Olaya Herrera - Unidad Residencial Bueno Madrid - Flora Industrial - Calima - Industria de Licores - La Alianza - El Sena - Los Andes - Los Guayacanes - Chiminangos Segunda Etapa - Chiminangos Primera Etapa - Metropolitano del Norte - Los Parques - Barranquilla - Villa del Sol - Paseo de Los Almendros - Los Andes B - La Riviera - Torres de Comfandi - Villa del Prado - El Guabito - San Luís - Jorge Eliecer Gaitán - Paso del Comercio - Los Alcázares - Petecuy Primera Etapa - Petecuy Segunda Etapa - La Rivera Primera Etapa - Los Guaduales - Petecuy Tercera Etapa - Ciudadela Floralia - Fonaviemcali - San Luís II - Urbanización Calimio - Sector Puente del Comercio - Santa Rita - Santa Teresita - Arboledas - Normandía - Juanambú - Centenario - Granada - Versalles - San Vicente - Santa Mónica - Prados del Norte - La Flora - La Campiña - La Paz - El Bosque - Menga - Ciudad Los Alamos - Chipichape - Brisas de los Alamos - Urbanización La Merced - Vipasa - Urbanización La Flora - Altos de Menga - Sector Altos Normandía - Senderos de la Flora
Zona Sur: La Playa - Primero de Mayo - Ciudadela Comfandi - Ciudad Universitaria - Caney - Lili - Santa Anita - La Selva - El Ingenio - Mayapan - Las Vegas - Las Quintas de Don Simón - Ciudad Capri - La Hacienda - Los Portales - Nuevo Rey - Cañaverales - Los Samanes - El Limonar - Bosques del Limonar - El Gran Limonar - Cataya - El Gran Limonar - Unicentro Cali - Ciudadela Pasoancho - Prados del Limonar - Urbanización San Joaquin - Urbanización Ciudad Jardín - Parcelaciones Pance - Urbanización Río Lili - Ciudad Campestre - Club Campestre
La siguiente tabla (tabla 1) muestra los atributos y/o características de las viviendas tomadas en cuenta para el presente informe, dicha tabla solo contiene los datos de viviendas tipo casa de la Zona Norte de la ciudad de Cali.
| piso | estrato | preciom | areaconst | parqueaderos | banios | habitaciones | barrio | longitud | latitud |
|---|---|---|---|---|---|---|---|---|---|
| 02 | 5 | 320 | 150 | 2 | 4 | 6 | acopi | -76.51341 | 3.47968 |
| 02 | 5 | 780 | 380 | 2 | 3 | 3 | acopi | -76.51674 | 3.48721 |
| NA | 3 | 230 | 160 | NA | 2 | 3 | acopi | -76.48641 | 3.44956 |
Las dimensiones de la anterior tabla (tabla 1) son (557, 10) donde el primero representa el número de registros o datos y el segundo el número de atributos o columnas del dataset
La siguiente tabla (tabla 2) muestra un resumén estadístico de los atributos de las viviendas en la zona norte de la ciudad
| estrato | preciom | areaconst | parqueaderos | banios | habitaciones | |
|---|---|---|---|---|---|---|
| Min. :3.000 | Min. : 89.0 | Min. : 30.0 | Min. : 1.000 | Min. : 1.000 | Min. : 1.000 | |
| 1st Qu.:3.000 | 1st Qu.: 240.0 | 1st Qu.: 135.0 | 1st Qu.: 1.000 | 1st Qu.: 2.000 | 1st Qu.: 3.000 | |
| Median :4.000 | Median : 365.0 | Median : 230.0 | Median : 2.000 | Median : 3.000 | Median : 4.000 | |
| Mean :4.126 | Mean : 412.5 | Mean : 250.5 | Mean : 2.159 | Mean : 3.483 | Mean : 4.548 | |
| 3rd Qu.:5.000 | 3rd Qu.: 520.0 | 3rd Qu.: 320.0 | 3rd Qu.: 3.000 | 3rd Qu.: 4.000 | 3rd Qu.: 5.000 | |
| Max. :6.000 | Max. :1940.0 | Max. :1440.0 | Max. :10.000 | Max. :10.000 | Max. :10.000 | |
| NA | NA | NA | NA’s :192 | NA | NA |
El siguiente mapa geográfico muestra las ubicaciones de las viviendas tipo casas de la zona norte de la ciudad, este es un mapa interáctivo y dinámico que permite navegar por las diferentes zonas, muestra cada ubicación de las viviendas y permite dibujar lineas sobre este para una mejor interacción.
Los siguientes gráfica (grafica 1) muestra la relación entre el atributo areaconst vs preciom
La siguiente gráfica (grafica 2) muestra la distrbución de los precios
de las casas en la zona norte de la ciudad.
La siguiente gráfica (grafica 3) muestra la distrbución del área de las
casas en la zona norte de la ciudad.
La siguiente gráfica (grafica 4) muestra la distribución de las viviendas según el estrato en la zona norte de la ciudad
Está etapa abarca el análisis exploratorio de las principales variables predictoras del precio de las viviendas y a la vez como estas están relacionadas con el precio.
El siguiente gráfico (grafica 5) muestra como están correlacionados cada uno de los atributos principales o características de las viviendas.
La siguiente gráfica (grafica 6) muestra la distribución de los atributos areaconst y preciom en cuartiles y la presencía si o no de datos átipicos.
Esta etapa abaca la preparación de los datos, haciendo un análisis más a detalle y técnico del dataset el cual será el insumo para el modelado.
La siguiente tabla (tabla 3) muestra un resúmen de los atributos numéricos de las casas donde se pueden validar el tipo de dato de cada atributo y algunos ejemplos de los valores de los mismos
## Tabla 3: Tabla resumen de los atributos numericos
## Rows: 557
## Columns: 6
## $ estrato <dbl> 3, 3, 1, 1, 3, 1, 3, 1, 1, 3, 3, 3, 2, 3, 4, 2, 2, 3, 1, …
## $ preciom <dbl> 320, 780, 230, 180, 520, 380, 395, 270, 270, 460, 390, 78…
## $ areaconst <dbl> 150, 380, 160, 120, 455, 300, 165, 330, 330, 319, 357, 38…
## $ parqueaderos <dbl> 2, 2, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA,…
## $ banios <dbl> 4, 3, 2, 3, 5, 5, 4, 3, 3, 5, 3, 3, 6, 2, 5, 2, 8, 3, 4, …
## $ habitaciones <dbl> 6, 3, 3, 3, 4, 8, 4, 1, 1, 4, 6, 3, 7, 3, 3, 3, 1, 4, 4, …
Debido a que los modelos de inteligencia artificial no pueden trabajar bien con valores nulos en el dataset procedemos a validar cúantos nulos existen en cada atributo del dataset obteniendo los siguientes resultados (tabla 4):
| x | |
|---|---|
| estrato | 0 |
| preciom | 0 |
| areaconst | 0 |
| parqueaderos | 192 |
| banios | 0 |
| habitaciones | 0 |
debido a que los valores nulos de la variable parqueaderos representan alrededor del 34% se procede a eliminar esta columna debido a una imputación de valores para una proporción tan grande puede afectar considerablemente la calidad de los datos, quedando el dataset como se muestra en la siguiente tabla (tabla 5)
| estrato | preciom | areaconst | banios | habitaciones |
|---|---|---|---|---|
| 3 | 320 | 150 | 4 | 6 |
| 3 | 780 | 380 | 3 | 3 |
| 1 | 230 | 160 | 2 | 3 |
| 1 | 180 | 120 | 3 | 3 |
| 3 | 520 | 455 | 5 | 4 |
| 1 | 380 | 300 | 5 | 8 |
De la Grafica 5 se evidencia que existe una correlación media-fuerte entre la variable objetivo (preciom) y el atributo areaconst, teniendo esto presente se procede a construír una nueva variable que relacione estos atributos y con ello validar si podemos incrementar esta correlación, para lo anterior se construyó un nuevo atributo de prueba llamado precio_metro que resulta de la division de preciom entre areaconst. Los resultados de la correlación entre estos atributos se presentan en la siguiente gráfica (grafica 7)
De la anterior gráfica (Grafica 7) se evidencia que este nuevo atributo no agrega valor al modelo, por lo que se proecedió a ignorar. Por otro lado debido a que los atributos de las casas tienen diferentes escalas, se procedió a escalar las columnas preciom y areaconst, con esto último el dataset quedó libre de valores nulos, con variables numéricas y donde los atributos tienen escalas similares, por todo lo anterior la siguiente tabla (tabla 6) muestra el dataset final listo para la etapa de modelado.
| estrato | preciom | areaconst | banios | habitaciones |
|---|---|---|---|---|
| 3 | -0.3784245 | -0.6353001 | 4 | 6 |
| 3 | 1.5028678 | 0.8187885 | 3 | 3 |
| 1 | -0.7465034 | -0.5720788 | 2 | 3 |
| 1 | -0.9509917 | -0.8249638 | 3 | 3 |
| 3 | 0.4395287 | 1.2929479 | 5 | 4 |
| 1 | -0.1330385 | 0.3130186 | 5 | 8 |
En esta etapa se estimaron y evaluaron varios modelos de regresión cuyos resultados se mostrarán a continuación.
##
## Call:
## lm(formula = preciom ~ estrato + areaconst + banios + habitaciones,
## data = dataset_norte_final)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.7242 -0.2681 -0.0625 0.1448 4.4300
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -1.19208 0.11313 -10.537 < 2e-16 ***
## estrato 0.31254 0.03399 9.194 < 2e-16 ***
## areaconst 0.48045 0.03360 14.299 < 2e-16 ***
## banios 0.09395 0.02548 3.687 0.000249 ***
## habitaciones 0.04409 0.02021 2.182 0.029559 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.6156 on 552 degrees of freedom
## Multiple R-squared: 0.6238, Adjusted R-squared: 0.6211
## F-statistic: 228.8 on 4 and 552 DF, p-value: < 2.2e-16
Como resultado del anterior modelo obtengo la ecuación: \[ \boldsymbol{\text{preciom} = 0.312\cdot \text{estrato} + 0.480\cdot \text{areaconst} + 0.093\cdot \text{banios} + 0.044\cdot \text{habitaciones} -1.192 + \epsilon} \]
análisis de linealidad de las variables: las siguientes gráficas muestran el comportamiento de los valores residuales adicional, las gráficas de Nomal Q-Q y Scale-Location
##
## Shapiro-Wilk normality test
##
## data: residuals(modelo1)
## W = 0.77616, p-value < 2.2e-16
Conociendo que la potencia de la prueba es 0.001 se concluye que existe suficiente evidencia estadística para rechazar la hipotesis Nula (H0: Los errores están normalmente distribuidos) por lo tanto se asume que los errores NO estan normalmente distribuídos.
##
## Durbin-Watson test
##
## data: modelo1
## DW = 1.6388, p-value = 8.17e-06
## alternative hypothesis: true autocorrelation is greater than 0
Conociendo que la potencia de la prueba es 0.001 se concluye que existe suficiente evidencia estadística para rechazar la hipotesis Nula (H0: No hay autocorrelación entre los errores (independencia)) por lo tanto se asume que los errores NO son independientes.
## Non-constant Variance Score Test
## Variance formula: ~ fitted.values
## Chisquare = 600.4883, Df = 1, p = < 2.22e-16
Conociendo que la potencia de la prueba es 0.001 se concluye que existe suficiente evidencia estadística para rechazar la hipotesis Nula (H0: Los errores tienen varianza constante (homocedasticidad)) por lo tanto se asume que los errores NO son homocedasticidados.
Diagnóstico puntos influyente para el modelo original sin transformaciones: Distancia de cook
La siguiente tabla (tabla 7) muestra un resúmen de los primeros 10 puntos influyentes en el modelo, adicional muestra gráficamente cada uno de ellos:
| x |
|---|
| 17 |
| 57 |
| 102 |
| 118 |
| 120 |
| 136 |
| 280 |
| 281 |
| 320 |
| 352 |
Visualización de la distancia de Cook para validación de puntos influyentes (grafica 8):
Adicional la siguiente gráfica (grafica 9) muestra visualmente cada uno de los puntos influyentes y el nivel de influencia de cada uno ellos representados, donde a mayor támaño de punto mayor disntancia de Cook:
## StudRes Hat CookD
## 102 -4.220059 0.08323895 0.3138414
## 118 7.633378 0.01892897 0.2037138
## 472 -6.922228 0.17121214 1.8246738
De las anteriores gráfica se evidencia que existen 28 puntos influyentes y que los 2 puntos con mayor distancia de Cool son 472 y 102
Teniendo presente todo lo anterior se procedió a calcular y evaluar un vuevo modelo retirando y eliminando los puntos influyentes, obteniendo los siguiente resultados.
##
## Call:
## lm(formula = preciom ~ estrato + areaconst + banios + habitaciones,
## data = data_clean)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.06713 -0.20876 -0.04472 0.15791 1.62537
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.97472 0.07473 -13.044 < 2e-16 ***
## estrato 0.25233 0.02162 11.673 < 2e-16 ***
## areaconst 0.50718 0.02586 19.616 < 2e-16 ***
## banios 0.09558 0.01696 5.635 2.86e-08 ***
## habitaciones 0.01148 0.01307 0.879 0.38
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.3677 on 524 degrees of freedom
## Multiple R-squared: 0.7633, Adjusted R-squared: 0.7615
## F-statistic: 422.5 on 4 and 524 DF, p-value: < 2.2e-16
Donde la nueva ecuación que describe el modelo es: \[ \boldsymbol{\text{preciom} = 0.252\cdot \text{estrato} + 0.507\cdot \text{areaconst} + 0.095\cdot \text{banios} + 0.011\cdot \text{habitaciones} -0.974 + \epsilon} \]
Despues de calcular el nuevo modelo ser procedió a evaluar los supuestos del modelo, obteniendo los siguientes resultados:
##
## Shapiro-Wilk normality test
##
## data: residuals(model_clean)
## W = 0.9585, p-value = 4.719e-11
Conociendo que la potencia de la prueba es 0.001 se concluye que existe suficiente evidencia estadística para rechazar la hipotesis Nula (H0: Los errores están normalmente distribuidos) por lo tanto se asume que los errores NO estan normalmente distribuídos.
##
## Durbin-Watson test
##
## data: model_clean
## DW = 1.7079, p-value = 0.0003276
## alternative hypothesis: true autocorrelation is greater than 0
Conociendo que la potencia de la prueba es 0.001 se concluye que existe suficiente evidencia estadística para rechazar la hipotesis Nula (H0: No hay autocorrelación entre los errores (independencia)) por lo tanto se asume que los errores NO son independientes.
## Non-constant Variance Score Test
## Variance formula: ~ fitted.values
## Chisquare = 96.21937, Df = 1, p = < 2.22e-16
Conociendo que la potencia de la prueba es 0.001 se concluye que existe suficiente evidencia estadística para rechazar la hipotesis Nula (H0: Los errores tienen varianza constante (homocedasticidad)) por lo tanto se asume que los errores NO son homocedasticidados.
En busqueda del mejor modelo se evaluó y calculó el modelo eliminando los Outliers de los atributos obteniendo los siguientes resultados, notar que para la identificación de los outliers se utilizó el método del rango intercartílico (IQR) obteniendo los siguientes resultados:
La siguiente tabla (tabla 8) muestra un resúmen del nuevo dataset despues de eliminar los valores átipicos
| estrato | preciom | areaconst | banios | habitaciones |
|---|---|---|---|---|
| 3 | -0.3784245 | -0.6353001 | 4 | 6 |
| 3 | 1.5028678 | 0.8187885 | 3 | 3 |
| 1 | -0.7465034 | -0.5720788 | 2 | 3 |
| 1 | -0.9509917 | -0.8249638 | 3 | 3 |
| 3 | 0.4395287 | 1.2929479 | 5 | 4 |
| 1 | -0.1330385 | 0.3130186 | 5 | 8 |
Las nuevas dimensiones del dataset son (513, 5) donde el primero representa el número de registros y el segundo el número de columnas
Despues de evaluar y calcular se obtuvo el siguiente modelo con los resultados que se muestran a continuación:
##
## Call:
## lm(formula = preciom ~ estrato + areaconst + banios + habitaciones,
## data = dataset_final_sin_outliers)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.09481 -0.21637 -0.05941 0.15131 2.10297
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.849564 0.088825 -9.564 < 2e-16 ***
## estrato 0.247200 0.024498 10.091 < 2e-16 ***
## areaconst 0.530269 0.032194 16.471 < 2e-16 ***
## banios 0.084960 0.019617 4.331 1.79e-05 ***
## habitaciones -0.005106 0.015978 -0.320 0.749
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.3995 on 508 degrees of freedom
## Multiple R-squared: 0.7094, Adjusted R-squared: 0.7071
## F-statistic: 310 on 4 and 508 DF, p-value: < 2.2e-16
Donde la nueva ecuación que describe el modelo es: \[ \boldsymbol{\text{preciom} = 0.247\cdot \text{estrato} + 0.530\cdot \text{areaconst} + 0.084\cdot \text{banios} - 0.005\cdot \text{habitaciones} - 0.849 + \epsilon} \]
Despues de calcular el nuevo modelo ser procedió a evaluar los supuestos del modelo, obteniendo los siguientes resultados:
##
## Shapiro-Wilk normality test
##
## data: residuals(modelo_sin_outliers)
## W = 0.93175, p-value = 1.511e-14
Conociendo que la potencia de la prueba es 0.001 se concluye que existe suficiente evidencia estadística para rechazar la hipotesis Nula (H0: Los errores están normalmente distribuidos) por lo tanto se asume que los errores NO estan normalmente distribuídos.
##
## Durbin-Watson test
##
## data: modelo_sin_outliers
## DW = 1.6855, p-value = 0.0001538
## alternative hypothesis: true autocorrelation is greater than 0
Conociendo que la potencia de la prueba es 0.001 se concluye que existe suficiente evidencia estadística para rechazar la hipotesis Nula (H0: No hay autocorrelación entre los errores (independencia)) por lo tanto se asume que los errores NO son independientes.
## Non-constant Variance Score Test
## Variance formula: ~ fitted.values
## Chisquare = 93.70443, Df = 1, p = < 2.22e-16
Conociendo que la potencia de la prueba es 0.001 se concluye que existe suficiente evidencia estadística para rechazar la hipotesis Nula (H0: Los errores tienen varianza constante (homocedasticidad)) por lo tanto se asume que los errores NO son homocedasticidados.
Diagnóstico puntos influyente para el modelo sin outliers: Distancia de cook
La siguiente tabla (tabla 9) muestra un resúmen de los primeros 10 puntos influyentes en el modelo, adicional muestra gráficamente cada uno de ellos:
| x |
|---|
| 17 |
| 57 |
| 102 |
| 118 |
| 120 |
| 136 |
| 280 |
| 281 |
| 320 |
| 352 |
Visualización de la distancia de Cook para validación de puntos influyentes (grafica 10):
Adicional la siguiente tabla (tabla 11) muestra visualmente cada uno de los puntos influyentes y el nivel de influencia de cada uno ellos representados, donde a mayor támaño de punto mayor disntancia de Cook:
## StudRes Hat CookD
## 14 0.9805771 0.043592558 0.008765886
## 57 3.6682952 0.019820225 0.053117885
## 120 5.4765437 0.023147827 0.134468315
## 343 1.1122741 0.037544093 0.009647432
## 358 4.1632867 0.002925596 0.009854757
De las anteriores gráfica se evidencia que existen 26 puntos influyentes y que el punto con mayor distancia de Cool es 120
Teniendo presente todo lo anterior se procedió a calcular y evaluar un vuevo modelo retirando y eliminando los puntos influyentes, obteniendo los siguiente resultados.
##
## Call:
## lm(formula = preciom ~ estrato + areaconst + banios + habitaciones,
## data = data_clean2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.05953 -0.21043 -0.04717 0.15808 1.62416
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.98166 0.07551 -13.000 < 2e-16 ***
## estrato 0.25124 0.02193 11.456 < 2e-16 ***
## areaconst 0.50222 0.02621 19.165 < 2e-16 ***
## banios 0.09770 0.01719 5.685 2.17e-08 ***
## habitaciones 0.01192 0.01322 0.902 0.368
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.3731 on 526 degrees of freedom
## Multiple R-squared: 0.7573, Adjusted R-squared: 0.7554
## F-statistic: 410.3 on 4 and 526 DF, p-value: < 2.2e-16
Donde la nueva ecuación que describe el modelo es: \[ \boldsymbol{\text{preciom} = 0.251\cdot \text{estrato} + 0.502\cdot \text{areaconst} + 0.097\cdot \text{banios} + 0.011\cdot \text{habitaciones} - 0.981 + \epsilon} \]
Despues de calcular el nuevo modelo se procedió a evaluar los supuestos del modelo, obteniendo los siguientes resultados:
##
## Shapiro-Wilk normality test
##
## data: residuals(model_clean2)
## W = 0.95694, p-value = 2.456e-11
Conociendo que la potencia de la prueba es 0.001 se concluye que existe suficiente evidencia estadística para rechazar la hipotesis Nula (H0: Los errores están normalmente distribuidos) por lo tanto se asume que los errores NO estan normalmente distribuídos.
##
## Durbin-Watson test
##
## data: model_clean2
## DW = 1.7232, p-value = 0.0006038
## alternative hypothesis: true autocorrelation is greater than 0
Conociendo que la potencia de la prueba es 0.001 se concluye que existe suficiente evidencia estadística para rechazar la hipotesis Nula (H0: No hay autocorrelación entre los errores (independencia)) por lo tanto se asume que los errores NO son independientes.
## Non-constant Variance Score Test
## Variance formula: ~ fitted.values
## Chisquare = 99.57364, Df = 1, p = < 2.22e-16
Conociendo que la potencia de la prueba es 0.001 se concluye que existe suficiente evidencia estadística para rechazar la hipotesis Nula (H0: Los errores tienen varianza constante (homocedasticidad)) por lo tanto se asume que los errores NO son homocedasticidados.
La siguiente gráfica representa el comportamiento de la variable lambda la cual será usada para aplicar la transformación Box-Cox:
De la anterior gráfica se identifica que la mejor lambda es -0.020202 el cual es un valor diferente de cero 0 lo cual significa que ni es necesario aplicar transformación logaritmica a la variable dependiente preciom
A continuación se muestran los 4 modelos de regresión lineal calculados y construídos y sus respectivos errores cuadrados:
Modelo 1: Modelo original sin transformación, este modelo NO cumplió con los supuestos de los residuales y su error cuadrático fue de 0.623 \[ \boldsymbol{\text{preciom} = 0.312\cdot \text{estrato} + 0.480\cdot \text{areaconst} + 0.093\cdot \text{banios} + 0.044\cdot \text{habitaciones} -1.192 + \epsilon} \]
Modelo 2: Modelo original sin transformación eliminando puntos influyentes, este modelo NO cumplió con los supuestos de los residuales y su error cuadrático fue de 0.763 \[ \boldsymbol{\text{preciom} = 0.252\cdot \text{estrato} + 0.507\cdot \text{areaconst} + 0.095\cdot \text{banios} + 0.011\cdot \text{habitaciones} -0.974 + \epsilon} \]
Modelo 3: Modelo original eliminando los outliers, este modelo NO cumplió con los supuestos de los residuales y su error cuadrático fue de 0.709 \[ \boldsymbol{\text{preciom} = 0.247\cdot \text{estrato} + 0.530\cdot \text{areaconst} + 0.084\cdot \text{banios} - 0.005\cdot \text{habitaciones} - 0.849 + \epsilon} \]
Modelo 4: Modelo original eliminando los outliers y puntos influyentes, este modelo NO cumplió con los supuestos de los residuales y su error cuadrático fue de 0.757 \[ \boldsymbol{\text{preciom} = 0.251\cdot \text{estrato} + 0.502\cdot \text{areaconst} + 0.097\cdot \text{banios} - 0.011\cdot \text{habitaciones} - 0.981 + \epsilon} \]
| estrato | preciom | areaconst | banios | habitaciones | |
|---|---|---|---|---|---|
| 3182 | 3 | 165 | 142 | 4 | 6 |
| 1854 | 3 | 170 | 105 | 2 | 5 |
| 4044 | 3 | 175 | 250 | 2 | 5 |
| 4043 | 3 | 180 | 140 | 3 | 5 |
| 4057 | 3 | 180 | 138 | 2 | 5 |
| 4053 | 3 | 185 | 160 | 2 | 5 |
El siguiente mapa muestra la ubicación geográfica de cada apartamento:
La siguiente tabla (tabla 1.1) muestra los atributos y/o características de las viviendas tomadas en cuenta para el presente informe, dicha tabla solo contiene los datos de viviendas tipo apartamento de la Zona Sur de la ciudad de Cali.
| piso | estrato | preciom | areaconst | parqueaderos | banios | habitaciones | barrio | longitud | latitud |
|---|---|---|---|---|---|---|---|---|---|
| 03 | 4 | 155 | 62 | 1 | 2 | 2 | bochalema | -76.520 | 3.367 |
| 07 | 4 | 225 | 84 | 1 | 2 | 3 | bochalema | -76.512 | 3.405 |
| NA | 4 | 265 | 86 | 1 | 2 | 2 | bochalema | -76.514 | 3.406 |
Las dimensiones de la anterior tabla (tabla 1.1) son (939, 10) donde el primero representa el número de registros o datos y el segundo el número de atributos o columnas del dataset
La siguiente tabla (tabla 2.2) muestra un resumén estadístico de los atributos de las viviendas en la zona sur de la ciudad
| estrato | preciom | areaconst | parqueaderos | banios | habitaciones | |
|---|---|---|---|---|---|---|
| Min. :3.000 | Min. : 85.0 | Min. : 45.00 | Min. :1.000 | Min. :1.000 | Min. :1.000 | |
| 1st Qu.:4.000 | 1st Qu.:155.0 | 1st Qu.: 60.00 | 1st Qu.:1.000 | 1st Qu.:2.000 | 1st Qu.:3.000 | |
| Median :4.000 | Median :220.0 | Median : 70.00 | Median :1.000 | Median :2.000 | Median :3.000 | |
| Mean :4.345 | Mean :219.5 | Mean : 74.52 | Mean :1.131 | Mean :2.138 | Mean :2.787 | |
| 3rd Qu.:5.000 | 3rd Qu.:265.0 | 3rd Qu.: 86.00 | 3rd Qu.:1.000 | 3rd Qu.:2.000 | 3rd Qu.:3.000 | |
| Max. :6.000 | Max. :760.0 | Max. :260.00 | Max. :3.000 | Max. :5.000 | Max. :5.000 | |
| NA | NA | NA | NA’s :186 | NA | NA |
El siguiente mapa geográfico muestra las ubicaciones de las viviendas tipo casas de la zona sur de la ciudad, este es un mapa interáctivo y dinámico que permite navegar por las diferentes zonas, muestra cada ubicación de las viviendas y permite dibujar lineas sobre este para una mejor interacción.
Los siguientes gráfica (grafica 1.1) muestra la relación entre el atributo areaconst vs preciom
La siguiente gráfica (grafica 2.2) muestra la distrbución de los precios de las casas en la zona sur de la ciudad.
La siguiente gráfica (grafica 3.3) muestra la distrbución del área de
las casas en la zona sur de la ciudad.
La siguiente gráfica (grafica 4.4) muestra la distribución de las viviendas según el estrato en la zona sur de la ciudad
Está etapa abarca el análisis exploratorio de las principales variables predictoras del precio de las viviendas y a la vez como estas están relacionadas con el precio.
El siguiente gráfico (grafica 5.5) muestra como están correlacionados cada uno de los atributos principales o características de las viviendas.
La siguiente gráfica (grafica 6.6) muestra la distribución de los atributos areaconst y preciom en cuartiles y la presencía si o no de datos átipicos.
Esta etapa abaca la preparación de los datos, haciendo un análisis más a detalle y técnico del dataset el cual será el insumo para el modelado.
La siguiente tabla (tabla 3.3) muestra un resúmen de los atributos numéricos de las casas donde se pueden validar el tipo de dato de cada atributo y algunos ejemplos de los valores de los mismos
## Tabla 3.3: Tabla resumen de los atributos numericos
## Rows: 939
## Columns: 6
## $ estrato <dbl> 2, 2, 2, 2, 3, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, …
## $ preciom <dbl> 155, 225, 265, 215, 320, 130, 135, 125, 130, 130, 129, 13…
## $ areaconst <dbl> 62, 84, 86, 72, 90, 58, 58, 60, 58, 61, 60, 65, 52, 53, 5…
## $ parqueaderos <dbl> 1, 1, 1, NA, 1, 1, NA, 1, NA, 1, 1, NA, 1, NA, NA, NA, 1,…
## $ banios <dbl> 2, 2, 2, 2, 3, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, …
## $ habitaciones <dbl> 2, 3, 2, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, …
Debido a que los modelos de inteligencia artificial no pueden trabajar bien con valores nulos en el dataset procedemos a validar cúantos nulos existen en cada atributo del dataset obteniendo los siguientes resultados (tabla 4.4):
| x | |
|---|---|
| estrato | 0 |
| preciom | 0 |
| areaconst | 0 |
| parqueaderos | 186 |
| banios | 0 |
| habitaciones | 0 |
debido a que los valores nulos de la variable parqueaderos representan alrededor del 19% se procede a eliminar esta columna debido a una imputación de valores para una proporción tan grande puede afectar considerablemente la calidad de los datos, quedando el dataset como se muestra en la siguiente tabla (tabla 5.5)
| estrato | preciom | areaconst | banios | habitaciones |
|---|---|---|---|---|
| 2 | 155 | 62 | 2 | 2 |
| 2 | 225 | 84 | 2 | 3 |
| 2 | 265 | 86 | 2 | 2 |
| 2 | 215 | 72 | 2 | 3 |
| 3 | 320 | 90 | 3 | 3 |
| 2 | 130 | 58 | 1 | 3 |
De la Grafica 5 se evidencia que existe una correlación media-fuerte entre la variable objetivo (preciom) y el atributo areaconst, teniendo esto presente se procede a construír una nueva variable que relacione estos atributos y con ello validar si podemos incrementar esta correlación, para lo anterior se construyó un nuevo atributo de prueba llamado precio_metro que resulta de la division de preciom entre areaconst. Los resultados de la correlación entre estos atributos se presentan en la siguiente gráfica (grafica 7.7)
De la anterior gráfica (Grafica 7.7) se evidencia que este nuevo atributo no agrega valor al modelo, por lo que se proecedió a ignorar. Por otro lado debido a que los atributos de las casas tienen diferentes escalas, se procedió a escalar las columnas preciom y areaconst, con esto último el dataset quedó libre de valores nulos, con variables numéricas y donde los atributos tienen escalas similares, por todo lo anterior la siguiente tabla (tabla 6.6) muestra el dataset final listo para la etapa de modelado.
| estrato | preciom | areaconst | banios | habitaciones |
|---|---|---|---|---|
| 2 | -0.88244502 | -0.6541240 | 2 | 2 |
| 2 | 0.07452832 | 0.4949922 | 2 | 3 |
| 2 | 0.62137023 | 0.5994573 | 2 | 2 |
| 2 | -0.06218216 | -0.1317985 | 2 | 3 |
| 3 | 1.37327785 | 0.8083875 | 3 | 3 |
| 2 | -1.22422121 | -0.8630542 | 1 | 3 |
En esta etapa se estimaron y evaluaron varios modelos de regresión cuyos resultados se mostrarán a continuación.
##
## Call:
## lm(formula = preciom ~ estrato + areaconst + banios + habitaciones,
## data = dataset_sur_final)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.7104 -0.2770 -0.0343 0.2561 2.0654
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -1.41496 0.14616 -9.681 < 2e-16 ***
## estrato 0.40896 0.03039 13.456 < 2e-16 ***
## areaconst 0.66338 0.02306 28.773 < 2e-16 ***
## banios 0.18419 0.04120 4.471 8.75e-06 ***
## habitaciones 0.02226 0.03561 0.625 0.532
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.4688 on 934 degrees of freedom
## Multiple R-squared: 0.7811, Adjusted R-squared: 0.7802
## F-statistic: 833.4 on 4 and 934 DF, p-value: < 2.2e-16
Como resultado del anterior modelo obtengo la ecuación: \[ \boldsymbol{\text{preciom} = 0.408\cdot \text{estrato} + 0.663\cdot \text{areaconst} + 0.184\cdot \text{banios} + 0.022\cdot \text{habitaciones} -1.414 + \epsilon} \]
análisis de linealidad de las variables: las siguientes gráficas muestran el comportamiento de los valores residuales adicional, las gráficas de Nomal Q-Q y Scale-Location
##
## Shapiro-Wilk normality test
##
## data: residuals(modelo11)
## W = 0.91998, p-value < 2.2e-16
Conociendo que la potencia de la prueba es 0.001 se concluye que existe suficiente evidencia estadística para rechazar la hipotesis Nula (H0: Los errores están normalmente distribuidos) por lo tanto se asume que los errores NO estan normalmente distribuídos.
##
## Durbin-Watson test
##
## data: modelo11
## DW = 1.666, p-value = 1.339e-07
## alternative hypothesis: true autocorrelation is greater than 0
Conociendo que la potencia de la prueba es 0.001 se concluye que existe suficiente evidencia estadística para rechazar la hipotesis Nula (H0: No hay autocorrelación entre los errores (independencia)) por lo tanto se asume que los errores NO son independientes.
## Non-constant Variance Score Test
## Variance formula: ~ fitted.values
## Chisquare = 850.1257, Df = 1, p = < 2.22e-16
Conociendo que la potencia de la prueba es 0.001 se concluye que existe suficiente evidencia estadística para rechazar la hipotesis Nula (H0: Los errores tienen varianza constante (homocedasticidad)) por lo tanto se asume que los errores NO son homocedasticidados.
Diagnóstico puntos influyente para el modelo original sin transformaciones: Distancia de cook
La siguiente tabla (tabla 7.7) muestra un resúmen de los primeros 10 puntos influyentes en el modelo, adicional muestra gráficamente cada uno de ellos:
| x |
|---|
| 27 |
| 31 |
| 33 |
| 51 |
| 89 |
| 104 |
| 110 |
| 177 |
| 181 |
| 214 |
Visualización de la distancia de Cook para validación de puntos influyentes (grafica 8.8):
Adicional la siguiente gráfica (grafica 9.9) muestra visualmente cada uno de los puntos influyentes y el nivel de influencia de cada uno ellos representados, donde a mayor támaño de punto mayor disntancia de Cook:
## StudRes Hat CookD
## 214 -8.196282 0.05275881 0.6988231
## 245 -8.767685 0.11901856 1.9210036
## 280 2.536296 0.07694083 0.1066199
De las anteriores gráfica se evidencia que existen 51 puntos influyentes y que los 2 puntos con mayor distancia de Cool son 245 y 214
Teniendo presente todo lo anterior se procedió a calcular y evaluar un vuevo modelo retirando y eliminando los puntos influyentes, obteniendo los siguiente resultados.
##
## Call:
## lm(formula = preciom ~ estrato + areaconst + banios + habitaciones,
## data = data_clean2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.10186 -0.20482 -0.01899 0.21405 1.01459
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.92417 0.11447 -8.074 2.22e-15 ***
## estrato 0.30669 0.02343 13.088 < 2e-16 ***
## areaconst 0.86643 0.02067 41.927 < 2e-16 ***
## banios 0.13718 0.03195 4.294 1.95e-05 ***
## habitaciones -0.02665 0.02650 -1.006 0.315
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.3309 on 883 degrees of freedom
## Multiple R-squared: 0.8668, Adjusted R-squared: 0.8662
## F-statistic: 1436 on 4 and 883 DF, p-value: < 2.2e-16
Donde la nueva ecuación que describe el modelo es: \[ \boldsymbol{\text{preciom} = 0.306\cdot \text{estrato} + 0.866\cdot \text{areaconst} + 0.137\cdot \text{banios} - 0.026\cdot \text{habitaciones} -0.924 + \epsilon} \]
Despues de calcular el nuevo modelo ser procedió a evaluar los supuestos del modelo, obteniendo los siguientes resultados:
##
## Shapiro-Wilk normality test
##
## data: residuals(model_clean2)
## W = 0.99769, p-value = 0.2546
Conociendo que la potencia de la prueba es 0.001 se concluye que existe suficiente evidencia estadística para NO rechazar la hipotesis Nula (H0: Los errores están normalmente distribuidos) por lo tanto se asume que los errores estan normalmente distribuídos.
##
## Durbin-Watson test
##
## data: model_clean2
## DW = 1.7171, p-value = 1.094e-05
## alternative hypothesis: true autocorrelation is greater than 0
Conociendo que la potencia de la prueba es 0.001 se concluye que existe suficiente evidencia estadística para rechazar la hipotesis Nula (H0: No hay autocorrelación entre los errores (independencia)) por lo tanto se asume que los errores NO son independientes.
## Non-constant Variance Score Test
## Variance formula: ~ fitted.values
## Chisquare = 56.77326, Df = 1, p = 4.8907e-14
Conociendo que la potencia de la prueba es 0.001 se concluye que existe suficiente evidencia estadística para rechazar la hipotesis Nula (H0: Los errores tienen varianza constante (homocedasticidad)) por lo tanto se asume que los errores NO son homocedasticidados.
En busqueda del mejor modelo se evaluó y calculó el modelo eliminando los Outliers de los atributos obteniendo los siguientes resultados, notar que para la identificación de los outliers se utilizó el método del rango intercartílico (IQR) obteniendo los siguientes resultados:
La siguiente tabla (tabla 8.8) muestra un resúmen del nuevo dataset despues de eliminar los valores átipicos
| estrato | preciom | areaconst | banios | habitaciones | |
|---|---|---|---|---|---|
| 2 | 2 | 0.074528320 | 0.49499217 | 2 | 3 |
| 4 | 2 | -0.062182156 | -0.13179847 | 2 | 3 |
| 22 | 2 | -1.087510730 | -0.75858912 | 2 | 3 |
| 26 | 2 | -0.335603109 | 0.28606195 | 2 | 3 |
| 30 | 2 | 0.006173082 | 0.02489919 | 2 | 3 |
| 35 | 3 | 1.099856894 | 1.59187579 | 2 | 3 |
Las nuevas dimensiones del dataset son (514, 5) donde el primero representa el número de registros y el segundo el número de columnas
Despues de evaluar y calcular se obtuvo el siguiente modelo con los resultados que se muestran a continuación:
##
## Call:
## lm(formula = preciom ~ estrato + areaconst + banios + habitaciones,
## data = dataset_final_sin_outliers2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.30681 -0.22053 -0.00931 0.21786 1.59376
##
## Coefficients: (2 not defined because of singularities)
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.64729 0.07915 -8.178 2.3e-15 ***
## estrato 0.28287 0.03289 8.601 < 2e-16 ***
## areaconst 0.89120 0.02603 34.238 < 2e-16 ***
## banios NA NA NA NA
## habitaciones NA NA NA NA
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.3533 on 511 degrees of freedom
## Multiple R-squared: 0.7736, Adjusted R-squared: 0.7728
## F-statistic: 873.3 on 2 and 511 DF, p-value: < 2.2e-16
Donde la nueva ecuación que describe el modelo es: \[ \boldsymbol{\text{preciom} = 0.282\cdot \text{estrato} + 0.891\cdot \text{areaconst} + 0.0\cdot \text{banios} + 0.0\cdot \text{habitaciones} - 0.647 + \epsilon} \]
Despues de calcular el nuevo modelo ser procedió a evaluar los supuestos del modelo, obteniendo los siguientes resultados:
##
## Shapiro-Wilk normality test
##
## data: residuals(modelo_sin_outliers2)
## W = 0.98949, p-value = 0.0009694
Conociendo que la potencia de la prueba es 0.001 se concluye que existe suficiente evidencia estadística para rechazar la hipotesis Nula (H0: Los errores están normalmente distribuidos) por lo tanto se asume que los errores NO estan normalmente distribuídos.
Conociendo que la potencia de la prueba es 0.001 se concluye que existe suficiente evidencia estadística para rechazar la hipotesis Nula (H0: No hay autocorrelación entre los errores (independencia)) por lo tanto se asume que los errores NO son independientes.
## Non-constant Variance Score Test
## Variance formula: ~ fitted.values
## Chisquare = 50.03371, Df = 1, p = 1.5113e-12
Conociendo que la potencia de la prueba es 0.001 se concluye que existe suficiente evidencia estadística para rechazar la hipotesis Nula (H0: Los errores tienen varianza constante (homocedasticidad)) por lo tanto se asume que los errores NO son homocedasticidados.
Diagnóstico puntos influyente para el modelo sin outliers: Distancia de cook
La siguiente tabla (tabla 9.9) muestra un resúmen de los primeros 10 puntos influyentes en el modelo, adicional muestra gráficamente cada uno de ellos:
| x |
|---|
| 27 |
| 31 |
| 33 |
| 51 |
| 89 |
| 110 |
| 177 |
| 181 |
| 214 |
| 228 |
Visualización de la distancia de Cook para validación de puntos influyentes (grafica 10.10):
Adicional la siguiente tabla (tabla 11.11) muestra visualmente cada uno de los puntos influyentes y el nivel de influencia de cada uno ellos representados, donde a mayor támaño de punto mayor disntancia de Cook:
## StudRes Hat CookD
## 278 -3.800646 0.028019964 0.13524612
## 299 -2.068624 0.032962344 0.04831018
## 876 4.607907 0.003751778 0.02563845
De las anteriores gráfica se evidencia que existen 26 puntos influyentes y que el punto con mayor distancia de Cool es 278
Teniendo presente todo lo anterior se procedió a calcular y evaluar un vuevo modelo retirando y eliminando los puntos influyentes, obteniendo los siguiente resultados.
##
## Call:
## lm(formula = preciom ~ estrato + areaconst + banios + habitaciones,
## data = data_clean22)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.27074 -0.21782 -0.01275 0.21582 1.63041
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.88286 0.12322 -7.165 1.61e-12 ***
## estrato 0.32898 0.02502 13.150 < 2e-16 ***
## areaconst 0.87705 0.02186 40.117 < 2e-16 ***
## banios 0.12190 0.03400 3.585 0.000355 ***
## habitaciones -0.04485 0.02877 -1.559 0.119340
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.3627 on 908 degrees of freedom
## Multiple R-squared: 0.8532, Adjusted R-squared: 0.8526
## F-statistic: 1320 on 4 and 908 DF, p-value: < 2.2e-16
Donde la nueva ecuación que describe el modelo es: \[ \boldsymbol{\text{preciom} = 0.328\cdot \text{estrato} + 0.877\cdot \text{areaconst} + 0.121\cdot \text{banios} - 0.044\cdot \text{habitaciones} - 0.882 + \epsilon} \]
Despues de calcular el nuevo modelo se procedió a evaluar los supuestos del modelo, obteniendo los siguientes resultados:
##
## Shapiro-Wilk normality test
##
## data: residuals(model_clean22)
## W = 0.99088, p-value = 1.953e-05
Conociendo que la potencia de la prueba es 0.001 se concluye que existe suficiente evidencia estadística para rechazar la hipotesis Nula (H0: Los errores están normalmente distribuidos) por lo tanto se asume que los errores NO estan normalmente distribuídos.
##
## Durbin-Watson test
##
## data: model_clean22
## DW = 1.7361, p-value = 2.949e-05
## alternative hypothesis: true autocorrelation is greater than 0
Conociendo que la potencia de la prueba es 0.001 se concluye que existe suficiente evidencia estadística para rechazar la hipotesis Nula (H0: No hay autocorrelación entre los errores (independencia)) por lo tanto se asume que los errores NO son independientes.
## Non-constant Variance Score Test
## Variance formula: ~ fitted.values
## Chisquare = 100.2621, Df = 1, p = < 2.22e-16
Conociendo que la potencia de la prueba es 0.001 se concluye que existe suficiente evidencia estadística para rechazar la hipotesis Nula (H0: Los errores tienen varianza constante (homocedasticidad)) por lo tanto se asume que los errores NO son homocedasticidados.
La siguiente gráfica representa el comportamiento de la variable lambda la cual será usada para aplicar la transformación Box-Cox:
De la anterior gráfica se identifica que la mejor lambda es -0.020202 el cual es un valor diferente de cero 0 lo cual significa que ni es necesario aplicar transformación logaritmica a la variable dependiente preciom
A continuación se muestran los 4 modelos de regresión lineal calculados y construídos y sus respectivos errores cuadrados:
Modelo 1: Modelo original sin transformación, este modelo NO cumplió con los supuestos de los residuales y su error cuadrático fue de 0.781 \[ \boldsymbol{\text{preciom} = 0.408\cdot \text{estrato} + 0.663\cdot \text{areaconst} + 0.184\cdot \text{banios} + 0.022\cdot \text{habitaciones} -1.414 + \epsilon} \]
Modelo 2: Modelo original sin transformación eliminando puntos influyentes, este modelo NO cumplió con los supuestos de los residuales pero si el supuesto de normalidad y su error cuadrático fue de 0.866 \[ \boldsymbol{\text{preciom} = 0.306\cdot \text{estrato} + 0.866\cdot \text{areaconst} + 0.137\cdot \text{banios} - 0.026\cdot \text{habitaciones} -0.924 + \epsilon} \]
Modelo 3: Modelo original eliminando los outliers, este modelo NO cumplió con los supuestos de los residuales y su error cuadrático fue de 0.773 \[ \boldsymbol{\text{preciom} = 0.282\cdot \text{estrato} + 0.891\cdot \text{areaconst} + 0.0\cdot \text{banios} - 0.0\cdot \text{habitaciones} - 0.647 + \epsilon} \]
Modelo 4: Modelo original eliminando los outliers y puntos influyentes, este modelo NO cumplió con los supuestos de los residuales y su error cuadrático fue de 0.853 \[ \boldsymbol{\text{preciom} = 0.328\cdot \text{estrato} + 0.877\cdot \text{areaconst} + 0.121\cdot \text{banios} - 0.044\cdot \text{habitaciones} - 0.882 + \epsilon} \]
| estrato | preciom | areaconst | banios | habitaciones | |
|---|---|---|---|---|---|
| 1935 | 3 | 155 | 150 | 2 | 6 |
| 1952 | 4 | 390 | 300 | 5 | 6 |
| 8269 | 4 | 575 | 410 | 4 | 6 |
| 6669 | 5 | 670 | 300 | 5 | 6 |
El siguiente mapa muestra la ubicación geográfica de cada apartamento: