Actividad 2: Oferta mejores viviendas para compra en la Ciudad de Santiago de Cali

Caso de estudio

Una empresa inmobiliaria de la ciudad de Cali-Colombia desea realizar un estudio y análisis de las mejores ofertas para compra de viviendas tipo casa y apartamento en la ciudad para una multinacional que desea reubicar a dos empleados y sus familias. La multinacional desea que cada de las viviendas tenga las siguientes características:

Caption for the picture. El objetivo principal es econtrar las mejores ofertas de vivienda para las familias y brindarles 5 diferentes ofertas para que ellos puedan escoger la que mejor se adapte a sus necesidades y sus gustos.

Desarrollo del informe

Teniendo presente los requerimientos puntuales dados por la multinacional para cada tipo de viviendas que desean adquirir, se procede a realizar el análisis y estudio para cada tipo de vivienda obtneiendo los siguientes resultados. El presente informe se dividirá en 3 etapas:

Etapa 1: Conocimiento de las ofertas de viviendas
Etapa 2: Análisis exploratorio y de correlación
Etapa 3: Preparación de los datos
Etapa 4: Estimación de los modelos
Etapa 5: Resultados
Etapa 6: Recomendaciónes

La siguiente imágen muestra el mapa de las zonas en la ciudad de Santiago de Cali-Colombia, está imágen fue tomada de la página oficial de la alcaldía de Cali.

Imágen 1: Mapa de zonas de la ciuda de Santiago de Cali- Colombia Las zona norte esta conformada por las comunas 2,4,5 y 6 y la zona sur esta conformada por las comunas 22 y 17. Los barrios que perteneces a cada zona son:

Zona Norte: Jorge Isaacs - Santander - Porvenir - Las Delicias - Manzanares - Salomia - Fátima - Sultana - Berlín - San Francisco - Popular - Ignacio Rengifo - Guillermo Valencia - La Isla - Marco Fidel Suárez - Evaristo García - La Esmeralda - Bolivariano - Olaya Herrera - Unidad Residencial Bueno Madrid - Flora Industrial - Calima - Industria de Licores - La Alianza - El Sena - Los Andes - Los Guayacanes - Chiminangos Segunda Etapa - Chiminangos Primera Etapa - Metropolitano del Norte - Los Parques - Barranquilla - Villa del Sol - Paseo de Los Almendros - Los Andes B - La Riviera - Torres de Comfandi - Villa del Prado - El Guabito - San Luís - Jorge Eliecer Gaitán - Paso del Comercio - Los Alcázares - Petecuy Primera Etapa - Petecuy Segunda Etapa - La Rivera Primera Etapa - Los Guaduales - Petecuy Tercera Etapa - Ciudadela Floralia - Fonaviemcali - San Luís II - Urbanización Calimio - Sector Puente del Comercio - Santa Rita - Santa Teresita - Arboledas - Normandía - Juanambú - Centenario - Granada - Versalles - San Vicente - Santa Mónica - Prados del Norte - La Flora - La Campiña - La Paz - El Bosque - Menga - Ciudad Los Alamos - Chipichape - Brisas de los Alamos - Urbanización La Merced - Vipasa - Urbanización La Flora - Altos de Menga - Sector Altos Normandía - Senderos de la Flora
Zona Sur: La Playa - Primero de Mayo - Ciudadela Comfandi - Ciudad Universitaria - Caney - Lili - Santa Anita - La Selva - El Ingenio - Mayapan - Las Vegas - Las Quintas de Don Simón - Ciudad Capri - La Hacienda - Los Portales - Nuevo Rey - Cañaverales - Los Samanes - El Limonar - Bosques del Limonar - El Gran Limonar - Cataya - El Gran Limonar - Unicentro Cali - Ciudadela Pasoancho - Prados del Limonar - Urbanización San Joaquin - Urbanización Ciudad Jardín - Parcelaciones Pance - Urbanización Río Lili - Ciudad Campestre - Club Campestre

Vivienda 1: Casa en zona Norte

Etapa 1: Conocimiento de las ofertas de viviendas

La siguiente tabla (tabla 1) muestra los atributos y/o características de las viviendas tomadas en cuenta para el presente informe, dicha tabla solo contiene los datos de viviendas tipo casa de la Zona Norte de la ciudad de Cali.

**Tabla 1: Ejemplo de las Primeras 3 Filas del Dataset**
piso	estrato	preciom	areaconst	parqueaderos	banios	habitaciones	barrio	longitud	latitud
02	5	320	150	2	4	6	acopi	-76.51341	3.47968
02	5	780	380	2	3	3	acopi	-76.51674	3.48721
NA	3	230	160	NA	2	3	acopi	-76.48641	3.44956

Las dimensiones de la anterior tabla (tabla 1) son (557, 10) donde el primero representa el número de registros o datos y el segundo el número de atributos o columnas del dataset

La siguiente tabla (tabla 2) muestra un resumén estadístico de los atributos de las viviendas en la zona norte de la ciudad

**Tabla 2: Resumen Estadístico**
estrato	preciom	areaconst	parqueaderos	banios	habitaciones
Min. :3.000	Min. : 89.0	Min. : 30.0	Min. : 1.000	Min. : 1.000	Min. : 1.000
1st Qu.:3.000	1st Qu.: 240.0	1st Qu.: 135.0	1st Qu.: 1.000	1st Qu.: 2.000	1st Qu.: 3.000
Median :4.000	Median : 365.0	Median : 230.0	Median : 2.000	Median : 3.000	Median : 4.000
Mean :4.126	Mean : 412.5	Mean : 250.5	Mean : 2.159	Mean : 3.483	Mean : 4.548
3rd Qu.:5.000	3rd Qu.: 520.0	3rd Qu.: 320.0	3rd Qu.: 3.000	3rd Qu.: 4.000	3rd Qu.: 5.000
Max. :6.000	Max. :1940.0	Max. :1440.0	Max. :10.000	Max. :10.000	Max. :10.000
NA	NA	NA	NA’s :192	NA	NA

El siguiente mapa geográfico muestra las ubicaciones de las viviendas tipo casas de la zona norte de la ciudad, este es un mapa interáctivo y dinámico que permite navegar por las diferentes zonas, muestra cada ubicación de las viviendas y permite dibujar lineas sobre este para una mejor interacción.

Los siguientes gráfica (grafica 1) muestra la relación entre el atributo areaconst vs preciom

La siguiente gráfica (grafica 2) muestra la distrbución de los precios de las casas en la zona norte de la ciudad.

La siguiente gráfica (grafica 3) muestra la distrbución del área de las casas en la zona norte de la ciudad.

La siguiente gráfica (grafica 4) muestra la distribución de las viviendas según el estrato en la zona norte de la ciudad

Etapa 2: Análisis exploratorio y de correlación

Está etapa abarca el análisis exploratorio de las principales variables predictoras del precio de las viviendas y a la vez como estas están relacionadas con el precio.

El siguiente gráfico (grafica 5) muestra como están correlacionados cada uno de los atributos principales o características de las viviendas.

La siguiente gráfica (grafica 6) muestra la distribución de los atributos areaconst y preciom en cuartiles y la presencía si o no de datos átipicos.

Etapa 3: Preparación de los datos

Esta etapa abaca la preparación de los datos, haciendo un análisis más a detalle y técnico del dataset el cual será el insumo para el modelado.

La siguiente tabla (tabla 3) muestra un resúmen de los atributos numéricos de las casas donde se pueden validar el tipo de dato de cada atributo y algunos ejemplos de los valores de los mismos

## Tabla 3: Tabla resumen de los atributos numericos

## Rows: 557
## Columns: 6
## $ estrato      <dbl> 3, 3, 1, 1, 3, 1, 3, 1, 1, 3, 3, 3, 2, 3, 4, 2, 2, 3, 1, …
## $ preciom      <dbl> 320, 780, 230, 180, 520, 380, 395, 270, 270, 460, 390, 78…
## $ areaconst    <dbl> 150, 380, 160, 120, 455, 300, 165, 330, 330, 319, 357, 38…
## $ parqueaderos <dbl> 2, 2, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA,…
## $ banios       <dbl> 4, 3, 2, 3, 5, 5, 4, 3, 3, 5, 3, 3, 6, 2, 5, 2, 8, 3, 4, …
## $ habitaciones <dbl> 6, 3, 3, 3, 4, 8, 4, 1, 1, 4, 6, 3, 7, 3, 3, 3, 1, 4, 4, …

Debido a que los modelos de inteligencia artificial no pueden trabajar bien con valores nulos en el dataset procedemos a validar cúantos nulos existen en cada atributo del dataset obteniendo los siguientes resultados (tabla 4):

**Tabla 4: Conteo de valores nulos por atributo**
	x
estrato	0
preciom	0
areaconst	0
parqueaderos	192
banios	0
habitaciones	0

debido a que los valores nulos de la variable parqueaderos representan alrededor del 34% se procede a eliminar esta columna debido a una imputación de valores para una proporción tan grande puede afectar considerablemente la calidad de los datos, quedando el dataset como se muestra en la siguiente tabla (tabla 5)

**Tabla 5: Dataset con los atributos finales**
estrato	preciom	areaconst	banios	habitaciones
3	320	150	4	6
3	780	380	3	3
1	230	160	2	3
1	180	120	3	3
3	520	455	5	4
1	380	300	5	8

De la Grafica 5 se evidencia que existe una correlación media-fuerte entre la variable objetivo (preciom) y el atributo areaconst, teniendo esto presente se procede a construír una nueva variable que relacione estos atributos y con ello validar si podemos incrementar esta correlación, para lo anterior se construyó un nuevo atributo de prueba llamado precio_metro que resulta de la division de preciom entre areaconst. Los resultados de la correlación entre estos atributos se presentan en la siguiente gráfica (grafica 7)

De la anterior gráfica (Grafica 7) se evidencia que este nuevo atributo no agrega valor al modelo, por lo que se proecedió a ignorar. Por otro lado debido a que los atributos de las casas tienen diferentes escalas, se procedió a escalar las columnas preciom y areaconst, con esto último el dataset quedó libre de valores nulos, con variables numéricas y donde los atributos tienen escalas similares, por todo lo anterior la siguiente tabla (tabla 6) muestra el dataset final listo para la etapa de modelado.

**Tabla 6: Dataset con atributos estandarizados**
estrato	preciom	areaconst	banios	habitaciones
3	-0.3784245	-0.6353001	4	6
3	1.5028678	0.8187885	3	3
1	-0.7465034	-0.5720788	2	3
1	-0.9509917	-0.8249638	3	3
3	0.4395287	1.2929479	5	4
1	-0.1330385	0.3130186	5	8

Etapa 4: Estimación de los modelos

En esta etapa se estimaron y evaluaron varios modelos de regresión cuyos resultados se mostrarán a continuación.

Estimación mediante el método de mínimos cuadrados (MCO)

## 
## Call:
## lm(formula = preciom ~ estrato + areaconst + banios + habitaciones, 
##     data = dataset_norte_final)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -3.7242 -0.2681 -0.0625  0.1448  4.4300 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -1.19208    0.11313 -10.537  < 2e-16 ***
## estrato       0.31254    0.03399   9.194  < 2e-16 ***
## areaconst     0.48045    0.03360  14.299  < 2e-16 ***
## banios        0.09395    0.02548   3.687 0.000249 ***
## habitaciones  0.04409    0.02021   2.182 0.029559 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.6156 on 552 degrees of freedom
## Multiple R-squared:  0.6238, Adjusted R-squared:  0.6211 
## F-statistic: 228.8 on 4 and 552 DF,  p-value: < 2.2e-16

Como resultado del anterior modelo obtengo la ecuación: \[ \boldsymbol{\text{preciom} = 0.312\cdot \text{estrato} + 0.480\cdot \text{areaconst} + 0.093\cdot \text{banios} + 0.044\cdot \text{habitaciones} -1.192 + \epsilon} \]

análisis de linealidad de las variables: las siguientes gráficas muestran el comportamiento de los valores residuales adicional, las gráficas de Nomal Q-Q y Scale-Location

Evaluación de los supuestos de los residuales del modelo

La siguiente tabla representa los resultados de la prueba de normalidad de Shapiro-Wilk

## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(modelo1)
## W = 0.77616, p-value < 2.2e-16

Conociendo que la potencia de la prueba es 0.001 se concluye que existe suficiente evidencia estadística para rechazar la hipotesis Nula (H0: Los errores están normalmente distribuidos) por lo tanto se asume que los errores NO estan normalmente distribuídos.

La siguiente tabla representa los resultados de la prueba de normalidad de Durbin-Watson

## 
##  Durbin-Watson test
## 
## data:  modelo1
## DW = 1.6388, p-value = 8.17e-06
## alternative hypothesis: true autocorrelation is greater than 0

Conociendo que la potencia de la prueba es 0.001 se concluye que existe suficiente evidencia estadística para rechazar la hipotesis Nula (H0: No hay autocorrelación entre los errores (independencia)) por lo tanto se asume que los errores NO son independientes.

La siguiente tabla representa los resultados de la prueba de normalidad de Breusch-Pagan

## Non-constant Variance Score Test 
## Variance formula: ~ fitted.values 
## Chisquare = 600.4883, Df = 1, p = < 2.22e-16

Conociendo que la potencia de la prueba es 0.001 se concluye que existe suficiente evidencia estadística para rechazar la hipotesis Nula (H0: Los errores tienen varianza constante (homocedasticidad)) por lo tanto se asume que los errores NO son homocedasticidados.

Diagnóstico puntos influyente para el modelo original sin transformaciones: Distancia de cook

La siguiente tabla (tabla 7) muestra un resúmen de los primeros 10 puntos influyentes en el modelo, adicional muestra gráficamente cada uno de ellos:

**Tabla 7: Puntos influyentes**
x
17
57
102
118
120
136
280
281
320
352

Visualización de la distancia de Cook para validación de puntos influyentes (grafica 8):

Adicional la siguiente gráfica (grafica 9) muestra visualmente cada uno de los puntos influyentes y el nivel de influencia de cada uno ellos representados, donde a mayor támaño de punto mayor disntancia de Cook:

##       StudRes        Hat     CookD
## 102 -4.220059 0.08323895 0.3138414
## 118  7.633378 0.01892897 0.2037138
## 472 -6.922228 0.17121214 1.8246738

De las anteriores gráfica se evidencia que existen 28 puntos influyentes y que los 2 puntos con mayor distancia de Cool son 472 y 102

Teniendo presente todo lo anterior se procedió a calcular y evaluar un vuevo modelo retirando y eliminando los puntos influyentes, obteniendo los siguiente resultados.

## 
## Call:
## lm(formula = preciom ~ estrato + areaconst + banios + habitaciones, 
##     data = data_clean)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.06713 -0.20876 -0.04472  0.15791  1.62537 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -0.97472    0.07473 -13.044  < 2e-16 ***
## estrato       0.25233    0.02162  11.673  < 2e-16 ***
## areaconst     0.50718    0.02586  19.616  < 2e-16 ***
## banios        0.09558    0.01696   5.635 2.86e-08 ***
## habitaciones  0.01148    0.01307   0.879     0.38    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.3677 on 524 degrees of freedom
## Multiple R-squared:  0.7633, Adjusted R-squared:  0.7615 
## F-statistic: 422.5 on 4 and 524 DF,  p-value: < 2.2e-16

Donde la nueva ecuación que describe el modelo es: \[ \boldsymbol{\text{preciom} = 0.252\cdot \text{estrato} + 0.507\cdot \text{areaconst} + 0.095\cdot \text{banios} + 0.011\cdot \text{habitaciones} -0.974 + \epsilon} \]

Despues de calcular el nuevo modelo ser procedió a evaluar los supuestos del modelo, obteniendo los siguientes resultados:

La siguiente tabla representa los resultados de la prueba de normalidad de Shapiro-Wilk

## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(model_clean)
## W = 0.9585, p-value = 4.719e-11

La siguiente tabla representa los resultados de la prueba de normalidad de Durbin-Watson

## 
##  Durbin-Watson test
## 
## data:  model_clean
## DW = 1.7079, p-value = 0.0003276
## alternative hypothesis: true autocorrelation is greater than 0

La siguiente tabla representa los resultados de la prueba de normalidad de Breusch-Pagan

## Non-constant Variance Score Test 
## Variance formula: ~ fitted.values 
## Chisquare = 96.21937, Df = 1, p = < 2.22e-16

Estimación modelo eliminando Outliers

En busqueda del mejor modelo se evaluó y calculó el modelo eliminando los Outliers de los atributos obteniendo los siguientes resultados, notar que para la identificación de los outliers se utilizó el método del rango intercartílico (IQR) obteniendo los siguientes resultados:

IQR preciom: 1.146
IQR areaconst: 1.169
IQR estrato: 2
IQR banios: 2
IQR habitaciones: 2

La siguiente tabla (tabla 8) muestra un resúmen del nuevo dataset despues de eliminar los valores átipicos

**Tabla 8: Dataset sin outliers**
estrato	preciom	areaconst	banios	habitaciones
3	-0.3784245	-0.6353001	4	6
3	1.5028678	0.8187885	3	3
1	-0.7465034	-0.5720788	2	3
1	-0.9509917	-0.8249638	3	3
3	0.4395287	1.2929479	5	4
1	-0.1330385	0.3130186	5	8

Las nuevas dimensiones del dataset son (513, 5) donde el primero representa el número de registros y el segundo el número de columnas

Despues de evaluar y calcular se obtuvo el siguiente modelo con los resultados que se muestran a continuación:

## 
## Call:
## lm(formula = preciom ~ estrato + areaconst + banios + habitaciones, 
##     data = dataset_final_sin_outliers)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.09481 -0.21637 -0.05941  0.15131  2.10297 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -0.849564   0.088825  -9.564  < 2e-16 ***
## estrato       0.247200   0.024498  10.091  < 2e-16 ***
## areaconst     0.530269   0.032194  16.471  < 2e-16 ***
## banios        0.084960   0.019617   4.331 1.79e-05 ***
## habitaciones -0.005106   0.015978  -0.320    0.749    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.3995 on 508 degrees of freedom
## Multiple R-squared:  0.7094, Adjusted R-squared:  0.7071 
## F-statistic:   310 on 4 and 508 DF,  p-value: < 2.2e-16

Donde la nueva ecuación que describe el modelo es: \[ \boldsymbol{\text{preciom} = 0.247\cdot \text{estrato} + 0.530\cdot \text{areaconst} + 0.084\cdot \text{banios} - 0.005\cdot \text{habitaciones} - 0.849 + \epsilon} \]

Despues de calcular el nuevo modelo ser procedió a evaluar los supuestos del modelo, obteniendo los siguientes resultados:

La siguiente tabla representa los resultados de la prueba de normalidad de Shapiro-Wilk

## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(modelo_sin_outliers)
## W = 0.93175, p-value = 1.511e-14

La siguiente tabla representa los resultados de la prueba de normalidad de Durbin-Watson

## 
##  Durbin-Watson test
## 
## data:  modelo_sin_outliers
## DW = 1.6855, p-value = 0.0001538
## alternative hypothesis: true autocorrelation is greater than 0

La siguiente tabla representa los resultados de la prueba de normalidad de Breusch-Pagan

## Non-constant Variance Score Test 
## Variance formula: ~ fitted.values 
## Chisquare = 93.70443, Df = 1, p = < 2.22e-16

Diagnóstico puntos influyente para el modelo sin outliers: Distancia de cook

La siguiente tabla (tabla 9) muestra un resúmen de los primeros 10 puntos influyentes en el modelo, adicional muestra gráficamente cada uno de ellos:

**Tabla 9: Puntos influyentes**
x
17
57
102
118
120
136
280
281
320
352

Visualización de la distancia de Cook para validación de puntos influyentes (grafica 10):

Adicional la siguiente tabla (tabla 11) muestra visualmente cada uno de los puntos influyentes y el nivel de influencia de cada uno ellos representados, donde a mayor támaño de punto mayor disntancia de Cook:

##       StudRes         Hat       CookD
## 14  0.9805771 0.043592558 0.008765886
## 57  3.6682952 0.019820225 0.053117885
## 120 5.4765437 0.023147827 0.134468315
## 343 1.1122741 0.037544093 0.009647432
## 358 4.1632867 0.002925596 0.009854757

De las anteriores gráfica se evidencia que existen 26 puntos influyentes y que el punto con mayor distancia de Cool es 120

Teniendo presente todo lo anterior se procedió a calcular y evaluar un vuevo modelo retirando y eliminando los puntos influyentes, obteniendo los siguiente resultados.

## 
## Call:
## lm(formula = preciom ~ estrato + areaconst + banios + habitaciones, 
##     data = data_clean2)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.05953 -0.21043 -0.04717  0.15808  1.62416 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -0.98166    0.07551 -13.000  < 2e-16 ***
## estrato       0.25124    0.02193  11.456  < 2e-16 ***
## areaconst     0.50222    0.02621  19.165  < 2e-16 ***
## banios        0.09770    0.01719   5.685 2.17e-08 ***
## habitaciones  0.01192    0.01322   0.902    0.368    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.3731 on 526 degrees of freedom
## Multiple R-squared:  0.7573, Adjusted R-squared:  0.7554 
## F-statistic: 410.3 on 4 and 526 DF,  p-value: < 2.2e-16

Donde la nueva ecuación que describe el modelo es: \[ \boldsymbol{\text{preciom} = 0.251\cdot \text{estrato} + 0.502\cdot \text{areaconst} + 0.097\cdot \text{banios} + 0.011\cdot \text{habitaciones} - 0.981 + \epsilon} \]

Despues de calcular el nuevo modelo se procedió a evaluar los supuestos del modelo, obteniendo los siguientes resultados:

La siguiente tabla representa los resultados de la prueba de normalidad de Shapiro-Wilk

## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(model_clean2)
## W = 0.95694, p-value = 2.456e-11

La siguiente tabla representa los resultados de la prueba de normalidad de Durbin-Watson

## 
##  Durbin-Watson test
## 
## data:  model_clean2
## DW = 1.7232, p-value = 0.0006038
## alternative hypothesis: true autocorrelation is greater than 0

La siguiente tabla representa los resultados de la prueba de normalidad de Breusch-Pagan

## Non-constant Variance Score Test 
## Variance formula: ~ fitted.values 
## Chisquare = 99.57364, Df = 1, p = < 2.22e-16

Modelo original con transformación Box-Cox

La siguiente gráfica representa el comportamiento de la variable lambda la cual será usada para aplicar la transformación Box-Cox:

De la anterior gráfica se identifica que la mejor lambda es -0.020202 el cual es un valor diferente de cero 0 lo cual significa que ni es necesario aplicar transformación logaritmica a la variable dependiente preciom

Etapa 5: Resultados de la modelación

A continuación se muestran los 4 modelos de regresión lineal calculados y construídos y sus respectivos errores cuadrados:

Modelo 1: Modelo original sin transformación, este modelo NO cumplió con los supuestos de los residuales y su error cuadrático fue de 0.623 \[ \boldsymbol{\text{preciom} = 0.312\cdot \text{estrato} + 0.480\cdot \text{areaconst} + 0.093\cdot \text{banios} + 0.044\cdot \text{habitaciones} -1.192 + \epsilon} \]
Modelo 2: Modelo original sin transformación eliminando puntos influyentes, este modelo NO cumplió con los supuestos de los residuales y su error cuadrático fue de 0.763 \[ \boldsymbol{\text{preciom} = 0.252\cdot \text{estrato} + 0.507\cdot \text{areaconst} + 0.095\cdot \text{banios} + 0.011\cdot \text{habitaciones} -0.974 + \epsilon} \]
Modelo 3: Modelo original eliminando los outliers, este modelo NO cumplió con los supuestos de los residuales y su error cuadrático fue de 0.709 \[ \boldsymbol{\text{preciom} = 0.247\cdot \text{estrato} + 0.530\cdot \text{areaconst} + 0.084\cdot \text{banios} - 0.005\cdot \text{habitaciones} - 0.849 + \epsilon} \]
Modelo 4: Modelo original eliminando los outliers y puntos influyentes, este modelo NO cumplió con los supuestos de los residuales y su error cuadrático fue de 0.757 \[ \boldsymbol{\text{preciom} = 0.251\cdot \text{estrato} + 0.502\cdot \text{areaconst} + 0.097\cdot \text{banios} - 0.011\cdot \text{habitaciones} - 0.981 + \epsilon} \]

Etapa 6: Recomendaciones

Despúes de hacer el análisis y explorar los datos se evidencia que no no hay ofertas de casas en la zona norte con las carácterísticas exactas solicitadas, no hay casas que cumplan plenamente la los requerimientos, se procede a compartir las siguientes ofertas que se ajustan a su tipo de vivienda, el número de habitaciones, zona de la ciudad y están dentro del presupuesto. Las características de las mismas están consolidadas en la siguiente tabla (tabla 12), estás son las mejores ofertas de casas y están ordenadas en orden ascendente de menor a mayor precio, la selección se hizo al estimar el precio de los apartamentos utilizando el mejor modelo de regresión linean filtrando aquellos apartamentos cuyos precios fueron menores a los valores de las predicciónes garantizando con ello las mejores ofertas:

**Tabla 12: Mejores ofertas de casas en la Zona Norte**
	estrato	preciom	areaconst	banios	habitaciones
3182	3	165	142	4	6
1854	3	170	105	2	5
4044	3	175	250	2	5
4043	3	180	140	3	5
4057	3	180	138	2	5
4053	3	185	160	2	5

El siguiente mapa muestra la ubicación geográfica de cada apartamento:

Vivienda 2: Apartamento en zona sur

Etapa 1: Conocimiento de las ofertas de viviendas

La siguiente tabla (tabla 1.1) muestra los atributos y/o características de las viviendas tomadas en cuenta para el presente informe, dicha tabla solo contiene los datos de viviendas tipo apartamento de la Zona Sur de la ciudad de Cali.

**Tabla 1.1: Ejemplo de las Primeras 3 Filas del Dataset**
piso	estrato	preciom	areaconst	parqueaderos	banios	habitaciones	barrio	longitud	latitud
03	4	155	62	1	2	2	bochalema	-76.520	3.367
07	4	225	84	1	2	3	bochalema	-76.512	3.405
NA	4	265	86	1	2	2	bochalema	-76.514	3.406

Las dimensiones de la anterior tabla (tabla 1.1) son (939, 10) donde el primero representa el número de registros o datos y el segundo el número de atributos o columnas del dataset

La siguiente tabla (tabla 2.2) muestra un resumén estadístico de los atributos de las viviendas en la zona sur de la ciudad

**Tabla 2.2: Resumen Estadístico**
estrato	preciom	areaconst	parqueaderos	banios	habitaciones
Min. :3.000	Min. : 85.0	Min. : 45.00	Min. :1.000	Min. :1.000	Min. :1.000
1st Qu.:4.000	1st Qu.:155.0	1st Qu.: 60.00	1st Qu.:1.000	1st Qu.:2.000	1st Qu.:3.000
Median :4.000	Median :220.0	Median : 70.00	Median :1.000	Median :2.000	Median :3.000
Mean :4.345	Mean :219.5	Mean : 74.52	Mean :1.131	Mean :2.138	Mean :2.787
3rd Qu.:5.000	3rd Qu.:265.0	3rd Qu.: 86.00	3rd Qu.:1.000	3rd Qu.:2.000	3rd Qu.:3.000
Max. :6.000	Max. :760.0	Max. :260.00	Max. :3.000	Max. :5.000	Max. :5.000
NA	NA	NA	NA’s :186	NA	NA

El siguiente mapa geográfico muestra las ubicaciones de las viviendas tipo casas de la zona sur de la ciudad, este es un mapa interáctivo y dinámico que permite navegar por las diferentes zonas, muestra cada ubicación de las viviendas y permite dibujar lineas sobre este para una mejor interacción.

Los siguientes gráfica (grafica 1.1) muestra la relación entre el atributo areaconst vs preciom

La siguiente gráfica (grafica 2.2) muestra la distrbución de los precios de las casas en la zona sur de la ciudad.

La siguiente gráfica (grafica 3.3) muestra la distrbución del área de las casas en la zona sur de la ciudad.

La siguiente gráfica (grafica 4.4) muestra la distribución de las viviendas según el estrato en la zona sur de la ciudad

Etapa 2: Análisis exploratorio y de correlación

Está etapa abarca el análisis exploratorio de las principales variables predictoras del precio de las viviendas y a la vez como estas están relacionadas con el precio.

El siguiente gráfico (grafica 5.5) muestra como están correlacionados cada uno de los atributos principales o características de las viviendas.

La siguiente gráfica (grafica 6.6) muestra la distribución de los atributos areaconst y preciom en cuartiles y la presencía si o no de datos átipicos.

Etapa 3: Preparación de los datos

Esta etapa abaca la preparación de los datos, haciendo un análisis más a detalle y técnico del dataset el cual será el insumo para el modelado.

La siguiente tabla (tabla 3.3) muestra un resúmen de los atributos numéricos de las casas donde se pueden validar el tipo de dato de cada atributo y algunos ejemplos de los valores de los mismos

## Tabla 3.3: Tabla resumen de los atributos numericos

## Rows: 939
## Columns: 6
## $ estrato      <dbl> 2, 2, 2, 2, 3, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, …
## $ preciom      <dbl> 155, 225, 265, 215, 320, 130, 135, 125, 130, 130, 129, 13…
## $ areaconst    <dbl> 62, 84, 86, 72, 90, 58, 58, 60, 58, 61, 60, 65, 52, 53, 5…
## $ parqueaderos <dbl> 1, 1, 1, NA, 1, 1, NA, 1, NA, 1, 1, NA, 1, NA, NA, NA, 1,…
## $ banios       <dbl> 2, 2, 2, 2, 3, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, …
## $ habitaciones <dbl> 2, 3, 2, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, …

**Tabla 4.4: Conteo de valores nulos por atributo**
	x
estrato	0
preciom	0
areaconst	0
parqueaderos	186
banios	0
habitaciones	0

debido a que los valores nulos de la variable parqueaderos representan alrededor del 19% se procede a eliminar esta columna debido a una imputación de valores para una proporción tan grande puede afectar considerablemente la calidad de los datos, quedando el dataset como se muestra en la siguiente tabla (tabla 5.5)

**Tabla 5.5: Dataset con los atributos finales**
estrato	preciom	areaconst	banios	habitaciones
2	155	62	2	2
2	225	84	2	3
2	265	86	2	2
2	215	72	2	3
3	320	90	3	3
2	130	58	1	3

De la anterior gráfica (Grafica 7.7) se evidencia que este nuevo atributo no agrega valor al modelo, por lo que se proecedió a ignorar. Por otro lado debido a que los atributos de las casas tienen diferentes escalas, se procedió a escalar las columnas preciom y areaconst, con esto último el dataset quedó libre de valores nulos, con variables numéricas y donde los atributos tienen escalas similares, por todo lo anterior la siguiente tabla (tabla 6.6) muestra el dataset final listo para la etapa de modelado.

**Tabla 6.6: Dataset con atributos estandarizados**
estrato	preciom	areaconst	banios	habitaciones
2	-0.88244502	-0.6541240	2	2
2	0.07452832	0.4949922	2	3
2	0.62137023	0.5994573	2	2
2	-0.06218216	-0.1317985	2	3
3	1.37327785	0.8083875	3	3
2	-1.22422121	-0.8630542	1	3

Etapa 4: Estimación de los modelos

En esta etapa se estimaron y evaluaron varios modelos de regresión cuyos resultados se mostrarán a continuación.

Estimación mediante el método de mínimos cuadrados (MCO)

## 
## Call:
## lm(formula = preciom ~ estrato + areaconst + banios + habitaciones, 
##     data = dataset_sur_final)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -3.7104 -0.2770 -0.0343  0.2561  2.0654 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -1.41496    0.14616  -9.681  < 2e-16 ***
## estrato       0.40896    0.03039  13.456  < 2e-16 ***
## areaconst     0.66338    0.02306  28.773  < 2e-16 ***
## banios        0.18419    0.04120   4.471 8.75e-06 ***
## habitaciones  0.02226    0.03561   0.625    0.532    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.4688 on 934 degrees of freedom
## Multiple R-squared:  0.7811, Adjusted R-squared:  0.7802 
## F-statistic: 833.4 on 4 and 934 DF,  p-value: < 2.2e-16

Como resultado del anterior modelo obtengo la ecuación: \[ \boldsymbol{\text{preciom} = 0.408\cdot \text{estrato} + 0.663\cdot \text{areaconst} + 0.184\cdot \text{banios} + 0.022\cdot \text{habitaciones} -1.414 + \epsilon} \]

análisis de linealidad de las variables: las siguientes gráficas muestran el comportamiento de los valores residuales adicional, las gráficas de Nomal Q-Q y Scale-Location

Evaluación de los supuestos de los residuales del modelo

La siguiente tabla representa los resultados de la prueba de normalidad de Shapiro-Wilk

## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(modelo11)
## W = 0.91998, p-value < 2.2e-16

La siguiente tabla representa los resultados de la prueba de normalidad de Durbin-Watson

## 
##  Durbin-Watson test
## 
## data:  modelo11
## DW = 1.666, p-value = 1.339e-07
## alternative hypothesis: true autocorrelation is greater than 0

La siguiente tabla representa los resultados de la prueba de normalidad de Breusch-Pagan

## Non-constant Variance Score Test 
## Variance formula: ~ fitted.values 
## Chisquare = 850.1257, Df = 1, p = < 2.22e-16

Diagnóstico puntos influyente para el modelo original sin transformaciones: Distancia de cook

La siguiente tabla (tabla 7.7) muestra un resúmen de los primeros 10 puntos influyentes en el modelo, adicional muestra gráficamente cada uno de ellos:

**Tabla 7.7: Puntos influyentes**
x
27
31
33
51
89
104
110
177
181
214

Visualización de la distancia de Cook para validación de puntos influyentes (grafica 8.8):

Adicional la siguiente gráfica (grafica 9.9) muestra visualmente cada uno de los puntos influyentes y el nivel de influencia de cada uno ellos representados, donde a mayor támaño de punto mayor disntancia de Cook:

##       StudRes        Hat     CookD
## 214 -8.196282 0.05275881 0.6988231
## 245 -8.767685 0.11901856 1.9210036
## 280  2.536296 0.07694083 0.1066199

De las anteriores gráfica se evidencia que existen 51 puntos influyentes y que los 2 puntos con mayor distancia de Cool son 245 y 214

Teniendo presente todo lo anterior se procedió a calcular y evaluar un vuevo modelo retirando y eliminando los puntos influyentes, obteniendo los siguiente resultados.

## 
## Call:
## lm(formula = preciom ~ estrato + areaconst + banios + habitaciones, 
##     data = data_clean2)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.10186 -0.20482 -0.01899  0.21405  1.01459 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -0.92417    0.11447  -8.074 2.22e-15 ***
## estrato       0.30669    0.02343  13.088  < 2e-16 ***
## areaconst     0.86643    0.02067  41.927  < 2e-16 ***
## banios        0.13718    0.03195   4.294 1.95e-05 ***
## habitaciones -0.02665    0.02650  -1.006    0.315    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.3309 on 883 degrees of freedom
## Multiple R-squared:  0.8668, Adjusted R-squared:  0.8662 
## F-statistic:  1436 on 4 and 883 DF,  p-value: < 2.2e-16

Donde la nueva ecuación que describe el modelo es: \[ \boldsymbol{\text{preciom} = 0.306\cdot \text{estrato} + 0.866\cdot \text{areaconst} + 0.137\cdot \text{banios} - 0.026\cdot \text{habitaciones} -0.924 + \epsilon} \]

Despues de calcular el nuevo modelo ser procedió a evaluar los supuestos del modelo, obteniendo los siguientes resultados:

La siguiente tabla representa los resultados de la prueba de normalidad de Shapiro-Wilk

## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(model_clean2)
## W = 0.99769, p-value = 0.2546

Conociendo que la potencia de la prueba es 0.001 se concluye que existe suficiente evidencia estadística para NO rechazar la hipotesis Nula (H0: Los errores están normalmente distribuidos) por lo tanto se asume que los errores estan normalmente distribuídos.

La siguiente tabla representa los resultados de la prueba de normalidad de Durbin-Watson

## 
##  Durbin-Watson test
## 
## data:  model_clean2
## DW = 1.7171, p-value = 1.094e-05
## alternative hypothesis: true autocorrelation is greater than 0

La siguiente tabla representa los resultados de la prueba de normalidad de Breusch-Pagan

## Non-constant Variance Score Test 
## Variance formula: ~ fitted.values 
## Chisquare = 56.77326, Df = 1, p = 4.8907e-14

Estimación modelo eliminando Outliers

IQR preciom: 1.503
IQR areaconst: 1.358
IQR estrato: 1
IQR banios: 0
IQR habitaciones: 0

La siguiente tabla (tabla 8.8) muestra un resúmen del nuevo dataset despues de eliminar los valores átipicos

**Tabla 8.8: Dataset sin outliers**
	estrato	preciom	areaconst	banios	habitaciones
2	2	0.074528320	0.49499217	2	3
4	2	-0.062182156	-0.13179847	2	3
22	2	-1.087510730	-0.75858912	2	3
26	2	-0.335603109	0.28606195	2	3
30	2	0.006173082	0.02489919	2	3
35	3	1.099856894	1.59187579	2	3

Las nuevas dimensiones del dataset son (514, 5) donde el primero representa el número de registros y el segundo el número de columnas

Despues de evaluar y calcular se obtuvo el siguiente modelo con los resultados que se muestran a continuación:

## 
## Call:
## lm(formula = preciom ~ estrato + areaconst + banios + habitaciones, 
##     data = dataset_final_sin_outliers2)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.30681 -0.22053 -0.00931  0.21786  1.59376 
## 
## Coefficients: (2 not defined because of singularities)
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -0.64729    0.07915  -8.178  2.3e-15 ***
## estrato       0.28287    0.03289   8.601  < 2e-16 ***
## areaconst     0.89120    0.02603  34.238  < 2e-16 ***
## banios             NA         NA      NA       NA    
## habitaciones       NA         NA      NA       NA    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.3533 on 511 degrees of freedom
## Multiple R-squared:  0.7736, Adjusted R-squared:  0.7728 
## F-statistic: 873.3 on 2 and 511 DF,  p-value: < 2.2e-16

Donde la nueva ecuación que describe el modelo es: \[ \boldsymbol{\text{preciom} = 0.282\cdot \text{estrato} + 0.891\cdot \text{areaconst} + 0.0\cdot \text{banios} + 0.0\cdot \text{habitaciones} - 0.647 + \epsilon} \]

Despues de calcular el nuevo modelo ser procedió a evaluar los supuestos del modelo, obteniendo los siguientes resultados:

La siguiente tabla representa los resultados de la prueba de normalidad de Shapiro-Wilk

## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(modelo_sin_outliers2)
## W = 0.98949, p-value = 0.0009694

La siguiente tabla representa los resultados de la prueba de normalidad de Durbin-Watson

La siguiente tabla representa los resultados de la prueba de normalidad de Breusch-Pagan

## Non-constant Variance Score Test 
## Variance formula: ~ fitted.values 
## Chisquare = 50.03371, Df = 1, p = 1.5113e-12

Diagnóstico puntos influyente para el modelo sin outliers: Distancia de cook

La siguiente tabla (tabla 9.9) muestra un resúmen de los primeros 10 puntos influyentes en el modelo, adicional muestra gráficamente cada uno de ellos:

**Tabla 9.9: Puntos influyentes**
x
27
31
33
51
89
110
177
181
214
228

Visualización de la distancia de Cook para validación de puntos influyentes (grafica 10.10):

Adicional la siguiente tabla (tabla 11.11) muestra visualmente cada uno de los puntos influyentes y el nivel de influencia de cada uno ellos representados, donde a mayor támaño de punto mayor disntancia de Cook:

##       StudRes         Hat      CookD
## 278 -3.800646 0.028019964 0.13524612
## 299 -2.068624 0.032962344 0.04831018
## 876  4.607907 0.003751778 0.02563845

De las anteriores gráfica se evidencia que existen 26 puntos influyentes y que el punto con mayor distancia de Cool es 278

Teniendo presente todo lo anterior se procedió a calcular y evaluar un vuevo modelo retirando y eliminando los puntos influyentes, obteniendo los siguiente resultados.

## 
## Call:
## lm(formula = preciom ~ estrato + areaconst + banios + habitaciones, 
##     data = data_clean22)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.27074 -0.21782 -0.01275  0.21582  1.63041 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -0.88286    0.12322  -7.165 1.61e-12 ***
## estrato       0.32898    0.02502  13.150  < 2e-16 ***
## areaconst     0.87705    0.02186  40.117  < 2e-16 ***
## banios        0.12190    0.03400   3.585 0.000355 ***
## habitaciones -0.04485    0.02877  -1.559 0.119340    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.3627 on 908 degrees of freedom
## Multiple R-squared:  0.8532, Adjusted R-squared:  0.8526 
## F-statistic:  1320 on 4 and 908 DF,  p-value: < 2.2e-16

Donde la nueva ecuación que describe el modelo es: \[ \boldsymbol{\text{preciom} = 0.328\cdot \text{estrato} + 0.877\cdot \text{areaconst} + 0.121\cdot \text{banios} - 0.044\cdot \text{habitaciones} - 0.882 + \epsilon} \]

Despues de calcular el nuevo modelo se procedió a evaluar los supuestos del modelo, obteniendo los siguientes resultados:

La siguiente tabla representa los resultados de la prueba de normalidad de Shapiro-Wilk

## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(model_clean22)
## W = 0.99088, p-value = 1.953e-05

La siguiente tabla representa los resultados de la prueba de normalidad de Durbin-Watson

## 
##  Durbin-Watson test
## 
## data:  model_clean22
## DW = 1.7361, p-value = 2.949e-05
## alternative hypothesis: true autocorrelation is greater than 0

La siguiente tabla representa los resultados de la prueba de normalidad de Breusch-Pagan

## Non-constant Variance Score Test 
## Variance formula: ~ fitted.values 
## Chisquare = 100.2621, Df = 1, p = < 2.22e-16

Modelo original con transformación Box-Cox

La siguiente gráfica representa el comportamiento de la variable lambda la cual será usada para aplicar la transformación Box-Cox:

Etapa 5: Resultados de la modelación

A continuación se muestran los 4 modelos de regresión lineal calculados y construídos y sus respectivos errores cuadrados:

Modelo 1: Modelo original sin transformación, este modelo NO cumplió con los supuestos de los residuales y su error cuadrático fue de 0.781 \[ \boldsymbol{\text{preciom} = 0.408\cdot \text{estrato} + 0.663\cdot \text{areaconst} + 0.184\cdot \text{banios} + 0.022\cdot \text{habitaciones} -1.414 + \epsilon} \]
Modelo 2: Modelo original sin transformación eliminando puntos influyentes, este modelo NO cumplió con los supuestos de los residuales pero si el supuesto de normalidad y su error cuadrático fue de 0.866 \[ \boldsymbol{\text{preciom} = 0.306\cdot \text{estrato} + 0.866\cdot \text{areaconst} + 0.137\cdot \text{banios} - 0.026\cdot \text{habitaciones} -0.924 + \epsilon} \]
Modelo 3: Modelo original eliminando los outliers, este modelo NO cumplió con los supuestos de los residuales y su error cuadrático fue de 0.773 \[ \boldsymbol{\text{preciom} = 0.282\cdot \text{estrato} + 0.891\cdot \text{areaconst} + 0.0\cdot \text{banios} - 0.0\cdot \text{habitaciones} - 0.647 + \epsilon} \]
Modelo 4: Modelo original eliminando los outliers y puntos influyentes, este modelo NO cumplió con los supuestos de los residuales y su error cuadrático fue de 0.853 \[ \boldsymbol{\text{preciom} = 0.328\cdot \text{estrato} + 0.877\cdot \text{areaconst} + 0.121\cdot \text{banios} - 0.044\cdot \text{habitaciones} - 0.882 + \epsilon} \]

Etapa 6: Recomendaciones

Despúes de hacer el análisis y explorar los datos se evidencia que no no hay ofertas de apartamentos en la zona sur con las carácterísticas exactas solicitadas, no hay apartamentos que cumplan plenamente la los requerimientos, se procede a compartir las siguientes ofertas que se ajustan a su tipo de vivienda, el número de habitaciones, zona de la ciudad y están dentro del presupuesto. Las características de las mismas están consolidadas en la siguiente tabla (tabla 12.12), estás son las mejores ofertas de apartamentos y están ordenadas en orden ascendente de menor a mayor precio, la selección se hizo al estimar el precio de los apartamentos utilizando el mejor modelo de regresión linean filtrando aquellos apartamentos cuyos precios fueron menores a los valores de las predicciónes garantizando con ello las mejores ofertas:

**Tabla 12.12: Mejores ofertas de apartamentos en la Zona Sur**
	estrato	preciom	areaconst	banios	habitaciones
1935	3	155	150	2	6
1952	4	390	300	5	6
8269	4	575	410	4	6
6669	5	670	300	5	6

El siguiente mapa muestra la ubicación geográfica de cada apartamento:

Actividad 2: Oferta mejores viviendas para compra en la Ciudad de Santiago de Cali

Javier Pinto

2025-03-03

Caso de estudio

Desarrollo del informe

Vivienda 1: Casa en zona Norte

Etapa 1: Conocimiento de las ofertas de viviendas

Etapa 2: Análisis exploratorio y de correlación

Etapa 3: Preparación de los datos

Etapa 4: Estimación de los modelos

Estimación mediante el método de mínimos cuadrados (MCO)

Evaluación de los supuestos de los residuales del modelo

Estimación modelo eliminando Outliers

Modelo original con transformación Box-Cox

Etapa 5: Resultados de la modelación

Etapa 6: Recomendaciones

Vivienda 2: Apartamento en zona sur

Etapa 1: Conocimiento de las ofertas de viviendas

Etapa 2: Análisis exploratorio y de correlación

Etapa 3: Preparación de los datos

Etapa 4: Estimación de los modelos

Estimación mediante el método de mínimos cuadrados (MCO)

Evaluación de los supuestos de los residuales del modelo

Estimación modelo eliminando Outliers

Modelo original con transformación Box-Cox

Etapa 5: Resultados de la modelación

Etapa 6: Recomendaciones