Modelo de Regresión Lineal Múltiple

1. CARGUE DE LIBRERIAS Y CONJUNTO DE DATOS

1.1. Descripción General.

El conjunto de datos original corresponde a un data.frame que contiene 8322 registros correspondientes a propiedades inmobiliarias de la ciudad de Cali, y 13 variables con información detallada de cada uno de estos registros, los cuales se describen a continuación:

## [1] "spec_tbl_df" "tbl_df"      "tbl"         "data.frame"

1.2. Descripción de variables y estadísticas descriptivas.

Los datos originales presentan la siguiente información preliminar, la cual supone, en principio, la necesidad de realizar limpieza y transformación de los datos.

Data summary
Name	vivienda
Number of rows	8322
Number of columns	13
_______________________
Column type frequency:
character	4
numeric	9
________________________
Group variables	None

Variable type: character

skim_variable	n_missing	complete_rate	min	max	n_unique
zona	3	1.00	8	12	5
piso	2638	0.68	2	2	12
tipo	3	1.00	4	11	2
barrio	3	1.00	4	29	436

Variable type: numeric

skim_variable	n_missing	complete_rate	mean	sd	p0	p25	p50	p75	p100	hist
id	3	1.00	4160.00	2401.63	1.00	2080.50	4160.00	6239.50	8319.00	▇▇▇▇▇
estrato	3	1.00	4.63	1.03	3.00	4.00	5.00	5.00	6.00	▅▆▁▇▆
preciom	2	1.00	433.89	328.65	58.00	220.00	330.00	540.00	1999.00	▇▂▁▁▁
areaconst	3	1.00	174.93	142.96	30.00	80.00	123.00	229.00	1745.00	▇▁▁▁▁
parqueaderos	1605	0.81	1.84	1.12	1.00	1.00	2.00	2.00	10.00	▇▁▁▁▁
banios	3	1.00	3.11	1.43	0.00	2.00	3.00	4.00	10.00	▇▇▃▁▁
habitaciones	3	1.00	3.61	1.46	0.00	3.00	3.00	4.00	10.00	▂▇▂▁▁
longitud	3	1.00	-76.53	0.02	-76.59	-76.54	-76.53	-76.52	-76.46	▁▅▇▂▁
latitud	3	1.00	3.42	0.04	3.33	3.38	3.42	3.45	3.50	▃▇▅▇▅

Con esta información preliminar podemos determinar lo siguiente:

Las variables categóricas ‘zona’, ‘tipo’ y ‘barrio’ tienen valores únicos.
La variable ‘estrato’ a pesar de ser reconocida por el software R como una variable numérica, en realidad en este caso corresponde a una variable categórica ordinal por lo cual debe ser convertida a factor.
La variable ‘piso’ tiene el 32% de valores faltantes que deben ser tratados.
La mayoría de las variables numéricas no contienen valores faltantes importantes, excepto ‘parqueaderos’, que tiene un 81% de datos completos.
Las variables continuas ‘preciom’, y ‘áreaconst’ muestran una distribución variada con algunos valores extremos.
La mayoría de las variables numéricas tienen una concentración en valores específicos, como ‘parqueaderos’, ‘banios’ y ‘habitaciones’.
Las variables ‘longitud’ y ‘latitud’ tienen poca variabilidad, lo cual es esperado ya que representan coordenadas geográficas de una concentración urbana específica.

1.3. Estructura nativa de los datos originales.

Con una consulta de los primeros veinte registros del data.frame ‘vivienda’ podemos tener una mejor visión preliminar del conjunto de datos con el que trabajaremos:

Primeras 20 filas de los datos de vivienda
id	zona	piso	estrato	preciom	areaconst	parqueaderos	banios	habitaciones	tipo	barrio	longitud	latitud
1147	Zona Oriente	NA	3	250	70	1	3	6	Casa	20 de julio	-76.51168	3.43382
1169	Zona Oriente	NA	3	320	120	1	2	3	Casa	20 de julio	-76.51237	3.43369
1350	Zona Oriente	NA	3	350	220	2	2	4	Casa	20 de julio	-76.51537	3.43566
5992	Zona Sur	02	4	400	280	3	5	3	Casa	3 de julio	-76.54000	3.43500
1212	Zona Norte	01	5	260	90	1	2	3	Apartamento	acopi	-76.51350	3.45891
1724	Zona Norte	01	5	240	87	1	3	3	Apartamento	acopi	-76.51700	3.36971
2326	Zona Norte	01	4	220	52	2	2	3	Apartamento	acopi	-76.51974	3.42627
4386	Zona Norte	01	5	310	137	2	3	4	Apartamento	acopi	-76.53105	3.38296
1209	Zona Norte	02	5	320	150	2	4	6	Casa	acopi	-76.51341	3.47968
1592	Zona Norte	02	5	780	380	2	3	3	Casa	acopi	-76.51674	3.48721
4057	Zona Norte	02	6	750	445	NA	7	6	Casa	acopi	-76.52950	3.38527
4460	Zona Norte	02	4	625	355	3	5	5	Casa	acopi	-76.53179	3.40590
6081	Zona Norte	02	5	750	237	2	6	6	Casa	acopi	-76.54044	3.36862
7497	Zona Norte	02	6	520	98	2	2	2	Apartamento	acopi	-76.54999	3.43505
7824	Zona Norte	02	4	600	160	1	4	5	Casa	acopi	-76.55210	3.42125
7987	Zona Norte	02	5	420	200	4	4	5	Casa	acopi	-76.55363	3.40050
3495	Zona Norte	03	5	490	118	2	4	4	Casa	acopi	-76.52680	3.37823
5424	Zona Norte	03	4	320	108	2	3	3	Apartamento	acopi	-76.53638	3.40770
6271	Zona Norte	03	5	385	103	2	2	3	Apartamento	acopi	-76.54173	3.42400
6857	Zona Norte	03	3	100	49	NA	1	2	Apartamento	acopi	-76.54531	3.37775

2. LIMPIEZA DE LOS DATOS

Antes de realizar el modelo de regresión propiamente dicho, procederemos a revisar la integridad de nuestros datos mediante la determinación de duplicados, datos faltantes, información inconsistente o tipos de datos que no correspondan a la naturaleza de la variable. Estas tareas nos obligan a realizar actividades de eliminación, adición o transformación de los datos con el objeto de preparar el conjunto de datos para el modelado.

2.1. Registros Duplicados

El conjunto de datos no contiene registros duplicados. Al aplicar la función para determinarlos solo arroja una columna con todos los valores NA. Esto sugiere que el conjunto de datos contiene dos columnas con todos los valores NA. Estos registros serán eliminado en su totalidad del conjunto de datos ya que no supone perdida de información y pueden generar problemas al ajustar los modelos.

2.2. Datos Faltantes.

Para corregir el problema de los datos faltantes se procedió de la siguiente forma:

Los 3 registros que tienen entre 12 y 13 variables faltantes se eliminan del conjunto de datos ya que no es posible utilizar una estrategia para imputarlos.
Los 726 registros que tienen 2 variables faltantes se eliminan del conjunto de datos ya que el imputar dos variables en estos registros puede dar resultados no tan acertados en el análisis.
Los registros correspondientes a la variable ‘parqueaderos’ se imputan con 0 (cero) dado que se supone que estos inmuebles no cuentan con esta locación. Los registros correspondientes a la variable ‘piso’ son imputados con la moda de cada zona. Esto permite imputar de mejor forma ya que cada zona tiene sus características de densidad urbana propia, esto permite minimizar los errores de imputación.

2.3. Cambio de Tipo de Datos

Se cambia el tipo de datos de chr a factor de las variables ‘zona’, ‘tipo’ y ‘barrio’. Estas variables claramente corresponden a variables categóricas que deben ser transformadas para facilitar el análisis.

Por otra parte la variable ‘piso’ puede ser convertida de tipo ‘chr’ a ‘int’ dado que en realidad corresponde a un numero entero que por alguna razón esta mal formateado en el conjunto de datos original, por lo que duplica categorías que en realidad deben ser una sola, por ejemplo 01 y 1. Con este enfoque quedan correctamente etiquetada las categorías de esta variable.

3. DELIMITACIÓN DEL PROBLEMA

Ajustar un modelo de regresión múltiple y generar un informe ejecutivo donde analicen los dos casos, se generen predicciones de oferta que llenen los requerimientos y se daran recomendaciones para la utilización y eventual mejora del modelo. En este ejercicio prodederemos a analizar únicamente el primer caso planteado (Vivienda 1).

Características	Vivienda 1	Vivienda 2
Tipo	Casa	Apartamento
Área construida	200	300
Parqueaderos	1	3
Baños	2	3
Habitaciones	4	5
Estrato	4 o 5	5 o 6
Zona	Norte	Sur
Crédito preaprobado	350 millones	850 millones

3.1. Consideraciones Inciales.

3.1.1. Mapa de Zonas Geográficas de la Ciudad de Cali.

En el ejercicio, se definieron seis (6) zonas geográficas, donde se tuvieron en cuenta los siguientes criterios o aspectos para las zonas Norte y Sur de la ciudad:

Zona Norte: Para su definición, se tuvieron en cuenta aspectos como los sectores de las calles y carreras norte establecidos en la guía para la nomenclatura urbana de Santiago de Cali, pero también aquellos barrios y sectores que la comunidad reconoce como norte de la ciudad. Esta zona comprende el territorio que va desde la KR 1 entre la CL 1 OESTE hasta el separador vial ubicado entre las CL 25 y CL 26, vía por la cual se continúa hasta la KR 7, y desde este punto, siguiendo el trazado del corredor férreo hasta llegar a la CL 88, a partir de la cual, se continua hacia el norte por el límite del suelo urbano hasta finalizar en el punto de inicio en la KR 1.

Zona Sur: Esta zona comprende el territorio que va desde la KR 50 con la CL 57 hasta la CL 5, vía por la cual se continúa hacia el sur de la ciudad hasta el Río Meléndez, siguiendo su cauce aguas arriba hasta el cruce con el límite del suelo urbano, por el que se continua hacia el sur de la ciudad hasta la KR 127 y por esta vía hasta la CL 18, punto en el cual se sigue el trazado (hacia el sur) del límite del suelo de expansión urbano hasta llegar al punto de inicio en la KR 50.

Fuente: https://www.cali.gov.co/planeacion/publicaciones/169423/zonas_geograficas_idesc/ Fecha de publicación 14/06/2022 Última modificación 10/10/2024

# Usando knitr para incluir la imagen PDF
knitr::include_graphics("D:/Maestria/Metodos estadisticos/Actividad2/Mapa_Cali.png")

Mapa Geográfico de la Ciudad de Cali

3.1.2. Filtro de Base 1 (Vivienda 1).

Este corresponde a las viviendas tipo ‘casa’ ubicadas en la Zona Norte de la Ciudad de Cali. A continuación observamos un head() de los tres primeros registros del sub-conjunto de datos resultante.

id	zona	piso	estrato	preciom	areaconst	parqueaderos	banios	habitaciones	tipo	barrio	longitud	latitud
1209	Zona Norte	2	5	320	150	2	4	6	Casa	acopi	-76.51341	3.47968
1592	Zona Norte	2	5	780	380	2	3	3	Casa	acopi	-76.51674	3.48721
4057	Zona Norte	2	6	750	445	0	7	6	Casa	acopi	-76.52950	3.38527

Haciendo la suma correspondiente de los registros del sub-conjunto obtuvimos el siguiente resultado:

zona	tipo	count
Zona Norte	Casa	722

3.1.3. Ubicacion de los individuos Base 1 (Vivienda 1).

Esta ubicaciónes corresponde a las registradas en los datos originales, mapeados por sus correspondientes coordenadas geográficas (latitud y longitud)

Ubicación de los individuos Base 1

En el Mapa observamos que muchas de las casas que se encuentran clasificadas como ubicadas en el Norte de la Ciudad en realidad están localizadas en otras zonas, al menos teniendo en cuenta las coordenadas geográficas referenciadas en cada registro. Esto puede corresponder a errores al momento de clasificar la zona de cada casa o bien errores en las coordenadas geográficas.

Por lo anterior, ante la ausencia de un juicio experto o el acceso al propietario del conjunto de datos para efectuar la corrección o aclaración se efectuó una re-clasificación de la zona teniendo en cuenta las coordenadas geográficas suministradas en el conjunto de datos y la información cartográfica de la alcaldía de Cali sobre las delimitaciones de las zonas de la ciudad conforme al criterio definido en el numeral 3.1.1. Mapa de Zonas Geográficas de la Ciudad de Cali.

De esta forma, tomando como base las coordenadas geográficas, se excluyeron los puntos que no se ubican en la Zona Norte del mapa e igualmente se registran nuevos puntos cuyas coordenadas se encuentran referenciadas en otras otras zonas, pero cuyas coordenadas corresponden a la Zona Norte.

Para efecto de transparencia anexamos el código correspondiente empleado en dicha re-clasificación:

asignar_zona <- function(latitud, longitud) {

  if (is.na(latitud) | is.na(longitud)) {
    return(NA) 
  }
  

  if (latitud >= 3.45359 & latitud <= 3.49400 & longitud >= -76.54294 & longitud <= -76.10700) {
    return("Zona Norte")
  } else if (latitud >= 3.21314 & latitud < 3.40800 & longitud >= -76.56525 & longitud < -76.40500) {
    return("Zona Sur")
  } else {
    return("Zona Desconocida") 
  }
}


vivienda$zona_corregida <- mapply(asignar_zona, vivienda$latitud, vivienda$longitud)


kable(head(vivienda))

id	zona	piso	estrato	preciom	areaconst	parqueaderos	banios	habitaciones	tipo	barrio	longitud	latitud	zona_corregida
1147	Zona Oriente	1	3	250	70	1	3	6	Casa	20 de julio	-76.51168	3.43382	Zona Desconocida
1169	Zona Oriente	1	3	320	120	1	2	3	Casa	20 de julio	-76.51237	3.43369	Zona Desconocida
1350	Zona Oriente	1	3	350	220	2	2	4	Casa	20 de julio	-76.51537	3.43566	Zona Desconocida
5992	Zona Sur	2	4	400	280	3	5	3	Casa	3 de julio	-76.54000	3.43500	Zona Desconocida
1212	Zona Norte	1	5	260	90	1	2	3	Apartamento	acopi	-76.51350	3.45891	Zona Norte
1724	Zona Norte	1	5	240	87	1	3	3	Apartamento	acopi	-76.51700	3.36971	Zona Sur

datos_corregidos_base1 <- vivienda %>%
  filter(zona_corregida == "Zona Norte" & tipo == "Casa")


kable(head(datos_corregidos_base1, 3))

id	zona	piso	estrato	preciom	areaconst	parqueaderos	banios	habitaciones	tipo	barrio	longitud	latitud	zona_corregida
1209	Zona Norte	2	5	320	150	2	4	6	Casa	acopi	-76.51341	3.47968	Zona Norte
1592	Zona Norte	2	5	780	380	2	3	3	Casa	acopi	-76.51674	3.48721	Zona Norte
504	Zona Norte	2	3	180	120	0	3	3	Casa	acopi	-76.49768	3.47060	Zona Norte

Ubicación de los individuos Base 1 - Reclasificados

Una vez efectuada la nueva clasificación se notó una leve disminución de los registros que serán utilizados para ajustar el modelo:

zona_corregida	tipo	count
Zona Norte	Casa	611

4. ÁNALISIS EXPLORATORIO DE DATOS

4.1. Matriz de Correlaciones:

En la matriz de correlaciones, efectuada con las variables numéricas y utilizando el Coeficiente de Correlación de Pearson notamos que la variable que mas correlación tiene con la variable ‘preciom’ es ‘areaconst’ con un coeficiente de 0.74, seguido por la variable ‘banios’ con un coeficiente de 0.52. Las otras dos variables tienen coeficientes menores de 0.50 tal y como se puedo apreciar en la matriz.

Las cuatro variables analizadas tienen correlaciones positivas con la que seria nuestra variable objeto ‘preciom’. Es decir estas aumentan y disminuyen en la misma dirección.

4.2. Analisis Bivariado

Para el análisis bivariado se utilizaron box-plots incluso para las variables numéricas ya que por ser valores discretos, con estos gráficos se facilita el análisis teniendo una mejor visión de la distribución y la respectiva variable.

El análisis gráfico se realiza con el sub-conjunto de datos limpiado y transformado, es decir con la variable ‘zona’ reclasificada y consistente con las coordenadas registradas, así como filtrado por tipo ‘casa’ y zona ‘Norte’.

4.2.1. Zona Vs Precio.

Observamos una media de 427 y una mediana de 365. Evidentemente, la media se ve influenciada por valores atípicos presentes en el conjunto de datos y una distribución sesgada a la derecha. Los valores atípicos se encuentran muy alejados de la media por lo cual su afectación en el modelo de regresión puede ser fuerte y por ende afectar la precisión del modelo. En este caso el estadistico mas confiable para tener una idea de la tendencia central de la variable es la mediana.

4.2.2. Area Construida Vs Precio.

En el diagrama de dispersión notamos la presencia de valores atípicos así como una correlación claramente positiva entre ambas variables. Se destaca la presencia de 4 valores atípicos bastante extremos que se alejan claramente de esta relación de correlación en los datos. Esto último debe ser tratado adecuadamente para efecto de lograr un mejor ajuste del modelo.

4.2.3. Estrato Vs Precio.

Existe un relación positiva clara entre estas dos variables, es decir a mayor estrato socio-económico es mayor la media del precio de los inmuebles en esta zona de la ciudad. Tambien se observan valores atípicos en los estratos 3, 4 y 5, concretamente en los valores superiores que exceden el limite superior del rango intercuartilico de cada categoría.

4.2.4. Parqueaderos Vs Precio.

Se observan valores atípicos sobre el limite superior en el precio de los inmuebles que tienen entre 0 y 5 parqueaderos. Estas variables muestra una relación lineal positiva, salvo una leve discrepancia entre los inmuebles que tienen entre 4 y 5 parqueaderos, donde se nota que esta relación lineal se pierde al ubicarse la media de los inmuebles con 5 parqueaderos por debajo de los inmuebles que tienen 4 parqueaderos.

4.2.5. Baños Vs Precio.

Se observa una relación lineal positiva entre los inmuebles que tienen entre 1 y 7 baños, sin embargo está relación no es perfecta para los inmuebles sin baños o que bien tienen un numero de baños superior a este rango de valores. Los valores atípicos se ubican en el limite superior de los inmuebles que tienen entre 2 y 6 unidades sanitarias.

4.2.6. Habitaciones Vs Precio.

Las medias de los precios de los inmuebles por número de habitaciones presentan discrepancias que están lejos de lo que podría indicar la intuición ya que estas no siguen un patrón ascendente claro y varían entre el rango de 0 a 10 habitaciones. Esto explicaría porque el coeficiente de correlación de Pearson es menor para esta característica que las del resto de variables analizadas.

Al realizar el análisis exploratorio bivariado entre la variable respuesta y las variables predictoras que serán consideradas para hacer el ajuste del modelo, se determinó que era conveniente retirar los 4 valores atípicos mas extremos de la variable ‘areaconst’ por considerarlos inverosímiles y por su gran afectación en el modelo. En el siguiente grafico observamos que eliminando estos valores obtenemos una tendencia mas limpia que sin duda repercutirá en un mejor ajuste general.

Tambien se determinó la necesidad de eliminar los registros que presentaban 0 ‘banios’ y 0 ‘habitaciones’ por ser considerados inverosímiles. Estos valores si bien pueden ser imputados en otros casos requieren información adicional de la que no disponemos. En consecuencia el ajuste se efectúa con la información mas creíble que garantice la confiabilidad de la regresión. Efectuados estos cambios se actualizó el dataset que en definitiva quedo de la siguiente forma:

id	zona	piso	estrato	preciom	areaconst	parqueaderos	banios	habitaciones	tipo	barrio	longitud	latitud	zona_corregida
1209	Zona Norte	2	5	320	150	2	4	6	Casa	acopi	-76.51341	3.47968	Zona Norte
1592	Zona Norte	2	5	780	380	2	3	3	Casa	acopi	-76.51674	3.48721	Zona Norte
504	Zona Norte	2	3	180	120	0	3	3	Casa	acopi	-76.49768	3.47060	Zona Norte
604	Zona Norte	2	5	520	455	0	5	4	Casa	acopi	-76.49966	3.46284	Zona Norte
1003	Zona Norte	2	3	380	300	0	5	8	Casa	acopi	-76.50743	3.46566	Zona Norte
1840	Zona Norte	2	5	395	165	0	4	4	Casa	acopi	-76.51797	3.47651	Zona Norte

En este orden de ideas, contamos con 586 observaciones que fueron utilizadas para el ajuste del modelo de regresión múltiple.

zona_corregida	tipo	count
Zona Norte	Casa	586

5. MÓDELO DE REGRESIÓN MULTIPLE

5.1. Ajuste del Módelo

Ajustado el modelo utilizando la función base lm() de R, obtuvimos lo siguientes resultados:

## 
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos + 
##     banios, data = datos_corregidos_base1)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -436.75  -64.23  -13.00   39.47 1084.41 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   53.57106   18.07495   2.964  0.00316 ** 
## areaconst      0.96187    0.06058  15.877  < 2e-16 ***
## estrato4      52.81396   16.81943   3.140  0.00178 ** 
## estrato5      82.68634   16.33169   5.063 5.56e-07 ***
## estrato6     319.56318   29.35034  10.888  < 2e-16 ***
## habitaciones  -5.07806    4.59443  -1.105  0.26951    
## parqueaderos  20.16948    4.09841   4.921 1.12e-06 ***
## banios        16.49405    5.92366   2.784  0.00554 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 134.8 on 578 degrees of freedom
## Multiple R-squared:  0.6925, Adjusted R-squared:  0.6888 
## F-statistic:   186 on 7 and 578 DF,  p-value: < 2.2e-16

5.2. Ánalisis del Modelo.

5.2.1. Residuales.

Los valores indican que hay una distribución asimétrica de los residuos, con algunos valores extremos tanto negativos como positivos.

Resumen de los Residuos del Modelo de Regresión
	Estadística	Valor
Min.	Min	-436.74647
1st Qu.	1Q	-64.22916
Median	Median	-13.00195
Mean	3Q	0.00000
3rd Qu.	Max	39.46958

5.2.2. Coeficientes.

Intercepto 53.57: Es el valor de preciom cuando todas las variables independientes son 0. Es decir, cuando no hay área, estrato, habitaciones, parqueaderos ni baños, el precio inicial sería 53.57.
areaconst 0.96: Por cada unidad adicional en areaconst, el precio de preciom aumenta en 0.96 unidades, manteniendo constantes las demás variables.
estrato4 52.81: Si un inmueble está en el estrato 4, el precio aumenta en 52.81 unidades.
estrato5 82.69: Un inmueble en el estrato 5 tiene un aumento de 82.69 unidades en el precio, comparado con el estrato base.
estrato6 319.56: Un inmueble en el estrato 6 tiene un aumento de 319.56 unidades en el precio en comparación con el estrato base.
habitaciones -5.08: Cada habitación adicional reduce el precio en 5.08 unidades.
parqueaderos 20.17: Cada parqueadero adicional aumenta el precio en 20.17 unidades.
baños 16.49: Cada baño adicional aumenta el precio en 16.49 unidades y es significativo (p = 0.00554).

Como conclusión se puede determinar que areaconst, estrato4, estrato5, estrato6, parqueaderos, y baños son variables significativas. habitaciones, por su parte, no es significativa, tal y como se había anticipado en el análisis exploratorio de los datos. Esto sugiere que esta característica no tiene un impacto relevante en el precio.

Resumen de los Coeficientes del Modelo de Regresión Lineal
	Coeficiente	Estimación	Error_Estandar	t_value	Pr_t_value
(Intercept)	(Intercept)	53.571062	18.0749548	2.963828	0.0031635
areaconst	areaconst	0.961867	0.0605808	15.877417	0.0000000
estrato4	estrato4	52.813961	16.8194349	3.140056	0.0017754
estrato5	estrato5	82.686339	16.3316939	5.062937	0.0000006
estrato6	estrato6	319.563183	29.3503399	10.887887	0.0000000
habitaciones	habitaciones	-5.078055	4.5944283	-1.105264	0.2695051
parqueaderos	parqueaderos	20.169483	4.0984150	4.921289	0.0000011
banios	banios	16.494053	5.9236637	2.784434	0.0055378

          Coeficiente Estimación Error_Estandar   t_value   Pr_t_value

(Intercept) (Intercept) 53.571062 18.07495478 2.963828 3.163534e-03 areaconst areaconst 0.961867 0.06058083 15.877417 2.225773e-47 estrato4 estrato4 52.813961 16.81943492 3.140056 1.775415e-03 estrato5 estrato5 82.686339 16.33169393 5.062937 5.558559e-07 estrato6 estrato6 319.563183 29.35033988 10.887887 3.064641e-25 habitaciones habitaciones -5.078055 4.59442825 -1.105264 2.695051e-01 parqueaderos parqueaderos 20.169484 4.09841497 4.921289 1.122920e-06 banios banios 16.494053 5.92366371 2.784434 5.537754e-03

5.2.3. Metricas de Evaluación.

El R-cuadrado de 0.6925 indica que el modelo explica el 69.25% de la variabilidad en el precio de los inmuebles, lo que en nuestro caso es considerado un buen ajuste en general, aunque susceptible de mejoras.
El R-cuadrado ajustado de 0.6888 indica que con el ajuste del R-cuadrado por el número de variables en el modelo, estas variables extras añadidas no están sobreajustando el modelo.
El F-estadístico de 186 con p-valor < 2.2e-16 indica que el modelo completo es altamente significativo y que al menos una de las variables independientes tiene un efecto sobre la variable dependiente.

Estadísticas Adicionales del Modelo de Regresión
Estadística	Valor
Residual standard error	134.8
Multiple R-squared	0.6925
Adjusted R-squared	0.6888
F-statistic	186
p-value (F-statistic)	< 2.2e-16

5.3. Validación de los supuestos del módelo.

5.3.1. Linealidad

5.3.2. Independencia de los residuos.

## 
##  Durbin-Watson test
## 
## data:  modelo_base1
## DW = 1.9184, p-value = 0.1431
## alternative hypothesis: true autocorrelation is greater than 0

A un nivel de significancia de 0.05, en vista de que el valor p de la prueba es 0.1431, no hay evidencia suficiente para rechazar la hipótesis nula de que no hay autocorrelación significativa en los residuos.

EL MODELO CUMPLE CON ESTE SUPUESTO.

5.3.3. Homocedasticidad.

## 
##  studentized Breusch-Pagan test
## 
## data:  modelo_base1
## BP = 73.763, df = 7, p-value = 2.557e-13

A un nievl de significacia del 0.05, dado que el valor de la prueba es 2.557e-13 es decir extremadamente pequeño, rechazamos la hipótesis nula de que no hay heterocedasticidad. Esto sugiere que hay evidencia significativa de heterocedasticidad en los residuos del modelo.

EL MODELO NO CUMPLE CON EL SUPUESTO.

5.3.4. Normalidad.

## 
##  Shapiro-Wilk normality test
## 
## data:  modelo_base1$residuals
## W = 0.83549, p-value < 2.2e-16

EL valor p de la prueba es extremadamente menor que 0.05, por lo tanto rechazamos la hipótesis nula de que los residuos siguen una distribución normal. Esto sugiere que los residuos no siguen una distribución normal. EL SUPUESTO DE NORMALIDAD DE LOS RESIDUOS NO SE CUMPLE.

5.3.5. No Multicolinealidad

	GVIF	Df	GVIF^(1/(2*Df))
areaconst	1.967071	1	1.402523
estrato	1.829946	3	1.105961
habitaciones	1.845424	1	1.358464
parqueaderos	1.340571	1	1.157830
banios	2.285032	1	1.511632

Todos los GVIF y sus valores transformados están cercanos a 1, lo que indica que no hay colinealidad grave entre las variables.

5.3.6. Recomendaciones.

Tal y como se anticipaba en el análisis exploratorio, se hace necesario evaluar tanto la pertinencia de las variables como la calidad de los datos, esto en el sentido de garantizar no solo que se cumplan los supuestos, sino que el modelo sea capaz de generalizar y sea confiable para hacer predicciones. La data suministrada presenta información inverosímil que puede dificultar el correcto ajuste de algun modelo de regresión para este caso. Posiblemente sea necesario realizar una revisión exhaustiva del proceso de recolección de la información, agregar nuevas características al conjunto de datos que sean mas pertinentes para hacer predicciones del precio de venta de los inmuebles en la ciudad de Cali, asi como plantear la necesidad de abordar el problema mediante el uso de técnicas mas avanzadas y robustas.

5.4. Predicciones del Modelo

5.4.1. Predicción de precio con caracteristicas Base 1

Ya con el modelo listo procedemos a efectuar la predicción del precio usando como datos de entrada las condiciones que exije el cliente del crédito preaprobado, dando los siguientes resultados:

Para una casa estrato 4:

##        1 
## 331.6038

Para una Casa estrato 5:

##        1 
## 361.4762

id	piso	estrato	preciom	areaconst	parqueaderos	banios	habitaciones	tipo	barrio	longitud	latitud	zona_corregida
109	1	4	350	126	0	3	3	Casa	alfonso lópez	-76.48383	3.45853	Zona Norte
3779	3	4	350	98	2	3	4	Casa	chipichape	-76.52840	3.48154	Zona Norte
4210	1	5	350	200	3	3	4	Casa	el bosque	-76.53010	3.48503	Zona Norte
4209	2	5	350	300	3	5	6	Casa	el bosque	-76.53010	3.48577	Zona Norte
4422	2	5	350	240	2	3	6	Casa	el bosque	-76.53136	3.48635	Zona Norte
1270	2	5	350	203	2	2	5	Casa	el bosque	-76.51448	3.48531	Zona Norte
819	2	5	350	264	2	3	4	Casa	la flora	-76.50330	3.46412	Zona Norte
3060	2	5	350	110	1	4	3	Casa	la flora	-76.52353	3.48157	Zona Norte
459	2	5	350	160	2	3	3	Casa	la flora	-76.49632	3.46661	Zona Norte
1176	2	5	350	158	0	4	3	Casa	la flora	-76.51273	3.48960	Zona Norte
1352	2	5	350	190	1	3	3	Casa	la flora	-76.51538	3.48796	Zona Norte
1491	2	5	350	140	2	3	2	Casa	la flora	-76.51608	3.48918	Zona Norte
937	2	4	350	280	2	3	4	Casa	la merced	-76.50603	3.46643	Zona Norte
1163	2	5	350	216	2	2	4	Casa	la merced	-76.51218	3.48181	Zona Norte
4850	3	5	350	145	0	3	4	Casa	santa teresita	-76.53338	3.46446	Zona Norte
396	2	5	350	99	1	3	3	Casa	urbanización la flora	-76.49500	3.46700	Zona Norte
1848	2	5	350	160	2	4	3	Casa	urbanización la flora	-76.51800	3.48900	Zona Norte
1842	2	5	350	240	2	3	4	Casa	vipasa	-76.51800	3.48100	Zona Norte
1943	2	5	350	346	1	2	4	Casa	vipasa	-76.51847	3.47503	Zona Norte