1. CARGUE DE LIBRERIAS Y CONJUNTO DE DATOS

1.1. Descripción General.

El conjunto de datos original corresponde a un data.frame que contiene 8322 registros correspondientes a propiedades inmobiliarias de la ciudad de Cali, y 13 variables con información detallada de cada uno de estos registros, los cuales se describen a continuación:

## [1] "spec_tbl_df" "tbl_df"      "tbl"         "data.frame"

1.2. Descripción de variables y estadísticas descriptivas.

Los datos originales presentan la siguiente información preliminar, la cual supone, en principio, la necesidad de realizar limpieza y transformación de los datos.

Data summary
Name vivienda
Number of rows 8322
Number of columns 13
_______________________
Column type frequency:
character 4
numeric 9
________________________
Group variables None

Variable type: character

skim_variable n_missing complete_rate min max empty n_unique whitespace
zona 3 1.00 8 12 0 5 0
piso 2638 0.68 2 2 0 12 0
tipo 3 1.00 4 11 0 2 0
barrio 3 1.00 4 29 0 436 0

Variable type: numeric

skim_variable n_missing complete_rate mean sd p0 p25 p50 p75 p100 hist
id 3 1.00 4160.00 2401.63 1.00 2080.50 4160.00 6239.50 8319.00 ▇▇▇▇▇
estrato 3 1.00 4.63 1.03 3.00 4.00 5.00 5.00 6.00 ▅▆▁▇▆
preciom 2 1.00 433.89 328.65 58.00 220.00 330.00 540.00 1999.00 ▇▂▁▁▁
areaconst 3 1.00 174.93 142.96 30.00 80.00 123.00 229.00 1745.00 ▇▁▁▁▁
parqueaderos 1605 0.81 1.84 1.12 1.00 1.00 2.00 2.00 10.00 ▇▁▁▁▁
banios 3 1.00 3.11 1.43 0.00 2.00 3.00 4.00 10.00 ▇▇▃▁▁
habitaciones 3 1.00 3.61 1.46 0.00 3.00 3.00 4.00 10.00 ▂▇▂▁▁
longitud 3 1.00 -76.53 0.02 -76.59 -76.54 -76.53 -76.52 -76.46 ▁▅▇▂▁
latitud 3 1.00 3.42 0.04 3.33 3.38 3.42 3.45 3.50 ▃▇▅▇▅

Con esta información preliminar podemos determinar lo siguiente:

1.3. Estructura nativa de los datos originales.

Con una consulta de los primeros veinte registros del data.frame ‘vivienda’ podemos tener una mejor visión preliminar del conjunto de datos con el que trabajaremos:

Primeras 20 filas de los datos de vivienda
id zona piso estrato preciom areaconst parqueaderos banios habitaciones tipo barrio longitud latitud
1147 Zona Oriente NA 3 250 70 1 3 6 Casa 20 de julio -76.51168 3.43382
1169 Zona Oriente NA 3 320 120 1 2 3 Casa 20 de julio -76.51237 3.43369
1350 Zona Oriente NA 3 350 220 2 2 4 Casa 20 de julio -76.51537 3.43566
5992 Zona Sur 02 4 400 280 3 5 3 Casa 3 de julio -76.54000 3.43500
1212 Zona Norte 01 5 260 90 1 2 3 Apartamento acopi -76.51350 3.45891
1724 Zona Norte 01 5 240 87 1 3 3 Apartamento acopi -76.51700 3.36971
2326 Zona Norte 01 4 220 52 2 2 3 Apartamento acopi -76.51974 3.42627
4386 Zona Norte 01 5 310 137 2 3 4 Apartamento acopi -76.53105 3.38296
1209 Zona Norte 02 5 320 150 2 4 6 Casa acopi -76.51341 3.47968
1592 Zona Norte 02 5 780 380 2 3 3 Casa acopi -76.51674 3.48721
4057 Zona Norte 02 6 750 445 NA 7 6 Casa acopi -76.52950 3.38527
4460 Zona Norte 02 4 625 355 3 5 5 Casa acopi -76.53179 3.40590
6081 Zona Norte 02 5 750 237 2 6 6 Casa acopi -76.54044 3.36862
7497 Zona Norte 02 6 520 98 2 2 2 Apartamento acopi -76.54999 3.43505
7824 Zona Norte 02 4 600 160 1 4 5 Casa acopi -76.55210 3.42125
7987 Zona Norte 02 5 420 200 4 4 5 Casa acopi -76.55363 3.40050
3495 Zona Norte 03 5 490 118 2 4 4 Casa acopi -76.52680 3.37823
5424 Zona Norte 03 4 320 108 2 3 3 Apartamento acopi -76.53638 3.40770
6271 Zona Norte 03 5 385 103 2 2 3 Apartamento acopi -76.54173 3.42400
6857 Zona Norte 03 3 100 49 NA 1 2 Apartamento acopi -76.54531 3.37775

2. LIMPIEZA DE LOS DATOS

Antes de realizar el modelo de regresión propiamente dicho, procederemos a revisar la integridad de nuestros datos mediante la determinación de duplicados, datos faltantes, información inconsistente o tipos de datos que no correspondan a la naturaleza de la variable. Estas tareas nos obligan a realizar actividades de eliminación, adición o transformación de los datos con el objeto de preparar el conjunto de datos para el modelado.

2.1. Registros Duplicados

El conjunto de datos no contiene registros duplicados. Al aplicar la función para determinarlos solo arroja una columna con todos los valores NA. Esto sugiere que el conjunto de datos contiene dos columnas con todos los valores NA. Estos registros serán eliminado en su totalidad del conjunto de datos ya que no supone perdida de información y pueden generar problemas al ajustar los modelos.

2.2. Datos Faltantes.

Para corregir el problema de los datos faltantes se procedió de la siguiente forma:

2.3. Cambio de Tipo de Datos

Se cambia el tipo de datos de chr a factor de las variables ‘zona’, ‘tipo’ y ‘barrio’. Estas variables claramente corresponden a variables categóricas que deben ser transformadas para facilitar el análisis.

Por otra parte la variable ‘piso’ puede ser convertida de tipo ‘chr’ a ‘int’ dado que en realidad corresponde a un numero entero que por alguna razón esta mal formateado en el conjunto de datos original, por lo que duplica categorías que en realidad deben ser una sola, por ejemplo 01 y 1. Con este enfoque quedan correctamente etiquetada las categorías de esta variable.

3. DELIMITACIÓN DEL PROBLEMA

Ajustar un modelo de regresión múltiple y generar un informe ejecutivo donde analicen los dos casos, se generen predicciones de oferta que llenen los requerimientos y se daran recomendaciones para la utilización y eventual mejora del modelo. En este ejercicio prodederemos a analizar únicamente el primer caso planteado (Vivienda 1).

Características Vivienda 1 Vivienda 2
Tipo Casa Apartamento
Área construida 200 300
Parqueaderos 1 3
Baños 2 3
Habitaciones 4 5
Estrato 4 o 5 5 o 6
Zona Norte Sur
Crédito preaprobado 350 millones 850 millones

3.1. Consideraciones Inciales.

3.1.1. Mapa de Zonas Geográficas de la Ciudad de Cali.

En el ejercicio, se definieron seis (6) zonas geográficas, donde se tuvieron en cuenta los siguientes criterios o aspectos para las zonas Norte y Sur de la ciudad:

Zona Norte: Para su definición, se tuvieron en cuenta aspectos como los sectores de las calles y carreras norte establecidos en la guía para la nomenclatura urbana de Santiago de Cali, pero también aquellos barrios y sectores que la comunidad reconoce como norte de la ciudad. Esta zona comprende el territorio que va desde la KR 1 entre la CL 1 OESTE hasta el separador vial ubicado entre las CL 25 y CL 26, vía por la cual se continúa hasta la KR 7, y desde este punto, siguiendo el trazado del corredor férreo hasta llegar a la CL 88, a partir de la cual, se continua hacia el norte por el límite del suelo urbano hasta finalizar en el punto de inicio en la KR 1.

Zona Sur: Esta zona comprende el territorio que va desde la KR 50 con la CL 57 hasta la CL 5, vía por la cual se continúa hacia el sur de la ciudad hasta el Río Meléndez, siguiendo su cauce aguas arriba hasta el cruce con el límite del suelo urbano, por el que se continua hacia el sur de la ciudad hasta la KR 127 y por esta vía hasta la CL 18, punto en el cual se sigue el trazado (hacia el sur) del límite del suelo de expansión urbano hasta llegar al punto de inicio en la KR 50.

Fuente: https://www.cali.gov.co/planeacion/publicaciones/169423/zonas_geograficas_idesc/ Fecha de publicación 14/06/2022 Última modificación 10/10/2024

# Usando knitr para incluir la imagen PDF
knitr::include_graphics("D:/Maestria/Metodos estadisticos/Actividad2/Mapa_Cali.png")
Mapa Geográfico de la Ciudad de Cali

Mapa Geográfico de la Ciudad de Cali

3.1.2. Filtro de Base 1 (Vivienda 1).

Este corresponde a las viviendas tipo ‘casa’ ubicadas en la Zona Norte de la Ciudad de Cali. A continuación observamos un head() de los tres primeros registros del sub-conjunto de datos resultante.

id zona piso estrato preciom areaconst parqueaderos banios habitaciones tipo barrio longitud latitud
1209 Zona Norte 2 5 320 150 2 4 6 Casa acopi -76.51341 3.47968
1592 Zona Norte 2 5 780 380 2 3 3 Casa acopi -76.51674 3.48721
4057 Zona Norte 2 6 750 445 0 7 6 Casa acopi -76.52950 3.38527

Haciendo la suma correspondiente de los registros del sub-conjunto obtuvimos el siguiente resultado:

zona tipo count
Zona Norte Casa 722

3.1.3. Ubicacion de los individuos Base 1 (Vivienda 1).

Esta ubicaciónes corresponde a las registradas en los datos originales, mapeados por sus correspondientes coordenadas geográficas (latitud y longitud)

Ubicación de los individuos Base 1

En el Mapa observamos que muchas de las casas que se encuentran clasificadas como ubicadas en el Norte de la Ciudad en realidad están localizadas en otras zonas, al menos teniendo en cuenta las coordenadas geográficas referenciadas en cada registro. Esto puede corresponder a errores al momento de clasificar la zona de cada casa o bien errores en las coordenadas geográficas.

Por lo anterior, ante la ausencia de un juicio experto o el acceso al propietario del conjunto de datos para efectuar la corrección o aclaración se efectuó una re-clasificación de la zona teniendo en cuenta las coordenadas geográficas suministradas en el conjunto de datos y la información cartográfica de la alcaldía de Cali sobre las delimitaciones de las zonas de la ciudad conforme al criterio definido en el numeral 3.1.1. Mapa de Zonas Geográficas de la Ciudad de Cali.

De esta forma, tomando como base las coordenadas geográficas, se excluyeron los puntos que no se ubican en la Zona Norte del mapa e igualmente se registran nuevos puntos cuyas coordenadas se encuentran referenciadas en otras otras zonas, pero cuyas coordenadas corresponden a la Zona Norte.

Para efecto de transparencia anexamos el código correspondiente empleado en dicha re-clasificación:

asignar_zona <- function(latitud, longitud) {

  if (is.na(latitud) | is.na(longitud)) {
    return(NA) 
  }
  

  if (latitud >= 3.45359 & latitud <= 3.49400 & longitud >= -76.54294 & longitud <= -76.10700) {
    return("Zona Norte")
  } else if (latitud >= 3.21314 & latitud < 3.40800 & longitud >= -76.56525 & longitud < -76.40500) {
    return("Zona Sur")
  } else {
    return("Zona Desconocida") 
  }
}


vivienda$zona_corregida <- mapply(asignar_zona, vivienda$latitud, vivienda$longitud)


kable(head(vivienda))
id zona piso estrato preciom areaconst parqueaderos banios habitaciones tipo barrio longitud latitud zona_corregida
1147 Zona Oriente 1 3 250 70 1 3 6 Casa 20 de julio -76.51168 3.43382 Zona Desconocida
1169 Zona Oriente 1 3 320 120 1 2 3 Casa 20 de julio -76.51237 3.43369 Zona Desconocida
1350 Zona Oriente 1 3 350 220 2 2 4 Casa 20 de julio -76.51537 3.43566 Zona Desconocida
5992 Zona Sur 2 4 400 280 3 5 3 Casa 3 de julio -76.54000 3.43500 Zona Desconocida
1212 Zona Norte 1 5 260 90 1 2 3 Apartamento acopi -76.51350 3.45891 Zona Norte
1724 Zona Norte 1 5 240 87 1 3 3 Apartamento acopi -76.51700 3.36971 Zona Sur
datos_corregidos_base1 <- vivienda %>%
  filter(zona_corregida == "Zona Norte" & tipo == "Casa")


kable(head(datos_corregidos_base1, 3))
id zona piso estrato preciom areaconst parqueaderos banios habitaciones tipo barrio longitud latitud zona_corregida
1209 Zona Norte 2 5 320 150 2 4 6 Casa acopi -76.51341 3.47968 Zona Norte
1592 Zona Norte 2 5 780 380 2 3 3 Casa acopi -76.51674 3.48721 Zona Norte
504 Zona Norte 2 3 180 120 0 3 3 Casa acopi -76.49768 3.47060 Zona Norte

Ubicación de los individuos Base 1 - Reclasificados

Una vez efectuada la nueva clasificación se notó una leve disminución de los registros que serán utilizados para ajustar el modelo:

zona_corregida tipo count
Zona Norte Casa 611

4. ÁNALISIS EXPLORATORIO DE DATOS

4.1. Matriz de Correlaciones:

En la matriz de correlaciones, efectuada con las variables numéricas y utilizando el Coeficiente de Correlación de Pearson notamos que la variable que mas correlación tiene con la variable ‘preciom’ es ‘areaconst’ con un coeficiente de 0.74, seguido por la variable ‘banios’ con un coeficiente de 0.52. Las otras dos variables tienen coeficientes menores de 0.50 tal y como se puedo apreciar en la matriz.

Las cuatro variables analizadas tienen correlaciones positivas con la que seria nuestra variable objeto ‘preciom’. Es decir estas aumentan y disminuyen en la misma dirección.

4.2. Analisis Bivariado

Para el análisis bivariado se utilizaron box-plots incluso para las variables numéricas ya que por ser valores discretos, con estos gráficos se facilita el análisis teniendo una mejor visión de la distribución y la respectiva variable.

El análisis gráfico se realiza con el sub-conjunto de datos limpiado y transformado, es decir con la variable ‘zona’ reclasificada y consistente con las coordenadas registradas, así como filtrado por tipo ‘casa’ y zona ‘Norte’.

4.2.1. Zona Vs Precio.

Observamos una media de 427 y una mediana de 365. Evidentemente, la media se ve influenciada por valores atípicos presentes en el conjunto de datos y una distribución sesgada a la derecha. Los valores atípicos se encuentran muy alejados de la media por lo cual su afectación en el modelo de regresión puede ser fuerte y por ende afectar la precisión del modelo. En este caso el estadistico mas confiable para tener una idea de la tendencia central de la variable es la mediana.

4.2.2. Area Construida Vs Precio.

En el diagrama de dispersión notamos la presencia de valores atípicos así como una correlación claramente positiva entre ambas variables. Se destaca la presencia de 4 valores atípicos bastante extremos que se alejan claramente de esta relación de correlación en los datos. Esto último debe ser tratado adecuadamente para efecto de lograr un mejor ajuste del modelo.

4.2.3. Estrato Vs Precio.

Existe un relación positiva clara entre estas dos variables, es decir a mayor estrato socio-económico es mayor la media del precio de los inmuebles en esta zona de la ciudad. Tambien se observan valores atípicos en los estratos 3, 4 y 5, concretamente en los valores superiores que exceden el limite superior del rango intercuartilico de cada categoría.

4.2.4. Parqueaderos Vs Precio.

Se observan valores atípicos sobre el limite superior en el precio de los inmuebles que tienen entre 0 y 5 parqueaderos. Estas variables muestra una relación lineal positiva, salvo una leve discrepancia entre los inmuebles que tienen entre 4 y 5 parqueaderos, donde se nota que esta relación lineal se pierde al ubicarse la media de los inmuebles con 5 parqueaderos por debajo de los inmuebles que tienen 4 parqueaderos.

4.2.5. Baños Vs Precio.

Se observa una relación lineal positiva entre los inmuebles que tienen entre 1 y 7 baños, sin embargo está relación no es perfecta para los inmuebles sin baños o que bien tienen un numero de baños superior a este rango de valores. Los valores atípicos se ubican en el limite superior de los inmuebles que tienen entre 2 y 6 unidades sanitarias.

4.2.6. Habitaciones Vs Precio.

Las medias de los precios de los inmuebles por número de habitaciones presentan discrepancias que están lejos de lo que podría indicar la intuición ya que estas no siguen un patrón ascendente claro y varían entre el rango de 0 a 10 habitaciones. Esto explicaría porque el coeficiente de correlación de Pearson es menor para esta característica que las del resto de variables analizadas.

Al realizar el análisis exploratorio bivariado entre la variable respuesta y las variables predictoras que serán consideradas para hacer el ajuste del modelo, se determinó que era conveniente retirar los 4 valores atípicos mas extremos de la variable ‘areaconst’ por considerarlos inverosímiles y por su gran afectación en el modelo. En el siguiente grafico observamos que eliminando estos valores obtenemos una tendencia mas limpia que sin duda repercutirá en un mejor ajuste general.

Tambien se determinó la necesidad de eliminar los registros que presentaban 0 ‘banios’ y 0 ‘habitaciones’ por ser considerados inverosímiles. Estos valores si bien pueden ser imputados en otros casos requieren información adicional de la que no disponemos. En consecuencia el ajuste se efectúa con la información mas creíble que garantice la confiabilidad de la regresión. Efectuados estos cambios se actualizó el dataset que en definitiva quedo de la siguiente forma:

id zona piso estrato preciom areaconst parqueaderos banios habitaciones tipo barrio longitud latitud zona_corregida
1209 Zona Norte 2 5 320 150 2 4 6 Casa acopi -76.51341 3.47968 Zona Norte
1592 Zona Norte 2 5 780 380 2 3 3 Casa acopi -76.51674 3.48721 Zona Norte
504 Zona Norte 2 3 180 120 0 3 3 Casa acopi -76.49768 3.47060 Zona Norte
604 Zona Norte 2 5 520 455 0 5 4 Casa acopi -76.49966 3.46284 Zona Norte
1003 Zona Norte 2 3 380 300 0 5 8 Casa acopi -76.50743 3.46566 Zona Norte
1840 Zona Norte 2 5 395 165 0 4 4 Casa acopi -76.51797 3.47651 Zona Norte

En este orden de ideas, contamos con 586 observaciones que fueron utilizadas para el ajuste del modelo de regresión múltiple.

zona_corregida tipo count
Zona Norte Casa 586

5. MÓDELO DE REGRESIÓN MULTIPLE

5.1. Ajuste del Módelo

Ajustado el modelo utilizando la función base lm() de R, obtuvimos lo siguientes resultados:

## 
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos + 
##     banios, data = datos_corregidos_base1)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -436.75  -64.23  -13.00   39.47 1084.41 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   53.57106   18.07495   2.964  0.00316 ** 
## areaconst      0.96187    0.06058  15.877  < 2e-16 ***
## estrato4      52.81396   16.81943   3.140  0.00178 ** 
## estrato5      82.68634   16.33169   5.063 5.56e-07 ***
## estrato6     319.56318   29.35034  10.888  < 2e-16 ***
## habitaciones  -5.07806    4.59443  -1.105  0.26951    
## parqueaderos  20.16948    4.09841   4.921 1.12e-06 ***
## banios        16.49405    5.92366   2.784  0.00554 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 134.8 on 578 degrees of freedom
## Multiple R-squared:  0.6925, Adjusted R-squared:  0.6888 
## F-statistic:   186 on 7 and 578 DF,  p-value: < 2.2e-16

5.2. Ánalisis del Modelo.

5.2.1. Residuales.

Los valores indican que hay una distribución asimétrica de los residuos, con algunos valores extremos tanto negativos como positivos.

Resumen de los Residuos del Modelo de Regresión
Estadística Valor
Min. Min -436.74647
1st Qu. 1Q -64.22916
Median Median -13.00195
Mean 3Q 0.00000
3rd Qu. Max 39.46958

5.2.2. Coeficientes.

Como conclusión se puede determinar que areaconst, estrato4, estrato5, estrato6, parqueaderos, y baños son variables significativas. habitaciones, por su parte, no es significativa, tal y como se había anticipado en el análisis exploratorio de los datos. Esto sugiere que esta característica no tiene un impacto relevante en el precio.

Resumen de los Coeficientes del Modelo de Regresión Lineal
Coeficiente Estimación Error_Estandar t_value Pr_t_value
(Intercept) (Intercept) 53.571062 18.0749548 2.963828 0.0031635
areaconst areaconst 0.961867 0.0605808 15.877417 0.0000000
estrato4 estrato4 52.813961 16.8194349 3.140056 0.0017754
estrato5 estrato5 82.686339 16.3316939 5.062937 0.0000006
estrato6 estrato6 319.563183 29.3503399 10.887887 0.0000000
habitaciones habitaciones -5.078055 4.5944283 -1.105264 0.2695051
parqueaderos parqueaderos 20.169483 4.0984150 4.921289 0.0000011
banios banios 16.494053 5.9236637 2.784434 0.0055378
          Coeficiente Estimación Error_Estandar   t_value   Pr_t_value

(Intercept) (Intercept) 53.571062 18.07495478 2.963828 3.163534e-03 areaconst areaconst 0.961867 0.06058083 15.877417 2.225773e-47 estrato4 estrato4 52.813961 16.81943492 3.140056 1.775415e-03 estrato5 estrato5 82.686339 16.33169393 5.062937 5.558559e-07 estrato6 estrato6 319.563183 29.35033988 10.887887 3.064641e-25 habitaciones habitaciones -5.078055 4.59442825 -1.105264 2.695051e-01 parqueaderos parqueaderos 20.169484 4.09841497 4.921289 1.122920e-06 banios banios 16.494053 5.92366371 2.784434 5.537754e-03

5.2.3. Metricas de Evaluación.

Estadísticas Adicionales del Modelo de Regresión
Estadística Valor
Residual standard error 134.8
Multiple R-squared 0.6925
Adjusted R-squared 0.6888
F-statistic 186
p-value (F-statistic) < 2.2e-16

5.3. Validación de los supuestos del módelo.

5.3.1. Linealidad

5.3.2. Independencia de los residuos.

## 
##  Durbin-Watson test
## 
## data:  modelo_base1
## DW = 1.9184, p-value = 0.1431
## alternative hypothesis: true autocorrelation is greater than 0

A un nivel de significancia de 0.05, en vista de que el valor p de la prueba es 0.1431, no hay evidencia suficiente para rechazar la hipótesis nula de que no hay autocorrelación significativa en los residuos.

EL MODELO CUMPLE CON ESTE SUPUESTO.

5.3.3. Homocedasticidad.

## 
##  studentized Breusch-Pagan test
## 
## data:  modelo_base1
## BP = 73.763, df = 7, p-value = 2.557e-13

A un nievl de significacia del 0.05, dado que el valor de la prueba es 2.557e-13 es decir extremadamente pequeño, rechazamos la hipótesis nula de que no hay heterocedasticidad. Esto sugiere que hay evidencia significativa de heterocedasticidad en los residuos del modelo.

EL MODELO NO CUMPLE CON EL SUPUESTO.

5.3.4. Normalidad.

## 
##  Shapiro-Wilk normality test
## 
## data:  modelo_base1$residuals
## W = 0.83549, p-value < 2.2e-16

EL valor p de la prueba es extremadamente menor que 0.05, por lo tanto rechazamos la hipótesis nula de que los residuos siguen una distribución normal. Esto sugiere que los residuos no siguen una distribución normal. EL SUPUESTO DE NORMALIDAD DE LOS RESIDUOS NO SE CUMPLE.

5.3.5. No Multicolinealidad

GVIF Df GVIF^(1/(2*Df))
areaconst 1.967071 1 1.402523
estrato 1.829946 3 1.105961
habitaciones 1.845424 1 1.358464
parqueaderos 1.340571 1 1.157830
banios 2.285032 1 1.511632

Todos los GVIF y sus valores transformados están cercanos a 1, lo que indica que no hay colinealidad grave entre las variables.

5.3.6. Recomendaciones.

Tal y como se anticipaba en el análisis exploratorio, se hace necesario evaluar tanto la pertinencia de las variables como la calidad de los datos, esto en el sentido de garantizar no solo que se cumplan los supuestos, sino que el modelo sea capaz de generalizar y sea confiable para hacer predicciones. La data suministrada presenta información inverosímil que puede dificultar el correcto ajuste de algun modelo de regresión para este caso. Posiblemente sea necesario realizar una revisión exhaustiva del proceso de recolección de la información, agregar nuevas características al conjunto de datos que sean mas pertinentes para hacer predicciones del precio de venta de los inmuebles en la ciudad de Cali, asi como plantear la necesidad de abordar el problema mediante el uso de técnicas mas avanzadas y robustas.

5.4. Predicciones del Modelo

5.4.1. Predicción de precio con caracteristicas Base 1

Ya con el modelo listo procedemos a efectuar la predicción del precio usando como datos de entrada las condiciones que exije el cliente del crédito preaprobado, dando los siguientes resultados:

##        1 
## 331.6038
##        1 
## 361.4762

5.4.2. Ofertas

5.4.2.1. Definición de Oferta de Casas en la Zona

Esta tabla no tiene en cuenta las características exactas exijidas por el cliente solo tiene en cuenta el precio:

id piso estrato preciom areaconst parqueaderos banios habitaciones tipo barrio longitud latitud zona_corregida
109 1 4 350 126 0 3 3 Casa alfonso lópez -76.48383 3.45853 Zona Norte
3779 3 4 350 98 2 3 4 Casa chipichape -76.52840 3.48154 Zona Norte
4210 1 5 350 200 3 3 4 Casa el bosque -76.53010 3.48503 Zona Norte
4209 2 5 350 300 3 5 6 Casa el bosque -76.53010 3.48577 Zona Norte
4422 2 5 350 240 2 3 6 Casa el bosque -76.53136 3.48635 Zona Norte
1270 2 5 350 203 2 2 5 Casa el bosque -76.51448 3.48531 Zona Norte
819 2 5 350 264 2 3 4 Casa la flora -76.50330 3.46412 Zona Norte
3060 2 5 350 110 1 4 3 Casa la flora -76.52353 3.48157 Zona Norte
459 2 5 350 160 2 3 3 Casa la flora -76.49632 3.46661 Zona Norte
1176 2 5 350 158 0 4 3 Casa la flora -76.51273 3.48960 Zona Norte
1352 2 5 350 190 1 3 3 Casa la flora -76.51538 3.48796 Zona Norte
1491 2 5 350 140 2 3 2 Casa la flora -76.51608 3.48918 Zona Norte
937 2 4 350 280 2 3 4 Casa la merced -76.50603 3.46643 Zona Norte
1163 2 5 350 216 2 2 4 Casa la merced -76.51218 3.48181 Zona Norte
4850 3 5 350 145 0 3 4 Casa santa teresita -76.53338 3.46446 Zona Norte
396 2 5 350 99 1 3 3 Casa urbanización la flora -76.49500 3.46700 Zona Norte
1848 2 5 350 160 2 4 3 Casa urbanización la flora -76.51800 3.48900 Zona Norte
1842 2 5 350 240 2 3 4 Casa vipasa -76.51800 3.48100 Zona Norte
1943 2 5 350 346 1 2 4 Casa vipasa -76.51847 3.47503 Zona Norte
5.4.2.1. Definición de Oferta de Casas en la Zona con todas las caracteristicas.

Los resultados de las predicciones del modelo no arrojaron resultados exactos con todas las características solicitadas, es decir:

Tipo Casa Área construida 200 Parqueaderos 1 Baños 2 Habitaciones 4 Estrato 4 o 5 Zona Norte Crédito preaprobado 350 millones

id zona piso estrato preciom areaconst parqueaderos banios habitaciones tipo barrio longitud latitud zona_corregida
5.4.2.2. Definición de las cinco mejores ofertas de Casas en la Zona.

En consecuencia la definición de la propuesta se hace con la mejor combinación de características y que correspondan exactamente al presupuesto disponible por el cliente:

piso estrato preciom areaconst parqueaderos banios habitaciones tipo barrio longitud latitud zona_corregida
2 5 350 346 1 2 4 Casa vipasa -76.51847 3.47503 Zona Norte
2 5 350 300 3 5 6 Casa el bosque -76.53010 3.48577 Zona Norte
2 4 350 280 2 3 4 Casa la merced -76.50603 3.46643 Zona Norte
2 5 350 264 2 3 4 Casa la flora -76.50330 3.46412 Zona Norte
2 5 350 240 2 3 6 Casa el bosque -76.53136 3.48635 Zona Norte
5.4.2.3. Ubicación geoespacial de las cinco mejores ofertas de Casas en la Zona.

Ubicación de las tres mejores ofertas

CONCLUSIONES Y RECOMENDACIONES FINALES - El modelo tiene un buen ajuste, con un R-cuadrado de 0.6925. - Las variables significativas que afectan el precio son areaconst, los estratos (4, 5, 6), parqueaderos, y baños. - Habitaciones no es un predictivo significativo. - El modelo en su conjunto es altamente significativo, como lo demuestra el F-estadístico. - El modelo no cumple con la mayor parte de los supuestos por lo cual debe ser revisado en detalle e modo que sea valido.

Ahora bien, dada la complejidad del mercado inmobiliario es importante evaluar seriamente la pertinencia de este modelo para hacer predicciones en el mercado inmobiliario en Cali.

En este sentido lo consideramos no apto dado que no logra reflejar la complejidad de este mercado. Por ejemplo, entre las recomendaciones creemos que se hace necesario: