El conjunto de datos original corresponde a un data.frame que contiene 8322 registros correspondientes a propiedades inmobiliarias de la ciudad de Cali, y 13 variables con información detallada de cada uno de estos registros, los cuales se describen a continuación:
## [1] "spec_tbl_df" "tbl_df" "tbl" "data.frame"
Los datos originales presentan la siguiente información preliminar, la cual supone, en principio, la necesidad de realizar limpieza y transformación de los datos.
| Name | vivienda |
| Number of rows | 8322 |
| Number of columns | 13 |
| _______________________ | |
| Column type frequency: | |
| character | 4 |
| numeric | 9 |
| ________________________ | |
| Group variables | None |
Variable type: character
| skim_variable | n_missing | complete_rate | min | max | empty | n_unique | whitespace |
|---|---|---|---|---|---|---|---|
| zona | 3 | 1.00 | 8 | 12 | 0 | 5 | 0 |
| piso | 2638 | 0.68 | 2 | 2 | 0 | 12 | 0 |
| tipo | 3 | 1.00 | 4 | 11 | 0 | 2 | 0 |
| barrio | 3 | 1.00 | 4 | 29 | 0 | 436 | 0 |
Variable type: numeric
| skim_variable | n_missing | complete_rate | mean | sd | p0 | p25 | p50 | p75 | p100 | hist |
|---|---|---|---|---|---|---|---|---|---|---|
| id | 3 | 1.00 | 4160.00 | 2401.63 | 1.00 | 2080.50 | 4160.00 | 6239.50 | 8319.00 | ▇▇▇▇▇ |
| estrato | 3 | 1.00 | 4.63 | 1.03 | 3.00 | 4.00 | 5.00 | 5.00 | 6.00 | ▅▆▁▇▆ |
| preciom | 2 | 1.00 | 433.89 | 328.65 | 58.00 | 220.00 | 330.00 | 540.00 | 1999.00 | ▇▂▁▁▁ |
| areaconst | 3 | 1.00 | 174.93 | 142.96 | 30.00 | 80.00 | 123.00 | 229.00 | 1745.00 | ▇▁▁▁▁ |
| parqueaderos | 1605 | 0.81 | 1.84 | 1.12 | 1.00 | 1.00 | 2.00 | 2.00 | 10.00 | ▇▁▁▁▁ |
| banios | 3 | 1.00 | 3.11 | 1.43 | 0.00 | 2.00 | 3.00 | 4.00 | 10.00 | ▇▇▃▁▁ |
| habitaciones | 3 | 1.00 | 3.61 | 1.46 | 0.00 | 3.00 | 3.00 | 4.00 | 10.00 | ▂▇▂▁▁ |
| longitud | 3 | 1.00 | -76.53 | 0.02 | -76.59 | -76.54 | -76.53 | -76.52 | -76.46 | ▁▅▇▂▁ |
| latitud | 3 | 1.00 | 3.42 | 0.04 | 3.33 | 3.38 | 3.42 | 3.45 | 3.50 | ▃▇▅▇▅ |
Con esta información preliminar podemos determinar lo siguiente:
Con una consulta de los primeros veinte registros del data.frame ‘vivienda’ podemos tener una mejor visión preliminar del conjunto de datos con el que trabajaremos:
| id | zona | piso | estrato | preciom | areaconst | parqueaderos | banios | habitaciones | tipo | barrio | longitud | latitud |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1147 | Zona Oriente | NA | 3 | 250 | 70 | 1 | 3 | 6 | Casa | 20 de julio | -76.51168 | 3.43382 |
| 1169 | Zona Oriente | NA | 3 | 320 | 120 | 1 | 2 | 3 | Casa | 20 de julio | -76.51237 | 3.43369 |
| 1350 | Zona Oriente | NA | 3 | 350 | 220 | 2 | 2 | 4 | Casa | 20 de julio | -76.51537 | 3.43566 |
| 5992 | Zona Sur | 02 | 4 | 400 | 280 | 3 | 5 | 3 | Casa | 3 de julio | -76.54000 | 3.43500 |
| 1212 | Zona Norte | 01 | 5 | 260 | 90 | 1 | 2 | 3 | Apartamento | acopi | -76.51350 | 3.45891 |
| 1724 | Zona Norte | 01 | 5 | 240 | 87 | 1 | 3 | 3 | Apartamento | acopi | -76.51700 | 3.36971 |
| 2326 | Zona Norte | 01 | 4 | 220 | 52 | 2 | 2 | 3 | Apartamento | acopi | -76.51974 | 3.42627 |
| 4386 | Zona Norte | 01 | 5 | 310 | 137 | 2 | 3 | 4 | Apartamento | acopi | -76.53105 | 3.38296 |
| 1209 | Zona Norte | 02 | 5 | 320 | 150 | 2 | 4 | 6 | Casa | acopi | -76.51341 | 3.47968 |
| 1592 | Zona Norte | 02 | 5 | 780 | 380 | 2 | 3 | 3 | Casa | acopi | -76.51674 | 3.48721 |
| 4057 | Zona Norte | 02 | 6 | 750 | 445 | NA | 7 | 6 | Casa | acopi | -76.52950 | 3.38527 |
| 4460 | Zona Norte | 02 | 4 | 625 | 355 | 3 | 5 | 5 | Casa | acopi | -76.53179 | 3.40590 |
| 6081 | Zona Norte | 02 | 5 | 750 | 237 | 2 | 6 | 6 | Casa | acopi | -76.54044 | 3.36862 |
| 7497 | Zona Norte | 02 | 6 | 520 | 98 | 2 | 2 | 2 | Apartamento | acopi | -76.54999 | 3.43505 |
| 7824 | Zona Norte | 02 | 4 | 600 | 160 | 1 | 4 | 5 | Casa | acopi | -76.55210 | 3.42125 |
| 7987 | Zona Norte | 02 | 5 | 420 | 200 | 4 | 4 | 5 | Casa | acopi | -76.55363 | 3.40050 |
| 3495 | Zona Norte | 03 | 5 | 490 | 118 | 2 | 4 | 4 | Casa | acopi | -76.52680 | 3.37823 |
| 5424 | Zona Norte | 03 | 4 | 320 | 108 | 2 | 3 | 3 | Apartamento | acopi | -76.53638 | 3.40770 |
| 6271 | Zona Norte | 03 | 5 | 385 | 103 | 2 | 2 | 3 | Apartamento | acopi | -76.54173 | 3.42400 |
| 6857 | Zona Norte | 03 | 3 | 100 | 49 | NA | 1 | 2 | Apartamento | acopi | -76.54531 | 3.37775 |
Antes de realizar el modelo de regresión propiamente dicho, procederemos a revisar la integridad de nuestros datos mediante la determinación de duplicados, datos faltantes, información inconsistente o tipos de datos que no correspondan a la naturaleza de la variable. Estas tareas nos obligan a realizar actividades de eliminación, adición o transformación de los datos con el objeto de preparar el conjunto de datos para el modelado.
El conjunto de datos no contiene registros duplicados. Al aplicar la función para determinarlos solo arroja una columna con todos los valores NA. Esto sugiere que el conjunto de datos contiene dos columnas con todos los valores NA. Estos registros serán eliminado en su totalidad del conjunto de datos ya que no supone perdida de información y pueden generar problemas al ajustar los modelos.
Para corregir el problema de los datos faltantes se procedió de la siguiente forma:
Se cambia el tipo de datos de chr a factor de las variables ‘zona’, ‘tipo’ y ‘barrio’. Estas variables claramente corresponden a variables categóricas que deben ser transformadas para facilitar el análisis.
Por otra parte la variable ‘piso’ puede ser convertida de tipo ‘chr’ a ‘int’ dado que en realidad corresponde a un numero entero que por alguna razón esta mal formateado en el conjunto de datos original, por lo que duplica categorías que en realidad deben ser una sola, por ejemplo 01 y 1. Con este enfoque quedan correctamente etiquetada las categorías de esta variable.
Ajustar un modelo de regresión múltiple y generar un informe ejecutivo donde analicen los dos casos, se generen predicciones de oferta que llenen los requerimientos y se daran recomendaciones para la utilización y eventual mejora del modelo. En este ejercicio prodederemos a analizar únicamente el primer caso planteado (Vivienda 1).
| Características | Vivienda 1 | Vivienda 2 |
|---|---|---|
| Tipo | Casa | Apartamento |
| Área construida | 200 | 300 |
| Parqueaderos | 1 | 3 |
| Baños | 2 | 3 |
| Habitaciones | 4 | 5 |
| Estrato | 4 o 5 | 5 o 6 |
| Zona | Norte | Sur |
| Crédito preaprobado | 350 millones | 850 millones |
En el ejercicio, se definieron seis (6) zonas geográficas, donde se tuvieron en cuenta los siguientes criterios o aspectos para las zonas Norte y Sur de la ciudad:
Zona Norte: Para su definición, se tuvieron en cuenta aspectos como los sectores de las calles y carreras norte establecidos en la guía para la nomenclatura urbana de Santiago de Cali, pero también aquellos barrios y sectores que la comunidad reconoce como norte de la ciudad. Esta zona comprende el territorio que va desde la KR 1 entre la CL 1 OESTE hasta el separador vial ubicado entre las CL 25 y CL 26, vía por la cual se continúa hasta la KR 7, y desde este punto, siguiendo el trazado del corredor férreo hasta llegar a la CL 88, a partir de la cual, se continua hacia el norte por el límite del suelo urbano hasta finalizar en el punto de inicio en la KR 1.
Zona Sur: Esta zona comprende el territorio que va desde la KR 50 con la CL 57 hasta la CL 5, vía por la cual se continúa hacia el sur de la ciudad hasta el Río Meléndez, siguiendo su cauce aguas arriba hasta el cruce con el límite del suelo urbano, por el que se continua hacia el sur de la ciudad hasta la KR 127 y por esta vía hasta la CL 18, punto en el cual se sigue el trazado (hacia el sur) del límite del suelo de expansión urbano hasta llegar al punto de inicio en la KR 50.
Fuente: https://www.cali.gov.co/planeacion/publicaciones/169423/zonas_geograficas_idesc/ Fecha de publicación 14/06/2022 Última modificación 10/10/2024
# Usando knitr para incluir la imagen PDF
knitr::include_graphics("D:/Maestria/Metodos estadisticos/Actividad2/Mapa_Cali.png")
Mapa Geográfico de la Ciudad de Cali
Este corresponde a las viviendas tipo ‘casa’ ubicadas en la Zona Norte de la Ciudad de Cali. A continuación observamos un head() de los tres primeros registros del sub-conjunto de datos resultante.
| id | zona | piso | estrato | preciom | areaconst | parqueaderos | banios | habitaciones | tipo | barrio | longitud | latitud |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1209 | Zona Norte | 2 | 5 | 320 | 150 | 2 | 4 | 6 | Casa | acopi | -76.51341 | 3.47968 |
| 1592 | Zona Norte | 2 | 5 | 780 | 380 | 2 | 3 | 3 | Casa | acopi | -76.51674 | 3.48721 |
| 4057 | Zona Norte | 2 | 6 | 750 | 445 | 0 | 7 | 6 | Casa | acopi | -76.52950 | 3.38527 |
Haciendo la suma correspondiente de los registros del sub-conjunto obtuvimos el siguiente resultado:
| zona | tipo | count |
|---|---|---|
| Zona Norte | Casa | 722 |
Esta ubicaciónes corresponde a las registradas en los datos originales, mapeados por sus correspondientes coordenadas geográficas (latitud y longitud)
Ubicación de los individuos Base 1
En el Mapa observamos que muchas de las casas que se encuentran clasificadas como ubicadas en el Norte de la Ciudad en realidad están localizadas en otras zonas, al menos teniendo en cuenta las coordenadas geográficas referenciadas en cada registro. Esto puede corresponder a errores al momento de clasificar la zona de cada casa o bien errores en las coordenadas geográficas.
Por lo anterior, ante la ausencia de un juicio experto o el acceso al propietario del conjunto de datos para efectuar la corrección o aclaración se efectuó una re-clasificación de la zona teniendo en cuenta las coordenadas geográficas suministradas en el conjunto de datos y la información cartográfica de la alcaldía de Cali sobre las delimitaciones de las zonas de la ciudad conforme al criterio definido en el numeral 3.1.1. Mapa de Zonas Geográficas de la Ciudad de Cali.
De esta forma, tomando como base las coordenadas geográficas, se excluyeron los puntos que no se ubican en la Zona Norte del mapa e igualmente se registran nuevos puntos cuyas coordenadas se encuentran referenciadas en otras otras zonas, pero cuyas coordenadas corresponden a la Zona Norte.
Para efecto de transparencia anexamos el código correspondiente empleado en dicha re-clasificación:
asignar_zona <- function(latitud, longitud) {
if (is.na(latitud) | is.na(longitud)) {
return(NA)
}
if (latitud >= 3.45359 & latitud <= 3.49400 & longitud >= -76.54294 & longitud <= -76.10700) {
return("Zona Norte")
} else if (latitud >= 3.21314 & latitud < 3.40800 & longitud >= -76.56525 & longitud < -76.40500) {
return("Zona Sur")
} else {
return("Zona Desconocida")
}
}
vivienda$zona_corregida <- mapply(asignar_zona, vivienda$latitud, vivienda$longitud)
kable(head(vivienda))
| id | zona | piso | estrato | preciom | areaconst | parqueaderos | banios | habitaciones | tipo | barrio | longitud | latitud | zona_corregida |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1147 | Zona Oriente | 1 | 3 | 250 | 70 | 1 | 3 | 6 | Casa | 20 de julio | -76.51168 | 3.43382 | Zona Desconocida |
| 1169 | Zona Oriente | 1 | 3 | 320 | 120 | 1 | 2 | 3 | Casa | 20 de julio | -76.51237 | 3.43369 | Zona Desconocida |
| 1350 | Zona Oriente | 1 | 3 | 350 | 220 | 2 | 2 | 4 | Casa | 20 de julio | -76.51537 | 3.43566 | Zona Desconocida |
| 5992 | Zona Sur | 2 | 4 | 400 | 280 | 3 | 5 | 3 | Casa | 3 de julio | -76.54000 | 3.43500 | Zona Desconocida |
| 1212 | Zona Norte | 1 | 5 | 260 | 90 | 1 | 2 | 3 | Apartamento | acopi | -76.51350 | 3.45891 | Zona Norte |
| 1724 | Zona Norte | 1 | 5 | 240 | 87 | 1 | 3 | 3 | Apartamento | acopi | -76.51700 | 3.36971 | Zona Sur |
datos_corregidos_base1 <- vivienda %>%
filter(zona_corregida == "Zona Norte" & tipo == "Casa")
kable(head(datos_corregidos_base1, 3))
| id | zona | piso | estrato | preciom | areaconst | parqueaderos | banios | habitaciones | tipo | barrio | longitud | latitud | zona_corregida |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1209 | Zona Norte | 2 | 5 | 320 | 150 | 2 | 4 | 6 | Casa | acopi | -76.51341 | 3.47968 | Zona Norte |
| 1592 | Zona Norte | 2 | 5 | 780 | 380 | 2 | 3 | 3 | Casa | acopi | -76.51674 | 3.48721 | Zona Norte |
| 504 | Zona Norte | 2 | 3 | 180 | 120 | 0 | 3 | 3 | Casa | acopi | -76.49768 | 3.47060 | Zona Norte |
Ubicación de los individuos Base 1 - Reclasificados
Una vez efectuada la nueva clasificación se notó una leve disminución de los registros que serán utilizados para ajustar el modelo:
| zona_corregida | tipo | count |
|---|---|---|
| Zona Norte | Casa | 611 |
En la matriz de correlaciones, efectuada con las variables numéricas y utilizando el Coeficiente de Correlación de Pearson notamos que la variable que mas correlación tiene con la variable ‘preciom’ es ‘areaconst’ con un coeficiente de 0.74, seguido por la variable ‘banios’ con un coeficiente de 0.52. Las otras dos variables tienen coeficientes menores de 0.50 tal y como se puedo apreciar en la matriz.
Las cuatro variables analizadas tienen correlaciones positivas con la que seria nuestra variable objeto ‘preciom’. Es decir estas aumentan y disminuyen en la misma dirección.
Para el análisis bivariado se utilizaron box-plots incluso para las variables numéricas ya que por ser valores discretos, con estos gráficos se facilita el análisis teniendo una mejor visión de la distribución y la respectiva variable.
El análisis gráfico se realiza con el sub-conjunto de datos limpiado y transformado, es decir con la variable ‘zona’ reclasificada y consistente con las coordenadas registradas, así como filtrado por tipo ‘casa’ y zona ‘Norte’.
Observamos una media de 427 y una mediana de 365. Evidentemente, la media se ve influenciada por valores atípicos presentes en el conjunto de datos y una distribución sesgada a la derecha. Los valores atípicos se encuentran muy alejados de la media por lo cual su afectación en el modelo de regresión puede ser fuerte y por ende afectar la precisión del modelo. En este caso el estadistico mas confiable para tener una idea de la tendencia central de la variable es la mediana.
En el diagrama de dispersión notamos la presencia de valores atípicos así como una correlación claramente positiva entre ambas variables. Se destaca la presencia de 4 valores atípicos bastante extremos que se alejan claramente de esta relación de correlación en los datos. Esto último debe ser tratado adecuadamente para efecto de lograr un mejor ajuste del modelo.
Existe un relación positiva clara entre estas dos variables, es decir a mayor estrato socio-económico es mayor la media del precio de los inmuebles en esta zona de la ciudad. Tambien se observan valores atípicos en los estratos 3, 4 y 5, concretamente en los valores superiores que exceden el limite superior del rango intercuartilico de cada categoría.
Se observan valores atípicos sobre el limite superior en el precio de los inmuebles que tienen entre 0 y 5 parqueaderos. Estas variables muestra una relación lineal positiva, salvo una leve discrepancia entre los inmuebles que tienen entre 4 y 5 parqueaderos, donde se nota que esta relación lineal se pierde al ubicarse la media de los inmuebles con 5 parqueaderos por debajo de los inmuebles que tienen 4 parqueaderos.
Se observa una relación lineal positiva entre los inmuebles que tienen entre 1 y 7 baños, sin embargo está relación no es perfecta para los inmuebles sin baños o que bien tienen un numero de baños superior a este rango de valores. Los valores atípicos se ubican en el limite superior de los inmuebles que tienen entre 2 y 6 unidades sanitarias.
Las medias de los precios de los inmuebles por número de habitaciones presentan discrepancias que están lejos de lo que podría indicar la intuición ya que estas no siguen un patrón ascendente claro y varían entre el rango de 0 a 10 habitaciones. Esto explicaría porque el coeficiente de correlación de Pearson es menor para esta característica que las del resto de variables analizadas.
Al realizar el análisis exploratorio bivariado entre la variable respuesta y las variables predictoras que serán consideradas para hacer el ajuste del modelo, se determinó que era conveniente retirar los 4 valores atípicos mas extremos de la variable ‘areaconst’ por considerarlos inverosímiles y por su gran afectación en el modelo. En el siguiente grafico observamos que eliminando estos valores obtenemos una tendencia mas limpia que sin duda repercutirá en un mejor ajuste general.
Tambien se determinó la necesidad de eliminar los registros que presentaban 0 ‘banios’ y 0 ‘habitaciones’ por ser considerados inverosímiles. Estos valores si bien pueden ser imputados en otros casos requieren información adicional de la que no disponemos. En consecuencia el ajuste se efectúa con la información mas creíble que garantice la confiabilidad de la regresión. Efectuados estos cambios se actualizó el dataset que en definitiva quedo de la siguiente forma:
| id | zona | piso | estrato | preciom | areaconst | parqueaderos | banios | habitaciones | tipo | barrio | longitud | latitud | zona_corregida |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1209 | Zona Norte | 2 | 5 | 320 | 150 | 2 | 4 | 6 | Casa | acopi | -76.51341 | 3.47968 | Zona Norte |
| 1592 | Zona Norte | 2 | 5 | 780 | 380 | 2 | 3 | 3 | Casa | acopi | -76.51674 | 3.48721 | Zona Norte |
| 504 | Zona Norte | 2 | 3 | 180 | 120 | 0 | 3 | 3 | Casa | acopi | -76.49768 | 3.47060 | Zona Norte |
| 604 | Zona Norte | 2 | 5 | 520 | 455 | 0 | 5 | 4 | Casa | acopi | -76.49966 | 3.46284 | Zona Norte |
| 1003 | Zona Norte | 2 | 3 | 380 | 300 | 0 | 5 | 8 | Casa | acopi | -76.50743 | 3.46566 | Zona Norte |
| 1840 | Zona Norte | 2 | 5 | 395 | 165 | 0 | 4 | 4 | Casa | acopi | -76.51797 | 3.47651 | Zona Norte |
En este orden de ideas, contamos con 586 observaciones que fueron utilizadas para el ajuste del modelo de regresión múltiple.
| zona_corregida | tipo | count |
|---|---|---|
| Zona Norte | Casa | 586 |
Ajustado el modelo utilizando la función base lm() de R, obtuvimos lo siguientes resultados:
##
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos +
## banios, data = datos_corregidos_base1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -436.75 -64.23 -13.00 39.47 1084.41
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 53.57106 18.07495 2.964 0.00316 **
## areaconst 0.96187 0.06058 15.877 < 2e-16 ***
## estrato4 52.81396 16.81943 3.140 0.00178 **
## estrato5 82.68634 16.33169 5.063 5.56e-07 ***
## estrato6 319.56318 29.35034 10.888 < 2e-16 ***
## habitaciones -5.07806 4.59443 -1.105 0.26951
## parqueaderos 20.16948 4.09841 4.921 1.12e-06 ***
## banios 16.49405 5.92366 2.784 0.00554 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 134.8 on 578 degrees of freedom
## Multiple R-squared: 0.6925, Adjusted R-squared: 0.6888
## F-statistic: 186 on 7 and 578 DF, p-value: < 2.2e-16
Los valores indican que hay una distribución asimétrica de los residuos, con algunos valores extremos tanto negativos como positivos.
| Estadística | Valor | |
|---|---|---|
| Min. | Min | -436.74647 |
| 1st Qu. | 1Q | -64.22916 |
| Median | Median | -13.00195 |
| Mean | 3Q | 0.00000 |
| 3rd Qu. | Max | 39.46958 |
Intercepto 53.57: Es el valor de preciom cuando todas las variables independientes son 0. Es decir, cuando no hay área, estrato, habitaciones, parqueaderos ni baños, el precio inicial sería 53.57.
areaconst 0.96: Por cada unidad adicional en areaconst, el precio de preciom aumenta en 0.96 unidades, manteniendo constantes las demás variables.
estrato4 52.81: Si un inmueble está en el estrato 4, el precio aumenta en 52.81 unidades.
estrato5 82.69: Un inmueble en el estrato 5 tiene un aumento de 82.69 unidades en el precio, comparado con el estrato base.
estrato6 319.56: Un inmueble en el estrato 6 tiene un aumento de 319.56 unidades en el precio en comparación con el estrato base.
habitaciones -5.08: Cada habitación adicional reduce el precio en 5.08 unidades.
parqueaderos 20.17: Cada parqueadero adicional aumenta el precio en 20.17 unidades.
baños 16.49: Cada baño adicional aumenta el precio en 16.49 unidades y es significativo (p = 0.00554).
Como conclusión se puede determinar que areaconst, estrato4, estrato5, estrato6, parqueaderos, y baños son variables significativas. habitaciones, por su parte, no es significativa, tal y como se había anticipado en el análisis exploratorio de los datos. Esto sugiere que esta característica no tiene un impacto relevante en el precio.
| Coeficiente | Estimación | Error_Estandar | t_value | Pr_t_value | |
|---|---|---|---|---|---|
| (Intercept) | (Intercept) | 53.571062 | 18.0749548 | 2.963828 | 0.0031635 |
| areaconst | areaconst | 0.961867 | 0.0605808 | 15.877417 | 0.0000000 |
| estrato4 | estrato4 | 52.813961 | 16.8194349 | 3.140056 | 0.0017754 |
| estrato5 | estrato5 | 82.686339 | 16.3316939 | 5.062937 | 0.0000006 |
| estrato6 | estrato6 | 319.563183 | 29.3503399 | 10.887887 | 0.0000000 |
| habitaciones | habitaciones | -5.078055 | 4.5944283 | -1.105264 | 0.2695051 |
| parqueaderos | parqueaderos | 20.169483 | 4.0984150 | 4.921289 | 0.0000011 |
| banios | banios | 16.494053 | 5.9236637 | 2.784434 | 0.0055378 |
Coeficiente Estimación Error_Estandar t_value Pr_t_value
(Intercept) (Intercept) 53.571062 18.07495478 2.963828 3.163534e-03 areaconst areaconst 0.961867 0.06058083 15.877417 2.225773e-47 estrato4 estrato4 52.813961 16.81943492 3.140056 1.775415e-03 estrato5 estrato5 82.686339 16.33169393 5.062937 5.558559e-07 estrato6 estrato6 319.563183 29.35033988 10.887887 3.064641e-25 habitaciones habitaciones -5.078055 4.59442825 -1.105264 2.695051e-01 parqueaderos parqueaderos 20.169484 4.09841497 4.921289 1.122920e-06 banios banios 16.494053 5.92366371 2.784434 5.537754e-03
| Estadística | Valor |
|---|---|
| Residual standard error | 134.8 |
| Multiple R-squared | 0.6925 |
| Adjusted R-squared | 0.6888 |
| F-statistic | 186 |
| p-value (F-statistic) | < 2.2e-16 |
##
## Durbin-Watson test
##
## data: modelo_base1
## DW = 1.9184, p-value = 0.1431
## alternative hypothesis: true autocorrelation is greater than 0
A un nivel de significancia de 0.05, en vista de que el valor p de la prueba es 0.1431, no hay evidencia suficiente para rechazar la hipótesis nula de que no hay autocorrelación significativa en los residuos.
EL MODELO CUMPLE CON ESTE SUPUESTO.
##
## studentized Breusch-Pagan test
##
## data: modelo_base1
## BP = 73.763, df = 7, p-value = 2.557e-13
A un nievl de significacia del 0.05, dado que el valor de la prueba es 2.557e-13 es decir extremadamente pequeño, rechazamos la hipótesis nula de que no hay heterocedasticidad. Esto sugiere que hay evidencia significativa de heterocedasticidad en los residuos del modelo.
EL MODELO NO CUMPLE CON EL SUPUESTO.
##
## Shapiro-Wilk normality test
##
## data: modelo_base1$residuals
## W = 0.83549, p-value < 2.2e-16
EL valor p de la prueba es extremadamente menor que 0.05, por lo tanto rechazamos la hipótesis nula de que los residuos siguen una distribución normal. Esto sugiere que los residuos no siguen una distribución normal. EL SUPUESTO DE NORMALIDAD DE LOS RESIDUOS NO SE CUMPLE.
| GVIF | Df | GVIF^(1/(2*Df)) | |
|---|---|---|---|
| areaconst | 1.967071 | 1 | 1.402523 |
| estrato | 1.829946 | 3 | 1.105961 |
| habitaciones | 1.845424 | 1 | 1.358464 |
| parqueaderos | 1.340571 | 1 | 1.157830 |
| banios | 2.285032 | 1 | 1.511632 |
Todos los GVIF y sus valores transformados están cercanos a 1, lo que indica que no hay colinealidad grave entre las variables.
Tal y como se anticipaba en el análisis exploratorio, se hace necesario evaluar tanto la pertinencia de las variables como la calidad de los datos, esto en el sentido de garantizar no solo que se cumplan los supuestos, sino que el modelo sea capaz de generalizar y sea confiable para hacer predicciones. La data suministrada presenta información inverosímil que puede dificultar el correcto ajuste de algun modelo de regresión para este caso. Posiblemente sea necesario realizar una revisión exhaustiva del proceso de recolección de la información, agregar nuevas características al conjunto de datos que sean mas pertinentes para hacer predicciones del precio de venta de los inmuebles en la ciudad de Cali, asi como plantear la necesidad de abordar el problema mediante el uso de técnicas mas avanzadas y robustas.
Ya con el modelo listo procedemos a efectuar la predicción del precio usando como datos de entrada las condiciones que exije el cliente del crédito preaprobado, dando los siguientes resultados:
## 1
## 331.6038
## 1
## 361.4762
Esta tabla no tiene en cuenta las características exactas exijidas por el cliente solo tiene en cuenta el precio:
| id | piso | estrato | preciom | areaconst | parqueaderos | banios | habitaciones | tipo | barrio | longitud | latitud | zona_corregida |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 109 | 1 | 4 | 350 | 126 | 0 | 3 | 3 | Casa | alfonso lópez | -76.48383 | 3.45853 | Zona Norte |
| 3779 | 3 | 4 | 350 | 98 | 2 | 3 | 4 | Casa | chipichape | -76.52840 | 3.48154 | Zona Norte |
| 4210 | 1 | 5 | 350 | 200 | 3 | 3 | 4 | Casa | el bosque | -76.53010 | 3.48503 | Zona Norte |
| 4209 | 2 | 5 | 350 | 300 | 3 | 5 | 6 | Casa | el bosque | -76.53010 | 3.48577 | Zona Norte |
| 4422 | 2 | 5 | 350 | 240 | 2 | 3 | 6 | Casa | el bosque | -76.53136 | 3.48635 | Zona Norte |
| 1270 | 2 | 5 | 350 | 203 | 2 | 2 | 5 | Casa | el bosque | -76.51448 | 3.48531 | Zona Norte |
| 819 | 2 | 5 | 350 | 264 | 2 | 3 | 4 | Casa | la flora | -76.50330 | 3.46412 | Zona Norte |
| 3060 | 2 | 5 | 350 | 110 | 1 | 4 | 3 | Casa | la flora | -76.52353 | 3.48157 | Zona Norte |
| 459 | 2 | 5 | 350 | 160 | 2 | 3 | 3 | Casa | la flora | -76.49632 | 3.46661 | Zona Norte |
| 1176 | 2 | 5 | 350 | 158 | 0 | 4 | 3 | Casa | la flora | -76.51273 | 3.48960 | Zona Norte |
| 1352 | 2 | 5 | 350 | 190 | 1 | 3 | 3 | Casa | la flora | -76.51538 | 3.48796 | Zona Norte |
| 1491 | 2 | 5 | 350 | 140 | 2 | 3 | 2 | Casa | la flora | -76.51608 | 3.48918 | Zona Norte |
| 937 | 2 | 4 | 350 | 280 | 2 | 3 | 4 | Casa | la merced | -76.50603 | 3.46643 | Zona Norte |
| 1163 | 2 | 5 | 350 | 216 | 2 | 2 | 4 | Casa | la merced | -76.51218 | 3.48181 | Zona Norte |
| 4850 | 3 | 5 | 350 | 145 | 0 | 3 | 4 | Casa | santa teresita | -76.53338 | 3.46446 | Zona Norte |
| 396 | 2 | 5 | 350 | 99 | 1 | 3 | 3 | Casa | urbanización la flora | -76.49500 | 3.46700 | Zona Norte |
| 1848 | 2 | 5 | 350 | 160 | 2 | 4 | 3 | Casa | urbanización la flora | -76.51800 | 3.48900 | Zona Norte |
| 1842 | 2 | 5 | 350 | 240 | 2 | 3 | 4 | Casa | vipasa | -76.51800 | 3.48100 | Zona Norte |
| 1943 | 2 | 5 | 350 | 346 | 1 | 2 | 4 | Casa | vipasa | -76.51847 | 3.47503 | Zona Norte |
Los resultados de las predicciones del modelo no arrojaron resultados exactos con todas las características solicitadas, es decir:
Tipo Casa Área construida 200 Parqueaderos 1 Baños 2 Habitaciones 4 Estrato 4 o 5 Zona Norte Crédito preaprobado 350 millones
| id | zona | piso | estrato | preciom | areaconst | parqueaderos | banios | habitaciones | tipo | barrio | longitud | latitud | zona_corregida |
|---|
En consecuencia la definición de la propuesta se hace con la mejor combinación de características y que correspondan exactamente al presupuesto disponible por el cliente:
| piso | estrato | preciom | areaconst | parqueaderos | banios | habitaciones | tipo | barrio | longitud | latitud | zona_corregida |
|---|---|---|---|---|---|---|---|---|---|---|---|
| 2 | 5 | 350 | 346 | 1 | 2 | 4 | Casa | vipasa | -76.51847 | 3.47503 | Zona Norte |
| 2 | 5 | 350 | 300 | 3 | 5 | 6 | Casa | el bosque | -76.53010 | 3.48577 | Zona Norte |
| 2 | 4 | 350 | 280 | 2 | 3 | 4 | Casa | la merced | -76.50603 | 3.46643 | Zona Norte |
| 2 | 5 | 350 | 264 | 2 | 3 | 4 | Casa | la flora | -76.50330 | 3.46412 | Zona Norte |
| 2 | 5 | 350 | 240 | 2 | 3 | 6 | Casa | el bosque | -76.53136 | 3.48635 | Zona Norte |
Ubicación de las tres mejores ofertas
CONCLUSIONES Y RECOMENDACIONES FINALES - El modelo tiene un buen ajuste, con un R-cuadrado de 0.6925. - Las variables significativas que afectan el precio son areaconst, los estratos (4, 5, 6), parqueaderos, y baños. - Habitaciones no es un predictivo significativo. - El modelo en su conjunto es altamente significativo, como lo demuestra el F-estadístico. - El modelo no cumple con la mayor parte de los supuestos por lo cual debe ser revisado en detalle e modo que sea valido.
Ahora bien, dada la complejidad del mercado inmobiliario es importante evaluar seriamente la pertinencia de este modelo para hacer predicciones en el mercado inmobiliario en Cali.
En este sentido lo consideramos no apto dado que no logra reflejar la complejidad de este mercado. Por ejemplo, entre las recomendaciones creemos que se hace necesario:
Plantearse el uso de otras características como: Seguridad del sector. Actividades económicas predominantes en el sector. Cantidad y calidad de la vías públicas. Impuestos en la zona. Infraestructura y costo de servicios públicos. Estado y antigüedad del inmueble. Materiales y acabados del inmueble.
Asegurar la calidad del dato, dado que en el conjunto de datos se registra información inverosímil que puede requerir juicio experto o peritazgo para ser imputados adecuadamente.