## Cargando paquete requerido: ggplot2
## Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa
## Cargando paquete requerido: usethis
## Cargando paquete requerido: boot
## Cargando paquete requerido: broom
## Cargando paquete requerido: GGally
## Registered S3 method overwritten by 'GGally':
## method from
## +.gg ggplot2
## Cargando paquete requerido: gridExtra
## Cargando paquete requerido: knitr
## Cargando paquete requerido: summarytools
##
## Adjuntando el paquete: 'dplyr'
## The following object is masked from 'package:gridExtra':
##
## combine
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
## # A tibble: 6 × 13
## id zona piso estrato preciom areaconst parqueaderos banios habitaciones
## <dbl> <chr> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 1147 Zona O… <NA> 3 250 70 1 3 6
## 2 1169 Zona O… <NA> 3 320 120 1 2 3
## 3 1350 Zona O… <NA> 3 350 220 2 2 4
## 4 5992 Zona S… 02 4 400 280 3 5 3
## 5 1212 Zona N… 01 5 260 90 1 2 3
## 6 1724 Zona N… 01 5 240 87 1 3 3
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>
INTRODUCCIÓN
Actualmente las ventas de bienes raíces en Cali se han visto disminuidas de manera significativa en lo corrido del año. Durante este periodo muchas instituciones bancarias de ahorro y vivienda están prestando grandes sumas de dinero para la industria y la construcción comercial y residencial. Cuando el efecto producto de las tensiones políticas y sociales disminuya, se espera que la actividad económica de este sector se reactive.
Hace dos días, María recibió una carta solicitando asesoría para la compra de dos viviendas por parte de una compañía internacional que desea reubicar a dos de sus empleados junto con sus familias en la ciudad. En respuesta, María se puso en contacto con DatAnalytics Consulting para que realizáramos un análisis de las ofertas disponibles en Cali, con el objetivo de sugerir la mejor opción a su cliente.
Es importante destacar que nos hemos caracterizado por la integridad en la prestación de nuestros servicios. Por ello, decidimos llevar a cabo un análisis basado en las opciones más favorables para el cliente, con la finalidad de establecer relaciones sostenibles y rentables a largo plazo. Además, buscamos asegurar que nuestras recomendaciones sean beneficiosas, ya que un enfoque a corto plazo que priorice ofrecer las viviendas más caras o las que generen mayores beneficios para María podría comprometer la fidelidad y credibilidad de los clientes hacia la compañía C&A.
Es importante destacar que este análisis se ha centrado únicamente en aspectos cuantitativos, sin considerar factores cualitativos como acabados, tiempo de uso y otros elementos que podrían influir en el valor real de las propiedades. Por ejemplo, la calidad de los materiales utilizados en la construcción, el estado de conservación de la vivienda, y las características estéticas pueden afectar significativamente la percepción del valor por parte de los compradores.
A continuación presentaremos un informe ejecutivo del análisis realizado.
1. Análisis y limpieza de los datos
Primeramente realizamos un análisis de los valores faltantes, de tal manera que podamos realizar procesos de imputación o eliminación de filas; de ser requerido, de tal manera que no se vean afectados los resultados del modelo:
## id zona piso estrato preciom areaconst
## 3 3 2638 3 2 3
## parqueaderos banios habitaciones tipo barrio longitud
## 1605 3 3 3 3 3
## latitud
## 3
## Número total de columnas: 13
## Numero total de filas: 8322
Con el objetivo de depurar la base de datos y eliminar los registros faltantes, se implementó una estrategia de imputación de datos basada en grupos, específicamente utilizando la variable “zona”. Esta técnica consistió en reemplazar los valores faltantes en las columnas de “piso” y “parqueaderos” con la mediana correspondiente a cada zona. Es fundamental señalar que, antes de llevar a cabo la imputación, es necesario verificar que los valores de las medianas no presenten decimales, dado que las variables “piso” y “parqueaderos” son discretas.
1.1. Mediana del piso por Zona
## # A tibble: 6 × 2
## zona mediana_piso
## <chr> <dbl>
## 1 Zona Centro 2
## 2 Zona Norte 3
## 3 Zona Oeste 4
## 4 Zona Oriente 2
## 5 Zona Sur 3
## 6 <NA> NA
1.2. Mediana del parqueaderos por Zona
## # A tibble: 6 × 2
## zona mediana_parqueaderos
## <chr> <dbl>
## 1 Zona Centro 1
## 2 Zona Norte 1
## 3 Zona Oeste 2
## 4 Zona Oriente 1
## 5 Zona Sur 1
## 6 <NA> NA
Teniendo en cuenta la consideración inicial de que los valores no nos dieran decimales, dado que ambas variables son discretas, procedemos con la imputación planteada inicialmente: mediana del piso/parqueaderos por zona.
1.3. Imputación de los valores faltantes de la columna piso con la mediana por zona
## # A tibble: 8,322 × 13
## id zona piso estrato preciom areaconst parqueaderos banios habitaciones
## <dbl> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 1147 Zona … 2 3 250 70 1 3 6
## 2 1169 Zona … 2 3 320 120 1 2 3
## 3 1350 Zona … 2 3 350 220 2 2 4
## 4 5992 Zona … 2 4 400 280 3 5 3
## 5 1212 Zona … 1 5 260 90 1 2 3
## 6 1724 Zona … 1 5 240 87 1 3 3
## 7 2326 Zona … 1 4 220 52 2 2 3
## 8 4386 Zona … 1 5 310 137 2 3 4
## 9 1209 Zona … 2 5 320 150 2 4 6
## 10 1592 Zona … 2 5 780 380 2 3 3
## # ℹ 8,312 more rows
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>
1.4. Imputación de los valores faltantes de la columna parqueaderos con la mediana por zona
## # A tibble: 8,322 × 13
## id zona piso estrato preciom areaconst parqueaderos banios habitaciones
## <dbl> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 1147 Zona … 2 3 250 70 1 3 6
## 2 1169 Zona … 2 3 320 120 1 2 3
## 3 1350 Zona … 2 3 350 220 2 2 4
## 4 5992 Zona … 2 4 400 280 3 5 3
## 5 1212 Zona … 1 5 260 90 1 2 3
## 6 1724 Zona … 1 5 240 87 1 3 3
## 7 2326 Zona … 1 4 220 52 2 2 3
## 8 4386 Zona … 1 5 310 137 2 3 4
## 9 1209 Zona … 2 5 320 150 2 4 6
## 10 1592 Zona … 2 5 780 380 2 3 3
## # ℹ 8,312 more rows
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>
Teniendo en cuenta que la cantidad de faltantes para todas las columnas (excepto “parqueaderos y piso”) es poco representativo respecto al total, optamos por eliminar estas filas.
Una vez completada la imputación, verificamos la cantidad de datos faltantes, lo que nos permite confirmar que la base de datos está limpia en términos de faltantes.
## id zona piso estrato preciom areaconst
## 0 0 0 0 0 0
## parqueaderos banios habitaciones tipo barrio longitud
## 0 0 0 0 0 0
## latitud
## 0
## [1] 8319
## [1] 13
——————————————————————————————————
2. PRIMER FILTRO: CASAS DE LA ZONA NORTE
2.1. Creación del subset de casas en la Zona Norte, a partir de la data inicial
En primer lugar, validamos si existen variables unicas en la columna Tipo y Zona, pues de no ser así, se debe realizar una estandarización de variables, para efectos de los análisis. Tal como se puede evidenciar, no es necesario aplicar un proceso de homologación, dado que la data se encuentra limpia para la columna tipo y zona, y únicamente se observan valores únicos.
## [1] "Casa" "Apartamento"
## [1] "Zona Oriente" "Zona Sur" "Zona Norte" "Zona Oeste" "Zona Centro"
Posteriormente generamos una tabla que se denominará vivienda_1 con los filtros establecidos en el ejercicio. En primer lugar filtraremos por Casa y Zona Norte.
## # A tibble: 6 × 13
## id zona piso estrato preciom areaconst parqueaderos banios habitaciones
## <dbl> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 1209 Zona N… 2 5 320 150 2 4 6
## 2 1592 Zona N… 2 5 780 380 2 3 3
## 3 4057 Zona N… 2 6 750 445 1 7 6
## 4 4460 Zona N… 2 4 625 355 3 5 5
## 5 6081 Zona N… 2 5 750 237 2 6 6
## 6 7824 Zona N… 2 4 600 160 1 4 5
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>
Mostramos lo 3 primeros registros:
## # A tibble: 3 × 13
## id zona piso estrato preciom areaconst parqueaderos banios habitaciones
## <dbl> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 1209 Zona N… 2 5 320 150 2 4 6
## 2 1592 Zona N… 2 5 780 380 2 3 3
## 3 4057 Zona N… 2 6 750 445 1 7 6
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>
2.2. Creación del mapa de puntos de la ciudad de Cali para las casas ubicadas en el norte
Posteriormente creamos el mapa con los puntos de las bases
El análisis del gráfico revela que no todos los puntos se encuentran en la Zona Norte. Se observa una considerable cantidad de valores atípicos distribuidos en las Zonas Sur, Oriente y Oeste. Esta situación puede deberse a errores en la catalogación de la base de datos, lo que ha llevado a asignar incorrectamente puntos a esta zona que, en realidad, no le corresponden. De igual forma, se pudo presentar un error geolocalización de los datos, donde los puntos se asignan incorrectamente a una zona debido a coordenadas erróneas.
2.3. Análisis exploratorio
2.3.1. Estrato predominante en Zona Norte
La gráfica muestra que el estrato predominante para las casas en la Zona Norte es el Estrato 5, seguido por el Estrato 3, el Estrato 4 y, en menor medida, el Estrato 6. Esto sugiere que esta zona está habitada principalmente por personas de niveles socioeconómicos que podrían clasificarse como Clase Media-Alta, con una representación significativa de la Clase Media. Por lo tanto, al seleccionar esta zona y el tipo de vivienda “Casa”, podemos inferir que la empresa busca ubicar a sus empleados en un área que se alinea con características socioeconómicas media-altas; tal como lo establecen las condiciones iniciales, donde se define que el estrato debe ser 4 o 5. Por lo anterior, se debe dar claridad a la empresa que la Zona por la cual estan optando, podra tener una infraestructura adecuada; donde podrán vivir en un entorno segura, con viviendas de mejor calidad, con acceso a comodidades y espacios adecuados para la vida familiar.
2.3.2. Gráfico de caja y bigotes - Precio por Estrato
Como se puede evidenciar en la gráfica de caja y bigotes,podemos analizar que para las casa de la Zona Norte los valores son los siguientes:
A partir de las condiciones brindadas por la empresa respecto al crédito aprobado, comenzamos a focalizar la estrategia comercial, contemplando únicamente dentro del alcance de la oferta a los estratos 3, 4 y 5, dado que el estrato 6, se encuentra superior al presupuesto definido que son 350 M, pues el valor mínimo de una vivienda en dicho estrato es de $430 M. De igual forma, observamos que el valor mediano en el estrato 3 es de $215 M y únicamente el 25% tiene un valor superior a $300 m; pudiendo descartar esta oferta, considerando la disponibilidad existente actualmente. Lo anterior, se encuentra muy alineado con las solicitudes de la compañía, donde se define que el estrato debe ser 4 o 5.
A simple vista y sin realizar un análisis de correlación mas estructurado, podemos observar que se evidencia una relación positiva entre el estrato y el precio; pues, tal como se puede observar en la gráfica a medida que aumenta el estrato, el precio de las viviendas incrementa de igual forma.
2.3.3. Gráfico de caja y bigotes - Área por Estrato
A partir del análisis del boxplot del área por estrato, podemos concluir que la mayor oferta de viviendas se encuentra en los estratos 4 y 5. En primer lugar, descartamos el estrato 3, ya que el 75% de las viviendas en este estrato tienen un área inferior a 195 m2. Al analizar el estrato 6, observamos que el 25% o menos de las viviendas tienen un área de 298 m2 o menos. Esto indica que la oferta es muy limitada en estos dos estratos, especialmente considerando que la empresa busca viviendas con un área de 200 m2. En este contexto, las casas en el estrato 3 son relativamente pequeñas, mientras que en el estrato 6 son considerablemente grandes frente a lo buscado por la compañía
En su defecto, los estratos 4 y 5 ofrecen una mayor variedad de viviendas que se ajustan a la búsqueda de 200 m2, ya que es probable que incluyan propiedades que cumplan con este requisito. La mediana en el estrato 4 es de 264 m2, mientras que en el estrato 5 es de 298 m2. Esto indica que, en ambos estratos, el 50% de las viviendas tienen un área inferior a la mediana, lo que sugiere una oferta significativa de opciones que podrían satisfacer la necesidad de una casa de 200 m2.
Al igual que en el caso del precio, observamos que a mayor estrato el tamaño de las viviendas incrementa.
2.4 Análisis exploratorio - Correlación entre variables
2.4.1. Análisis bivariado entre las variables independientes y la variable dependiente Precio
En el análisis del gráfico de dispersión, se puede observar una fuerte relación lineal positiva entre el precio y el área construida. Esto se evidencia tanto en la forma de la gráfica como en el valor del coeficiente de correlación, que es de 0.73. Este resultado sugiere que, en general, a medida que aumenta el área de una propiedad, también tiende a aumentar su precio, y viceversa.
Por otro lado, la correlación entre el precio y la cantidad de baños (0.52), así como entre el precio y el número de habitaciones (0,32), muestra una asociación positiva más débil. Esto se refleja en los coeficientes de correlación, que son inferiores a 0.8, indicando que, aunque existe una relación positiva, no es tan fuerte como la observada con el área construida. De igual forma, los gráficos no demuestran ningun patron visible que permita indicar la relación entre variables, pues se observa cierta dispersión de los puntos alrededor del eje.
A partir del análisis de las variables independientes, se puede observar que existe una correlación positiva débil entre ellas. En particular, la correlación entre el número de baños y el área construida es de 0.46. Asimismo, la correlación entre el área construida y el número de habitaciones es de 0.37. Por último, la correlación entre el número de baños y el número de habitaciones es de 0.576. Estos valores indican que, aunque hay una relación positiva entre estas variables, la fuerza de la correlación es relativamente baja. Aparentemente podriamos inferir que no existe multicolinealidad entre las variables predictoras, no obstante, es necesario efectuar análisis posteriores que permitan validar dicha hipotesis inical.
3. Estimación del modelo de Regresión Lineal Múltiple
3.1. Definición de variables categoricas como Dummies
De manera previa, a la estimación del modelo, debemos considerar que existen variables categoricas, las cuales requieren una re-definición, creando a partir de estas; nuevas variables conocidas como Dummies. Para este caso, convertiremos la variable estrato, en sus respectivas variables ficticias.
## # A tibble: 722 × 16
## id zona piso estrato preciom areaconst parqueaderos banios habitaciones
## <dbl> <chr> <dbl> <fct> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 1209 Zona … 2 5 320 150 2 4 6
## 2 1592 Zona … 2 5 780 380 2 3 3
## 3 4057 Zona … 2 6 750 445 1 7 6
## 4 4460 Zona … 2 4 625 355 3 5 5
## 5 6081 Zona … 2 5 750 237 2 6 6
## 6 7824 Zona … 2 4 600 160 1 4 5
## 7 7987 Zona … 2 5 420 200 4 4 5
## 8 3495 Zona … 3 5 490 118 2 4 4
## 9 141 Zona … 3 3 230 160 1 2 3
## 10 243 Zona … 3 3 190 435 1 0 0
## # ℹ 712 more rows
## # ℹ 7 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>,
## # E4 <dbl>, E5 <dbl>, E6 <dbl>
3.2. Estimación del modelo de RLM
A continuación realizamos la estimación del modelo de RLM
##
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos +
## banios, data = vivienda_1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -954.94 -72.39 -15.35 46.24 1076.58
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 26.56950 17.70444 1.501 0.1339
## areaconst 0.81832 0.04308 18.997 < 2e-16 ***
## estrato4 82.43683 17.36272 4.748 2.48e-06 ***
## estrato5 133.31930 16.48656 8.087 2.63e-15 ***
## estrato6 327.64135 26.46822 12.379 < 2e-16 ***
## habitaciones 1.14796 4.11279 0.279 0.7802
## parqueaderos 9.23613 5.23414 1.765 0.0781 .
## banios 24.81715 5.36415 4.626 4.42e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 156.6 on 714 degrees of freedom
## Multiple R-squared: 0.6626, Adjusted R-squared: 0.6593
## F-statistic: 200.3 on 7 and 714 DF, p-value: < 2.2e-16
Teniendo en cuenta la estimación del modelo de regresión, podemos validar lo siguiente:
3.2.1. Coeficientes
–>B0 (Intercepto):Si todas las variables predictoras son 0, se espera que el precio promedio en esta Zona sea de $26.5 M. No obstante, no es posible que suceda lo anterior, pues la vivienda deberia de tener como mínimo el área construida.
–>Area Construida: Se espera que por cada metro cuadrado adicional, el precio de la vivienda incremente en $818.000 pesos o $ 0,81 M. De igual forma, al analizar el p-valor de < 2e-16, observamos que el área construida tiene una efecto signicativo en el precio de la vivienda.
–>Habitaciones: Se espera que por una habitación adicional, el precio de la vivienda aumente en $1,14 M aprox. Lo anterior, se encuentra muy alineado con el precio adicional que tiene una vivienda a medida que se incrementa el área construida. Dado que el valor P de 0.7802 es mayor que el valor lambda de 0.05, podemos observar que la variable habitaciones no tiene un aporte significativo al modelo, en presencia de las otras variables.
–>Parqueadero: Se espera que por cada parqueadero adicional, el valor de la vivienda incremente en $9.2 M. Al igual que en el caso de habitaciones, podemos observar que esta variable no tiene un aporte significativo al modelo en presencia de las otras variables, pues el valor P 0.0781 > 0.05. –>Baños: Se espera que por cada baño adicional, el precio de la vivienda incremente en $24,81 M. El valor P de 4.42e-06; el cual es inferior a 0,05, nos indica que esta variable tiene un aporte significativo en el modelo.
3.2.2. Estadísticas del Modelo –>Residual standard error: Un error estándar residual de 159 sugiere que, en promedio, las predicciones del modelo se desvían de los valores observados en aproximadamente $159. –>Análisis del R2: Un valor de 0.6513 indica que el 65.13% de la variabilidad en el precio de las viviendas se explica por las variables del modelo.Aunque ambos valores sugieren que el modelo tiene un buen nivel de ajuste, este valor podria ser mejor y es importante analizar las causales que estan impidiendo alcanzar un valor mayor.
—> F-statistic: Un valor de 267.5 con un p-valor < 2.2e-16 indica que al menos una de las variables independientes es significativamente diferente de cero, lo que sugiere que el modelo en su conjunto es significativo.
3.2.3. Análisis Logico
De acuerdo con la información suministrada por la plataforma metro cuadrado, el valor promedio del metro cuadrado de una casa en Cali es de $2,093,023. No obstante, a partir de la estimación del modelo de regresión, un metro cuadrado adicional para una vivienda en la Zona Norte tendria un valor aprox de $819.000, por lo anterior podriamos inferir 2 situaciones: el valor de la vivienda en esta Zona es muy inferior al valor promedio de casas en Cali; que sería la hipotesis menos probable y de ser asi; sería una excelente opción de compra para las empresas que desean ubicar a sus empleados en esta zona. Por otro lado, podriamos considerar que los datos se encuentran desactualizados o errados; ocasionando cierto sesgo en los analisis realizados.
Al analizar el impacto del incremento en el precio por la adición de un baño, resulta poco razonable que el precio aumente en $25 millones por un baño adicional. Esta cifra parece desproporcionada, especialmente si consideramos que el aumento en el precio debería estar en consonancia con el área. Actualmente, se estima que por cada metro cuadrado adicional, el precio incrementa en $818,000.
Si tomamos como referencia un baño promedio de 4 metros cuadrados, el aumento máximo en el precio asociado a un baño de estas dimensiones sería de aproximadamente $3.2 millones. Esto sugiere que el incremento de $25 millones por un baño adicional no se justifica en función del área y el valor por metro cuadrado.
3.3. Estimación del modelo de RLM - Utilizando únicamente la relación entre Precio y Estrato
##
## Call:
## lm(formula = preciom ~ estrato, data = vivienda_1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -424.53 -114.90 -44.15 65.85 1390.47
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 244.15 13.73 17.780 <2e-16 ***
## estrato4 194.62 21.54 9.037 <2e-16 ***
## estrato5 305.37 18.76 16.274 <2e-16 ***
## estrato6 574.10 31.53 18.207 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 210.5 on 718 degrees of freedom
## Multiple R-squared: 0.3873, Adjusted R-squared: 0.3847
## F-statistic: 151.3 on 3 and 718 DF, p-value: < 2.2e-16
A partir del resumen de la regresión, podemos observar que:
El análisis revela que el precio promedio adicional de una vivienda en el estrato 4, en comparación con el estrato 3, es de $194 millones. En el caso del estrato 5, el precio promedio adicional asciende a $305 millones en relación con el estrato 3. Por último, para el estrato 6, el precio promedio adicional se eleva a $574 millones. Lo anterior, es totalmente lógico, pues a mayor estrato el costo de vida incrementa a raiz del aumento de los servicios publicos, la administración, entre otros.
4. Validación de supuestos
4.1. Análisis de los supuestos del modelo utilizando pruebas de hipotesis
## Cargando paquete requerido: zoo
##
## Adjuntando el paquete: 'zoo'
## The following objects are masked from 'package:base':
##
## as.Date, as.Date.numeric
## Cargando paquete requerido: carData
##
## Adjuntando el paquete: 'car'
## The following object is masked from 'package:dplyr':
##
## recode
## The following object is masked from 'package:boot':
##
## logit
##
## Shapiro-Wilk normality test
##
## data: residuals(modelo1)
## W = 0.82702, p-value < 2.2e-16
##
## Durbin-Watson test
##
## data: modelo1
## DW = 1.688, p-value = 9.791e-06
## alternative hypothesis: true autocorrelation is greater than 0
## Non-constant Variance Score Test
## Variance formula: ~ fitted.values
## Chisquare = 624.6269, Df = 1, p = < 2.22e-16
## GVIF Df GVIF^(1/(2*Df))
## areaconst 1.523647 1 1.234361
## estrato 1.555096 3 1.076365
## habitaciones 1.660296 1 1.288525
## parqueaderos 1.226016 1 1.107256
## banios 1.963375 1 1.401205
–> Prueba de Shapiro Wilk: Con respecto a la prueba de Shapiro Wilk, observamos que el primer supuesto de normalidad no se cumple, pues el valor P 2.2e-16 inferior al lambda de 0.05, nos indica que se rechaza la hipotesis nula; concluyendo de esta manera que los residuos del modelo NO siguen una distribución normal.
–> Prueba de Durbin-Watson: La prueba de Durbin Watson, nos deja ver que el principo de independencia no se cumple, pues el valor P 9.791e-06 inferior al lambda de 0.05, nos indica que se rechaza la hipotesis nula; concluyendo de esta manera que existe correlación entre los residuos.
–> Prueba de Breusche-Pagan: La prueba de Breusche Pagan, nos deja ver que el principo de homocedasticidad no se cumple, pues el valor P 2.22e-16 inferior al lambda de 0.05, nos indica que se rechaza la hipotesis nula; concluyendo de esta manera que existe heterocedasticidad en los residuos del modelo.
—>Prueba VIF de Multicolinealidad: -VIF = 1: Esto indica que no hay multicolinealidad. El predictor no está correlacionado con otros predictores, por lo que no infla el error típico ni afecta a la estabilidad del modelo. -VIF entre 1 y 5: Esto sugiere una multicolinealidad moderada. Existe cierta correlación con otros predictores, pero no suele ser grave. Sin embargo, merece la pena vigilar estos predictores para ver si la multicolinealidad se convierte en un problema, sobre todo si otros valores VIF son altos. -VIF > 5: Existe una alta multicolinealidad. El error típico del predictor puede estar notablemente inflado, lo que puede hacer que su coeficiente sea menos fiable. Considera la posibilidad de tomar medidas para reducir la multicolinealidad, como eliminar o combinar los predictores correlacionados. -VIF > 10: Esto indica una multicolinealidad grave. El error típico del predictor está muy inflado y la estimación de su coeficiente es probablemente inestable. Suelen ser necesarias acciones correctoras, como eliminar el predictor o utilizar técnicas de regularización.
Se presentan valores de GVIF (Generalized Variance Inflation Factor) para varias variables (areaconst, estrato, habitaciones, parqueaderos, banios). Todos los valores son mayores que 1 Y y menores que 5, lo que sugiere que hay multicolinealidad moderada en el modelo.
4.2. Análisis de los supuestos del modelo utilizando graficas de diagnostico
–>Residuales vs. Valores Ajustados: Aunque los residuos parecen estar distribuidos aleatoriamente, hay una ligera tendencia a aumentar la variabilidad de los residuos a medida que los valores ajustados aumentan. Esto podría indicar la presencia de heterocedasticidad, donde la varianza de los errores no es constante a lo largo de los valores ajustados.. Se pueden observar tres puntos etiquetados con los números 208, 5130 y 632 que podrian ser considerados como atipicos.
–>Q-Q Plot de Residuos: En esta gráfica, los puntos se desvían de la línea diagonal, especialmente en los extremos (colas). Esto sugiere que los residuos no siguen una distribución normal, lo cual es un supuesto importante en la regresión lineal. La desviación en las colas indica que puede haber valores atípicos o que la distribución de los residuos es asimétrica.
–>Scale-Location: Se observa una tendencia ascendente en la línea de ajuste (la línea roja). Esto sugiere que la varianza de los residuos no es constante a lo largo de los valores ajustados. En otras palabras, a medida que los valores ajustados aumentan, la dispersión de los residuos también parece aumentar. La presencia de esta tendencia indica que hay heterocedasticidad en el modelo. Esto significa que los errores del modelo no tienen una varianza constante, lo que puede afectar la validez de las inferencias estadísticas realizadas a partir del modelo.
–>Residuales vs. Leverage:
Se observa que hay algunos puntos con alto leverage (influencia) que están más alejados de la línea de referencia. Esto puede indicar la presencia de puntos influyentes que podrían estar afectando el ajuste del modelo. Es importante investigar estos puntos para determinar si son outliers o si representan una variabilidad real en los datos.Los puntos etiquetados (como 632, 702 y 186.) son candidatos a ser influyentes y deben ser examinados más de cerca
4.3. Recomendaciones para mejorar la validación de los supuestos del modelo
4.3.1. Normalidad de los Residuos: Se podria considerar aplicar transformaciones a la variable dependiente (como logaritmos, raíces cuadradas o Box-Cox) para intentar lograr que los residuos se distribuyan de manera más normal.
Si la transformación no es efectiva, se podría considerar el uso de modelos que no asuman normalidad, como modelos de regresión robusta o modelos de regresión no paramétrica.
4.3.2. Independencia de los Residuos: Se podrían realizar análisis más profundo de la autocorrelación de los residuos utilizando gráficos de autocorrelación (ACF) y autocorrelación parcial (PACF) para identificar patrones.Para el caso de que existan variables relevantes que no se han incluido en el modelo, se puede considerar agregarlas. Esto puede ayudar a eliminar la correlación entre los residuos.
4.3.3. Homocedasticidad: Al igual que con la normalidad, las transformaciones de la variable dependiente pueden ayudar a estabilizar la varianza de los residuos.De igual forma se puede considerar el uso de regresión ponderada, donde se asignan pesos a las observaciones para abordar la heterocedasticidad.
4.3.4. Multicolinealidad: Aunque los VIF están entre 1 y 5, es recomendable revisar la correlación entre los predictores. Si algunos predictores están altamente correlacionados, se debe considerar eliminar uno de ellos o combinar variables. Si la multicolinealidad se convierte en un problema, se puede considerar el uso de técnicas de regularización como Lasso o Ridge, que pueden ayudar a reducir la influencia de predictores correlacionados.
5. Predicción del precio de la vivienda con las caracteristicas de la primera solicitud
5.1. Ingresamos los valores que tendrá la función, de acuerdo a las especificaciones de la organización
## areaconst parqueaderos estrato banios habitaciones
## 1 200 1 4 2 4
## 2 200 1 5 2 4
5.2. Realizamos la predicción del precio de la vivienda
## 1 2
## 336.1336 387.0161
5.3. Análisis de la predicción
Según los resultados obtenidos del modelo, y considerando las condiciones especificadas por la empresa —un área construida de 200 m2, 1 parqueadero, 4 habitaciones y 2 baños- en estrato 4, el precio estimado de la vivienda sería de aproximadamente $336.13 millones. En contraste, para una vivienda en estrato 5, el precio ascendería a alrededor de $387 millones.
Dado lo anterior y teniendo en cuenta las limitaciones específicamente del crédito aprobado de $350 millones, podemos concluir que la opción que mejor se adapta a las necesidades de la empresa es la vivienda en estrato 4. Esto se debe a que el costo de la vivienda en estrato 5 excede la restricción presupuestaria establecida.
6. Recomendación de las potenciales ofertas que responden a la solicitud de la empresa
## # A tibble: 16 × 16
## id zona piso estrato preciom areaconst parqueaderos banios habitaciones
## <dbl> <chr> <dbl> <fct> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 7471 Zona … 3 4 330 240 1 4 4
## 2 4458 Zona … 2 4 315 270 2 4 4
## 3 2837 Zona … 3 4 340 207 1 4 4
## 4 3352 Zona … 3 4 335 300 3 4 4
## 5 4727 Zona … 2 4 296 232 1 6 4
## 6 937 Zona … 2 4 350 280 2 3 4
## 7 952 Zona … 2 4 330 275 2 3 5
## 8 1020 Zona … 2 4 230 250 2 3 5
## 9 1108 Zona … 2 4 330 260 1 3 4
## 10 1144 Zona … 3 4 320 200 2 4 4
## 11 7432 Zona … 1 4 260 280 2 4 6
## 12 4488 Zona … 1 4 350 265 1 4 5
## 13 5031 Zona … 3 4 350 350 1 4 5
## 14 2544 Zona … 1 4 340 264. 2 4 4
## 15 7470 Zona … 2 4 340 264 2 5 7
## 16 1822 Zona … 3 4 340 295 2 2 4
## # ℹ 7 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>,
## # E4 <dbl>, E5 <dbl>, E6 <dbl>
En respuesta a la solicitud de la empresa, podemos comenzar nuestro análisis a partir 16 ofertas que se detallan en la tabla. Estas viviendas tienen un precio igual o inferior a $350 millones y cumplen con los requisitos mínimos establecidos por la empresa en relación con otros atributos específicos, como el área construida, el número de parqueaderos, baños y demás características solicitadas.
6.1. Geolocalización de los puntos de las posibles ofertas potenciales
Por medio del mapa, podemos observar que existen puntos que no se encuentran ubicados en la Zona Norte, por tal razón; dichas viviendas seran desestimadas dentro de la oferta sugerida al cliente. Son los casos por ejemplo del ID: 3352, 7432 7471 y 7470, entre otros. Ahora bien, dentro de los puntos que observamos que se encuentran geolocalizados de manera correcta, encontramos los siguientes ID: 4458, 2544, 1822, 1144, 1020, 952, 1108. Sobre dichos casos realizaremos el análisis, con la finalidad de definir las propuestas más conveniente para el cliente.
6.2. Ofertas potenciales
## # A tibble: 7 × 16
## id zona piso estrato preciom areaconst parqueaderos banios habitaciones
## <dbl> <chr> <dbl> <fct> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 4458 Zona N… 2 4 315 270 2 4 4
## 2 952 Zona N… 2 4 330 275 2 3 5
## 3 1020 Zona N… 2 4 230 250 2 3 5
## 4 1108 Zona N… 2 4 330 260 1 3 4
## 5 1144 Zona N… 3 4 320 200 2 4 4
## 6 2544 Zona N… 1 4 340 264. 2 4 4
## 7 1822 Zona N… 3 4 340 295 2 2 4
## # ℹ 7 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>,
## # E4 <dbl>, E5 <dbl>, E6 <dbl>
A partir de la predicción del modelo, una vivienda con las especificaciones de la solicitud tendría un valor estimado de $336.13 millones.
Análisis de las primeras 5 posibles ofertas:
–>Vivienda 4458: Al analizar esta vivienda, notamos que su precio de $315 millones es inferior al estimado por el modelo. Es importante destacar que, en comparación con las variables predichas, esta casa cuenta con un parqueadero adicional y dos baños extra. Por lo tanto, podríamos considerar que es una opción atractiva, ya que, adicionalmente ofrece un área adicional de 70M y amenidades que no estaban contempladas en la oferta inicial, además de ser $21 millones más económica que el valor predicho por el modelo.
–>Vivienda 952: Al analizar esta vivienda, notamos que su precio de $330 millones es inferior en 6 millones aprox. al estimado por el modelo. Es importante destacar que, en comparación con las variables predichas, esta casa es 75 M más grande, dado que su área es de 275 M. De igual forma, tiene un parqueadero, un baño y una habitación adicional. Por lo tanto, tambien se podría considerar como una oferta atractiva, ya que ofrece amenidades adicionales, es más amplia y a su vez, más economica.
–>Vivienda 1020 (Oferta estrella): Al analizar esta propiedad, observamos que su precio de $230 millones es aproximadamente $106 millones inferior al estimado por el modelo. Es relevante señalar que, en comparación con las variables proyectadas, esta casa es 50 más grande, con un área total de 250 M. Además, cuenta con un parqueadero, un baño y una habitación adicional. Por lo tanto, se puede considerar una oferta atractiva, ya que no solo ofrece amenidades adicionales, sino que también es más espaciosa y económica.
–>Vivienda 1108:Al analizar esta vivienda, notamos que su precio de $330 millones es inferior en 6 millones aprox. al estimado por el modelo. Es importante destacar que, en comparación con las variables predichas, esta casa es 60 M más grande, dado que su área es de 260 M. No obstante, al compararlo la vivienda 952 que tiene similitud en el precio y en el barrio, podemos observar que no podria ser del todo atractiva, pues tendría 10 M menos, 1 baño menos y una habitación menos en comparación con la vivienda 952.
–>Vivienda 1144: Al analizar esta propiedad, observamos que su precio de $320 millones es aproximadamente $16 millones inferior al estimado por el modelo. Es relevante señalar que, en comparación con las variables proyectadas, esta casa tiene la misma área de 200 M, 1 parqueadero adicional y 2 baños adicionales. Por lo que en comparación con el modelo predicho, esta sería una buena oferta para nuestro cliente. No obstante, se puede observar en el gráfico que analizaremos a continuación que dicha vivienda cuenta con el precio por área mas costoso de la muestra seleccionada.
6.3. Precio por área de las ofertas disponibles
## # A tibble: 7 × 4
## id preciom areaconst precioporarea
## <dbl> <dbl> <dbl> <dbl>
## 1 1020 230 250 0.92
## 2 1822 340 295 1.15
## 3 4458 315 270 1.17
## 4 952 330 275 1.2
## 5 1108 330 260 1.27
## 6 2544 340 264. 1.29
## 7 1144 320 200 1.6
En primer lugar, si la empresa esta buscando la mejor oferta en términos de precio, podriamos ofrecer las siguientes viviendas, las cuales tienen el precio por área construida más bajo de la oferta seleccionada:
Top 5 viviendas con el precio por área más asequible:
A partir de lo anterior, podemos concluir que la vivienda 1020 se adapta de manera óptima a la solicitud del cliente, ya que presenta el precio por área más bajo en comparación con las ofertas disponibles. Aunque cuenta con 50 metros adicionales a los especificados en la solicitud, su precio no supera el crédito aprobado de $350 millones.
Además, al comparar esta vivienda con la vivienda 1144, que tiene un área construida de 200 metros (como se solicitó), observamos que, a pesar de los 50 metros adicionales, el valor de la vivienda 1020 es inferior en $90 millones. Esto la convierte en una excelente opción de compra en términos de costo-beneficio.
Cabe destacar que ambas viviendas están ubicadas en el mismo barrio y pertenecen al mismo estrato, lo que resalta aún más la ventaja de la vivienda 1020, cuyo precio es significativamente más bajo.
6.4. Identificación de observaciones extremas en el modelo de RLM
6.4.1. Cálculo de los residuos
En primer lugar, graficaremos los residuos para buscar patrones que pueden ser inusuales, de forma posterior, calcularemos el Z-score de los residuos para cada observación; estableciendo como referencia un nivel de 2. Un Z-score mayor que 2 o menor que -2, se considerará como atípico.
## # A tibble: 34 × 16
## id zona piso estrato preciom areaconst parqueaderos banios habitaciones
## <dbl> <chr> <dbl> <fct> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 3602 Zona … 3 5 1400 480 1 6 5
## 2 5616 Zona … 3 5 900 223 1 7 5
## 3 5944 Zona … 3 6 460 350 1 5 6
## 4 6155 Zona … 3 6 550 395 1 8 6
## 5 7245 Zona … 3 4 1200 752 1 0 0
## 6 3776 Zona … 3 6 1000 270 1 4 3
## 7 4540 Zona … 3 6 1200 333 1 4 3
## 8 6068 Zona … 3 6 1600 730 1 7 5
## 9 7542 Zona … 3 6 1200 374 1 4 4
## 10 5772 Zona … 3 5 870 292 2 5 8
## # ℹ 24 more rows
## # ℹ 7 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>,
## # E4 <dbl>, E5 <dbl>, E6 <dbl>
Los residuos no están distribuidos aleatoriamente alrededor de la línea horizontal (que representa el valor cero). Parece haber una tendencia, ya que los residuos tienden a aumentar a medida que los valores ajustados aumentan. Esto sugiere que el modelo puede estar subestimando los valores en el rango superior y sobrestimando en el rango inferior.
A partir de la tabla generada de los valores atipicos identificados por medio del método de Z-Score, resultaron 34 observaciones, las cuales serán comparadas con las que nos arroje el Criterio de Cook.
6.4.2. Criterio de Cook
## # A tibble: 49 × 16
## id zona piso estrato preciom areaconst parqueaderos banios habitaciones
## <dbl> <chr> <dbl> <fct> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 3602 Zona … 3 5 1400 480 1 6 5
## 2 5616 Zona … 3 5 900 223 1 7 5
## 3 5944 Zona … 3 6 460 350 1 5 6
## 4 6155 Zona … 3 6 550 395 1 8 6
## 5 6806 Zona … 3 6 1400 960 1 4 3
## 6 6872 Zona … 3 6 1150 500 1 6 5
## 7 7245 Zona … 3 4 1200 752 1 0 0
## 8 3776 Zona … 3 6 1000 270 1 4 3
## 9 4540 Zona … 3 6 1200 333 1 4 3
## 10 5125 Zona … 3 6 900 200 1 3 4
## # ℹ 39 more rows
## # ℹ 7 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>,
## # E4 <dbl>, E5 <dbl>, E6 <dbl>
Aplicando el Criterio de Cook, obseramos 49 valores atipicos, los cuales comparamos con los que nos arrojÓ el Z-Score de Residuos, para determinar un comun denominador de las posibles observaciones, estarían impactando en el modelo; las cuales se detallan a continuación.
6.4.3. Valores atipicos identificados
## id zona.x piso.x estrato.x preciom.x areaconst.x parqueaderos.x
## 1 534 Zona Norte 3 3 370 1440.0 1
## 2 2851 Zona Norte 1 5 990 290.0 4
## 3 3056 Zona Norte 3 6 430 300.0 3
## 4 3284 Zona Norte 3 6 1250 330.0 6
## 5 3449 Zona Norte 1 5 1500 400.0 2
## 6 3602 Zona Norte 3 5 1400 480.0 1
## 7 3776 Zona Norte 3 6 1000 270.0 1
## 8 3858 Zona Norte 3 4 1650 734.0 1
## 9 4056 Zona Norte 1 5 1600 942.0 4
## 10 4116 Zona Norte 2 4 810 260.0 3
## 11 4322 Zona Norte 3 6 490 452.0 3
## 12 4324 Zona Norte 2 5 1200 523.3 2
## 13 4349 Zona Norte 3 5 650 1188.0 4
## 14 4540 Zona Norte 3 6 1200 333.0 1
## 15 4542 Zona Norte 3 5 1400 265.0 1
## 16 4548 Zona Norte 2 5 850 296.0 4
## 17 4561 Zona Norte 3 5 1000 350.0 2
## 18 4564 Zona Norte 3 5 1940 734.0 3
## 19 4707 Zona Norte 3 4 900 300.0 1
## 20 4793 Zona Norte 2 4 1800 607.0 1
## 21 4975 Zona Norte 3 6 680 452.0 1
## 22 5247 Zona Norte 2 5 1100 500.0 4
## 23 5263 Zona Norte 3 6 1500 470.0 3
## 24 5444 Zona Norte 3 6 850 736.0 4
## 25 5616 Zona Norte 3 5 900 223.0 1
## 26 5710 Zona Norte 2 5 1530 776.0 6
## 27 5772 Zona Norte 3 5 870 292.0 2
## 28 5944 Zona Norte 3 6 460 350.0 1
## 29 6068 Zona Norte 3 6 1600 730.0 1
## 30 6143 Zona Norte 3 3 1100 500.0 1
## 31 6155 Zona Norte 3 6 550 395.0 1
## 32 7245 Zona Norte 3 4 1200 752.0 1
## 33 7542 Zona Norte 3 6 1200 374.0 1
## 34 8319 Zona Norte 3 5 1400 838.0 1
## banios.x habitaciones.x tipo.x barrio.x longitud.x latitud.x
## 1 4 10 Casa villa del prado -76.49815 3.46343
## 2 3 3 Casa la flora -76.52235 3.48566
## 3 5 5 Casa la flora -76.52353 3.48157
## 4 5 4 Casa menga -76.52566 3.49078
## 5 3 4 Casa menga -76.52636 3.49331
## 6 6 5 Casa acopi -76.52726 3.36365
## 7 4 3 Casa Cali -76.52835 3.35453
## 8 5 10 Casa san vicente -76.52900 3.46700
## 9 4 10 Casa versalles -76.52950 3.46600
## 10 4 5 Casa san vicente -76.52991 3.46756
## 11 6 8 Casa santa monica -76.53092 3.46830
## 12 4 7 Casa versalles -76.53093 3.46025
## 13 6 6 Casa el bosque -76.53100 3.48400
## 14 4 3 Casa Cali -76.53199 3.35133
## 15 10 10 Casa vipasa -76.53200 3.45200
## 16 2 4 Casa santa monica -76.53200 3.46300
## 17 3 3 Casa santa mónica residencial -76.53200 3.47000
## 18 8 10 Casa san vicente -76.53200 3.45200
## 19 0 0 Casa granada -76.53249 3.45951
## 20 4 8 Casa granada -76.53300 3.45900
## 21 10 10 Casa zona norte -76.53406 3.45962
## 22 5 5 Casa granada -76.53533 3.45777
## 23 6 5 Casa santa monica -76.53540 3.46210
## 24 8 9 Casa juanamb√∫ -76.53673 3.45665
## 25 7 5 Casa acopi -76.53766 3.36366
## 26 6 10 Casa san vicente -76.53800 3.44900
## 27 5 8 Casa centenario -76.53814 3.45340
## 28 5 6 Casa acopi -76.53969 3.45407
## 29 7 5 Casa Cali -76.54036 3.36983
## 30 8 5 Casa salomia -76.54100 3.45100
## 31 8 6 Casa acopi -76.54100 3.38022
## 32 0 0 Casa acopi -76.54835 3.42826
## 33 4 4 Casa Cali -76.55008 3.34102
## 34 5 5 Casa la flora -76.58915 3.46467
## E4.x E5.x E6.x zona.y piso.y estrato.y preciom.y areaconst.y
## 1 0 0 0 Zona Norte 3 3 370 1440.0
## 2 0 1 0 Zona Norte 1 5 990 290.0
## 3 0 0 1 Zona Norte 3 6 430 300.0
## 4 0 0 1 Zona Norte 3 6 1250 330.0
## 5 0 1 0 Zona Norte 1 5 1500 400.0
## 6 0 1 0 Zona Norte 3 5 1400 480.0
## 7 0 0 1 Zona Norte 3 6 1000 270.0
## 8 1 0 0 Zona Norte 3 4 1650 734.0
## 9 0 1 0 Zona Norte 1 5 1600 942.0
## 10 1 0 0 <NA> NA <NA> NA NA
## 11 0 0 1 Zona Norte 3 6 490 452.0
## 12 0 1 0 Zona Norte 2 5 1200 523.3
## 13 0 1 0 Zona Norte 3 5 650 1188.0
## 14 0 0 1 Zona Norte 3 6 1200 333.0
## 15 0 1 0 Zona Norte 3 5 1400 265.0
## 16 0 1 0 Zona Norte 2 5 850 296.0
## 17 0 1 0 Zona Norte 3 5 1000 350.0
## 18 0 1 0 Zona Norte 3 5 1940 734.0
## 19 1 0 0 Zona Norte 3 4 900 300.0
## 20 1 0 0 Zona Norte 2 4 1800 607.0
## 21 0 0 1 Zona Norte 3 6 680 452.0
## 22 0 1 0 Zona Norte 2 5 1100 500.0
## 23 0 0 1 Zona Norte 3 6 1500 470.0
## 24 0 0 1 Zona Norte 3 6 850 736.0
## 25 0 1 0 Zona Norte 3 5 900 223.0
## 26 0 1 0 Zona Norte 2 5 1530 776.0
## 27 0 1 0 <NA> NA <NA> NA NA
## 28 0 0 1 Zona Norte 3 6 460 350.0
## 29 0 0 1 Zona Norte 3 6 1600 730.0
## 30 0 0 0 Zona Norte 3 3 1100 500.0
## 31 0 0 1 Zona Norte 3 6 550 395.0
## 32 1 0 0 Zona Norte 3 4 1200 752.0
## 33 0 0 1 Zona Norte 3 6 1200 374.0
## 34 0 1 0 Zona Norte 3 5 1400 838.0
## parqueaderos.y banios.y habitaciones.y tipo.y barrio.y
## 1 1 4 10 Casa villa del prado
## 2 4 3 3 Casa la flora
## 3 3 5 5 Casa la flora
## 4 6 5 4 Casa menga
## 5 2 3 4 Casa menga
## 6 1 6 5 Casa acopi
## 7 1 4 3 Casa Cali
## 8 1 5 10 Casa san vicente
## 9 4 4 10 Casa versalles
## 10 NA NA NA <NA> <NA>
## 11 3 6 8 Casa santa monica
## 12 2 4 7 Casa versalles
## 13 4 6 6 Casa el bosque
## 14 1 4 3 Casa Cali
## 15 1 10 10 Casa vipasa
## 16 4 2 4 Casa santa monica
## 17 2 3 3 Casa santa mónica residencial
## 18 3 8 10 Casa san vicente
## 19 1 0 0 Casa granada
## 20 1 4 8 Casa granada
## 21 1 10 10 Casa zona norte
## 22 4 5 5 Casa granada
## 23 3 6 5 Casa santa monica
## 24 4 8 9 Casa juanamb√∫
## 25 1 7 5 Casa acopi
## 26 6 6 10 Casa san vicente
## 27 NA NA NA <NA> <NA>
## 28 1 5 6 Casa acopi
## 29 1 7 5 Casa Cali
## 30 1 8 5 Casa salomia
## 31 1 8 6 Casa acopi
## 32 1 0 0 Casa acopi
## 33 1 4 4 Casa Cali
## 34 1 5 5 Casa la flora
## longitud.y latitud.y E4.y E5.y E6.y
## 1 -76.49815 3.46343 0 0 0
## 2 -76.52235 3.48566 0 1 0
## 3 -76.52353 3.48157 0 0 1
## 4 -76.52566 3.49078 0 0 1
## 5 -76.52636 3.49331 0 1 0
## 6 -76.52726 3.36365 0 1 0
## 7 -76.52835 3.35453 0 0 1
## 8 -76.52900 3.46700 1 0 0
## 9 -76.52950 3.46600 0 1 0
## 10 NA NA NA NA NA
## 11 -76.53092 3.46830 0 0 1
## 12 -76.53093 3.46025 0 1 0
## 13 -76.53100 3.48400 0 1 0
## 14 -76.53199 3.35133 0 0 1
## 15 -76.53200 3.45200 0 1 0
## 16 -76.53200 3.46300 0 1 0
## 17 -76.53200 3.47000 0 1 0
## 18 -76.53200 3.45200 0 1 0
## 19 -76.53249 3.45951 1 0 0
## 20 -76.53300 3.45900 1 0 0
## 21 -76.53406 3.45962 0 0 1
## 22 -76.53533 3.45777 0 1 0
## 23 -76.53540 3.46210 0 0 1
## 24 -76.53673 3.45665 0 0 1
## 25 -76.53766 3.36366 0 1 0
## 26 -76.53800 3.44900 0 1 0
## 27 NA NA NA NA NA
## 28 -76.53969 3.45407 0 0 1
## 29 -76.54036 3.36983 0 0 1
## 30 -76.54100 3.45100 0 0 0
## 31 -76.54100 3.38022 0 0 1
## 32 -76.54835 3.42826 1 0 0
## 33 -76.55008 3.34102 0 0 1
## 34 -76.58915 3.46467 0 1 0
6.4.4. Generación del nueva database después de la limpieza de valores atipicos
## # A tibble: 688 × 16
## id zona piso estrato preciom areaconst parqueaderos banios habitaciones
## <dbl> <chr> <dbl> <fct> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 1209 Zona … 2 5 320 150 2 4 6
## 2 1592 Zona … 2 5 780 380 2 3 3
## 3 4057 Zona … 2 6 750 445 1 7 6
## 4 4460 Zona … 2 4 625 355 3 5 5
## 5 6081 Zona … 2 5 750 237 2 6 6
## 6 7824 Zona … 2 4 600 160 1 4 5
## 7 7987 Zona … 2 5 420 200 4 4 5
## 8 3495 Zona … 3 5 490 118 2 4 4
## 9 141 Zona … 3 3 230 160 1 2 3
## 10 243 Zona … 3 3 190 435 1 0 0
## # ℹ 678 more rows
## # ℹ 7 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>,
## # E4 <dbl>, E5 <dbl>, E6 <dbl>
6.4.5. Modelo de RLM para el nuevo data base sin valores atipicos
##
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos +
## banios, data = vivienda_1_limpia)
##
## Residuals:
## Min 1Q Median 3Q Max
## -274.25 -56.23 -10.17 45.45 326.10
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 45.94532 11.72299 3.919 9.78e-05 ***
## areaconst 0.75398 0.03187 23.657 < 2e-16 ***
## estrato4 66.62293 11.18057 5.959 4.08e-09 ***
## estrato5 114.85970 10.65843 10.776 < 2e-16 ***
## estrato6 327.79073 18.17814 18.032 < 2e-16 ***
## habitaciones -0.02181 2.69976 -0.008 0.99356
## parqueaderos 10.64148 3.44169 3.092 0.00207 **
## banios 23.44284 3.64713 6.428 2.44e-10 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 98.45 on 680 degrees of freedom
## Multiple R-squared: 0.7877, Adjusted R-squared: 0.7855
## F-statistic: 360.4 on 7 and 680 DF, p-value: < 2.2e-16
A continuación, procederemos a validar los supuestos antes de evaluar los resultados del modelo. Es fundamental asegurarnos de que se cumplan estos supuestos previamente, ya que son esenciales para garantizar la validez de los coeficientes obtenidos.
6.5 Validación de supuestos del modelo sin outliers
6.5.1. Análisis de los supuestos del modelo utilizando pruebas de hipotesis
##
## Shapiro-Wilk normality test
##
## data: residuals(modelo6)
## W = 0.97459, p-value = 1.473e-09
##
## Durbin-Watson test
##
## data: modelo6
## DW = 1.8985, p-value = 0.08087
## alternative hypothesis: true autocorrelation is greater than 0
## Non-constant Variance Score Test
## Variance formula: ~ fitted.values
## Chisquare = 170.6222, Df = 1, p = < 2.22e-16
## GVIF Df GVIF^(1/(2*Df))
## areaconst 1.583063 1 1.258198
## estrato 1.593164 3 1.080712
## habitaciones 1.557572 1 1.248027
## parqueaderos 1.236962 1 1.112188
## banios 1.934519 1 1.390870
A partir de las pruebas de hipótesis, podemos concluir que los resultados obtenidos en las pruebas de son similares a los iniciales. Esto sugiere que los supuestos del modelo no se cumplen, a pesar de haber descartado los valores atípicos de los datos. Pues como se puede evidenciar los valores P son inferiores al nivel de significancia de 0.05, lo que nos indica que se rechaza la hipotesis nula de normalidad, homocedasticidad e independencia. De igual forma , se sigue evidenciando una multicolinealidad moderada, pues los valores del VIF se encuentran entre 1 y 5.
6.6 Validación Cruzada
Finalmente generamos un modelo de validación cruzada, para evaluar si el modelo de regresión conserva una estabilidad:
## Warning: package 'caret' was built under R version 4.4.3
## Cargando paquete requerido: lattice
##
## Adjuntando el paquete: 'lattice'
## The following object is masked from 'package:boot':
##
## melanoma
##
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos +
## banios, data = train_data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -746.00 -74.91 -15.31 40.57 1038.88
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 11.58142 20.38974 0.568 0.570289
## areaconst 0.89549 0.05064 17.684 < 2e-16 ***
## estrato4 75.02613 20.03191 3.745 0.000201 ***
## estrato5 124.29003 19.59775 6.342 5.09e-10 ***
## estrato6 314.92982 31.91217 9.869 < 2e-16 ***
## habitaciones 4.11787 4.79114 0.859 0.390491
## parqueaderos 9.82844 6.41025 1.533 0.125851
## banios 22.04436 6.05290 3.642 0.000299 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 153.8 on 499 degrees of freedom
## Multiple R-squared: 0.6938, Adjusted R-squared: 0.6895
## F-statistic: 161.5 on 7 and 499 DF, p-value: < 2.2e-16
##
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos +
## banios, data = vivienda_1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -954.94 -72.39 -15.35 46.24 1076.58
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 26.56950 17.70444 1.501 0.1339
## areaconst 0.81832 0.04308 18.997 < 2e-16 ***
## estrato4 82.43683 17.36272 4.748 2.48e-06 ***
## estrato5 133.31930 16.48656 8.087 2.63e-15 ***
## estrato6 327.64135 26.46822 12.379 < 2e-16 ***
## habitaciones 1.14796 4.11279 0.279 0.7802
## parqueaderos 9.23613 5.23414 1.765 0.0781 .
## banios 24.81715 5.36415 4.626 4.42e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 156.6 on 714 degrees of freedom
## Multiple R-squared: 0.6626, Adjusted R-squared: 0.6593
## F-statistic: 200.3 on 7 and 714 DF, p-value: < 2.2e-16
## Coefficients_Initial Coefficients_Estimated
## (Intercept) 26.5694973 11.5814239
## areaconst 0.8183248 0.8954908
## estrato4 82.4368330 75.0261340
## estrato5 133.3193049 124.2900336
## estrato6 327.6413519 314.9298170
## habitaciones 1.1479640 4.1178656
## parqueaderos 9.2361326 9.8284405
## banios 24.8171470 22.0443633
## [1] 0.7608669
## [1] 0.6626035
Modelo de Estimación (train_data):
R2: 0.6938, lo que indica que aproximadamente el 69.38% de la variabilidad en el precio (preciom) puede ser explicada por las variables independientes en este modelo.
Coeficientes Significativos: areaconst, estrato4, estrato5, estrato6, y banios son estadísticamente significativos (p < 0.05). habitaciones y parqueaderos no son significativos (p > 0.05). Error Estándar Residual: 153.8, lo que indica la magnitud promedio de los errores de predicción.
Modelo Inicial:
R2: 0.6626, lo que sugiere que el modelo inicial tiene un poder explicativo ligeramente menor que el modelo de estimación.
Coeficientes Significativos: Similar al modelo de estimación, los mismos predictores son significativos, pero el coeficiente de habitaciones sigue siendo no significativo. Error Estándar Residual: 156.6, también indica una magnitud de error similar al modelo de estimación.
Los coeficientes de los modelos son diferentes, especialmente el intercepto y los coeficientes de areaconst, estrato, y banios. Esto sugiere que el modelo de estimación (train_data) ha ajustado mejor los datos en comparación con el modelo inicial. Por ejemplo, el coeficiente de estrato6 en el modelo de estimación es 314.93, mientras que en el modelo inicial es 327.64. Esto indica que el efecto de este estrato en el precio es ligeramente menor en el modelo de estimación.
La correlación entre los valores reales de preciom y los valores predichos en el modelo de estimación es de aproximadamente 0.7609. Esto sugiere una buena relación entre las predicciones y los valores reales, indicando que el modelo tiene un buen rendimiento.
Evaluación de la Concordancia Al comparar el R2 del modelo de estimación (0.6938) con el R2 del modelo inicial (0.6626), se observa que el modelo de estimación tiene un mejor ajuste, lo que sugiere que el modelo ha mejorado al ser ajustado solo con la muestra de entrenamiento.
Diagnóstico del Modelo Los residuos del modelo de estimación tienen un rango que va desde -746.00 a 1038.88, lo que indica que hay algunos errores de predicción significativos. Sin embargo, la mayoría de los residuos están relativamente cerca de cero.
El modelo de regresión lineal estimado con la muestra de entrenamiento parece ser más efectivo en la predicción del precio de las propiedades en comparación con el modelo inicial. Los coeficientes significativos indican que las variables areaconst, estrato, y banios tienen un impacto considerable en el precio, mientras que habitaciones y parqueaderos no parecen tener un efecto significativo. Se recomienda seguir evaluando el modelo con datos adicionales y realizar diagnósticos para asegurar la validez de los supuestos del modelo.
—————————————————————————————————–
7. SEGUNDO FILTRO: APARTAMENTOS DE LA ZONA SUR
## # A tibble: 6 × 13
## id zona piso estrato preciom areaconst parqueaderos banios habitaciones
## <dbl> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 5098 Zona S… 5 4 290 96 1 2 3
## 2 698 Zona S… 2 3 78 40 1 1 2
## 3 8199 Zona S… 3 6 875 194 2 5 3
## 4 1241 Zona S… 3 3 135 117 1 2 3
## 5 5370 Zona S… 3 3 135 78 1 1 3
## 6 6975 Zona S… 6 4 220 75 1 2 3
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>
7.1. Creación del mapa de puntos de la ciudad de Cali para los apartamentos ubicados en el Sur
Posteriormente creamos el mapa con los puntos de las bases
Para el caso de la Zona Sur, se observa una considerable cantidad de valores atípicos distribuidos en las Zonas Norte, Oriente y Oeste. Esta situación puede deberse a errores en la catalogación de la base de datos, lo que ha llevado a asignar incorrectamente puntos a esta zona que, en realidad, no le corresponden. De igual forma, se pudo presentar un error geolocalización de los datos, donde los puntos se asignan incorrectamente a una zona debido a coordenadas erróneas.
*8. Análisis Explotario
8.1 Estrato predominante en Zona Sur
Como se puede apreciar en la gráfica, los estratos predominantes son el 4 y el 5. Esto sugiere que la población que reside en esta zona podría clasificarse como de clase media alta. Dichos estratos comprenden en su conjunto al 76% de la población que habita en dicha zona, lo que nos da indicios que representa gran parte del grupo analizado.
Ahora bien, teniendo en cuenta la solicitud de la empresa, donde como requisito establece que las vivienda debe ser de estrato 5 o estrato 6, podemos observar que para el estrato 5 hay una cantidad considerable de viviendas, a comparación del estrato 6 donde la oferta para esta zona es mas limitada, con un 16.6% del total de la población.
8.2. Gráfico de caja y bigotes - Precio por Estrato
## [,1] [,2] [,3] [,4]
## [1,] 75 78 93 128
## [2,] 110 154 230 410
## [3,] 128 188 280 580
## [4,] 148 240 330 700
## [5,] 200 360 480 1100
Como se puede evidenciar en la gráfica de caja y bigotes,podemos analizar que el precio para los apartamentos de la Zona Sur los valores son los siguientes:
Tal como se puede observar en el diagrama de caja y bigotes y tomando en consideración el crédito pre aprobado para la segunda solicitud por valor de $850 M. Podriamos ofrecer a nuestro cliente un mayor portafolio comercial, pues en ningún caso se observa un valor mínimo de vivienda que exceda dicho monto. No obstante, al delimitar las especificaciones que detallan que debe ser estrato 5 o 6, se debe entrar a evaluar al detalle, las necesidades de la empresa, pues para este caso, podriamos deducir que el empleado al que ubicarán, tiene un mayor rango dentro de la organización, pudiendose catalogar como un C-Level o ejecutivo de alto nivel, donde se descarta el estrato 3 y 4.
Por otro lado, se pueden observar una gran cantidad de valores atipicos, que podrian impactar en el resultado del modelo.
A medida que se incrementa el número del estrato, parece haber un aumento en el precio, lo que podría sugerir que los estratos más altos tienen mayores precios.
8.3. Gráfico de caja y bigotes - Área por Estrato
## [,1] [,2] [,3] [,4]
## [1,] 40 40 43.00 50.3
## [2,] 57 60 78.00 115.0
## [3,] 61 70 91.00 136.0
## [4,] 70 84 109.24 170.0
## [5,] 89 120 155.00 250.0
Como se puede evidenciar en la gráfica de caja y bigotes,podemos analizar que el área para los apartamentos de la Zona Sur los valores son los siguientes:
A partir del análisis del área construida, se puede concluir que, dentro de los valores considerados típicos, ninguno de los estratos puede satisfacer la solicitud del área de 300M2. Sin embargo, se identificó una cantidad significativa de valores atípicos que requieren revisión, ya que en estos casos sí existen valores superiores o iguales a los 300 M. La opción que mejor se ajusta, considerando la normalidad de los datos, es el estrato 6, donde se registra una vivienda con un área de 250 M; de por si la vivienda mas costosa en este estrato
En todos los estratos se observan puntos fuera de las cajas, lo que indica la presencia de valores atípicos. Esto es especialmente notable en los estratos 5 y 6, donde hay varios valores atípicos que superan significativamente el rango intercuartílico.
A medida que se incrementa el número del estrato, parece haber un aumento en el área, lo que podría sugerir que los estratos más altos tienen áreas más grandes en general.
9 Análisis exploratorio - Correlación entre variables
9.1. Análisis bivariado entre las variables independientes y la variable dependiente Precio
La correlación más fuerte es entre “preciom” y “areaconst” (0.758), lo que sugiere que el precio de una vivienda está fuertemente relacionado con el área construida. La segunda correlación más fuerte es entre “preciom” y “banios” (0.720), lo que indica que el número de baños también tiene una relación significativa con el precio. La correlación entre “preciom” y “habitaciones” es más débil (0.332), lo que sugiere que el número de habitaciones tiene un impacto menor en el precio en comparación con las otras variables.
Para evaluar la posible existencia de un problema de multicolinealidad, realizamos un análisis de correlación entre las variables predictoras. Los resultados muestran que la correlación entre el área construida y el número de baños es de 0.662, lo que indica una correlación positiva moderada. Asimismo, la correlación entre el número de baños y el número de habitaciones es de 0.515, lo que también sugiere una correlación positiva moderada. Por otro lado, la correlación entre el área construida y el número de habitaciones es de 0.332, lo que indica una correlación positiva baja.
A partir de estos resultados, podemos deducir que las dos primeras relaciones podrían presentar un problema de multicolinealidad. Para confirmar esta hipótesis, realizaremos un análisis más estructurado utilizando la prueba del Factor de Inflación de la Varianza (VIF).
10. Estimación del modelo de Regresión Lineal Múltiple
10.1. Definición de variables categoricas como Dummies
De manera previa, a la estimación del modelo, debemos considerar que existen variables categoricas, las cuales requieren una re-definición, creando a partir de estas; nuevas variables conocidas como Dummies. Para este caso, convertiremos la variable estrato, en sus respectivas variables ficticias.
## # A tibble: 2,787 × 16
## id zona piso estrato preciom areaconst parqueaderos banios habitaciones
## <dbl> <chr> <dbl> <fct> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 5098 Zona … 5 4 290 96 1 2 3
## 2 698 Zona … 2 3 78 40 1 1 2
## 3 8199 Zona … 3 6 875 194 2 5 3
## 4 1241 Zona … 3 3 135 117 1 2 3
## 5 5370 Zona … 3 3 135 78 1 1 3
## 6 6975 Zona … 6 4 220 75 1 2 3
## 7 5615 Zona … 8 3 210 72 2 2 3
## 8 6262 Zona … 3 3 105 68 1 2 3
## 9 7396 Zona … 3 3 115 58 1 2 2
## 10 6949 Zona … 3 4 220 84 1 2 3
## # ℹ 2,777 more rows
## # ℹ 7 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>,
## # E4 <dbl>, E5 <dbl>, E6 <dbl>
10.2. Estimación del modelo de RLM
##
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos +
## banios, data = vivienda_2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1096.93 -35.43 -2.08 34.61 894.26
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -43.32991 10.13354 -4.276 1.97e-05 ***
## areaconst 1.33359 0.04576 29.142 < 2e-16 ***
## estrato4 28.96511 6.86300 4.220 2.52e-05 ***
## estrato5 54.59210 7.08763 7.702 1.84e-14 ***
## estrato6 209.07531 8.88859 23.522 < 2e-16 ***
## habitaciones -11.54029 3.16593 -3.645 0.000272 ***
## parqueaderos 61.62033 3.50854 17.563 < 2e-16 ***
## banios 38.25237 2.85475 13.400 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 87.6 on 2779 degrees of freedom
## Multiple R-squared: 0.7914, Adjusted R-squared: 0.7909
## F-statistic: 1506 on 7 and 2779 DF, p-value: < 2.2e-16
Análisis de los resultados del modelo
–>B0 (Intercepto):Si todas las variables predictoras son 0, se espera que el precio promedio en esta Zona sea de $-43 M. No obstante, no es posible que suceda lo anterior, pues la vivienda deberia de tener como mínimo el área construida, de igual forma, no es posible un precio negativo.
–>Area Construida: Se espera que por cada metro cuadrado adicional, el precio de la vivienda incremente en $1.3 M. De igual forma, al analizar el p-valor de < 2e-16, observamos que el área construida tiene una efecto signicativo en el precio de la vivienda.
–>Habitaciones: Se espera que por una habitación adicional, el precio de la vivienda disminuya en $11 M aprox. Lo anterio no es posible y carece de lógica, pues a mayor número de habitaciones, nos indicaria que hay un mayor área, por tal motivo el precio sería mayor. De igual forma, no es posible un incremento negativo. De acuerdo con el P-Valor 0.000272, dicha variable tiene un efectivo significativo en el precio de la vivienda.
–>Parqueadero: Se espera que por cada parqueadero adicional, el valor de la vivienda incremente en $61.6 M. Lo anterior, de igual forma carece de lógica; no es posible que por un parqueadero adicional, el precio de una vivienda incremente en tal magnitud. De acuerdo con el valor P <2e-16, el número de parqueaderos tienen un efectivo significativo en el precio de la vivienda
–>Baños: Se espera que por cada baño adicional, el precio de la vivienda incremente en $38 M. El valor P de < 2e-16; el cual es inferior a 0,05, nos indica que esta variable tiene un aporte significativo en el modelo. No obstante, carece de logica precisar que por un baño adicional una vivienda costará $38 M.
–>R-cuadrado: El valor de R-cuadrado ajustado es 0.7909, lo que indica que aproximadamente el 79.09% de la variabilidad en la variable dependiente precio, puede ser explicada por las variables independientes incluidas en el modelo. Esto sugiere un buen ajuste del modelo.
–>Errores estándar y valores t: Los errores estándar son relativamente bajos en comparación con los coeficientes, lo que sugiere que las estimaciones son precisas. Los valores t son altos, lo que refuerza la significancia de los coeficientes.
–>Error estándar residual: El error estándar residual es de 87.6, lo que indica la variabilidad de los precios no explicada por el modelo.
–>F-statistic: El valor de la estadística F (1506) y su p-valor asociado indican que el modelo en su conjunto es significativo.
10.3. Estimación del modelo de RLM - Utilizando únicamente la relación entre Precio y Estrato
##
## Call:
## lm(formula = preciom ~ estrato, data = vivienda_2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -466.5 -55.6 -14.5 38.4 1155.5
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 141.119 9.159 15.408 < 2e-16 ***
## estrato4 62.481 9.967 6.269 4.2e-10 ***
## estrato5 152.589 10.010 15.244 < 2e-16 ***
## estrato6 453.378 10.971 41.323 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 129.8 on 2783 degrees of freedom
## Multiple R-squared: 0.541, Adjusted R-squared: 0.5405
## F-statistic: 1093 on 3 and 2783 DF, p-value: < 2.2e-16
Análisis de los resultados del modelo El intercepto de $141.119 M representa el precio promedio de la vivienda en el estrato 3.
Los coeficientes para estrato4, estrato5 y estrato6 indican que, en comparación con el estrato 3, los precios de las viviendas aumentan en $62.5 M, $152.6 M y $453.4 M, respectivamente. Esto sugiere que a medida que se incrementa el estrato, el precio de la vivienda también aumenta significativamente.
11. Validación de supuestos
11.1. Pruebas de hipótesis para la validación de supuestos
##
## Shapiro-Wilk normality test
##
## data: residuals(modelo4)
## W = 0.7744, p-value < 2.2e-16
##
## Durbin-Watson test
##
## data: modelo4
## DW = 1.7121, p-value = 1.061e-14
## alternative hypothesis: true autocorrelation is greater than 0
## Non-constant Variance Score Test
## Variance formula: ~ fitted.values
## Chisquare = 5971.565, Df = 1, p = < 2.22e-16
## GVIF Df GVIF^(1/(2*Df))
## areaconst 2.101039 1 1.449496
## estrato 1.815784 3 1.104530
## habitaciones 1.456102 1 1.206691
## parqueaderos 1.805577 1 1.343718
## banios 2.583448 1 1.607311
—>Prueba de normalidad de Shapiro-Wilk: Los residuos del modelo no siguen una distribución normal. Un p-value (< 2.2e-16) tan bajo sugiere que se rechaza la hipótesis nula de normalidad, lo que puede ser problemático para la validez de inferencias estadísticas basadas en el modelo.
—>Prueba de Durbin-Watson: El valor de Durbin-Watson está por debajo de 2 y el valor P (1.061e-14)es menor que 0.05 , lo que sugiere la presencia de autocorrelación positiva en los residuos. Esto indica que los errores del modelo están correlacionados, lo que puede señalar que el modelo no está capturando adecuadamente la estructura de los datos.
—>Prueba de Breutsche Pagan: El valor P < 2.22e-16 es menor que 0.05; indicando la evidencia de heterocedasticidad, es decir, la varianza de los residuos no es constante a lo largo de los valores ajustados. Esto puede afectar la eficiencia de las estimaciones y la validez de las pruebas de hipótesis.
—>Prueba de Multicolinealidad: Todos los valores estan entre 1 y 5, lo que sugiere que hay multicolinealidad moderada en el modelo.
11.2. Análisis de los supuestos del modelo utilizando graficas de diagnóstico
–>Residuals vs Fitted: La dispersión de los residuos no es constante a lo largo de los valores ajustados, lo que indica la presencia de heterocedasticidad.Se pueden observar algunos puntos (1533, 441, 2383) que se desvían significativamente de la tendencia general. Estos valores atípicos pueden influir en el ajuste del modelo y podrían requerir una atención especial.
–>Q-Q Residuals:Los puntos se desvían de la línea diagonal en los extremos, lo que sugiere que los residuos no siguen una distribución normal, especialmente en las colas. Esto puede indicar que el modelo no captura adecuadamente la variabilidad de los datos o que hay outliers que afectan la normalidad de los residuos.
–>Scale-Location: La línea roja en la gráfica muestra una ligera tendencia ascendente, lo que sugiere que la variabilidad de los residuos aumenta a medida que los valores ajustados (fitted values) aumentan. Esto indica que la homocedasticidad (igualdad de varianzas) no se cumple, lo que puede ser un problema en el modelo de regresión. Hay algunos puntos que se destacan en la gráfica (como los números 1533, 441 y 2383), que podrían ser considerados como valores atípicos. Estos puntos pueden influir en el ajuste del modelo y deben ser analizados más a fondo.
–>Residuals vs Leverage: Se observan algunos puntos que presentan residuos estandarizados altos, lo que sugiere que estos puntos podrían ser outliers o influencias en el modelo. Los puntos con mayor leverage (situados hacia la derecha) tienen un impacto significativo en la estimación de los parámetros del modelo. Los puntos etiquetados (977, 2569, 2383) son ejemplos de observaciones con alto leverage. Es importante investigar estos puntos, ya que pueden estar influyendo desproporcionadamente en el ajuste del modelo.
Las recomendaciones para mejorar los supuestos del modelo se encuentran en el numeral 4.3, las cuales tambien podrian aplicar para este caso.
12. Predicción del precio de la vivienda con las caracteristicas de la segunda solicitud
12.1. Ingresamos los valores que tendrá la función, de acuerdo a las especificaciones de la organización
## areaconst parqueaderos estrato banios habitaciones
## 1 300 3 5 3 5
## 2 300 3 6 3 5
12.2. Realizamos la predicción del precio de la vivienda
## 1 2
## 653.2569 807.7401
12.3. Análisis de la predicción
Según los resultados obtenidos del modelo, y considerando las condiciones especificadas por la empresa —un área construida de 300 m2, 3 parqueaderos, 5 habitaciones y 3 baños- en estrato 5, el precio estimado de la vivienda sería de aproximadamente $653.25 millones. En contraste, para una vivienda en estrato 6, el precio ascendería a alrededor de $807.74 millones.
Dado lo anterior y teniendo en cuenta las limitaciones específicamente del crédito aprobado de $850 millones, podemos concluir que ambas opciones se pueden contemplar para las ofertas comerciales, tanto las viviendas que se encuentran en el estrato 5, como en el 6.
13. Análisis de la oferta estrato 5
13.1. Recomendación de las potenciales ofertas que responden a la solicitud de la empresa
## # A tibble: 2 × 16
## id zona piso estrato preciom areaconst parqueaderos banios habitaciones
## <dbl> <chr> <dbl> <fct> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 7182 Zona S… 3 5 730 573 3 8 5
## 2 7512 Zona S… 3 5 670 300 3 5 6
## # ℹ 7 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>,
## # E4 <dbl>, E5 <dbl>, E6 <dbl>
13.2. Precio por área de las ofertas disponibles
## # A tibble: 2 × 6
## id zona barrio areaconst preciom precioarea
## <dbl> <chr> <chr> <dbl> <dbl> <dbl>
## 1 7182 Zona Sur guadalupe 573 730 1.27
## 2 7512 Zona Sur seminario 300 670 2.23
13.3. Geolocalización de los puntos de las posibles ofertas potenciales
Con respecto a la predicción del modelo, el cual nos arrojó un valor de $653.25 M, teniendo en cuenta todos los atributos predichos, la vivienda 7182 por $730M, tiene un valor adicional de $77 M. Lo anterior se presenta porque el área construida es superior en 273 M y tiene 5 baños adicionales a los especificados en la solicitud. Ahora bien, observamos que para el caso de la vivienda 7512 por $670M; lo cual significa un valor adicional por $17 M aprox., puede ser consecuencia de los 2 baños adicionales y la habitación adicional. Cabe mencionar que para efectos del ejercicio, únicamente se esta realizando un análisis cuantitativo, sin considerar factores como: acabados de la vivienda, tiempo de uso, etc.
Para los apartamentos de la Zona Sur, solo se tienen 2 ofertas disponibles, teniendo en cuentas las especificaciones de la solicitud. En este caso, le podriamos ofrecer al cliente la vivienda 7182, pues, como se puede evidenciar el precio por M2 se esta vivienda es de $1.27 M, mientras que para el caso de la vivienda 7512 que aunque cumple con los el requisito de los 300 M2, el valor del M2 es de casi el doble ($2.23 M). De este modo, podriamos ofrecer un valor agregado; comentándole que estaria recibiendo una vivienda casi el doble de grande, que se encuentra por debajo del crédito aprobado, ahorrandole 120 Millones y a casi la mitad del precio por metro cuadrado, en compración con la de 300 M2.
A partir del análisis del mapa, podemos observar que los puntos están correctamente geolocalizados al sur de la ciudad de Cali y se encuentran muy próximos entre sí. Sin conocer las características y acabados del apartamento, que podrían influir en el valor de la vivienda 7512, donde el precio por área es superior, podemos considerar seguir ofreciendo al cliente la vivienda 7182. Ambas propiedades presentan atributos similares que podrían beneficiar a sus habitantes, ya que están rodeadas de colegios, cerca de centros comerciales y próximas al sistema de transporte masivo.
14. Análisis de la oferta estrato 6
## # A tibble: 0 × 16
## # ℹ 16 variables: id <dbl>, zona <chr>, piso <dbl>, estrato <fct>,
## # preciom <dbl>, areaconst <dbl>, parqueaderos <dbl>, banios <dbl>,
## # habitaciones <dbl>, tipo <chr>, barrio <chr>, longitud <dbl>,
## # latitud <dbl>, E4 <dbl>, E5 <dbl>, E6 <dbl>
Para el caso de las viviendas en estrato 6, no se identificaron ofertas disponibles que cumplan con los requerimientos especificados por el cliente.
15. Identificación de observaciones extremas en el modelo de RLM
15.1. Cálculo de los residuos
En primer lugar, graficaremos los residuos para buscar patrones que pueden ser inusuales, de forma posterior, calcularemos el Z-score de los residuos para cada observación; estableciendo como referencia un nivel de 2. Un Z-score mayor que 2 o menor que -2, se considerará como atípico.
## # A tibble: 93 × 16
## id zona piso estrato preciom areaconst parqueaderos banios habitaciones
## <dbl> <chr> <dbl> <fct> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 7073 Zona … 2 6 910 182 2 4 3
## 2 8299 Zona … 2 6 305 125 2 3 3
## 3 1875 Zona … 2 6 128 55 1 2 2
## 4 6175 Zona … 5 5 350 270 3 3 4
## 5 6205 Zona … 5 5 350 260 3 3 3
## 6 5576 Zona … 1 6 350 126 2 3 3
## 7 5941 Zona … 1 5 700 138 2 5 4
## 8 6526 Zona … 1 6 832 213 2 2 3
## 9 6527 Zona … 1 6 677 108 2 2 3
## 10 3678 Zona … 2 6 250 94 3 2 3
## # ℹ 83 more rows
## # ℹ 7 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>,
## # E4 <dbl>, E5 <dbl>, E6 <dbl>
De acuerdo con la gráfica la dispersión de los residuos parece aumentar a medida que los valores ajustados aumentan. Esto sugiere la presencia de heterocedasticidad, lo que significa que la variabilidad de los errores no es constante a lo largo de los valores ajustados. En un modelo ideal, los residuos deberían tener una varianza constante.
Por medio del calculo del Z-Score de los residuos se obtuvieron 93 viviendas que podrían catalogarse cómo atipicas dentro del modelo.
15.2. Criterio de Cook
## # A tibble: 144 × 16
## id zona piso estrato preciom areaconst parqueaderos banios habitaciones
## <dbl> <chr> <dbl> <fct> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 8199 Zona … 3 6 875 194 2 5 3
## 2 7073 Zona … 2 6 910 182 2 4 3
## 3 8299 Zona … 2 6 305 125 2 3 3
## 4 3824 Zona … 1 6 852 244 2 3 3
## 5 6996 Zona … 3 3 580 188 2 6 5
## 6 1875 Zona … 2 6 128 55 1 2 2
## 7 1472 Zona … 8 3 288 85 1 2 4
## 8 6175 Zona … 5 5 350 270 3 3 4
## 9 6205 Zona … 5 5 350 260 3 3 3
## 10 5941 Zona … 1 5 700 138 2 5 4
## # ℹ 134 more rows
## # ℹ 7 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>,
## # E4 <dbl>, E5 <dbl>, E6 <dbl>
Aplicando el Criterio de Cook, obseramos 144 valores atipicos, los cuales comparamos con los que nos arrojÓ el Z-Score de Residuos, para determinar un común denominador de las posibles observaciones, estarían impactando en el modelo; las cuales se detallan a continuación.
15.3. Valores atipicos identificados
## id zona.x piso.x estrato.x preciom.x areaconst.x parqueaderos.x banios.x
## 1 4 Zona Sur 3 6 1280 346.00 4 6
## 2 44 Zona Sur 6 6 1200 211.00 2 3
## 3 324 Zona Sur 3 4 190 50.00 10 2
## 4 993 Zona Sur 3 6 840 161.79 2 4
## 5 1141 Zona Sur 4 6 240 126.00 2 2
## 6 1875 Zona Sur 2 6 128 55.00 1 2
## 7 2308 Zona Sur 4 5 350 258.00 2 4
## 8 2315 Zona Sur 3 6 950 213.00 2 5
## 9 3139 Zona Sur 3 6 330 125.00 2 3
## 10 3365 Zona Sur 3 5 670 191.00 2 3
## 11 3440 Zona Sur 4 6 419 181.00 2 3
## 12 3592 Zona Sur 3 6 1150 222.00 2 4
## 13 3603 Zona Sur 1 6 833 213.00 2 3
## 14 3640 Zona Sur 3 6 870 245.00 1 4
## 15 3678 Zona Sur 2 6 250 94.00 3 2
## 16 3726 Zona Sur 8 6 290 100.00 2 3
## 17 3732 Zona Sur 3 5 500 110.00 2 2
## 18 3734 Zona Sur 3 6 320 115.00 2 3
## 19 3785 Zona Sur 3 6 1580 296.00 4 4
## 20 3975 Zona Sur 5 6 1240 222.00 3 5
## 21 4051 Zona Sur 1 6 360 115.00 2 4
## 22 4082 Zona Sur 2 5 600 129.00 1 3
## 23 4083 Zona Sur 3 6 270 95.00 2 3
## 24 4158 Zona Sur 3 6 450 187.00 2 4
## 25 4284 Zona Sur 3 6 390 105.00 3 3
## 26 4297 Zona Sur 4 6 220 116.00 2 3
## 27 4394 Zona Sur 3 5 690 486.00 2 4
## 28 4405 Zona Sur 4 6 268 145.00 1 2
## 29 4423 Zona Sur 3 6 395 120.00 2 5
## 30 4712 Zona Sur 8 6 1100 220.00 4 4
## 31 4855 Zona Sur 2 4 390 300.00 1 5
## 32 4942 Zona Sur 3 5 1250 213.00 3 4
## 33 4952 Zona Sur 3 5 650 600.00 2 4
## 34 4953 Zona Sur 3 6 340 133.00 2 3
## 35 4974 Zona Sur 5 5 475 130.00 1 2
## 36 4990 Zona Sur 3 5 350 174.00 4 3
## 37 5005 Zona Sur 1 6 280 154.00 1 3
## 38 5119 Zona Sur 1 5 231 163.00 2 5
## 39 5176 Zona Sur 5 6 180 73.00 1 2
## 40 5190 Zona Sur 10 6 1600 345.00 3 6
## 41 5242 Zona Sur 6 5 704 141.00 2 3
## 42 5360 Zona Sur 4 6 230 80.00 2 2
## 43 5387 Zona Sur 3 3 430 107.00 1 2
## 44 5459 Zona Sur 5 6 225 85.00 1 3
## 45 5460 Zona Sur 8 6 1150 346.00 2 6
## 46 5472 Zona Sur 3 6 1590 310.00 3 4
## 47 5525 Zona Sur 3 6 245 98.00 2 3
## 48 5546 Zona Sur 4 6 920 230.00 2 4
## 49 5576 Zona Sur 1 6 350 126.00 2 3
## 50 5693 Zona Sur 6 6 780 168.00 2 3
## 51 5695 Zona Sur 3 6 870 191.00 2 4
## 52 5801 Zona Sur 2 5 350 250.00 2 5
## 53 5941 Zona Sur 1 5 700 138.00 2 5
## 54 5952 Zona Sur 2 6 1750 342.00 3 5
## 55 6011 Zona Sur 3 5 620 160.00 2 2
## 56 6073 Zona Sur 10 5 1250 251.00 4 5
## 57 6086 Zona Sur 10 6 1500 240.00 3 5
## 58 6103 Zona Sur 10 5 206 109.00 2 4
## 59 6121 Zona Sur 7 5 299 932.00 1 3
## 60 6175 Zona Sur 5 5 350 270.00 3 3
## 61 6197 Zona Sur 7 6 1700 290.00 3 4
## 62 6205 Zona Sur 5 5 350 260.00 3 3
## 63 6242 Zona Sur 9 5 340 236.00 2 4
## 64 6346 Zona Sur 3 4 590 159.00 1 2
## 65 6364 Zona Sur 3 6 930 145.00 2 3
## 66 6472 Zona Sur 3 5 170 605.00 1 2
## 67 6475 Zona Sur 2 6 1561 399.00 3 4
## 68 6507 Zona Sur 3 4 645 184.00 1 4
## 69 6510 Zona Sur 3 6 1600 290.00 3 5
## 70 6512 Zona Sur 3 6 1750 290.00 3 4
## 71 6526 Zona Sur 1 6 832 213.00 2 2
## 72 6527 Zona Sur 1 6 677 108.00 2 2
## 73 6576 Zona Sur 3 6 660 210.00 4 5
## 74 6682 Zona Sur 3 6 840 176.00 2 4
## 75 6723 Zona Sur 3 6 840 185.00 2 2
## 76 6838 Zona Sur 12 6 770 140.00 2 4
## 77 6850 Zona Sur 2 6 280 126.00 2 3
## 78 6868 Zona Sur 3 3 370 300.00 3 6
## 79 6887 Zona Sur 3 6 1050 170.00 4 6
## 80 6907 Zona Sur 1 6 650 130.00 1 3
## 81 6932 Zona Sur 3 5 500 330.00 2 4
## 82 6973 Zona Sur 4 5 240 139.84 2 4
## 83 6998 Zona Sur 3 6 1000 189.00 3 5
## 84 7073 Zona Sur 2 6 910 182.00 2 4
## 85 7162 Zona Sur 4 6 850 222.00 2 3
## 86 7171 Zona Sur 3 3 260 300.00 1 4
## 87 7176 Zona Sur 3 6 1150 344.00 1 6
## 88 7182 Zona Sur 3 5 730 573.00 3 8
## 89 7346 Zona Sur 9 6 1350 212.00 3 5
## 90 7680 Zona Sur 1 5 450 267.00 3 3
## 91 7911 Zona Sur 7 6 750 121.00 2 3
## 92 8113 Zona Sur 2 5 410 295.55 2 4
## 93 8299 Zona Sur 2 6 305 125.00 2 3
## habitaciones.x tipo.x barrio.x longitud.x latitud.x E4.x
## 1 5 Apartamento ciudad jardín -76.46400 3.43300 0
## 2 3 Apartamento pance -76.47039 3.41435 0
## 3 4 Apartamento valle del lili -76.49300 3.46800 1
## 4 4 Apartamento pance -76.50726 3.46182 0
## 5 3 Apartamento el limonar -76.51138 3.46519 0
## 6 2 Apartamento caney -76.51800 3.38500 0
## 7 5 Apartamento San Fernando -76.51972 3.44000 0
## 8 4 Apartamento pance -76.51972 3.44000 0
## 9 3 Apartamento valle del lili -76.52400 3.38100 0
## 10 3 Apartamento seminario -76.52600 3.43400 0
## 11 3 Apartamento multicentro -76.52628 3.43400 0
## 12 3 Apartamento pance -76.52720 3.34832 0
## 13 3 Apartamento ciudad jardin pance -76.52726 3.34865 0
## 14 3 Apartamento zona sur -76.52757 3.35436 0
## 15 3 Apartamento ciudad jardín -76.52793 3.36546 0
## 16 4 Apartamento el ingenio iii -76.52800 3.38000 0
## 17 3 Apartamento ciudad jardín -76.52800 3.34700 0
## 18 2 Apartamento ciudad jardin -76.52800 3.36500 0
## 19 3 Apartamento pance -76.52844 3.34712 0
## 20 4 Apartamento ciudad jardín -76.52900 3.34500 0
## 21 4 Apartamento el ingenio -76.52944 3.41033 0
## 22 3 Apartamento pance -76.52965 3.35908 0
## 23 4 Apartamento el ingenio -76.52966 3.38173 0
## 24 3 Apartamento santa teresita -76.53000 3.44700 0
## 25 3 Apartamento pance -76.53063 3.34678 0
## 26 3 Apartamento el ingenio -76.53076 3.38328 0
## 27 4 Apartamento el ingenio -76.53111 3.38292 0
## 28 3 Apartamento el ingenio -76.53121 3.38479 0
## 29 4 Apartamento pance -76.53138 3.34685 0
## 30 4 Apartamento pance -76.53250 3.33649 0
## 31 6 Apartamento colseguros -76.53339 3.43221 1
## 32 3 Apartamento unicentro cali -76.53400 3.41200 0
## 33 5 Apartamento el ingenio -76.53400 3.38100 0
## 34 3 Apartamento el ingenio i -76.53400 3.38100 0
## 35 3 Apartamento ciudad jardín -76.53405 3.36856 0
## 36 4 Apartamento zona sur -76.53428 3.38088 0
## 37 3 Apartamento el ingenio -76.53452 3.38391 0
## 38 5 Apartamento el ingenio -76.53481 3.38729 0
## 39 3 Apartamento ciudad jardín -76.53500 3.37000 0
## 40 3 Apartamento ciudad jardín -76.53504 3.36444 0
## 41 2 Apartamento ciudad jardín -76.53530 3.35959 0
## 42 3 Apartamento el ingenio i -76.53600 3.38300 0
## 43 3 Apartamento ciudad jardín -76.53614 3.36619 0
## 44 3 Apartamento el ingenio -76.53688 3.38121 0
## 45 5 Apartamento ciudad jardín -76.53688 3.36969 0
## 46 3 Apartamento pance -76.53694 3.36829 0
## 47 3 Apartamento el ingenio i -76.53700 3.38200 0
## 48 4 Apartamento pance -76.53709 3.34118 0
## 49 3 Apartamento ciudad jardín -76.53729 3.36487 0
## 50 3 Apartamento ciudad jardín -76.53798 3.35961 0
## 51 3 Apartamento ciudad jardín -76.53798 3.35961 0
## 52 3 Apartamento santa anita -76.53836 3.40560 0
## 53 4 Apartamento ciudad jardín -76.53967 3.36259 0
## 54 4 Apartamento ciudad jardín -76.53979 3.36518 0
## 55 3 Apartamento san fernando nuevo -76.54000 3.43100 0
## 56 4 Apartamento multicentro -76.54038 3.37900 0
## 57 6 Apartamento ciudad jardín -76.54057 3.36308 0
## 58 4 Apartamento nueva tequendama -76.54075 3.41471 0
## 59 3 Apartamento valle del lili -76.54087 3.37348 0
## 60 4 Apartamento capri -76.54100 3.39200 0
## 61 3 Apartamento ciudad jardín -76.54127 3.34962 0
## 62 3 Apartamento capri -76.54134 3.38954 0
## 63 3 Apartamento mayapan las vegas -76.54158 3.38230 0
## 64 3 Apartamento san fernando -76.54200 3.43300 1
## 65 3 Apartamento ciudad jardín -76.54200 3.36300 0
## 66 2 Apartamento el limonar -76.54294 3.39992 0
## 67 3 Apartamento ciudad jardín -76.54295 3.34970 0
## 68 3 Apartamento pance -76.54300 3.35100 1
## 69 4 Apartamento pance -76.54300 3.35000 0
## 70 3 Apartamento pance -76.54300 3.35000 0
## 71 3 Apartamento ciudad jardín -76.54303 3.41923 0
## 72 3 Apartamento ciudad jardín -76.54303 3.41923 0
## 73 3 Apartamento ciudad jardín -76.54341 3.35627 0
## 74 3 Apartamento parcelaciones pance -76.54400 3.35100 0
## 75 2 Apartamento pance -76.54412 3.35074 0
## 76 4 Apartamento ciudad jardín -76.54500 3.35500 0
## 77 3 Apartamento gran limonar -76.54518 3.39742 0
## 78 5 Apartamento melendez -76.54537 3.37812 0
## 79 3 Apartamento pance -76.54568 3.34914 0
## 80 4 Apartamento pance -76.54594 3.34178 0
## 81 4 Apartamento san fernando -76.54600 3.43500 0
## 82 3 Apartamento san fernando -76.54626 3.43363 0
## 83 4 Apartamento zona sur -76.54666 3.44620 0
## 84 3 Apartamento arboleda -76.54700 3.44900 0
## 85 3 Apartamento santa teresita -76.54800 3.45300 0
## 86 5 Apartamento san joaquin -76.54800 3.41200 0
## 87 4 Apartamento pance -76.54800 3.34900 0
## 88 5 Apartamento guadalupe -76.54800 3.40800 0
## 89 3 Apartamento pance -76.54900 3.34300 0
## 90 3 Apartamento pampa linda -76.55117 3.40481 0
## 91 3 Apartamento santa teresita -76.55300 3.44700 0
## 92 4 Apartamento cuarto de legua -76.55527 3.40750 0
## 93 3 Apartamento bella suiza -76.56500 3.40800 0
## E5.x E6.x zona.y piso.y estrato.y preciom.y areaconst.y parqueaderos.y
## 1 0 1 Zona Sur 3 6 1280 346.00 4
## 2 0 1 Zona Sur 6 6 1200 211.00 2
## 3 0 0 Zona Sur 3 4 190 50.00 10
## 4 0 1 Zona Sur 3 6 840 161.79 2
## 5 0 1 Zona Sur 4 6 240 126.00 2
## 6 0 1 Zona Sur 2 6 128 55.00 1
## 7 1 0 Zona Sur 4 5 350 258.00 2
## 8 0 1 Zona Sur 3 6 950 213.00 2
## 9 0 1 Zona Sur 3 6 330 125.00 2
## 10 1 0 Zona Sur 3 5 670 191.00 2
## 11 0 1 Zona Sur 4 6 419 181.00 2
## 12 0 1 Zona Sur 3 6 1150 222.00 2
## 13 0 1 Zona Sur 1 6 833 213.00 2
## 14 0 1 Zona Sur 3 6 870 245.00 1
## 15 0 1 Zona Sur 2 6 250 94.00 3
## 16 0 1 Zona Sur 8 6 290 100.00 2
## 17 1 0 <NA> NA <NA> NA NA NA
## 18 0 1 Zona Sur 3 6 320 115.00 2
## 19 0 1 Zona Sur 3 6 1580 296.00 4
## 20 0 1 Zona Sur 5 6 1240 222.00 3
## 21 0 1 Zona Sur 1 6 360 115.00 2
## 22 1 0 Zona Sur 2 5 600 129.00 1
## 23 0 1 Zona Sur 3 6 270 95.00 2
## 24 0 1 Zona Sur 3 6 450 187.00 2
## 25 0 1 Zona Sur 3 6 390 105.00 3
## 26 0 1 Zona Sur 4 6 220 116.00 2
## 27 1 0 Zona Sur 3 5 690 486.00 2
## 28 0 1 Zona Sur 4 6 268 145.00 1
## 29 0 1 Zona Sur 3 6 395 120.00 2
## 30 0 1 Zona Sur 8 6 1100 220.00 4
## 31 0 0 Zona Sur 2 4 390 300.00 1
## 32 1 0 Zona Sur 3 5 1250 213.00 3
## 33 1 0 Zona Sur 3 5 650 600.00 2
## 34 0 1 Zona Sur 3 6 340 133.00 2
## 35 1 0 <NA> NA <NA> NA NA NA
## 36 1 0 Zona Sur 3 5 350 174.00 4
## 37 0 1 Zona Sur 1 6 280 154.00 1
## 38 1 0 Zona Sur 1 5 231 163.00 2
## 39 0 1 Zona Sur 5 6 180 73.00 1
## 40 0 1 Zona Sur 10 6 1600 345.00 3
## 41 1 0 Zona Sur 6 5 704 141.00 2
## 42 0 1 Zona Sur 4 6 230 80.00 2
## 43 0 0 Zona Sur 3 3 430 107.00 1
## 44 0 1 Zona Sur 5 6 225 85.00 1
## 45 0 1 Zona Sur 8 6 1150 346.00 2
## 46 0 1 Zona Sur 3 6 1590 310.00 3
## 47 0 1 Zona Sur 3 6 245 98.00 2
## 48 0 1 Zona Sur 4 6 920 230.00 2
## 49 0 1 <NA> NA <NA> NA NA NA
## 50 0 1 Zona Sur 6 6 780 168.00 2
## 51 0 1 Zona Sur 3 6 870 191.00 2
## 52 1 0 Zona Sur 2 5 350 250.00 2
## 53 1 0 Zona Sur 1 5 700 138.00 2
## 54 0 1 Zona Sur 2 6 1750 342.00 3
## 55 1 0 Zona Sur 3 5 620 160.00 2
## 56 1 0 Zona Sur 10 5 1250 251.00 4
## 57 0 1 Zona Sur 10 6 1500 240.00 3
## 58 1 0 Zona Sur 10 5 206 109.00 2
## 59 1 0 Zona Sur 7 5 299 932.00 1
## 60 1 0 Zona Sur 5 5 350 270.00 3
## 61 0 1 Zona Sur 7 6 1700 290.00 3
## 62 1 0 Zona Sur 5 5 350 260.00 3
## 63 1 0 Zona Sur 9 5 340 236.00 2
## 64 0 0 Zona Sur 3 4 590 159.00 1
## 65 0 1 Zona Sur 3 6 930 145.00 2
## 66 1 0 Zona Sur 3 5 170 605.00 1
## 67 0 1 Zona Sur 2 6 1561 399.00 3
## 68 0 0 Zona Sur 3 4 645 184.00 1
## 69 0 1 Zona Sur 3 6 1600 290.00 3
## 70 0 1 Zona Sur 3 6 1750 290.00 3
## 71 0 1 Zona Sur 1 6 832 213.00 2
## 72 0 1 Zona Sur 1 6 677 108.00 2
## 73 0 1 Zona Sur 3 6 660 210.00 4
## 74 0 1 Zona Sur 3 6 840 176.00 2
## 75 0 1 Zona Sur 3 6 840 185.00 2
## 76 0 1 Zona Sur 12 6 770 140.00 2
## 77 0 1 Zona Sur 2 6 280 126.00 2
## 78 0 0 Zona Sur 3 3 370 300.00 3
## 79 0 1 Zona Sur 3 6 1050 170.00 4
## 80 0 1 Zona Sur 1 6 650 130.00 1
## 81 1 0 Zona Sur 3 5 500 330.00 2
## 82 1 0 Zona Sur 4 5 240 139.84 2
## 83 0 1 Zona Sur 3 6 1000 189.00 3
## 84 0 1 Zona Sur 2 6 910 182.00 2
## 85 0 1 Zona Sur 4 6 850 222.00 2
## 86 0 0 Zona Sur 3 3 260 300.00 1
## 87 0 1 Zona Sur 3 6 1150 344.00 1
## 88 1 0 Zona Sur 3 5 730 573.00 3
## 89 0 1 Zona Sur 9 6 1350 212.00 3
## 90 1 0 Zona Sur 1 5 450 267.00 3
## 91 0 1 Zona Sur 7 6 750 121.00 2
## 92 1 0 Zona Sur 2 5 410 295.55 2
## 93 0 1 Zona Sur 2 6 305 125.00 2
## banios.y habitaciones.y tipo.y barrio.y longitud.y latitud.y
## 1 6 5 Apartamento ciudad jardín -76.46400 3.43300
## 2 3 3 Apartamento pance -76.47039 3.41435
## 3 2 4 Apartamento valle del lili -76.49300 3.46800
## 4 4 4 Apartamento pance -76.50726 3.46182
## 5 2 3 Apartamento el limonar -76.51138 3.46519
## 6 2 2 Apartamento caney -76.51800 3.38500
## 7 4 5 Apartamento San Fernando -76.51972 3.44000
## 8 5 4 Apartamento pance -76.51972 3.44000
## 9 3 3 Apartamento valle del lili -76.52400 3.38100
## 10 3 3 Apartamento seminario -76.52600 3.43400
## 11 3 3 Apartamento multicentro -76.52628 3.43400
## 12 4 3 Apartamento pance -76.52720 3.34832
## 13 3 3 Apartamento ciudad jardin pance -76.52726 3.34865
## 14 4 3 Apartamento zona sur -76.52757 3.35436
## 15 2 3 Apartamento ciudad jardín -76.52793 3.36546
## 16 3 4 Apartamento el ingenio iii -76.52800 3.38000
## 17 NA NA <NA> <NA> NA NA
## 18 3 2 Apartamento ciudad jardin -76.52800 3.36500
## 19 4 3 Apartamento pance -76.52844 3.34712
## 20 5 4 Apartamento ciudad jardín -76.52900 3.34500
## 21 4 4 Apartamento el ingenio -76.52944 3.41033
## 22 3 3 Apartamento pance -76.52965 3.35908
## 23 3 4 Apartamento el ingenio -76.52966 3.38173
## 24 4 3 Apartamento santa teresita -76.53000 3.44700
## 25 3 3 Apartamento pance -76.53063 3.34678
## 26 3 3 Apartamento el ingenio -76.53076 3.38328
## 27 4 4 Apartamento el ingenio -76.53111 3.38292
## 28 2 3 Apartamento el ingenio -76.53121 3.38479
## 29 5 4 Apartamento pance -76.53138 3.34685
## 30 4 4 Apartamento pance -76.53250 3.33649
## 31 5 6 Apartamento colseguros -76.53339 3.43221
## 32 4 3 Apartamento unicentro cali -76.53400 3.41200
## 33 4 5 Apartamento el ingenio -76.53400 3.38100
## 34 3 3 Apartamento el ingenio i -76.53400 3.38100
## 35 NA NA <NA> <NA> NA NA
## 36 3 4 Apartamento zona sur -76.53428 3.38088
## 37 3 3 Apartamento el ingenio -76.53452 3.38391
## 38 5 5 Apartamento el ingenio -76.53481 3.38729
## 39 2 3 Apartamento ciudad jardín -76.53500 3.37000
## 40 6 3 Apartamento ciudad jardín -76.53504 3.36444
## 41 3 2 Apartamento ciudad jardín -76.53530 3.35959
## 42 2 3 Apartamento el ingenio i -76.53600 3.38300
## 43 2 3 Apartamento ciudad jardín -76.53614 3.36619
## 44 3 3 Apartamento el ingenio -76.53688 3.38121
## 45 6 5 Apartamento ciudad jardín -76.53688 3.36969
## 46 4 3 Apartamento pance -76.53694 3.36829
## 47 3 3 Apartamento el ingenio i -76.53700 3.38200
## 48 4 4 Apartamento pance -76.53709 3.34118
## 49 NA NA <NA> <NA> NA NA
## 50 3 3 Apartamento ciudad jardín -76.53798 3.35961
## 51 4 3 Apartamento ciudad jardín -76.53798 3.35961
## 52 5 3 Apartamento santa anita -76.53836 3.40560
## 53 5 4 Apartamento ciudad jardín -76.53967 3.36259
## 54 5 4 Apartamento ciudad jardín -76.53979 3.36518
## 55 2 3 Apartamento san fernando nuevo -76.54000 3.43100
## 56 5 4 Apartamento multicentro -76.54038 3.37900
## 57 5 6 Apartamento ciudad jardín -76.54057 3.36308
## 58 4 4 Apartamento nueva tequendama -76.54075 3.41471
## 59 3 3 Apartamento valle del lili -76.54087 3.37348
## 60 3 4 Apartamento capri -76.54100 3.39200
## 61 4 3 Apartamento ciudad jardín -76.54127 3.34962
## 62 3 3 Apartamento capri -76.54134 3.38954
## 63 4 3 Apartamento mayapan las vegas -76.54158 3.38230
## 64 2 3 Apartamento san fernando -76.54200 3.43300
## 65 3 3 Apartamento ciudad jardín -76.54200 3.36300
## 66 2 2 Apartamento el limonar -76.54294 3.39992
## 67 4 3 Apartamento ciudad jardín -76.54295 3.34970
## 68 4 3 Apartamento pance -76.54300 3.35100
## 69 5 4 Apartamento pance -76.54300 3.35000
## 70 4 3 Apartamento pance -76.54300 3.35000
## 71 2 3 Apartamento ciudad jardín -76.54303 3.41923
## 72 2 3 Apartamento ciudad jardín -76.54303 3.41923
## 73 5 3 Apartamento ciudad jardín -76.54341 3.35627
## 74 4 3 Apartamento parcelaciones pance -76.54400 3.35100
## 75 2 2 Apartamento pance -76.54412 3.35074
## 76 4 4 Apartamento ciudad jardín -76.54500 3.35500
## 77 3 3 Apartamento gran limonar -76.54518 3.39742
## 78 6 5 Apartamento melendez -76.54537 3.37812
## 79 6 3 Apartamento pance -76.54568 3.34914
## 80 3 4 Apartamento pance -76.54594 3.34178
## 81 4 4 Apartamento san fernando -76.54600 3.43500
## 82 4 3 Apartamento san fernando -76.54626 3.43363
## 83 5 4 Apartamento zona sur -76.54666 3.44620
## 84 4 3 Apartamento arboleda -76.54700 3.44900
## 85 3 3 Apartamento santa teresita -76.54800 3.45300
## 86 4 5 Apartamento san joaquin -76.54800 3.41200
## 87 6 4 Apartamento pance -76.54800 3.34900
## 88 8 5 Apartamento guadalupe -76.54800 3.40800
## 89 5 3 Apartamento pance -76.54900 3.34300
## 90 3 3 Apartamento pampa linda -76.55117 3.40481
## 91 3 3 Apartamento santa teresita -76.55300 3.44700
## 92 4 4 Apartamento cuarto de legua -76.55527 3.40750
## 93 3 3 Apartamento bella suiza -76.56500 3.40800
## E4.y E5.y E6.y
## 1 0 0 1
## 2 0 0 1
## 3 1 0 0
## 4 0 0 1
## 5 0 0 1
## 6 0 0 1
## 7 0 1 0
## 8 0 0 1
## 9 0 0 1
## 10 0 1 0
## 11 0 0 1
## 12 0 0 1
## 13 0 0 1
## 14 0 0 1
## 15 0 0 1
## 16 0 0 1
## 17 NA NA NA
## 18 0 0 1
## 19 0 0 1
## 20 0 0 1
## 21 0 0 1
## 22 0 1 0
## 23 0 0 1
## 24 0 0 1
## 25 0 0 1
## 26 0 0 1
## 27 0 1 0
## 28 0 0 1
## 29 0 0 1
## 30 0 0 1
## 31 1 0 0
## 32 0 1 0
## 33 0 1 0
## 34 0 0 1
## 35 NA NA NA
## 36 0 1 0
## 37 0 0 1
## 38 0 1 0
## 39 0 0 1
## 40 0 0 1
## 41 0 1 0
## 42 0 0 1
## 43 0 0 0
## 44 0 0 1
## 45 0 0 1
## 46 0 0 1
## 47 0 0 1
## 48 0 0 1
## 49 NA NA NA
## 50 0 0 1
## 51 0 0 1
## 52 0 1 0
## 53 0 1 0
## 54 0 0 1
## 55 0 1 0
## 56 0 1 0
## 57 0 0 1
## 58 0 1 0
## 59 0 1 0
## 60 0 1 0
## 61 0 0 1
## 62 0 1 0
## 63 0 1 0
## 64 1 0 0
## 65 0 0 1
## 66 0 1 0
## 67 0 0 1
## 68 1 0 0
## 69 0 0 1
## 70 0 0 1
## 71 0 0 1
## 72 0 0 1
## 73 0 0 1
## 74 0 0 1
## 75 0 0 1
## 76 0 0 1
## 77 0 0 1
## 78 0 0 0
## 79 0 0 1
## 80 0 0 1
## 81 0 1 0
## 82 0 1 0
## 83 0 0 1
## 84 0 0 1
## 85 0 0 1
## 86 0 0 0
## 87 0 0 1
## 88 0 1 0
## 89 0 0 1
## 90 0 1 0
## 91 0 0 1
## 92 0 1 0
## 93 0 0 1
15.4. Generación del nueva database después de la limpieza de valores atipicos
## # A tibble: 2,694 × 16
## id zona piso estrato preciom areaconst parqueaderos banios habitaciones
## <dbl> <chr> <dbl> <fct> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 5098 Zona … 5 4 290 96 1 2 3
## 2 698 Zona … 2 3 78 40 1 1 2
## 3 8199 Zona … 3 6 875 194 2 5 3
## 4 1241 Zona … 3 3 135 117 1 2 3
## 5 5370 Zona … 3 3 135 78 1 1 3
## 6 6975 Zona … 6 4 220 75 1 2 3
## 7 5615 Zona … 8 3 210 72 2 2 3
## 8 6262 Zona … 3 3 105 68 1 2 3
## 9 7396 Zona … 3 3 115 58 1 2 2
## 10 6949 Zona … 3 4 220 84 1 2 3
## # ℹ 2,684 more rows
## # ℹ 7 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>,
## # E4 <dbl>, E5 <dbl>, E6 <dbl>
15.5. Generación del modelo tomando el database limpio
##
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos +
## banios, data = vivienda_2_limpia)
##
## Residuals:
## Min 1Q Median 3Q Max
## -201.470 -32.548 -1.007 32.014 212.455
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -33.52593 6.59757 -5.082 4.00e-07 ***
## areaconst 1.66627 0.04204 39.631 < 2e-16 ***
## estrato4 30.48852 4.37203 6.974 3.88e-12 ***
## estrato5 58.54656 4.53942 12.897 < 2e-16 ***
## estrato6 192.44219 5.88544 32.698 < 2e-16 ***
## habitaciones -12.24488 2.08500 -5.873 4.81e-09 ***
## parqueaderos 50.29806 2.58673 19.445 < 2e-16 ***
## banios 27.90695 1.90933 14.616 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 55.26 on 2686 degrees of freedom
## Multiple R-squared: 0.882, Adjusted R-squared: 0.8817
## F-statistic: 2869 on 7 and 2686 DF, p-value: < 2.2e-16
Al igual que en la primera solicitud, comenzaremos con la validación de los supuestos del modelo. Es fundamental asegurarnos de que se cumplen las condiciones mínimas necesarias antes de proceder con el análisis de los coeficientes. Realizar el análisis sin esta verificación previa carece de fundamento lógico.
15.6. Análisis de los supuestos del modelo utilizando pruebas de hipotesis
##
## Shapiro-Wilk normality test
##
## data: residuals(modelo3)
## W = 0.98869, p-value = 8.562e-14
##
## Durbin-Watson test
##
## data: modelo3
## DW = 1.6886, p-value < 2.2e-16
## alternative hypothesis: true autocorrelation is greater than 0
## Non-constant Variance Score Test
## Variance formula: ~ fitted.values
## Chisquare = 889.5161, Df = 1, p = < 2.22e-16
## GVIF Df GVIF^(1/(2*Df))
## areaconst 2.743859 1 1.656460
## estrato 1.891561 3 1.112082
## habitaciones 1.469405 1 1.212190
## parqueaderos 2.027205 1 1.423799
## banios 2.581512 1 1.606708
A partir de las pruebas de hipótesis, podemos concluir que los resultados obtenidos en las pruebas de son similares a los iniciales. Esto sugiere que los supuestos del modelo no se cumplen, a pesar de haber descartado los valores atípicos de los datos. Pues como se puede evidenciar los valores P son inferiores al nivel de significancia de 0.05, lo que nos indica que se rechaza la hipotesis nula de normalidad, homocedasticidad e independencia. De igual forma , se sigue evidenciando una multicolinealidad moderada, pues los valores del VIF se encuentran entre 1 y 5.
15.7 Validación Cruzada
Finalmente generamos un modelo de validación cruzada, para evaluar si el modelo de regresión conserva una estabilidad:
##
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos +
## banios, data = train_data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -978.76 -36.26 -3.32 34.15 909.73
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -43.44271 12.36048 -3.515 0.00045 ***
## areaconst 1.19634 0.05119 23.371 < 2e-16 ***
## estrato4 27.13885 8.40730 3.228 0.00127 **
## estrato5 52.94627 8.67363 6.104 1.24e-09 ***
## estrato6 205.71043 10.95990 18.769 < 2e-16 ***
## habitaciones -10.44463 3.80273 -2.747 0.00608 **
## parqueaderos 69.76522 4.82943 14.446 < 2e-16 ***
## banios 38.27616 3.44646 11.106 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 87.36 on 1945 degrees of freedom
## Multiple R-squared: 0.7831, Adjusted R-squared: 0.7823
## F-statistic: 1003 on 7 and 1945 DF, p-value: < 2.2e-16
##
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos +
## banios, data = vivienda_2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1096.93 -35.43 -2.08 34.61 894.26
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -43.32991 10.13354 -4.276 1.97e-05 ***
## areaconst 1.33359 0.04576 29.142 < 2e-16 ***
## estrato4 28.96511 6.86300 4.220 2.52e-05 ***
## estrato5 54.59210 7.08763 7.702 1.84e-14 ***
## estrato6 209.07531 8.88859 23.522 < 2e-16 ***
## habitaciones -11.54029 3.16593 -3.645 0.000272 ***
## parqueaderos 61.62033 3.50854 17.563 < 2e-16 ***
## banios 38.25237 2.85475 13.400 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 87.6 on 2779 degrees of freedom
## Multiple R-squared: 0.7914, Adjusted R-squared: 0.7909
## F-statistic: 1506 on 7 and 2779 DF, p-value: < 2.2e-16
## Coefficients_Initial Coefficients_Estimated
## (Intercept) -43.329910 -43.442713
## areaconst 1.333594 1.196344
## estrato4 28.965111 27.138852
## estrato5 54.592100 52.946272
## estrato6 209.075308 205.710428
## habitaciones -11.540289 -10.444627
## parqueaderos 61.620330 69.765223
## banios 38.252374 38.276164
## [1] 0.8981201
## [1] 0.7914037
Modelo de Estimación (train_data):
R2: 0.7831, lo que indica que aproximadamente el 78.31% de la variabilidad en el precio (preciom) puede ser explicada por las variables independientes en este modelo. Error Estándar Residual: 87.36, lo que sugiere que las predicciones del modelo tienen una desviación promedio de aproximadamente 87.36 unidades del valor real.
Modelo en inicial:
R2: 0.7914, lo que sugiere que este modelo tiene un poder explicativo ligeramente superior al modelo de estimación, con aproximadamente el 79.14% de la variabilidad explicada. Error Estándar Residual: 87.6, similar al modelo de estimación, lo que indica que el rendimiento en términos de error es comparable.
En ambos modelos, todos los coeficientes son estadísticamente significativos (p < 0.05), lo que indica que cada variable tiene un impacto significativo en el precio de las propiedades.
areaconst: En ambos modelos, el coeficiente es positivo y significativo, lo que indica que a medida que aumenta el área construida, el precio también tiende a aumentar.
Estratos: Los coeficientes para estrato4, estrato5, y estrato6 son positivos y significativos, lo que sugiere que los estratos más altos están asociados con precios más altos.
habitaciones: En ambos modelos, el coeficiente es negativo y significativo, lo que indica que un aumento en el número de habitaciones está asociado con una disminución en el precio, lo cual puede parecer contraintuitivo y podría requerir una revisión más profunda de los datos.
parqueaderos: El coeficiente es positivo y significativo, lo que indica que más parqueaderos están asociados con precios más altos.
banios: También tiene un coeficiente positivo y significativo, sugiriendo que más baños están asociados con precios más altos.
Los residuos en ambos modelos tienen un rango que indica la presencia de errores de predicción, con valores máximos de 909.73 en el modelo de estimación y 894.26 en el modelo de vivienda_2. Esto sugiere que hay algunas predicciones que se desvían significativamente de los valores reales, aunque la mayoría de los residuos están relativamente cerca de cero.
16. CONCLUSIONES
16.1. Validación de los supuestos del modelo
Durante las pruebas de hipótesis y la validación de los gráficos de diagnóstico, se evaluó el cumplimiento de los supuestos de normalidad, independencia, homocedasticidad y ausencia de multicolinealidad en los dos modelos desarrollados. Sin embargo, se observó que ninguno de los modelos cumplió con estos supuestos.
A pesar de las acciones implementadas para identificar valores atípicos, como la validación de residuos, el uso del criterio de Cook y la validación cruzada, con el objetivo de generar nuevos modelos a partir de una base de datos más limpia o para evaluar si el modelo conserva la estabilidad, los resultados no mostraron una mejora significativa. Esto impidió considerar la viabilidad del modelo de regresión múltiple para llevar a cabo los análisis deseados.
Por lo anterior, se recomiendan desarollar las siguientes acciones: Para abordar la normalidad de los residuos, se pueden aplicar transformaciones a la variable dependiente, como logaritmos o la transformación de Box-Cox. Si estas no son efectivas, se podría considerar el uso de modelos que no asuman normalidad, como la regresión robusta o no paramétrica. En cuanto a la independencia de los residuos, se recomienda analizar la autocorrelación mediante gráficos ACF y PACF, y agregar variables relevantes que puedan eliminar la correlación entre los residuos. Para la homocedasticidad, las transformaciones de la variable dependiente pueden estabilizar la varianza, y se puede utilizar regresión ponderada para abordar la heterocedasticidad. Finalmente, aunque los VIF están entre 1 y 5, es importante revisar la correlación entre los predictores; si hay alta correlación, se debe considerar eliminar o combinar variables. Si la multicolinealidad es un problema, se pueden aplicar técnicas de regularización como Lasso o Ridge para reducir la influencia de predictores correlacionados.
Asimismo, se podría considerar la eliminación de un mayor número de valores atípicos; sin embargo, esto podría llevar a un modelo que presente problemas de sobreajuste. En este contexto, es fundamental evaluar la calidad de la base de datos. Como se evidenció en el análisis de los valores atípicos y la geolocalización de los puntos por zona, parece haber problemas de asignación, así como variables que no siguen una distribución normal, comenzando por la variable objetivo: el precio.
16.2. Análisis de las ofertas disponibles, de acuerdo con las solicitudes del cliente
Conclusiones - Primera Solicitud
En conclusión, a partir de la predicción del modelo, se estima que una vivienda con las especificaciones solicitadas tendría un valor aproximado de $336.13 millones. Al analizar las primeras cinco posibles ofertas, se identificaron varias opciones atractivas en comparación con el valor estimado.
La vivienda 4458, con un precio de $315 millones, se presenta como una opción interesante, ya que ofrece un parqueadero adicional, dos baños extra y un área adicional de 70 M, siendo $21 millones más económica que el valor predicho. La vivienda 952, con un precio de $330 millones, también es atractiva, ya que es 75 M más grande y cuenta con un parqueadero, un baño y una habitación adicionales, lo que la convierte en una oferta competitiva.
La vivienda 1020, considerada la “oferta estrella”, destaca con un precio de $230 millones, aproximadamente $106 millones inferior al estimado. Esta propiedad es 50 M más grande y también incluye un parqueadero, un baño y una habitación adicionales, lo que la convierte en una opción muy favorable en términos de espacio y costo.
Por otro lado, la vivienda 1108, con un precio de $330 millones, presenta similitudes con la vivienda 952, pero no es tan atractiva debido a que tiene menos amenidades. Finalmente, la vivienda 1144, con un precio de $320 millones, es una buena oferta al contar con un parqueadero y dos baños adicionales, aunque su precio por área es el más alto de las opciones analizadas.
Si la empresa busca la mejor oferta en términos de precio, la vivienda 1020 se adapta óptimamente a la solicitud del cliente, ya que presenta el precio por área más bajo de las opciones disponibles. A pesar de contar con 50 metros adicionales a los especificados, su precio se mantiene por debajo del crédito aprobado de $350 millones. Comparada con la vivienda 1144, que tiene un área construida de 200 metros, la vivienda 1020 es $90 millones más económica, lo que resalta su excelente relación costo-beneficio. Ambas propiedades están ubicadas en el mismo barrio y pertenecen al mismo estrato, lo que refuerza la ventaja de la vivienda 1020 en términos de precio.
Con base en el análisis realizado, la vivienda que se recomendaría ofrecer es la vivienda 1020. Esta propiedad no solo tiene el precio más bajo en comparación con las ofertas disponibles, sino que también presenta un excelente costo por área, lo que la convierte en una opción atractiva para los clientes. A continuación, se detallan algunas estrategias que se podrían implementar:
Conclusiones - Segunda Solicitud
A partir del análisis realizado, se puede concluir que la vivienda 7182, con un valor de $730 millones, presenta un costo adicional de $77 millones en comparación con el valor estimado de $653.25 millones. Este incremento se justifica por el hecho de que la vivienda tiene un área construida superior de 273 M y cuenta con 5 baños adicionales a los especificados en la solicitud. Por otro lado, la vivienda 7512, con un precio de $670 millones, muestra un valor adicional de aproximadamente $17 millones, atribuible a la presencia de 2 baños adicionales y una habitación extra.
En el contexto de las ofertas disponibles en la Zona Sur, se identifican solo dos opciones que cumplen con las especificaciones solicitadas. En este sentido, se recomienda ofrecer al cliente la vivienda 7182, ya que su precio por metro cuadrado es de $1.27 millones, significativamente más bajo que el de la vivienda 7512, que, a pesar de cumplir con el requisito de 300 M, tiene un costo por metro cuadrado de casi el doble, es decir, $2.23 millones.
Al presentar esta opción al cliente, se puede resaltar el valor agregado de recibir una vivienda casi el doble de grande, que se encuentra por debajo del crédito aprobado, lo que le ahorraría $120 millones. Además, el precio por metro cuadrado de la vivienda 7182 es considerablemente más bajo, lo que la convierte en una opción más atractiva y económica.