## Cargando paquete requerido: ggplot2
## Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa
## Cargando paquete requerido: usethis
## Cargando paquete requerido: boot
## Cargando paquete requerido: broom
## Cargando paquete requerido: GGally
## Registered S3 method overwritten by 'GGally':
##   method from   
##   +.gg   ggplot2
## Cargando paquete requerido: gridExtra
## Cargando paquete requerido: knitr
## Cargando paquete requerido: summarytools
## 
## Adjuntando el paquete: 'dplyr'
## The following object is masked from 'package:gridExtra':
## 
##     combine
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
## # A tibble: 6 × 13
##      id zona    piso  estrato preciom areaconst parqueaderos banios habitaciones
##   <dbl> <chr>   <chr>   <dbl>   <dbl>     <dbl>        <dbl>  <dbl>        <dbl>
## 1  1147 Zona O… <NA>        3     250        70            1      3            6
## 2  1169 Zona O… <NA>        3     320       120            1      2            3
## 3  1350 Zona O… <NA>        3     350       220            2      2            4
## 4  5992 Zona S… 02          4     400       280            3      5            3
## 5  1212 Zona N… 01          5     260        90            1      2            3
## 6  1724 Zona N… 01          5     240        87            1      3            3
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>

INTRODUCCIÓN

Actualmente las ventas de bienes raíces en Cali se han visto disminuidas de manera significativa en lo corrido del año. Durante este periodo muchas instituciones bancarias de ahorro y vivienda están prestando grandes sumas de dinero para la industria y la construcción comercial y residencial. Cuando el efecto producto de las tensiones políticas y sociales disminuya, se espera que la actividad económica de este sector se reactive.

Hace dos días, María recibió una carta solicitando asesoría para la compra de dos viviendas por parte de una compañía internacional que desea reubicar a dos de sus empleados junto con sus familias en la ciudad. En respuesta, María se puso en contacto con DatAnalytics Consulting para que realizáramos un análisis de las ofertas disponibles en Cali, con el objetivo de sugerir la mejor opción a su cliente.

Es importante destacar que nos hemos caracterizado por la integridad en la prestación de nuestros servicios. Por ello, decidimos llevar a cabo un análisis basado en las opciones más favorables para el cliente, con la finalidad de establecer relaciones sostenibles y rentables a largo plazo. Además, buscamos asegurar que nuestras recomendaciones sean beneficiosas, ya que un enfoque a corto plazo que priorice ofrecer las viviendas más caras o las que generen mayores beneficios para María podría comprometer la fidelidad y credibilidad de los clientes hacia la compañía C&A.

Es importante destacar que este análisis se ha centrado únicamente en aspectos cuantitativos, sin considerar factores cualitativos como acabados, tiempo de uso y otros elementos que podrían influir en el valor real de las propiedades. Por ejemplo, la calidad de los materiales utilizados en la construcción, el estado de conservación de la vivienda, y las características estéticas pueden afectar significativamente la percepción del valor por parte de los compradores.

A continuación presentaremos un informe ejecutivo del análisis realizado.

1. Análisis y limpieza de los datos

Primeramente realizamos un análisis de los valores faltantes, de tal manera que podamos realizar procesos de imputación o eliminación de filas; de ser requerido, de tal manera que no se vean afectados los resultados del modelo:

##           id         zona         piso      estrato      preciom    areaconst 
##            3            3         2638            3            2            3 
## parqueaderos       banios habitaciones         tipo       barrio     longitud 
##         1605            3            3            3            3            3 
##      latitud 
##            3
## Número total de columnas: 13
## Numero total de filas: 8322

Con el objetivo de depurar la base de datos y eliminar los registros faltantes, se implementó una estrategia de imputación de datos basada en grupos, específicamente utilizando la variable “zona”. Esta técnica consistió en reemplazar los valores faltantes en las columnas de “piso” y “parqueaderos” con la mediana correspondiente a cada zona. Es fundamental señalar que, antes de llevar a cabo la imputación, es necesario verificar que los valores de las medianas no presenten decimales, dado que las variables “piso” y “parqueaderos” son discretas.

1.1. Mediana del piso por Zona

## # A tibble: 6 × 2
##   zona         mediana_piso
##   <chr>               <dbl>
## 1 Zona Centro             2
## 2 Zona Norte              3
## 3 Zona Oeste              4
## 4 Zona Oriente            2
## 5 Zona Sur                3
## 6 <NA>                   NA

1.2. Mediana del parqueaderos por Zona

## # A tibble: 6 × 2
##   zona         mediana_parqueaderos
##   <chr>                       <dbl>
## 1 Zona Centro                     1
## 2 Zona Norte                      1
## 3 Zona Oeste                      2
## 4 Zona Oriente                    1
## 5 Zona Sur                        1
## 6 <NA>                           NA

Teniendo en cuenta la consideración inicial de que los valores no nos dieran decimales, dado que ambas variables son discretas, procedemos con la imputación planteada inicialmente: mediana del piso/parqueaderos por zona.

1.3. Imputación de los valores faltantes de la columna piso con la mediana por zona

## # A tibble: 8,322 × 13
##       id zona    piso estrato preciom areaconst parqueaderos banios habitaciones
##    <dbl> <chr>  <dbl>   <dbl>   <dbl>     <dbl>        <dbl>  <dbl>        <dbl>
##  1  1147 Zona …     2       3     250        70            1      3            6
##  2  1169 Zona …     2       3     320       120            1      2            3
##  3  1350 Zona …     2       3     350       220            2      2            4
##  4  5992 Zona …     2       4     400       280            3      5            3
##  5  1212 Zona …     1       5     260        90            1      2            3
##  6  1724 Zona …     1       5     240        87            1      3            3
##  7  2326 Zona …     1       4     220        52            2      2            3
##  8  4386 Zona …     1       5     310       137            2      3            4
##  9  1209 Zona …     2       5     320       150            2      4            6
## 10  1592 Zona …     2       5     780       380            2      3            3
## # ℹ 8,312 more rows
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>

1.4. Imputación de los valores faltantes de la columna parqueaderos con la mediana por zona

## # A tibble: 8,322 × 13
##       id zona    piso estrato preciom areaconst parqueaderos banios habitaciones
##    <dbl> <chr>  <dbl>   <dbl>   <dbl>     <dbl>        <dbl>  <dbl>        <dbl>
##  1  1147 Zona …     2       3     250        70            1      3            6
##  2  1169 Zona …     2       3     320       120            1      2            3
##  3  1350 Zona …     2       3     350       220            2      2            4
##  4  5992 Zona …     2       4     400       280            3      5            3
##  5  1212 Zona …     1       5     260        90            1      2            3
##  6  1724 Zona …     1       5     240        87            1      3            3
##  7  2326 Zona …     1       4     220        52            2      2            3
##  8  4386 Zona …     1       5     310       137            2      3            4
##  9  1209 Zona …     2       5     320       150            2      4            6
## 10  1592 Zona …     2       5     780       380            2      3            3
## # ℹ 8,312 more rows
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>

Teniendo en cuenta que la cantidad de faltantes para todas las columnas (excepto “parqueaderos y piso”) es poco representativo respecto al total, optamos por eliminar estas filas.

Una vez completada la imputación, verificamos la cantidad de datos faltantes, lo que nos permite confirmar que la base de datos está limpia en términos de faltantes.

##           id         zona         piso      estrato      preciom    areaconst 
##            0            0            0            0            0            0 
## parqueaderos       banios habitaciones         tipo       barrio     longitud 
##            0            0            0            0            0            0 
##      latitud 
##            0
## [1] 8319
## [1] 13

——————————————————————————————————

2. PRIMER FILTRO: CASAS DE LA ZONA NORTE

2.1. Creación del subset de casas en la Zona Norte, a partir de la data inicial

En primer lugar, validamos si existen variables unicas en la columna Tipo y Zona, pues de no ser así, se debe realizar una estandarización de variables, para efectos de los análisis. Tal como se puede evidenciar, no es necesario aplicar un proceso de homologación, dado que la data se encuentra limpia para la columna tipo y zona, y únicamente se observan valores únicos.

## [1] "Casa"        "Apartamento"
## [1] "Zona Oriente" "Zona Sur"     "Zona Norte"   "Zona Oeste"   "Zona Centro"

Posteriormente generamos una tabla que se denominará vivienda_1 con los filtros establecidos en el ejercicio. En primer lugar filtraremos por Casa y Zona Norte.

## # A tibble: 6 × 13
##      id zona     piso estrato preciom areaconst parqueaderos banios habitaciones
##   <dbl> <chr>   <dbl>   <dbl>   <dbl>     <dbl>        <dbl>  <dbl>        <dbl>
## 1  1209 Zona N…     2       5     320       150            2      4            6
## 2  1592 Zona N…     2       5     780       380            2      3            3
## 3  4057 Zona N…     2       6     750       445            1      7            6
## 4  4460 Zona N…     2       4     625       355            3      5            5
## 5  6081 Zona N…     2       5     750       237            2      6            6
## 6  7824 Zona N…     2       4     600       160            1      4            5
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>

Mostramos lo 3 primeros registros:

## # A tibble: 3 × 13
##      id zona     piso estrato preciom areaconst parqueaderos banios habitaciones
##   <dbl> <chr>   <dbl>   <dbl>   <dbl>     <dbl>        <dbl>  <dbl>        <dbl>
## 1  1209 Zona N…     2       5     320       150            2      4            6
## 2  1592 Zona N…     2       5     780       380            2      3            3
## 3  4057 Zona N…     2       6     750       445            1      7            6
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>

2.2. Creación del mapa de puntos de la ciudad de Cali para las casas ubicadas en el norte

Posteriormente creamos el mapa con los puntos de las bases

El análisis del gráfico revela que no todos los puntos se encuentran en la Zona Norte. Se observa una considerable cantidad de valores atípicos distribuidos en las Zonas Sur, Oriente y Oeste. Esta situación puede deberse a errores en la catalogación de la base de datos, lo que ha llevado a asignar incorrectamente puntos a esta zona que, en realidad, no le corresponden. De igual forma, se pudo presentar un error geolocalización de los datos, donde los puntos se asignan incorrectamente a una zona debido a coordenadas erróneas.

2.3. Análisis exploratorio

2.3.1. Estrato predominante en Zona Norte

La gráfica muestra que el estrato predominante para las casas en la Zona Norte es el Estrato 5, seguido por el Estrato 3, el Estrato 4 y, en menor medida, el Estrato 6. Esto sugiere que esta zona está habitada principalmente por personas de niveles socioeconómicos que podrían clasificarse como Clase Media-Alta, con una representación significativa de la Clase Media. Por lo tanto, al seleccionar esta zona y el tipo de vivienda “Casa”, podemos inferir que la empresa busca ubicar a sus empleados en un área que se alinea con características socioeconómicas media-altas; tal como lo establecen las condiciones iniciales, donde se define que el estrato debe ser 4 o 5. Por lo anterior, se debe dar claridad a la empresa que la Zona por la cual estan optando, podra tener una infraestructura adecuada; donde podrán vivir en un entorno segura, con viviendas de mejor calidad, con acceso a comodidades y espacios adecuados para la vida familiar.

2.3.2. Gráfico de caja y bigotes - Precio por Estrato

Como se puede evidenciar en la gráfica de caja y bigotes,podemos analizar que para las casa de la Zona Norte los valores son los siguientes:

A partir de las condiciones brindadas por la empresa respecto al crédito aprobado, comenzamos a focalizar la estrategia comercial, contemplando únicamente dentro del alcance de la oferta a los estratos 3, 4 y 5, dado que el estrato 6, se encuentra superior al presupuesto definido que son 350 M, pues el valor mínimo de una vivienda en dicho estrato es de $430 M. De igual forma, observamos que el valor mediano en el estrato 3 es de $215 M y únicamente el 25% tiene un valor superior a $300 m; pudiendo descartar esta oferta, considerando la disponibilidad existente actualmente. Lo anterior, se encuentra muy alineado con las solicitudes de la compañía, donde se define que el estrato debe ser 4 o 5.

A simple vista y sin realizar un análisis de correlación mas estructurado, podemos observar que se evidencia una relación positiva entre el estrato y el precio; pues, tal como se puede observar en la gráfica a medida que aumenta el estrato, el precio de las viviendas incrementa de igual forma.

2.3.3. Gráfico de caja y bigotes - Área por Estrato

## $stats
##       [,1] [,2] [,3]  [,4]
## [1,]  30.0   73   45 146.0
## [2,]  90.0  160  211 298.0
## [3,] 130.0  264  298 350.0
## [4,] 195.5  320  380 456.5
## [5,] 350.0  550  600 650.0
## 
## $n
## [1] 235 161 271  55
## 
## $conf
##          [,1]     [,2]     [,3]    [,4]
## [1,] 119.1263 244.0766 281.7797 316.232
## [2,] 140.8737 283.9234 314.2203 383.768
## 
## $out
##  [1]  435  460  396  467  400  416  400  510  472  500  410  588 1440  752  607
## [16]  600  734  780  700 1188  850  736  640  838  765  776  850  734  950  800
## [31]  900  942  730  960  730  736  920  806
## 
## $group
##  [1] 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4
## 
## $names
## [1] "3" "4" "5" "6"

A partir del análisis del boxplot del área por estrato, podemos concluir que la mayor oferta de viviendas se encuentra en los estratos 4 y 5. En primer lugar, descartamos el estrato 3, ya que el 75% de las viviendas en este estrato tienen un área inferior a 195 m2. Al analizar el estrato 6, observamos que el 25% o menos de las viviendas tienen un área de 298 m2 o menos. Esto indica que la oferta es muy limitada en estos dos estratos, especialmente considerando que la empresa busca viviendas con un área de 200 m2. En este contexto, las casas en el estrato 3 son relativamente pequeñas, mientras que en el estrato 6 son considerablemente grandes frente a lo buscado por la compañía

En su defecto, los estratos 4 y 5 ofrecen una mayor variedad de viviendas que se ajustan a la búsqueda de 200 m2, ya que es probable que incluyan propiedades que cumplan con este requisito. La mediana en el estrato 4 es de 264 m2, mientras que en el estrato 5 es de 298 m2. Esto indica que, en ambos estratos, el 50% de las viviendas tienen un área inferior a la mediana, lo que sugiere una oferta significativa de opciones que podrían satisfacer la necesidad de una casa de 200 m2.

Al igual que en el caso del precio, observamos que a mayor estrato el tamaño de las viviendas incrementa.

2.4 Análisis exploratorio - Correlación entre variables

2.4.1. Análisis bivariado entre las variables independientes y la variable dependiente Precio

En el análisis del gráfico de dispersión, se puede observar una fuerte relación lineal positiva entre el precio y el área construida. Esto se evidencia tanto en la forma de la gráfica como en el valor del coeficiente de correlación, que es de 0.73. Este resultado sugiere que, en general, a medida que aumenta el área de una propiedad, también tiende a aumentar su precio, y viceversa.

Por otro lado, la correlación entre el precio y la cantidad de baños (0.52), así como entre el precio y el número de habitaciones (0,32), muestra una asociación positiva más débil. Esto se refleja en los coeficientes de correlación, que son inferiores a 0.8, indicando que, aunque existe una relación positiva, no es tan fuerte como la observada con el área construida. De igual forma, los gráficos no demuestran ningun patron visible que permita indicar la relación entre variables, pues se observa cierta dispersión de los puntos alrededor del eje.

A partir del análisis de las variables independientes, se puede observar que existe una correlación positiva débil entre ellas. En particular, la correlación entre el número de baños y el área construida es de 0.46. Asimismo, la correlación entre el área construida y el número de habitaciones es de 0.37. Por último, la correlación entre el número de baños y el número de habitaciones es de 0.576. Estos valores indican que, aunque hay una relación positiva entre estas variables, la fuerza de la correlación es relativamente baja. Aparentemente podriamos inferir que no existe multicolinealidad entre las variables predictoras, no obstante, es necesario efectuar análisis posteriores que permitan validar dicha hipotesis inical.

3. Estimación del modelo de Regresión Lineal Múltiple

3.1. Definición de variables categoricas como Dummies

De manera previa, a la estimación del modelo, debemos considerar que existen variables categoricas, las cuales requieren una re-definición, creando a partir de estas; nuevas variables conocidas como Dummies. Para este caso, convertiremos la variable estrato, en sus respectivas variables ficticias.

## # A tibble: 722 × 16
##       id zona    piso estrato preciom areaconst parqueaderos banios habitaciones
##    <dbl> <chr>  <dbl> <fct>     <dbl>     <dbl>        <dbl>  <dbl>        <dbl>
##  1  1209 Zona …     2 5           320       150            2      4            6
##  2  1592 Zona …     2 5           780       380            2      3            3
##  3  4057 Zona …     2 6           750       445            1      7            6
##  4  4460 Zona …     2 4           625       355            3      5            5
##  5  6081 Zona …     2 5           750       237            2      6            6
##  6  7824 Zona …     2 4           600       160            1      4            5
##  7  7987 Zona …     2 5           420       200            4      4            5
##  8  3495 Zona …     3 5           490       118            2      4            4
##  9   141 Zona …     3 3           230       160            1      2            3
## 10   243 Zona …     3 3           190       435            1      0            0
## # ℹ 712 more rows
## # ℹ 7 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>,
## #   E4 <dbl>, E5 <dbl>, E6 <dbl>

3.2. Estimación del modelo de RLM

A continuación realizamos la estimación del modelo de RLM

## 
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos + 
##     banios, data = vivienda_1)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -954.94  -72.39  -15.35   46.24 1076.58 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   26.56950   17.70444   1.501   0.1339    
## areaconst      0.81832    0.04308  18.997  < 2e-16 ***
## estrato4      82.43683   17.36272   4.748 2.48e-06 ***
## estrato5     133.31930   16.48656   8.087 2.63e-15 ***
## estrato6     327.64135   26.46822  12.379  < 2e-16 ***
## habitaciones   1.14796    4.11279   0.279   0.7802    
## parqueaderos   9.23613    5.23414   1.765   0.0781 .  
## banios        24.81715    5.36415   4.626 4.42e-06 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 156.6 on 714 degrees of freedom
## Multiple R-squared:  0.6626, Adjusted R-squared:  0.6593 
## F-statistic: 200.3 on 7 and 714 DF,  p-value: < 2.2e-16

Teniendo en cuenta la estimación del modelo de regresión, podemos validar lo siguiente:

3.2.1. Coeficientes

–>B0 (Intercepto):Si todas las variables predictoras son 0, se espera que el precio promedio en esta Zona sea de $26.5 M. No obstante, no es posible que suceda lo anterior, pues la vivienda deberia de tener como mínimo el área construida.

–>Area Construida: Se espera que por cada metro cuadrado adicional, el precio de la vivienda incremente en $818.000 pesos o $ 0,81 M. De igual forma, al analizar el p-valor de < 2e-16, observamos que el área construida tiene una efecto signicativo en el precio de la vivienda.

–>Habitaciones: Se espera que por una habitación adicional, el precio de la vivienda aumente en $1,14 M aprox. Lo anterior, se encuentra muy alineado con el precio adicional que tiene una vivienda a medida que se incrementa el área construida. Dado que el valor P de 0.7802 es mayor que el valor lambda de 0.05, podemos observar que la variable habitaciones no tiene un aporte significativo al modelo, en presencia de las otras variables.

–>Parqueadero: Se espera que por cada parqueadero adicional, el valor de la vivienda incremente en $9.2 M. Al igual que en el caso de habitaciones, podemos observar que esta variable no tiene un aporte significativo al modelo en presencia de las otras variables, pues el valor P 0.0781 > 0.05. –>Baños: Se espera que por cada baño adicional, el precio de la vivienda incremente en $24,81 M. El valor P de 4.42e-06; el cual es inferior a 0,05, nos indica que esta variable tiene un aporte significativo en el modelo.

3.2.2. Estadísticas del Modelo –>Residual standard error: Un error estándar residual de 159 sugiere que, en promedio, las predicciones del modelo se desvían de los valores observados en aproximadamente $159. –>Análisis del R2: Un valor de 0.6513 indica que el 65.13% de la variabilidad en el precio de las viviendas se explica por las variables del modelo.Aunque ambos valores sugieren que el modelo tiene un buen nivel de ajuste, este valor podria ser mejor y es importante analizar las causales que estan impidiendo alcanzar un valor mayor.

—> F-statistic: Un valor de 267.5 con un p-valor < 2.2e-16 indica que al menos una de las variables independientes es significativamente diferente de cero, lo que sugiere que el modelo en su conjunto es significativo.

3.2.3. Análisis Logico

De acuerdo con la información suministrada por la plataforma metro cuadrado, el valor promedio del metro cuadrado de una casa en Cali es de $2,093,023. No obstante, a partir de la estimación del modelo de regresión, un metro cuadrado adicional para una vivienda en la Zona Norte tendria un valor aprox de $819.000, por lo anterior podriamos inferir 2 situaciones: el valor de la vivienda en esta Zona es muy inferior al valor promedio de casas en Cali; que sería la hipotesis menos probable y de ser asi; sería una excelente opción de compra para las empresas que desean ubicar a sus empleados en esta zona. Por otro lado, podriamos considerar que los datos se encuentran desactualizados o errados; ocasionando cierto sesgo en los analisis realizados.

Al analizar el impacto del incremento en el precio por la adición de un baño, resulta poco razonable que el precio aumente en $25 millones por un baño adicional. Esta cifra parece desproporcionada, especialmente si consideramos que el aumento en el precio debería estar en consonancia con el área. Actualmente, se estima que por cada metro cuadrado adicional, el precio incrementa en $818,000.

Si tomamos como referencia un baño promedio de 4 metros cuadrados, el aumento máximo en el precio asociado a un baño de estas dimensiones sería de aproximadamente $3.2 millones. Esto sugiere que el incremento de $25 millones por un baño adicional no se justifica en función del área y el valor por metro cuadrado.

3.3. Estimación del modelo de RLM - Utilizando únicamente la relación entre Precio y Estrato

## 
## Call:
## lm(formula = preciom ~ estrato, data = vivienda_1)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -424.53 -114.90  -44.15   65.85 1390.47 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   244.15      13.73  17.780   <2e-16 ***
## estrato4      194.62      21.54   9.037   <2e-16 ***
## estrato5      305.37      18.76  16.274   <2e-16 ***
## estrato6      574.10      31.53  18.207   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 210.5 on 718 degrees of freedom
## Multiple R-squared:  0.3873, Adjusted R-squared:  0.3847 
## F-statistic: 151.3 on 3 and 718 DF,  p-value: < 2.2e-16

A partir del resumen de la regresión, podemos observar que:

El análisis revela que el precio promedio adicional de una vivienda en el estrato 4, en comparación con el estrato 3, es de $194 millones. En el caso del estrato 5, el precio promedio adicional asciende a $305 millones en relación con el estrato 3. Por último, para el estrato 6, el precio promedio adicional se eleva a $574 millones. Lo anterior, es totalmente lógico, pues a mayor estrato el costo de vida incrementa a raiz del aumento de los servicios publicos, la administración, entre otros.

4. Validación de supuestos

4.1. Análisis de los supuestos del modelo utilizando pruebas de hipotesis

## Cargando paquete requerido: zoo
## 
## Adjuntando el paquete: 'zoo'
## The following objects are masked from 'package:base':
## 
##     as.Date, as.Date.numeric
## Cargando paquete requerido: carData
## 
## Adjuntando el paquete: 'car'
## The following object is masked from 'package:dplyr':
## 
##     recode
## The following object is masked from 'package:boot':
## 
##     logit
## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(modelo1)
## W = 0.82702, p-value < 2.2e-16
## 
##  Durbin-Watson test
## 
## data:  modelo1
## DW = 1.688, p-value = 9.791e-06
## alternative hypothesis: true autocorrelation is greater than 0
## Non-constant Variance Score Test 
## Variance formula: ~ fitted.values 
## Chisquare = 624.6269, Df = 1, p = < 2.22e-16
##                  GVIF Df GVIF^(1/(2*Df))
## areaconst    1.523647  1        1.234361
## estrato      1.555096  3        1.076365
## habitaciones 1.660296  1        1.288525
## parqueaderos 1.226016  1        1.107256
## banios       1.963375  1        1.401205

–> Prueba de Shapiro Wilk: Con respecto a la prueba de Shapiro Wilk, observamos que el primer supuesto de normalidad no se cumple, pues el valor P 2.2e-16 inferior al lambda de 0.05, nos indica que se rechaza la hipotesis nula; concluyendo de esta manera que los residuos del modelo NO siguen una distribución normal.

–> Prueba de Durbin-Watson: La prueba de Durbin Watson, nos deja ver que el principo de independencia no se cumple, pues el valor P 9.791e-06 inferior al lambda de 0.05, nos indica que se rechaza la hipotesis nula; concluyendo de esta manera que existe correlación entre los residuos.

–> Prueba de Breusche-Pagan: La prueba de Breusche Pagan, nos deja ver que el principo de homocedasticidad no se cumple, pues el valor P 2.22e-16 inferior al lambda de 0.05, nos indica que se rechaza la hipotesis nula; concluyendo de esta manera que existe heterocedasticidad en los residuos del modelo.

—>Prueba VIF de Multicolinealidad: -VIF = 1: Esto indica que no hay multicolinealidad. El predictor no está correlacionado con otros predictores, por lo que no infla el error típico ni afecta a la estabilidad del modelo. -VIF entre 1 y 5: Esto sugiere una multicolinealidad moderada. Existe cierta correlación con otros predictores, pero no suele ser grave. Sin embargo, merece la pena vigilar estos predictores para ver si la multicolinealidad se convierte en un problema, sobre todo si otros valores VIF son altos. -VIF > 5: Existe una alta multicolinealidad. El error típico del predictor puede estar notablemente inflado, lo que puede hacer que su coeficiente sea menos fiable. Considera la posibilidad de tomar medidas para reducir la multicolinealidad, como eliminar o combinar los predictores correlacionados. -VIF > 10: Esto indica una multicolinealidad grave. El error típico del predictor está muy inflado y la estimación de su coeficiente es probablemente inestable. Suelen ser necesarias acciones correctoras, como eliminar el predictor o utilizar técnicas de regularización.

Se presentan valores de GVIF (Generalized Variance Inflation Factor) para varias variables (areaconst, estrato, habitaciones, parqueaderos, banios). Todos los valores son mayores que 1 Y y menores que 5, lo que sugiere que hay multicolinealidad moderada en el modelo.

4.2. Análisis de los supuestos del modelo utilizando graficas de diagnostico

–>Residuales vs. Valores Ajustados: Aunque los residuos parecen estar distribuidos aleatoriamente, hay una ligera tendencia a aumentar la variabilidad de los residuos a medida que los valores ajustados aumentan. Esto podría indicar la presencia de heterocedasticidad, donde la varianza de los errores no es constante a lo largo de los valores ajustados.. Se pueden observar tres puntos etiquetados con los números 208, 5130 y 632 que podrian ser considerados como atipicos.

–>Q-Q Plot de Residuos: En esta gráfica, los puntos se desvían de la línea diagonal, especialmente en los extremos (colas). Esto sugiere que los residuos no siguen una distribución normal, lo cual es un supuesto importante en la regresión lineal. La desviación en las colas indica que puede haber valores atípicos o que la distribución de los residuos es asimétrica.

–>Scale-Location: Se observa una tendencia ascendente en la línea de ajuste (la línea roja). Esto sugiere que la varianza de los residuos no es constante a lo largo de los valores ajustados. En otras palabras, a medida que los valores ajustados aumentan, la dispersión de los residuos también parece aumentar. La presencia de esta tendencia indica que hay heterocedasticidad en el modelo. Esto significa que los errores del modelo no tienen una varianza constante, lo que puede afectar la validez de las inferencias estadísticas realizadas a partir del modelo.

–>Residuales vs. Leverage:

Se observa que hay algunos puntos con alto leverage (influencia) que están más alejados de la línea de referencia. Esto puede indicar la presencia de puntos influyentes que podrían estar afectando el ajuste del modelo. Es importante investigar estos puntos para determinar si son outliers o si representan una variabilidad real en los datos.Los puntos etiquetados (como 632, 702 y 186.) son candidatos a ser influyentes y deben ser examinados más de cerca

4.3. Recomendaciones para mejorar la validación de los supuestos del modelo

4.3.1. Normalidad de los Residuos: Se podria considerar aplicar transformaciones a la variable dependiente (como logaritmos, raíces cuadradas o Box-Cox) para intentar lograr que los residuos se distribuyan de manera más normal.

Si la transformación no es efectiva, se podría considerar el uso de modelos que no asuman normalidad, como modelos de regresión robusta o modelos de regresión no paramétrica.

4.3.2. Independencia de los Residuos: Se podrían realizar análisis más profundo de la autocorrelación de los residuos utilizando gráficos de autocorrelación (ACF) y autocorrelación parcial (PACF) para identificar patrones.Para el caso de que existan variables relevantes que no se han incluido en el modelo, se puede considerar agregarlas. Esto puede ayudar a eliminar la correlación entre los residuos.

4.3.3. Homocedasticidad: Al igual que con la normalidad, las transformaciones de la variable dependiente pueden ayudar a estabilizar la varianza de los residuos.De igual forma se puede considerar el uso de regresión ponderada, donde se asignan pesos a las observaciones para abordar la heterocedasticidad.

4.3.4. Multicolinealidad: Aunque los VIF están entre 1 y 5, es recomendable revisar la correlación entre los predictores. Si algunos predictores están altamente correlacionados, se debe considerar eliminar uno de ellos o combinar variables. Si la multicolinealidad se convierte en un problema, se puede considerar el uso de técnicas de regularización como Lasso o Ridge, que pueden ayudar a reducir la influencia de predictores correlacionados.

5. Predicción del precio de la vivienda con las caracteristicas de la primera solicitud

5.1. Ingresamos los valores que tendrá la función, de acuerdo a las especificaciones de la organización

##   areaconst parqueaderos estrato banios habitaciones
## 1       200            1       4      2            4
## 2       200            1       5      2            4

5.2. Realizamos la predicción del precio de la vivienda

##        1        2 
## 336.1336 387.0161

5.3. Análisis de la predicción

Según los resultados obtenidos del modelo, y considerando las condiciones especificadas por la empresa —un área construida de 200 m2, 1 parqueadero, 4 habitaciones y 2 baños- en estrato 4, el precio estimado de la vivienda sería de aproximadamente $336.13 millones. En contraste, para una vivienda en estrato 5, el precio ascendería a alrededor de $387 millones.

Dado lo anterior y teniendo en cuenta las limitaciones específicamente del crédito aprobado de $350 millones, podemos concluir que la opción que mejor se adapta a las necesidades de la empresa es la vivienda en estrato 4. Esto se debe a que el costo de la vivienda en estrato 5 excede la restricción presupuestaria establecida.

6. Recomendación de las potenciales ofertas que responden a la solicitud de la empresa

## # A tibble: 16 × 16
##       id zona    piso estrato preciom areaconst parqueaderos banios habitaciones
##    <dbl> <chr>  <dbl> <fct>     <dbl>     <dbl>        <dbl>  <dbl>        <dbl>
##  1  7471 Zona …     3 4           330      240             1      4            4
##  2  4458 Zona …     2 4           315      270             2      4            4
##  3  2837 Zona …     3 4           340      207             1      4            4
##  4  3352 Zona …     3 4           335      300             3      4            4
##  5  4727 Zona …     2 4           296      232             1      6            4
##  6   937 Zona …     2 4           350      280             2      3            4
##  7   952 Zona …     2 4           330      275             2      3            5
##  8  1020 Zona …     2 4           230      250             2      3            5
##  9  1108 Zona …     2 4           330      260             1      3            4
## 10  1144 Zona …     3 4           320      200             2      4            4
## 11  7432 Zona …     1 4           260      280             2      4            6
## 12  4488 Zona …     1 4           350      265             1      4            5
## 13  5031 Zona …     3 4           350      350             1      4            5
## 14  2544 Zona …     1 4           340      264.            2      4            4
## 15  7470 Zona …     2 4           340      264             2      5            7
## 16  1822 Zona …     3 4           340      295             2      2            4
## # ℹ 7 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>,
## #   E4 <dbl>, E5 <dbl>, E6 <dbl>

En respuesta a la solicitud de la empresa, podemos comenzar nuestro análisis a partir 16 ofertas que se detallan en la tabla. Estas viviendas tienen un precio igual o inferior a $350 millones y cumplen con los requisitos mínimos establecidos por la empresa en relación con otros atributos específicos, como el área construida, el número de parqueaderos, baños y demás características solicitadas.

6.1. Geolocalización de los puntos de las posibles ofertas potenciales

Por medio del mapa, podemos observar que existen puntos que no se encuentran ubicados en la Zona Norte, por tal razón; dichas viviendas seran desestimadas dentro de la oferta sugerida al cliente. Son los casos por ejemplo del ID: 3352, 7432 7471 y 7470, entre otros. Ahora bien, dentro de los puntos que observamos que se encuentran geolocalizados de manera correcta, encontramos los siguientes ID: 4458, 2544, 1822, 1144, 1020, 952, 1108. Sobre dichos casos realizaremos el análisis, con la finalidad de definir las propuestas más conveniente para el cliente.

6.2. Ofertas potenciales

## # A tibble: 7 × 16
##      id zona     piso estrato preciom areaconst parqueaderos banios habitaciones
##   <dbl> <chr>   <dbl> <fct>     <dbl>     <dbl>        <dbl>  <dbl>        <dbl>
## 1  4458 Zona N…     2 4           315      270             2      4            4
## 2   952 Zona N…     2 4           330      275             2      3            5
## 3  1020 Zona N…     2 4           230      250             2      3            5
## 4  1108 Zona N…     2 4           330      260             1      3            4
## 5  1144 Zona N…     3 4           320      200             2      4            4
## 6  2544 Zona N…     1 4           340      264.            2      4            4
## 7  1822 Zona N…     3 4           340      295             2      2            4
## # ℹ 7 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>,
## #   E4 <dbl>, E5 <dbl>, E6 <dbl>

A partir de la predicción del modelo, una vivienda con las especificaciones de la solicitud tendría un valor estimado de $336.13 millones.

Análisis de las primeras 5 posibles ofertas:

–>Vivienda 4458: Al analizar esta vivienda, notamos que su precio de $315 millones es inferior al estimado por el modelo. Es importante destacar que, en comparación con las variables predichas, esta casa cuenta con un parqueadero adicional y dos baños extra. Por lo tanto, podríamos considerar que es una opción atractiva, ya que, adicionalmente ofrece un área adicional de 70M y amenidades que no estaban contempladas en la oferta inicial, además de ser $21 millones más económica que el valor predicho por el modelo.

–>Vivienda 952: Al analizar esta vivienda, notamos que su precio de $330 millones es inferior en 6 millones aprox. al estimado por el modelo. Es importante destacar que, en comparación con las variables predichas, esta casa es 75 M más grande, dado que su área es de 275 M. De igual forma, tiene un parqueadero, un baño y una habitación adicional. Por lo tanto, tambien se podría considerar como una oferta atractiva, ya que ofrece amenidades adicionales, es más amplia y a su vez, más economica.

–>Vivienda 1020 (Oferta estrella): Al analizar esta propiedad, observamos que su precio de $230 millones es aproximadamente $106 millones inferior al estimado por el modelo. Es relevante señalar que, en comparación con las variables proyectadas, esta casa es 50 más grande, con un área total de 250 M. Además, cuenta con un parqueadero, un baño y una habitación adicional. Por lo tanto, se puede considerar una oferta atractiva, ya que no solo ofrece amenidades adicionales, sino que también es más espaciosa y económica.

–>Vivienda 1108:Al analizar esta vivienda, notamos que su precio de $330 millones es inferior en 6 millones aprox. al estimado por el modelo. Es importante destacar que, en comparación con las variables predichas, esta casa es 60 M más grande, dado que su área es de 260 M. No obstante, al compararlo la vivienda 952 que tiene similitud en el precio y en el barrio, podemos observar que no podria ser del todo atractiva, pues tendría 10 M menos, 1 baño menos y una habitación menos en comparación con la vivienda 952.

–>Vivienda 1144: Al analizar esta propiedad, observamos que su precio de $320 millones es aproximadamente $16 millones inferior al estimado por el modelo. Es relevante señalar que, en comparación con las variables proyectadas, esta casa tiene la misma área de 200 M, 1 parqueadero adicional y 2 baños adicionales. Por lo que en comparación con el modelo predicho, esta sería una buena oferta para nuestro cliente. No obstante, se puede observar en el gráfico que analizaremos a continuación que dicha vivienda cuenta con el precio por área mas costoso de la muestra seleccionada.

6.3. Precio por área de las ofertas disponibles

## # A tibble: 7 × 4
##      id preciom areaconst precioporarea
##   <dbl>   <dbl>     <dbl>         <dbl>
## 1  1020     230      250           0.92
## 2  1822     340      295           1.15
## 3  4458     315      270           1.17
## 4   952     330      275           1.2 
## 5  1108     330      260           1.27
## 6  2544     340      264.          1.29
## 7  1144     320      200           1.6

En primer lugar, si la empresa esta buscando la mejor oferta en términos de precio, podriamos ofrecer las siguientes viviendas, las cuales tienen el precio por área construida más bajo de la oferta seleccionada:

Top 5 viviendas con el precio por área más asequible:

  1. Vivienda 1020: $920.000 por área
  2. Vivienda 1822: $1.115.000 por área
  3. Vivienda 4458: $1.117.000 por área
  4. Vivienda 952: $1.269.000 por área
  5. Vivienda 1108: $1.285.000 por área

A partir de lo anterior, podemos concluir que la vivienda 1020 se adapta de manera óptima a la solicitud del cliente, ya que presenta el precio por área más bajo en comparación con las ofertas disponibles. Aunque cuenta con 50 metros adicionales a los especificados en la solicitud, su precio no supera el crédito aprobado de $350 millones.

Además, al comparar esta vivienda con la vivienda 1144, que tiene un área construida de 200 metros (como se solicitó), observamos que, a pesar de los 50 metros adicionales, el valor de la vivienda 1020 es inferior en $90 millones. Esto la convierte en una excelente opción de compra en términos de costo-beneficio.

Cabe destacar que ambas viviendas están ubicadas en el mismo barrio y pertenecen al mismo estrato, lo que resalta aún más la ventaja de la vivienda 1020, cuyo precio es significativamente más bajo.

6.4. Identificación de observaciones extremas en el modelo de RLM

6.4.1. Cálculo de los residuos

En primer lugar, graficaremos los residuos para buscar patrones que pueden ser inusuales, de forma posterior, calcularemos el Z-score de los residuos para cada observación; estableciendo como referencia un nivel de 2. Un Z-score mayor que 2 o menor que -2, se considerará como atípico.

## # A tibble: 34 × 16
##       id zona    piso estrato preciom areaconst parqueaderos banios habitaciones
##    <dbl> <chr>  <dbl> <fct>     <dbl>     <dbl>        <dbl>  <dbl>        <dbl>
##  1  3602 Zona …     3 5          1400       480            1      6            5
##  2  5616 Zona …     3 5           900       223            1      7            5
##  3  5944 Zona …     3 6           460       350            1      5            6
##  4  6155 Zona …     3 6           550       395            1      8            6
##  5  7245 Zona …     3 4          1200       752            1      0            0
##  6  3776 Zona …     3 6          1000       270            1      4            3
##  7  4540 Zona …     3 6          1200       333            1      4            3
##  8  6068 Zona …     3 6          1600       730            1      7            5
##  9  7542 Zona …     3 6          1200       374            1      4            4
## 10  5772 Zona …     3 5           870       292            2      5            8
## # ℹ 24 more rows
## # ℹ 7 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>,
## #   E4 <dbl>, E5 <dbl>, E6 <dbl>

Los residuos no están distribuidos aleatoriamente alrededor de la línea horizontal (que representa el valor cero). Parece haber una tendencia, ya que los residuos tienden a aumentar a medida que los valores ajustados aumentan. Esto sugiere que el modelo puede estar subestimando los valores en el rango superior y sobrestimando en el rango inferior.

A partir de la tabla generada de los valores atipicos identificados por medio del método de Z-Score, resultaron 34 observaciones, las cuales serán comparadas con las que nos arroje el Criterio de Cook.

6.4.2. Criterio de Cook

## # A tibble: 49 × 16
##       id zona    piso estrato preciom areaconst parqueaderos banios habitaciones
##    <dbl> <chr>  <dbl> <fct>     <dbl>     <dbl>        <dbl>  <dbl>        <dbl>
##  1  3602 Zona …     3 5          1400       480            1      6            5
##  2  5616 Zona …     3 5           900       223            1      7            5
##  3  5944 Zona …     3 6           460       350            1      5            6
##  4  6155 Zona …     3 6           550       395            1      8            6
##  5  6806 Zona …     3 6          1400       960            1      4            3
##  6  6872 Zona …     3 6          1150       500            1      6            5
##  7  7245 Zona …     3 4          1200       752            1      0            0
##  8  3776 Zona …     3 6          1000       270            1      4            3
##  9  4540 Zona …     3 6          1200       333            1      4            3
## 10  5125 Zona …     3 6           900       200            1      3            4
## # ℹ 39 more rows
## # ℹ 7 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>,
## #   E4 <dbl>, E5 <dbl>, E6 <dbl>

Aplicando el Criterio de Cook, obseramos 49 valores atipicos, los cuales comparamos con los que nos arrojÓ el Z-Score de Residuos, para determinar un comun denominador de las posibles observaciones, estarían impactando en el modelo; las cuales se detallan a continuación.

6.4.3. Valores atipicos identificados

##      id     zona.x piso.x estrato.x preciom.x areaconst.x parqueaderos.x
## 1   534 Zona Norte      3         3       370      1440.0              1
## 2  2851 Zona Norte      1         5       990       290.0              4
## 3  3056 Zona Norte      3         6       430       300.0              3
## 4  3284 Zona Norte      3         6      1250       330.0              6
## 5  3449 Zona Norte      1         5      1500       400.0              2
## 6  3602 Zona Norte      3         5      1400       480.0              1
## 7  3776 Zona Norte      3         6      1000       270.0              1
## 8  3858 Zona Norte      3         4      1650       734.0              1
## 9  4056 Zona Norte      1         5      1600       942.0              4
## 10 4116 Zona Norte      2         4       810       260.0              3
## 11 4322 Zona Norte      3         6       490       452.0              3
## 12 4324 Zona Norte      2         5      1200       523.3              2
## 13 4349 Zona Norte      3         5       650      1188.0              4
## 14 4540 Zona Norte      3         6      1200       333.0              1
## 15 4542 Zona Norte      3         5      1400       265.0              1
## 16 4548 Zona Norte      2         5       850       296.0              4
## 17 4561 Zona Norte      3         5      1000       350.0              2
## 18 4564 Zona Norte      3         5      1940       734.0              3
## 19 4707 Zona Norte      3         4       900       300.0              1
## 20 4793 Zona Norte      2         4      1800       607.0              1
## 21 4975 Zona Norte      3         6       680       452.0              1
## 22 5247 Zona Norte      2         5      1100       500.0              4
## 23 5263 Zona Norte      3         6      1500       470.0              3
## 24 5444 Zona Norte      3         6       850       736.0              4
## 25 5616 Zona Norte      3         5       900       223.0              1
## 26 5710 Zona Norte      2         5      1530       776.0              6
## 27 5772 Zona Norte      3         5       870       292.0              2
## 28 5944 Zona Norte      3         6       460       350.0              1
## 29 6068 Zona Norte      3         6      1600       730.0              1
## 30 6143 Zona Norte      3         3      1100       500.0              1
## 31 6155 Zona Norte      3         6       550       395.0              1
## 32 7245 Zona Norte      3         4      1200       752.0              1
## 33 7542 Zona Norte      3         6      1200       374.0              1
## 34 8319 Zona Norte      3         5      1400       838.0              1
##    banios.x habitaciones.x tipo.x                 barrio.x longitud.x latitud.x
## 1         4             10   Casa          villa del prado  -76.49815   3.46343
## 2         3              3   Casa                 la flora  -76.52235   3.48566
## 3         5              5   Casa                 la flora  -76.52353   3.48157
## 4         5              4   Casa                    menga  -76.52566   3.49078
## 5         3              4   Casa                    menga  -76.52636   3.49331
## 6         6              5   Casa                    acopi  -76.52726   3.36365
## 7         4              3   Casa                     Cali  -76.52835   3.35453
## 8         5             10   Casa              san vicente  -76.52900   3.46700
## 9         4             10   Casa                versalles  -76.52950   3.46600
## 10        4              5   Casa              san vicente  -76.52991   3.46756
## 11        6              8   Casa             santa monica  -76.53092   3.46830
## 12        4              7   Casa                versalles  -76.53093   3.46025
## 13        6              6   Casa                el bosque  -76.53100   3.48400
## 14        4              3   Casa                     Cali  -76.53199   3.35133
## 15       10             10   Casa                   vipasa  -76.53200   3.45200
## 16        2              4   Casa             santa monica  -76.53200   3.46300
## 17        3              3   Casa santa mónica residencial  -76.53200   3.47000
## 18        8             10   Casa              san vicente  -76.53200   3.45200
## 19        0              0   Casa                  granada  -76.53249   3.45951
## 20        4              8   Casa                  granada  -76.53300   3.45900
## 21       10             10   Casa               zona norte  -76.53406   3.45962
## 22        5              5   Casa                  granada  -76.53533   3.45777
## 23        6              5   Casa             santa monica  -76.53540   3.46210
## 24        8              9   Casa                juanamb√∫  -76.53673   3.45665
## 25        7              5   Casa                    acopi  -76.53766   3.36366
## 26        6             10   Casa              san vicente  -76.53800   3.44900
## 27        5              8   Casa               centenario  -76.53814   3.45340
## 28        5              6   Casa                    acopi  -76.53969   3.45407
## 29        7              5   Casa                     Cali  -76.54036   3.36983
## 30        8              5   Casa                  salomia  -76.54100   3.45100
## 31        8              6   Casa                    acopi  -76.54100   3.38022
## 32        0              0   Casa                    acopi  -76.54835   3.42826
## 33        4              4   Casa                     Cali  -76.55008   3.34102
## 34        5              5   Casa                 la flora  -76.58915   3.46467
##    E4.x E5.x E6.x     zona.y piso.y estrato.y preciom.y areaconst.y
## 1     0    0    0 Zona Norte      3         3       370      1440.0
## 2     0    1    0 Zona Norte      1         5       990       290.0
## 3     0    0    1 Zona Norte      3         6       430       300.0
## 4     0    0    1 Zona Norte      3         6      1250       330.0
## 5     0    1    0 Zona Norte      1         5      1500       400.0
## 6     0    1    0 Zona Norte      3         5      1400       480.0
## 7     0    0    1 Zona Norte      3         6      1000       270.0
## 8     1    0    0 Zona Norte      3         4      1650       734.0
## 9     0    1    0 Zona Norte      1         5      1600       942.0
## 10    1    0    0       <NA>     NA      <NA>        NA          NA
## 11    0    0    1 Zona Norte      3         6       490       452.0
## 12    0    1    0 Zona Norte      2         5      1200       523.3
## 13    0    1    0 Zona Norte      3         5       650      1188.0
## 14    0    0    1 Zona Norte      3         6      1200       333.0
## 15    0    1    0 Zona Norte      3         5      1400       265.0
## 16    0    1    0 Zona Norte      2         5       850       296.0
## 17    0    1    0 Zona Norte      3         5      1000       350.0
## 18    0    1    0 Zona Norte      3         5      1940       734.0
## 19    1    0    0 Zona Norte      3         4       900       300.0
## 20    1    0    0 Zona Norte      2         4      1800       607.0
## 21    0    0    1 Zona Norte      3         6       680       452.0
## 22    0    1    0 Zona Norte      2         5      1100       500.0
## 23    0    0    1 Zona Norte      3         6      1500       470.0
## 24    0    0    1 Zona Norte      3         6       850       736.0
## 25    0    1    0 Zona Norte      3         5       900       223.0
## 26    0    1    0 Zona Norte      2         5      1530       776.0
## 27    0    1    0       <NA>     NA      <NA>        NA          NA
## 28    0    0    1 Zona Norte      3         6       460       350.0
## 29    0    0    1 Zona Norte      3         6      1600       730.0
## 30    0    0    0 Zona Norte      3         3      1100       500.0
## 31    0    0    1 Zona Norte      3         6       550       395.0
## 32    1    0    0 Zona Norte      3         4      1200       752.0
## 33    0    0    1 Zona Norte      3         6      1200       374.0
## 34    0    1    0 Zona Norte      3         5      1400       838.0
##    parqueaderos.y banios.y habitaciones.y tipo.y                 barrio.y
## 1               1        4             10   Casa          villa del prado
## 2               4        3              3   Casa                 la flora
## 3               3        5              5   Casa                 la flora
## 4               6        5              4   Casa                    menga
## 5               2        3              4   Casa                    menga
## 6               1        6              5   Casa                    acopi
## 7               1        4              3   Casa                     Cali
## 8               1        5             10   Casa              san vicente
## 9               4        4             10   Casa                versalles
## 10             NA       NA             NA   <NA>                     <NA>
## 11              3        6              8   Casa             santa monica
## 12              2        4              7   Casa                versalles
## 13              4        6              6   Casa                el bosque
## 14              1        4              3   Casa                     Cali
## 15              1       10             10   Casa                   vipasa
## 16              4        2              4   Casa             santa monica
## 17              2        3              3   Casa santa mónica residencial
## 18              3        8             10   Casa              san vicente
## 19              1        0              0   Casa                  granada
## 20              1        4              8   Casa                  granada
## 21              1       10             10   Casa               zona norte
## 22              4        5              5   Casa                  granada
## 23              3        6              5   Casa             santa monica
## 24              4        8              9   Casa                juanamb√∫
## 25              1        7              5   Casa                    acopi
## 26              6        6             10   Casa              san vicente
## 27             NA       NA             NA   <NA>                     <NA>
## 28              1        5              6   Casa                    acopi
## 29              1        7              5   Casa                     Cali
## 30              1        8              5   Casa                  salomia
## 31              1        8              6   Casa                    acopi
## 32              1        0              0   Casa                    acopi
## 33              1        4              4   Casa                     Cali
## 34              1        5              5   Casa                 la flora
##    longitud.y latitud.y E4.y E5.y E6.y
## 1   -76.49815   3.46343    0    0    0
## 2   -76.52235   3.48566    0    1    0
## 3   -76.52353   3.48157    0    0    1
## 4   -76.52566   3.49078    0    0    1
## 5   -76.52636   3.49331    0    1    0
## 6   -76.52726   3.36365    0    1    0
## 7   -76.52835   3.35453    0    0    1
## 8   -76.52900   3.46700    1    0    0
## 9   -76.52950   3.46600    0    1    0
## 10         NA        NA   NA   NA   NA
## 11  -76.53092   3.46830    0    0    1
## 12  -76.53093   3.46025    0    1    0
## 13  -76.53100   3.48400    0    1    0
## 14  -76.53199   3.35133    0    0    1
## 15  -76.53200   3.45200    0    1    0
## 16  -76.53200   3.46300    0    1    0
## 17  -76.53200   3.47000    0    1    0
## 18  -76.53200   3.45200    0    1    0
## 19  -76.53249   3.45951    1    0    0
## 20  -76.53300   3.45900    1    0    0
## 21  -76.53406   3.45962    0    0    1
## 22  -76.53533   3.45777    0    1    0
## 23  -76.53540   3.46210    0    0    1
## 24  -76.53673   3.45665    0    0    1
## 25  -76.53766   3.36366    0    1    0
## 26  -76.53800   3.44900    0    1    0
## 27         NA        NA   NA   NA   NA
## 28  -76.53969   3.45407    0    0    1
## 29  -76.54036   3.36983    0    0    1
## 30  -76.54100   3.45100    0    0    0
## 31  -76.54100   3.38022    0    0    1
## 32  -76.54835   3.42826    1    0    0
## 33  -76.55008   3.34102    0    0    1
## 34  -76.58915   3.46467    0    1    0

6.4.4. Generación del nueva database después de la limpieza de valores atipicos

## # A tibble: 688 × 16
##       id zona    piso estrato preciom areaconst parqueaderos banios habitaciones
##    <dbl> <chr>  <dbl> <fct>     <dbl>     <dbl>        <dbl>  <dbl>        <dbl>
##  1  1209 Zona …     2 5           320       150            2      4            6
##  2  1592 Zona …     2 5           780       380            2      3            3
##  3  4057 Zona …     2 6           750       445            1      7            6
##  4  4460 Zona …     2 4           625       355            3      5            5
##  5  6081 Zona …     2 5           750       237            2      6            6
##  6  7824 Zona …     2 4           600       160            1      4            5
##  7  7987 Zona …     2 5           420       200            4      4            5
##  8  3495 Zona …     3 5           490       118            2      4            4
##  9   141 Zona …     3 3           230       160            1      2            3
## 10   243 Zona …     3 3           190       435            1      0            0
## # ℹ 678 more rows
## # ℹ 7 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>,
## #   E4 <dbl>, E5 <dbl>, E6 <dbl>

6.4.5. Modelo de RLM para el nuevo data base sin valores atipicos

## 
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos + 
##     banios, data = vivienda_1_limpia)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -274.25  -56.23  -10.17   45.45  326.10 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   45.94532   11.72299   3.919 9.78e-05 ***
## areaconst      0.75398    0.03187  23.657  < 2e-16 ***
## estrato4      66.62293   11.18057   5.959 4.08e-09 ***
## estrato5     114.85970   10.65843  10.776  < 2e-16 ***
## estrato6     327.79073   18.17814  18.032  < 2e-16 ***
## habitaciones  -0.02181    2.69976  -0.008  0.99356    
## parqueaderos  10.64148    3.44169   3.092  0.00207 ** 
## banios        23.44284    3.64713   6.428 2.44e-10 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 98.45 on 680 degrees of freedom
## Multiple R-squared:  0.7877, Adjusted R-squared:  0.7855 
## F-statistic: 360.4 on 7 and 680 DF,  p-value: < 2.2e-16

A continuación, procederemos a validar los supuestos antes de evaluar los resultados del modelo. Es fundamental asegurarnos de que se cumplan estos supuestos previamente, ya que son esenciales para garantizar la validez de los coeficientes obtenidos.

6.5 Validación de supuestos del modelo sin outliers

6.5.1. Análisis de los supuestos del modelo utilizando pruebas de hipotesis

## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(modelo6)
## W = 0.97459, p-value = 1.473e-09
## 
##  Durbin-Watson test
## 
## data:  modelo6
## DW = 1.8985, p-value = 0.08087
## alternative hypothesis: true autocorrelation is greater than 0
## Non-constant Variance Score Test 
## Variance formula: ~ fitted.values 
## Chisquare = 170.6222, Df = 1, p = < 2.22e-16
##                  GVIF Df GVIF^(1/(2*Df))
## areaconst    1.583063  1        1.258198
## estrato      1.593164  3        1.080712
## habitaciones 1.557572  1        1.248027
## parqueaderos 1.236962  1        1.112188
## banios       1.934519  1        1.390870

A partir de las pruebas de hipótesis, podemos concluir que los resultados obtenidos en las pruebas de son similares a los iniciales. Esto sugiere que los supuestos del modelo no se cumplen, a pesar de haber descartado los valores atípicos de los datos. Pues como se puede evidenciar los valores P son inferiores al nivel de significancia de 0.05, lo que nos indica que se rechaza la hipotesis nula de normalidad, homocedasticidad e independencia. De igual forma , se sigue evidenciando una multicolinealidad moderada, pues los valores del VIF se encuentran entre 1 y 5.

6.6 Validación Cruzada

Finalmente generamos un modelo de validación cruzada, para evaluar si el modelo de regresión conserva una estabilidad:

## Warning: package 'caret' was built under R version 4.4.3
## Cargando paquete requerido: lattice
## 
## Adjuntando el paquete: 'lattice'
## The following object is masked from 'package:boot':
## 
##     melanoma
## 
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos + 
##     banios, data = train_data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -746.00  -74.91  -15.31   40.57 1038.88 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   11.58142   20.38974   0.568 0.570289    
## areaconst      0.89549    0.05064  17.684  < 2e-16 ***
## estrato4      75.02613   20.03191   3.745 0.000201 ***
## estrato5     124.29003   19.59775   6.342 5.09e-10 ***
## estrato6     314.92982   31.91217   9.869  < 2e-16 ***
## habitaciones   4.11787    4.79114   0.859 0.390491    
## parqueaderos   9.82844    6.41025   1.533 0.125851    
## banios        22.04436    6.05290   3.642 0.000299 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 153.8 on 499 degrees of freedom
## Multiple R-squared:  0.6938, Adjusted R-squared:  0.6895 
## F-statistic: 161.5 on 7 and 499 DF,  p-value: < 2.2e-16
## 
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos + 
##     banios, data = vivienda_1)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -954.94  -72.39  -15.35   46.24 1076.58 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   26.56950   17.70444   1.501   0.1339    
## areaconst      0.81832    0.04308  18.997  < 2e-16 ***
## estrato4      82.43683   17.36272   4.748 2.48e-06 ***
## estrato5     133.31930   16.48656   8.087 2.63e-15 ***
## estrato6     327.64135   26.46822  12.379  < 2e-16 ***
## habitaciones   1.14796    4.11279   0.279   0.7802    
## parqueaderos   9.23613    5.23414   1.765   0.0781 .  
## banios        24.81715    5.36415   4.626 4.42e-06 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 156.6 on 714 degrees of freedom
## Multiple R-squared:  0.6626, Adjusted R-squared:  0.6593 
## F-statistic: 200.3 on 7 and 714 DF,  p-value: < 2.2e-16
##              Coefficients_Initial Coefficients_Estimated
## (Intercept)            26.5694973             11.5814239
## areaconst               0.8183248              0.8954908
## estrato4               82.4368330             75.0261340
## estrato5              133.3193049            124.2900336
## estrato6              327.6413519            314.9298170
## habitaciones            1.1479640              4.1178656
## parqueaderos            9.2361326              9.8284405
## banios                 24.8171470             22.0443633
## [1] 0.7608669
## [1] 0.6626035
  1. Comparación de Modelos

Modelo de Estimación (train_data):

R2: 0.6938, lo que indica que aproximadamente el 69.38% de la variabilidad en el precio (preciom) puede ser explicada por las variables independientes en este modelo.

Coeficientes Significativos: areaconst, estrato4, estrato5, estrato6, y banios son estadísticamente significativos (p < 0.05). habitaciones y parqueaderos no son significativos (p > 0.05). Error Estándar Residual: 153.8, lo que indica la magnitud promedio de los errores de predicción.

Modelo Inicial:

R2: 0.6626, lo que sugiere que el modelo inicial tiene un poder explicativo ligeramente menor que el modelo de estimación.

Coeficientes Significativos: Similar al modelo de estimación, los mismos predictores son significativos, pero el coeficiente de habitaciones sigue siendo no significativo. Error Estándar Residual: 156.6, también indica una magnitud de error similar al modelo de estimación.

  1. Comparación de Coeficientes

Los coeficientes de los modelos son diferentes, especialmente el intercepto y los coeficientes de areaconst, estrato, y banios. Esto sugiere que el modelo de estimación (train_data) ha ajustado mejor los datos en comparación con el modelo inicial. Por ejemplo, el coeficiente de estrato6 en el modelo de estimación es 314.93, mientras que en el modelo inicial es 327.64. Esto indica que el efecto de este estrato en el precio es ligeramente menor en el modelo de estimación.

  1. Correlación entre Valores Reales y Predicciones

La correlación entre los valores reales de preciom y los valores predichos en el modelo de estimación es de aproximadamente 0.7609. Esto sugiere una buena relación entre las predicciones y los valores reales, indicando que el modelo tiene un buen rendimiento.

  1. Evaluación de la Concordancia Al comparar el R2 del modelo de estimación (0.6938) con el R2 del modelo inicial (0.6626), se observa que el modelo de estimación tiene un mejor ajuste, lo que sugiere que el modelo ha mejorado al ser ajustado solo con la muestra de entrenamiento.

  2. Diagnóstico del Modelo Los residuos del modelo de estimación tienen un rango que va desde -746.00 a 1038.88, lo que indica que hay algunos errores de predicción significativos. Sin embargo, la mayoría de los residuos están relativamente cerca de cero.

El modelo de regresión lineal estimado con la muestra de entrenamiento parece ser más efectivo en la predicción del precio de las propiedades en comparación con el modelo inicial. Los coeficientes significativos indican que las variables areaconst, estrato, y banios tienen un impacto considerable en el precio, mientras que habitaciones y parqueaderos no parecen tener un efecto significativo. Se recomienda seguir evaluando el modelo con datos adicionales y realizar diagnósticos para asegurar la validez de los supuestos del modelo.

—————————————————————————————————–

7. SEGUNDO FILTRO: APARTAMENTOS DE LA ZONA SUR

## # A tibble: 6 × 13
##      id zona     piso estrato preciom areaconst parqueaderos banios habitaciones
##   <dbl> <chr>   <dbl>   <dbl>   <dbl>     <dbl>        <dbl>  <dbl>        <dbl>
## 1  5098 Zona S…     5       4     290        96            1      2            3
## 2   698 Zona S…     2       3      78        40            1      1            2
## 3  8199 Zona S…     3       6     875       194            2      5            3
## 4  1241 Zona S…     3       3     135       117            1      2            3
## 5  5370 Zona S…     3       3     135        78            1      1            3
## 6  6975 Zona S…     6       4     220        75            1      2            3
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>

7.1. Creación del mapa de puntos de la ciudad de Cali para los apartamentos ubicados en el Sur

Posteriormente creamos el mapa con los puntos de las bases

Para el caso de la Zona Sur, se observa una considerable cantidad de valores atípicos distribuidos en las Zonas Norte, Oriente y Oeste. Esta situación puede deberse a errores en la catalogación de la base de datos, lo que ha llevado a asignar incorrectamente puntos a esta zona que, en realidad, no le corresponden. De igual forma, se pudo presentar un error geolocalización de los datos, donde los puntos se asignan incorrectamente a una zona debido a coordenadas erróneas.

*8. Análisis Explotario

8.1 Estrato predominante en Zona Sur

Como se puede apreciar en la gráfica, los estratos predominantes son el 4 y el 5. Esto sugiere que la población que reside en esta zona podría clasificarse como de clase media alta. Dichos estratos comprenden en su conjunto al 76% de la población que habita en dicha zona, lo que nos da indicios que representa gran parte del grupo analizado.

Ahora bien, teniendo en cuenta la solicitud de la empresa, donde como requisito establece que las vivienda debe ser de estrato 5 o estrato 6, podemos observar que para el estrato 5 hay una cantidad considerable de viviendas, a comparación del estrato 6 donde la oferta para esta zona es mas limitada, con un 16.6% del total de la población.

8.2. Gráfico de caja y bigotes - Precio por Estrato

##      [,1] [,2] [,3] [,4]
## [1,]   75   78   93  128
## [2,]  110  154  230  410
## [3,]  128  188  280  580
## [4,]  148  240  330  700
## [5,]  200  360  480 1100

Como se puede evidenciar en la gráfica de caja y bigotes,podemos analizar que el precio para los apartamentos de la Zona Sur los valores son los siguientes:

Tal como se puede observar en el diagrama de caja y bigotes y tomando en consideración el crédito pre aprobado para la segunda solicitud por valor de $850 M. Podriamos ofrecer a nuestro cliente un mayor portafolio comercial, pues en ningún caso se observa un valor mínimo de vivienda que exceda dicho monto. No obstante, al delimitar las especificaciones que detallan que debe ser estrato 5 o 6, se debe entrar a evaluar al detalle, las necesidades de la empresa, pues para este caso, podriamos deducir que el empleado al que ubicarán, tiene un mayor rango dentro de la organización, pudiendose catalogar como un C-Level o ejecutivo de alto nivel, donde se descarta el estrato 3 y 4.

Por otro lado, se pueden observar una gran cantidad de valores atipicos, que podrian impactar en el resultado del modelo.

A medida que se incrementa el número del estrato, parece haber un aumento en el precio, lo que podría sugerir que los estratos más altos tienen mayores precios.

8.3. Gráfico de caja y bigotes - Área por Estrato

##      [,1] [,2]   [,3]  [,4]
## [1,]   40   40  43.00  50.3
## [2,]   57   60  78.00 115.0
## [3,]   61   70  91.00 136.0
## [4,]   70   84 109.24 170.0
## [5,]   89  120 155.00 250.0

Como se puede evidenciar en la gráfica de caja y bigotes,podemos analizar que el área para los apartamentos de la Zona Sur los valores son los siguientes:

A partir del análisis del área construida, se puede concluir que, dentro de los valores considerados típicos, ninguno de los estratos puede satisfacer la solicitud del área de 300M2. Sin embargo, se identificó una cantidad significativa de valores atípicos que requieren revisión, ya que en estos casos sí existen valores superiores o iguales a los 300 M. La opción que mejor se ajusta, considerando la normalidad de los datos, es el estrato 6, donde se registra una vivienda con un área de 250 M; de por si la vivienda mas costosa en este estrato

En todos los estratos se observan puntos fuera de las cajas, lo que indica la presencia de valores atípicos. Esto es especialmente notable en los estratos 5 y 6, donde hay varios valores atípicos que superan significativamente el rango intercuartílico.

A medida que se incrementa el número del estrato, parece haber un aumento en el área, lo que podría sugerir que los estratos más altos tienen áreas más grandes en general.

9 Análisis exploratorio - Correlación entre variables

9.1. Análisis bivariado entre las variables independientes y la variable dependiente Precio

La correlación más fuerte es entre “preciom” y “areaconst” (0.758), lo que sugiere que el precio de una vivienda está fuertemente relacionado con el área construida. La segunda correlación más fuerte es entre “preciom” y “banios” (0.720), lo que indica que el número de baños también tiene una relación significativa con el precio. La correlación entre “preciom” y “habitaciones” es más débil (0.332), lo que sugiere que el número de habitaciones tiene un impacto menor en el precio en comparación con las otras variables.

Para evaluar la posible existencia de un problema de multicolinealidad, realizamos un análisis de correlación entre las variables predictoras. Los resultados muestran que la correlación entre el área construida y el número de baños es de 0.662, lo que indica una correlación positiva moderada. Asimismo, la correlación entre el número de baños y el número de habitaciones es de 0.515, lo que también sugiere una correlación positiva moderada. Por otro lado, la correlación entre el área construida y el número de habitaciones es de 0.332, lo que indica una correlación positiva baja.

A partir de estos resultados, podemos deducir que las dos primeras relaciones podrían presentar un problema de multicolinealidad. Para confirmar esta hipótesis, realizaremos un análisis más estructurado utilizando la prueba del Factor de Inflación de la Varianza (VIF).

10. Estimación del modelo de Regresión Lineal Múltiple

10.1. Definición de variables categoricas como Dummies

De manera previa, a la estimación del modelo, debemos considerar que existen variables categoricas, las cuales requieren una re-definición, creando a partir de estas; nuevas variables conocidas como Dummies. Para este caso, convertiremos la variable estrato, en sus respectivas variables ficticias.

## # A tibble: 2,787 × 16
##       id zona    piso estrato preciom areaconst parqueaderos banios habitaciones
##    <dbl> <chr>  <dbl> <fct>     <dbl>     <dbl>        <dbl>  <dbl>        <dbl>
##  1  5098 Zona …     5 4           290        96            1      2            3
##  2   698 Zona …     2 3            78        40            1      1            2
##  3  8199 Zona …     3 6           875       194            2      5            3
##  4  1241 Zona …     3 3           135       117            1      2            3
##  5  5370 Zona …     3 3           135        78            1      1            3
##  6  6975 Zona …     6 4           220        75            1      2            3
##  7  5615 Zona …     8 3           210        72            2      2            3
##  8  6262 Zona …     3 3           105        68            1      2            3
##  9  7396 Zona …     3 3           115        58            1      2            2
## 10  6949 Zona …     3 4           220        84            1      2            3
## # ℹ 2,777 more rows
## # ℹ 7 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>,
## #   E4 <dbl>, E5 <dbl>, E6 <dbl>

10.2. Estimación del modelo de RLM

## 
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos + 
##     banios, data = vivienda_2)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1096.93   -35.43    -2.08    34.61   894.26 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -43.32991   10.13354  -4.276 1.97e-05 ***
## areaconst      1.33359    0.04576  29.142  < 2e-16 ***
## estrato4      28.96511    6.86300   4.220 2.52e-05 ***
## estrato5      54.59210    7.08763   7.702 1.84e-14 ***
## estrato6     209.07531    8.88859  23.522  < 2e-16 ***
## habitaciones -11.54029    3.16593  -3.645 0.000272 ***
## parqueaderos  61.62033    3.50854  17.563  < 2e-16 ***
## banios        38.25237    2.85475  13.400  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 87.6 on 2779 degrees of freedom
## Multiple R-squared:  0.7914, Adjusted R-squared:  0.7909 
## F-statistic:  1506 on 7 and 2779 DF,  p-value: < 2.2e-16

Análisis de los resultados del modelo

–>B0 (Intercepto):Si todas las variables predictoras son 0, se espera que el precio promedio en esta Zona sea de $-43 M. No obstante, no es posible que suceda lo anterior, pues la vivienda deberia de tener como mínimo el área construida, de igual forma, no es posible un precio negativo.

–>Area Construida: Se espera que por cada metro cuadrado adicional, el precio de la vivienda incremente en $1.3 M. De igual forma, al analizar el p-valor de < 2e-16, observamos que el área construida tiene una efecto signicativo en el precio de la vivienda.

–>Habitaciones: Se espera que por una habitación adicional, el precio de la vivienda disminuya en $11 M aprox. Lo anterio no es posible y carece de lógica, pues a mayor número de habitaciones, nos indicaria que hay un mayor área, por tal motivo el precio sería mayor. De igual forma, no es posible un incremento negativo. De acuerdo con el P-Valor 0.000272, dicha variable tiene un efectivo significativo en el precio de la vivienda.

–>Parqueadero: Se espera que por cada parqueadero adicional, el valor de la vivienda incremente en $61.6 M. Lo anterior, de igual forma carece de lógica; no es posible que por un parqueadero adicional, el precio de una vivienda incremente en tal magnitud. De acuerdo con el valor P <2e-16, el número de parqueaderos tienen un efectivo significativo en el precio de la vivienda

–>Baños: Se espera que por cada baño adicional, el precio de la vivienda incremente en $38 M. El valor P de < 2e-16; el cual es inferior a 0,05, nos indica que esta variable tiene un aporte significativo en el modelo. No obstante, carece de logica precisar que por un baño adicional una vivienda costará $38 M.

–>R-cuadrado: El valor de R-cuadrado ajustado es 0.7909, lo que indica que aproximadamente el 79.09% de la variabilidad en la variable dependiente precio, puede ser explicada por las variables independientes incluidas en el modelo. Esto sugiere un buen ajuste del modelo.

–>Errores estándar y valores t: Los errores estándar son relativamente bajos en comparación con los coeficientes, lo que sugiere que las estimaciones son precisas. Los valores t son altos, lo que refuerza la significancia de los coeficientes.

–>Error estándar residual: El error estándar residual es de 87.6, lo que indica la variabilidad de los precios no explicada por el modelo.

–>F-statistic: El valor de la estadística F (1506) y su p-valor asociado indican que el modelo en su conjunto es significativo.

10.3. Estimación del modelo de RLM - Utilizando únicamente la relación entre Precio y Estrato

## 
## Call:
## lm(formula = preciom ~ estrato, data = vivienda_2)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -466.5  -55.6  -14.5   38.4 1155.5 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  141.119      9.159  15.408  < 2e-16 ***
## estrato4      62.481      9.967   6.269  4.2e-10 ***
## estrato5     152.589     10.010  15.244  < 2e-16 ***
## estrato6     453.378     10.971  41.323  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 129.8 on 2783 degrees of freedom
## Multiple R-squared:  0.541,  Adjusted R-squared:  0.5405 
## F-statistic:  1093 on 3 and 2783 DF,  p-value: < 2.2e-16

Análisis de los resultados del modelo El intercepto de $141.119 M representa el precio promedio de la vivienda en el estrato 3.

Los coeficientes para estrato4, estrato5 y estrato6 indican que, en comparación con el estrato 3, los precios de las viviendas aumentan en $62.5 M, $152.6 M y $453.4 M, respectivamente. Esto sugiere que a medida que se incrementa el estrato, el precio de la vivienda también aumenta significativamente.

11. Validación de supuestos

11.1. Pruebas de hipótesis para la validación de supuestos

## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(modelo4)
## W = 0.7744, p-value < 2.2e-16
## 
##  Durbin-Watson test
## 
## data:  modelo4
## DW = 1.7121, p-value = 1.061e-14
## alternative hypothesis: true autocorrelation is greater than 0
## Non-constant Variance Score Test 
## Variance formula: ~ fitted.values 
## Chisquare = 5971.565, Df = 1, p = < 2.22e-16
##                  GVIF Df GVIF^(1/(2*Df))
## areaconst    2.101039  1        1.449496
## estrato      1.815784  3        1.104530
## habitaciones 1.456102  1        1.206691
## parqueaderos 1.805577  1        1.343718
## banios       2.583448  1        1.607311

—>Prueba de normalidad de Shapiro-Wilk: Los residuos del modelo no siguen una distribución normal. Un p-value (< 2.2e-16) tan bajo sugiere que se rechaza la hipótesis nula de normalidad, lo que puede ser problemático para la validez de inferencias estadísticas basadas en el modelo.

—>Prueba de Durbin-Watson: El valor de Durbin-Watson está por debajo de 2 y el valor P (1.061e-14)es menor que 0.05 , lo que sugiere la presencia de autocorrelación positiva en los residuos. Esto indica que los errores del modelo están correlacionados, lo que puede señalar que el modelo no está capturando adecuadamente la estructura de los datos.

—>Prueba de Breutsche Pagan: El valor P < 2.22e-16 es menor que 0.05; indicando la evidencia de heterocedasticidad, es decir, la varianza de los residuos no es constante a lo largo de los valores ajustados. Esto puede afectar la eficiencia de las estimaciones y la validez de las pruebas de hipótesis.

—>Prueba de Multicolinealidad: Todos los valores estan entre 1 y 5, lo que sugiere que hay multicolinealidad moderada en el modelo.

11.2. Análisis de los supuestos del modelo utilizando graficas de diagnóstico

–>Residuals vs Fitted: La dispersión de los residuos no es constante a lo largo de los valores ajustados, lo que indica la presencia de heterocedasticidad.Se pueden observar algunos puntos (1533, 441, 2383) que se desvían significativamente de la tendencia general. Estos valores atípicos pueden influir en el ajuste del modelo y podrían requerir una atención especial.

–>Q-Q Residuals:Los puntos se desvían de la línea diagonal en los extremos, lo que sugiere que los residuos no siguen una distribución normal, especialmente en las colas. Esto puede indicar que el modelo no captura adecuadamente la variabilidad de los datos o que hay outliers que afectan la normalidad de los residuos.

–>Scale-Location: La línea roja en la gráfica muestra una ligera tendencia ascendente, lo que sugiere que la variabilidad de los residuos aumenta a medida que los valores ajustados (fitted values) aumentan. Esto indica que la homocedasticidad (igualdad de varianzas) no se cumple, lo que puede ser un problema en el modelo de regresión. Hay algunos puntos que se destacan en la gráfica (como los números 1533, 441 y 2383), que podrían ser considerados como valores atípicos. Estos puntos pueden influir en el ajuste del modelo y deben ser analizados más a fondo.

–>Residuals vs Leverage: Se observan algunos puntos que presentan residuos estandarizados altos, lo que sugiere que estos puntos podrían ser outliers o influencias en el modelo. Los puntos con mayor leverage (situados hacia la derecha) tienen un impacto significativo en la estimación de los parámetros del modelo. Los puntos etiquetados (977, 2569, 2383) son ejemplos de observaciones con alto leverage. Es importante investigar estos puntos, ya que pueden estar influyendo desproporcionadamente en el ajuste del modelo.

Las recomendaciones para mejorar los supuestos del modelo se encuentran en el numeral 4.3, las cuales tambien podrian aplicar para este caso.

12. Predicción del precio de la vivienda con las caracteristicas de la segunda solicitud

12.1. Ingresamos los valores que tendrá la función, de acuerdo a las especificaciones de la organización

##   areaconst parqueaderos estrato banios habitaciones
## 1       300            3       5      3            5
## 2       300            3       6      3            5

12.2. Realizamos la predicción del precio de la vivienda

##        1        2 
## 653.2569 807.7401

12.3. Análisis de la predicción

Según los resultados obtenidos del modelo, y considerando las condiciones especificadas por la empresa —un área construida de 300 m2, 3 parqueaderos, 5 habitaciones y 3 baños- en estrato 5, el precio estimado de la vivienda sería de aproximadamente $653.25 millones. En contraste, para una vivienda en estrato 6, el precio ascendería a alrededor de $807.74 millones.

Dado lo anterior y teniendo en cuenta las limitaciones específicamente del crédito aprobado de $850 millones, podemos concluir que ambas opciones se pueden contemplar para las ofertas comerciales, tanto las viviendas que se encuentran en el estrato 5, como en el 6.

13. Análisis de la oferta estrato 5

13.1. Recomendación de las potenciales ofertas que responden a la solicitud de la empresa

## # A tibble: 2 × 16
##      id zona     piso estrato preciom areaconst parqueaderos banios habitaciones
##   <dbl> <chr>   <dbl> <fct>     <dbl>     <dbl>        <dbl>  <dbl>        <dbl>
## 1  7182 Zona S…     3 5           730       573            3      8            5
## 2  7512 Zona S…     3 5           670       300            3      5            6
## # ℹ 7 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>,
## #   E4 <dbl>, E5 <dbl>, E6 <dbl>

13.2. Precio por área de las ofertas disponibles

## # A tibble: 2 × 6
##      id zona     barrio    areaconst preciom precioarea
##   <dbl> <chr>    <chr>         <dbl>   <dbl>      <dbl>
## 1  7182 Zona Sur guadalupe       573     730       1.27
## 2  7512 Zona Sur seminario       300     670       2.23

13.3. Geolocalización de los puntos de las posibles ofertas potenciales

Con respecto a la predicción del modelo, el cual nos arrojó un valor de $653.25 M, teniendo en cuenta todos los atributos predichos, la vivienda 7182 por $730M, tiene un valor adicional de $77 M. Lo anterior se presenta porque el área construida es superior en 273 M y tiene 5 baños adicionales a los especificados en la solicitud. Ahora bien, observamos que para el caso de la vivienda 7512 por $670M; lo cual significa un valor adicional por $17 M aprox., puede ser consecuencia de los 2 baños adicionales y la habitación adicional. Cabe mencionar que para efectos del ejercicio, únicamente se esta realizando un análisis cuantitativo, sin considerar factores como: acabados de la vivienda, tiempo de uso, etc.

Para los apartamentos de la Zona Sur, solo se tienen 2 ofertas disponibles, teniendo en cuentas las especificaciones de la solicitud. En este caso, le podriamos ofrecer al cliente la vivienda 7182, pues, como se puede evidenciar el precio por M2 se esta vivienda es de $1.27 M, mientras que para el caso de la vivienda 7512 que aunque cumple con los el requisito de los 300 M2, el valor del M2 es de casi el doble ($2.23 M). De este modo, podriamos ofrecer un valor agregado; comentándole que estaria recibiendo una vivienda casi el doble de grande, que se encuentra por debajo del crédito aprobado, ahorrandole 120 Millones y a casi la mitad del precio por metro cuadrado, en compración con la de 300 M2.

A partir del análisis del mapa, podemos observar que los puntos están correctamente geolocalizados al sur de la ciudad de Cali y se encuentran muy próximos entre sí. Sin conocer las características y acabados del apartamento, que podrían influir en el valor de la vivienda 7512, donde el precio por área es superior, podemos considerar seguir ofreciendo al cliente la vivienda 7182. Ambas propiedades presentan atributos similares que podrían beneficiar a sus habitantes, ya que están rodeadas de colegios, cerca de centros comerciales y próximas al sistema de transporte masivo.

14. Análisis de la oferta estrato 6

## # A tibble: 0 × 16
## # ℹ 16 variables: id <dbl>, zona <chr>, piso <dbl>, estrato <fct>,
## #   preciom <dbl>, areaconst <dbl>, parqueaderos <dbl>, banios <dbl>,
## #   habitaciones <dbl>, tipo <chr>, barrio <chr>, longitud <dbl>,
## #   latitud <dbl>, E4 <dbl>, E5 <dbl>, E6 <dbl>

Para el caso de las viviendas en estrato 6, no se identificaron ofertas disponibles que cumplan con los requerimientos especificados por el cliente.

15. Identificación de observaciones extremas en el modelo de RLM

15.1. Cálculo de los residuos

En primer lugar, graficaremos los residuos para buscar patrones que pueden ser inusuales, de forma posterior, calcularemos el Z-score de los residuos para cada observación; estableciendo como referencia un nivel de 2. Un Z-score mayor que 2 o menor que -2, se considerará como atípico.

## # A tibble: 93 × 16
##       id zona    piso estrato preciom areaconst parqueaderos banios habitaciones
##    <dbl> <chr>  <dbl> <fct>     <dbl>     <dbl>        <dbl>  <dbl>        <dbl>
##  1  7073 Zona …     2 6           910       182            2      4            3
##  2  8299 Zona …     2 6           305       125            2      3            3
##  3  1875 Zona …     2 6           128        55            1      2            2
##  4  6175 Zona …     5 5           350       270            3      3            4
##  5  6205 Zona …     5 5           350       260            3      3            3
##  6  5576 Zona …     1 6           350       126            2      3            3
##  7  5941 Zona …     1 5           700       138            2      5            4
##  8  6526 Zona …     1 6           832       213            2      2            3
##  9  6527 Zona …     1 6           677       108            2      2            3
## 10  3678 Zona …     2 6           250        94            3      2            3
## # ℹ 83 more rows
## # ℹ 7 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>,
## #   E4 <dbl>, E5 <dbl>, E6 <dbl>

De acuerdo con la gráfica la dispersión de los residuos parece aumentar a medida que los valores ajustados aumentan. Esto sugiere la presencia de heterocedasticidad, lo que significa que la variabilidad de los errores no es constante a lo largo de los valores ajustados. En un modelo ideal, los residuos deberían tener una varianza constante.

Por medio del calculo del Z-Score de los residuos se obtuvieron 93 viviendas que podrían catalogarse cómo atipicas dentro del modelo.

15.2. Criterio de Cook

## # A tibble: 144 × 16
##       id zona    piso estrato preciom areaconst parqueaderos banios habitaciones
##    <dbl> <chr>  <dbl> <fct>     <dbl>     <dbl>        <dbl>  <dbl>        <dbl>
##  1  8199 Zona …     3 6           875       194            2      5            3
##  2  7073 Zona …     2 6           910       182            2      4            3
##  3  8299 Zona …     2 6           305       125            2      3            3
##  4  3824 Zona …     1 6           852       244            2      3            3
##  5  6996 Zona …     3 3           580       188            2      6            5
##  6  1875 Zona …     2 6           128        55            1      2            2
##  7  1472 Zona …     8 3           288        85            1      2            4
##  8  6175 Zona …     5 5           350       270            3      3            4
##  9  6205 Zona …     5 5           350       260            3      3            3
## 10  5941 Zona …     1 5           700       138            2      5            4
## # ℹ 134 more rows
## # ℹ 7 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>,
## #   E4 <dbl>, E5 <dbl>, E6 <dbl>

Aplicando el Criterio de Cook, obseramos 144 valores atipicos, los cuales comparamos con los que nos arrojÓ el Z-Score de Residuos, para determinar un común denominador de las posibles observaciones, estarían impactando en el modelo; las cuales se detallan a continuación.

15.3. Valores atipicos identificados

##      id   zona.x piso.x estrato.x preciom.x areaconst.x parqueaderos.x banios.x
## 1     4 Zona Sur      3         6      1280      346.00              4        6
## 2    44 Zona Sur      6         6      1200      211.00              2        3
## 3   324 Zona Sur      3         4       190       50.00             10        2
## 4   993 Zona Sur      3         6       840      161.79              2        4
## 5  1141 Zona Sur      4         6       240      126.00              2        2
## 6  1875 Zona Sur      2         6       128       55.00              1        2
## 7  2308 Zona Sur      4         5       350      258.00              2        4
## 8  2315 Zona Sur      3         6       950      213.00              2        5
## 9  3139 Zona Sur      3         6       330      125.00              2        3
## 10 3365 Zona Sur      3         5       670      191.00              2        3
## 11 3440 Zona Sur      4         6       419      181.00              2        3
## 12 3592 Zona Sur      3         6      1150      222.00              2        4
## 13 3603 Zona Sur      1         6       833      213.00              2        3
## 14 3640 Zona Sur      3         6       870      245.00              1        4
## 15 3678 Zona Sur      2         6       250       94.00              3        2
## 16 3726 Zona Sur      8         6       290      100.00              2        3
## 17 3732 Zona Sur      3         5       500      110.00              2        2
## 18 3734 Zona Sur      3         6       320      115.00              2        3
## 19 3785 Zona Sur      3         6      1580      296.00              4        4
## 20 3975 Zona Sur      5         6      1240      222.00              3        5
## 21 4051 Zona Sur      1         6       360      115.00              2        4
## 22 4082 Zona Sur      2         5       600      129.00              1        3
## 23 4083 Zona Sur      3         6       270       95.00              2        3
## 24 4158 Zona Sur      3         6       450      187.00              2        4
## 25 4284 Zona Sur      3         6       390      105.00              3        3
## 26 4297 Zona Sur      4         6       220      116.00              2        3
## 27 4394 Zona Sur      3         5       690      486.00              2        4
## 28 4405 Zona Sur      4         6       268      145.00              1        2
## 29 4423 Zona Sur      3         6       395      120.00              2        5
## 30 4712 Zona Sur      8         6      1100      220.00              4        4
## 31 4855 Zona Sur      2         4       390      300.00              1        5
## 32 4942 Zona Sur      3         5      1250      213.00              3        4
## 33 4952 Zona Sur      3         5       650      600.00              2        4
## 34 4953 Zona Sur      3         6       340      133.00              2        3
## 35 4974 Zona Sur      5         5       475      130.00              1        2
## 36 4990 Zona Sur      3         5       350      174.00              4        3
## 37 5005 Zona Sur      1         6       280      154.00              1        3
## 38 5119 Zona Sur      1         5       231      163.00              2        5
## 39 5176 Zona Sur      5         6       180       73.00              1        2
## 40 5190 Zona Sur     10         6      1600      345.00              3        6
## 41 5242 Zona Sur      6         5       704      141.00              2        3
## 42 5360 Zona Sur      4         6       230       80.00              2        2
## 43 5387 Zona Sur      3         3       430      107.00              1        2
## 44 5459 Zona Sur      5         6       225       85.00              1        3
## 45 5460 Zona Sur      8         6      1150      346.00              2        6
## 46 5472 Zona Sur      3         6      1590      310.00              3        4
## 47 5525 Zona Sur      3         6       245       98.00              2        3
## 48 5546 Zona Sur      4         6       920      230.00              2        4
## 49 5576 Zona Sur      1         6       350      126.00              2        3
## 50 5693 Zona Sur      6         6       780      168.00              2        3
## 51 5695 Zona Sur      3         6       870      191.00              2        4
## 52 5801 Zona Sur      2         5       350      250.00              2        5
## 53 5941 Zona Sur      1         5       700      138.00              2        5
## 54 5952 Zona Sur      2         6      1750      342.00              3        5
## 55 6011 Zona Sur      3         5       620      160.00              2        2
## 56 6073 Zona Sur     10         5      1250      251.00              4        5
## 57 6086 Zona Sur     10         6      1500      240.00              3        5
## 58 6103 Zona Sur     10         5       206      109.00              2        4
## 59 6121 Zona Sur      7         5       299      932.00              1        3
## 60 6175 Zona Sur      5         5       350      270.00              3        3
## 61 6197 Zona Sur      7         6      1700      290.00              3        4
## 62 6205 Zona Sur      5         5       350      260.00              3        3
## 63 6242 Zona Sur      9         5       340      236.00              2        4
## 64 6346 Zona Sur      3         4       590      159.00              1        2
## 65 6364 Zona Sur      3         6       930      145.00              2        3
## 66 6472 Zona Sur      3         5       170      605.00              1        2
## 67 6475 Zona Sur      2         6      1561      399.00              3        4
## 68 6507 Zona Sur      3         4       645      184.00              1        4
## 69 6510 Zona Sur      3         6      1600      290.00              3        5
## 70 6512 Zona Sur      3         6      1750      290.00              3        4
## 71 6526 Zona Sur      1         6       832      213.00              2        2
## 72 6527 Zona Sur      1         6       677      108.00              2        2
## 73 6576 Zona Sur      3         6       660      210.00              4        5
## 74 6682 Zona Sur      3         6       840      176.00              2        4
## 75 6723 Zona Sur      3         6       840      185.00              2        2
## 76 6838 Zona Sur     12         6       770      140.00              2        4
## 77 6850 Zona Sur      2         6       280      126.00              2        3
## 78 6868 Zona Sur      3         3       370      300.00              3        6
## 79 6887 Zona Sur      3         6      1050      170.00              4        6
## 80 6907 Zona Sur      1         6       650      130.00              1        3
## 81 6932 Zona Sur      3         5       500      330.00              2        4
## 82 6973 Zona Sur      4         5       240      139.84              2        4
## 83 6998 Zona Sur      3         6      1000      189.00              3        5
## 84 7073 Zona Sur      2         6       910      182.00              2        4
## 85 7162 Zona Sur      4         6       850      222.00              2        3
## 86 7171 Zona Sur      3         3       260      300.00              1        4
## 87 7176 Zona Sur      3         6      1150      344.00              1        6
## 88 7182 Zona Sur      3         5       730      573.00              3        8
## 89 7346 Zona Sur      9         6      1350      212.00              3        5
## 90 7680 Zona Sur      1         5       450      267.00              3        3
## 91 7911 Zona Sur      7         6       750      121.00              2        3
## 92 8113 Zona Sur      2         5       410      295.55              2        4
## 93 8299 Zona Sur      2         6       305      125.00              2        3
##    habitaciones.x      tipo.x            barrio.x longitud.x latitud.x E4.x
## 1               5 Apartamento       ciudad jardín  -76.46400   3.43300    0
## 2               3 Apartamento               pance  -76.47039   3.41435    0
## 3               4 Apartamento      valle del lili  -76.49300   3.46800    1
## 4               4 Apartamento               pance  -76.50726   3.46182    0
## 5               3 Apartamento          el limonar  -76.51138   3.46519    0
## 6               2 Apartamento               caney  -76.51800   3.38500    0
## 7               5 Apartamento        San Fernando  -76.51972   3.44000    0
## 8               4 Apartamento               pance  -76.51972   3.44000    0
## 9               3 Apartamento      valle del lili  -76.52400   3.38100    0
## 10              3 Apartamento           seminario  -76.52600   3.43400    0
## 11              3 Apartamento         multicentro  -76.52628   3.43400    0
## 12              3 Apartamento               pance  -76.52720   3.34832    0
## 13              3 Apartamento ciudad jardin pance  -76.52726   3.34865    0
## 14              3 Apartamento            zona sur  -76.52757   3.35436    0
## 15              3 Apartamento       ciudad jardín  -76.52793   3.36546    0
## 16              4 Apartamento      el ingenio iii  -76.52800   3.38000    0
## 17              3 Apartamento       ciudad jardín  -76.52800   3.34700    0
## 18              2 Apartamento       ciudad jardin  -76.52800   3.36500    0
## 19              3 Apartamento               pance  -76.52844   3.34712    0
## 20              4 Apartamento       ciudad jardín  -76.52900   3.34500    0
## 21              4 Apartamento          el ingenio  -76.52944   3.41033    0
## 22              3 Apartamento               pance  -76.52965   3.35908    0
## 23              4 Apartamento          el ingenio  -76.52966   3.38173    0
## 24              3 Apartamento      santa teresita  -76.53000   3.44700    0
## 25              3 Apartamento               pance  -76.53063   3.34678    0
## 26              3 Apartamento          el ingenio  -76.53076   3.38328    0
## 27              4 Apartamento          el ingenio  -76.53111   3.38292    0
## 28              3 Apartamento          el ingenio  -76.53121   3.38479    0
## 29              4 Apartamento               pance  -76.53138   3.34685    0
## 30              4 Apartamento               pance  -76.53250   3.33649    0
## 31              6 Apartamento          colseguros  -76.53339   3.43221    1
## 32              3 Apartamento      unicentro cali  -76.53400   3.41200    0
## 33              5 Apartamento          el ingenio  -76.53400   3.38100    0
## 34              3 Apartamento        el ingenio i  -76.53400   3.38100    0
## 35              3 Apartamento       ciudad jardín  -76.53405   3.36856    0
## 36              4 Apartamento            zona sur  -76.53428   3.38088    0
## 37              3 Apartamento          el ingenio  -76.53452   3.38391    0
## 38              5 Apartamento          el ingenio  -76.53481   3.38729    0
## 39              3 Apartamento       ciudad jardín  -76.53500   3.37000    0
## 40              3 Apartamento       ciudad jardín  -76.53504   3.36444    0
## 41              2 Apartamento       ciudad jardín  -76.53530   3.35959    0
## 42              3 Apartamento        el ingenio i  -76.53600   3.38300    0
## 43              3 Apartamento       ciudad jardín  -76.53614   3.36619    0
## 44              3 Apartamento          el ingenio  -76.53688   3.38121    0
## 45              5 Apartamento       ciudad jardín  -76.53688   3.36969    0
## 46              3 Apartamento               pance  -76.53694   3.36829    0
## 47              3 Apartamento        el ingenio i  -76.53700   3.38200    0
## 48              4 Apartamento               pance  -76.53709   3.34118    0
## 49              3 Apartamento       ciudad jardín  -76.53729   3.36487    0
## 50              3 Apartamento       ciudad jardín  -76.53798   3.35961    0
## 51              3 Apartamento       ciudad jardín  -76.53798   3.35961    0
## 52              3 Apartamento         santa anita  -76.53836   3.40560    0
## 53              4 Apartamento       ciudad jardín  -76.53967   3.36259    0
## 54              4 Apartamento       ciudad jardín  -76.53979   3.36518    0
## 55              3 Apartamento  san fernando nuevo  -76.54000   3.43100    0
## 56              4 Apartamento         multicentro  -76.54038   3.37900    0
## 57              6 Apartamento       ciudad jardín  -76.54057   3.36308    0
## 58              4 Apartamento    nueva tequendama  -76.54075   3.41471    0
## 59              3 Apartamento      valle del lili  -76.54087   3.37348    0
## 60              4 Apartamento               capri  -76.54100   3.39200    0
## 61              3 Apartamento       ciudad jardín  -76.54127   3.34962    0
## 62              3 Apartamento               capri  -76.54134   3.38954    0
## 63              3 Apartamento   mayapan las vegas  -76.54158   3.38230    0
## 64              3 Apartamento        san fernando  -76.54200   3.43300    1
## 65              3 Apartamento       ciudad jardín  -76.54200   3.36300    0
## 66              2 Apartamento          el limonar  -76.54294   3.39992    0
## 67              3 Apartamento       ciudad jardín  -76.54295   3.34970    0
## 68              3 Apartamento               pance  -76.54300   3.35100    1
## 69              4 Apartamento               pance  -76.54300   3.35000    0
## 70              3 Apartamento               pance  -76.54300   3.35000    0
## 71              3 Apartamento       ciudad jardín  -76.54303   3.41923    0
## 72              3 Apartamento       ciudad jardín  -76.54303   3.41923    0
## 73              3 Apartamento       ciudad jardín  -76.54341   3.35627    0
## 74              3 Apartamento parcelaciones pance  -76.54400   3.35100    0
## 75              2 Apartamento               pance  -76.54412   3.35074    0
## 76              4 Apartamento       ciudad jardín  -76.54500   3.35500    0
## 77              3 Apartamento        gran limonar  -76.54518   3.39742    0
## 78              5 Apartamento            melendez  -76.54537   3.37812    0
## 79              3 Apartamento               pance  -76.54568   3.34914    0
## 80              4 Apartamento               pance  -76.54594   3.34178    0
## 81              4 Apartamento        san fernando  -76.54600   3.43500    0
## 82              3 Apartamento        san fernando  -76.54626   3.43363    0
## 83              4 Apartamento            zona sur  -76.54666   3.44620    0
## 84              3 Apartamento            arboleda  -76.54700   3.44900    0
## 85              3 Apartamento      santa teresita  -76.54800   3.45300    0
## 86              5 Apartamento         san joaquin  -76.54800   3.41200    0
## 87              4 Apartamento               pance  -76.54800   3.34900    0
## 88              5 Apartamento           guadalupe  -76.54800   3.40800    0
## 89              3 Apartamento               pance  -76.54900   3.34300    0
## 90              3 Apartamento         pampa linda  -76.55117   3.40481    0
## 91              3 Apartamento      santa teresita  -76.55300   3.44700    0
## 92              4 Apartamento     cuarto de legua  -76.55527   3.40750    0
## 93              3 Apartamento         bella suiza  -76.56500   3.40800    0
##    E5.x E6.x   zona.y piso.y estrato.y preciom.y areaconst.y parqueaderos.y
## 1     0    1 Zona Sur      3         6      1280      346.00              4
## 2     0    1 Zona Sur      6         6      1200      211.00              2
## 3     0    0 Zona Sur      3         4       190       50.00             10
## 4     0    1 Zona Sur      3         6       840      161.79              2
## 5     0    1 Zona Sur      4         6       240      126.00              2
## 6     0    1 Zona Sur      2         6       128       55.00              1
## 7     1    0 Zona Sur      4         5       350      258.00              2
## 8     0    1 Zona Sur      3         6       950      213.00              2
## 9     0    1 Zona Sur      3         6       330      125.00              2
## 10    1    0 Zona Sur      3         5       670      191.00              2
## 11    0    1 Zona Sur      4         6       419      181.00              2
## 12    0    1 Zona Sur      3         6      1150      222.00              2
## 13    0    1 Zona Sur      1         6       833      213.00              2
## 14    0    1 Zona Sur      3         6       870      245.00              1
## 15    0    1 Zona Sur      2         6       250       94.00              3
## 16    0    1 Zona Sur      8         6       290      100.00              2
## 17    1    0     <NA>     NA      <NA>        NA          NA             NA
## 18    0    1 Zona Sur      3         6       320      115.00              2
## 19    0    1 Zona Sur      3         6      1580      296.00              4
## 20    0    1 Zona Sur      5         6      1240      222.00              3
## 21    0    1 Zona Sur      1         6       360      115.00              2
## 22    1    0 Zona Sur      2         5       600      129.00              1
## 23    0    1 Zona Sur      3         6       270       95.00              2
## 24    0    1 Zona Sur      3         6       450      187.00              2
## 25    0    1 Zona Sur      3         6       390      105.00              3
## 26    0    1 Zona Sur      4         6       220      116.00              2
## 27    1    0 Zona Sur      3         5       690      486.00              2
## 28    0    1 Zona Sur      4         6       268      145.00              1
## 29    0    1 Zona Sur      3         6       395      120.00              2
## 30    0    1 Zona Sur      8         6      1100      220.00              4
## 31    0    0 Zona Sur      2         4       390      300.00              1
## 32    1    0 Zona Sur      3         5      1250      213.00              3
## 33    1    0 Zona Sur      3         5       650      600.00              2
## 34    0    1 Zona Sur      3         6       340      133.00              2
## 35    1    0     <NA>     NA      <NA>        NA          NA             NA
## 36    1    0 Zona Sur      3         5       350      174.00              4
## 37    0    1 Zona Sur      1         6       280      154.00              1
## 38    1    0 Zona Sur      1         5       231      163.00              2
## 39    0    1 Zona Sur      5         6       180       73.00              1
## 40    0    1 Zona Sur     10         6      1600      345.00              3
## 41    1    0 Zona Sur      6         5       704      141.00              2
## 42    0    1 Zona Sur      4         6       230       80.00              2
## 43    0    0 Zona Sur      3         3       430      107.00              1
## 44    0    1 Zona Sur      5         6       225       85.00              1
## 45    0    1 Zona Sur      8         6      1150      346.00              2
## 46    0    1 Zona Sur      3         6      1590      310.00              3
## 47    0    1 Zona Sur      3         6       245       98.00              2
## 48    0    1 Zona Sur      4         6       920      230.00              2
## 49    0    1     <NA>     NA      <NA>        NA          NA             NA
## 50    0    1 Zona Sur      6         6       780      168.00              2
## 51    0    1 Zona Sur      3         6       870      191.00              2
## 52    1    0 Zona Sur      2         5       350      250.00              2
## 53    1    0 Zona Sur      1         5       700      138.00              2
## 54    0    1 Zona Sur      2         6      1750      342.00              3
## 55    1    0 Zona Sur      3         5       620      160.00              2
## 56    1    0 Zona Sur     10         5      1250      251.00              4
## 57    0    1 Zona Sur     10         6      1500      240.00              3
## 58    1    0 Zona Sur     10         5       206      109.00              2
## 59    1    0 Zona Sur      7         5       299      932.00              1
## 60    1    0 Zona Sur      5         5       350      270.00              3
## 61    0    1 Zona Sur      7         6      1700      290.00              3
## 62    1    0 Zona Sur      5         5       350      260.00              3
## 63    1    0 Zona Sur      9         5       340      236.00              2
## 64    0    0 Zona Sur      3         4       590      159.00              1
## 65    0    1 Zona Sur      3         6       930      145.00              2
## 66    1    0 Zona Sur      3         5       170      605.00              1
## 67    0    1 Zona Sur      2         6      1561      399.00              3
## 68    0    0 Zona Sur      3         4       645      184.00              1
## 69    0    1 Zona Sur      3         6      1600      290.00              3
## 70    0    1 Zona Sur      3         6      1750      290.00              3
## 71    0    1 Zona Sur      1         6       832      213.00              2
## 72    0    1 Zona Sur      1         6       677      108.00              2
## 73    0    1 Zona Sur      3         6       660      210.00              4
## 74    0    1 Zona Sur      3         6       840      176.00              2
## 75    0    1 Zona Sur      3         6       840      185.00              2
## 76    0    1 Zona Sur     12         6       770      140.00              2
## 77    0    1 Zona Sur      2         6       280      126.00              2
## 78    0    0 Zona Sur      3         3       370      300.00              3
## 79    0    1 Zona Sur      3         6      1050      170.00              4
## 80    0    1 Zona Sur      1         6       650      130.00              1
## 81    1    0 Zona Sur      3         5       500      330.00              2
## 82    1    0 Zona Sur      4         5       240      139.84              2
## 83    0    1 Zona Sur      3         6      1000      189.00              3
## 84    0    1 Zona Sur      2         6       910      182.00              2
## 85    0    1 Zona Sur      4         6       850      222.00              2
## 86    0    0 Zona Sur      3         3       260      300.00              1
## 87    0    1 Zona Sur      3         6      1150      344.00              1
## 88    1    0 Zona Sur      3         5       730      573.00              3
## 89    0    1 Zona Sur      9         6      1350      212.00              3
## 90    1    0 Zona Sur      1         5       450      267.00              3
## 91    0    1 Zona Sur      7         6       750      121.00              2
## 92    1    0 Zona Sur      2         5       410      295.55              2
## 93    0    1 Zona Sur      2         6       305      125.00              2
##    banios.y habitaciones.y      tipo.y            barrio.y longitud.y latitud.y
## 1         6              5 Apartamento       ciudad jardín  -76.46400   3.43300
## 2         3              3 Apartamento               pance  -76.47039   3.41435
## 3         2              4 Apartamento      valle del lili  -76.49300   3.46800
## 4         4              4 Apartamento               pance  -76.50726   3.46182
## 5         2              3 Apartamento          el limonar  -76.51138   3.46519
## 6         2              2 Apartamento               caney  -76.51800   3.38500
## 7         4              5 Apartamento        San Fernando  -76.51972   3.44000
## 8         5              4 Apartamento               pance  -76.51972   3.44000
## 9         3              3 Apartamento      valle del lili  -76.52400   3.38100
## 10        3              3 Apartamento           seminario  -76.52600   3.43400
## 11        3              3 Apartamento         multicentro  -76.52628   3.43400
## 12        4              3 Apartamento               pance  -76.52720   3.34832
## 13        3              3 Apartamento ciudad jardin pance  -76.52726   3.34865
## 14        4              3 Apartamento            zona sur  -76.52757   3.35436
## 15        2              3 Apartamento       ciudad jardín  -76.52793   3.36546
## 16        3              4 Apartamento      el ingenio iii  -76.52800   3.38000
## 17       NA             NA        <NA>                <NA>         NA        NA
## 18        3              2 Apartamento       ciudad jardin  -76.52800   3.36500
## 19        4              3 Apartamento               pance  -76.52844   3.34712
## 20        5              4 Apartamento       ciudad jardín  -76.52900   3.34500
## 21        4              4 Apartamento          el ingenio  -76.52944   3.41033
## 22        3              3 Apartamento               pance  -76.52965   3.35908
## 23        3              4 Apartamento          el ingenio  -76.52966   3.38173
## 24        4              3 Apartamento      santa teresita  -76.53000   3.44700
## 25        3              3 Apartamento               pance  -76.53063   3.34678
## 26        3              3 Apartamento          el ingenio  -76.53076   3.38328
## 27        4              4 Apartamento          el ingenio  -76.53111   3.38292
## 28        2              3 Apartamento          el ingenio  -76.53121   3.38479
## 29        5              4 Apartamento               pance  -76.53138   3.34685
## 30        4              4 Apartamento               pance  -76.53250   3.33649
## 31        5              6 Apartamento          colseguros  -76.53339   3.43221
## 32        4              3 Apartamento      unicentro cali  -76.53400   3.41200
## 33        4              5 Apartamento          el ingenio  -76.53400   3.38100
## 34        3              3 Apartamento        el ingenio i  -76.53400   3.38100
## 35       NA             NA        <NA>                <NA>         NA        NA
## 36        3              4 Apartamento            zona sur  -76.53428   3.38088
## 37        3              3 Apartamento          el ingenio  -76.53452   3.38391
## 38        5              5 Apartamento          el ingenio  -76.53481   3.38729
## 39        2              3 Apartamento       ciudad jardín  -76.53500   3.37000
## 40        6              3 Apartamento       ciudad jardín  -76.53504   3.36444
## 41        3              2 Apartamento       ciudad jardín  -76.53530   3.35959
## 42        2              3 Apartamento        el ingenio i  -76.53600   3.38300
## 43        2              3 Apartamento       ciudad jardín  -76.53614   3.36619
## 44        3              3 Apartamento          el ingenio  -76.53688   3.38121
## 45        6              5 Apartamento       ciudad jardín  -76.53688   3.36969
## 46        4              3 Apartamento               pance  -76.53694   3.36829
## 47        3              3 Apartamento        el ingenio i  -76.53700   3.38200
## 48        4              4 Apartamento               pance  -76.53709   3.34118
## 49       NA             NA        <NA>                <NA>         NA        NA
## 50        3              3 Apartamento       ciudad jardín  -76.53798   3.35961
## 51        4              3 Apartamento       ciudad jardín  -76.53798   3.35961
## 52        5              3 Apartamento         santa anita  -76.53836   3.40560
## 53        5              4 Apartamento       ciudad jardín  -76.53967   3.36259
## 54        5              4 Apartamento       ciudad jardín  -76.53979   3.36518
## 55        2              3 Apartamento  san fernando nuevo  -76.54000   3.43100
## 56        5              4 Apartamento         multicentro  -76.54038   3.37900
## 57        5              6 Apartamento       ciudad jardín  -76.54057   3.36308
## 58        4              4 Apartamento    nueva tequendama  -76.54075   3.41471
## 59        3              3 Apartamento      valle del lili  -76.54087   3.37348
## 60        3              4 Apartamento               capri  -76.54100   3.39200
## 61        4              3 Apartamento       ciudad jardín  -76.54127   3.34962
## 62        3              3 Apartamento               capri  -76.54134   3.38954
## 63        4              3 Apartamento   mayapan las vegas  -76.54158   3.38230
## 64        2              3 Apartamento        san fernando  -76.54200   3.43300
## 65        3              3 Apartamento       ciudad jardín  -76.54200   3.36300
## 66        2              2 Apartamento          el limonar  -76.54294   3.39992
## 67        4              3 Apartamento       ciudad jardín  -76.54295   3.34970
## 68        4              3 Apartamento               pance  -76.54300   3.35100
## 69        5              4 Apartamento               pance  -76.54300   3.35000
## 70        4              3 Apartamento               pance  -76.54300   3.35000
## 71        2              3 Apartamento       ciudad jardín  -76.54303   3.41923
## 72        2              3 Apartamento       ciudad jardín  -76.54303   3.41923
## 73        5              3 Apartamento       ciudad jardín  -76.54341   3.35627
## 74        4              3 Apartamento parcelaciones pance  -76.54400   3.35100
## 75        2              2 Apartamento               pance  -76.54412   3.35074
## 76        4              4 Apartamento       ciudad jardín  -76.54500   3.35500
## 77        3              3 Apartamento        gran limonar  -76.54518   3.39742
## 78        6              5 Apartamento            melendez  -76.54537   3.37812
## 79        6              3 Apartamento               pance  -76.54568   3.34914
## 80        3              4 Apartamento               pance  -76.54594   3.34178
## 81        4              4 Apartamento        san fernando  -76.54600   3.43500
## 82        4              3 Apartamento        san fernando  -76.54626   3.43363
## 83        5              4 Apartamento            zona sur  -76.54666   3.44620
## 84        4              3 Apartamento            arboleda  -76.54700   3.44900
## 85        3              3 Apartamento      santa teresita  -76.54800   3.45300
## 86        4              5 Apartamento         san joaquin  -76.54800   3.41200
## 87        6              4 Apartamento               pance  -76.54800   3.34900
## 88        8              5 Apartamento           guadalupe  -76.54800   3.40800
## 89        5              3 Apartamento               pance  -76.54900   3.34300
## 90        3              3 Apartamento         pampa linda  -76.55117   3.40481
## 91        3              3 Apartamento      santa teresita  -76.55300   3.44700
## 92        4              4 Apartamento     cuarto de legua  -76.55527   3.40750
## 93        3              3 Apartamento         bella suiza  -76.56500   3.40800
##    E4.y E5.y E6.y
## 1     0    0    1
## 2     0    0    1
## 3     1    0    0
## 4     0    0    1
## 5     0    0    1
## 6     0    0    1
## 7     0    1    0
## 8     0    0    1
## 9     0    0    1
## 10    0    1    0
## 11    0    0    1
## 12    0    0    1
## 13    0    0    1
## 14    0    0    1
## 15    0    0    1
## 16    0    0    1
## 17   NA   NA   NA
## 18    0    0    1
## 19    0    0    1
## 20    0    0    1
## 21    0    0    1
## 22    0    1    0
## 23    0    0    1
## 24    0    0    1
## 25    0    0    1
## 26    0    0    1
## 27    0    1    0
## 28    0    0    1
## 29    0    0    1
## 30    0    0    1
## 31    1    0    0
## 32    0    1    0
## 33    0    1    0
## 34    0    0    1
## 35   NA   NA   NA
## 36    0    1    0
## 37    0    0    1
## 38    0    1    0
## 39    0    0    1
## 40    0    0    1
## 41    0    1    0
## 42    0    0    1
## 43    0    0    0
## 44    0    0    1
## 45    0    0    1
## 46    0    0    1
## 47    0    0    1
## 48    0    0    1
## 49   NA   NA   NA
## 50    0    0    1
## 51    0    0    1
## 52    0    1    0
## 53    0    1    0
## 54    0    0    1
## 55    0    1    0
## 56    0    1    0
## 57    0    0    1
## 58    0    1    0
## 59    0    1    0
## 60    0    1    0
## 61    0    0    1
## 62    0    1    0
## 63    0    1    0
## 64    1    0    0
## 65    0    0    1
## 66    0    1    0
## 67    0    0    1
## 68    1    0    0
## 69    0    0    1
## 70    0    0    1
## 71    0    0    1
## 72    0    0    1
## 73    0    0    1
## 74    0    0    1
## 75    0    0    1
## 76    0    0    1
## 77    0    0    1
## 78    0    0    0
## 79    0    0    1
## 80    0    0    1
## 81    0    1    0
## 82    0    1    0
## 83    0    0    1
## 84    0    0    1
## 85    0    0    1
## 86    0    0    0
## 87    0    0    1
## 88    0    1    0
## 89    0    0    1
## 90    0    1    0
## 91    0    0    1
## 92    0    1    0
## 93    0    0    1

15.4. Generación del nueva database después de la limpieza de valores atipicos

## # A tibble: 2,694 × 16
##       id zona    piso estrato preciom areaconst parqueaderos banios habitaciones
##    <dbl> <chr>  <dbl> <fct>     <dbl>     <dbl>        <dbl>  <dbl>        <dbl>
##  1  5098 Zona …     5 4           290        96            1      2            3
##  2   698 Zona …     2 3            78        40            1      1            2
##  3  8199 Zona …     3 6           875       194            2      5            3
##  4  1241 Zona …     3 3           135       117            1      2            3
##  5  5370 Zona …     3 3           135        78            1      1            3
##  6  6975 Zona …     6 4           220        75            1      2            3
##  7  5615 Zona …     8 3           210        72            2      2            3
##  8  6262 Zona …     3 3           105        68            1      2            3
##  9  7396 Zona …     3 3           115        58            1      2            2
## 10  6949 Zona …     3 4           220        84            1      2            3
## # ℹ 2,684 more rows
## # ℹ 7 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>,
## #   E4 <dbl>, E5 <dbl>, E6 <dbl>

15.5. Generación del modelo tomando el database limpio

## 
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos + 
##     banios, data = vivienda_2_limpia)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -201.470  -32.548   -1.007   32.014  212.455 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -33.52593    6.59757  -5.082 4.00e-07 ***
## areaconst      1.66627    0.04204  39.631  < 2e-16 ***
## estrato4      30.48852    4.37203   6.974 3.88e-12 ***
## estrato5      58.54656    4.53942  12.897  < 2e-16 ***
## estrato6     192.44219    5.88544  32.698  < 2e-16 ***
## habitaciones -12.24488    2.08500  -5.873 4.81e-09 ***
## parqueaderos  50.29806    2.58673  19.445  < 2e-16 ***
## banios        27.90695    1.90933  14.616  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 55.26 on 2686 degrees of freedom
## Multiple R-squared:  0.882,  Adjusted R-squared:  0.8817 
## F-statistic:  2869 on 7 and 2686 DF,  p-value: < 2.2e-16

Al igual que en la primera solicitud, comenzaremos con la validación de los supuestos del modelo. Es fundamental asegurarnos de que se cumplen las condiciones mínimas necesarias antes de proceder con el análisis de los coeficientes. Realizar el análisis sin esta verificación previa carece de fundamento lógico.

15.6. Análisis de los supuestos del modelo utilizando pruebas de hipotesis

## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(modelo3)
## W = 0.98869, p-value = 8.562e-14
## 
##  Durbin-Watson test
## 
## data:  modelo3
## DW = 1.6886, p-value < 2.2e-16
## alternative hypothesis: true autocorrelation is greater than 0
## Non-constant Variance Score Test 
## Variance formula: ~ fitted.values 
## Chisquare = 889.5161, Df = 1, p = < 2.22e-16
##                  GVIF Df GVIF^(1/(2*Df))
## areaconst    2.743859  1        1.656460
## estrato      1.891561  3        1.112082
## habitaciones 1.469405  1        1.212190
## parqueaderos 2.027205  1        1.423799
## banios       2.581512  1        1.606708

A partir de las pruebas de hipótesis, podemos concluir que los resultados obtenidos en las pruebas de son similares a los iniciales. Esto sugiere que los supuestos del modelo no se cumplen, a pesar de haber descartado los valores atípicos de los datos. Pues como se puede evidenciar los valores P son inferiores al nivel de significancia de 0.05, lo que nos indica que se rechaza la hipotesis nula de normalidad, homocedasticidad e independencia. De igual forma , se sigue evidenciando una multicolinealidad moderada, pues los valores del VIF se encuentran entre 1 y 5.

15.7 Validación Cruzada

Finalmente generamos un modelo de validación cruzada, para evaluar si el modelo de regresión conserva una estabilidad:

## 
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos + 
##     banios, data = train_data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -978.76  -36.26   -3.32   34.15  909.73 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -43.44271   12.36048  -3.515  0.00045 ***
## areaconst      1.19634    0.05119  23.371  < 2e-16 ***
## estrato4      27.13885    8.40730   3.228  0.00127 ** 
## estrato5      52.94627    8.67363   6.104 1.24e-09 ***
## estrato6     205.71043   10.95990  18.769  < 2e-16 ***
## habitaciones -10.44463    3.80273  -2.747  0.00608 ** 
## parqueaderos  69.76522    4.82943  14.446  < 2e-16 ***
## banios        38.27616    3.44646  11.106  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 87.36 on 1945 degrees of freedom
## Multiple R-squared:  0.7831, Adjusted R-squared:  0.7823 
## F-statistic:  1003 on 7 and 1945 DF,  p-value: < 2.2e-16
## 
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos + 
##     banios, data = vivienda_2)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1096.93   -35.43    -2.08    34.61   894.26 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -43.32991   10.13354  -4.276 1.97e-05 ***
## areaconst      1.33359    0.04576  29.142  < 2e-16 ***
## estrato4      28.96511    6.86300   4.220 2.52e-05 ***
## estrato5      54.59210    7.08763   7.702 1.84e-14 ***
## estrato6     209.07531    8.88859  23.522  < 2e-16 ***
## habitaciones -11.54029    3.16593  -3.645 0.000272 ***
## parqueaderos  61.62033    3.50854  17.563  < 2e-16 ***
## banios        38.25237    2.85475  13.400  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 87.6 on 2779 degrees of freedom
## Multiple R-squared:  0.7914, Adjusted R-squared:  0.7909 
## F-statistic:  1506 on 7 and 2779 DF,  p-value: < 2.2e-16
##              Coefficients_Initial Coefficients_Estimated
## (Intercept)            -43.329910             -43.442713
## areaconst                1.333594               1.196344
## estrato4                28.965111              27.138852
## estrato5                54.592100              52.946272
## estrato6               209.075308             205.710428
## habitaciones           -11.540289             -10.444627
## parqueaderos            61.620330              69.765223
## banios                  38.252374              38.276164
## [1] 0.8981201
## [1] 0.7914037
  1. Comparación de Modelos

Modelo de Estimación (train_data):

R2: 0.7831, lo que indica que aproximadamente el 78.31% de la variabilidad en el precio (preciom) puede ser explicada por las variables independientes en este modelo. Error Estándar Residual: 87.36, lo que sugiere que las predicciones del modelo tienen una desviación promedio de aproximadamente 87.36 unidades del valor real.

Modelo en inicial:

R2: 0.7914, lo que sugiere que este modelo tiene un poder explicativo ligeramente superior al modelo de estimación, con aproximadamente el 79.14% de la variabilidad explicada. Error Estándar Residual: 87.6, similar al modelo de estimación, lo que indica que el rendimiento en términos de error es comparable.

  1. Coeficientes Significativos

En ambos modelos, todos los coeficientes son estadísticamente significativos (p < 0.05), lo que indica que cada variable tiene un impacto significativo en el precio de las propiedades.

areaconst: En ambos modelos, el coeficiente es positivo y significativo, lo que indica que a medida que aumenta el área construida, el precio también tiende a aumentar.

Estratos: Los coeficientes para estrato4, estrato5, y estrato6 son positivos y significativos, lo que sugiere que los estratos más altos están asociados con precios más altos.

habitaciones: En ambos modelos, el coeficiente es negativo y significativo, lo que indica que un aumento en el número de habitaciones está asociado con una disminución en el precio, lo cual puede parecer contraintuitivo y podría requerir una revisión más profunda de los datos.

parqueaderos: El coeficiente es positivo y significativo, lo que indica que más parqueaderos están asociados con precios más altos.

banios: También tiene un coeficiente positivo y significativo, sugiriendo que más baños están asociados con precios más altos.

  1. Diagnóstico de Residuos

Los residuos en ambos modelos tienen un rango que indica la presencia de errores de predicción, con valores máximos de 909.73 en el modelo de estimación y 894.26 en el modelo de vivienda_2. Esto sugiere que hay algunas predicciones que se desvían significativamente de los valores reales, aunque la mayoría de los residuos están relativamente cerca de cero.

  1. Comparación de R2 El R2 del modelo inicial (0.7914) es mayor que el del modelo de estimación (0.7831), lo que sugiere que el segundo modelo tiene un mejor ajuste a los datos. Esto podría indicar que el modelo en vivienda_2 es más efectivo para predecir el precio en comparación con el modelo de estimación.

16. CONCLUSIONES

16.1. Validación de los supuestos del modelo

Durante las pruebas de hipótesis y la validación de los gráficos de diagnóstico, se evaluó el cumplimiento de los supuestos de normalidad, independencia, homocedasticidad y ausencia de multicolinealidad en los dos modelos desarrollados. Sin embargo, se observó que ninguno de los modelos cumplió con estos supuestos.

A pesar de las acciones implementadas para identificar valores atípicos, como la validación de residuos, el uso del criterio de Cook y la validación cruzada, con el objetivo de generar nuevos modelos a partir de una base de datos más limpia o para evaluar si el modelo conserva la estabilidad, los resultados no mostraron una mejora significativa. Esto impidió considerar la viabilidad del modelo de regresión múltiple para llevar a cabo los análisis deseados.

Por lo anterior, se recomiendan desarollar las siguientes acciones: Para abordar la normalidad de los residuos, se pueden aplicar transformaciones a la variable dependiente, como logaritmos o la transformación de Box-Cox. Si estas no son efectivas, se podría considerar el uso de modelos que no asuman normalidad, como la regresión robusta o no paramétrica. En cuanto a la independencia de los residuos, se recomienda analizar la autocorrelación mediante gráficos ACF y PACF, y agregar variables relevantes que puedan eliminar la correlación entre los residuos. Para la homocedasticidad, las transformaciones de la variable dependiente pueden estabilizar la varianza, y se puede utilizar regresión ponderada para abordar la heterocedasticidad. Finalmente, aunque los VIF están entre 1 y 5, es importante revisar la correlación entre los predictores; si hay alta correlación, se debe considerar eliminar o combinar variables. Si la multicolinealidad es un problema, se pueden aplicar técnicas de regularización como Lasso o Ridge para reducir la influencia de predictores correlacionados.

Asimismo, se podría considerar la eliminación de un mayor número de valores atípicos; sin embargo, esto podría llevar a un modelo que presente problemas de sobreajuste. En este contexto, es fundamental evaluar la calidad de la base de datos. Como se evidenció en el análisis de los valores atípicos y la geolocalización de los puntos por zona, parece haber problemas de asignación, así como variables que no siguen una distribución normal, comenzando por la variable objetivo: el precio.

16.2. Análisis de las ofertas disponibles, de acuerdo con las solicitudes del cliente

Conclusiones - Primera Solicitud

En conclusión, a partir de la predicción del modelo, se estima que una vivienda con las especificaciones solicitadas tendría un valor aproximado de $336.13 millones. Al analizar las primeras cinco posibles ofertas, se identificaron varias opciones atractivas en comparación con el valor estimado.

La vivienda 4458, con un precio de $315 millones, se presenta como una opción interesante, ya que ofrece un parqueadero adicional, dos baños extra y un área adicional de 70 M, siendo $21 millones más económica que el valor predicho. La vivienda 952, con un precio de $330 millones, también es atractiva, ya que es 75 M más grande y cuenta con un parqueadero, un baño y una habitación adicionales, lo que la convierte en una oferta competitiva.

La vivienda 1020, considerada la “oferta estrella”, destaca con un precio de $230 millones, aproximadamente $106 millones inferior al estimado. Esta propiedad es 50 M más grande y también incluye un parqueadero, un baño y una habitación adicionales, lo que la convierte en una opción muy favorable en términos de espacio y costo.

Por otro lado, la vivienda 1108, con un precio de $330 millones, presenta similitudes con la vivienda 952, pero no es tan atractiva debido a que tiene menos amenidades. Finalmente, la vivienda 1144, con un precio de $320 millones, es una buena oferta al contar con un parqueadero y dos baños adicionales, aunque su precio por área es el más alto de las opciones analizadas.

Si la empresa busca la mejor oferta en términos de precio, la vivienda 1020 se adapta óptimamente a la solicitud del cliente, ya que presenta el precio por área más bajo de las opciones disponibles. A pesar de contar con 50 metros adicionales a los especificados, su precio se mantiene por debajo del crédito aprobado de $350 millones. Comparada con la vivienda 1144, que tiene un área construida de 200 metros, la vivienda 1020 es $90 millones más económica, lo que resalta su excelente relación costo-beneficio. Ambas propiedades están ubicadas en el mismo barrio y pertenecen al mismo estrato, lo que refuerza la ventaja de la vivienda 1020 en términos de precio.

Con base en el análisis realizado, la vivienda que se recomendaría ofrecer es la vivienda 1020. Esta propiedad no solo tiene el precio más bajo en comparación con las ofertas disponibles, sino que también presenta un excelente costo por área, lo que la convierte en una opción atractiva para los clientes. A continuación, se detallan algunas estrategias que se podrían implementar:

Conclusiones - Segunda Solicitud

A partir del análisis realizado, se puede concluir que la vivienda 7182, con un valor de $730 millones, presenta un costo adicional de $77 millones en comparación con el valor estimado de $653.25 millones. Este incremento se justifica por el hecho de que la vivienda tiene un área construida superior de 273 M y cuenta con 5 baños adicionales a los especificados en la solicitud. Por otro lado, la vivienda 7512, con un precio de $670 millones, muestra un valor adicional de aproximadamente $17 millones, atribuible a la presencia de 2 baños adicionales y una habitación extra.

En el contexto de las ofertas disponibles en la Zona Sur, se identifican solo dos opciones que cumplen con las especificaciones solicitadas. En este sentido, se recomienda ofrecer al cliente la vivienda 7182, ya que su precio por metro cuadrado es de $1.27 millones, significativamente más bajo que el de la vivienda 7512, que, a pesar de cumplir con el requisito de 300 M, tiene un costo por metro cuadrado de casi el doble, es decir, $2.23 millones.

Al presentar esta opción al cliente, se puede resaltar el valor agregado de recibir una vivienda casi el doble de grande, que se encuentra por debajo del crédito aprobado, lo que le ahorraría $120 millones. Además, el precio por metro cuadrado de la vivienda 7182 es considerablemente más bajo, lo que la convierte en una opción más atractiva y económica.