1 Introducción
2 Objetivo General
- 2.1 Objetivos Específicos
3 Metodología
4 Cargue de los datos
5 Preprocesamiento de los datos
5.1 Eliminación de variables innecesarias para el análisis
- 5.1.1 Resultados obtenidos en la base de datos de apartamentos
- 5.1.2 Resultados obtenidos en la base de datos de apartamentos
5.2 Conversión de tipos de datos
- 5.2.1 Resultados obtenidos en la base de datos de casas
- 5.2.2 Resultados obtenidos en la base de datos de apartamentos
5.3 Tratamiento de valores nulos
- 5.3.1 Resultados obtenidos en la base de datos de casas
- 5.3.2 Resultados obtenidos en la base de datos de apartamentos
5.4 Tratamiento de outliers
- 5.4.1 Resultados obtenidos en la base de datos de casas
- 5.4.2 Resultados obtenidos en la base de datos de apartamentos
5.5 Tratamiento de valores faltantes (NA)
- 5.5.1 Resultados obtenidos en la base de datos de casas
- 5.5.2 Resultados obtenidos en la base de datos de apartamentos
5.6 Definiendo dataset limpio
- 5.6.1 Resultados obtenidos en la base de datos de casas
- 5.6.2 Resultados obtenidos en la base de datos de apartamentos
6 Análisis exploratorio
- 6.1 Análisis de Variables Numéricas
  - 6.1.1 Resultados obtenidos en la base de datos de casas
  - 6.1.2 Resultados obtenidos en la base de datos de apartamentos
- 6.2 Análisis de Variables Categóricas
  - 6.2.1 Resultados obtenidos en la base de datos de casas
  - 6.2.2 Resultados obtenidos en la base de datos de apartamentos
7 Modelación
- 7.0.1 Resultados obtenidos en la base de datos de casas
- 7.0.2 Resultados obtenidos en la base de datos de apartamentos
8 Validación de Supuestos
9 Análisis de rendimiento del modelo
10 Predicciones
- 10.1 Predicciones usando los datos de prueba
- 10.2 Predicciones para sugerir potenciales ofertas
  - 10.2.1 Resultados para casas
  - 10.2.2 Resultados para apartamentos
11 Conclusiones

1 Introducción

En este trabajo se aborda el análisis de ofertas inmobiliarias en la ciudad de Cali, con el objetivo de asistir a María, una agente inmobiliaria, en la evaluación de dos solicitudes de compra de viviendas para una compañía internacional. La situación actual del mercado inmobiliario en Cali, afectado por factores socioeconómicos y políticos, plantea el reto de encontrar opciones adecuadas que cumplan con las características solicitadas por el cliente.

El reporte incluye una serie de pasos metodológicos que abarcan desde el cargue y preprocesamiento de los datos hasta la modelación y predicción de precios de las viviendas solicitadas. A lo largo del documento, se realiza un análisis de las variables relevantes, como el área construida, estrato, número de baños y habitaciones, con el fin de construir un modelo de regresión que permita estimar el precio de las viviendas solicitadas. Además, se lleva a cabo una validación de los supuestos del modelo y se sugieren potenciales ofertas que se ajusten al crédito pre-aprobado de la empresa.

En la fase de modelación, se realizó una partición aleatoria de los datos, asignando el 70% para entrenar el modelo y el 30% para prueba, y se evaluó su precisión mediante métricas como el error cuadrático medio, el error absoluto medio y el R². Finalmente, el informe proporcionará recomendaciones basadas en las predicciones del modelo, complementadas con visualizaciones y análisis interactivos, que ayudarán a María en la toma de decisiones informadas para satisfacer las necesidades de sus clientes.

2 Objetivo General

Asistir a María, agente inmobiliaria de la empresa C&A, en la evaluación y selección de propiedades que cumplan con las condiciones solicitadas por una compañía internacional, utilizando modelos predictivos basados en datos recientes del mercado inmobiliario de Cali.

2.1 Objetivos Específicos

Identificar y filtrar las ofertas inmobiliarias disponibles en Cali que correspondan a las zonas y características solicitadas para cada tipo de vivienda, asegurando que las propiedades seleccionadas cumplan con los criterios iniciales establecidos por el cliente.
Desarrollar y evaluar modelos de regresión lineal múltiple que permitan predecir con precisión el precio de las viviendas basándose en variables clave como el área construida, estrato socioeconómico, número de habitaciones y baños, con el fin de ajustar las predicciones a las necesidades de compra.
Proporcionar recomendaciones basadas en las predicciones de los modelos, sugiriendo las mejores opciones de vivienda que se ajusten al presupuesto pre-aprobado por la empresa, y presentando análisis visuales que respalden la toma de decisiones informadas para ambas solicitudes de compra.

3 Metodología

La metodología empleada para el análisis de los datos de casas y apartamentos siguió un enfoque estructurado para asegurar la obtención precisa de los datos solicitados. Inicialmente, se realizó la carga y preprocesamiento de los datos, comenzando con la eliminación de variables innecesarias para el análisis, lo que permitió simplificar el dataset y enfocarse en las variables relevantes. Se procedió a la conversión de tipos de datos para garantizar que las variables fueran adecuadamente interpretadas por los modelos analíticos. El tratamiento de valores nulos y outliers se realizó, usando imputación para valores faltantes y técnicas específicas para manejar valores atípicos. Finalmente, se definió un dataset limpio para ambas bases de datos, asegurando que los datos estuvieran listos para el análisis exploratorio y la modelación.

El análisis exploratorio incluyó la evaluación de variables numéricas y categóricas para entender mejor la distribución y características de los datos. Posteriormente, se llevó a cabo la modelación, ajustando modelos de regresión lineal múltiple para cada tipo de propiedad. La validación de los supuestos del modelo incluyó pruebas para linealidad, homoscedasticidad, independencia de errores, normalidad, y multicolinealidad. El rendimiento de los modelos se evaluó utilizando métricas clave como el error cuadrático medio, el error absoluto medio, y el R^2. Finalmente, se realizaron predicciones utilizando datos de prueba y se analizaron las ofertas potenciales, identificando viviendas que se ajustan a los criterios específicos planteados, proporcionando así recomendaciones para la toma de decisiones en la adquisición de propiedades.

4 Cargue de los datos

Para el cargue de datos, se importa la base de datos de viviendas y, a continuación, se filtran los registros según las características solicitadas: primero, se extraen las casas ubicadas en la Zona Norte y, luego, los apartamentos en la Zona Sur. Estos filtros permiten enfocar el análisis en las opciones más relevantes para el cliente. A continuación, se presenta un breve resumen de la base de datos de casas y apartamentos, mostrando los primeros tres registros y algunas tablas para verificar la correcta aplicación de los filtros.

##        id           zona               piso              estrato     
##  Min.   :   1   Length:8322        Length:8322        Min.   :3.000  
##  1st Qu.:2080   Class :character   Class :character   1st Qu.:4.000  
##  Median :4160   Mode  :character   Mode  :character   Median :5.000  
##  Mean   :4160                                         Mean   :4.634  
##  3rd Qu.:6240                                         3rd Qu.:5.000  
##  Max.   :8319                                         Max.   :6.000  
##  NA's   :3                                            NA's   :3      
##     preciom         areaconst       parqueaderos        banios      
##  Min.   :  58.0   Min.   :  30.0   Min.   : 1.000   Min.   : 0.000  
##  1st Qu.: 220.0   1st Qu.:  80.0   1st Qu.: 1.000   1st Qu.: 2.000  
##  Median : 330.0   Median : 123.0   Median : 2.000   Median : 3.000  
##  Mean   : 433.9   Mean   : 174.9   Mean   : 1.835   Mean   : 3.111  
##  3rd Qu.: 540.0   3rd Qu.: 229.0   3rd Qu.: 2.000   3rd Qu.: 4.000  
##  Max.   :1999.0   Max.   :1745.0   Max.   :10.000   Max.   :10.000  
##  NA's   :2        NA's   :3        NA's   :1605     NA's   :3       
##   habitaciones        tipo              barrio             longitud     
##  Min.   : 0.000   Length:8322        Length:8322        Min.   :-76.59  
##  1st Qu.: 3.000   Class :character   Class :character   1st Qu.:-76.54  
##  Median : 3.000   Mode  :character   Mode  :character   Median :-76.53  
##  Mean   : 3.605                                         Mean   :-76.53  
##  3rd Qu.: 4.000                                         3rd Qu.:-76.52  
##  Max.   :10.000                                         Max.   :-76.46  
##  NA's   :3                                              NA's   :3       
##     latitud     
##  Min.   :3.333  
##  1st Qu.:3.381  
##  Median :3.416  
##  Mean   :3.418  
##  3rd Qu.:3.452  
##  Max.   :3.498  
##  NA's   :3

## # A tibble: 3 × 13
##      id zona    piso  estrato preciom areaconst parqueaderos banios habitaciones
##   <dbl> <chr>   <chr>   <dbl>   <dbl>     <dbl>        <dbl>  <dbl>        <dbl>
## 1  1209 Zona N… 02          5     320       150            2      4            6
## 2  1592 Zona N… 02          5     780       380            2      3            3
## 3  4057 Zona N… 02          6     750       445           NA      7            6
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>

## 
## Zona Norte 
##        722

## 
## Casa 
##  722

## # A tibble: 3 × 13
##      id zona    piso  estrato preciom areaconst parqueaderos banios habitaciones
##   <dbl> <chr>   <chr>   <dbl>   <dbl>     <dbl>        <dbl>  <dbl>        <dbl>
## 1  5098 Zona S… 05          4     290        96            1      2            3
## 2   698 Zona S… 02          3      78        40            1      1            2
## 3  8199 Zona S… <NA>        6     875       194            2      5            3
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>

## 
## Zona Sur 
##     2787

## 
## Apartamento 
##        2787

5 Preprocesamiento de los datos

El preprocesamiento de datos es crucial para asegurar la calidad e integridad del análisis posterior. En este estudio, se llevaron a cabo varias etapas clave de preprocesamiento en los conjuntos de datos de casas y apartamentos, con el objetivo de preparar la información para su análisis y modelado posterior. A continuación, se describen las acciones realizadas durante el preprocesamiento.

5.1 Eliminación de variables innecesarias para el análisis

En primer lugar, se realizó un filtro de las columnas en ambos conjuntos de datos, seleccionando solo aquellas variables relevantes para el análisis: preciom, areaconst, estrato, habitaciones, parqueaderos, banios, fueron las variables seleccionadas, las variables longitud, y latitud, se dejaron inicialmente para poder realizar la depuración de los datos teniendo en cuenta su ubicación, pero posterior a dicho análisis se eliminaron de la base de datos al ser variables innecesarias dentro del análisis.A continuación, se muestran los resultados obtenidos:

5.1.1 Resultados obtenidos en la base de datos de apartamentos

##     preciom         areaconst         estrato       habitaciones   
##  Min.   :  89.0   Min.   :  30.0   Min.   :3.000   Min.   : 0.000  
##  1st Qu.: 261.2   1st Qu.: 140.0   1st Qu.:3.000   1st Qu.: 3.000  
##  Median : 390.0   Median : 240.0   Median :4.000   Median : 4.000  
##  Mean   : 445.9   Mean   : 264.9   Mean   :4.202   Mean   : 4.507  
##  3rd Qu.: 550.0   3rd Qu.: 336.8   3rd Qu.:5.000   3rd Qu.: 5.000  
##  Max.   :1940.0   Max.   :1440.0   Max.   :6.000   Max.   :10.000  
##                                                                    
##   parqueaderos        banios          longitud         latitud     
##  Min.   : 1.000   Min.   : 0.000   Min.   :-76.59   Min.   :3.333  
##  1st Qu.: 1.000   1st Qu.: 2.000   1st Qu.:-76.53   1st Qu.:3.452  
##  Median : 2.000   Median : 3.000   Median :-76.52   Median :3.468  
##  Mean   : 2.182   Mean   : 3.555   Mean   :-76.52   Mean   :3.460  
##  3rd Qu.: 3.000   3rd Qu.: 4.000   3rd Qu.:-76.50   3rd Qu.:3.482  
##  Max.   :10.000   Max.   :10.000   Max.   :-76.47   Max.   :3.496  
##  NA's   :287

5.1.2 Resultados obtenidos en la base de datos de apartamentos

##     preciom         areaconst         estrato       habitaciones   
##  Min.   :  89.0   Min.   :  30.0   Min.   :3.000   Min.   : 0.000  
##  1st Qu.: 261.2   1st Qu.: 140.0   1st Qu.:3.000   1st Qu.: 3.000  
##  Median : 390.0   Median : 240.0   Median :4.000   Median : 4.000  
##  Mean   : 445.9   Mean   : 264.9   Mean   :4.202   Mean   : 4.507  
##  3rd Qu.: 550.0   3rd Qu.: 336.8   3rd Qu.:5.000   3rd Qu.: 5.000  
##  Max.   :1940.0   Max.   :1440.0   Max.   :6.000   Max.   :10.000  
##                                                                    
##   parqueaderos        banios          longitud         latitud     
##  Min.   : 1.000   Min.   : 0.000   Min.   :-76.59   Min.   :3.333  
##  1st Qu.: 1.000   1st Qu.: 2.000   1st Qu.:-76.53   1st Qu.:3.452  
##  Median : 2.000   Median : 3.000   Median :-76.52   Median :3.468  
##  Mean   : 2.182   Mean   : 3.555   Mean   :-76.52   Mean   :3.460  
##  3rd Qu.: 3.000   3rd Qu.: 4.000   3rd Qu.:-76.50   3rd Qu.:3.482  
##  Max.   :10.000   Max.   :10.000   Max.   :-76.47   Max.   :3.496  
##  NA's   :287

5.2 Conversión de tipos de datos

Posteriormente, se realizó la conversión de tipos de datos, donde la variable estrato, que originalmente era numérica, se transformó en un factor. Esta conversión es crucial para tratar correctamente los datos categóricos en los análisis posteriores, asegurando que se interpreten adecuadamente dentro de los modelos.A continuación, se muestran los resultados obtenidos:

5.2.1 Resultados obtenidos en la base de datos de casas

##  Factor w/ 4 levels "3","4","5","6": 3 3 4 2 3 2 3 3 1 1 ...

5.2.2 Resultados obtenidos en la base de datos de apartamentos

##  Factor w/ 4 levels "3","4","5","6": 2 1 4 1 1 2 1 1 1 2 ...

5.3 Tratamiento de valores nulos

También se realizó un proceso de depuración para eliminar los registros con valores nulos en las variables de habitaciones y baños, lo anterior dado que el porcentaje de valores nulos era bajo y no tiene sentido considerar casas o apartamentos con cero baños y habitaciones, este paso fue esencial para evitar distorsiones en el análisis y asegurar que las observaciones restantes fueran representativas. A continuación, se muestran los resultados obtenidos, indicando el % de valores nulos en cada una de las variables, despues de aplicar la depuración:

5.3.1 Resultados obtenidos en la base de datos de casas

##      preciom    areaconst      estrato habitaciones parqueaderos       banios 
##            0            0            0            0           NA            0 
##     longitud      latitud 
##            0            0

5.3.2 Resultados obtenidos en la base de datos de apartamentos

##      preciom    areaconst      estrato habitaciones parqueaderos       banios 
##            0            0            0            0           NA            0 
##     longitud      latitud 
##            0            0

5.4 Tratamiento de outliers

Para el manejo de outliers, se implementó un procedimiento iterativo para identificar y eliminar valores atípicos en las variables de localización (latitud y longitud). Se utilizó el método de rango intercuartílico (IQR) para filtrar los datos, lo que permitió excluir registros que se desviaban significativamente de la mediana, mejorando así la calidad y representatividad del conjunto de datos para el análisis espacial. A continuación, se presentan gráficos que muestran el estado de los datos antes y después del proceso aplicado, así como el comportamiento del porcentaje de valores atípicos en cada paso del proceso. Estos gráficos también indican en qué iteración el porcentaje de valores atípicos se estabiliza, proporcionando una visión clara de la efectividad del procedimiento aplicado.

5.4.1 Resultados obtenidos en la base de datos de casas

5.4.2 Resultados obtenidos en la base de datos de apartamentos

5.5 Tratamiento de valores faltantes (NA)

Finalmente, se abordó el tratamiento de valores faltantes utilizando la imputación mediante el método KNN (K-Nearest Neighbors). Este método permitió imputar valores faltantes en la variable parqueaderos, preservando la integridad de las relaciones entre variables. Para validar la efectividad del método aplicado, se realizó una gráfica comparativa que ilustra la distribución de parqueaderos antes y después de la imputación. La gráfica muestra la densidad de los valores de parqueaderos, diferenciando entre los datos originales con valores faltantes y los datos imputados.

Además, se evaluó la efectividad del método comparando las correlaciones entre parqueaderos y preciom antes y después de la imputación. Los resultados mostraron que el proceso mejoro un poco las propiedades estadísticas del conjunto de datos.

A continuación, se presentan gráficos que muestran el estado de los datos antes y después de la imputación, así como el comportamiento del porcentaje de valores nulos en cada etapa. Estos gráficos también ilustran en qué iteración la imputación estabiliza el porcentaje de valores faltantes, proporcionando una visión clara de la efectividad del procedimiento aplicado.

5.5.1 Resultados obtenidos en la base de datos de casas

## # A tibble: 6 × 3
##   variable     count_na percent_na
##   <chr>           <int>      <dbl>
## 1 preciom             0        0  
## 2 areaconst           0        0  
## 3 estrato             0        0  
## 4 habitaciones        0        0  
## 5 parqueaderos      201       34.0
## 6 banios              0        0

##                  Metodo Correlacion
## 1   Antes de imputación   0.4321497
## 2 Después de imputación   0.5081813

## # A tibble: 7 × 3
##   variable         count_na percent_na
##   <chr>               <int>      <dbl>
## 1 preciom                 0          0
## 2 areaconst               0          0
## 3 estrato                 0          0
## 4 habitaciones            0          0
## 5 parqueaderos            0          0
## 6 banios                  0          0
## 7 parqueaderos_imp        0          0

5.5.2 Resultados obtenidos en la base de datos de apartamentos

## # A tibble: 6 × 3
##   variable     count_na percent_na
##   <chr>           <int>      <dbl>
## 1 preciom             0          0
## 2 areaconst           0          0
## 3 estrato             0          0
## 4 habitaciones        0          0
## 5 parqueaderos      357         14
## 6 banios              0          0

##                  Metodo Correlacion
## 1   Antes de imputación   0.7322150
## 2 Después de imputación   0.7472423

## # A tibble: 7 × 3
##   variable         count_na percent_na
##   <chr>               <int>      <dbl>
## 1 preciom                 0          0
## 2 areaconst               0          0
## 3 estrato                 0          0
## 4 habitaciones            0          0
## 5 parqueaderos            0          0
## 6 banios                  0          0
## 7 parqueaderos_imp        0          0

5.6 Definiendo dataset limpio

Una vez abordas las diferentes acciones mencionadas previamente, se crearon los dataframe data_casas_clean y data_apartamentos_clean, y allí se almacenaron los datos obtenidos posterior al preprocesamiento de los mismos. A continuación se muestra un pequeño resúmen de cada uno de los dataset.

5.6.1 Resultados obtenidos en la base de datos de casas

##     preciom         areaconst      estrato  habitaciones     parqueaderos  
##  Min.   :  89.0   Min.   :  30.0   3:204   Min.   : 1.000   Min.   : 1.00  
##  1st Qu.: 240.0   1st Qu.: 137.5   4:123   1st Qu.: 3.000   1st Qu.: 1.00  
##  Median : 380.0   Median : 235.0   5:229   Median : 4.000   Median : 2.00  
##  Mean   : 427.9   Mean   : 259.5   6: 35   Mean   : 4.663   Mean   : 1.91  
##  3rd Qu.: 540.0   3rd Qu.: 336.0           3rd Qu.: 5.000   3rd Qu.: 2.00  
##  Max.   :1940.0   Max.   :1440.0           Max.   :10.000   Max.   :10.00  
##      banios      parqueaderos_imp
##  Min.   : 1.00   Mode :logical   
##  1st Qu.: 2.00   FALSE:390       
##  Median : 3.00   TRUE :201       
##  Mean   : 3.55                   
##  3rd Qu.: 4.00                   
##  Max.   :10.00

5.6.2 Resultados obtenidos en la base de datos de apartamentos

##     preciom         areaconst      estrato  habitaciones    parqueaderos  
##  Min.   :  75.0   Min.   : 40.00   3:184   Min.   :1.000   Min.   :1.000  
##  1st Qu.: 175.0   1st Qu.: 65.00   4:990   1st Qu.:3.000   1st Qu.:1.000  
##  Median : 245.0   Median : 85.00   5:959   Median :3.000   Median :1.000  
##  Mean   : 296.4   Mean   : 97.59   6:417   Mean   :2.973   Mean   :1.356  
##  3rd Qu.: 335.0   3rd Qu.:110.00           3rd Qu.:3.000   3rd Qu.:2.000  
##  Max.   :1750.0   Max.   :932.00           Max.   :6.000   Max.   :4.000  
##      banios      parqueaderos_imp
##  Min.   :1.000   Mode :logical   
##  1st Qu.:2.000   FALSE:2193      
##  Median :2.000   TRUE :357       
##  Mean   :2.494                   
##  3rd Qu.:3.000                   
##  Max.   :8.000

6 Análisis exploratorio

En esta etapa del proceso, se realizo un análisis exploratorio de datos centrado en la correlación entre el precio de las viviendas y varias características, como el área construida, el estrato, el número de baños, el número de habitaciones y la zona de ubicación. Se emplearon gráficos interactivos con el paquete plotly para una interpretación detallada de los resultados. A continuación, se presentan los resultados obtenidos.

6.1 Análisis de Variables Numéricas

Para el análisis de la correlación entre las variables numéricas, inicialmente se realizó una matriz de correlación para los conjuntos de datos de casas y apartamentos. Los heatmaps generados con plotly permitieron visualizar las relaciones entre el precio de las viviendas y variables como el área construida, el número de baños, habitaciones y parqueaderos. Adicionalmente, se crearon diagramas de dispersión con líneas de tendencia para cada variable numérica en relación con el precio. Estos gráficos interactivos, también elaborados con plotly, ofrecieron una representación visual clara de las relaciones lineales o no lineales entre el precio y variables como el área construida, el número de baños, el número de habitaciones y los parqueaderos.

6.1.1 Resultados obtenidos en la base de datos de casas

Conclusión: Los graficos realizados muestran que en el conjunto de datos de casas podría existir una relación lineal entre el precio y el área construida, así como entre el precio y el número de baños. El heatmap revela que las correlaciones entre estas variables son de 0.68 y 0.54, respectivamente. Estos hallazgos son corroborados por los diagramas de dispersión, que muestran una posible tendencia lineal en los datos. Esto sugiere que el área construida y el número de baños podrían influir en el precio de las viviendas.

6.1.2 Resultados obtenidos en la base de datos de apartamentos

Conclusión: En el caso del dataset de apartamentos, se observa una tendencia similar, con correlaciones más altas entre las variables. La correlación entre el precio y el área construida es de 0.75, y entre el precio y el número de baños es de 0.73. Además, se detecta una correlación notable entre el precio y el número de parqueaderos, con un valor de 0.75, lo que indica una posible relación lineal. Estos resultados también son respaldados por los diagramas de dispersión, que muestran una posible tendencia lineal en estos datos, sugiriendo que las características mencionadas podrían tener una influencia en el precio de los apartamentos.

6.2 Análisis de Variables Categóricas

En cuanto a las variables categóricas, se realizó un análisis ANOVA para evaluar el efecto del estrato en el precio de las viviendas, tanto en casas como en apartamentos. Los resultados del ANOVA identificaron si el estrato tenía un impacto significativo en los precios. Para complementar este análisis, se generaron boxplots interactivos que mostraron la distribución del precio según el estrato. A continuación se muestran los resultados obtenidos:

6.2.1 Resultados obtenidos en la base de datos de casas

##              Df   Sum Sq Mean Sq F value Pr(>F)    
## estrato       3 14420497 4806832   110.2 <2e-16 ***
## Residuals   587 25611077   43630                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Conclusión: El análisis ANOVA para el dataset de casas revela que la variable estrato es altamente significativa, con un valor p menor a 2e-16 y una estadística F de 110.2. Esto indica que el estrato tiene un impacto significativo en el precio de las casas, sugiriendo que existen diferencias sustanciales en los precios entre los diferentes estratos. Esta conclusión es corroborada por los boxplots construidos, que muestran una tendencia lineal creciente en el precio a medida que se aumenta el estrato. Los resultados del ANOVA son consistentes con la visualización de los boxplots, que refuerzan la presencia de una relación significativa entre el estrato y el precio.

6.2.2 Resultados obtenidos en la base de datos de apartamentos

##               Df   Sum Sq  Mean Sq F value Pr(>F)    
## estrato        3 49153796 16384599   963.2 <2e-16 ***
## Residuals   2546 43308274    17010                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Conclusión: En el dataset de apartamentos, el análisis ANOVA muestra que el estrato es igualmente significativo, con un valor p menor a 2e-16 y una estadística F de 963.2. Esto sugiere que el estrato también tiene un efecto considerable en los precios de los apartamentos, con diferencias notables entre los distintos estratos. Los boxplots construidos para este dataset muestran una tendencia lineal creciente en el precio con el aumento del estrato, corroborando así los resultados del ANOVA. Los boxplots refuerzan la evidencia de que el estrato afecta significativamente el precio, de acuerdo con los resultados estadísticos obtenidos.

7 Modelación

En esta etapa, se ajustaron modelos de regresión lineal para evaluar el impacto de las variables predictoras sobre el precio de las viviendas en los datasets de casas y apartamentos. En ambos casos, se consideraron las variables areaconst (área construida), estrato, habitaciones, parqueaderos y banios como predictores en el modelo de regresión lineal. Estos modelos permiten identificar las relaciones y la influencia de cada variable en el precio de las viviendas.

A continuación, se presentarán los resultados obtenidos para cada dataset, incluyendo un resumen del modelo ajustado y los coeficientes estimados.

7.0.1 Resultados obtenidos en la base de datos de casas

El modelo de regresión lineal ajustado para el dataset de casas proporciona información sobre cómo cada variable predictora influye en el precio de las viviendas. A continuación se presenta un análisis detallado de los resultados:

## 
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos + 
##     banios, data = data_casas)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -759.01  -70.05  -14.87   40.70 1000.15 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)    9.88597   29.04995   0.340   0.7338    
## areaconst      0.65604    0.05714  11.480  < 2e-16 ***
## estrato4      78.22125   26.27548   2.977   0.0031 ** 
## estrato5     143.11394   24.34022   5.880 8.97e-09 ***
## estrato6     265.12634   39.90018   6.645 1.05e-10 ***
## habitaciones   7.15024    6.19484   1.154   0.2491    
## parqueaderos  27.94967    6.13971   4.552 7.14e-06 ***
## banios        18.74554    8.47921   2.211   0.0276 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 155.8 on 382 degrees of freedom
##   (201 observations deleted due to missingness)
## Multiple R-squared:  0.6057, Adjusted R-squared:  0.5985 
## F-statistic: 83.84 on 7 and 382 DF,  p-value: < 2.2e-16

## # A tibble: 8 × 5
##   term         estimate std.error statistic  p.value
##   <chr>           <dbl>     <dbl>     <dbl>    <dbl>
## 1 (Intercept)     9.89    29.0        0.340 7.34e- 1
## 2 areaconst       0.656    0.0571    11.5   2.07e-26
## 3 estrato4       78.2     26.3        2.98  3.10e- 3
## 4 estrato5      143.      24.3        5.88  8.97e- 9
## 5 estrato6      265.      39.9        6.64  1.05e-10
## 6 habitaciones    7.15     6.19       1.15  2.49e- 1
## 7 parqueaderos   27.9      6.14       4.55  7.14e- 6
## 8 banios         18.7      8.48       2.21  2.76e- 2

Interpretación de los resultados obtenidos:

Área Construida (areaconst): El coeficiente estimado para el área construida es 0.656 con un valor p < 2e-16, lo que indica que esta variable tiene un efecto positivo y altamente significativo en el precio de la casa. Por cada unidad adicional en el área construida, se espera que el precio de la casa aumente en promedio 0.656 unidades, manteniendo constantes las demás variables.
Estrato (estrato): Los coeficientes para los estratos 4, 5 y 6 son significativamente diferentes de cero, con valores p de 0.0031, 8.97e-09 y 1.05e-10, respectivamente. Estos resultados sugieren que los estratos superiores están asociados con precios más altos. Específicamente:
- Estrato 4: Aumenta el precio en 78.22 unidades en comparación con el estrato base.
- Estrato 5: Aumenta el precio en 143.11 unidades.
- Estrato 6: Aumenta el precio en 265.13 unidades.
Esto indica que las casas en estratos más altos tienden a tener precios significativamente mayores.
Número de Habitaciones (habitaciones): El coeficiente para el número de habitaciones es 7.15, pero con un valor p de 0.2491, lo que indica que esta variable no es estadísticamente significativa en el modelo. Esto sugiere que el número de habitaciones no tiene una influencia significativa en el precio de las casas, al menos en el contexto del modelo ajustado.
Número de Parqueaderos (parqueaderos): El coeficiente para el número de parqueaderos es 27.95 con un valor p de 7.14e-06, indicando que es estadísticamente significativo. Esto implica que, en promedio, cada parqueadero adicional está asociado con un incremento de 27.95 unidades en el precio de la casa.
Número de Baños (banios): El coeficiente estimado para el número de baños es 18.75 con un valor p de 0.0276. Esto sugiere que cada baño adicional está asociado con un aumento promedio de 18.75 unidades en el precio de la casa, lo que indica una relación positiva y significativa.
R² Ajustado: El R² ajustado del modelo es 0.5985, lo que indica que aproximadamente el 60% de la variabilidad en el precio de las casas puede ser explicada por las variables incluidas en el modelo. Este valor sugiere que el modelo es relativamente bueno para predecir el precio, aunque hay espacio para mejorar.
Errores Residuales: El error estándar residual es de 155.8, lo que proporciona una medida de la dispersión de los errores de predicción del modelo.

En resumen, el análisis revela que el área construida, el estrato, el número de parqueaderos y el número de baños tienen un impacto significativo en el precio de las casas. Estos resultados son consistentes con la observación inicial de los gráficos interactivos realizados con Plotly, donde se evidenció una relación lineal creciente entre el precio y estas variables.

7.0.2 Resultados obtenidos en la base de datos de apartamentos

El modelo de regresión lineal ajustado para el dataset de apartamentos proporciona información valiosa sobre el impacto de diversas variables predictoras en el precio de los apartamentos. A continuación se presenta un análisis detallado de los resultados:

## 
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos + 
##     banios, data = data_apartamentos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -986.47  -40.57   -0.32   37.32  900.26 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -32.91496   13.59069  -2.422  0.01552 *  
## areaconst      1.20606    0.05254  22.956  < 2e-16 ***
## estrato4      30.62408    9.83109   3.115  0.00186 ** 
## estrato5      49.72514    9.89218   5.027 5.40e-07 ***
## estrato6     196.32714   11.56796  16.972  < 2e-16 ***
## habitaciones -17.28858    3.98984  -4.333 1.54e-05 ***
## parqueaderos  75.88290    4.52495  16.770  < 2e-16 ***
## banios        40.19756    3.44246  11.677  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 92.65 on 2185 degrees of freedom
##   (357 observations deleted due to missingness)
## Multiple R-squared:  0.7731, Adjusted R-squared:  0.7723 
## F-statistic:  1063 on 7 and 2185 DF,  p-value: < 2.2e-16

## # A tibble: 8 × 5
##   term         estimate std.error statistic   p.value
##   <chr>           <dbl>     <dbl>     <dbl>     <dbl>
## 1 (Intercept)    -32.9    13.6        -2.42 1.55e-  2
## 2 areaconst        1.21    0.0525     23.0  1.18e-104
## 3 estrato4        30.6     9.83        3.12 1.86e-  3
## 4 estrato5        49.7     9.89        5.03 5.40e-  7
## 5 estrato6       196.     11.6        17.0  8.79e- 61
## 6 habitaciones   -17.3     3.99       -4.33 1.54e-  5
## 7 parqueaderos    75.9     4.52       16.8  1.80e- 59
## 8 banios          40.2     3.44       11.7  1.33e- 30

Interpretación de los resultados obtenidos:

Área Construida (areaconst): El coeficiente estimado para el área construida es 1.206 con un valor p < 2e-16, lo que indica una influencia positiva y altamente significativa en el precio de los apartamentos. Por cada unidad adicional en el área construida, el precio de un apartamento se incrementa en promedio 1.206 unidades, manteniendo constantes las demás variables.
Estrato (estrato): Los coeficientes para los estratos 4, 5 y 6 son significativamente diferentes de cero, con valores p de 0.00186, 5.40e-07 y < 2e-16, respectivamente. Estos resultados sugieren que los estratos más altos están asociados con precios mayores. Específicamente:
- Estrato 4: Aumenta el precio en 30.62 unidades en comparación con el estrato base.
- Estrato 5: Aumenta el precio en 49.73 unidades.
- Estrato 6: Aumenta el precio en 196.33 unidades.
Esto indica que los apartamentos en estratos superiores tienen precios significativamente más altos.
Número de Habitaciones (habitaciones): El coeficiente para el número de habitaciones es -17.29 con un valor p de 1.54e-05. Aunque el coeficiente es negativo, su valor p indica que la variable es estadísticamente significativa. Esto sugiere que cada habitación adicional está asociada con una disminución en el precio del apartamento en promedio de 17.29 unidades. Esto podría indicar una relación inversa, que podría deberse a una variedad de factores contextuales que afectan el valor de los apartamentos.
Número de Parqueaderos (parqueaderos): El coeficiente para el número de parqueaderos es 75.88 con un valor p < 2e-16, lo que indica una influencia positiva y significativa en el precio de los apartamentos. Por cada parqueadero adicional, el precio del apartamento se incrementa en promedio 75.88 unidades.
Número de Baños (banios): El coeficiente estimado para el número de baños es 40.20 con un valor p < 2e-16, indicando que esta variable tiene una influencia positiva y altamente significativa en el precio. Cada baño adicional está asociado con un aumento de 40.20 unidades en el precio del apartamento.
R² Ajustado: El R² ajustado del modelo es 0.7723, lo que indica que aproximadamente el 77% de la variabilidad en el precio de los apartamentos puede ser explicada por las variables incluidas en el modelo. Este valor sugiere que el modelo proporciona una buena predicción del precio de los apartamentos.
Errores Residuales: El error estándar residual es de 92.65, lo que proporciona una medida de la dispersión de los errores de predicción del modelo.

En resumen, el análisis revela que el área construida, el estrato, el número de parqueaderos y el número de baños tienen un impacto significativo en el precio de los apartamentos, mientras que el número de habitaciones muestra una relación inversa. Estos resultados son consistentes con los gráficos interactivos realizados con Plotly, que evidenciaron relaciones lineales entre estas variables y el precio.

8 Validación de Supuestos

Para asegurar la validez y la robustez de los modelos de regresión lineal, es fundamental verificar que se cumplen ciertos supuestos. Estos supuestos son cruciales para que las inferencias realizadas a partir del modelo sean confiables. A continuación, se describe el proceso de validación de estos supuestos para los modelos de regresión ajustados para los datasets de casas y apartamentos.

8.1 Linealidad y Homoscedasticidad

La linealidad y homoscedasticidad son dos supuestos clave en la regresión lineal. La linealidad implica que la relación entre las variables independientes y la variable dependiente es lineal. La homoscedasticidad se refiere a la igualdad de las varianzas de los residuos a lo largo de todos los niveles de las variables independientes. Para evaluar la linealiadad y homoceasticidad se realizo el gráfico de residuos contra valores ajustados, y adicionalmentev para evaluar la homoscedasticidad, se utiliza la prueba de Breusch-Pagan. A continuación, se muestra el planteamiento de dicha prueba y los resultados obtenidos.

La hipótesis nula (\(H_0\)) de esta prueba es que la varianza de los errores es constante: \[ H_0: \text{Var}(\epsilon_i) = \sigma^2 \] y la hipótesis alternativa (\(H_1\)) es que la varianza de los errores no es constante: \[ H_1: \text{Var}(\epsilon_i) \neq \sigma^2 \]

## [1] "Prueba de Breusch-Pagan para el modelo de casas:"

## 
##  studentized Breusch-Pagan test
## 
## data:  modelo_casas
## BP = 68.919, df = 7, p-value = 2.443e-12

## [1] "Prueba de Breusch-Pagan para el modelo de apartamentos:"

## 
##  studentized Breusch-Pagan test
## 
## data:  modelo_apartamentos
## BP = 648.08, df = 7, p-value < 2.2e-16

Conclusión: Las pruebas de Breusch-Pagan revelan heterocedasticidad en los modelos de casas y apartamentos, con valores p extremadamente bajos (2.443e-12 y menor a 2.2e-16, respectivamente). Estos resultados indican que la variabilidad de los residuos no es constante a lo largo de los valores ajustados. Este hallazgo se corrobora con los gráficos de residuos vs. valores ajustados, que muestran una forma tipo cono, sugiriendo que la dispersión de los residuos aumenta con los valores ajustados.

Sugerencias: Para abordar la heterocedasticidad, se podrían considerar las siguientes acciones:

Transformaciones de Variables: Aplicar transformaciones a la variable respuesta o a las variables predictoras, como la transformación logarítmica o la raíz cuadrada, podría ayudar a estabilizar la variabilidad de los residuos.
Modelos Alternativos: Explorar modelos que permitan una variabilidad de los residuos que dependa de los valores ajustados, como los modelos de regresión ponderada o los modelos de heterocedasticidad condicional, podría ser beneficioso.

En cuanto al supuesto de linealidad, aunque el gráfico de residuos contra valores ajustados no muestra claramente una violación directa de la linealidad, la forma en cono observada puede indicar una posible relación no lineal entre las variables.

Sugerencias: Para abordar posibles problemas de linealidad, se recomienda:

Gráficos Adicionales: Revisar gráficos de residuos contra las variables predictoras individuales para identificar patrones no lineales.
Transformaciones y Modelos No Lineales: Considerar la aplicación de transformaciones a las variables predictoras o explorar modelos no lineales, como los modelos polinómicos o de regresión spline, para capturar mejor la relación entre las variables.

Estas acciones pueden ayudar a mejorar la modelización de los datos y cumplir mejor con los supuestos de la regresión lineal.

8.2 Independencia de los Errores

El supuesto de independencia de los errores establece que los errores del modelo deben ser independientes entre sí. La presencia de autocorrelación en los errores puede indicar que el modelo no está capturando adecuadamente la estructura de los datos, lo que puede afectar la validez de las inferencias realizadas. Para evaluar el cumplimiento de este supuesto se realizo el gráfico de residuos vs orden, y adicionalmentev se utilizo la prueba de hipotesis Durbin-Watson. A continuación, se muestra el planteamiento de dicha prueba y los resultados obtenidos.

Independencia de Errores: La prueba Durbin-Watson evalúa la autocorrelación en los residuos. La hipótesis nula (\(H_0\)) es que los residuos son independientes: \[ H_0: \text{Errores son independientes} \] y la hipótesis alternativa (\(H_1\)) es que existe autocorrelación en los residuos: \[ H_1: \text{Errores están correlacionados} \]

## 
##  Durbin-Watson test
## 
## data:  modelo_casas
## DW = 1.7605, p-value = 0.006841
## alternative hypothesis: true autocorrelation is greater than 0

## 
##  Durbin-Watson test
## 
## data:  modelo_apartamentos
## DW = 1.6796, p-value = 2.174e-14
## alternative hypothesis: true autocorrelation is greater than 0

Conclusión sobre Independencia de los Errores

Los resultados de la prueba Durbin-Watson para ambos modelos sugieren la presencia de autocorrelación en los errores. Para el modelo de casas, el valor de Durbin-Watson es 1.7605 con un valor p de 0.006841, y para el modelo de apartamentos, el valor es 1.6796 con un valor p de 2.174e-14. Estos resultados indican que los errores podrían estar correlacionados entre sí, ya que los valores p son inferiores a 0.05, lo que sugiere que la hipótesis alternativa de autocorrelación verdadera es plausible.

En cuanto a los gráficos de residuos versus orden, se observa una pequeña tendencia de agrupamiento en ciertos intervalos, especialmente en el gráfico para apartamentos. Aunque la dispersión de los residuos se distribuye alrededor de 0 y se muestra una cierta uniformidad, el agrupamiento en intervalos sugiere una posible correlación en los errores. En el gráfico de casas, la distribución alrededor de 0 es menos uniforme, lo que refuerza la sospecha de autocorrelación.

Sugerencias:

Dado que los datos no tienen una estructura temporal, la autocorrelación puede ser el resultado de otras formas de estructura no modeladas adecuadamente. Aunque los datos no tienen una estructura temporal explícita, es importante considerar las siguientes acciones:

Incluir Variables Relevantes: Considerar la inclusión de variables adicionales que podrían capturar la variabilidad en los datos y reducir la autocorrelación en los errores.
Transformaciones de Datos: Aplicar transformaciones a las variables o al modelo podría ayudar a mitigar la autocorrelación en los errores.

Estas acciones pueden ayudar a mejorar la precisión del modelo y a abordar posibles problemas de autocorrelación en los errores.

8.3 Normalidad

El supuesto de normalidad de los errores establece que los residuos del modelo deben seguir una distribución normal. Este supuesto es importante para la validez de los intervalos de confianza y las pruebas de hipótesis basadas en el modelo. Para evaluar el cumplimiento de este supuesto se realizo el gráfico Q-Q Plot, y adicionalmente se utilizo la prueba de hipotesis Shapiro-Wilk. A continuación, se muestra el planteamiento de dicha prueba y los resultados obtenidos.

Normalidad de los Errores: La prueba de normalidad de Shapiro-Wilk evalúa si los residuos siguen una distribución normal. La hipótesis nula (\(H_0\)) es que los residuos son normales: \[ H_0: \text{Residuos siguen una distribución normal} \] y la hipótesis alternativa (\(H_1\)) es que los residuos no siguen una distribución normal: \[ H_1: \text{Residuos no siguen una distribución normal} \]

## 
##  Shapiro-Wilk normality test
## 
## data:  residuos_casas
## W = 0.83179, p-value < 2.2e-16

## 
##  Shapiro-Wilk normality test
## 
## data:  residuos_apartamentos
## W = 0.78343, p-value < 2.2e-16

Conclusión sobre Normalidad

Los resultados de las pruebas de Shapiro-Wilk para los residuos de los modelos muestran valores de W de 0.83179 para el modelo de casas y 0.78343 para el modelo de apartamentos, ambos con valores p extremadamente bajos (< 2.2e-16). Estos resultados indican que los residuos de ambos modelos no siguen una distribución normal, ya que los valores p son significativamente menores que el umbral común de 0.05.

El análisis gráfico adicional mediante Q-Q plots también respalda esta conclusión, mostrando un desvío considerable en las colas de la distribución de residuos en ambos modelos. Esto sugiere que, además de los resultados de las pruebas estadísticas, los residuos presentan una desviación de la normalidad en sus extremos.

La desviación de la normalidad en los residuos puede afectar la validez de las inferencias y los intervalos de confianza generados por los modelos. Aunque la distribución de los residuos no se ajusta a la normalidad, es importante considerar que la normalidad de los residuos es una suposición menos crítica en comparación con otros supuestos, especialmente en grandes muestras donde el Teorema Central del Límite puede ayudar a aproximar la normalidad.

Sugerencias:

Transformaciones de Datos: Aplicar transformaciones a las variables dependientes o independientes puede ayudar a mejorar la distribución de los residuos hacia la normalidad.
Modelos Alternativos: Considerar el uso de modelos robustos o técnicas que no requieran la normalidad de los residuos, como modelos de regresión robusta o métodos de remuestreo.

Estas acciones pueden ayudar a abordar las desviaciones de la normalidad en los residuos y mejorar la robustez de las inferencias realizadas a partir del modelo.

8.4 Multicolinealidad

La multicolinealidad se refiere a la situación en la que dos o más variables independientes en un modelo de regresión múltiple están altamente correlacionadas entre sí. Esto puede afectar la estabilidad y la interpretación de los coeficientes del modelo, haciendo que sea difícil determinar el efecto individual de cada variable independiente. Para verificar la presencia de multicolinealidad, se calcula el Factor de Inflación de la Varianza (VIF), a continuación se presentan los resultados y las conclusiones a las que se llegarón al validar este supuesto:

Cálculo de VIF: El VIF se calcula para cada variable independiente en el modelo. Un VIF alto indica que la variable independiente está altamente correlacionada con otras variables en el modelo. Generalmente, se considera que un VIF superior a 10 (o en algunos casos, superior a 5) sugiere la presencia de multicolinealidad significativa.

## [1] "VIF para el modelo de casas:"

##                  GVIF Df GVIF^(1/(2*Df))
## areaconst    1.546952  1        1.243765
## estrato      1.444681  3        1.063234
## habitaciones 1.819574  1        1.348916
## parqueaderos 1.236808  1        1.112119
## banios       2.203168  1        1.484307

## [1] "VIF para el modelo de apartamentos:"

##                  GVIF Df GVIF^(1/(2*Df))
## areaconst    2.068296  1        1.438157
## estrato      1.727363  3        1.095378
## habitaciones 1.466906  1        1.211159
## parqueaderos 2.033662  1        1.426065
## banios       2.658422  1        1.630467

Conclusión sobre Multicolinealidad

Los valores del Factor de Inflación de la Varianza (VIF) obtenidos para los modelos de casas y apartamentos indican que ninguno de los VIF supera el umbral crítico comúnmente aceptado de 10. Los VIF más altos observados son 1.484 para el modelo de casas y 1.630 para el modelo de apartamentos. Estos resultados sugieren que no hay evidencia significativa de multicolinealidad en los modelos analizados.

Sugerencias:

Revisión Continua: Aunque los VIF están dentro de un rango aceptable, es recomendable revisar periódicamente la estructura del modelo para asegurar que las variables independientes no se vuelvan problemáticas a medida que se agregan o modifican variables en el futuro.
Exploración de Interacciones: Se recomienda explorar posibles interacciones entre las variables para asegurar que el modelo captura adecuadamente las relaciones complejas sin introducir multicolinealidad.
Reevaluar el Modelo: Es necesario mantener un monitoreo continuo de la estabilidad del modelo y evaluar si el modelo se ajusta bien a medida que se incorporan nuevos datos o se realizan cambios en las variables.

Estas acciones ayudarán a asegurar la robustez y la interpretación válida del modelo de regresión al manejar posibles problemas de multicolinealidad.

9 Análisis de rendimiento del modelo

Para evaluar el rendimiento de los modelos de regresión para casas y apartamentos, se realizó una partición aleatoria de los datos en conjuntos de entrenamiento y prueba, donde el 70% de los datos se utilizaron para entrenar el modelo y el 30% restante para evaluar su desempeño.

Primero, los datos de casas se dividieron en conjuntos de entrenamiento y prueba usando la función createDataPartition del paquete caret. Posteriormente, se entrenó el modelo de regresión con el 70% de los datos y se realizaron predicciones sobre el 30% de los datos de prueba. Se calcularon las siguientes métricas de rendimiento:

Error Cuadrático Medio (MSE): El promedio de los cuadrados de las diferencias entre las predicciones y los valores reales. Proporciona una medida de la magnitud del error.
Raíz del Error Cuadrático Medio (RMSE): La raíz cuadrada del MSE, que da una medida del error en las mismas unidades que la variable dependiente.
Error Absoluto Medio (MAE): El promedio de las diferencias absolutas entre las predicciones y los valores reales. Ofrece una medida directa del error promedio.
R^2: El coeficiente de determinación, que indica la proporción de la variabilidad en la variable dependiente que es explicada por el modelo.

De manera similar, se realizó la partición de los datos de apartamentos, se entrenó el modelo y se evaluó utilizando el 30% de los datos de prueba. Se calcularon las mismas métricas para este modelo. A continuación se presentan los resultados obtenidos:

## Rendimiento del modelo de casas:

## Error Cuadrático Medio (MSE): 19895.77

## Raíz del Error Cuadrático Medio (RMSE): 141.0524

## Error Absoluto Medio (MAE): 88.30225

## R^2: 0.6490104

## Rendimiento del modelo de apartamentos:

## Error Cuadrático Medio (MSE): 7574.11

## Raíz del Error Cuadrático Medio (RMSE): 87.02936

## Error Absoluto Medio (MAE): 52.8636

## R^2: 0.8016079

Interpretación de los resultados:

Modelo de Casas

Los resultados obtenidos para el modelo de casas son los siguientes:

Error Cuadrático Medio (MSE): 19895.77
Raíz del Error Cuadrático Medio (RMSE): 141.0524
Error Absoluto Medio (MAE): 88.30225
R^2: 0.6490104

El Error Cuadrático Medio (MSE) de 19895.77 indica que, en promedio, el cuadrado de las diferencias entre las predicciones y los valores reales es relativamente alto, lo que sugiere que el modelo tiene una cantidad significativa de error. La Raíz del Error Cuadrático Medio (RMSE) de 141.0524 muestra que el error promedio en las predicciones, en las mismas unidades que el precio de la propiedad, es considerable. El Error Absoluto Medio (MAE) de 88.30225 indica que el error promedio absoluto de las predicciones es de aproximadamente 88.30 unidades monetarias. Finalmente, el valor de R^2 de 0.6490104 sugiere que el modelo explica aproximadamente el 64.9% de la variabilidad en los precios de las casas. Aunque este valor indica un ajuste razonable, aún queda un 35.1% de variabilidad no explicada por el modelo.

Modelo de Apartamentos

Para el modelo de apartamentos, los resultados son los siguientes:

Error Cuadrático Medio (MSE): 7574.11
Raíz del Error Cuadrático Medio (RMSE): 87.02936
Error Absoluto Medio (MAE): 52.8636
R^2: 0.8016079

El Error Cuadrático Medio (MSE) de 7574.11 es significativamente más bajo que el del modelo de casas, lo que indica que el modelo de apartamentos tiene menos error cuadrático en promedio. La Raíz del Error Cuadrático Medio (RMSE) de 87.02936 es también más baja, sugiriendo que las predicciones del modelo son más precisas en términos absolutos. El Error Absoluto Medio (MAE) de 52.8636 muestra que el error promedio absoluto es de aproximadamente 52.86 unidades monetarias, lo cual es menor que en el modelo de casas, indicando mejores predicciones. El valor de R^2 de 0.8016079 sugiere que el modelo explica aproximadamente el 80.2% de la variabilidad en los precios de los apartamentos, lo que indica un ajuste superior al del modelo de casas, con un 19.8% de variabilidad no explicada.

Conclusión

En resumen, el modelo de apartamentos tiene un mejor desempeño en comparación con el modelo de casas en términos de precisión y capacidad explicativa, como lo reflejan los valores más bajos de MSE, RMSE y MAE, así como un mayor valor de R^2. Estos resultados sugieren que el modelo de apartamentos es más efectivo para predecir los precios de los apartamentos en comparación con el modelo de casas. Sin embargo, ambos modelos podrían beneficiarse de ajustes adicionales para mejorar la precisión de las predicciones y explicar una mayor proporción de la variabilidad en los precios.

10 Predicciones

10.1 Predicciones usando los datos de prueba

Para realizar las predicciones, se utilizó el modelo de regresión lineal ajustado previamente para los conjuntos de datos de casas y apartamentos. Se partieron los datos en un conjunto de prueba (30%) para evaluar las predicciones de dicho modelo.

Modelo de Casas

Partición de Datos: Se dividió el conjunto de datos de casas en un 70% para entrenamiento y un 30% para prueba. Esta partición garantiza que las predicciones se realicen sobre datos que no fueron utilizados durante el entrenamiento del modelo.
Realización de Predicciones: Usando el modelo de casas, se generaron predicciones para el conjunto de prueba. Las primeras predicciones se muestran a continuación:

##        2        3        4        5        7       10 
## 535.8804 229.6929 194.2473 330.9779 413.5258 542.2423

Modelo de Apartamentos

Partición de Datos: De manera similar, se dividió el conjunto de datos de apartamentos en un 70% para entrenamiento y un 30% para prueba.
Realización de Predicciones: Se generaron predicciones para el conjunto de prueba usando el modelo de apartamentos. Las primeras predicciones se presentan a continuación:

##         1         2         3         4         8        12 
##  96.83074 212.60635 125.37244 192.57590 326.15378 422.22769

10.2 Predicciones para sugerir potenciales ofertas

Con base en las predicciones realizadas y el presupuesto disponible de hasta 350 millones de pesos, se ha llevado a cabo un análisis para identificar ofertas potenciales que se ajusten a este límite. A continuación, se detallan los pasos para seleccionar y analizar las ofertas:

Filtrado de Ofertas: Se seleccionaron las propiedades cuyas predicciones de precio están por debajo o son iguales a los 350 millones de pesos. Este filtro asegura que las ofertas sean viables dentro del presupuesto disponible.
Visualización en Mapa: Las ofertas que cumplen con el criterio de precio se visualizarán en un mapa para facilitar la evaluación. Esto permitirá identificar ubicaciones específicas y comparar las propiedades en función de su precio y características.
- Datos para el Mapa: Los datos a incluir en el mapa deberían contener la ubicación geográfica de las propiedades (latitud y longitud) y el precio predicho.
- Generación del Mapa: Usar herramientas de visualización geográfica para crear un mapa interactivo que muestre las ofertas potenciales. Esto ayudará a analizar la distribución geográfica de las propiedades y tomar decisiones informadas sobre las opciones disponibles.

10.2.1 Resultados para casas

##        1        2 
## 313.3562 378.2489

## # A tibble: 1 × 6
##   preciom areaconst parqueaderos banios habitaciones estrato
##     <dbl>     <dbl>        <dbl>  <dbl>        <dbl>   <dbl>
## 1     350       346            1      2            4       5

10.2.2 Resultados para apartamentos

##        1        2 
## 640.4267 787.0287

## # A tibble: 2 × 6
##   preciom areaconst parqueaderos banios habitaciones estrato
##     <dbl>     <dbl>        <dbl>  <dbl>        <dbl>   <dbl>
## 1     299       932            1      3            3       5
## 2     850       352            4      3            3       6

Conclusión

En el análisis de las ofertas:

Casas: Solo se encontró una vivienda que cumplía con la totalidad de los criterios buscados por María, la agente inmobiliaria. Esta vivienda se ajusta completamente a las especificaciones y presupuesto establecidos.
Apartamentos: Se identificaron dos viviendas que cumplen parcialmente con algunas de las condiciones buscadas. Sin embargo, no se encontró ninguna vivienda tipo apartamento que cumpliera con todas las condiciones simultáneamente.

11 Conclusiones

Eficiencia de los Modelos Predictivos
Los modelos desarrollados para predecir los precios de casas y apartamentos han demostrado ser útiles para identificar propiedades que cumplen con las características solicitadas. Sin embargo, los resultados muestran que el modelo para apartamentos tiene un mejor rendimiento en términos de ajuste y precisión comparado con el modelo para casas. Esto sugiere que los criterios específicos para apartamentos están mejor representados en los datos disponibles.
Cumplimiento de Requisitos
Al analizar las predicciones basadas en las solicitudes de las viviendas, se encontró que solo una casa cumplía con todos los requisitos establecidos por María. En el caso de los apartamentos, se identificaron dos opciones que cumplen parcialmente con algunas de las condiciones, pero ninguna que satisfaga todos los criterios simultáneamente. Esto indica una limitación en la oferta disponible que podría requerir ajustes en los requisitos o ampliación de la búsqueda.
Consideraciones sobre Supuestos del Modelo
La validación de los modelos reveló que algunos supuestos estadísticos, como la normalidad de los errores y la homoscedasticidad, no se cumplieron completamente. Esto puede afectar la precisión de las predicciones. Aunque no se realizaron correcciones detalladas, es recomendable considerar ajustes en el modelo para mejorar su robustez y precisión futura.
Recomendaciones Basadas en el Crédito Pre-Aprobado
Para la solicitud de casas con un crédito pre-aprobado de 350 millones de pesos, se encontró una opción adecuada. En cambio, para los apartamentos con un crédito de 850 millones de pesos, se presentaron dos posibles ofertas que cumplen parcialmente con los requisitos. Se sugiere que se revisen las ofertas parciales y se consideren ajustes en los criterios de selección o en el presupuesto para ampliar las opciones disponibles.
Plan de Acción
Dado el análisis realizado, se recomienda a María considerar la posibilidad de ajustar los requisitos de búsqueda para encontrar opciones que se alineen mejor con las expectativas del cliente. Además, se debe seguir monitoreando el mercado y considerar posibles cambios en la estrategia de búsqueda para mejorar las posibilidades de encontrar propiedades que cumplan con todos los criterios solicitados.

Actividad Unidad 2: Evaluación de la oferta inmobiliaria urbana en Cali

Autor: Obed Garcia Quiroz

02/09/2024 Contenido

1 Introducción

2 Objetivo General

2.1 Objetivos Específicos

3 Metodología

4 Cargue de los datos

5 Preprocesamiento de los datos

5.1 Eliminación de variables innecesarias para el análisis

5.1.1 Resultados obtenidos en la base de datos de apartamentos

5.1.2 Resultados obtenidos en la base de datos de apartamentos

5.2 Conversión de tipos de datos

5.2.1 Resultados obtenidos en la base de datos de casas

5.2.2 Resultados obtenidos en la base de datos de apartamentos

5.3 Tratamiento de valores nulos

5.3.1 Resultados obtenidos en la base de datos de casas

5.3.2 Resultados obtenidos en la base de datos de apartamentos

5.4 Tratamiento de outliers

5.4.1 Resultados obtenidos en la base de datos de casas

5.4.2 Resultados obtenidos en la base de datos de apartamentos

5.5 Tratamiento de valores faltantes (NA)

5.5.1 Resultados obtenidos en la base de datos de casas

5.5.2 Resultados obtenidos en la base de datos de apartamentos

5.6 Definiendo dataset limpio

5.6.1 Resultados obtenidos en la base de datos de casas

5.6.2 Resultados obtenidos en la base de datos de apartamentos

6 Análisis exploratorio

6.1 Análisis de Variables Numéricas

6.1.1 Resultados obtenidos en la base de datos de casas

6.1.2 Resultados obtenidos en la base de datos de apartamentos

6.2 Análisis de Variables Categóricas

6.2.1 Resultados obtenidos en la base de datos de casas

6.2.2 Resultados obtenidos en la base de datos de apartamentos

7 Modelación

7.0.1 Resultados obtenidos en la base de datos de casas

7.0.2 Resultados obtenidos en la base de datos de apartamentos

8 Validación de Supuestos

8.1 Linealidad y Homoscedasticidad

8.2 Independencia de los Errores

8.3 Normalidad

8.4 Multicolinealidad

9 Análisis de rendimiento del modelo

10 Predicciones

10.1 Predicciones usando los datos de prueba

10.2 Predicciones para sugerir potenciales ofertas

10.2.1 Resultados para casas

10.2.2 Resultados para apartamentos

11 Conclusiones

Autor:
Obed Garcia Quiroz

02/09/2024

Contenido