A continuación se procede a efectuar el desarrollo de la actividad 2 a partir de la solución de 7 preguntas asociadas con el precio de viviendas tipo casa ubicadas en la ciudad de Santiago de Cali


PREPROCESAMIENTO DE LA BASE DE DATOS

##        id           zona               piso              estrato     
##  Min.   :   1   Length:8322        Length:8322        Min.   :3.000  
##  1st Qu.:2080   Class :character   Class :character   1st Qu.:4.000  
##  Median :4160   Mode  :character   Mode  :character   Median :5.000  
##  Mean   :4160                                         Mean   :4.634  
##  3rd Qu.:6240                                         3rd Qu.:5.000  
##  Max.   :8319                                         Max.   :6.000  
##  NA's   :3                                            NA's   :3      
##     preciom         areaconst       parqueaderos        banios      
##  Min.   :  58.0   Min.   :  30.0   Min.   : 1.000   Min.   : 0.000  
##  1st Qu.: 220.0   1st Qu.:  80.0   1st Qu.: 1.000   1st Qu.: 2.000  
##  Median : 330.0   Median : 123.0   Median : 2.000   Median : 3.000  
##  Mean   : 433.9   Mean   : 174.9   Mean   : 1.835   Mean   : 3.111  
##  3rd Qu.: 540.0   3rd Qu.: 229.0   3rd Qu.: 2.000   3rd Qu.: 4.000  
##  Max.   :1999.0   Max.   :1745.0   Max.   :10.000   Max.   :10.000  
##  NA's   :2        NA's   :3        NA's   :1605     NA's   :3       
##   habitaciones        tipo              barrio             longitud     
##  Min.   : 0.000   Length:8322        Length:8322        Min.   :-76.59  
##  1st Qu.: 3.000   Class :character   Class :character   1st Qu.:-76.54  
##  Median : 3.000   Mode  :character   Mode  :character   Median :-76.53  
##  Mean   : 3.605                                         Mean   :-76.53  
##  3rd Qu.: 4.000                                         3rd Qu.:-76.52  
##  Max.   :10.000                                         Max.   :-76.46  
##  NA's   :3                                              NA's   :3       
##     latitud     
##  Min.   :3.333  
##  1st Qu.:3.381  
##  Median :3.416  
##  Mean   :3.418  
##  3rd Qu.:3.452  
##  Max.   :3.498  
##  NA's   :3

De acuerdo con lo anterior, se observa un total de 13 variables. De estas, 9 son de tipo numérico y 4 de tipo categórico. Por otra parte, existen irregularidades asociadas con las variables piso, baños y habitaciones. En este sentido, piso presenta un tipo categórico lo cual no es correcto, ya que se evidencian valores numéricos. Las variables baños y habitaciones presentan un valor mínimo de 0 lo que plantea un error ya que es poco probable que una vivienda no cuente con habitaciones y baños. Por estas razones, se debe realizar un proceso que corrija estas inconsistencias. Se debe convertir la variable piso a numérica, y a las variables baños y habitaciones se les debe asignar un valor mínimo superior a 0, 1 según el caso. Finalmente, se toma la decisión de eliminar a la variable id ya que no representa interés para el DataSet.


De acuerdo con el gráfico, se observa que las variables estrato y banios tienen una gran cantidad de datos faltantes por lo que debe realizarse un proceso de imputación. Con lo relacionado a las variables numéricas, la imputación se hará a partir de la media; mientras en el caso de las variables categóricas el proceso de imputación se realizará por medio de la moda. En términos generales, los valores nulos de las variables numéricas se reemplazarán por la media; mientra los valores faltantes de las variables categóricas se reemplazarán a través de la moda.

El gráfico muestra la Base de Datos depurada y limpia. Con base en esto, la actividad se abordará a través de 12 variables: 9 numéricas y 3 categóricas.

CASA

Primera pregunta.

Realice un filtro a la base de datos e incluya solo las ofertas de casas, de la zona norte de la ciudad. Presente los primeros 3 registros de las bases y algunas tablas que comprueben la consulta. (Adicional un mapa con los puntos de las bases. Discutir si todos los puntos se ubican en la zona correspondiente o se presentan valores en otras zonas, por que?).

Con base en el filtro, se creó una nueva Base de datos compuesta por 12 variables y 722 registros de viviendas ubicadas en la Zona Norte.

zona piso estrato preciom areaconst parqueaderos banios habitaciones tipo barrio longitud latitud
Zona Norte 2 5 320 150 2.000000 4 6 Casa acopi -76.51341 3.47968
Zona Norte 2 5 780 380 2.000000 3 3 Casa acopi -76.51674 3.48721
Zona Norte 2 6 750 445 1.835194 7 6 Casa acopi -76.52950 3.38527
Zona Norte 2 4 625 355 3.000000 5 5 Casa acopi -76.53179 3.40590
Zona Norte 2 5 750 237 2.000000 6 6 Casa acopi -76.54044 3.36862
Zona Norte 2 4 600 160 1.000000 4 5 Casa acopi -76.55210 3.42125

En esta table se muestran registros que muestran características de la base de datos filtrada.

El mapa muestra la distribución de viviendas en la ciudad de Santiago de Cali. A partir de esto, la gran mayoría se encuentran, efectivamente, en la Zona Norte. Sin embargo, hay viviendas en la Zona Sur y en la parte central de la ciudad. Este hecho puede se originado por errores en la conformación de la base de datos, posiblemente dentro de las variables de longitud y latitud. Por otra parte, es común que la delimitación de zonas urbanas esté dada por la nomenclatura de las direcciones, lo que puede no concordad con georreferencias como la latitud y longitud.


Segunda pregunta:

Realice un análisis exploratorio de datos enfocado en la correlación entre la variable respuesta (precio de la casa) en función del área construida, estrato, numero de baños, numero de habitaciones y zona donde se ubica la vivienda. Use gráficos interactivos con el paquete plotly e interprete los resultados.

##                preciom areaconst   estrato    banios habitaciones
## preciom      1.0000000 0.7313480 0.6123503 0.5379294    0.3375565
## areaconst    0.7313480 1.0000000 0.4573818 0.4786616    0.3947975
## estrato      0.6123503 0.4573818 1.0000000 0.4159623    0.1070555
## banios       0.5379294 0.4786616 0.4159623 1.0000000    0.5804741
## habitaciones 0.3375565 0.3947975 0.1070555 0.5804741    1.0000000

De acuerdo con la matriz de correlaciones puede observarse lo siguiente:

Área Construida: La correlación entre el precio de la casa y el área construida es de 0.73. Esto indica una fuerte relación positiva, lo cual significa que a medida que el área construida de una casa aumenta, su precio también tiende a aumentar. Es la relación más fuerte observada lo que sugiere que el tamaño de la casa es un factor determinante a la hora de establecer el precio de una casa en la ciudad de Cali.

Estrato: La correlación entre el precio de la casa y el estrato es de 0.61. Esta es una relación positiva moderadamente fuerte, indicando que las casas ubicadas en estratos más altos generalmente tienen precios más altos. El estrato puede reflejar la calidad del vecindario, los servicios disponibles y otros factores socioeconómicos que influyen en el valor de la propiedad.

Número de baños: La correlación entre el precio de la casa y el número de baños es de 0.54. Esta relación positiva moderada sugiere que a mayor número de baños en una casa, mayor será su precio. Esto puede reflejar la demanda de casas más grandes con más comodidades, lo cual aumenta su valor.

Número de habitaciones: La correlación entre el precio de la casa y el número de habitaciones es de 0.34. Esta es una relación positiva más débil en comparación con las otras variables. Aunque existe una tendencia a que las casas con más habitaciones tengan precios más altos, esta relación no es tan fuerte como las observadas con el área construida, el estrato o el número de baños. Esto podría indicar que, aunque el tamaño y la capacidad de alojamiento de una casa importan, otros factores como su ubicación (estrato) y tamaño total (área construida) tienen un impacto mayor en el precio.

En resumen, estos resultados muestran que el tamaño de la casa (área construida), su ubicación (estrato) y la comodidad (número de baños) son los factores más determinantes en el precio de una casa y, en menor medida, el número de habitaciones. Esto subraya la importancia de estas características al evaluar el valor de una propiedad en el mercado inmobiliario de Cali.

El gráfico muestra un mapa de calor frente a la correlación de la variable precio en función del área construida, número de baños, estrato y número de habitaciones.


En el gráfico se observa una gran cantidad de puntos azules que representan las viviendas tipo casa ubicadas en la zona norte de la ciudad de Santiago de Cali. Existe un concentración fuerte de puntos en la parte inferior izquierda lo que muestra la existencia de muchas casas con precios bajos asociadas con áreas de construcción pequeñas. No obstante, la relación entre las casas y el área construida no presenta un comportamiento lineal perfecto debido a la dispersión considerable de puntos (casas) en grandes áreas construidas. En términos generales, el gráfico muestra una relación positiva entre el precio de una casa y el área construida, sin embargo, también indica que hay variabilidad significativa de los precios lo que no puede explicarse únicamente por el tamaño de las casas.

El gráfico muestra la existencia de una tendencia general de que a medida que aumenta el número de baños, también lo hace el rango de precios de las viviendas, especialmente a partir de 4 baños en adelante. De acuerdo con esto, las casas con más baños tienden a ser más caras lo cual establece una asociación positiva. Por otra parte, la variabilidad en los precios también aumenta con el número de baños como puede evidenciarse en la altura de las cajas y en la longitud de los bigotes. Por otro lado, hay una gran cantidad de valores atípicos lo que podría asociarse a la gama de precios del mercado inmobiliario de la ciudad de Cali. En términos generales, existe una relación positiva entre el número de baños en una casa y su precio. La presencia de valores atípicos en todas las categorías indica que hay casas que son excepcionalmente más caras que otras con la misma categoría de baños.

En el gráfico se observa que los estratos más bajos (el tres, por ejemplo) tienen precios más bajos y menor variabilidad si se compara con los estratos más altos. Los estratos más altos tienen una mediana de precio más alta y con mayor dispersión de precios lo cual se evidencia en la forma de grande de las cajas y en la longitud de los bigotes. Por otro lado, hay una cantidad significativa de valores atípicos en todos los estratos, especialmente en los altos lo que indica la existencia de casas más caras que la mayoría de ese estrato. El estrato seis presenta las casas más caras y la mayor variabilidad de precios.

El gráfico muestra como la mediana del precio tiene a aumentar a medida que incrementa el número de habitaciones. Esto plantea que las casas con más habitaciones tienden a ser más caras. Sin embargo, esta tendencia no es estrictamente lineal ni uniforme. Las casas con 1 y 2 habitaciones muestran una distribución de precios más compacta en comparación con las casas con más habitaciones. En la casas con 7 habitaciones en adelante, la mediana del precio tiende a estabilizarse e inclusive disminuye ligeramente lo que sugiere que el número de habitaciones deja de ser un factor muy determinante en el precio de las casas ubicadas en el norte de la ciudad.

## [1] 722


Tercera pregunta:

Estime un modelo de regresión lineal múltiple con las variables del punto anterior (precio = f(área construida, estrato, número de cuartos, número de parqueaderos, número de baños )) e interprete los coeficientes si son estadísticamente significativos. Las interpretaciones deber están contextualizadas y discutir si los resultados son lógicos. Adicionalmente interprete el coeficiente R2 y discuta el ajuste del modelo e implicaciones (que podrían hacer para mejorarlo).

## 
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos + 
##     banios, data = base2)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -922.92  -78.03  -17.41   46.23 1082.95 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -250.30765   30.31024  -8.258 7.13e-16 ***
## areaconst       0.80343    0.04392  18.293  < 2e-16 ***
## estrato        84.14005    7.21437  11.663  < 2e-16 ***
## habitaciones    1.43882    4.29238   0.335    0.738    
## parqueaderos   14.50682    5.69271   2.548    0.011 *  
## banios         26.24530    5.51074   4.763 2.31e-06 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 158.1 on 716 degrees of freedom
## Multiple R-squared:  0.6552, Adjusted R-squared:  0.6528 
## F-statistic: 272.1 on 5 and 716 DF,  p-value: < 2.2e-16

De acuerdo con los resultados obtenidos por el modelo de Regresión Lineal Múltiple, se observa que los coeficientes representan el cambio de la variable precio por cada unidad de cambio en cada una de las variables por separado. Por otra parte, el R cuadrado adquiere un valor de 0.6552 lo que indica que aproximadamente el 65% de la variabilidad en el precio de las casas ubicadas en la Zona Norte de la Ciudad de Cali, puede ser explicada por la variables asociadas con el área construida, el estrato, el número de habitaciones, baños y parqueaderos. Por lo tanto, este modelo parece ser estadísticamente significativo a la hora de predecir el precio de las casas en función de las variables previamente descritas. No obstante, puede mejorarse.

## 
## Call:
## lm(formula = log_preciom ~ log_areaconst + estrato + habitaciones + 
##     parqueaderos + banios, data = base2)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.75974 -0.18199 -0.01387  0.15344  1.07319 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   2.251762   0.092382  24.374  < 2e-16 ***
## log_areaconst 0.474703   0.021920  21.657  < 2e-16 ***
## estrato       0.198864   0.012850  15.476  < 2e-16 ***
## habitaciones  0.006334   0.007299   0.868   0.3859    
## parqueaderos  0.022220   0.009669   2.298   0.0218 *  
## banios        0.060833   0.009444   6.441 2.17e-10 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.2689 on 716 degrees of freedom
## Multiple R-squared:  0.777,  Adjusted R-squared:  0.7755 
## F-statistic:   499 on 5 and 716 DF,  p-value: < 2.2e-16

Para mejorar el modelo se aplicó una transformación logarítmica a las variables precio y área construida. Por medio de esta transformación se busca manejar las situaciones de heterocedasticidad y manejar las relaciones no lineales. Con esta transformación, se cambió la escala de las variables lo que estableció una mejora significativa del modelo. En cuanto al R cuadrado, se ve que pasó de 0.6528 a 0.777 lo que indica que el 78% de la variabilidad puede ser explicada por las variables independientes del modelo. Por otra parte, el estadístico F y el valor p indican que el modelo es estadísticamente significativo dentro de un nivel de confianza del 95%. En términos generales, el modelo ajustado resulta bastante bueno para predecir el precio de una vivienda tipo casa en la zona norte de la ciudad. Un aspecto para considerar tiene que ver con la poca significancia que representa la variable habitaciones.


Cuarta pregunta:

Realice la validación de supuestos del modelo e interprete los resultados (no es necesario corregir en caso de presentar problemas, solo realizar sugerencias de que se podría hacer).

## 
## Call:
## lm(formula = log_preciom ~ log_areaconst + estrato + habitaciones + 
##     parqueaderos + banios, data = base2)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.75974 -0.18199 -0.01387  0.15344  1.07319 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   2.251762   0.092382  24.374  < 2e-16 ***
## log_areaconst 0.474703   0.021920  21.657  < 2e-16 ***
## estrato       0.198864   0.012850  15.476  < 2e-16 ***
## habitaciones  0.006334   0.007299   0.868   0.3859    
## parqueaderos  0.022220   0.009669   2.298   0.0218 *  
## banios        0.060833   0.009444   6.441 2.17e-10 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.2689 on 716 degrees of freedom
## Multiple R-squared:  0.777,  Adjusted R-squared:  0.7755 
## F-statistic:   499 on 5 and 716 DF,  p-value: < 2.2e-16

La imagen muestra el resumen del modelo de Regresión Lineal Múltiple ajustado a través de cuatro gráficos de diagnóstico orientados a evaluar los supuestos. Con base en esto, se evaluó la linealidad, la independencia de los errores, la homocedasticidad y la normalidad de los errores.

Linealidad: Para evaluar esto, se contrasta el gráfico de Residuos y el de Valores Ajustados. De acuerdo con esto, no se observa un patrón sistemático en los residuos con relación a los valores ajustados. Esto plantea que la linealidad no es una preocupación importe en este modelo.

Independencia de los errores: Se evalúa la autocorrelación la cual no parece ser significativa ya que no hay razones para pensar lo contrario. La base de datos de este ejercicio no presenta series de tiempo, ni datos espaciales.

Homocedasticidad: Se evalúa que los residuos tengan varianza constante. En el gráfico Escala-Localización se muestra la raíz cuadrada de los residuos estandarizados en función de los valores del modelo ajustados. Se observa que no existe un patrón claro en la dispersión de los residuos cuando cambian los valores ajustados lo que sugiere una adecuada homocedasticidad.

Normalidad de los errores: El gráfico Normal Q-Q muestra una distribución normal en comparación con los residuos estandarizados. No obstante, se observan algunas desviaciones en los extremos.

En términos generales, los supuestos podrían mejorarse a partir del ajuste de los valores atípicos observados. Por otro lado, podrían realizarse pruebas estadísticas como Durbin-Watson para la independencia de los errores, o aplicar transformaciones a los datos orientadas a la normalidad de los errores.


Quinta pregunta:

Con el modelo identificado debe predecir el precio de la vivienda con las características de la primera solicitud.

## Precio predicho para una casa en estrato 4: 308.4519
## Precio predicho para una casa en estrato 5: 376.3161

De acuerdo con la solicitud de una vivienda tipo casa, ubicada en la zona norte con un área construida de 200 metros cuadrados, un parqueadero, dos baños, cuatro habitaciones, estrato 4 o 5 y con un valor de 350 millones se tiene lo siguiente. Las predicciones del modelo establecen 308 millones para el estrato 4 y 376 millones para el estrato 5. No obstante, las predicciones deben ajustarse al precio de 350 millones lo que plantea la necesidad de efectuar iteraciones sobre las variables para encontrar la combinación que arroje el precio establecido. Este proceso requiere un enfoque de prueba y error, o un método numérico de optimización.

## Area construida ajustada para un precio de 350 millones en estrato 4: 259.903
## Precio predicho ajustado para estrato 4: 349.301

Con base en esto, y tomando el área construida por ser la variable explicativa más fuerte, se observa que una vivienda tipo casa con 259 metros cuadrados de área adquiere un valor de 349 millones de pesos.

## Area construida ajustada para un precio de 350 millones en estrato 5: 170.903
## Precio predicho ajustado para estrato 5: 349.2528

Al realizar el mismo ajuste orientado a encontrar una vivienda con las especificaciones requeridas en el estrato 5, se debería buscar una casa con un área construida de 161 metros cuadrados.

En términos generales, lo solicitado a María se ajusta mejor al estrato 4 de la zona norte de la ciudad.


Sexta Pregunta:

Con las predicciones del modelo sugiera potenciales ofertas que responda a la solicitud de la vivienda 1. Tenga encuentra que la empresa tiene crédito pre-aprobado de máximo 350 millones de pesos. Realice un análisis y presente en un mapa al menos 5 ofertas potenciales que debe discutir.

##    area_construida estrato habitaciones parqueaderos banios
## 1         212.3956       4            4            1      2
## 11        202.4655       4            4            1      2
## 12        204.2305       4            4            1      2
## 13        208.4144       4            4            1      2
## 14        217.2905       4            4            1      2
##    precio_prediccion_ajustado
## 1                    317.3837
## 11                   310.2511
## 12                   311.5321
## 13                   314.5456
## 14                   320.8351

De acuerdo con esto, se establecen 5 viviendas tipo casa las cuales presentan áreas levemente mayores a 200 metros cuadrados. Este hecho se fundamenta en la ventaja que ofrecen frente al precio. Casas con áreas más grandes y con valores inferiores a 350 millones resultan más atractivas para los clientes. En el estrato 5 se podrían conseguirse casas con precios similares, pero más pequeñas.


## [1] 8322

APARTAMENTO

Primera pregunta.

Realice un filtro a la base de datos e incluya solo las ofertas de Apartamentos, de la zona sur de la ciudad. Presente los primeros 3 registros de las bases y algunas tablas que comprueben la consulta. (Adicional un mapa con los puntos de las bases. Discutir si todos los puntos se ubican en la zona correspondiente o se presentan valores en otras zonas, por que?).

Con base en el filtro, se creó una nueva Base de datos compuesta por 12 variables y 2790 registros de viviendas tipo apartamento ubicados en la Zona Sur.

zona piso estrato preciom areaconst parqueaderos banios habitaciones tipo barrio longitud latitud
Zona Sur 5.000000 4 290 96 1.000000 2 3 Apartamento acopi -76.53464 3.44987
Zona Sur 2.000000 3 78 40 1.000000 1 2 Apartamento aguablanca -76.50100 3.40000
Zona Sur 3.770936 6 875 194 2.000000 5 3 Apartamento aguacatal -76.55700 3.45900
Zona Sur 3.770936 3 135 117 1.835194 2 3 Apartamento alameda -76.51400 3.44100
Zona Sur 3.770936 3 135 78 1.835194 1 3 Apartamento alameda -76.53600 3.43600
Zona Sur 6.000000 4 220 75 1.000000 2 3 Apartamento alférez real -76.54627 3.39109

En esta table se muestran registros que muestran características de la base de datos filtrada.

El mapa muestra la distribución de viviendas en la ciudad de Santiago de Cali. A partir de esto, la gran mayoría se encuentran, efectivamente, en la Zona Sur. Sin embargo, hay viviendas en la Zona Norte y en la parte central de la ciudad. Este hecho puede se originado por errores en la conformación de la base de datos, posiblemente dentro de las variables de longitud y latitud. Por otra parte, es común que la delimitación de zonas urbanas esté dada por la nomenclatura de las direcciones, lo que puede no concordar con georreferencias como la latitud y longitud.


Segunda pregunta:

Realice un análisis exploratorio de datos enfocado en la correlación entre la variable respuesta (precio de la casa) en función del área construida, estrato, numero de baños, numero de habitaciones y zona donde se ubica el apartamento. Use gráficos interactivos con el paquete plotly e interprete los resultados.

##                preciom areaconst   estrato    banios habitaciones
## preciom      1.0000000 0.7578124 0.6725829 0.7252242    0.3389874
## areaconst    0.7578124 1.0000000 0.4810045 0.6692825    0.4439797
## estrato      0.6725829 0.4810045 1.0000000 0.5709342    0.2142567
## banios       0.7252242 0.6692825 0.5709342 1.0000000    0.5174401
## habitaciones 0.3389874 0.4439797 0.2142567 0.5174401    1.0000000

De acuerdo con la matriz de correlaciones puede observarse lo siguiente:

Área Construida: La correlación entre el precio de la casa y el área construida es de 0.76. Esto indica una fuerte relación positiva, lo cual significa que a medida que el área construida de un apartamento aumenta, su precio también tiende a incrementar. Es la relación más fuerte observada lo que sugiere que el tamaño del apartamento es un factor determinante a la hora de establecer el precio de un apartamento en la ciudad de Cali.

Estrato: La correlación entre el precio de la casa y el estrato es de 0.67. Esta es una relación positiva moderadamente fuerte, indicando que los apartamentos ubicadas en estratos más altos generalmente tienen precios más altos. El estrato puede reflejar la calidad del vecindario, los servicios disponibles y otros factores socioeconómicos que influyen en el valor de la propiedad.

Número de baños: La correlación entre el precio del apartamento y el número de baños es de 0.73. Esta relación positiva fuerte sugiere que a mayor número de baños en un apartamento, mayor será su precio. Esto puede reflejar la demanda de apartamentos más grandes con más comodidades, lo cual aumenta su valor.

Número de habitaciones: La correlación entre el precio de la casa y el número de habitaciones es de 0.34. Esta es una relación positiva más débil en comparación con las otras variables. Aunque existe una tendencia a que los apartamentos con más habitaciones tengan precios más altos, esta relación no es tan fuerte como las observadas con el área construida, el estrato o el número de baños. Esto podría indicar que, aunque el tamaño y la capacidad de alojamiento de un apartamento importan, otros factores como su ubicación (estrato) y tamaño total (área construida) tienen un impacto mayor en el precio.

En resumen, estos resultados muestran que el tamaño del apartamento (área construida), su ubicación (estrato) y la comodidad (número de baños) son los factores más determinantes en el precio y, en menor medida, el número de habitaciones. Esto subraya la importancia de estas características al evaluar el valor de una propiedad en el mercado inmobiliario de Cali.

El gráfico muestra un mapa de calor frente a la correlación de la variable precio en función del área construida, número de baños, estrato y número de habitaciones.


De acuerdo con el gráfico, se observa una concentración de puntos en el rango inferior izquierdo, lo que indica que hay muchos apartamentos con áreas más pequeñas y precios más bajos.Por otra parte, parece haber una tendencia positiva ya que a medida que aumenta el área construida, también lo hace el precio del apartamento. Esto sugiere una correlación positiva entre el área construida y el precio. Otro aspecto para considerar tiene que ver con el comportamiento de los apartamentos. Se observa una disminución en la medida que se presenta movimiento a la derecha del gráfico, lo que indica que hay menos apartamentos con áreas grandes. Para un rango dado de área construida, hay una variabilidad en el precio, lo que sugiere que hay otros factores además del área construida que afectan el precio de los apartamentos.

El gráfico muestra la relación que existe entre el precio y el número de baños de un apartamento. A partir de esto, se observa la existencia de valores atípicos y, en menor medida, outliers. Es poco probable que un apartamento tenga más de 6 baños.Parece haber una tendencia creciente en el precio mediano a medida que aumenta el número de baños. Esto sugiere que, en general, los apartamentos con más baños tienden a tener precios más altos. La variabilidad de los precios también parece aumentar con el número de baños. Esto se observa en el aumento del tamaño de las cajas y la longitud de los bigotes para apartamentos con más baños. Para apartamentos con 1 baño, los precios son relativamente bajos y menos variables. A medida que aumenta el número de baños, la mediana y la variabilidad de los precios aumentan, lo que indica que los apartamentos con más baños pueden variar más en precio debido a características adicionales o de lujo.

De acuerdo con el gráfico, se observa que los apartamentos ubicados en el estrato 3 tienen una mediana baja en comparación con estratos más altos. La distribución de los precios es relativamente compacta lo que establece un comportamiento homogéneo. En cuanto al estrato 4, se evidencia el incremento de la mediana de los precios. La variabilidad de los precios es mayor lo cual se evidencia en la altura de las cajas. El estrato 5 muestra una medina aún más alta, lo que sugiere que los precios de los apartamentos son generalmente más altos en este estrato. La variabilidad de los precios es considerable. Finalmente, el estrato 6 muestra la mediana más alta de todas, lo que indica que los precios de los apartamentos son los más altos dentro de los cuatro estratos considerados. En términos generales, el gráfico refleja una tendencia de aumento en el precio mediano de los apartamentos a medida que incrementa el estrato, así como un aumento en la variabilidad de los precios.

El gráfico muestra una tendencia genera a que los precios incrementen con el número de habitaciones. No obstante, se evidencia una disminución inesperada en la mediana para los apartamentos de 4 habitaciones. La variabilidad del los precios también aumenta con el número de habitaciones. De acuerdo con el comportamiento de los datos, la variable habitaciones no parece explicar significativamente el precio de los apartamentos en la zona sur.


Tercera pregunta:

Estime un modelo de regresión lineal múltiple con las variables del punto anterior (precio = f(área construida, estrato, número de cuartos, número de parqueaderos, número de baños )) e interprete los coeficientes si son estadísticamente significativos. Las interpretaciones deber están contextualizadas y discutir si los resultados son lógicos. Adicionalmente interprete el coeficiente R2 y discuta el ajuste del modelo e implicaciones (que podrían hacer para mejorarlo).

## 
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos + 
##     banios, data = base3)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1204.61   -45.11    -1.77    41.55   927.42 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -310.31410   13.48401 -23.013  < 2e-16 ***
## areaconst       1.41864    0.04892  29.002  < 2e-16 ***
## estrato        67.52065    2.65524  25.429  < 2e-16 ***
## habitaciones  -16.46847    3.46381  -4.754 2.09e-06 ***
## parqueaderos   56.61711    3.30116  17.151  < 2e-16 ***
## banios         48.97912    3.05701  16.022  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 94.46 on 2784 degrees of freedom
## Multiple R-squared:  0.7571, Adjusted R-squared:  0.7566 
## F-statistic:  1735 on 5 and 2784 DF,  p-value: < 2.2e-16

De acuerdo con los resultados obtenidos por el modelo de Regresión Lineal Múltiple, se observa que los coeficientes representan el cambio de la variable precio por cada unidad de cambio en cada una de las variables por separado. Por otra parte, el R cuadrado adquiere un valor de 0.76 lo que indica que aproximadamente el 76% de la variabilidad en el precio de los apartamentos ubicados en la Zona Sur de la Ciudad de Cali, puede ser explicada por la variables asociadas con el área construida, el estrato, el número de habitaciones, baños y parqueaderos. Por lo tanto, este modelo parece ser estadísticamente significativo a la hora de predecir el precio de las casas en función de las variables previamente descritas. No obstante, puede mejorarse.

## 
## Call:
## lm(formula = log_preciom ~ log_areaconst + estrato + habitaciones + 
##     parqueaderos + banios, data = base3)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.80384 -0.11671  0.00526  0.13397  0.76633 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)    1.297647   0.057689  22.494  < 2e-16 ***
## log_areaconst  0.692803   0.017124  40.458  < 2e-16 ***
## estrato        0.218540   0.006035  36.215  < 2e-16 ***
## habitaciones  -0.042218   0.007724  -5.466 5.01e-08 ***
## parqueaderos   0.044694   0.007132   6.266 4.27e-10 ***
## banios         0.075735   0.006902  10.974  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.2049 on 2784 degrees of freedom
## Multiple R-squared:  0.8399, Adjusted R-squared:  0.8396 
## F-statistic:  2921 on 5 and 2784 DF,  p-value: < 2.2e-16

Para mejorar el modelo se aplicó una transformación logarítmica a las variables precio y área construida. Por medio de esta transformación se busca manejar las situaciones de heterocedasticidad y manejar las relaciones no lineales. Con esta transformación, se cambió la escala de las variables lo que estableció una mejora significativa del modelo. En cuanto al R cuadrado, se ve que pasó de 0.76 a 0.84 lo que indica que el 84% de la variabilidad puede ser explicada por las variables independientes del modelo. Por otra parte, el estadístico F y el valor p indican que el modelo es estadísticamente significativo dentro de un nivel de confianza del 95%. En términos generales, el modelo ajustado resulta bastante bueno para predecir el precio de una vivienda tipo apartamento en la zona sur de la ciudad. Un aspecto para considerar tiene que ver con la poca significancia que representa la variable habitaciones.


Cuarta pregunta:

Realice la validación de supuestos del modelo e interprete los resultados (no es necesario corregir en caso de presentar problemas, solo realizar sugerencias de que se podría hacer).

## 
## Call:
## lm(formula = log_preciom ~ log_areaconst + estrato + habitaciones + 
##     parqueaderos + banios, data = base3)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.80384 -0.11671  0.00526  0.13397  0.76633 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)    1.297647   0.057689  22.494  < 2e-16 ***
## log_areaconst  0.692803   0.017124  40.458  < 2e-16 ***
## estrato        0.218540   0.006035  36.215  < 2e-16 ***
## habitaciones  -0.042218   0.007724  -5.466 5.01e-08 ***
## parqueaderos   0.044694   0.007132   6.266 4.27e-10 ***
## banios         0.075735   0.006902  10.974  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.2049 on 2784 degrees of freedom
## Multiple R-squared:  0.8399, Adjusted R-squared:  0.8396 
## F-statistic:  2921 on 5 and 2784 DF,  p-value: < 2.2e-16

El gráfico de Residuos vs Valores Ajustados muestra una distribución de los datos aleatoria, sin ningún patrón claro. Esto establece un buen indicador acerca de que el modelo no presenta heterocedasticidad o no linealidad. El Q Plot muestra que los datos siguen una línea de referencia cercana lo que sugiere que los residuos están normalmente distribuidos; no obstante, hay una ligera desviación en los extremos lo que podría indicar inconsistencias dentro de la distribución del supuesto de normalidad. El gráfico de Escala-Localización muestra una dispersión constante, lo que indica que la varianza de los residuos es constante y el supuesto de homocedasticidad se cumple. Finalmente, el gráfico Residuos vs Leverage muestra la existencia de valores atípicos potenciales. En términos generales, los supuestos del modelo se cumplen bastante bien, especialmente la linealidad, homocedasticidad y normalidad.


Quinta pregunta:

Con el modelo identificado debe predecir el precio de la vivienda con las características de la segunda solicitud.

## Precio predicho para un apartamento en estrato 5: 659.9382
## Precio predicho para una apartamento en estrato 6: 821.1338

De acuerdo con la solicitud de una vivienda tipo apartamento, ubicado en la zona sur con un área construida de 300 metros cuadrados, 3 parqueadero, 3 baños, 5 habitaciones, estrato 5 o 6 y con un valor de 850 millones se tiene lo siguiente. Las predicciones del modelo establecen 660 millones para el estrato 5 y 821 millones para el estrato 6. Con base en esto, el presupuesto asignado a la compañía C&A se ajusta bastante bien al comportamiento de precios dentro del sector sur de la ciudad.

## Area construida ajustada para un precio de 850 millones en estrato 5: 432.2906
## Precio predicho ajustado para estrato 5: 850.0015

A partir de esto, con 850 millones la compañía C&A podría comprar un apartamento de 430 metros cuadrados de área, perteneciente al estrato 5 de la zona sur de la ciudad.

## Area construida ajustada para un precio de 850 millones en estrato 6: 315.3413
## Precio predicho ajustado para estrato 6: 850.0017

En cuanto al estrato 6, la compañía C&A podría comprar con 850 millones un apartamento de 315 metros cuadrados, perteneciente al estrato 6 del sur de la ciudad.

En términos generales, la compañía C&A podría tener en cuenta la opinión del cliente para tomar la decisión. Si el cliente opta por un apartamento que cumpla las condiciones exigidas, además de preferir un espacio bastante amplio, el estrato 5 sería la solución. No obstante, si el cliente se decanta por un espacio más pequeño y fácil de manejar, el estrato 6 sería el indicado.


Sexta Pregunta:

Con las predicciones del modelo sugiera potenciales ofertas que responda a la solicitud de la vivienda 2. Tenga encuentra que la empresa tiene crédito pre-aprobado de máximo 850 millones de pesos. Realice un análisis y presente en un mapa al menos 5 ofertas potenciales que debe discutir.

##    area_construida estrato habitaciones parqueaderos banios
## 1         313.2799       5            5            3      3
## 11        305.6259       5            5            3      3
## 12        303.6053       5            5            3      3
## 13        310.5475       5            5            3      3
## 14        300.2283       5            5            3      3
##    precio_prediccion_ajustado
## 1                    680.0421
## 11                   668.4877
## 12                   665.4227
## 13                   675.9274
## 14                   660.2862

La tabla muestra cinco registros que cumplen con lo solicitado a la compañía C&A. Se pueden ver precios muy por debajo del presupuesto asignado.

##    area_construida estrato habitaciones parqueaderos banios
## 1         312.5649       6            5            3      3
## 11        305.7836       6            5            3      3
##    precio_prediccion_ajustado
## 1                    844.8098
## 11                   832.0690

Esta tabla muestra posibles ofertas ajustadas al estrato 6. Puede verse un incremento considerable de los precios en comparación con las mismas especificaciones, pero en el estrato 5.

El mapa muestra la ubicación de posibles ofertas que cumplen con las condiciones exigidas a la compañía C&A


INFORME EJECUTIVO.

Resumen:

Este informe resume los hallazgos de una análisis del mercado inmobiliario de la Zona Norte y Sur de la ciudad de Santiago de Cali, haciendo énfasis en las características que influyen en el precio de las viviendas tipo casa y apartamento. A partir de esto, se le informa a la Compañía C&A que los resultados obtenidos a través del proceso de modelación muestran que el área construida de una casa, el estrato y el número de baños son determinantes significativos a la hora de predecir el precio de una vivienda. Por otra parte, y con énfasis en mejorar el modelo, se realizó una transformación logarítmica de las variables precio y área construida, obteniendo un resultado importante a la hora de explicar la variabilidad de los precios. Los resultados ajustados muestran que una vivienda de 259 metros cuadrados ubicada en la Zona Norte y perteneciente al estrato 4 se acerca al valor objetivo de 350 millones de pesos. Un apartamento de 300 metros cuadrados en estrato 5 está muy por debajo del presupuesto de 850 millones; en cambio, un apartamento con las mismas condiciones ubicado en estrato 6 presenta un valor de 850 millones con un área muy ajustada a los 300 metros cuadrados.

Contexto y Objetivos:

Establecer los factores que influyen en el precio de las viviendas tipo casa y apartamento ubicadas en la zona norte y sur de la ciudad de Santiago de Cali a través de un proceso de modelamiento de variables con el fin de orientar las acciones de la Compañía C&A frente al comportamiento del mercado.

Metodología:

Para la ejecución del proceso de modelamiento se utilizaron técnicas asociadas con la Regresión Lineal Múltiple. Se aplicaron transformaciones logarítmicas para mejorar la homocedasticidad y la linealidad del modelo.

Hallazgos Principales:

Dentro del proceso de modelamiento se estableció la variable precio de vivienda en función del área construida, el estrato socioeconómico, el número de baños, habitaciones y parqueaderos.

• Área Construida para vivienda tipo casa y apartamento: Esta variable presenta la correlación más fuerte con el precio, teniendo una correlación del 0.73 para las casas. Esto indica que, a mayor área de la casa, más altos será el precio. En cuanto a los apartamento, esta relación explica la variabilidad del 0.76 del modelo. En términos generales, la relación del precio en función del área construida presenta una correlación más fuerte en las viviendas tipo apartamento.

• Estrato: Esta variable presenta una correlación moderadamente fuerte para las casas, indicando un valor del 0.61. A partir de esto, entre más alto sea el estrato socioeconómico, más caro será el precio de la casa. En el caso de los apartamentos, el estrato explica el 0.67 de la variabilidad.

• Número de baños: Presenta una correlación moderada en las casas equivalente a 0.54. Esto plantea que las casas con más baños tienen precios más altos. En el caso de los apartamentos, la correlación es alta ya que implica el 0.72. El número de baños adquiere un valor muy importante en los apartamentos.

• Número de habitaciones: Dentro del modelo de casas y apartamentos, presenta la correlación más débil ya que arroja un valor del 0.34 en los dos casos. Con base en esto, no puede considerarse que el precio de una vivienda oscile en función del número de habitaciones, al menos en lo que a casas y apartamentos se refiere.

Interpretación y Conclusiones:

Se le plantea a la directora de C&A que el tamaño de la casa, el estrato socioeconómico donde se ubica y las comodidades son factores claves en la determinación de los precios. En este este sentido, el modelo ejecutado y presentado se caracteriza por ser robusto y estadísticamente significativo, explicando aproximadamente el 78% de la variabilidad de los precios de las casas, y el 84% de la variabilidad de los precios del los apartamentos.

Recomendaciones:

Dentro del estrato 4 pueden encontrarse casas con área de construcción mayores a 200 metros cuadrados con precios competitivos cercanos al valor objetivo de 350 millones de pesos. Por otra parte, se recomienda a la compañía C&A orientar el proceso de negocio a la venta de casas dentro del estrato 4. Esto hecho plantea beneficios importantes ya que los clientes podrán sentirse atraídos por viviendas con áreas grandes y comodidades, además de costos menores asociados con un estrato menor al 5 y 6, pero con beneficios similares. En cuanto a los apartamentos, ocurre algo similar. Dentro del estrato 5 pueden encontrarse apartamentos amplios con valores muy inferiores al presupuesto de 850 millones. Tanto en un caso como en el otro, se necesario que los vendedores de la compañía evalúen las necesidades de los clientes ya un espacio muy grande puede no ser atractivo sobre todo cuando se trata de ejecutivos que vienen de otros lugares por motivos de trabajo.

Limitaciones y mejoras:

Pueden existir otras variables significativas que no fueron tomadas en cuenta como pueden ser la características del vecindario asociadas con accesibilidad a colegios, vías principales, hospitales, etc. A partir de esto, el modelo podría mejorarse con una base de datos más grande y con más variables explicativas. La inclusión de variables como la antigüedad de la vivienda, la cercanía a servicios y la calidad de acabados podría ayudar de manera significativa a la comprensión del mercado. Por otra parte, deben considerarse factores psicológicos de los clientes como preferencias y estatus. Debe tenerse en cuenta, qué clientes prefieren determinado tipo de vivienda. Por ejemplo, las casas se relacionan con familiar más numerosas con posible ascenso social, pero más orientadas a espacios grandes. Los apartamentos, en cambio, suelen ser preferidos por familias pequeñas y con interés de estatus (esto con base en los estratos donde se está ejecutando el análisis, en estratos inferiores los apartamentos pueden tener otro significado).