## id zona piso estrato
## Min. : 1 Length:8322 Length:8322 Min. :3.000
## 1st Qu.:2080 Class :character Class :character 1st Qu.:4.000
## Median :4160 Mode :character Mode :character Median :5.000
## Mean :4160 Mean :4.634
## 3rd Qu.:6240 3rd Qu.:5.000
## Max. :8319 Max. :6.000
## NA's :3 NA's :3
## preciom areaconst parqueaderos banios
## Min. : 58.0 Min. : 30.0 Min. : 1.000 Min. : 0.000
## 1st Qu.: 220.0 1st Qu.: 80.0 1st Qu.: 1.000 1st Qu.: 2.000
## Median : 330.0 Median : 123.0 Median : 2.000 Median : 3.000
## Mean : 433.9 Mean : 174.9 Mean : 1.835 Mean : 3.111
## 3rd Qu.: 540.0 3rd Qu.: 229.0 3rd Qu.: 2.000 3rd Qu.: 4.000
## Max. :1999.0 Max. :1745.0 Max. :10.000 Max. :10.000
## NA's :2 NA's :3 NA's :1605 NA's :3
## habitaciones tipo barrio longitud
## Min. : 0.000 Length:8322 Length:8322 Min. :-76.59
## 1st Qu.: 3.000 Class :character Class :character 1st Qu.:-76.54
## Median : 3.000 Mode :character Mode :character Median :-76.53
## Mean : 3.605 Mean :-76.53
## 3rd Qu.: 4.000 3rd Qu.:-76.52
## Max. :10.000 Max. :-76.46
## NA's :3 NA's :3
## latitud
## Min. :3.333
## 1st Qu.:3.381
## Median :3.416
## Mean :3.418
## 3rd Qu.:3.452
## Max. :3.498
## NA's :3
De acuerdo con lo anterior, se observa un total de 13 variables. De
estas, 9 son de tipo numérico y 4 de tipo categórico. Por otra parte,
existen irregularidades asociadas con las variables piso, baños y
habitaciones. En este sentido, piso presenta un tipo categórico lo cual
no es correcto, ya que se evidencian valores numéricos. Las variables
baños y habitaciones presentan un valor mínimo de 0 lo que plantea un
error ya que es poco probable que una vivienda no cuente con
habitaciones y baños. Por estas razones, se debe realizar un proceso que
corrija estas inconsistencias. Se debe convertir la variable piso a
numérica, y a las variables baños y habitaciones se les debe asignar un
valor mínimo superior a 0, 1 según el caso. Finalmente, se toma la
decisión de eliminar a la variable id ya que no representa interés para
el DataSet.
De acuerdo con el gráfico, se observa que las variables estrato y
banios tienen una gran cantidad de datos faltantes por lo que debe
realizarse un proceso de imputación. Con lo relacionado a las variables
numéricas, la imputación se hará a partir de la media; mientras en el
caso de las variables categóricas el proceso de imputación se realizará
por medio de la moda. En términos generales, los valores nulos de las
variables numéricas se reemplazarán por la media; mientra los valores
faltantes de las variables categóricas se reemplazarán a través de la
moda.
El gráfico muestra la Base de Datos depurada y limpia. Con base en esto,
la actividad se abordará a través de 12 variables: 9 numéricas y 3
categóricas.
Con base en el filtro, se creó una nueva Base de datos compuesta por 12 variables y 722 registros de viviendas ubicadas en la Zona Norte.
| zona | piso | estrato | preciom | areaconst | parqueaderos | banios | habitaciones | tipo | barrio | longitud | latitud |
|---|---|---|---|---|---|---|---|---|---|---|---|
| Zona Norte | 2 | 5 | 320 | 150 | 2.000000 | 4 | 6 | Casa | acopi | -76.51341 | 3.47968 |
| Zona Norte | 2 | 5 | 780 | 380 | 2.000000 | 3 | 3 | Casa | acopi | -76.51674 | 3.48721 |
| Zona Norte | 2 | 6 | 750 | 445 | 1.835194 | 7 | 6 | Casa | acopi | -76.52950 | 3.38527 |
| Zona Norte | 2 | 4 | 625 | 355 | 3.000000 | 5 | 5 | Casa | acopi | -76.53179 | 3.40590 |
| Zona Norte | 2 | 5 | 750 | 237 | 2.000000 | 6 | 6 | Casa | acopi | -76.54044 | 3.36862 |
| Zona Norte | 2 | 4 | 600 | 160 | 1.000000 | 4 | 5 | Casa | acopi | -76.55210 | 3.42125 |
En esta table se muestran registros que muestran características de
la base de datos filtrada.
Realice un análisis exploratorio de datos enfocado en la correlación entre la variable respuesta (precio de la casa) en función del área construida, estrato, numero de baños, numero de habitaciones y zona donde se ubica la vivienda. Use gráficos interactivos con el paquete plotly e interprete los resultados.
## preciom areaconst estrato banios habitaciones
## preciom 1.0000000 0.7313480 0.6123503 0.5379294 0.3375565
## areaconst 0.7313480 1.0000000 0.4573818 0.4786616 0.3947975
## estrato 0.6123503 0.4573818 1.0000000 0.4159623 0.1070555
## banios 0.5379294 0.4786616 0.4159623 1.0000000 0.5804741
## habitaciones 0.3375565 0.3947975 0.1070555 0.5804741 1.0000000
De acuerdo con la matriz de correlaciones puede observarse lo siguiente:
Área Construida: La correlación entre el precio de la casa y el área construida es de 0.73. Esto indica una fuerte relación positiva, lo cual significa que a medida que el área construida de una casa aumenta, su precio también tiende a aumentar. Es la relación más fuerte observada lo que sugiere que el tamaño de la casa es un factor determinante a la hora de establecer el precio de una casa en la ciudad de Cali.
Estrato: La correlación entre el precio de la casa y el estrato es de 0.61. Esta es una relación positiva moderadamente fuerte, indicando que las casas ubicadas en estratos más altos generalmente tienen precios más altos. El estrato puede reflejar la calidad del vecindario, los servicios disponibles y otros factores socioeconómicos que influyen en el valor de la propiedad.
Número de baños: La correlación entre el precio de la casa y el número de baños es de 0.54. Esta relación positiva moderada sugiere que a mayor número de baños en una casa, mayor será su precio. Esto puede reflejar la demanda de casas más grandes con más comodidades, lo cual aumenta su valor.
Número de habitaciones: La correlación entre el precio de la casa y el número de habitaciones es de 0.34. Esta es una relación positiva más débil en comparación con las otras variables. Aunque existe una tendencia a que las casas con más habitaciones tengan precios más altos, esta relación no es tan fuerte como las observadas con el área construida, el estrato o el número de baños. Esto podría indicar que, aunque el tamaño y la capacidad de alojamiento de una casa importan, otros factores como su ubicación (estrato) y tamaño total (área construida) tienen un impacto mayor en el precio.
En resumen, estos resultados muestran que el tamaño de la casa (área construida), su ubicación (estrato) y la comodidad (número de baños) son los factores más determinantes en el precio de una casa y, en menor medida, el número de habitaciones. Esto subraya la importancia de estas características al evaluar el valor de una propiedad en el mercado inmobiliario de Cali.
El gráfico muestra un mapa de calor frente a la correlación de la variable precio en función del área construida, número de baños, estrato y número de habitaciones.
En el gráfico se observa una gran cantidad de puntos azules que representan las viviendas tipo casa ubicadas en la zona norte de la ciudad de Santiago de Cali. Existe un concentración fuerte de puntos en la parte inferior izquierda lo que muestra la existencia de muchas casas con precios bajos asociadas con áreas de construcción pequeñas. No obstante, la relación entre las casas y el área construida no presenta un comportamiento lineal perfecto debido a la dispersión considerable de puntos (casas) en grandes áreas construidas. En términos generales, el gráfico muestra una relación positiva entre el precio de una casa y el área construida, sin embargo, también indica que hay variabilidad significativa de los precios lo que no puede explicarse únicamente por el tamaño de las casas.
El gráfico muestra la existencia de una tendencia general de que a medida que aumenta el número de baños, también lo hace el rango de precios de las viviendas, especialmente a partir de 4 baños en adelante. De acuerdo con esto, las casas con más baños tienden a ser más caras lo cual establece una asociación positiva. Por otra parte, la variabilidad en los precios también aumenta con el número de baños como puede evidenciarse en la altura de las cajas y en la longitud de los bigotes. Por otro lado, hay una gran cantidad de valores atípicos lo que podría asociarse a la gama de precios del mercado inmobiliario de la ciudad de Cali. En términos generales, existe una relación positiva entre el número de baños en una casa y su precio. La presencia de valores atípicos en todas las categorías indica que hay casas que son excepcionalmente más caras que otras con la misma categoría de baños.
En el gráfico se observa que los estratos más bajos (el tres, por ejemplo) tienen precios más bajos y menor variabilidad si se compara con los estratos más altos. Los estratos más altos tienen una mediana de precio más alta y con mayor dispersión de precios lo cual se evidencia en la forma de grande de las cajas y en la longitud de los bigotes. Por otro lado, hay una cantidad significativa de valores atípicos en todos los estratos, especialmente en los altos lo que indica la existencia de casas más caras que la mayoría de ese estrato. El estrato seis presenta las casas más caras y la mayor variabilidad de precios.
El gráfico muestra como la mediana del precio tiene a aumentar a medida que incrementa el número de habitaciones. Esto plantea que las casas con más habitaciones tienden a ser más caras. Sin embargo, esta tendencia no es estrictamente lineal ni uniforme. Las casas con 1 y 2 habitaciones muestran una distribución de precios más compacta en comparación con las casas con más habitaciones. En la casas con 7 habitaciones en adelante, la mediana del precio tiende a estabilizarse e inclusive disminuye ligeramente lo que sugiere que el número de habitaciones deja de ser un factor muy determinante en el precio de las casas ubicadas en el norte de la ciudad.
## [1] 722
Estime un modelo de regresión lineal múltiple con las variables del punto anterior (precio = f(área construida, estrato, número de cuartos, número de parqueaderos, número de baños )) e interprete los coeficientes si son estadísticamente significativos. Las interpretaciones deber están contextualizadas y discutir si los resultados son lógicos. Adicionalmente interprete el coeficiente R2 y discuta el ajuste del modelo e implicaciones (que podrían hacer para mejorarlo).
##
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos +
## banios, data = base2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -922.92 -78.03 -17.41 46.23 1082.95
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -250.30765 30.31024 -8.258 7.13e-16 ***
## areaconst 0.80343 0.04392 18.293 < 2e-16 ***
## estrato 84.14005 7.21437 11.663 < 2e-16 ***
## habitaciones 1.43882 4.29238 0.335 0.738
## parqueaderos 14.50682 5.69271 2.548 0.011 *
## banios 26.24530 5.51074 4.763 2.31e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 158.1 on 716 degrees of freedom
## Multiple R-squared: 0.6552, Adjusted R-squared: 0.6528
## F-statistic: 272.1 on 5 and 716 DF, p-value: < 2.2e-16
De acuerdo con los resultados obtenidos por el modelo de Regresión Lineal Múltiple, se observa que los coeficientes representan el cambio de la variable precio por cada unidad de cambio en cada una de las variables por separado. Por otra parte, el R cuadrado adquiere un valor de 0.6552 lo que indica que aproximadamente el 65% de la variabilidad en el precio de las casas ubicadas en la Zona Norte de la Ciudad de Cali, puede ser explicada por la variables asociadas con el área construida, el estrato, el número de habitaciones, baños y parqueaderos. Por lo tanto, este modelo parece ser estadísticamente significativo a la hora de predecir el precio de las casas en función de las variables previamente descritas. No obstante, puede mejorarse.
##
## Call:
## lm(formula = log_preciom ~ log_areaconst + estrato + habitaciones +
## parqueaderos + banios, data = base2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.75974 -0.18199 -0.01387 0.15344 1.07319
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 2.251762 0.092382 24.374 < 2e-16 ***
## log_areaconst 0.474703 0.021920 21.657 < 2e-16 ***
## estrato 0.198864 0.012850 15.476 < 2e-16 ***
## habitaciones 0.006334 0.007299 0.868 0.3859
## parqueaderos 0.022220 0.009669 2.298 0.0218 *
## banios 0.060833 0.009444 6.441 2.17e-10 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.2689 on 716 degrees of freedom
## Multiple R-squared: 0.777, Adjusted R-squared: 0.7755
## F-statistic: 499 on 5 and 716 DF, p-value: < 2.2e-16
Para mejorar el modelo se aplicó una transformación logarítmica a las variables precio y área construida. Por medio de esta transformación se busca manejar las situaciones de heterocedasticidad y manejar las relaciones no lineales. Con esta transformación, se cambió la escala de las variables lo que estableció una mejora significativa del modelo. En cuanto al R cuadrado, se ve que pasó de 0.6528 a 0.777 lo que indica que el 78% de la variabilidad puede ser explicada por las variables independientes del modelo. Por otra parte, el estadístico F y el valor p indican que el modelo es estadísticamente significativo dentro de un nivel de confianza del 95%. En términos generales, el modelo ajustado resulta bastante bueno para predecir el precio de una vivienda tipo casa en la zona norte de la ciudad. Un aspecto para considerar tiene que ver con la poca significancia que representa la variable habitaciones.
Realice la validación de supuestos del modelo e interprete los resultados (no es necesario corregir en caso de presentar problemas, solo realizar sugerencias de que se podría hacer).
##
## Call:
## lm(formula = log_preciom ~ log_areaconst + estrato + habitaciones +
## parqueaderos + banios, data = base2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.75974 -0.18199 -0.01387 0.15344 1.07319
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 2.251762 0.092382 24.374 < 2e-16 ***
## log_areaconst 0.474703 0.021920 21.657 < 2e-16 ***
## estrato 0.198864 0.012850 15.476 < 2e-16 ***
## habitaciones 0.006334 0.007299 0.868 0.3859
## parqueaderos 0.022220 0.009669 2.298 0.0218 *
## banios 0.060833 0.009444 6.441 2.17e-10 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.2689 on 716 degrees of freedom
## Multiple R-squared: 0.777, Adjusted R-squared: 0.7755
## F-statistic: 499 on 5 and 716 DF, p-value: < 2.2e-16
La imagen muestra el resumen del modelo de Regresión Lineal Múltiple ajustado a través de cuatro gráficos de diagnóstico orientados a evaluar los supuestos. Con base en esto, se evaluó la linealidad, la independencia de los errores, la homocedasticidad y la normalidad de los errores.
Linealidad: Para evaluar esto, se contrasta el gráfico de Residuos y el de Valores Ajustados. De acuerdo con esto, no se observa un patrón sistemático en los residuos con relación a los valores ajustados. Esto plantea que la linealidad no es una preocupación importe en este modelo.
Independencia de los errores: Se evalúa la autocorrelación la cual no parece ser significativa ya que no hay razones para pensar lo contrario. La base de datos de este ejercicio no presenta series de tiempo, ni datos espaciales.
Homocedasticidad: Se evalúa que los residuos tengan varianza constante. En el gráfico Escala-Localización se muestra la raíz cuadrada de los residuos estandarizados en función de los valores del modelo ajustados. Se observa que no existe un patrón claro en la dispersión de los residuos cuando cambian los valores ajustados lo que sugiere una adecuada homocedasticidad.
Normalidad de los errores: El gráfico Normal Q-Q muestra una distribución normal en comparación con los residuos estandarizados. No obstante, se observan algunas desviaciones en los extremos.
En términos generales, los supuestos podrían mejorarse a partir del ajuste de los valores atípicos observados. Por otro lado, podrían realizarse pruebas estadísticas como Durbin-Watson para la independencia de los errores, o aplicar transformaciones a los datos orientadas a la normalidad de los errores.
Con el modelo identificado debe predecir el precio de la vivienda con las características de la primera solicitud.
## Precio predicho para una casa en estrato 4: 308.4519
## Precio predicho para una casa en estrato 5: 376.3161
De acuerdo con la solicitud de una vivienda tipo casa, ubicada en la zona norte con un área construida de 200 metros cuadrados, un parqueadero, dos baños, cuatro habitaciones, estrato 4 o 5 y con un valor de 350 millones se tiene lo siguiente. Las predicciones del modelo establecen 308 millones para el estrato 4 y 376 millones para el estrato 5. No obstante, las predicciones deben ajustarse al precio de 350 millones lo que plantea la necesidad de efectuar iteraciones sobre las variables para encontrar la combinación que arroje el precio establecido. Este proceso requiere un enfoque de prueba y error, o un método numérico de optimización.
## Area construida ajustada para un precio de 350 millones en estrato 4: 259.903
## Precio predicho ajustado para estrato 4: 349.301
Con base en esto, y tomando el área construida por ser la variable explicativa más fuerte, se observa que una vivienda tipo casa con 259 metros cuadrados de área adquiere un valor de 349 millones de pesos.
## Area construida ajustada para un precio de 350 millones en estrato 5: 170.903
## Precio predicho ajustado para estrato 5: 349.2528
Al realizar el mismo ajuste orientado a encontrar una vivienda con las especificaciones requeridas en el estrato 5, se debería buscar una casa con un área construida de 161 metros cuadrados.
En términos generales, lo solicitado a María se ajusta mejor al estrato 4 de la zona norte de la ciudad.
Con las predicciones del modelo sugiera potenciales ofertas que responda a la solicitud de la vivienda 1. Tenga encuentra que la empresa tiene crédito pre-aprobado de máximo 350 millones de pesos. Realice un análisis y presente en un mapa al menos 5 ofertas potenciales que debe discutir.
## area_construida estrato habitaciones parqueaderos banios
## 1 212.3956 4 4 1 2
## 11 202.4655 4 4 1 2
## 12 204.2305 4 4 1 2
## 13 208.4144 4 4 1 2
## 14 217.2905 4 4 1 2
## precio_prediccion_ajustado
## 1 317.3837
## 11 310.2511
## 12 311.5321
## 13 314.5456
## 14 320.8351
De acuerdo con esto, se
establecen 5 viviendas tipo casa las cuales presentan áreas levemente
mayores a 200 metros cuadrados. Este hecho se fundamenta en la ventaja
que ofrecen frente al precio. Casas con áreas más grandes y con valores
inferiores a 350 millones resultan más atractivas para los clientes. En
el estrato 5 se podrían conseguirse casas con precios similares, pero
más pequeñas.
## [1] 8322
Con base en el filtro, se creó una nueva Base de datos compuesta por 12 variables y 2790 registros de viviendas tipo apartamento ubicados en la Zona Sur.
| zona | piso | estrato | preciom | areaconst | parqueaderos | banios | habitaciones | tipo | barrio | longitud | latitud |
|---|---|---|---|---|---|---|---|---|---|---|---|
| Zona Sur | 5.000000 | 4 | 290 | 96 | 1.000000 | 2 | 3 | Apartamento | acopi | -76.53464 | 3.44987 |
| Zona Sur | 2.000000 | 3 | 78 | 40 | 1.000000 | 1 | 2 | Apartamento | aguablanca | -76.50100 | 3.40000 |
| Zona Sur | 3.770936 | 6 | 875 | 194 | 2.000000 | 5 | 3 | Apartamento | aguacatal | -76.55700 | 3.45900 |
| Zona Sur | 3.770936 | 3 | 135 | 117 | 1.835194 | 2 | 3 | Apartamento | alameda | -76.51400 | 3.44100 |
| Zona Sur | 3.770936 | 3 | 135 | 78 | 1.835194 | 1 | 3 | Apartamento | alameda | -76.53600 | 3.43600 |
| Zona Sur | 6.000000 | 4 | 220 | 75 | 1.000000 | 2 | 3 | Apartamento | alférez real | -76.54627 | 3.39109 |
En esta table se muestran registros que muestran características de
la base de datos filtrada.
Realice un análisis exploratorio de datos enfocado en la correlación entre la variable respuesta (precio de la casa) en función del área construida, estrato, numero de baños, numero de habitaciones y zona donde se ubica el apartamento. Use gráficos interactivos con el paquete plotly e interprete los resultados.
## preciom areaconst estrato banios habitaciones
## preciom 1.0000000 0.7578124 0.6725829 0.7252242 0.3389874
## areaconst 0.7578124 1.0000000 0.4810045 0.6692825 0.4439797
## estrato 0.6725829 0.4810045 1.0000000 0.5709342 0.2142567
## banios 0.7252242 0.6692825 0.5709342 1.0000000 0.5174401
## habitaciones 0.3389874 0.4439797 0.2142567 0.5174401 1.0000000
De acuerdo con la matriz de correlaciones puede observarse lo siguiente:
Área Construida: La correlación entre el precio de la casa y el área construida es de 0.76. Esto indica una fuerte relación positiva, lo cual significa que a medida que el área construida de un apartamento aumenta, su precio también tiende a incrementar. Es la relación más fuerte observada lo que sugiere que el tamaño del apartamento es un factor determinante a la hora de establecer el precio de un apartamento en la ciudad de Cali.
Estrato: La correlación entre el precio de la casa y el estrato es de 0.67. Esta es una relación positiva moderadamente fuerte, indicando que los apartamentos ubicadas en estratos más altos generalmente tienen precios más altos. El estrato puede reflejar la calidad del vecindario, los servicios disponibles y otros factores socioeconómicos que influyen en el valor de la propiedad.
Número de baños: La correlación entre el precio del apartamento y el número de baños es de 0.73. Esta relación positiva fuerte sugiere que a mayor número de baños en un apartamento, mayor será su precio. Esto puede reflejar la demanda de apartamentos más grandes con más comodidades, lo cual aumenta su valor.
Número de habitaciones: La correlación entre el precio de la casa y el número de habitaciones es de 0.34. Esta es una relación positiva más débil en comparación con las otras variables. Aunque existe una tendencia a que los apartamentos con más habitaciones tengan precios más altos, esta relación no es tan fuerte como las observadas con el área construida, el estrato o el número de baños. Esto podría indicar que, aunque el tamaño y la capacidad de alojamiento de un apartamento importan, otros factores como su ubicación (estrato) y tamaño total (área construida) tienen un impacto mayor en el precio.
En resumen, estos resultados muestran que el tamaño del apartamento (área construida), su ubicación (estrato) y la comodidad (número de baños) son los factores más determinantes en el precio y, en menor medida, el número de habitaciones. Esto subraya la importancia de estas características al evaluar el valor de una propiedad en el mercado inmobiliario de Cali.
El gráfico muestra un mapa de calor frente a la correlación de la variable precio en función del área construida, número de baños, estrato y número de habitaciones.
De acuerdo con el gráfico, se observa una concentración de puntos en el rango inferior izquierdo, lo que indica que hay muchos apartamentos con áreas más pequeñas y precios más bajos.Por otra parte, parece haber una tendencia positiva ya que a medida que aumenta el área construida, también lo hace el precio del apartamento. Esto sugiere una correlación positiva entre el área construida y el precio. Otro aspecto para considerar tiene que ver con el comportamiento de los apartamentos. Se observa una disminución en la medida que se presenta movimiento a la derecha del gráfico, lo que indica que hay menos apartamentos con áreas grandes. Para un rango dado de área construida, hay una variabilidad en el precio, lo que sugiere que hay otros factores además del área construida que afectan el precio de los apartamentos.
El gráfico muestra la relación que existe entre el precio y el número de baños de un apartamento. A partir de esto, se observa la existencia de valores atípicos y, en menor medida, outliers. Es poco probable que un apartamento tenga más de 6 baños.Parece haber una tendencia creciente en el precio mediano a medida que aumenta el número de baños. Esto sugiere que, en general, los apartamentos con más baños tienden a tener precios más altos. La variabilidad de los precios también parece aumentar con el número de baños. Esto se observa en el aumento del tamaño de las cajas y la longitud de los bigotes para apartamentos con más baños. Para apartamentos con 1 baño, los precios son relativamente bajos y menos variables. A medida que aumenta el número de baños, la mediana y la variabilidad de los precios aumentan, lo que indica que los apartamentos con más baños pueden variar más en precio debido a características adicionales o de lujo.
De acuerdo con el gráfico, se observa que los apartamentos ubicados en el estrato 3 tienen una mediana baja en comparación con estratos más altos. La distribución de los precios es relativamente compacta lo que establece un comportamiento homogéneo. En cuanto al estrato 4, se evidencia el incremento de la mediana de los precios. La variabilidad de los precios es mayor lo cual se evidencia en la altura de las cajas. El estrato 5 muestra una medina aún más alta, lo que sugiere que los precios de los apartamentos son generalmente más altos en este estrato. La variabilidad de los precios es considerable. Finalmente, el estrato 6 muestra la mediana más alta de todas, lo que indica que los precios de los apartamentos son los más altos dentro de los cuatro estratos considerados. En términos generales, el gráfico refleja una tendencia de aumento en el precio mediano de los apartamentos a medida que incrementa el estrato, así como un aumento en la variabilidad de los precios.
El gráfico muestra una tendencia genera a que los precios incrementen con el número de habitaciones. No obstante, se evidencia una disminución inesperada en la mediana para los apartamentos de 4 habitaciones. La variabilidad del los precios también aumenta con el número de habitaciones. De acuerdo con el comportamiento de los datos, la variable habitaciones no parece explicar significativamente el precio de los apartamentos en la zona sur.
Estime un modelo de regresión lineal múltiple con las variables del punto anterior (precio = f(área construida, estrato, número de cuartos, número de parqueaderos, número de baños )) e interprete los coeficientes si son estadísticamente significativos. Las interpretaciones deber están contextualizadas y discutir si los resultados son lógicos. Adicionalmente interprete el coeficiente R2 y discuta el ajuste del modelo e implicaciones (que podrían hacer para mejorarlo).
##
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos +
## banios, data = base3)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1204.61 -45.11 -1.77 41.55 927.42
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -310.31410 13.48401 -23.013 < 2e-16 ***
## areaconst 1.41864 0.04892 29.002 < 2e-16 ***
## estrato 67.52065 2.65524 25.429 < 2e-16 ***
## habitaciones -16.46847 3.46381 -4.754 2.09e-06 ***
## parqueaderos 56.61711 3.30116 17.151 < 2e-16 ***
## banios 48.97912 3.05701 16.022 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 94.46 on 2784 degrees of freedom
## Multiple R-squared: 0.7571, Adjusted R-squared: 0.7566
## F-statistic: 1735 on 5 and 2784 DF, p-value: < 2.2e-16
De acuerdo con los resultados obtenidos por el modelo de Regresión Lineal Múltiple, se observa que los coeficientes representan el cambio de la variable precio por cada unidad de cambio en cada una de las variables por separado. Por otra parte, el R cuadrado adquiere un valor de 0.76 lo que indica que aproximadamente el 76% de la variabilidad en el precio de los apartamentos ubicados en la Zona Sur de la Ciudad de Cali, puede ser explicada por la variables asociadas con el área construida, el estrato, el número de habitaciones, baños y parqueaderos. Por lo tanto, este modelo parece ser estadísticamente significativo a la hora de predecir el precio de las casas en función de las variables previamente descritas. No obstante, puede mejorarse.
##
## Call:
## lm(formula = log_preciom ~ log_areaconst + estrato + habitaciones +
## parqueaderos + banios, data = base3)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.80384 -0.11671 0.00526 0.13397 0.76633
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.297647 0.057689 22.494 < 2e-16 ***
## log_areaconst 0.692803 0.017124 40.458 < 2e-16 ***
## estrato 0.218540 0.006035 36.215 < 2e-16 ***
## habitaciones -0.042218 0.007724 -5.466 5.01e-08 ***
## parqueaderos 0.044694 0.007132 6.266 4.27e-10 ***
## banios 0.075735 0.006902 10.974 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.2049 on 2784 degrees of freedom
## Multiple R-squared: 0.8399, Adjusted R-squared: 0.8396
## F-statistic: 2921 on 5 and 2784 DF, p-value: < 2.2e-16
Para mejorar el modelo se aplicó una transformación logarítmica a las variables precio y área construida. Por medio de esta transformación se busca manejar las situaciones de heterocedasticidad y manejar las relaciones no lineales. Con esta transformación, se cambió la escala de las variables lo que estableció una mejora significativa del modelo. En cuanto al R cuadrado, se ve que pasó de 0.76 a 0.84 lo que indica que el 84% de la variabilidad puede ser explicada por las variables independientes del modelo. Por otra parte, el estadístico F y el valor p indican que el modelo es estadísticamente significativo dentro de un nivel de confianza del 95%. En términos generales, el modelo ajustado resulta bastante bueno para predecir el precio de una vivienda tipo apartamento en la zona sur de la ciudad. Un aspecto para considerar tiene que ver con la poca significancia que representa la variable habitaciones.
Realice la validación de supuestos del modelo e interprete los resultados (no es necesario corregir en caso de presentar problemas, solo realizar sugerencias de que se podría hacer).
##
## Call:
## lm(formula = log_preciom ~ log_areaconst + estrato + habitaciones +
## parqueaderos + banios, data = base3)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.80384 -0.11671 0.00526 0.13397 0.76633
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.297647 0.057689 22.494 < 2e-16 ***
## log_areaconst 0.692803 0.017124 40.458 < 2e-16 ***
## estrato 0.218540 0.006035 36.215 < 2e-16 ***
## habitaciones -0.042218 0.007724 -5.466 5.01e-08 ***
## parqueaderos 0.044694 0.007132 6.266 4.27e-10 ***
## banios 0.075735 0.006902 10.974 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.2049 on 2784 degrees of freedom
## Multiple R-squared: 0.8399, Adjusted R-squared: 0.8396
## F-statistic: 2921 on 5 and 2784 DF, p-value: < 2.2e-16
El gráfico de Residuos vs Valores Ajustados muestra una distribución de
los datos aleatoria, sin ningún patrón claro. Esto establece un buen
indicador acerca de que el modelo no presenta heterocedasticidad o no
linealidad. El Q Plot muestra que los datos siguen una línea de
referencia cercana lo que sugiere que los residuos están normalmente
distribuidos; no obstante, hay una ligera desviación en los extremos lo
que podría indicar inconsistencias dentro de la distribución del
supuesto de normalidad. El gráfico de Escala-Localización muestra una
dispersión constante, lo que indica que la varianza de los residuos es
constante y el supuesto de homocedasticidad se cumple. Finalmente, el
gráfico Residuos vs Leverage muestra la existencia de valores atípicos
potenciales. En términos generales, los supuestos del modelo se cumplen
bastante bien, especialmente la linealidad, homocedasticidad y
normalidad.
Con el modelo identificado debe predecir el precio de la vivienda con las características de la segunda solicitud.
## Precio predicho para un apartamento en estrato 5: 659.9382
## Precio predicho para una apartamento en estrato 6: 821.1338
De acuerdo con la solicitud de una vivienda tipo apartamento, ubicado en la zona sur con un área construida de 300 metros cuadrados, 3 parqueadero, 3 baños, 5 habitaciones, estrato 5 o 6 y con un valor de 850 millones se tiene lo siguiente. Las predicciones del modelo establecen 660 millones para el estrato 5 y 821 millones para el estrato 6. Con base en esto, el presupuesto asignado a la compañía C&A se ajusta bastante bien al comportamiento de precios dentro del sector sur de la ciudad.
## Area construida ajustada para un precio de 850 millones en estrato 5: 432.2906
## Precio predicho ajustado para estrato 5: 850.0015
A partir de esto, con 850 millones la compañía C&A podría comprar un apartamento de 430 metros cuadrados de área, perteneciente al estrato 5 de la zona sur de la ciudad.
## Area construida ajustada para un precio de 850 millones en estrato 6: 315.3413
## Precio predicho ajustado para estrato 6: 850.0017
En cuanto al estrato 6, la compañía C&A podría comprar con 850 millones un apartamento de 315 metros cuadrados, perteneciente al estrato 6 del sur de la ciudad.
En términos generales, la compañía C&A podría tener en cuenta la opinión del cliente para tomar la decisión. Si el cliente opta por un apartamento que cumpla las condiciones exigidas, además de preferir un espacio bastante amplio, el estrato 5 sería la solución. No obstante, si el cliente se decanta por un espacio más pequeño y fácil de manejar, el estrato 6 sería el indicado.
Con las predicciones del modelo sugiera potenciales ofertas que responda a la solicitud de la vivienda 2. Tenga encuentra que la empresa tiene crédito pre-aprobado de máximo 850 millones de pesos. Realice un análisis y presente en un mapa al menos 5 ofertas potenciales que debe discutir.
## area_construida estrato habitaciones parqueaderos banios
## 1 313.2799 5 5 3 3
## 11 305.6259 5 5 3 3
## 12 303.6053 5 5 3 3
## 13 310.5475 5 5 3 3
## 14 300.2283 5 5 3 3
## precio_prediccion_ajustado
## 1 680.0421
## 11 668.4877
## 12 665.4227
## 13 675.9274
## 14 660.2862
La tabla muestra cinco registros que cumplen con lo solicitado a la compañía C&A. Se pueden ver precios muy por debajo del presupuesto asignado.
## area_construida estrato habitaciones parqueaderos banios
## 1 312.5649 6 5 3 3
## 11 305.7836 6 5 3 3
## precio_prediccion_ajustado
## 1 844.8098
## 11 832.0690
Esta tabla muestra posibles ofertas ajustadas al estrato 6. Puede verse un incremento considerable de los precios en comparación con las mismas especificaciones, pero en el estrato 5.
El mapa muestra la ubicación de posibles ofertas que cumplen con las condiciones exigidas a la compañía C&A
Este informe resume los hallazgos de una análisis del mercado inmobiliario de la Zona Norte y Sur de la ciudad de Santiago de Cali, haciendo énfasis en las características que influyen en el precio de las viviendas tipo casa y apartamento. A partir de esto, se le informa a la Compañía C&A que los resultados obtenidos a través del proceso de modelación muestran que el área construida de una casa, el estrato y el número de baños son determinantes significativos a la hora de predecir el precio de una vivienda. Por otra parte, y con énfasis en mejorar el modelo, se realizó una transformación logarítmica de las variables precio y área construida, obteniendo un resultado importante a la hora de explicar la variabilidad de los precios. Los resultados ajustados muestran que una vivienda de 259 metros cuadrados ubicada en la Zona Norte y perteneciente al estrato 4 se acerca al valor objetivo de 350 millones de pesos. Un apartamento de 300 metros cuadrados en estrato 5 está muy por debajo del presupuesto de 850 millones; en cambio, un apartamento con las mismas condiciones ubicado en estrato 6 presenta un valor de 850 millones con un área muy ajustada a los 300 metros cuadrados.
Establecer los factores que influyen en el precio de las viviendas tipo casa y apartamento ubicadas en la zona norte y sur de la ciudad de Santiago de Cali a través de un proceso de modelamiento de variables con el fin de orientar las acciones de la Compañía C&A frente al comportamiento del mercado.
Para la ejecución del proceso de modelamiento se utilizaron técnicas asociadas con la Regresión Lineal Múltiple. Se aplicaron transformaciones logarítmicas para mejorar la homocedasticidad y la linealidad del modelo.
Dentro del proceso de modelamiento se estableció la variable precio de vivienda en función del área construida, el estrato socioeconómico, el número de baños, habitaciones y parqueaderos.
• Área Construida para vivienda tipo casa y apartamento: Esta variable presenta la correlación más fuerte con el precio, teniendo una correlación del 0.73 para las casas. Esto indica que, a mayor área de la casa, más altos será el precio. En cuanto a los apartamento, esta relación explica la variabilidad del 0.76 del modelo. En términos generales, la relación del precio en función del área construida presenta una correlación más fuerte en las viviendas tipo apartamento.
• Estrato: Esta variable presenta una correlación moderadamente fuerte para las casas, indicando un valor del 0.61. A partir de esto, entre más alto sea el estrato socioeconómico, más caro será el precio de la casa. En el caso de los apartamentos, el estrato explica el 0.67 de la variabilidad.
• Número de baños: Presenta una correlación moderada en las casas equivalente a 0.54. Esto plantea que las casas con más baños tienen precios más altos. En el caso de los apartamentos, la correlación es alta ya que implica el 0.72. El número de baños adquiere un valor muy importante en los apartamentos.
• Número de habitaciones: Dentro del modelo de casas y apartamentos, presenta la correlación más débil ya que arroja un valor del 0.34 en los dos casos. Con base en esto, no puede considerarse que el precio de una vivienda oscile en función del número de habitaciones, al menos en lo que a casas y apartamentos se refiere.
Se le plantea a la directora de C&A que el tamaño de la casa, el estrato socioeconómico donde se ubica y las comodidades son factores claves en la determinación de los precios. En este este sentido, el modelo ejecutado y presentado se caracteriza por ser robusto y estadísticamente significativo, explicando aproximadamente el 78% de la variabilidad de los precios de las casas, y el 84% de la variabilidad de los precios del los apartamentos.
Dentro del estrato 4 pueden encontrarse casas con área de construcción mayores a 200 metros cuadrados con precios competitivos cercanos al valor objetivo de 350 millones de pesos. Por otra parte, se recomienda a la compañía C&A orientar el proceso de negocio a la venta de casas dentro del estrato 4. Esto hecho plantea beneficios importantes ya que los clientes podrán sentirse atraídos por viviendas con áreas grandes y comodidades, además de costos menores asociados con un estrato menor al 5 y 6, pero con beneficios similares. En cuanto a los apartamentos, ocurre algo similar. Dentro del estrato 5 pueden encontrarse apartamentos amplios con valores muy inferiores al presupuesto de 850 millones. Tanto en un caso como en el otro, se necesario que los vendedores de la compañía evalúen las necesidades de los clientes ya un espacio muy grande puede no ser atractivo sobre todo cuando se trata de ejecutivos que vienen de otros lugares por motivos de trabajo.
Pueden existir otras variables significativas que no fueron tomadas en cuenta como pueden ser la características del vecindario asociadas con accesibilidad a colegios, vías principales, hospitales, etc. A partir de esto, el modelo podría mejorarse con una base de datos más grande y con más variables explicativas. La inclusión de variables como la antigüedad de la vivienda, la cercanía a servicios y la calidad de acabados podría ayudar de manera significativa a la comprensión del mercado. Por otra parte, deben considerarse factores psicológicos de los clientes como preferencias y estatus. Debe tenerse en cuenta, qué clientes prefieren determinado tipo de vivienda. Por ejemplo, las casas se relacionan con familiar más numerosas con posible ascenso social, pero más orientadas a espacios grandes. Los apartamentos, en cambio, suelen ser preferidos por familias pequeñas y con interés de estatus (esto con base en los estratos donde se está ejecutando el análisis, en estratos inferiores los apartamentos pueden tener otro significado).