Maria comenzó como agente de bienes raíces en Cali hace 10 años. Después de laborar dos años para una empresa nacional, se traslado a Bogotá y trabajó para otra agencia de bienes raíces. Sus amigos y familiares la convencieron de que con su experiencia y conocimientos del negocio debía abrir su propia agencia. Terminó por adquirir la licencia de intermediario y al poco tiempo fundó su propia compañía, C&A (Casas y Apartamentos) en Cali. Santiago y Lina, dos vendedores de la empresa anterior aceptaron trabajar en la nueva compaña. En la actualidad ocho agentes de bienes raíces colaboran con ella en C&A.
Actualmente las ventas de bienes raíces en Cali se han visto disminuidas de manera significativa en lo corrido del año. Durante este periodo muchas instituciones bancarias de ahorro y vivienda están prestando grandes sumas de dinero para la industria y la construcción comercial y residencial. Cuando el efecto producto de las tensiones políticas y sociales disminuya, se espera que la actividad económica de este sector se reactive.
Hace dos días, María recibió una carta solicitando asesoría para la compra de dos viviendas por parte de una compañía internacional que desea ubicar a dos de sus empleados con sus familias en la ciudad. Las solicitudes incluyen las siguientes condiciones:
Ayude a María a responder la solicitud, mediante técnicas modelación que usted conoce. Ella requiere le envíe un informe ejecutivo donde analice los dos casos y sus recomendaciones (Informe). Como soporte del informe debe anexar las estimaciones, validaciones y comparación de modelos requeridos (Anexos) .
En el último año, el mercado inmobiliario en Cali ha enfrentado desafíos significativos, con una marcada disminución en las ventas. A pesar de este entorno desafiante, una compañía internacional ha solicitado nuestra asesoría para encontrar dos viviendas que cumplan con criterios específicos para ubicar a sus empleados y sus familias. Este informe presenta una selección cuidadosa de propiedades que se ajustan a sus necesidades, considerando factores clave como la ubicación, el espacio y el presupuesto disponible.
El mercado inmobiliario en Cali ha experimentado una desaceleración notable en lo que va del año, afectando la disponibilidad y el precio de las propiedades. Sin embargo, aún se pueden encontrar opciones que se ajusten a las necesidades de los clientes si se realiza una búsqueda estratégica. Hemos analizado las características de las viviendas disponibles en las zonas Norte y Sur de la ciudad, enfocándonos en aquellas que ofrecen un equilibrio entre espacio, calidad y costo dentro del presupuesto preaprobado.
Para satisfacer las necesidades de la compañía internacional en su búsqueda de una casa en la Zona Norte de Cali, hemos evaluado varias opciones que cumplen con las características solicitadas. A continuación, presentamos nuestras recomendaciones basadas en las ofertas disponibles, que destacan por su ubicación, características y adecuación al presupuesto aprobado. Estas opciones han sido seleccionadas para ofrecer una visión clara y detallada de las mejores alternativas para albergar a los empleados y sus familias en la ciudad.
Recomendación 1: Casa ID 1943 en el barrio Vipasa. Precio: 350 millones de pesos. Incluye 1 parqueadero, 2 baños, estrato 5, 4 habitaciones y un área construida de 346 m².
Recomendación 2: Casa ID 3101 en el barrio San Vicente. Precio: 340 millones de pesos. Incluye 2 parqueaderos, 5 baños, estrato 5, 8 habitaciones y un área construida de 355 m².
Recomendación 3: Casa ID 3352 en el barrio El Bosque. Precio: 335 millones de pesos. Incluye 3 parqueaderos, 4 baños, estrato 4, 4 habitaciones y un área construida de 300 m².
Recomendación 4: Casa ID 4209 en el barrio El Bosque. Precio: 350 millones de pesos. Incluye 3 parqueaderos, 5 baños, estrato 5, 6 habitaciones y un área construida de 300 m².
Recomendación 5: Casa ID 5031 en el barrio Salomia. Precio: 350 millones de pesos. Incluye 1 parqueadero, 4 baños, estrato 4, 5 habitaciones y un área construida de 350 m².
Para satisfacer las necesidades de la compañía internacional, hemos seleccionado dos apartamentos que cumplen con las características requeridas para la Vivienda 2. Estos apartamentos, ubicados en la Zona Sur, destacan por sus amplias áreas construidas y su capacidad para acomodar cómodamente a las familias. A continuación, presentamos las opciones recomendadas, cada una adaptada a las especificaciones solicitadas, incluyendo el número de parqueaderos, baños y habitaciones.
Recomendación 1: Apartamento ID 7182 en el barrio Guadalupe. Precio: 730 millones de pesos. Incluye 3 parqueaderos, 8 baños, estrato 5, 5 habitaciones y un área construida de 573 m².
Recomendación 2: Apartamento ID 7512 en el barrio Seminario. Precio: 670 millones de pesos. Incluye 3 parqueaderos, 5 baños, estrato 5, 6 habitaciones y un área construida de 300 m².
Este análisis proporciona una buena base para comprender cómo se relacionan las distintas características de una vivienda con su precio y puede ser útil para informar decisiones de modelado predictivo o de valoración de propiedades.
La mayor influencia en el precio de la vivienda parece estar relacionada con el área construida y el estrato socioeconómico. Estas variables deberían considerarse como predictores clave al modelar o predecir precios de viviendas.
La área construida y el estrato son los factores que muestran una relación más clara y directa con el precio de la vivienda, lo que los convierte en variables clave para la estimación de precios.
El número de baños y el número de habitaciones también influyen en el precio, aunque en menor medida y con más variabilidad, lo que sugiere que estas variables deben considerarse en combinación con otras para predecir de manera más precisa el precio de una vivienda.
En esta sección de anexos, se detallan los pasos seguidos para obtener los resultados presentados en el informe. Aquí se incluyen Los modelos, tablas, gráficos y mapas que respaldan el análisis de las viviendas, así como las metodologías y validaciones utilizadas para asegurar la precisión de las recomendaciones. con el fin de proporcionar un soporte adicional para la evaluación y comprensión de las opciones seleccionadas.
Verificamos el resumen de los datos
## id zona piso estrato
## Min. : 1 Length:8322 Length:8322 Min. :3.000
## 1st Qu.:2080 Class :character Class :character 1st Qu.:4.000
## Median :4160 Mode :character Mode :character Median :5.000
## Mean :4160 Mean :4.634
## 3rd Qu.:6240 3rd Qu.:5.000
## Max. :8319 Max. :6.000
## NA's :3 NA's :3
## preciom areaconst parqueaderos banios
## Min. : 58.0 Min. : 30.0 Min. : 1.000 Min. : 0.000
## 1st Qu.: 220.0 1st Qu.: 80.0 1st Qu.: 1.000 1st Qu.: 2.000
## Median : 330.0 Median : 123.0 Median : 2.000 Median : 3.000
## Mean : 433.9 Mean : 174.9 Mean : 1.835 Mean : 3.111
## 3rd Qu.: 540.0 3rd Qu.: 229.0 3rd Qu.: 2.000 3rd Qu.: 4.000
## Max. :1999.0 Max. :1745.0 Max. :10.000 Max. :10.000
## NA's :2 NA's :3 NA's :1605 NA's :3
## habitaciones tipo barrio longitud
## Min. : 0.000 Length:8322 Length:8322 Min. :-76.59
## 1st Qu.: 3.000 Class :character Class :character 1st Qu.:-76.54
## Median : 3.000 Mode :character Mode :character Median :-76.53
## Mean : 3.605 Mean :-76.53
## 3rd Qu.: 4.000 3rd Qu.:-76.52
## Max. :10.000 Max. :-76.46
## NA's :3 NA's :3
## latitud
## Min. :3.333
## 1st Qu.:3.381
## Median :3.416
## Mean :3.418
## 3rd Qu.:3.452
## Max. :3.498
## NA's :3
Verificamos los tipos de variable
## id zona piso estrato preciom areaconst
## "numeric" "character" "character" "numeric" "numeric" "numeric"
## parqueaderos banios habitaciones tipo barrio longitud
## "numeric" "numeric" "numeric" "character" "character" "numeric"
## latitud
## "numeric"
Se observa que el atributo Piso está como texto, se procede a convertir a numérico para facilitar posteriores cálculos y análisis.
Podemos identificar que el dataframe cuenta con 8322 filas y 13 variables, se identifica la presencia de registros con datos faltantes o NA,las columnas con mayor presencia son Piso con 2638 registros y parqueaderos en 1605 registros.
## variable faltantes
## id id 3
## zona zona 3
## piso piso 2638
## estrato estrato 3
## preciom preciom 2
## areaconst areaconst 3
## parqueaderos parqueaderos 1605
## banios banios 3
## habitaciones habitaciones 3
## tipo tipo 3
## barrio barrio 3
## longitud longitud 3
## latitud latitud 3
En el contexto del análisis realizado, opte por utilizar la Imputación Múltiple por Ecuaciones Encadenadas (mice) debido a la complejidad de los datos y la presencia de múltiples variables interrelacionadas. Dado que el conjunto de datos incluye diversas características de las viviendas, como el precio, la ubicación, el número de habitaciones y baños, entre otros, la imputación por permite capturar de manera más precisa las relaciones entre estas variables. Además, la imputación por mice es especialmente útil cuando hay valores faltantes en varias variables y se quiere evitar sesgos en el análisis.
##
## iter imp variable
## 1 1 parqueaderos piso estrato areaconst preciom
## 1 2 parqueaderos piso estrato areaconst preciom
## 1 3 parqueaderos piso estrato areaconst preciom
## 1 4 parqueaderos piso estrato areaconst preciom
## 1 5 parqueaderos piso estrato areaconst preciom
## 2 1 parqueaderos piso estrato areaconst preciom
## 2 2 parqueaderos piso estrato areaconst preciom
## 2 3 parqueaderos piso estrato areaconst preciom
## 2 4 parqueaderos piso estrato areaconst preciom
## 2 5 parqueaderos piso estrato areaconst preciom
## 3 1 parqueaderos piso estrato areaconst preciom
## 3 2 parqueaderos piso estrato areaconst preciom
## 3 3 parqueaderos piso estrato areaconst preciom
## 3 4 parqueaderos piso estrato areaconst preciom
## 3 5 parqueaderos piso estrato areaconst preciom
## 4 1 parqueaderos piso estrato areaconst preciom
## 4 2 parqueaderos piso estrato areaconst preciom
## 4 3 parqueaderos piso estrato areaconst preciom
## 4 4 parqueaderos piso estrato areaconst preciom
## 4 5 parqueaderos piso estrato areaconst preciom
## 5 1 parqueaderos piso estrato areaconst preciom
## 5 2 parqueaderos piso estrato areaconst preciom
## 5 3 parqueaderos piso estrato areaconst preciom
## 5 4 parqueaderos piso estrato areaconst preciom
## 5 5 parqueaderos piso estrato areaconst preciom
Se identificó que en el atributo banios existen casas o apartamentos con un valor de 0 baños. Dado que toda vivienda debe contar con al menos un baño, se procede a reemplazar estos valores por 1 baño.
## [1] 45
##
## 1 2 3 4 5 6 7 8 9 10 <NA>
## 541 2946 1993 1456 890 314 107 48 15 9 3
Se procede a eliminar las filas que cumplan la condición de id=NA
## Se han eliminado 3 filas del dataset.
Verificamos que ya no queden datos faltantes.
## variable faltantes
## id id 0
## zona zona 0
## piso piso 0
## estrato estrato 0
## preciom preciom 0
## areaconst areaconst 0
## parqueaderos parqueaderos 0
## banios banios 0
## habitaciones habitaciones 0
## tipo tipo 0
## barrio barrio 0
## longitud longitud 0
## latitud latitud 0
Una vez terminamos con el análisis expliratorio de los datos y limpieza procedemos con el objetivo de la presente actividad.
## ### Descriptive Statistics
## #### vivienda_limpia
## **N:** 8319
##
## | | estrato | preciom | areaconst | parqueaderos | banios | habitaciones |
## |----------------:|--------:|--------:|----------:|-------------:|--------:|-------------:|
## | **Mean** | 4.63 | 433.90 | 174.93 | 1.75 | 3.11 | 3.61 |
## | **Std.Dev** | 1.03 | 328.67 | 142.96 | 1.09 | 1.43 | 1.46 |
## | **Min** | 3.00 | 58.00 | 30.00 | 1.00 | 0.00 | 0.00 |
## | **Q1** | 4.00 | 220.00 | 80.00 | 1.00 | 2.00 | 3.00 |
## | **Median** | 5.00 | 330.00 | 123.00 | 1.00 | 3.00 | 3.00 |
## | **Q3** | 5.00 | 540.00 | 229.00 | 2.00 | 4.00 | 4.00 |
## | **Max** | 6.00 | 1999.00 | 1745.00 | 10.00 | 10.00 | 10.00 |
## | **MAD** | 1.48 | 207.56 | 84.51 | 0.00 | 1.48 | 1.48 |
## | **IQR** | 1.00 | 320.00 | 149.00 | 1.00 | 2.00 | 1.00 |
## | **CV** | 0.22 | 0.76 | 0.82 | 0.62 | 0.46 | 0.40 |
## | **Skewness** | -0.18 | 1.85 | 2.69 | 2.49 | 0.93 | 1.63 |
## | **SE.Skewness** | 0.03 | 0.03 | 0.03 | 0.03 | 0.03 | 0.03 |
## | **Kurtosis** | -1.11 | 3.67 | 12.91 | 9.43 | 1.13 | 3.98 |
## | **N.Valid** | 8319.00 | 8319.00 | 8319.00 | 8319.00 | 8319.00 | 8319.00 |
## | **Pct.Valid** | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 |
## | **N** | 8319.00 | 8319.00 | 8319.00 | 8319.00 | 8319.00 | 8319.00 |
Se observó que, tanto en las casas clasificadas en la zona norte como en los apartamentos en la zona sur, existen discrepancias en la ubicación geográfica registrada. En el caso de las 722 casas en la zona norte, algunas están mal ubicadas en otras zonas, lo que podría deberse a errores en la georreferenciación, fallos en la codificación de zonas o errores en la captura de datos.
A pesar de que sobre el 80% de las casas en la zona norte y apartamentos en la zona sur están correctamente ubicados, se ha decidido mantener en el análisis las viviendas restantes que podrían estar mal registradas o ubicadas incorrectamente. Esto se debe a que podrían contener datos valiosos que, de excluirse, podrían perderse.
Realice un filtro a la base de datos e incluya solo las ofertas de : base1: casas, de la zona norte de la ciudad. Presente los primeros 3 registros de las bases y algunas tablas que comprueben la consulta. (Adicional un mapa con los puntos de las bases. Discutir si todos los puntos se ubican en la zona correspondiente o se presentan valores en otras zonas, por que?).
##
## Apartamento Casa
## Zona Centro 24 100
## Zona Norte 1198 722
## Zona Oeste 1029 169
## Zona Oriente 62 289
## Zona Sur 2787 1939
Se evidencia que la zona norte contiene 722 casas
##
## Casa
## 722
Tabla de frecuencia de los estratos en la zona norte
##
## 3 4 5 6
## 235 161 271 55
En la zona norte, la distribución de las casas según estrato socio económico muestra una concentración notable en los estratos superiores. De las 722 casas analizadas, 235 pertenecen al estrato 3, 161 al estrato 4, 271 al estrato 5 y 55 al estrato 6. Esta distribución indica que el 79% de las viviendas se encuentran en los estratos 5 y 6, sugiriendo una mayor pre valencia de propiedades de estrato medio-alto y alto en la zona norte.
se crea el mapa con la ubicación de las casa de la zona norte
Como ya se había señalado en el análisis exploratorio, el mapa revela que, aunque muchas viviendas están registradas como ubicadas en la zona norte, en la visualización real aparecen en otras zonas. Este problema podría estar relacionado con errores en los datos, como coordenadas incorrectas o mala digitación.
knitr::include_graphics("D:/HIT/Maestria Ciencia de Datos/II SEMESTRE/Modelos Estadisticos/Actividad_2/mapa.jpg")Al comparar las zonas delimitadas en el mapa proporcionado por la Alcaldía con el mapa generado, se confirma que la mayoría de las casas se concentran en la zona norte, lo cual concuerda con nuestras expectativas. Sin embargo, también se identifican viviendas en áreas diferentes, indicando una distribución no uniforme. Estos hallazgos refuerzan la hipótesis de que podrían existir errores en la recopilación o procesamiento de los datos, o en la actualización de las coordenadas geográficas.
Realice un análisis exploratorio de datos enfocado en la correlación entre la variable respuesta (precio de la casa) en función del área construida, estrato, numero de baños, numero de habitaciones y zona donde se ubica la vivienda. Use gráficos interactivos con el paquete plotly e interprete los resultados.
Los gráficos de dispersión presentados muestran la relación entre el precio de las viviendas (eje Y) y cuatro variables: área construida, estrato, número de baños y número de habitaciones (eje X). Aquí se detallan las observaciones clave para cada gráfico:
Existe una relación positiva entre el área construida y el precio de la vivienda. A medida que aumenta el área construida, el precio también tiende a incrementarse. La dispersión de los puntos muestra que las viviendas con mayor área construida generalmente tienen un precio más alto, aunque hay algunas excepciones.
Se observa que los precios tienden a aumentar con el estrato. Los estratos más altos (5 y 6) están asociados con precios significativamente mayores en comparación con los estratos más bajos (3 y 4). Esto refuerza la idea de que las propiedades en estratos socioeconómicos más altos tienden a ser más costosas.
Aunque hay una correlación positiva entre el número de baños y el precio, esta relación es menos evidente que con el área construida o el estrato. La mayoría de las viviendas tienen entre 1 y 3 baños, y dentro de este rango, el precio tiende a variar considerablemente, lo que sugiere que el número de baños tiene un impacto, pero no es el único factor determinante del precio.
De manera similar al número de baños, el número de habitaciones también muestra una correlación positiva con el precio, aunque con una mayor dispersión. Las viviendas con más habitaciones tienden a tener precios más altos, pero existen variaciones significativas, lo que indica que otros factores también influyen en el precio final de la vivienda.
La matriz de correlación visualizada nos permite entender cómo se relacionan las distintas variables entre sí. El gráfico utiliza una escala de colores que va del azul oscuro (baja correlación) al amarillo (alta correlación).
Existe una alta correlación positiva entre el precio de la vivienda y el área construida. Esto sugiere que a medida que aumenta el área construida, también lo hace el precio de la vivienda, lo cual es esperado y consistente con la teoría económica básica en bienes raíces.
También se observa una correlación positiva entre el precio y el estrato socioeconómico. Esto implica que los hogares en estratos más altos tienden a ser más caros, lo que es coherente con la realidad de los mercados inmobiliarios.
Aunque la correlación entre el precio y el número de baños o habitaciones es positiva, no es tan alta como la que se observa con el área construida o el estrato. Esto podría indicar que aunque estas características influyen en el precio, su impacto es menor en comparación con el área o la ubicación socioeconómica.
Área Construida vs. Estrato: Hay una correlación positiva entre estas dos variables, lo que indica que los estratos más altos tienden a tener viviendas con mayor área construida.
Habitaciones vs. Baños: Existe una correlación fuerte entre el número de habitaciones y el número de baños, lo cual es lógico ya que una mayor cantidad de habitaciones generalmente requiere más baños.
Estime un modelo de regresión lineal múltiple con las variables del punto anterior (precio = f(área construida, estrato, número de cuartos, número de parqueaderos, número de baños ) ) e interprete los coeficientes si son estadísticamente significativos. Las interpretaciones deber están contextualizadas y discutir si los resultados son lógicos. Adicionalmente interprete el coeficiente R2 y discuta el ajuste del modelo e implicaciones (que podrían hacer para mejorarlo).
modelo <- lm(preciom ~ areaconst + estrato + habitaciones + parqueaderos + banios, data = ofertas_base1)
# Resumen del modelo
summary(modelo)##
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos +
## banios, data = ofertas_base1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -883.64 -78.96 -16.08 47.22 1042.63
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -229.69916 29.26018 -7.850 1.52e-14 ***
## areaconst 0.77780 0.04392 17.710 < 2e-16 ***
## estrato 79.77974 7.20242 11.077 < 2e-16 ***
## habitaciones 0.65573 4.06513 0.161 0.872
## parqueaderos 24.38782 5.06210 4.818 1.77e-06 ***
## banios 23.25751 5.29820 4.390 1.31e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 156.6 on 716 degrees of freedom
## Multiple R-squared: 0.6617, Adjusted R-squared: 0.6593
## F-statistic: 280.1 on 5 and 716 DF, p-value: < 2.2e-16
Estimación: -229.69 Interpretación: El intercepto representa el valor del precio por m² cuando todas las variables predictoras son cero. Aunque en la práctica no tiene mucho sentido que todas las variables sean cero (por ejemplo, el número de parqueaderos no puede ser cero en todos los casos), el intercepto sigue siendo importante para el ajuste del modelo.
###Área Construida (𝛽1) Estimación: 0.77 Interpretación: Por cada unidad adicional en el área construida (en m²), el precio por m² aumenta en promedio 0.77 unidades. Esto es significativo y sugiere que un mayor tamaño del inmueble está asociado con un mayor precio por m². Este resultado es lógico, ya que más espacio generalmente tiene un valor más alto.
Estimación: 79.77 Interpretación: Un incremento en el estrato (una medida socioeconómica) está asociado con un aumento en el precio por m² de 79.77 unidades. Esto indica que las propiedades en estratos más altos tienen precios más altos, lo cual es consistente con la idea de que los inmuebles en zonas más acomodadas suelen ser más caros.
Estimación: 0.65 Interpretación: El número de cuartos no tiene un efecto estadísticamente significativo en el precio por m² (p-valor = 0.65). Esto puede indicar que el número de cuartos, en comparación con otras variables, no explica mucho de la variabilidad en el precio por m², o que su influencia es menos importante en este contexto.
Estimación: 24.38 Interpretación: Por cada parqueadero adicional, el precio por m² aumenta en promedio 24.38 unidades. Esto sugiere que tener más parqueaderos incrementa el valor del inmueble, lo cual es razonable en áreas donde los espacios de estacionamiento son limitados y valiosos.
Estimación: 23.25 Interpretación: Cada baño adicional está asociado con un aumento de 23.25 unidades en el precio por m². Esto también es lógico, ya que más baños pueden añadir comodidad y valor al inmueble.
El coeficiente de determinación R-cuadrado indica que el modelo explica aproximadamente el 66.17% de la variabilidad en el precio por m². Esto sugiere que el modelo tiene un buen ajuste, pero también hay un 33.83% de la variabilidad que no se explica por las variables incluidas en el modelo.
El R-cuadrado ajustado indica que el modelo explica aproximadamente el 65.93% de la variabilidad en el precio por m², después de ajustar por el número de predictores en el modelo. Comparación con el R-cuadrado el R-cuadrado ajustado es ligeramente menor que el R-cuadrado (0.6721).
Realice la validación de supuestos del modelo e interprete los resultados (no es necesario corregir en caso de presentar problemas, solo realizar sugerencias de que se podría hacer).
Gráfico Q-Q: Observando el gráfico Q-Q de los residuos, vemos que las desviaciones de la línea recta indican que los residuos no siguen una distribución normal, especialmente en las colas.
Este gráfico muestra una distribución de residuos que no parece presentar una variabilidad constante. La línea roja en el gráfico “Scale-Location” (raíz cuadrada de los residuos estandarizados vs valores ajustados) también sugiere una leve tendencia ascendente, lo que puede indicar heterocedasticidad.
Este gráfico muestra algunos puntos que tienen un alto leverage y un impacto potencialmente significativo en el modelo. El gráfico también muestra la distancia de Cook, que mide la influencia de cada punto.
La gráfica de “Residuales vs Valores Ajustados” muestra que los residuos se distribuyen de manera aleatoria alrededor de la línea horizontal en cero, lo que sugiere que el modelo lineal es apropiado para capturar la relación entre las variables predictoras y la respuesta.
Dado que el p-valor (p-valor < 2.2e-16) es significativamente menor que 0.05, se rechaza la hipótesis nula de normalidad de los residuos. Esto confirma que los residuos no son normales.
##
## Shapiro-Wilk normality test
##
## data: resmod
## W = 0.84012, p-value < 2.2e-16
Dado que el p-valor (1.753e-06) es menor que 0.05, se rechaza la hipótesis nula de no autocorrelación. Esto indica que hay autocorrelación positiva en los residuos.
##
## Durbin-Watson test
##
## data: modelo
## DW = 1.6357, p-value = 3.854e-07
## alternative hypothesis: true autocorrelation is greater than 0
El p-valor (0.104461) es mayor que 0.05, lo que indica que no hay suficiente evidencia para rechazar la hipótesis nula de homocedasticidad. Sin embargo, el análisis gráfico todavía sugiere una ligera preocupación por la heterocedasticidad.
##
## Goldfeld-Quandt test
##
## data: modelo
## GQ = 1.1109, df1 = 355, df2 = 355, p-value = 0.161
## alternative hypothesis: variance increases from segment 1 to 2
## preciom areaconst estrato banios habitaciones
## preciom 1.0000000 0.7313480 0.6123503 0.5233357 0.3227096
## areaconst 0.7313480 1.0000000 0.4573818 0.4628152 0.3753323
## estrato 0.6123503 0.4573818 1.0000000 0.4083039 0.1073141
## banios 0.5233357 0.4628152 0.4083039 1.0000000 0.5755314
## habitaciones 0.3227096 0.3753323 0.1073141 0.5755314 1.0000000
## VIF Variables
## 5 1.915566 banios
## 3 1.622186 habitaciones
## 1 1.583946 areaconst
## 2 1.472568 estrato
## 4 1.318045 parqueaderos
El análisis del Factor de Inflación de la Varianza (VIF) revela que no existen problemas significativos de multicolinealidad en el modelo de regresión lineal múltiple. Todos los valores de VIF se encuentran muy por debajo del umbral crítico de 5, con el valor más alto en 1.931para la variable banios. Esto indica que las variables independientes no están excesivamente correlacionadas entre sí, lo que garantiza la estabilidad de las estimaciones de los coeficientes y permite interpretar de manera confiable la influencia individual de cada predictor sobre la variable dependiente preciom. En resumen, la baja multicolinealidad observada respalda la validez del modelo y asegura que las predicciones realizadas sean robustas y precisas.
Con el modelo identificado debe predecir el precio de la vivienda con las características de la primera solicitud.
## areaconst estrato habitaciones parqueaderos banios prediccion_precio
## 1 200 4 4 1 2 318.5051
## 2 200 5 4 1 2 398.2848
Realicé una partición en los datos de forma aleatoria donde 70% sea un set para entrenar el modelo y 30% para prueba. Estime el modelo con la muestra del 70%.
##
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos +
## banios, data = train_data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -876.45 -79.27 -14.00 48.84 1028.97
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -254.47777 34.20857 -7.439 4.25e-13 ***
## areaconst 0.75966 0.04909 15.474 < 2e-16 ***
## estrato 81.02339 8.37827 9.671 < 2e-16 ***
## habitaciones 3.82952 4.77270 0.802 0.422701
## parqueaderos 28.00674 5.92494 4.727 2.94e-06 ***
## banios 24.41053 6.29120 3.880 0.000118 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 156.8 on 517 degrees of freedom
## Multiple R-squared: 0.6764, Adjusted R-squared: 0.6733
## F-statistic: 216.1 on 5 and 517 DF, p-value: < 2.2e-16
Con las predicciones del modelo sugiera potenciales ofertas que responda a la solicitud de la vivienda 1. Tenga encuentra que la empresa tiene crédito pre-aprobado de máximo 350 millones de pesos. Realice un análisis y presente en un mapa al menos 5 ofertas potenciales que debe discutir.
| id | zona | piso | estrato | preciom | areaconst | parqueaderos | banios | habitaciones | tipo | barrio | longitud | latitud |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 3101 | Zona Norte | 2 | 5 | 340 | 355 | 2 | 5 | 8 | Casa | san vicente | -76.52377 | 3.46384 |
| 5031 | Zona Norte | 3 | 4 | 350 | 350 | 1 | 4 | 5 | Casa | salomia | -76.53464 | 3.44987 |
| 1943 | Zona Norte | 1 | 5 | 350 | 346 | 1 | 2 | 4 | Casa | vipasa | -76.51847 | 3.47503 |
| 4209 | Zona Norte | 2 | 5 | 350 | 300 | 3 | 5 | 6 | Casa | el bosque | -76.53010 | 3.48577 |
| 3352 | Zona Norte | 3 | 4 | 335 | 300 | 3 | 4 | 4 | Casa | el bosque | -76.52600 | 3.43400 |
Realicé predicciones con el modelo anterior usando los datos de prueba (30%).
Calculé el error cuadrático medio, el error absoluto medio y el R2.
## MAE: 102.6861
## MSE: 24723.14
## RMSE: 157.2359
## R²: 0.611615
Interpretación: El MAE de 98.88998 millones de pesos indica que, en promedio, las predicciones del modelo están fuera del valor real por aproximadamente 98.88 millones de pesos.
Interpretación: El MSE de 23411.57 millones de pesos cuadrados refleja la media de los cuadrados de los errores (diferencias entre los valores reales y predichos). Un MSE más bajo indica un mejor ajuste del modelo, mientras que un valor más alto sugiere que hay errores significativos en las predicciones.
Interpretación: El RMSE de 153.0084 millones de pesos proporciona una medida de la magnitud promedio del error de las predicciones, en las mismas unidades que la variable dependiente (millones de pesos).
Interpretación: El R² de 0.6116 indica que el 63.22% de la variabilidad en los precios de las viviendas en el conjunto de prueba es explicada por las variables independientes incluidas en el modelo.
Realice los pasos del 1 al 6. Para la segunda solicitud que tiene un crédito pre-aprobado por valor de $850 millones.
Realice un filtro a la base de datos e incluya solo las ofertas de : base2: apartamentos, de la zona sur de la ciudad. Presente los primeros 3 registros de las bases y algunas tablas que comprueben la consulta. (Adicional un mapa con los puntos de las bases. Discutir si todos los puntos se ubican en la zona correspondiente o se presentan valores en otras zonas, por que?).
##
## Apartamento Casa
## Zona Centro 24 100
## Zona Norte 1198 722
## Zona Oeste 1029 169
## Zona Oriente 62 289
## Zona Sur 2787 1939
Se evidencia que la zona sur contiene 2787 apartamento
Tabla de frecuencia de los tipos de propiedad en la zona norte
##
## Apartamento
## 2787
Tabla de frecuencia de los estratos en la zona norte
##
## 3 4 5 6
## 201 1091 1033 462
El análisis de 2787 apartamentos muestra que el 39.15% pertenecen al estrato 4, seguido del 37.07% en el estrato 5. Los estratos 6 y 3 representan el 16.58% y 7.21%, respectivamente. Esto indica una mayor concentración de apartamentos en los estratos medios-altos.
se crea el mapa con la ubicacion de los apartamentos de la zona sur
Como ya se había señalado en el análisis exploratorio, el mapa revela que, aunque muchas viviendas están registradas como ubicadas en la zona sur, en la visualización real aparecen en otras zonas. Este problema podría estar relacionado con errores en los datos, como coordenadas incorrectas o mala digitación.
knitr::include_graphics("D:/HIT/Maestria Ciencia de Datos/II SEMESTRE/Modelos Estadisticos/Actividad_2/mapa2.jpg")Al comparar las zonas delimitadas en el mapa proporcionado por la Alcaldía con el mapa generado, se confirma que la mayoría de las casas se concentran en la zona SUR, lo cual concuerda con nuestras expectativas. Sin embargo, también se identifican viviendas en áreas diferentes, indicando una distribución no uniforme. Estos hallazgos refuerzan la hipótesis de que podrían existir errores en la recopilación o procesamiento de los datos, o en la actualización de las coordenadas geográficas.
Realice un análisis exploratorio de datos enfocado en la correlación entre la variable respuesta (precio del apartamento) en función del área construida, estrato, numero de baños, numero de habitaciones y zona donde se ubica la vivienda. Use gráficos interactivos con el paquete plotly e interprete los resultados. # 4.2 análisis de correlación entre la variable respuesta
Realice un análisis exploratorio de datos enfocado en la correlación entre la variable respuesta (precio del apartamento) en función del área construida, estrato, numero de baños, numero de habitaciones y zona donde se ubica la vivienda. Use gráficos interactivos con el paquete plotly e interprete los resultados.
Se observa una tendencia positiva a medida que aumenta el área construida, también aumenta el precio por metro cuadrado. Sin embargo, parece haber una gran concentración de datos en un rango específico del área, con algunos valores dispersos más allá de los 500 m².
Aquí también se observa una tendencia positiva. Los precios parecen aumentar conforme aumenta el estrato socioeconómico, especialmente notable en los estratos 4, 5 y 6. Esto refleja que las viviendas en zonas de mayor estrato tienden a ser más caras.
Existe una relación positiva entre el número de baños y el precio, aunque la dispersión de los puntos sugiere que la relación no es tan fuerte como en otros casos. Es posible que haya otros factores que también estén influyendo en el precio, además del número de baños.
Similar al gráfico del número de baños, hay una tendencia positiva donde más habitaciones parecen correlacionarse con un precio más alto. Sin embargo, también hay una considerable dispersión, lo que sugiere que el número de habitaciones no es el único factor determinante en el precio.
La matriz de correlación visualizada nos permite entender cómo se relacionan las distintas variables entre sí. El gráfico utiliza una escala de colores que va del azul oscuro (baja correlación) al amarillo (alta correlación).
Existe una correlación positiva fuerte entre el precio y el área construida. Esto indica que a medida que el área construida aumenta, el precio tiende a aumentar de manera significativa.
El precio también está positivamente correlacionado con el estrato, aunque no tan fuerte como con el área construida. Esto sugiere que el estrato socioeconómico de la zona tiene una influencia notable en el precio, pero no tan determinante como el tamaño del inmueble.
Existe una correlación positiva entre el número de baños y el precio, lo que indica que más baños suelen estar asociados con precios más altos.
El número de habitaciones tiene una correlación más débil con el precio en comparación con otras variables. Esto sugiere que, aunque el número de habitaciones puede influir en el precio, no es un factor tan significativo como el área construida o el número de baños.
Estime un modelo de regresión lineal múltiple con las variables del punto anterior (precio = f(área construida, estrato, número de cuartos, número de parqueaderos, número de baños ) ) e interprete los coeficientes si son estadísticamente significativos. Las interpretaciones deber están contextualizadas y discutir si los resultados son lógicos. Adicionalmente interprete el coeficiente R2 y discuta el ajuste del modelo e implicaciones (que podrían hacer para mejorarlo).
##
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos +
## banios, data = ofertas_base2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1128.79 -38.00 -2.24 38.38 927.14
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -264.90819 12.88452 -20.560 < 2e-16 ***
## areaconst 1.33312 0.04883 27.303 < 2e-16 ***
## estrato 58.68990 2.67029 21.979 < 2e-16 ***
## habitaciones -18.44877 3.32441 -5.549 3.14e-08 ***
## parqueaderos 72.91756 3.63007 20.087 < 2e-16 ***
## banios 46.40531 2.97053 15.622 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 92.94 on 2781 degrees of freedom
## Multiple R-squared: 0.765, Adjusted R-squared: 0.7646
## F-statistic: 1811 on 5 and 2781 DF, p-value: < 2.2e-16
Interpretación de Coeficientes
Estimación: -264.90
Este valor representa el precio base cuando todas las variables independientes (área construida, estrato, habitaciones, parqueaderos, baños) son cero. Dado que es un valor negativo y no tiene un significado realista en el contexto del mercado inmobiliario (ya que no puede haber un precio negativo), este intercepto principalmente ajusta el modelo a los datos.
Estimación: 1.33
Por cada metro cuadrado adicional de área construida, se espera que el precio de la vivienda aumente en promedio en 1.33 millones de pesos, manteniendo las demás variables constantes.
Estimación: 58.68 Por cada unidad adicional en el estrato socioeconómico, el precio de la vivienda aumenta en promedio en 58.68 millones de pesos, manteniendo las demás variables constantes.
Estimación: −18.44 Por cada habitación adicional, el precio de la vivienda disminuye en promedio en 18.44 millones de pesos, manteniendo las demás variables constantes
Estimación: 72.91 Por cada parqueadero adicional, el precio de la vivienda aumenta en promedio en 72.91 millones de pesos, manteniendo las demás variables constantes.
Estimación: 46.40 Por cada baño adicional, el precio de la vivienda aumenta en promedio en 46.40 millones de pesos, manteniendo las demás variables constantes.
Este valor indica que el 76.46% de la variabilidad en los precios de las viviendas es explicada por el modelo a partir de las variables incluidas (área construida, estrato, número de habitaciones, parqueaderos, y baños).
Realice la validación de supuestos del modelo e interprete los resultados (no es necesario corregir en caso de presentar problemas, solo realizar sugerencias de que se podría hacer).
Gráfico Q-Q: Hay desviaciones claras en las colas (extremos superior e inferior) del gráfico, lo que indica que los residuos no siguen una distribución normal.
Los puntos parecen estar dispersos de manera desigual, con una tendencia creciente en la dispersión conforme aumentan los valores ajustados. Esto sugiere que hay heterocedasticidad.
En el gráfico que presentaste parece haber una ligera curva en los residuos, lo que sugiere que podría haber relaciones no lineales entre la variable dependiente (precio) y algunas de las variables predictoras.
Dado que el p-valor (p-valor < 2.2e-16) es significativamente menor que 0.05, se rechaza la hipótesis nula de normalidad de los residuos. Esto confirma que los residuos no son normales.
##
## Shapiro-Wilk normality test
##
## data: resmod
## W = 0.78386, p-value < 2.2e-16
Dado que el p-valor (2.2e-16) es menor que 0.05, se rechaza la hipótesis nula de no autocorrelación. Esto indica que hay autocorrelación positiva en los residuos.
##
## Durbin-Watson test
##
## data: modelo3
## DW = 1.548, p-value < 2.2e-16
## alternative hypothesis: true autocorrelation is greater than 0
##
## Goldfeld-Quandt test
##
## data: modelo3
## GQ = 0.93233, df1 = 1388, df2 = 1387, p-value = 0.904
## alternative hypothesis: variance increases from segment 1 to 2
El p-valor (0.904) es mayor que 0.05, lo que indica que no hay suficiente evidencia para rechazar la hipótesis nula de homocedasticidad. Sin embargo, el análisis gráfico todavía sugiere una ligera preocupación por la heterocedasticidad.
## preciom areaconst estrato banios habitaciones
## preciom 1.0000000 0.7579955 0.6727067 0.7196705 0.3317538
## areaconst 0.7579955 1.0000000 0.4815593 0.6618179 0.4339608
## estrato 0.6727067 0.4815593 1.0000000 0.5686171 0.2125953
## banios 0.7196705 0.6618179 0.5686171 1.0000000 0.5149227
## habitaciones 0.3317538 0.4339608 0.2125953 0.5149227 1.0000000
## VIF Variables
## 5 2.484714 banios
## 1 2.124735 areaconst
## 4 1.757799 parqueaderos
## 2 1.630769 estrato
## 3 1.426139 habitaciones
El análisis del Factor de Inflación de la Varianza (VIF) revela que no existen problemas significativos de multicolinealidad en el modelo de regresión lineal múltiple. Todos los valores de VIF se encuentran muy por debajo del umbral crítico de 5, con el valor más alto en 2.484714 para la variable banios. Esto indica que las variables independientes no están excesivamente correlacionadas entre sí, lo que garantiza la estabilidad de las estimaciones de los coeficientes y permite interpretar de manera confiable la influencia individual de cada predictor sobre la variable dependiente preciom.
Con el modelo identificado debe predecir el precio de la vivienda con las características de la segunda solicitud.
## areaconst estrato habitaciones parqueaderos banios prediccion_precio
## 1 300 5 5 3 3 694.2006
## 2 300 6 5 3 3 752.8905
Se Realiza una partición en los datos de forma aleatoria donde 70% sea un set para entrenar el modelo y 30% para prueba. Estimando el modelo con la muestra del 70%. Muestre los resultados.
##
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos +
## banios, data = train_data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -940.69 -37.25 -0.64 38.26 894.37
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -262.39028 15.73526 -16.675 < 2e-16 ***
## areaconst 1.60072 0.06418 24.941 < 2e-16 ***
## estrato 60.70511 3.20102 18.964 < 2e-16 ***
## habitaciones -21.04770 3.99662 -5.266 1.54e-07 ***
## parqueaderos 66.30526 4.51651 14.681 < 2e-16 ***
## banios 38.45298 3.68987 10.421 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 93.86 on 1970 degrees of freedom
## Multiple R-squared: 0.7653, Adjusted R-squared: 0.7647
## F-statistic: 1285 on 5 and 1970 DF, p-value: < 2.2e-16
Con las predicciones del modelo sugiera potenciales ofertas que responda a la solicitud de la vivienda 2. Tenga encuentra que la empresa tiene crédito pre-aprobado de máximo 850 millones de pesos. Realice un análisis y presente en un mapa al menos 5 ofertas potenciales que debe discutir.
| id | zona | piso | estrato | preciom | areaconst | parqueaderos | banios | habitaciones | tipo | barrio | longitud | latitud |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 7182 | Zona Sur | 1 | 5 | 730 | 573 | 3 | 8 | 5 | Apartamento | guadalupe | -76.548 | 3.408 |
| 7512 | Zona Sur | 3 | 5 | 670 | 300 | 3 | 5 | 6 | Apartamento | seminario | -76.550 | 3.409 |
5 Ofertas que cumple las caracterisiticas, discriminada por area construida en m
Realicé predicciones con el modelo anterior usando los datos de prueba (30%).
Calculé el error cuadrático medio, el error absoluto medio y el R2.
## MAE: 52.9485
## MSE: 8570.276
## RMSE: 92.57579
## R²: 0.7541046
El MAE de 52.95 millones de pesos indica que, en promedio, las predicciones del modelo están fuera del valor real por aproximadamente 52.95 millones de pesos.
El MSE de 8570.28 millones de pesos cuadrados refleja la media de los cuadrados de los errores (diferencias entre los valores reales y predichos). Esta métrica es más sensible a errores grandes, debido a que los errores se elevan al cuadrado antes de promediarse.
Un RMSE de 92.58 sugiere que, en promedio, las predicciones del modelo están fuera del valor real por aproximadamente 92.58 millones de pesos. Este valor es moderado y sugiere que el modelo tiene una precisión razonable, pero aún hay margen para mejorar.
Un R² de 75.41% es bastante alto y sugiere que el modelo tiene un buen poder explicativo. Sin embargo, un 24.59% de la variabilidad en los precios no está explicada por el modelo, lo que indica que podrían existir otros factores no considerados en el modelo actual que también influyen en los precios de las viviendas.