En el contexto actual, las ventas de bienes raíces en la ciudad de Cali han experimentado una disminución considerable a lo largo del año. Este fenómeno se ha visto influenciado por diversas tensiones políticas y sociales que han afectado la actividad económica del sector. A pesar de este escenario, las instituciones bancarias han mantenido su apoyo a la industria inmobiliaria, ofreciendo generosos préstamos para proyectos de construcción comercial y residencial.
Con la expectativa de que la situación mejore en el corto plazo y que el mercado inmobiliario se reactive, es crucial prepararse para capitalizar las oportunidades que surgirán. En este marco, María ha recibido recientemente una solicitud de asesoría para la compra de dos viviendas por parte de una compañía internacional que planea ubicar a sus empleados en la ciudad. Este desafío requiere un análisis detallado y riguroso, utilizando técnicas avanzadas de modelación para evaluar las alternativas disponibles y ofrecer recomendaciones fundamentadas.
Este informe ejecutivo tiene como objetivo proporcionar a María un análisis comparativo de las dos opciones de vivienda, respaldado por estimaciones precisas, validaciones y una comparación exhaustiva de los modelos aplicados. Este enfoque garantizará que las recomendaciones sean tanto estratégicas como operativas, facilitando una toma de decisiones informada y efectiva en un mercado complejo y en constante evolución.
#se visualiza como esta compuesta la base de datos
head(vivienda)
## # A tibble: 6 × 13
## id zona piso estrato preciom areaconst parqueaderos banios habitaciones
## <dbl> <chr> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 1147 Zona O… <NA> 3 250 70 1 3 6
## 2 1169 Zona O… <NA> 3 320 120 1 2 3
## 3 1350 Zona O… <NA> 3 350 220 2 2 4
## 4 5992 Zona S… 02 4 400 280 3 5 3
## 5 1212 Zona N… 01 5 260 90 1 2 3
## 6 1724 Zona N… 01 5 240 87 1 3 3
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>
dim(vivienda)
## [1] 8322 13
La base de datos revela una variedad de propiedades distribuidas en diferentes zonas de la ciudad. Estas propiedades varían significativamente en términos de área construida, número de parqueaderos, baños, y habitaciones, así como en su precio.
#se hace un resumen de las variables numericas
summary(vivienda)
## id zona piso estrato
## Min. : 1 Length:8322 Length:8322 Min. :3.000
## 1st Qu.:2080 Class :character Class :character 1st Qu.:4.000
## Median :4160 Mode :character Mode :character Median :5.000
## Mean :4160 Mean :4.634
## 3rd Qu.:6240 3rd Qu.:5.000
## Max. :8319 Max. :6.000
## NA's :3 NA's :3
## preciom areaconst parqueaderos banios
## Min. : 58.0 Min. : 30.0 Min. : 1.000 Min. : 0.000
## 1st Qu.: 220.0 1st Qu.: 80.0 1st Qu.: 1.000 1st Qu.: 2.000
## Median : 330.0 Median : 123.0 Median : 2.000 Median : 3.000
## Mean : 433.9 Mean : 174.9 Mean : 1.835 Mean : 3.111
## 3rd Qu.: 540.0 3rd Qu.: 229.0 3rd Qu.: 2.000 3rd Qu.: 4.000
## Max. :1999.0 Max. :1745.0 Max. :10.000 Max. :10.000
## NA's :2 NA's :3 NA's :1605 NA's :3
## habitaciones tipo barrio longitud
## Min. : 0.000 Length:8322 Length:8322 Min. :-76.59
## 1st Qu.: 3.000 Class :character Class :character 1st Qu.:-76.54
## Median : 3.000 Mode :character Mode :character Median :-76.53
## Mean : 3.605 Mean :-76.53
## 3rd Qu.: 4.000 3rd Qu.:-76.52
## Max. :10.000 Max. :-76.46
## NA's :3 NA's :3
## latitud
## Min. :3.333
## 1st Qu.:3.381
## Median :3.416
## Mean :3.418
## 3rd Qu.:3.452
## Max. :3.498
## NA's :3
La base de datos vivienda muestra información detallada sobre diversas variables relevantes en el contexto del análisis de propiedades inmobiliarias. La base de datos contiene un total de 8,322 registros de propiedades
Datos Faltantes: Se observa una cantidad significativa de valores faltantes en las variables parqueaderos, estrato, preciom, areaconst, banios, habitaciones, longitud, y latitud. En particular, la variable parqueaderos presenta un número considerable de valores faltantes (1,605), lo que podría afectar la calidad y la robustez del análisis de regresión. Se recomienda investigar la causa de estos valores faltantes y considerar métodos para imputarlos o eliminarlos en el análisis
La variabilidad en los precios y en las áreas construidas es notable, con propiedades que van desde pequeños apartamentos hasta grandes casas con amplias áreas construidas.
La distribución del estrato muestra que la mayoría de las propiedades están en estratos medios y altos (4 y 5), lo que es típico en áreas urbanas desarrolladas. Este patrón podría influir en la estimación del precio y en la interpretación del modelo de regresión.
#Verificar si aún hay valores faltantes
any(is.na(vivienda))
## [1] TRUE
# se grafica los valors faltantes y en cero
md.pattern(vivienda,rotate.names =TRUE)
## preciom id zona estrato areaconst banios habitaciones tipo barrio longitud
## 4808 1 1 1 1 1 1 1 1 1 1
## 1909 1 1 1 1 1 1 1 1 1 1
## 876 1 1 1 1 1 1 1 1 1 1
## 726 1 1 1 1 1 1 1 1 1 1
## 1 1 0 0 0 0 0 0 0 0 0
## 2 0 0 0 0 0 0 0 0 0 0
## 2 3 3 3 3 3 3 3 3 3
## latitud parqueaderos piso
## 4808 1 1 1 0
## 1909 1 1 0 1
## 876 1 0 1 1
## 726 1 0 0 2
## 1 0 0 0 12
## 2 0 0 0 13
## 3 1605 2638 4275
Parqueaderos: Esta variable muestra una cantidad considerable de datos faltantes, destacada en el gráfico por una columna roja/rosada. Esto confirma el resumen estadístico que mencionaba 1,605 valores faltantes.
Piso: La variable piso también presenta un número considerable de datos faltantes. Esto sugiere que para varias propiedades, el dato referente al piso no fue registrado.
se crea una funcion para impunacion de los valores faltantes
# Función para calcular la moda
calcular_moda <- function(x) {
tabla <- table(x)
moda <- names(tabla[tabla == max(tabla)])
if (length(moda) > 1) moda <- moda[1] # En caso de múltiples modas, selecciona la primera
return(moda)
}
# Función para imputar valores faltantes y ceros
imputar_valores <- function(data) {
for (col_name in names(data)) {
# Verifica si la columna es numérica
if (is.numeric(data[[col_name]])) {
# Reemplaza NA y ceros con la media calculada
indices <- which(is.na(data[[col_name]]) )
data[[col_name]][indices] <- 0
} else {
# Imputar con la moda para columnas no numéricas
moda <- calcular_moda(data[[col_name]])
data[[col_name]][is.na(data[[col_name]])] <- moda
}
}
return(data)
}
La variable piso no resulta muy revelante para las solicitudes pues en ningún caso ni en las casas ni en los apartamentos, se solicitó un número determinado de pisos en casas o la ubicación en un piso en particular en apartamentos, por tanto se elimina del set de datos y para parqueaderos en el caso de esta variable se le imputará el valor 0 a los registros de parqueaderos que aparecen en NA.
vivienda_limpia <- imputar_valores(vivienda)
# Revisa si la imputación se ha aplicado correctamente
sum(is.na(vivienda_limpia))
## [1] 0
# Eliminando las columnas 'id',usando subset()
vivienda_data <- subset(vivienda_limpia, select = -c(id, piso))
any(is.na( vivienda_data))
## [1] FALSE
md.pattern(vivienda_data,rotate.names = TRUE)
## /\ /\
## { `---' }
## { O O }
## ==> V <== No need for mice. This data set is completely observed.
## \ \|/ /
## `-----'
## zona estrato preciom areaconst parqueaderos banios habitaciones tipo
## 8322 1 1 1 1 1 1 1 1
## 0 0 0 0 0 0 0 0
## barrio longitud latitud
## 8322 1 1 1 0
## 0 0 0 0
El gráfico indica que no hay datos faltantes en ninguna de las variables después de la limpieza. Esto es un resultado positivo, ya que tener un conjunto de datos completo es crucial para realizar análisis estadísticos y modelado predictivo sin sesgos introducidos por la falta de datos.
## # A tibble: 3 × 11
## zona estrato preciom areaconst parqueaderos banios habitaciones tipo barrio
## <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <chr> <chr>
## 1 Zona … 5 320 150 2 4 6 Casa acopi
## 2 Zona … 5 780 380 2 3 3 Casa acopi
## 3 Zona … 6 750 445 0 7 6 Casa acopi
## # ℹ 2 more variables: longitud <dbl>, latitud <dbl>
## Descriptive Statistics
## base1
## N: 722
##
## areaconst banios habitaciones parqueaderos preciom
## ----------------- ----------- -------- -------------- -------------- ---------
## Mean 264.85 3.56 4.51 1.31 445.91
## Std.Dev 167.17 1.52 1.83 1.53 268.36
## Min 30.00 0.00 0.00 0.00 89.00
## Q1 140.00 2.00 3.00 0.00 260.00
## Median 240.00 3.00 4.00 1.00 390.00
## Q3 337.00 4.00 5.00 2.00 550.00
## Max 1440.00 10.00 10.00 10.00 1940.00
## MAD 146.78 1.48 1.48 1.48 220.17
## IQR 196.75 2.00 2.00 2.00 288.75
## CV 0.63 0.43 0.41 1.16 0.60
## Skewness 1.85 0.67 0.64 1.60 1.76
## SE.Skewness 0.09 0.09 0.09 0.09 0.09
## Kurtosis 6.24 1.00 1.18 3.55 4.65
## N.Valid 722.00 722.00 722.00 722.00 722.00
## Pct.Valid 100.00 100.00 100.00 100.00 100.00
La tabla muestra las estadísticas descriptivas de las variables clave en la base de datos base1, que contiene un total de 722 observaciones.
Las variables areaconst, banios, habitaciones, y preciom muestran una considerable variabilidad, como lo indican sus desviaciones estándar y coeficientes de variación. Esto es particularmente evidente en parqueaderos, con un CV de 1.16, lo que sugiere una gran dispersión en la cantidad de parqueaderos disponibles entre las propiedades.
La mayoría de las variables presentan una distribución sesgada hacia la derecha (skewness positiva), indicando que existen algunas propiedades con valores muy altos que influyen en la media de la variable. Esto es particularmente notable en las variables areaconst, parqueaderos, y preciom, ademas los valores registrados en el tercer cuartil (Q3) se aprecia la presencia de outliers
Existe una tendencia positiva clara entre el área construida y el precio de la vivienda. En general, a medida que el área construida aumenta, el precio de la vivienda también tiende a incrementarse. Esto es un hallazgo esperado, ya que en el mercado inmobiliario, propiedades con mayor área construida suelen tener precios más altos
Aunque hay una tendencia positiva, también se observa una considerable dispersión en los datos. Propiedades con áreas construidas similares pueden tener precios muy diferentes.
Especialmente en las propiedades con áreas construidas más grandes (por encima de 500 m²), la dispersión de los precios es más amplia, lo que indica que otros factores podrían estar jugando un papel significativo en la determinación del precio en estos casos.
Se crea un mapa para visualizar si los puntos están correctamente ubicados en la Zona Norte.
## Warning: package 'leaflet' was built under R version 4.3.3
El mapa proporcionado muestra la ubicación de las casas en la Zona Norte de Cali, visualizadas como puntos azules sobre un mapa de la ciudad. El mapa utiliza un sistema de coordenadas geográficas para posicionar cada vivienda según sus longitudes y latitudes.
La presencia de puntos en áreas que no son la Zona Norte podría deberse a varios factores, como: * Errores en la ubicación geográfica: Los datos de coordenadas podrían no haber sido registrados correctamente, resultando en ubicaciones incorrectas.
De la matriz de correlaciones se observa lo siguente :
areaconst (0.73): Existe una correlación positiva fuerte entre el precio de la vivienda y el área construida. Esto sugiere que a medida que el área construida de una propiedad aumenta, el precio también tiende a subir significativamente
estrato (0.61): También se observa una correlación positiva considerable entre el estrato socioeconómico y el precio. Esto indica que las viviendas en estratos más altos tienden a tener precios más altos
banios (0.52): El número de baños muestra una correlación moderada con el precio, lo que sugiere que más baños generalmente están asociados con un precio más alto.
banios y habitaciones (0.58): Hay una correlación moderada entre el número de baños y el número de habitaciones, lo cual es esperado, ya que casas más grandes suelen tener más de ambos.
Incremento en el Precio con el Estrato: Hay una clara tendencia ascendente en el precio de las viviendas a medida que aumenta el estrato. Los estratos más altos (5 y 6) tienen precios medianos y rangos intercuartílicos más elevados que los estratos más bajos (3 y 4).
Mediana del Precio: La mediana del precio aumenta progresivamente desde el estrato 3 hasta el estrato 6, lo que indica que en general, los inmuebles en estratos más altos tienden a ser más costosos.
Estrato 4 y 5: Estos estratos presentan una mayor variabilidad en los precios, especialmente el estrato 5, que tiene un número significativo de outliers por encima del rango intercuartílico. Esto sugiere que en estos estratos existen tanto viviendas más accesibles como otras mucho más costosas.
Presencia de Outliers en Estratos 4, 5 y 6: Los puntos dispersos por encima de los bigotes en estos estratos indican la presencia de propiedades con precios significativamente más altos que la mayoría, probablemente debido a características únicas como ubicaciones privilegiadas, áreas construidas mayores, o amenidades adicionales.
El gráfico de densidad proporciona una representación visual de la distribución de los precios de las viviendas en la base de datos.
La distribución del precio de las viviendas muestra una clara asimetría hacia la derecha. Esto indica que la mayoría de las viviendas tienen precios más bajos, mientras que hay menos viviendas con precios muy altos.
El pico de la densidad, que representa el valor más frecuente o modal, se encuentra entre aproximadamente 200 y 300 millones de pesos. Esto sugiere que la mayoría de las viviendas en la base de datos tienen precios en este rango.
La cola larga en el extremo derecho del gráfico indica que, aunque son raras, existen algunas viviendas con precios significativamente más altos, alcanzando hasta 2000 millones de pesos. Estas viviendas pueden representar propiedades de lujo con características excepcionales.
La evidente concentración de precios en el rango bajo y medio sugiere que el mercado de viviendas está segmentado, con un gran número de viviendas en un rango de precios accesibles y solo un pequeño segmento en el rango de lujo.
El gráfico de parejas (pair plot) proporciona una perspectiva detallada
de cómo la variable preciom (precio de las viviendas) se relaciona con
otras variables clave en la base de datos
El precio de las viviendas tiene una relación fuerte con el área construida. Esto significa que a medida que aumenta el área construida de una propiedad, el precio también tiende a aumentar significativamente. Este hallazgo es consistente con la lógica del mercado inmobiliario, donde el tamaño de la propiedad es un factor determinante del valor
Las viviendas ubicadas en estratos socioeconómicos más altos tienden a tener precios más altos. El estrato es un indicador del nivel de vida y la calidad de los servicios en una zona, lo que impacta directamente en el valor de las propiedades.
Existe una relación positiva entre el número de baños y el precio, lo que sugiere que las propiedades con más baños tienden a ser más costosas. Sin embargo, la correlación es moderada, lo que indica que, aunque el número de baños es importante, no es tan determinante como el área construida o el estrato
Aunque existe una relación positiva entre el número de habitaciones y el precio, esta relación es más débil comparada con las otras variables. Esto puede deberse a que el simple número de habitaciones no capta otros aspectos cualitativos de la vivienda, como el tamaño de las habitaciones, la distribución del espacio, o la calidad de la construcción.
##
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos +
## banios, data = base1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -964.04 -80.10 -17.08 50.06 1069.45
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -236.47551 30.36582 -7.788 2.40e-14 ***
## areaconst 0.82677 0.04368 18.926 < 2e-16 ***
## estrato 86.42579 7.39747 11.683 < 2e-16 ***
## habitaciones 1.44443 4.16411 0.347 0.729
## parqueaderos -1.67672 4.31505 -0.389 0.698
## banios 26.97978 5.34384 5.049 5.65e-07 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 159.1 on 716 degrees of freedom
## Multiple R-squared: 0.6508, Adjusted R-squared: 0.6484
## F-statistic: 266.9 on 5 and 716 DF, p-value: < 2.2e-16
Estimadores:
Area construida: Por cada metro cuadrado adicional de área construida, el precio de la vivienda aumenta en aproximadamente 0.83 millones de pesos. Esta variable es altamente significativa, lo que refuerza el hallazgo anterior de que el área construida es un factor determinante clave en el precio de la vivienda.
Estrato: Por cada unidad adicional en el estrato socioeconómico, el precio de la vivienda aumenta en promedio en 86.43 millones de pesos. Este coeficiente es también altamente significativo, lo que indica que el estrato es una variable importante en la determinación del precio de las viviendas.
baños: Cada baño adicional se asocia con un aumento de 26.98 millones de pesos en el precio de la vivienda. Esta variable es significativa, aunque su efecto es menor comparado con el área construida y el estrato.
las variables menos relevantes son el número de habitaciones y parqueaderos no son significativos en este modelo, lo que sugiere que no contribuyen de manera importante a la predicción del precio cuando se consideran junto con otras variables.
R-cuadrado (R-squared): de 0.6508 indica que aproximadamente el 65% de la variabilidad en el precio de las viviendas se explica por las variables incluidas en el modelo. Aunque el modelo tiene un ajuste razonable, la inclusión de variables adicionales o la exploración de interacciones podría mejorar el ajuste y capturar más variabilidad del precio. 0.6508 es decir que aproximadamente el 65.08% de la variabilidad en los precios de las viviendas puede explicarse por este modelo, lo que indica un ajuste razonablemente bueno
Hay un patrón de dispersión creciente de los residuos a medida que aumentan los valores ajustados, lo que sugiere una posible heterocedasticidad (variación no constante de los residuos). Esto podría indicar que el modelo no está capturando completamente la variabilidad en el precio de las viviendas en diferentes rangos de precios. La presencia de outliers significativos sugiere que algunas observaciones podrían estar influyendo desproporcionadamente en el modelo. Se recomiendaria realizar un análisis más profundo de estos outliers para determinar si deben ser removidos o si se debe ajustar el modelo para manejarlos mejor
El histograma muestra una distribución aproximadamente simétrica centrada en torno a cero, lo cual es deseable en un modelo de regresión lineal. Sin embargo, la presencia de colas en ambos extremos sugiere que hay residuos grandes que se desvían de la media, lo que podría indicar que el modelo no está capturando bien ciertos aspectos del comportamiento de los precios.
Para mejorar el modelo, se podría considerar la inclusión de variables adicionales que expliquen mejor las diferencias en los precios o la transformación de las variables existentes para mejorar el ajuste.
Gráfico de Residuos vs. Valores Ajustados : hay una
leve dispersión creciente de los residuos a medida que aumentan los
valores ajustados, lo que sugiere la presencia de heterocedasticidad
(varianza no constante de los residuos).Hay varios puntos fuera de la
nube principal de residuos, indicando la presencia de outliers. Estos
pueden estar influyendo desproporcionadamente en el modelo.
Gráfico Q-Q: Desviación de la Normalidad: Los puntos se desvían de la línea diagonal, especialmente en los extremos (colas), lo que indica que los residuos no siguen perfectamente una distribución normal.
Gráfico Scale-Location: El gráfico muestra una tendencia ascendente en la línea roja, lo que sugiere que la varianza de los residuos aumenta con los valores ajustados. Esto es un indicio claro de heterocedasticidad, lo que puede violar uno de los supuestos clave de la regresión lineal (homocedasticidad).
Gráfico de Residuos vs. Leverage: Los puntos más allá de las líneas de Cook’s distance indican observaciones que tienen una influencia significativa en el modelo. En tu gráfico, varias observaciones están cerca o más allá de estas líneas, lo que indica que tienen un alto leverage y podrían estar influyendo desproporcionadamente en el modelo.
## areaconst estrato habitaciones parqueaderos banios
## 1.518244 1.504946 1.649049 1.234902 1.887923
##
## Durbin-Watson test
##
## data: modelo
## DW = 1.633, p-value = 3.068e-07
## alternative hypothesis: true autocorrelation is greater than 0
##
## Shapiro-Wilk normality test
##
## data: modelo$residuals
## W = 0.83823, p-value < 2.2e-16
##
## studentized Breusch-Pagan test
##
## data: modelo
## BP = 139, df = 5, p-value < 2.2e-16
Dado que todos los valores de VIF están muy por debajo del umbral de 5, podemos concluir que la multicolinealidad no es un problema significativo en este modelo. Las variables independientes pueden ser incluidas sin riesgo de inflar la varianza de las estimaciones de los coeficientes.
Durbin-Watson Test: Dado que todos los valores de VIF están muy por debajo del umbral de 5, podemos concluir que la multicolinealidad no es un problema significativo en este modelo. Las variables independientes pueden ser incluidas sin riesgo de inflar la varianza de las estimaciones de los coeficientes.
Shapiro-Wilk Test para Normalidad de los Residuos : Con un p-valor extremadamente bajo (< 0.001), podemos concluir que los residuos del modelo no siguen una distribución normal. Esto confirma lo observado en el gráfico Q-Q y el histograma de residuos, donde los residuos mostraron una desviación de la normalidad, particularmente en las colas. Esto podría afectar la validez de los intervalos de confianza y pruebas de hipótesis basadas en los residuos, y podría ser necesario considerar transformaciones o métodos robustos que no dependan de la normalidad de los residuos.
Prueba de Breusch-Paganbptest: El resultado del test de Breusch-Pagan para heterocedasticidad indica que hay un problema de heterocedasticidad en el modelo de regresión lineal múltiple, dado que el p-valor es extremadamente bajo (p < 2.2e-16). Esto significa que la varianza de los errores no es constante a lo largo de los valores predichos, lo que puede afectar la fiabilidad de las inferencias estadísticas del modelo, como los intervalos de confianza y las pruebas de hipótesis. Es decir que la presencia de heterocedasticidad sugiere que el modelo puede estar subestimando o sobreestimando la variabilidad en los precios de las viviendas para ciertos rangos de valores predichos
##
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos +
## banios, data = train_data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -674.01 -80.69 -15.62 52.50 914.60
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -243.60885 33.54114 -7.263 1.46e-12 ***
## areaconst 0.81694 0.05117 15.967 < 2e-16 ***
## estrato 89.39931 8.19779 10.905 < 2e-16 ***
## habitaciones 1.67536 4.63979 0.361 0.7182
## parqueaderos -8.10306 4.81803 -1.682 0.0932 .
## banios 28.74178 5.83754 4.924 1.16e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 149 on 499 degrees of freedom
## Multiple R-squared: 0.6712, Adjusted R-squared: 0.6679
## F-statistic: 203.7 on 5 and 499 DF, p-value: < 2.2e-16
El modelo de regresión lineal múltiple estimado con el conjunto de entrenamiento (70% de los datos) muestra que tres de las cinco variables independientes (área construida, estrato y número de baños) son estadísticamente significativas para predecir el precio de las viviendas, con p-valores muy bajos (< 0.001). El coeficiente de la área construida es 0.81694, lo que sugiere que, en promedio, cada metro cuadrado adicional incrementa el precio de la vivienda en aproximadamente 0.817 millones de pesos. El estrato también tiene un impacto significativo, con un coeficiente de 89.39931, indicando que un aumento en un nivel de estrato se asocia con un incremento de 89.40 millones de pesos en el precio. El número de baños también es significativo, con un incremento promedio de 28.74 millones de pesos por cada baño adiciona
El R-cuadrado de 0.6712 indica que aproximadamente el 67% de la variabilidad en el precio de las viviendas es explicada por las variables incluidas en el modelo, lo que sugiere un buen ajuste general del modelo. Sin embargo, la presencia de heterocedasticidad identificada anteriormente y la falta de significancia de algunas variables sugieren que podría ser beneficioso explorar ajustes adicionales
## 1 2 3 4 5 6
## 434.7423 588.8713 867.5712 531.7796 457.7080 217.8096
Las predicciones realizadas utilizando el modelo de regresión lineal múltiple entrenado en el 70% de los datos se aplicaron al conjunto de prueba (30% de los datos)
## RMSE: 181.09
## MAE: 109.5265
## R2: 0.6093997
Error Cuadrático Medio (RMSE): 181.09, el RMSE indica que, en promedio, las predicciones del modelo tienen un error de aproximadamente 181.09 millones de pesos respecto al precio real. Un RMSE más bajo es indicativo de un mejor rendimiento del modelo
Error Absoluto Medio (MAE): 109.5265. Un MAE de 109.53 millones de pesos sugiere que, en promedio, las predicciones están desviadas por esta cantidad respecto al precio real. Como el MAE es menos sensible a grandes errores que el RMSE, es una medida más robusta de error promedio.
Coeficiente de Determinación (R2): 0.6093997. El R2 indica que aproximadamente el 60.94% de la variabilidad en los precios de las viviendas en el conjunto de prueba es explicada por el modelo. Aunque es un valor razonable, sugiere que hay un 39.06% de la variabilidad que no está siendo capturada por las variables incluidas en el modelo.
El RMSE y el MAE muestran que, aunque el modelo tiene un nivel de precisión aceptable, hay un margen de error significativo en las predicciones, especialmente dado el alto valor del RMSE y por otro lado el El R2 de aproximadamente 0.61 es razonable pero indica que una parte considerable de la variabilidad en los precios no está siendo explicada por el modelo
Con base en el modelo identificado, se han realizado predicciones para el precio de la Vivienda 1, tomando en cuenta las características especificadas en la primera solicitud
# Crear un data frame con las características de la Vivienda 1
vivienda1 <-data.frame(
estrato=c(4,5),
areaconst=c(200,200),
parqueaderos=c(1,1),
banios=c(2,2),
habitaciones=c(4,4)
)
## 1 2
## 332.6430 419.0688
## El precio estimado para la Vivienda estrato 4 es de: 332.643 y para estracto 5 es 419.0688 millones de pesos.
Predicciones:
Precio Estimado para la Vivienda estrato 4: 332.643 millones de pesos.
Precio Estimado para Estrato 5 : 419.0688 millones de pesos.
El precio estimado de la Vivienda 1, basado en sus características originales, es de 332.643 millones de pesos. Sin embargo, si la vivienda estuviera en un estrato 5, el modelo predice que el precio sería mayor, alcanzando los 419.0688 millones de pesos. Este análisis subraya la importancia del estrato en la determinación del precio de las propiedades en la zona estudiada
Con base en el modelo de predicción y teniendo en cuenta el crédito pre-aprobado de 350 millones de pesos, se han identificado varias viviendas que podrían ser opciones viables para la solicitud de la Vivienda 1. A continuación, se presentan las características de estas viviendas y un análisis de su adecuación a las necesidades de la empresa:
## [1] 42
## # A tibble: 6 × 11
## zona estrato preciom areaconst parqueaderos banios habitaciones tipo barrio
## <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <chr> <chr>
## 1 Zona … 3 250 240 1 2 4 Casa barra…
## 2 Zona … 5 350 200 3 3 4 Casa el bo…
## 3 Zona … 5 335 202 1 4 5 Casa el bo…
## 4 Zona … 5 340 250 2 4 4 Casa el bo…
## 5 Zona … 5 350 300 3 5 6 Casa el bo…
## 6 Zona … 5 350 240 2 3 6 Casa el bo…
## # ℹ 2 more variables: longitud <dbl>, latitud <dbl>
se presenta un mapa con la ubicación exacta de estas viviendas en la Zona Norte, utilizando las coordenadas de longitud y latitud proporcionadas, para ayudar a la empresa a visualizar mejor las opciones. Esto facilitará la discusión y comparación de las ubicaciones en términos de accesibilidad, proximidad a servicios y otras consideraciones logísticas.
Con base en el análisis de las predicciones del modelo, se han identificado cinco ofertas que se ajustan al crédito pre-aprobado de 350 millones de pesos. Aquí están los detalles de estas ofertas:
## # A tibble: 5 × 11
## zona estrato preciom areaconst parqueaderos banios habitaciones tipo barrio
## <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <chr> <chr>
## 1 Zona … 4 230 250 2 3 5 Casa la me…
## 2 Zona … 3 240 240 1 2 4 Casa urban…
## 3 Zona … 3 245 250 1 3 8 Casa paso …
## 4 Zona … 5 250 243 1 4 5 Casa el bo…
## 5 Zona … 3 250 240 1 2 4 Casa barra…
## # ℹ 2 more variables: longitud <dbl>, latitud <dbl>
Sugerencias de Elección:
Vivienda 4 (El Bosque, Estrato 5): Si el estrato es una consideración importante y se desea un entorno socioeconómico más alto, esta vivienda sería la mejor opción. Además, ofrece un buen balance de características con 4 baños y 5 habitaciones.
Vivienda 3 (Paso del Comercio, Estrato 3): Para quienes necesitan muchas habitaciones, esta opción con 8 habitaciones es ideal, aunque está en un estrato más bajo.
Vivienda 1 (La Merced, Estrato 4): Esta vivienda ofrece una buena combinación de características, con un precio más bajo (230 millones) y dos parqueaderos, lo que podría ser beneficioso si se desea un buen equilibrio entre costo y características.
Cada una de estas viviendas tiene características que pueden ser atractivas dependiendo de las prioridades de la empresa y los empleados que se van a reubicar. La Vivienda 4 es ideal si el estrato es una prioridad, mientras que la Vivienda 3 ofrece más espacio en términos de habitaciones. La elección final dependerá de las necesidades específicas de la familia que se va a reubicar y de la importancia relativa del estrato, espacio y otros factores.
Se ha filtrado la base de datos para incluir únicamente los apartamentos que están en la Zona Sur de la ciudad, ya que es la zona requerida según la solicitud
## # A tibble: 3 × 11
## zona estrato preciom areaconst parqueaderos banios habitaciones tipo barrio
## <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <chr> <chr>
## 1 Zona … 4 290 96 1 2 3 Apar… acopi
## 2 Zona … 3 78 40 1 1 2 Apar… aguab…
## 3 Zona … 6 875 194 2 5 3 Apar… aguac…
## # ℹ 2 more variables: longitud <dbl>, latitud <dbl>
Las estadísticas descriptivas para la base de datos filtrada (base2) son las siguientes:
## Descriptive Statistics
## base2
## N: 2787
##
## areaconst banios habitaciones parqueaderos preciom
## ----------------- ----------- --------- -------------- -------------- ---------
## Mean 97.47 2.49 2.97 1.21 297.29
## Std.Dev 52.57 0.93 0.63 0.79 191.55
## Min 40.00 0.00 0.00 0.00 75.00
## Q1 65.00 2.00 3.00 1.00 175.00
## Median 85.00 2.00 3.00 1.00 245.00
## Q3 110.00 3.00 3.00 2.00 335.00
## Max 932.00 8.00 6.00 10.00 1750.00
## MAD 31.13 0.00 0.00 0.00 114.16
## IQR 45.00 1.00 0.00 1.00 160.00
## CV 0.54 0.38 0.21 0.66 0.64
## Skewness 4.33 1.18 -0.03 1.51 2.63
## SE.Skewness 0.05 0.05 0.05 0.05 0.05
## Kurtosis 38.13 1.77 2.74 11.20 10.44
## N.Valid 2787.00 2787.00 2787.00 2787.00 2787.00
## Pct.Valid 100.00 100.00 100.00 100.00 100.00
Se visualizar estas ubicaciones en un mapa usando las coordenadas proporcionadas (longitud y latitud). Esto ayudará a la empresa a evaluar la accesibilidad y proximidad a servicios y otras necesidades.
La matriz de correlación muestra las relaciones entre las diferentes variables clave en el análisis de la segunda solicitud. Aquí están los puntos más relevantes:
El precio del apartamento está fuertemente influenciado por el área construida, el número de baños, el estrato y el número de parqueaderos. Estas variables deben ser prioritarias en cualquier análisis o modelado predictivo del precio.
Las correlaciones entre las variables independientes muestran algunas relaciones esperadas, como la fuerte relación entre área construida y baños, o entre parqueaderos y estrato. Sin embargo, no hay indicios significativos de multicolinealidad extrema que puedan complicar el modelado.
El gráfico que se presenra muestra la relación entre las variables y el precio (en millones de pesos) para los apartamentos en la base de datos.
El área construida es un factor clave en la determinación del precio, como lo indica la tendencia positiva en el gráfico. Sin embargo, la dispersión de los puntos y la presencia de outliers sugieren que es crucial considerar otros factores para una estimación precisa del precio. La combinación de estos factores con el área construida debería proporcionar un modelo más robusto y predictivo para el análisis del mercado de apartamentos en la zona.
El gráfico de cajas (boxplot) muestra la distribución del precio de los apartamentos en función del estrato socioeconómico. Aquí están las observaciones clave: El estrato socioeconómico es un determinante clave del precio de los apartamentos, con una clara relación positiva entre el estrato y el precio. Sin embargo, dentro de cada estrato, especialmente en los más altos, existe una variabilidad significativa en los precios, lo que sugiere que otros factores como la ubicación específica, el tamaño, y las características del apartamento también juegan un papel importante.
El gráfico de matrices de dispersión muestra las relaciones entre varias variables clave en el análisis, específicamente enfocándose en las correlaciones entre estas variables y el precio
Las variables areaconst, banios, y estrato son las más relevantes para determinar el precio de un apartamento. Además, las correlaciones entre las variables independientes sugieren que hay relaciones esperadas entre el tamaño del apartamento, el número de baños y el estrato. Este gráfico de parejas de variables es útil para identificar posibles interacciones y multicolinealidad que se deben considerar en la construcción de modelos predictivos.
Modelo de regresión lineal múltiple que intenta predecir el precio de las viviendas (preciom) basado en las variables areaconst (área construida), estrato, habitaciones, parqueaderos, y banios
##
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos +
## banios, data = base1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -964.04 -80.10 -17.08 50.06 1069.45
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -236.47551 30.36582 -7.788 2.40e-14 ***
## areaconst 0.82677 0.04368 18.926 < 2e-16 ***
## estrato 86.42579 7.39747 11.683 < 2e-16 ***
## habitaciones 1.44443 4.16411 0.347 0.729
## parqueaderos -1.67672 4.31505 -0.389 0.698
## banios 26.97978 5.34384 5.049 5.65e-07 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 159.1 on 716 degrees of freedom
## Multiple R-squared: 0.6508, Adjusted R-squared: 0.6484
## F-statistic: 266.9 on 5 and 716 DF, p-value: < 2.2e-16
Variables Significativas: areaconst, estrato, y banios son las variables más significativas en la predicción del precio de las viviendas. Esto es consistente con el análisis de correlación previo, donde estas variables mostraban correlaciones fuertes con el precio.
Variables No Significativas: habitaciones y parqueaderos no muestran significancia estadística, lo que sugiere que no aportan mucha información adicional en el contexto de las otras variables en el modelo.
Modelo General: El modelo tiene un buen ajuste general (R-cuadrado de 0.6508) y es estadísticamente significativo, lo que lo convierte en una herramienta útil para predecir el precio de las viviendas en función de las variables incluidas.
Heterocedasticidad: La posible presencia de heterocedasticidad sugiere que podrías considerar una transformación de las variables dependientes o independientes para estabilizar la varianza
Normalidad de Residuos: Aunque la mayor parte de los residuos se distribuyen de manera aproximadamente normal, la ligera asimetría y la presencia de outliers indican que podría ser beneficioso investigar más a fondo las causas de estos outliers y considerar si una transformación logarítmica o de otro tipo podría ayudar a mejorar la normalidad
Heterocedasticidad: Existe evidencia de heterocedasticidad en los residuos, lo que sugiere que la varianza no es constante.
Normalidad de Residuos: Aunque la mayoría de los residuos siguen una distribución normal, hay desviaciones en las colas del gráfico Q-Q.
Outliers y Puntos Influyentes: Algunos puntos parecen tener un impacto significativo en el modelo
## areaconst estrato habitaciones parqueaderos banios
## 2.020543 1.705639 1.418810 1.776016 2.482470
##
## Durbin-Watson test
##
## data: modelo2
## DW = 1.5041, p-value < 2.2e-16
## alternative hypothesis: true autocorrelation is greater than 0
##
## Shapiro-Wilk normality test
##
## data: modelo2$residuals
## W = 0.78157, p-value < 2.2e-16
Los resultados del análisis del modelo de regresión lineal múltiple indican que, aunque no existe un problema significativo de multicolinealidad entre las variables independientes, se detectaron autocorrelación positiva en los residuos (Durbin-Watson = 1.5041, p < 2.2e-16) y una clara desviación de la normalidad en los residuos (Shapiro-Wilk = 0.78157, p < 2.2e-16). Estos problemas sugieren que el modelo podría no estar capturando adecuadamente la relación entre las variables y el precio de las viviendas, lo que podría afectar la precisión de las predicciones y la validez de las inferencias.
Se crea un dataframe (vivienda2) se utiliza para predecir el precio del apartamento con diferentes estratos (5 y 6) usando el modelo de regresión ajustado previamente. Esto permitirá ver cómo el cambio en el estrato afecta el precio estimado mientras mantienes constantes las otras características de la vivienda.
## 1 2
## 679.4951 736.5012
## El precio estimado para el apartamento estracto 5 es de: 679.4951 y para estracto 6 es 736.5012 millones de pesos.
Los resultados de las predicciones para la segunda solicitud indican que:
*Apartamento en Estrato 5: El precio estimado es de 679.4951 millones de pesos.
*Apartamento en Estrato 6: El precio estimado es de 736.5012 millones de pesos.
Para el punto 6 de la actividad, los resultados muestran dos opciones de apartamentos que cumplen con las condiciones de la solicitud de la segunda vivienda con un crédito preaprobado de 850 millones de pesos:
## [1] 2
## # A tibble: 2 × 11
## zona estrato preciom areaconst parqueaderos banios habitaciones tipo barrio
## <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <chr> <chr>
## 1 Zona … 5 730 573 3 8 5 Apar… guada…
## 2 Zona … 5 670 300 3 5 6 Apar… semin…
## # ℹ 2 more variables: longitud <dbl>, latitud <dbl>
Ambos apartamentos se encuentran dentro del crédito preaprobado de 850 millones de pesos. Aquí tienes un análisis de las dos opciones:
Apartamento 1 (Guadalupe): Este apartamento tiene una mayor área construida (573 m²) y un mayor número de baños (8), lo que lo hace ideal para familias que valoren el espacio y el confort adicional. El precio es de 730 millones de pesos, dejando un margen cómodo respecto al crédito disponible.
Apartamento 2 (Seminario): Este apartamento, aunque tiene un área construida menor (300 m²), cuenta con una habitación adicional (6 en total). Es más económico que el Apartamento 1, con un precio de 670 millones de pesos, lo que deja un margen aún mayor en el crédito, permitiendo quizás otras inversiones o mejoras.