Maria comenzó como agente de bienes raíces en Cali hace 10 años. Después de laborar dos años para una empresa nacional, se traslado a Bogotá y trabajó para otra agencia de bienes raíces. Sus amigos y familiares la convencieron de que con su experiencia y conocimientos del negocio debía abrir su propia agencia. Terminó por adquirir la licencia de intermediario y al poco tiempo fundó su propia compañía, C&A (Casas y Apartamentos) en Cali. Santiago y Lima, dos vendedores de la empresa anterior aceptaron trabajar en la nueva compaña. En la actualidad ocho agentes de bienes raíces colaboran con ella en C&A.
Actualmente las ventas de bienes raíces en Cali se han visto disminuidas de manera significativa en lo corrido del año. Durante este periodo muchas instituciones bancarias de ahorro y vivienda están prestando grandes sumas de dinero para la industria y la construcción comercial y residencial. Cuando el efecto producto de las tensiones políticas y sociales disminuya, se espera que la actividad económica de este sector se reactive.
Hace dos días, María recibió una carta solicitando asesoría para la compra de dos viviendas por parte de una compañía internacional que desea ubicar a dos de sus empleados con sus familias en la ciudad. Las solicitudes incluyen las siguientes condiciones:
| Características | Vivienda 1 | Vivienda 2 |
|---|---|---|
| Tipo | Casa | Apartamento |
| área construida | 200 | 300 |
| parqueaderos | 1 | 3 |
| baños | 2 | 3 |
| habitaciones | 4 | 5 |
| estrato | 4 o 5 | 5 o 6 |
| zona | Norte | Sur |
| crédito preaprobado | 350 millones | 850 millones |
Ayude a María a responder la solicitud, mediante técnicas modelación que usted conoce. Ella requiere le envíe un informe ejecutivo donde analice los dos casos y sus recomendaciones (Informe). Como soporte del informe debe anexar las estimaciones, validaciones y comparación de modelos requeridos (Anexos) .
Datos Los datos de los tres últimos meses se adjuntan en la base que puede obtener con el siguiente código en R
| variable | descripción |
|---|---|
| zona | ubicación de la vivienda : Zona Centro, Zona Norte,… |
| piso | piso que ocupa la vivienda : primer piso, segundo piso… |
| estrato | estrato socio-económico : 3,4,5,6 |
| preciom | precio de la vivienda en millones de pesos |
| areaconst | área construida |
| parqueaderos | número de parqueaderos |
| banios | número de baños |
| habitaciones | número de habitaciones |
| tipo | tipo de vivienda : Casa, Apartamento |
| barrio | tipo de vivienda : Casa, Apartamento |
| longitud | coordenada geográfica |
| latitud | coordenada geográfica |
Pasos requeridos para la obtención de los resultados
#devtools::install_github("centromagis/paqueteMODELOS") #descarga paquete
library(paqueteMODELOS)
data(vivienda)
data_vivienda1 = subset(vivienda, tipo == "Apartamento")
head(data_vivienda1, 3)
## # A tibble: 3 × 13
## id zona piso estrato preciom areaconst parqueaderos banios habitaciones
## <dbl> <chr> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 1212 Zona N… 01 5 260 90 1 2 3
## 2 1724 Zona N… 01 5 240 87 1 3 3
## 3 2326 Zona N… 01 4 220 52 2 2 3
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>
| Apartamento | |
|---|---|
| Zona Centro | 24 |
| Zona Norte | 1198 |
| Zona Oeste | 1029 |
| Zona Oriente | 62 |
| Zona Sur | 2787 |
## Tipo de inmueble Total
## 1 Apartamento 5100
Los resultados de las tablas y graficas comprueban que la base de datos data_vivienda1 solo contiene datos de apartamentos.
##
## Attaching package: 'dplyr'
## The following object is masked from 'package:gridExtra':
##
## combine
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
## Descriptive Statistics
## df_apartamentos
## N: 5100
##
## areaconst banios estrato habitaciones preciom
## ----------------- ----------- --------- --------- -------------- ---------
## Mean 112.78 2.62 4.73 2.97 366.94
## Std.Dev 69.36 1.07 0.98 0.68 289.22
## Min 35.00 0.00 3.00 0.00 58.00
## Q1 68.00 2.00 4.00 3.00 175.00
## Median 90.00 2.00 5.00 3.00 279.00
## Q3 130.00 3.00 6.00 3.00 430.00
## Max 932.00 8.00 6.00 9.00 1950.00
## MAD 41.51 1.48 1.48 0.00 176.43
## IQR 62.00 1.00 2.00 0.00 255.00
## CV 0.61 0.41 0.21 0.23 0.79
## Skewness 2.61 0.90 -0.24 0.06 2.16
## SE.Skewness 0.03 0.03 0.03 0.03 0.03
## Kurtosis 11.17 0.71 -0.96 3.82 5.43
## N.Valid 5100.00 5100.00 5100.00 5100.00 5100.00
## Pct.Valid 100.00 100.00 100.00 100.00 100.00
A partir de los resultados descriptivos obtenidos, hay varias conclusiones sobre las características de las variables areaconst, banios, estrato, habitaciones y preciom en los apartamentos analizados.
Media: 112.78 m², con un rango intercuartílico (IQR) de 62 m², lo que indica que la mayoría de los apartamentos tienen áreas construidas que varían considerablemente.
Desviación estándar: 69.36 m², lo que sugiere una variabilidad considerable en el tamaño de los apartamentos. Sesgo (Skewness): 2.61, lo que indica que la distribución está sesgada hacia la derecha, con algunos apartamentos que tienen áreas mucho más grandes que la media.
Curtosis: 11.17, lo que sugiere una distribución con colas más largas y un pico más alto que una distribución normal, probablemente debido a la presencia de algunos apartamentos muy grandes (como el máximo de 932 m²).
Media: 2.62 baños, con una mediana de 2, lo que sugiere que la mayoría de los apartamentos tienen entre 2 y 3 baños.
Desviación estándar: 1.07, lo que indica cierta variabilidad en el número de baños.
Sesgo: 0.90, lo que indica que la distribución tiene una ligera asimetría hacia la derecha.
Curtosis: 0.71, lo que sugiere que la distribución es más plana que una distribución normal, aunque no de manera significativa.
Media: 4.73, lo que indica que la mayoría de los apartamentos se encuentran en estratos socioeconómicos medios a altos.
Desviación estándar: 0.98, lo que indica una baja variabilidad, la mayoría de los apartamentos están en estratos cercanos a 5.
Sesgo: -0.24, lo que sugiere una ligera asimetría hacia la izquierda.
Curtosis: -0.96, lo que indica que la distribución es más plana que una distribución normal.
Media: 2.97 habitaciones, con una mediana de 3, lo que sugiere que la mayoría de los apartamentos tienen entre 2 y 3 habitaciones.
Desviación estándar: 0.68, lo que indica una baja variabilidad en el número de habitaciones.
Sesgo: 0.06, lo que indica que la distribución es casi simétrica.
Curtosis: 3.82, lo que sugiere una distribución con un pico más alto que la normal, lo que indica que la mayoría de los apartamentos tienen 3 habitaciones.
Media: 366.94 millones de pesos, con un rango intercuartílico de 255 millones de pesos, lo que indica una amplia variabilidad en los precios.
Desviación estándar: 289.22 millones de pesos, indicando alta dispersión en los precios.
Sesgo: 2.16, lo que sugiere una distribución altamente sesgada a la derecha, con algunos apartamentos muy caros que elevan la media.
Curtosis: 5.43, lo que indica una distribución con colas largas y un pico más alto, reflejando que hay algunos apartamentos significativamente más caros que la mayoría.
##
## Attaching package: 'plotly'
## The following object is masked from 'package:ggplot2':
##
## last_plot
## The following object is masked from 'package:stats':
##
## filter
## The following object is masked from 'package:graphics':
##
## layout
Análisis de Correlación entre Precio y Variables Numéricas
Área Construida vs Precio.
## `geom_smooth()` using formula = 'y ~ x'
Tendencia general: A medida que aumenta el área construida, también tiende a aumentar el precio del apartamento.
Dispersiones: Se observan dispersiones significativas alrededor de la línea de tendencia, lo que indicaría variabilidad en los precios para áreas construidas similares.
Outliers: Visualmente se identifican outliers, significativamente lejos de la tendencia general, lo cual podría indicar apartamentos inusualmente caros o grandes.
Estrato vs Precio
En este grafico de cajas se observa cómo el precio de los apartamentos varía entre diferentes estratos socioeconómicos y si hay diferencias significativas en la distribución de precios.
Número de Baños vs Precio
Cada caja representa la distribución del precio de los apartamentos con un número específico de baños. Se observan datos poco probables, como apartamentos sin baños y por el contrario tambien has apartamentos con 7 y 8 baños.
Número de Habitaciones vs Precio
Cada caja representa la distribución del precio de los apartamentos con un número específico de habitaciones. Al igual que en el grafico anterior se observan datos poco probables, como apartamentos sin habitaciones y por el contrario tambien has apartamentos con 7 y 9 habitaciones.
Análisis de la Zona vs Precio
Este gráfico permite identificar si hay diferencias significativas en los precios de los apartamentos en diferentes zonas y a comparar la distribución de precios entre las zonas
Conclusiones Generales: Variabilidad: Existe una variabilidad considerable en las variables de área construida y precio de los apartamentos, lo que refleja una heterogeneidad en el mercado inmobiliario en términos de tamaño y valor de los apartamentos. Distribuciones sesgadas: Las distribuciones de areaconst y preciom están sesgadas hacia la derecha, lo que indica la presencia de apartamentos más grandes y más caros que el promedio. Homogeneidad relativa en habitaciones y baños: La mayoría de los apartamentos tienen entre 2 y 3 baños y habitaciones, lo que sugiere cierta homogeneidad en la distribución de estas características. Estrato socioeconómico: La mayoría de los apartamentos están en estratos medios a altos (4 y 5), con una baja variabilidad en esta variable.
##
## Pearson's product-moment correlation
##
## data: data_vivienda1$preciom and data_vivienda1$areaconst
## t = 105.74, df = 5098, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.8199479 0.8371482
## sample estimates:
## cor
## 0.8287437
##
## Pearson's product-moment correlation
##
## data: data_vivienda1$preciom and data_vivienda1$estrato
## t = 63.967, df = 5098, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.6517619 0.6822236
## sample estimates:
## cor
## 0.6672717
##
## Pearson's product-moment correlation
##
## data: data_vivienda1$preciom and data_vivienda1$banios
## t = 78.666, df = 5098, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.7278186 0.7526237
## sample estimates:
## cor
## 0.7404732
##
## Pearson's product-moment correlation
##
## data: data_vivienda1$preciom and data_vivienda1$habitaciones
## t = 22.248, df = 5098, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.2722709 0.3223085
## sample estimates:
## cor
## 0.297494
| Variable | Correlación | Intervalo.de.Confianza.Inferior | Intervalo.de.Confianza.Superior | p.valor |
|---|---|---|---|---|
| Área Construida | 0.8287 | 0.8199 | 0.8371 | < 2.2e-16 |
| Estrato | 0.6673 | 0.6518 | 0.6822 | < 2.2e-16 |
| Número de Baños | 0.7405 | 0.7278 | 0.7526 | < 2.2e-16 |
| Número de Habitaciones | 0.2975 | 0.2723 | 0.3223 | < 2.2e-16 |
Área Construida (areaconst)
Correlación: 0.8287
Intervalo de Confianza: [0.8199, 0.8371]
p-valor: < 2.2e-16
Existe una fuerte correlación positiva entre el precio del apartamento y el área construida. Esto indica que, en general, a medida que aumenta el área construida, el precio del apartamento también tiende a aumentar significativamente.
Estrato Socioeconómico (estrato)
Correlación: 0.6673
Intervalo de Confianza: [0.6518, 0.6822]
p-valor: < 2.2e-16
Hay una correlación positiva moderada entre el precio del apartamento y el estrato socioeconómico. Esto sugiere que los apartamentos en estratos socioeconómicos más altos tienden a tener precios más altos.
Número de Baños (banios)
Correlación: 0.7405
Intervalo de Confianza: [0.7278, 0.7526]
p-valor: < 2.2e-16
La correlación positiva entre el precio del apartamento y el número de baños es bastante fuerte. Esto sugiere que, en general, los apartamentos con más baños tienden a tener precios más altos.
Número de Habitaciones (habitaciones)
Correlación: 0.2975
Intervalo de Confianza: [0.2723, 0.3223]
p-valor: < 2.2e-16
La correlación entre el precio del apartamento y el número de habitaciones es baja a moderada. Aunque hay una correlación positiva, no es tan fuerte como con el área construida o el número de baños.
##
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos +
## banios, data = data_vivienda1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1699.03 -57.72 -0.67 48.59 1005.44
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -278.47706 15.86822 -17.55 <2e-16 ***
## areaconst 2.00464 0.04839 41.42 <2e-16 ***
## estrato 56.24218 3.05907 18.39 <2e-16 ***
## habitaciones -42.66447 3.80700 -11.21 <2e-16 ***
## parqueaderos 90.42324 4.14278 21.83 <2e-16 ***
## banios 54.84690 3.41824 16.05 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 137.7 on 4225 degrees of freedom
## (869 observations deleted due to missingness)
## Multiple R-squared: 0.7845, Adjusted R-squared: 0.7843
## F-statistic: 3077 on 5 and 4225 DF, p-value: < 2.2e-16
Interpretación de los Coeficientes
Intercepto (-278.48)
El valor del intercepto en un modelo de regresión lineal indica el precio estimado del apartamento cuando todas las variables independientes son cero. En este caso, el intercepto es negativo, lo que sugiere que el modelo predice un precio negativo si las demás variables son cero. En la práctica, esto no tiene sentido, pero es un componente matemático del modelo.
Área Construida (areaconst)
Coeficiente: 2.0046
Por cada unidad adicional en el área construida, el precio del apartamento aumenta en proximadamente 2.00 millones de pesos, manteniendo constantes las demás variables. Este coeficiente es altamente significativo (p < 2e-16), lo que indica una fuerte relación positiva entre el área construida y el precio.
Este resultado es lógico, ya que un área construida mayor generalmente incrementa el valor de una propiedad
Estrato Socioeconómico (estrato)
Coeficiente: 56.2422
Cada incremento en una unidad en el estrato socioeconómico se asocia con un aumento de aproximadamente 56.24 millones de pesos en el precio del apartamento, manteniendo constantes las demás variables. Este coeficiente también es altamente significativo (p < 2e-16), lo que indica una relación positiva considerable entre el estrato y el precio.
Este resultado es coherente con la expectativa de que los apartamentos en estratos socioeconómicos más altos tienden a tener precios más altos debido a mejores servicios y condiciones en esas áreas
Número de Habitaciones (habitaciones)
Coeficiente: -42.6645
Cada habitación adicional está asociada con una disminución de aproximadamente 42.66 millones de pesos en el precio del apartamento. Aunque el coeficiente es negativo, es estadísticamente significativo (p < 2e-16). Este resultado puede parecer contraintuitivo y sugiere que el efecto de las habitaciones puede estar siendo influenciado por otras variables en el modelo, por ejemplo, podría ser que apartamentos con mas habitacones tiendan a ser mas antiguos o ubicados en areas menos deseables, lo que podria explicar el precio mas bajo.
Número de Parqueaderos (parqueaderos)
Coeficiente: 90.4232
Cada parqueadero adicional está asociado con un aumento de aproximadamente 90.42 millones de pesos en el precio del apartamento, manteniendo constantes las demás variables. Este coeficiente es estadísticamente significativo (p < 2e-16), indicando una fuerte relación positiva entre el número de parqueaderos y el precio. Esto es lógico, ya que en muchas ciudades tener más espacio para parqueo es un factor valorado positivamente.
Número de Baños (banios)
Coeficiente: 54.8469
Cada baño adicional está asociado con un aumento de aproximadamente 54.85 millones de pesos en el precio del apartamento, manteniendo constantes las demás variables. Este coeficiente también es altamente significativo (p < 2e-16), sugiriendo que más baños están asociados con un precio más alto.
Esto es coherente con la expectativa de que los apartamentos con más baños ofrecen una mayor comodidad y, por lo tanto, pueden tener un precio más alto
Medidas de Ajuste del Modelo R-cuadrado (0.7845):
Aproximadamente el 78.45% de la variabilidad en el precio del apartamento es explicada por el modelo. Esto indica un buen ajuste del modelo a los datos. Error estándar residual (137.7): Mide la dispersión de los residuos. Un error estándar más bajo indica una mejor capacidad predictiva del modelo.
Un \(R^2\) de 0.7845 es relativamente alto, lo que sugiere que el modelo captura una gran parte de la variabilidad en el precio del apartamento. Sin embargo, esto también significa que aproximadamente el 21.55% de la variabilidad no está siendo explicada por el modelo.
Conclusiones
Área Construida, Estrato Socioeconómico, Número de Parqueaderos, y Número de Baños tienen un impacto positivo y significativo en el precio del apartamento. Número de Habitaciones tiene un coeficiente negativo que puede requerir una investigación más profunda para entender la relación y el posible efecto de otras variables en el modelo.
Mejoras Posibles:
Variables Adicionales: Considera incluir variables adicionales que puedan influir en el precio, como la antigüedad del edificio, el tipo de construcción, o características del barrio. Estas variables podrían ayudar a capturar más variabilidad en el precio.
Interacciones entre Variables: Puede ser útil explorar términos de interacción entre las variables. Por ejemplo, la interacción entre el área construida y el número de baños podría revelar efectos combinados en el precio.
Transformaciones de Variables: Algunas variables pueden requerir transformaciones para capturar mejor su relación con el precio. Por ejemplo, podrías probar con logaritmos para variables altamente sesgadas.
Análisis de Residuos: Revisa los residuos del modelo para detectar patrones no capturados. Un análisis de residuos puede revelar problemas de heterocedasticidad o la presencia de valores atípicos que afectan el ajuste del modelo.
Validación Cruzada: Utiliza técnicas de validación cruzada para evaluar el modelo en diferentes subconjuntos de datos. Esto ayuda a verificar la robustez del modelo y evitar el sobreajuste.
Si los residuos están distribuidos de manera aleatoria alrededor de la línea horizontal, sin mostrar un patrón sistemático en forma de curva, arco o cualquier otra forma no lineal, indica que la relación entre la variable dependiente y las variables independientes es lineal.
##
## Attaching package: 'zoo'
## The following objects are masked from 'package:base':
##
## as.Date, as.Date.numeric
##
## Durbin-Watson test
##
## data: modelo
## DW = 1.6551, p-value < 2.2e-16
## alternative hypothesis: true autocorrelation is greater than 0
El test de Durbin-Watson (DW) se utiliza para detectar la autocorrelación en los residuos de un modelo de regresión.
DW = 1.6551: Este valor es menor que 2, lo que sugiere la presencia de autocorrelación positiva en los residuos.
p-value < 2.2e-16: Este valor es extremadamente bajo, lo que indica que la autocorrelación es estadísticamente significativa.
Homoscedasticidad
Si los residuos tienen una dispersión constante alrededor de la línea horizontal en y = 0, indica que la varianza de los errores es constante en todos los niveles de los valores ajustados. Esto se conoce como homocedasticidad y es un supuesto importante en el análisis de regresión. Si los residuos muestran un patrón de abanico o cono alrededor de la línea horizontal, puede indicar heterocedasticidad, lo que sugiere que la varianza de los errores no es constante
Un Q-Q plot (Quantile-Quantile plot) es una herramienta gráfica que se utiliza para evaluar si una distribución de datos se ajusta a una distribución teórica, como la distribución normal.
Supuesto Cumplido: Los residuos deben seguir una distribución normal, como se indica en el histograma.Para el grafico Q-Q Plot, en su mayoria los datos parecen estar distribuidos normalmente.
No Multicolinealidad
## Loading required package: carData
##
## Attaching package: 'car'
## The following object is masked from 'package:dplyr':
##
## recode
## The following object is masked from 'package:boot':
##
## logit
## areaconst estrato habitaciones parqueaderos banios
## 2.602099 1.687459 1.428418 2.110436 2.910597
El análisis de multicolinealidad se basa en los factores de inflación de la varianza (VIF) para cada variable en el modelo. Los valores de VIF indican el grado de colinealidad de cada predictor con los demás predictores del modelo.
areaconst: 2.602099estrato: 1.687459habitaciones: 1.428418parqueaderos: 2.110436banios: 2.910597Todos los valores de VIF están por debajo de 10, lo cual indica que no hay problemas graves de multicolinealidad entre las variables predictoras en el modelo. En general, un VIF superior a 10 podría ser motivo de preocupación, pero en este caso, los valores son relativamente bajos, sugiriendo que la multicolinealidad no es un problema significativo.
Esto significa que las estimaciones de los coeficientes en el modelo de regresión múltiple son confiables y no están demasiado influenciadas por la colinealidad entre los predictores.
# Establecer la semilla para la reproducibilidad
set.seed(123)
# Definir el tamaño de la muestra de entrenamiento (70%)
train_index <- sample(seq_len(nrow(data_vivienda1)), size = 0.7 * nrow(data_vivienda1))
# Crear el conjunto de entrenamiento y prueba
train_set <- data_vivienda1[train_index, ]
test_set <- data_vivienda1[-train_index, ]
# Ajustar el modelo de regresión lineal usando el conjunto de entrenamiento
modelo_entrenamiento <- lm(preciom ~ areaconst + estrato + habitaciones + parqueaderos + banios, data = train_set)
# Mostrar los resultados del modelo ajustado
summary(modelo_entrenamiento)
##
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos +
## banios, data = train_set)
##
## Residuals:
## Min 1Q Median 3Q Max
## -873.83 -52.91 0.53 47.56 990.00
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -244.74070 18.16353 -13.47 <2e-16 ***
## areaconst 2.32792 0.05929 39.27 <2e-16 ***
## estrato 52.22180 3.49788 14.93 <2e-16 ***
## habitaciones -47.66076 4.40963 -10.81 <2e-16 ***
## parqueaderos 72.38419 4.67492 15.48 <2e-16 ***
## banios 51.06072 3.89189 13.12 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 130.3 on 2956 degrees of freedom
## (608 observations deleted due to missingness)
## Multiple R-squared: 0.799, Adjusted R-squared: 0.7987
## F-statistic: 2350 on 5 and 2956 DF, p-value: < 2.2e-16
El modelo de regresión lineal múltiple ha sido ajustado con el conjunto de entrenamiento, y los resultados obtenidos muestran los coeficientes estimados para cada una de las variables predictoras.
(Intercept)):
areaconst o estrato no es realista.areaconst):
p-value < 2e-16).estrato):
habitaciones):
parqueaderos):
banios):
El modelo parece tener un buen ajuste, con la mayoría de los coeficientes siendo altamente significativos. Sin embargo, la relación negativa entre el número de habitaciones y el precio podría ser un indicio de alguna interacción o efecto no lineal que debería explorarse más a fondo.
# Realizar predicciones en el conjunto de prueba
predicciones <- predict(modelo, newdata = test_set)
# Crear un data frame con los valores reales y las predicciones
# Ajustar el tamaño de test_set para coincidir con las predicciones
resultados <- data.frame(
Real = test_set$preciom[1:length(predicciones)], # Ajustar el tamaño
Prediccion = predicciones
)
# Mostrar las primeras filas para verificar
head(resultados)
## Real Prediccion
## 1 310 452.0992
## 2 320 380.3869
## 3 100 NA
## 4 175 122.7446
## 5 430 NA
## 6 130 NA
# Calcular métricas de rendimiento
rmse <- sqrt(mean((resultados$Real - resultados$Prediccion)^2, na.rm = TRUE))
mae <- mean(abs(resultados$Real - resultados$Prediccion), na.rm = TRUE)
ss_total <- sum((resultados$Real - mean(resultados$Real, na.rm = TRUE))^2, na.rm = TRUE)
ss_residual <- sum((resultados$Real - resultados$Prediccion)^2, na.rm = TRUE)
r_squared <- 1 - (ss_residual / ss_total)
# Mostrar los resultados
cat("RMSE:", rmse, "\n")
## RMSE: 152.1135
cat("MAE:", mae, "\n")
## MAE: 89.10526
cat("R²:", r_squared, "\n")
## R²: 0.7868708
RMSE (Root Mean Squared Error) = 152.1135: Esta métrica representa la desviación promedio de las predicciones del modelo con respecto a los valores reales. Un valor más bajo indica un mejor rendimiento del modelo en términos de precisión de predicciones. En este caso, 152.1135 indica que, en promedio, las predicciones del precio del apartamento tienen un error de alrededor de 152 millones de pesos.
MAE (Mean Absolute Error) = 89.10526: Esta métrica mide el error promedio de las predicciones en términos absolutos, sin considerar la dirección del error (si es positivo o negativo). Un valor de 89.10526 significa que, en promedio, las predicciones del modelo están desviadas en 89 millones de pesos del valor real.
R² (Coeficiente de determinación) = 0.7868708: Esta métrica indica qué proporción de la variabilidad en la variable dependiente (precio del apartamento) es explicada por el modelo. Un valor de 0.7868708 indica que aproximadamente el 78.7% de la variabilidad en los precios de los apartamentos es explicada por las variables independientes (área construida, estrato, número de habitaciones, número de parqueaderos y número de baños) incluidas en el modelo. Un R² cercano a 1 indica un buen ajuste del modelo, mientras que un valor cercano a 0 indica un ajuste pobre.
Rendimiento del Modelo: El modelo parece tener un buen ajuste con un R² alto, lo que sugiere que las variables incluidas son bastante representativas para predecir el precio de los apartamentos. Sin embargo, los valores de RMSE y MAE, aunque moderados, aún muestran que hay un margen de error significativo en las predicciones.
Posibles Mejoras:
Es posible que se pueda mejorar el modelo incluyendo otras variables relevantes, o probando con modelos más complejos