Actividad 2

Maria comenzó como agente de bienes raíces en Cali hace 10 años. Después de laborar dos años para una empresa nacional, se traslado a Bogotá y trabajó para otra agencia de bienes raíces. Sus amigos y familiares la convencieron de que con su experiencia y conocimientos del negocio debía abrir su propia agencia. Terminó por adquirir la licencia de intermediario y al poco tiempo fundó su propia compañía, C&A (Casas y Apartamentos) en Cali. Santiago y Lima, dos vendedores de la empresa anterior aceptaron trabajar en la nueva compaña. En la actualidad ocho agentes de bienes raíces colaboran con ella en C&A.

Actualmente las ventas de bienes raíces en Cali se han visto disminuidas de manera significativa en lo corrido del año. Durante este periodo muchas instituciones bancarias de ahorro y vivienda están prestando grandes sumas de dinero para la industria y la construcción comercial y residencial. Cuando el efecto producto de las tensiones políticas y sociales disminuya, se espera que la actividad económica de este sector se reactive.

Hace dos días, María recibió una carta solicitando asesoría para la compra de dos viviendas por parte de una compañía internacional que desea ubicar a dos de sus empleados con sus familias en la ciudad. Las solicitudes incluyen las siguientes condiciones:

Características Vivienda 1 Vivienda 2
Tipo Casa Apartamento
área construida 200 300
parqueaderos 1 3
baños 2 3
habitaciones 4 5
estrato 4 o 5 5 o 6
zona Norte Sur
crédito preaprobado 350 millones 850 millones

Ayude a María a responder la solicitud, mediante técnicas modelación que usted conoce. Ella requiere le envíe un informe ejecutivo donde analice los dos casos y sus recomendaciones (Informe). Como soporte del informe debe anexar las estimaciones, validaciones y comparación de modelos requeridos (Anexos) .

Datos Los datos de los tres últimos meses se adjuntan en la base que puede obtener con el siguiente código en R

variable descripción
zona ubicación de la vivienda : Zona Centro, Zona Norte,…
piso piso que ocupa la vivienda : primer piso, segundo piso…
estrato estrato socio-económico : 3,4,5,6
preciom precio de la vivienda en millones de pesos
areaconst área construida
parqueaderos número de parqueaderos
banios número de baños
habitaciones número de habitaciones
tipo tipo de vivienda : Casa, Apartamento
barrio tipo de vivienda : Casa, Apartamento
longitud coordenada geográfica
latitud coordenada geográfica

Pasos requeridos para la obtención de los resultados

  1. Realice un filtro a la base de datos e incluya sólo las ofertas de apartamentos. Presente los primeros 3 registros de las bases y algunas tablas que comprueben la consulta.
#devtools::install_github("centromagis/paqueteMODELOS") #descarga paquete
library(paqueteMODELOS)
data(vivienda)
data_vivienda1 = subset(vivienda, tipo == "Apartamento")
head(data_vivienda1, 3)
## # A tibble: 3 × 13
##      id zona    piso  estrato preciom areaconst parqueaderos banios habitaciones
##   <dbl> <chr>   <chr>   <dbl>   <dbl>     <dbl>        <dbl>  <dbl>        <dbl>
## 1  1212 Zona N… 01          5     260        90            1      2            3
## 2  1724 Zona N… 01          5     240        87            1      3            3
## 3  2326 Zona N… 01          4     220        52            2      2            3
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>
Tabla de distribución por tipo y zona
Apartamento
Zona Centro 24
Zona Norte 1198
Zona Oeste 1029
Zona Oriente 62
Zona Sur 2787
##   Tipo de inmueble Total
## 1      Apartamento  5100

Los resultados de las tablas y graficas comprueban que la base de datos data_vivienda1 solo contiene datos de apartamentos.

  1. Realice un análisis exploratorio de datos enfocado en la correlación entre la variable respuesta (precio de la casa) en función del área construida, estrato, numero de baños, numero de habitaciones y zona donde se ubica la vivienda. Use gráficos interactivos con el paquete plotly e interprete los resultados.
## 
## Attaching package: 'dplyr'
## The following object is masked from 'package:gridExtra':
## 
##     combine
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
## Descriptive Statistics  
## df_apartamentos  
## N: 5100  
## 
##                     areaconst    banios   estrato   habitaciones   preciom
## ----------------- ----------- --------- --------- -------------- ---------
##              Mean      112.78      2.62      4.73           2.97    366.94
##           Std.Dev       69.36      1.07      0.98           0.68    289.22
##               Min       35.00      0.00      3.00           0.00     58.00
##                Q1       68.00      2.00      4.00           3.00    175.00
##            Median       90.00      2.00      5.00           3.00    279.00
##                Q3      130.00      3.00      6.00           3.00    430.00
##               Max      932.00      8.00      6.00           9.00   1950.00
##               MAD       41.51      1.48      1.48           0.00    176.43
##               IQR       62.00      1.00      2.00           0.00    255.00
##                CV        0.61      0.41      0.21           0.23      0.79
##          Skewness        2.61      0.90     -0.24           0.06      2.16
##       SE.Skewness        0.03      0.03      0.03           0.03      0.03
##          Kurtosis       11.17      0.71     -0.96           3.82      5.43
##           N.Valid     5100.00   5100.00   5100.00        5100.00   5100.00
##         Pct.Valid      100.00    100.00    100.00         100.00    100.00

A partir de los resultados descriptivos obtenidos, hay varias conclusiones sobre las características de las variables areaconst, banios, estrato, habitaciones y preciom en los apartamentos analizados.

  1. Área Construida (areaconst)
  1. Número de Baños (banios)
  1. Estrato (estrato)
  1. Número de Habitaciones (habitaciones)
  1. Precio de la Vivienda (preciom)
## 
## Attaching package: 'plotly'
## The following object is masked from 'package:ggplot2':
## 
##     last_plot
## The following object is masked from 'package:stats':
## 
##     filter
## The following object is masked from 'package:graphics':
## 
##     layout

Análisis de Correlación entre Precio y Variables Numéricas

Área Construida vs Precio.

## `geom_smooth()` using formula = 'y ~ x'

Tendencia general: A medida que aumenta el área construida, también tiende a aumentar el precio del apartamento.

Dispersiones: Se observan dispersiones significativas alrededor de la línea de tendencia, lo que indicaría variabilidad en los precios para áreas construidas similares.

Outliers: Visualmente se identifican outliers, significativamente lejos de la tendencia general, lo cual podría indicar apartamentos inusualmente caros o grandes.

Estrato vs Precio

En este grafico de cajas se observa cómo el precio de los apartamentos varía entre diferentes estratos socioeconómicos y si hay diferencias significativas en la distribución de precios.

Número de Baños vs Precio

Cada caja representa la distribución del precio de los apartamentos con un número específico de baños. Se observan datos poco probables, como apartamentos sin baños y por el contrario tambien has apartamentos con 7 y 8 baños.

Número de Habitaciones vs Precio

Cada caja representa la distribución del precio de los apartamentos con un número específico de habitaciones. Al igual que en el grafico anterior se observan datos poco probables, como apartamentos sin habitaciones y por el contrario tambien has apartamentos con 7 y 9 habitaciones.

Análisis de la Zona vs Precio

Este gráfico permite identificar si hay diferencias significativas en los precios de los apartamentos en diferentes zonas y a comparar la distribución de precios entre las zonas

Conclusiones Generales: Variabilidad: Existe una variabilidad considerable en las variables de área construida y precio de los apartamentos, lo que refleja una heterogeneidad en el mercado inmobiliario en términos de tamaño y valor de los apartamentos. Distribuciones sesgadas: Las distribuciones de areaconst y preciom están sesgadas hacia la derecha, lo que indica la presencia de apartamentos más grandes y más caros que el promedio. Homogeneidad relativa en habitaciones y baños: La mayoría de los apartamentos tienen entre 2 y 3 baños y habitaciones, lo que sugiere cierta homogeneidad en la distribución de estas características. Estrato socioeconómico: La mayoría de los apartamentos están en estratos medios a altos (4 y 5), con una baja variabilidad en esta variable.

## 
##  Pearson's product-moment correlation
## 
## data:  data_vivienda1$preciom and data_vivienda1$areaconst
## t = 105.74, df = 5098, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.8199479 0.8371482
## sample estimates:
##       cor 
## 0.8287437
## 
##  Pearson's product-moment correlation
## 
## data:  data_vivienda1$preciom and data_vivienda1$estrato
## t = 63.967, df = 5098, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.6517619 0.6822236
## sample estimates:
##       cor 
## 0.6672717
## 
##  Pearson's product-moment correlation
## 
## data:  data_vivienda1$preciom and data_vivienda1$banios
## t = 78.666, df = 5098, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.7278186 0.7526237
## sample estimates:
##       cor 
## 0.7404732
## 
##  Pearson's product-moment correlation
## 
## data:  data_vivienda1$preciom and data_vivienda1$habitaciones
## t = 22.248, df = 5098, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.2722709 0.3223085
## sample estimates:
##      cor 
## 0.297494
Resumen de Correlaciones entre Precio del Apartamento y Variables
Variable Correlación Intervalo.de.Confianza.Inferior Intervalo.de.Confianza.Superior p.valor
Área Construida 0.8287 0.8199 0.8371 < 2.2e-16
Estrato 0.6673 0.6518 0.6822 < 2.2e-16
Número de Baños 0.7405 0.7278 0.7526 < 2.2e-16
Número de Habitaciones 0.2975 0.2723 0.3223 < 2.2e-16

Área Construida (areaconst)

Existe una fuerte correlación positiva entre el precio del apartamento y el área construida. Esto indica que, en general, a medida que aumenta el área construida, el precio del apartamento también tiende a aumentar significativamente.

Estrato Socioeconómico (estrato)

Hay una correlación positiva moderada entre el precio del apartamento y el estrato socioeconómico. Esto sugiere que los apartamentos en estratos socioeconómicos más altos tienden a tener precios más altos.

Número de Baños (banios)

La correlación positiva entre el precio del apartamento y el número de baños es bastante fuerte. Esto sugiere que, en general, los apartamentos con más baños tienden a tener precios más altos.

Número de Habitaciones (habitaciones)

La correlación entre el precio del apartamento y el número de habitaciones es baja a moderada. Aunque hay una correlación positiva, no es tan fuerte como con el área construida o el número de baños.

  1. Estime un modelo de regresión lineal múltiple con las variables del punto anterior (precio = f(área construida, estrato, número de cuartos, número de parqueaderos, número de baños ) ) e interprete los coeficientes si son estadísticamente significativos. Las interpretaciones deber están contextualizadas y discutir si los resultados son lógicos. Adicionalmente interprete el coeficiente R2 y discuta el ajuste del modelo e implicaciones (que podrían hacer para mejorarlo).
## 
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos + 
##     banios, data = data_vivienda1)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1699.03   -57.72    -0.67    48.59  1005.44 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -278.47706   15.86822  -17.55   <2e-16 ***
## areaconst       2.00464    0.04839   41.42   <2e-16 ***
## estrato        56.24218    3.05907   18.39   <2e-16 ***
## habitaciones  -42.66447    3.80700  -11.21   <2e-16 ***
## parqueaderos   90.42324    4.14278   21.83   <2e-16 ***
## banios         54.84690    3.41824   16.05   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 137.7 on 4225 degrees of freedom
##   (869 observations deleted due to missingness)
## Multiple R-squared:  0.7845, Adjusted R-squared:  0.7843 
## F-statistic:  3077 on 5 and 4225 DF,  p-value: < 2.2e-16

Interpretación de los Coeficientes

Intercepto (-278.48)

El valor del intercepto en un modelo de regresión lineal indica el precio estimado del apartamento cuando todas las variables independientes son cero. En este caso, el intercepto es negativo, lo que sugiere que el modelo predice un precio negativo si las demás variables son cero. En la práctica, esto no tiene sentido, pero es un componente matemático del modelo.

Área Construida (areaconst)

Coeficiente: 2.0046

Por cada unidad adicional en el área construida, el precio del apartamento aumenta en proximadamente 2.00 millones de pesos, manteniendo constantes las demás variables. Este coeficiente es altamente significativo (p < 2e-16), lo que indica una fuerte relación positiva entre el área construida y el precio.

Este resultado es lógico, ya que un área construida mayor generalmente incrementa el valor de una propiedad

Estrato Socioeconómico (estrato)

Coeficiente: 56.2422

Cada incremento en una unidad en el estrato socioeconómico se asocia con un aumento de aproximadamente 56.24 millones de pesos en el precio del apartamento, manteniendo constantes las demás variables. Este coeficiente también es altamente significativo (p < 2e-16), lo que indica una relación positiva considerable entre el estrato y el precio.

Este resultado es coherente con la expectativa de que los apartamentos en estratos socioeconómicos más altos tienden a tener precios más altos debido a mejores servicios y condiciones en esas áreas

Número de Habitaciones (habitaciones)

Coeficiente: -42.6645

Cada habitación adicional está asociada con una disminución de aproximadamente 42.66 millones de pesos en el precio del apartamento. Aunque el coeficiente es negativo, es estadísticamente significativo (p < 2e-16). Este resultado puede parecer contraintuitivo y sugiere que el efecto de las habitaciones puede estar siendo influenciado por otras variables en el modelo, por ejemplo, podría ser que apartamentos con mas habitacones tiendan a ser mas antiguos o ubicados en areas menos deseables, lo que podria explicar el precio mas bajo.

Número de Parqueaderos (parqueaderos)

Coeficiente: 90.4232

Cada parqueadero adicional está asociado con un aumento de aproximadamente 90.42 millones de pesos en el precio del apartamento, manteniendo constantes las demás variables. Este coeficiente es estadísticamente significativo (p < 2e-16), indicando una fuerte relación positiva entre el número de parqueaderos y el precio. Esto es lógico, ya que en muchas ciudades tener más espacio para parqueo es un factor valorado positivamente.

Número de Baños (banios)

Coeficiente: 54.8469

Cada baño adicional está asociado con un aumento de aproximadamente 54.85 millones de pesos en el precio del apartamento, manteniendo constantes las demás variables. Este coeficiente también es altamente significativo (p < 2e-16), sugiriendo que más baños están asociados con un precio más alto.

Esto es coherente con la expectativa de que los apartamentos con más baños ofrecen una mayor comodidad y, por lo tanto, pueden tener un precio más alto

Medidas de Ajuste del Modelo R-cuadrado (0.7845):

Aproximadamente el 78.45% de la variabilidad en el precio del apartamento es explicada por el modelo. Esto indica un buen ajuste del modelo a los datos. Error estándar residual (137.7): Mide la dispersión de los residuos. Un error estándar más bajo indica una mejor capacidad predictiva del modelo.

Un \(R^2\) de 0.7845 es relativamente alto, lo que sugiere que el modelo captura una gran parte de la variabilidad en el precio del apartamento. Sin embargo, esto también significa que aproximadamente el 21.55% de la variabilidad no está siendo explicada por el modelo.

Conclusiones

Área Construida, Estrato Socioeconómico, Número de Parqueaderos, y Número de Baños tienen un impacto positivo y significativo en el precio del apartamento. Número de Habitaciones tiene un coeficiente negativo que puede requerir una investigación más profunda para entender la relación y el posible efecto de otras variables en el modelo.

Mejoras Posibles:

Validación de supuestos

  1. Realice la validación de supuestos del modelo e interprete los resultados (no es necesario corregir en caso de presentar problemas, solo realizar sugerencias de que se podría hacer).

Si los residuos están distribuidos de manera aleatoria alrededor de la línea horizontal, sin mostrar un patrón sistemático en forma de curva, arco o cualquier otra forma no lineal, indica que la relación entre la variable dependiente y las variables independientes es lineal.

## 
## Attaching package: 'zoo'
## The following objects are masked from 'package:base':
## 
##     as.Date, as.Date.numeric
## 
##  Durbin-Watson test
## 
## data:  modelo
## DW = 1.6551, p-value < 2.2e-16
## alternative hypothesis: true autocorrelation is greater than 0

El test de Durbin-Watson (DW) se utiliza para detectar la autocorrelación en los residuos de un modelo de regresión.

Si los residuos tienen una dispersión constante alrededor de la línea horizontal en y = 0, indica que la varianza de los errores es constante en todos los niveles de los valores ajustados. Esto se conoce como homocedasticidad y es un supuesto importante en el análisis de regresión. Si los residuos muestran un patrón de abanico o cono alrededor de la línea horizontal, puede indicar heterocedasticidad, lo que sugiere que la varianza de los errores no es constante

Un Q-Q plot (Quantile-Quantile plot) es una herramienta gráfica que se utiliza para evaluar si una distribución de datos se ajusta a una distribución teórica, como la distribución normal.

## Loading required package: carData
## 
## Attaching package: 'car'
## The following object is masked from 'package:dplyr':
## 
##     recode
## The following object is masked from 'package:boot':
## 
##     logit
##    areaconst      estrato habitaciones parqueaderos       banios 
##     2.602099     1.687459     1.428418     2.110436     2.910597

El análisis de multicolinealidad se basa en los factores de inflación de la varianza (VIF) para cada variable en el modelo. Los valores de VIF indican el grado de colinealidad de cada predictor con los demás predictores del modelo.

Conclusión

Todos los valores de VIF están por debajo de 10, lo cual indica que no hay problemas graves de multicolinealidad entre las variables predictoras en el modelo. En general, un VIF superior a 10 podría ser motivo de preocupación, pero en este caso, los valores son relativamente bajos, sugiriendo que la multicolinealidad no es un problema significativo.

Esto significa que las estimaciones de los coeficientes en el modelo de regresión múltiple son confiables y no están demasiado influenciadas por la colinealidad entre los predictores.

  1. Realice una partición en los datos de forma aleatoria donde 70% sea un set para entrenar el modelo y 30% para prueba. Estime el modelo con la muestra del 70%. Muestre los resultados.
# Establecer la semilla para la reproducibilidad
set.seed(123)

# Definir el tamaño de la muestra de entrenamiento (70%)
train_index <- sample(seq_len(nrow(data_vivienda1)), size = 0.7 * nrow(data_vivienda1))

# Crear el conjunto de entrenamiento y prueba
train_set <- data_vivienda1[train_index, ]
test_set <- data_vivienda1[-train_index, ]

# Ajustar el modelo de regresión lineal usando el conjunto de entrenamiento
modelo_entrenamiento <- lm(preciom ~ areaconst + estrato + habitaciones + parqueaderos + banios, data = train_set)

# Mostrar los resultados del modelo ajustado
summary(modelo_entrenamiento)
## 
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos + 
##     banios, data = train_set)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -873.83  -52.91    0.53   47.56  990.00 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -244.74070   18.16353  -13.47   <2e-16 ***
## areaconst       2.32792    0.05929   39.27   <2e-16 ***
## estrato        52.22180    3.49788   14.93   <2e-16 ***
## habitaciones  -47.66076    4.40963  -10.81   <2e-16 ***
## parqueaderos   72.38419    4.67492   15.48   <2e-16 ***
## banios         51.06072    3.89189   13.12   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 130.3 on 2956 degrees of freedom
##   (608 observations deleted due to missingness)
## Multiple R-squared:  0.799,  Adjusted R-squared:  0.7987 
## F-statistic:  2350 on 5 and 2956 DF,  p-value: < 2.2e-16

El modelo de regresión lineal múltiple ha sido ajustado con el conjunto de entrenamiento, y los resultados obtenidos muestran los coeficientes estimados para cada una de las variables predictoras.

Interpretación de los Resultados

  1. Intercepto ((Intercept)):
    • Valor estimado: -244.74
    • Este valor representa el precio estimado del apartamento cuando todas las variables predictoras son cero. Sin embargo, en un contexto práctico, este valor no suele tener una interpretación directa significativa, ya que tener valores de cero para variables como areaconst o estrato no es realista.
  2. Área Construida (areaconst):
    • Coeficiente: 2.33
    • Este coeficiente indica que por cada metro cuadrado adicional de área construida, el precio del apartamento aumenta en promedio 2.33 millones de pesos, manteniendo las demás variables constantes.
    • Este coeficiente es altamente significativo (p-value < 2e-16).
  3. Estrato (estrato):
    • Coeficiente: 52.22
    • Este coeficiente sugiere que por cada unidad adicional en el estrato socioeconómico, el precio del apartamento aumenta en promedio 52.22 millones de pesos, manteniendo las demás variables constantes.
    • También es altamente significativo.
  4. Número de Habitaciones (habitaciones):
    • Coeficiente: -47.66
    • Este coeficiente es negativo, lo que sugiere que, sorprendentemente, al aumentar el número de habitaciones, el precio del apartamento disminuye en promedio 47.66 millones de pesos, manteniendo las demás variables constantes. Esta relación negativa podría ser contraria a la intuición y podría indicar algún efecto compensatorio o interacción con otras variables.
    • Este coeficiente es significativo, pero su signo negativo debería ser investigado más a fondo.
  5. Número de Parqueaderos (parqueaderos):
    • Coeficiente: 72.38
    • Este coeficiente indica que cada parqueadero adicional incrementa el precio del apartamento en promedio 72.38 millones de pesos, manteniendo las demás variables constantes.
    • Este es un valor altamente significativo.
  6. Número de Baños (banios):
    • Coeficiente: 51.06
    • Este coeficiente indica que cada baño adicional aumenta el precio en promedio 51.06 millones de pesos, manteniendo las demás variables constantes.
    • También es altamente significativo.

Medidas de Ajuste del Modelo

  • Residual Standard Error (RSE): 130.3
    • Esto representa el error estándar de los residuales, que es una medida de cuánto se desvían los valores observados del modelo ajustado. Un RSE más bajo indica un mejor ajuste.
  • R² (R-Squared): 0.799
    • El R² es una medida de la proporción de la variabilidad en la variable dependiente (precio del apartamento) que puede ser explicada por el modelo. Un R² de 0.799 indica que aproximadamente el 79.9% de la variabilidad en los precios de los apartamentos es explicada por el modelo, lo cual es bastante alto y sugiere un buen ajuste.
  • F-statistic: 2350 con un p-value < 2.2e-16
    • Este valor indica que el modelo en su conjunto es altamente significativo.

Conclusión

El modelo parece tener un buen ajuste, con la mayoría de los coeficientes siendo altamente significativos. Sin embargo, la relación negativa entre el número de habitaciones y el precio podría ser un indicio de alguna interacción o efecto no lineal que debería explorarse más a fondo.

  1. Realice predicciones con el modelo anterior usando los datos de prueba (30%).
# Realizar predicciones en el conjunto de prueba
predicciones <- predict(modelo, newdata = test_set)

# Crear un data frame con los valores reales y las predicciones
# Ajustar el tamaño de test_set para coincidir con las predicciones
resultados <- data.frame(
  Real = test_set$preciom[1:length(predicciones)], # Ajustar el tamaño
  Prediccion = predicciones
)

# Mostrar las primeras filas para verificar
head(resultados)
##   Real Prediccion
## 1  310   452.0992
## 2  320   380.3869
## 3  100         NA
## 4  175   122.7446
## 5  430         NA
## 6  130         NA
  1. Calcule el error cuadrático medio, el error absoluto medio y el R2, interprete.
# Calcular métricas de rendimiento
rmse <- sqrt(mean((resultados$Real - resultados$Prediccion)^2, na.rm = TRUE))
mae <- mean(abs(resultados$Real - resultados$Prediccion), na.rm = TRUE)
ss_total <- sum((resultados$Real - mean(resultados$Real, na.rm = TRUE))^2, na.rm = TRUE)
ss_residual <- sum((resultados$Real - resultados$Prediccion)^2, na.rm = TRUE)
r_squared <- 1 - (ss_residual / ss_total)

# Mostrar los resultados
cat("RMSE:", rmse, "\n")
## RMSE: 152.1135
cat("MAE:", mae, "\n")
## MAE: 89.10526
cat("R²:", r_squared, "\n")
## R²: 0.7868708

Interpretación de las Métricas de Rendimiento

  1. RMSE (Root Mean Squared Error) = 152.1135: Esta métrica representa la desviación promedio de las predicciones del modelo con respecto a los valores reales. Un valor más bajo indica un mejor rendimiento del modelo en términos de precisión de predicciones. En este caso, 152.1135 indica que, en promedio, las predicciones del precio del apartamento tienen un error de alrededor de 152 millones de pesos.

  2. MAE (Mean Absolute Error) = 89.10526: Esta métrica mide el error promedio de las predicciones en términos absolutos, sin considerar la dirección del error (si es positivo o negativo). Un valor de 89.10526 significa que, en promedio, las predicciones del modelo están desviadas en 89 millones de pesos del valor real.

  3. R² (Coeficiente de determinación) = 0.7868708: Esta métrica indica qué proporción de la variabilidad en la variable dependiente (precio del apartamento) es explicada por el modelo. Un valor de 0.7868708 indica que aproximadamente el 78.7% de la variabilidad en los precios de los apartamentos es explicada por las variables independientes (área construida, estrato, número de habitaciones, número de parqueaderos y número de baños) incluidas en el modelo. Un R² cercano a 1 indica un buen ajuste del modelo, mientras que un valor cercano a 0 indica un ajuste pobre.

Conclusiones y Sugerencias

  • Rendimiento del Modelo: El modelo parece tener un buen ajuste con un R² alto, lo que sugiere que las variables incluidas son bastante representativas para predecir el precio de los apartamentos. Sin embargo, los valores de RMSE y MAE, aunque moderados, aún muestran que hay un margen de error significativo en las predicciones.

  • Posibles Mejoras:

    Es posible que se pueda mejorar el modelo incluyendo otras variables relevantes, o probando con modelos más complejos