• Modelos de regresión para analizar precios de propiedades en Chile
  • 🏠 Presentación
  • 📚 Carga de librerías
  • 📂 Carga de dataset
  • 🔎 Análisis descriptivo
  • 📉 Análisis de correlación
  • 📈 Modelos de regresión
  • 🪛 Ajuste, transformación y selección de modelo final
  • ✍️ Conclusiones

🏠 Presentación

El presente análisis de datos explora el valor de venta de casas usadas en la región metropolitana de Santiago de Chile. Para ello se emplea, como principal insumo, un dataset disponible en Kaggle que contiene una muestra de 1.139 observaciones relevadas en mayo de 2020.

En las próximas secciones se procederá a realizar un análisis descriptivo general, se explorarán correlaciones y modelos de regresión y, por último, se generarán visualizaciones con los datos procesados.

📚 Carga de librerías

library(dplyr)
library(readxl)
library(tidyverse)
library(ggplot2)
library(car)
library(lmtest)
library(readr)
library(Hmisc)
library(pastecs)
library(psych)
library(car)
library(gvlma)
library(olsrr)

📂 Carga de dataset

Dataset <- read_excel("Dataset/Casas_usadas.xlsx")

🔎 Análisis descriptivo

El dataset contiene 1.139 observaciones y trece variables.

str(Dataset)
## tibble [1,139 × 13] (S3: tbl_df/tbl/data.frame)
##  $ Comuna                  : chr [1:1139] "Calera de Tango" "Calera de Tango" "Calera de Tango" "Calera de Tango" ...
##  $ Link                    : chr [1:1139] "https://chilepropiedades.cl/ver-publicacion/venta-usada/calera-de-tango/casa/queilen/3000455" "https://chilepropiedades.cl/ver-publicacion/venta-usada/calera-de-tango/casa/queilen/2246315" "https://chilepropiedades.cl/ver-publicacion/venta-usada/calera-de-tango/casa/avenida-calera-de-tango-condominio"| __truncated__ "https://chilepropiedades.cl/ver-publicacion/venta-usada/calera-de-tango/casa/paradero-14-125-kilometros-cruce-c"| __truncated__ ...
##  $ Tipo_Vivienda           : chr [1:1139] "Casa" "Casa" "Casa" "Casa" ...
##  $ N_Habitaciones          : num [1:1139] 5 6 3 8 3 3 3 5 5 6 ...
##  $ N_Baños                 : num [1:1139] 6 6 3 6 2 2 2 4 3 4 ...
##  $ N_Estacionamientos      : chr [1:1139] "3" "6" "No" "No" ...
##  $ Total_Superficie_M2     : num [1:1139] 5000 5000 2027 5000 5000 ...
##  $ Superficie_Construida_M2: chr [1:1139] "440" "430" "140" "480" ...
##  $ Valor_UF                : num [1:1139] 12200 13000 10300 21500 9100 ...
##  $ Valor_CLP               : num [1:1139] 3.51e+08 3.74e+08 2.97e+08 6.19e+08 2.62e+08 ...
##  $ Dirección               : chr [1:1139] "Calera de Tango, Queilen" "Calera de Tango, Queilen" "Calera de Tango, Avenida calera de tango   condominio/santa teresa de tango - el barrancon" "Calera de Tango, Paradero 14 1/2/5 kilometros cruce calera de tango" ...
##  $ Quién_Vende             : chr [1:1139] "Gabriela Mellado V." "Gabriela Mellado V." "Alonso Baeza Rivera y Cía. Ltda. (Kennedy)" "RED Gestión Propiedades" ...
##  $ Corredor                : chr [1:1139] "Zenpro Propiedades" "Zenpro Propiedades" "Alonso Baeza Rivera y Cía. Ltda. (Kennedy)" "Red Gestión Propiedades" ...

Del total de variables, cinco son numéricas y ocho son de tipo nominales (character). Sin embargo, podrían realizarse algunos cambios antes de proceder al análisis descriptivo.

En principio, las variables Comuna y Tipo_Vivienda podrían convertirse en factors, es decir, objetos categóricos con niveles. Por su parte, dos variables codificadas como nominales deberían ser recodificadas como numéricas: Superficie_Construida_M2 y N_Estacionamientos.

Dataset$Comuna <- as.factor(Dataset$Comuna)
Dataset$Tipo_Vivienda <- as.factor(Dataset$Tipo_Vivienda)
Dataset$Superficie_Construida_M2 <- as.numeric(Dataset$Superficie_Construida_M2)
Dataset <- Dataset %>%
  mutate(N_Estacionamientos = ifelse(N_Estacionamientos == "No", 0, N_Estacionamientos))

Dataset$N_Estacionamientos <- as.numeric(Dataset$N_Estacionamientos)

El redondeo de las variables Total_Superficie_M2, Superficie_Construida_M2 y Valor_UF nos facilitarán el análisis posteriormente.

Dataset$Total_Superficie_M2 <- as.numeric(round(Dataset$Total_Superficie_M2))

Dataset$Superficie_Construida_M2 <- as.numeric(round(Dataset$Superficie_Construida_M2))

Dataset$Valor_UF <- as.numeric(round(Dataset$Valor_UF))

Y, por último, crearemos una nueva columna con el ID de cada observación, eliminaremos las variables que no vamos a usar y prescindiremos de observaciones con datos faltantes (NA), puesto que podrían obstaculizar el correcto funcionamiento de las regresiones.

Dataset <- Dataset %>%
  mutate(ID = row_number()) %>%
  select(ID, everything()) %>% 
  select(-Dirección, -Quién_Vende, -Corredor) %>% 
  na.omit(Dataset)

Ahora sí ya podemos aplicar la función summary() y realizar un análisis descriptivo general.

summary(Dataset)
##        ID                  Comuna        Link           Tipo_Vivienda
##  Min.   :   1.0   Las Condes  : 48   Length:1023        Casa:1023    
##  1st Qu.: 294.5   Lo Barnechea: 48   Class :character                
##  Median : 568.0   Ñuñoa       : 48   Mode  :character                
##  Mean   : 567.0   Quilicura   : 48                                   
##  3rd Qu.: 841.5   Providencia : 47                                   
##  Max.   :1139.0   Pudahuel    : 45                                   
##                   (Other)     :739                                   
##  N_Habitaciones      N_Baños      N_Estacionamientos Total_Superficie_M2
##  Min.   : 1.000   Min.   : 1.00   Min.   : 0.0       Min.   :    0.0    
##  1st Qu.: 3.000   1st Qu.: 2.00   1st Qu.: 0.0       1st Qu.:  181.0    
##  Median : 4.000   Median : 3.00   Median : 0.0       Median :  300.0    
##  Mean   : 4.142   Mean   : 2.73   Mean   : 1.1       Mean   :  876.6    
##  3rd Qu.: 5.000   3rd Qu.: 3.00   3rd Qu.: 2.0       3rd Qu.:  583.5    
##  Max.   :19.000   Max.   :12.00   Max.   :10.0       Max.   :30000.0    
##                                                                         
##  Superficie_Construida_M2    Valor_UF       Valor_CLP        
##  Min.   :   0.0           Min.   : 1215   Min.   :3.500e+07  
##  1st Qu.: 100.0           1st Qu.: 3992   1st Qu.:1.150e+08  
##  Median : 140.0           Median : 6980   Median :2.010e+08  
##  Mean   : 182.2           Mean   :10567   Mean   :3.043e+08  
##  3rd Qu.: 220.0           3rd Qu.:13888   3rd Qu.:4.000e+08  
##  Max.   :1400.0           Max.   :70828   Max.   :2.040e+09  
## 

Como se advierte:

  1. Nuestro dataset cuenta ahora con 1.023 observaciones.

  2. Las comunas de Las Condes, Lo Barnechea, Ñuñoa y Quilicura concentran la mayor cantidad de casas de la muestra: 48 cada una. Les siguen Providencia (47) y Pudahuel (45).

  3. La mediana indica que más del 50% de las casas tienen cuatro o más habitaciones, pero hay algunas observaciones atípicas, como una casa con diecinueve habitaciones.

  4. En lo que respecta al número de baños, el promedio de baños por casa es de 2,73 y todas las casas tienen al menos un baño.

  5. La mediana de la variable N_Estacionamientos indica que el 50% de las casas no tienen ningún estacionamiento. La media, por su parte, sugiere que hay alrededor de 1,10 estacionamientos por registro. Es importante notar, en este sentido, que la media es mayor que la mediana, lo que sugiere que puede haber algunos valores atípicos o registros con un número mayor de estacionamientos que están afectando la media hacia arriba.

  6. El 50% de las casas tienen una superficie total de 300 m2 o menos. La media, sin embargo, señala que la superficie total promedio es de 876 m2. Esto implica que algunos valores extremadamente altos —casas muy grandes— están afectando la media y la están sesgando hacia arriba.

  7. La variable que refiere la superficie total construida presenta el mismo comportamiento que la variable Total_Superficie_M2: la media es mayor que la mediana, cuestión que estaría indicando que hay valores altos que están sesgando la media hacia arriba.

  8. Por último, el precio promedio de una casa expresado en Unidades de Fomento (UF = unidad de cuenta reajustable a la inflación), es de 10.567. La mediana para la misma variable, sin embargo, es de 6.980 UF. Esta diferencia entre media y mediana, como se ha referido anteriormente, indicaría que hay algunas casas muy caras que están sesgando la media hacia arriba.

📉 Análisis de correlación

Para profundizar en el análisis de datos más allá de realizar una simple descripción de los mismos, exploraremos a continuación cómo correlacionan las variables Superficie_Construida_M2 y Valor_UF.

En principio podría pensarse que existe una correlación positiva entre ambas variables: mientras mayor es la superficie construida de la propiedad, mayor es su precio expresado en UF. Pero, antes de elegir qué correlación correr —Pearson o Spearman—, deberíamos evaluar primero si las variables siguen distribuciones normales.

Si las variables siguen distribuciones normales, Pearson es el adecuado. Si las distribuciones son atípicas, el de Spearman es el coeficiente de correlación más apropiado, ya que es menos sensible a las desviaciones de normalidad y detecta relaciones monótonas.

Para evaluar si las variables tienen una relación lineal, podemos correr primero una prueba de Shapiro-Wilk.

shapiro.test(Dataset$Superficie_Construida_M2)
## 
##  Shapiro-Wilk normality test
## 
## data:  Dataset$Superficie_Construida_M2
## W = 0.79667, p-value < 2.2e-16
shapiro.test(Dataset$Valor_UF)
## 
##  Shapiro-Wilk normality test
## 
## data:  Dataset$Valor_UF
## W = 0.77872, p-value < 2.2e-16

Para la variable Superficie_Construida_M2, el p-value extremadamente pequeño sugiere que los datos no siguen una distribución normal. De manera similar, el resultado en la prueba de normalidad de Shapiro-Wilk para la variable Valor_UF, indica que los datos de esta variable tampoco siguen una distribución normal.

En ambos casos, entonces, los p-value son significativamente inferiores a cualquier nivel de significancia comúnmente utilizado (0,05), lo que sugiere fuertemente que las variables no siguen una distribución normal.

En función de los resultados en la prueba Shapiro-Wilk, entonces, correremos una correlación de Spearman.

cor(Dataset$Superficie_Construida_M2, Dataset$Valor_UF, method = "spearman")
## [1] 0.7783141

El coeficiente de correlación sobre n = 1.023 observaciones es de 0,7783141. Esto indica que:

  1. Existe una correlación positiva de moderada a fuerte entre las dos variables analizadas.

  2. La tendencia es de aumento general, pero no necesariamente perfecta (relación monotónica creciente).

  3. El coeficiente de correlación confirma que, a medida que una casa tiene mayor superficie, tiende a tener un mayor valor en UF.

📈 Modelos de regresión

El análisis de correlación es importante para comprender las relaciones iniciales entre las variables. Sin embargo, para obtener una comprensión más completa y predictiva del comportamiento de la variable Valor_UF en función de la variable Superficie_Construida_M2, es necesario complementarlo con la construcción de modelos de regresión.

En el presente análisis desarrollaremos cinco modelos, incluyendo una regresión lineal simple, una regresión polinómica, una regresión lineal múltiple, una regresión lineal múltiple con una variable categórica y un modelo de regresión lineal múltiple con interacción entre variables.

1️⃣ Modelo de regresión lineal simple

En nuestro primer modelo (Modelo_1), regresionaremos las variables Valor_UF y Superficie_Construida_M2.

Modelo_1 <- lm(Valor_UF ~ Superficie_Construida_M2, data = Dataset)
summary(Modelo_1)
## 
## Call:
## lm(formula = Valor_UF ~ Superficie_Construida_M2, data = Dataset)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -23649  -2817  -1050   2185  55848 
## 
## Coefficients:
##                          Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                65.438    338.147   0.194    0.847    
## Superficie_Construida_M2   57.649      1.516  38.031   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 6242 on 1021 degrees of freedom
## Multiple R-squared:  0.5862, Adjusted R-squared:  0.5858 
## F-statistic:  1446 on 1 and 1021 DF,  p-value: < 2.2e-16

La regresión nos indica que, en promedio y con fuerte significancia estadística, un aumento de una unidad en la superficie construida se asocia con un aumento estimado de 57,65 unidades en la variable Valor_UF.

El valor R-cuadrado de 0,5862, por su parte, nos señala que aproximadamente el 58,62% de la variabilidad de Valor_UF puede ser explicada por el modelo que desarrollamos.

ggplot(Dataset, aes(x = Superficie_Construida_M2, y = Valor_UF)) +
  geom_point() +
  geom_smooth(method = "lm", se = FALSE, color = "red") +
  labs(x = "Superficie construida (m2)", y = "Precio en unidades de fomento (UF)") +
  theme_test()

El modelo, en principio, parece aceptable. Sin embargo, cuando construimos un modelo de regresión, hay cuatro supuestos subyacentes que deben verificarse para que los resultados del modelo sean válidos: los supuestos de normalidad, independencia, linealidad y homocedasticidad.

Para verificar si se cumple el supuesto normalidad, realizaremos en primer lugar una prueba con los residuos del modelo. Para ello utilizaremos una prueba Shapiro-Wilk.

Residuos_1 <- residuals(Modelo_1)
shapiro.test(Residuos_1)
## 
##  Shapiro-Wilk normality test
## 
## data:  Residuos_1
## W = 0.86384, p-value < 2.2e-16

La prueba indica que la distribución de los residuos se desvía significativamente de la normalidad, con un p-value muy cercano a cero.

En términos de independencia, la prueba Durbin-Watson con un estadístico de 1.3471 y un p-value de 0 sugiere la presencia de autocorrelación positiva significativa en los residuos del modelo.

durbinWatsonTest(Modelo_1)
##  lag Autocorrelation D-W Statistic p-value
##    1       0.3235563        1.3471       0
##  Alternative hypothesis: rho != 0

El supuesto de linealidad tampoco se constata.

crPlots(Modelo_1)

El gráfico resulta útil para visualizar la relación no lineal entre la variable independiente y la dependiente. La línea azul discontinua representa la relación esperada bajo el modelo lineal, mientras que la línea fucsia continua muestra la relación real observada en los datos.

Por último, la prueba de homocedasticidad indica que hay una heterocedasticidad significativa en los residuos, ya que el p-value extremadamente bajo sugiere que la varianza de los errores no es constante a lo largo de los valores ajustados del modelo.

ncvTest(Modelo_1)
## Non-constant Variance Score Test 
## Variance formula: ~ fitted.values 
## Chisquare = 510.2112, Df = 1, p = < 2.22e-16

Para analizar de manera más suscinta si nuestro modelo cumple con los supuestos requeridos, podemos aplicar también la prueba global de Pena y Slate (2006) que se encuentra en el paquete gvlma(). A los efectos de agilizar la lectura del trabajo, en los próximos modelos se empleará solamente esta función.

gvlma(Modelo_1)
## 
## Call:
## lm(formula = Valor_UF ~ Superficie_Construida_M2, data = Dataset)
## 
## Coefficients:
##              (Intercept)  Superficie_Construida_M2  
##                    65.44                     57.65  
## 
## 
## ASSESSMENT OF THE LINEAR MODEL ASSUMPTIONS
## USING THE GLOBAL TEST ON 4 DEGREES-OF-FREEDOM:
## Level of Significance =  0.05 
## 
## Call:
##  gvlma(x = Modelo_1) 
## 
##                       Value  p-value                   Decision
## Global Stat        8096.418 0.000000 Assumptions NOT satisfied!
## Skewness            592.306 0.000000 Assumptions NOT satisfied!
## Kurtosis           7492.703 0.000000 Assumptions NOT satisfied!
## Link Function         8.483 0.003585 Assumptions NOT satisfied!
## Heteroscedasticity    2.925 0.087193    Assumptions acceptable.

Como se advierte, las pruebas de skewness y kurtosis —relacionadas con el supuesto de normalidad—, además del estadístico global, arrojaron resultados negativos. Esto sugiere que nuestro primer modelo de regresión no cumple con los criterios necesarios para interpretaciones y predicciones precisas de los datos.

Cuando lo analizamos gráficamente, por su parte, observamos patrones de residuos no aleatorios y posibles valores atípicos, lo que sugiere que el modelo podría no estar capturando toda la complejidad de los datos. Adicionalmente, podría haber problemas de ausencia homocedasticidad y outliers.

par(mfrow = c(2,2))
plot(Modelo_1)

par(mfrow = c(1,1))

2️⃣ Modelo de regresión polinómica

Para nuestro segundo modelo cruzaremos la variable Valor_UF con Superficie_Construida_M2 y su término cuadrático. De esta manera exploraremos la posibilidad de una relación no lineal entre las dos variables que estamos analizando.

Modelo_2 <- lm(Valor_UF ~ Superficie_Construida_M2 + I(Superficie_Construida_M2^2), data = Dataset)
summary(Modelo_2)
## 
## Call:
## lm(formula = Valor_UF ~ Superficie_Construida_M2 + I(Superficie_Construida_M2^2), 
##     data = Dataset)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -22898  -2766   -878   2106  55563 
## 
## Coefficients:
##                                 Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                   -8.889e+02  4.693e+02  -1.894  0.05853 .  
## Superficie_Construida_M2       6.646e+01  3.374e+00  19.699  < 2e-16 ***
## I(Superficie_Construida_M2^2) -1.307e-02  4.477e-03  -2.920  0.00357 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 6220 on 1020 degrees of freedom
## Multiple R-squared:  0.5896, Adjusted R-squared:  0.5888 
## F-statistic: 732.8 on 2 and 1020 DF,  p-value: < 2.2e-16

Nuestro segundo modelo muestra una relación significativa y no lineal entre Valor_UF y Superficie_Construida_M2, con ambos términos —lineal y cuadrático— estadísticamente significativos, indicando un buen ajuste del modelo como se refleja en el R-cuadrado ajustado (0,5888).

Para graficar nuestro modelo, primero crearemos la función f_cuadratica, diseñada para calcular y devolver el valor predicho por Modelo_2 para un valor dado de X basándose en los coeficientes del modelo.

f_cuadratica <- function(x, fit = Modelo_2){
  Modelo_2_coef <- coefficients(Modelo_2)
  Modelo_2_coef[1] + Modelo_2_coef[2] * x + Modelo_2_coef[3] * x^2
}

Finalmente, graficaremos los resultados con una nueva curva de ajuste calculada a partir de f_cuadratica.

plot(Dataset$Superficie_Construida_M2, Dataset$Valor_UF,
     xlab = "Superficie construida (m2)",
     ylab = "Precio en unidades de fomento (UF)")

curve(f_cuadratica, add = T, col = "green")

Resta evaluar si se verifican los supuestos observables para los modelos de regresión.

gvlma(Modelo_2)
## 
## Call:
## lm(formula = Valor_UF ~ Superficie_Construida_M2 + I(Superficie_Construida_M2^2), 
##     data = Dataset)
## 
## Coefficients:
##                   (Intercept)       Superficie_Construida_M2  
##                    -888.87275                       66.45956  
## I(Superficie_Construida_M2^2)  
##                      -0.01308  
## 
## 
## ASSESSMENT OF THE LINEAR MODEL ASSUMPTIONS
## USING THE GLOBAL TEST ON 4 DEGREES-OF-FREEDOM:
## Level of Significance =  0.05 
## 
## Call:
##  gvlma(x = Modelo_2) 
## 
##                        Value p-value                   Decision
## Global Stat        7882.2610  0.0000 Assumptions NOT satisfied!
## Skewness            579.6661  0.0000 Assumptions NOT satisfied!
## Kurtosis           7300.6001  0.0000 Assumptions NOT satisfied!
## Link Function         0.5174  0.4720    Assumptions acceptable.
## Heteroscedasticity    1.4773  0.2242    Assumptions acceptable.

Y, como se observa, las pruebas de skewness y kurtosis —relacionadas con el supuesto de normalidad—, además del estadístico global, arrojaron resultados negativos. Esto sugiere que nuestro segundo modelo de regresión tampoco estaría cumpliendo con los criterios necesarios para interpretaciones y predicciones precisas de los datos.

La constatación gráfica también apunta en este sentido. Tal como lo sugiere el gráfico Scale-Location, se detecta la ausencia de homocedasticidad y posibles valores atípicos. En el gráfico de Residuals vs Leverage, por otra parte, se advierten valores atípicos que podrían estar afectando la precisión del modelo.

par(mfrow = c(2,2))
plot(Modelo_2)

par(mfrow = c(1,1))

3️⃣ Modelo de regresión lineal múltiple

En tercer lugar construiremos un modelo de regresión lineal múltiple que busque predecir el valor de las propiedades en UF sobre la base de todas nuestras variables numéricas disponibles: Superficie_Construida_M2, N_Habitaciones, N_Baños, N_Estacionamientos y Total_Superficie_M2.

Modelo_3 <- lm(Valor_UF ~ Superficie_Construida_M2 + N_Habitaciones + N_Baños + N_Estacionamientos + Total_Superficie_M2, data = Dataset)
summary(Modelo_3)
## 
## Call:
## lm(formula = Valor_UF ~ Superficie_Construida_M2 + N_Habitaciones + 
##     N_Baños + N_Estacionamientos + Total_Superficie_M2, data = Dataset)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -23040  -2851  -1043   2262  52231 
## 
## Coefficients:
##                           Estimate Std. Error t value Pr(>|t|)    
## (Intercept)              1204.4643   539.6899   2.232   0.0258 *  
## Superficie_Construida_M2   51.0388     2.0036  25.474  < 2e-16 ***
## N_Habitaciones           -732.5898   148.9354  -4.919 1.01e-06 ***
## N_Baños                  1338.8744   192.0997   6.970 5.70e-12 ***
## N_Estacionamientos       -717.3384   111.4876  -6.434 1.91e-10 ***
## Total_Superficie_M2         0.2656     0.1166   2.278   0.0230 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 5974 on 1017 degrees of freedom
## Multiple R-squared:  0.6225, Adjusted R-squared:  0.6206 
## F-statistic: 335.4 on 5 and 1017 DF,  p-value: < 2.2e-16

El resumen del Modelo_3 indica que todas las variables incluidas (superficie construída, número de habitaciones, baños, estacionamientos y superficie total) son estadísticamente significativas para predecir Valor_UF, dado que sus p-value son muy bajos.

El coeficiente negativo para número de habitaciones y número de estacionamientos sugiere una relación inversa con el Valor_UF, mientras que el número de baños y la superficie —tanto total como construida— tienen una relación positiva.

El modelo tiene un R-cuadrado ajustado de 0,6206, lo que significa que aproximadamente el 62,06% de la variabilidad en Valor_UF se explica por las variables incluidas. El error estándar residual es de 5.974, y el modelo en general es altamente significativo como lo indica el p-value del estadístico F (< 2.2e-16).

Al momento de evaluar si se verifican los supuestos observables para los modelos de regresión, sin embargo, advertiremos que —al igual que en los modelos anteriores— el Modelo_3 no cumple con todos los criterios necesarios para realizar interpretaciones y predicciones precisas de los datos.

gvlma(Modelo_3)
## 
## Call:
## lm(formula = Valor_UF ~ Superficie_Construida_M2 + N_Habitaciones + 
##     N_Baños + N_Estacionamientos + Total_Superficie_M2, data = Dataset)
## 
## Coefficients:
##              (Intercept)  Superficie_Construida_M2            N_Habitaciones  
##                1204.4643                   51.0388                 -732.5898  
##                  N_Baños        N_Estacionamientos       Total_Superficie_M2  
##                1338.8744                 -717.3384                    0.2656  
## 
## 
## ASSESSMENT OF THE LINEAR MODEL ASSUMPTIONS
## USING THE GLOBAL TEST ON 4 DEGREES-OF-FREEDOM:
## Level of Significance =  0.05 
## 
## Call:
##  gvlma(x = Modelo_3) 
## 
##                        Value p-value                   Decision
## Global Stat        9497.6760  0.0000 Assumptions NOT satisfied!
## Skewness            644.9765  0.0000 Assumptions NOT satisfied!
## Kurtosis           8849.9308  0.0000 Assumptions NOT satisfied!
## Link Function         1.8228  0.1770    Assumptions acceptable.
## Heteroscedasticity    0.9458  0.3308    Assumptions acceptable.

En términos gráficos, en efecto, se destaca la presencia de residuos no constantes, valores atípicos, heterocedasticidad y ausencia de normalidad.

par(mfrow = c(2,2))
plot(Modelo_3)

par(mfrow = c(1,1))

4️⃣ Modelo de regresión lineal múltiple con variable categórica

Sabemos del mercado inmobiliario que, a menudo, la ubicación de una propiedad resulta ser un predictor importante del precio de la misma. En este sentido, nuestro cuarto modelo incluirá nuestra variable predictora original (Superficie_Construida_M2), pero sumará además una nueva variable categórica: Comuna.

Modelo_4 <- lm(Valor_UF ~ Superficie_Construida_M2 + Comuna, data = Dataset)
summary(Modelo_4)
## 
## Call:
## lm(formula = Valor_UF ~ Superficie_Construida_M2 + Comuna, data = Dataset)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -15801  -1996   -195   1222  57626 
## 
## Coefficients:
##                            Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                -194.758   1400.548  -0.139 0.889433    
## Superficie_Construida_M2     42.364      1.494  28.347  < 2e-16 ***
## ComunaCerrillos            -439.327   1854.889  -0.237 0.812824    
## ComunaCerro Navia          -390.884   3733.440  -0.105 0.916637    
## ComunaColina               2183.479   1522.244   1.434 0.151782    
## ComunaConchalí             -838.426   1775.021  -0.472 0.636784    
## ComunaEl Bosque             263.342   1825.253   0.144 0.885311    
## ComunaEl Monte            -3028.749   3729.079  -0.812 0.416875    
## ComunaEstación Central      176.811   2120.921   0.083 0.933578    
## ComunaHuechuraba           1413.617   1652.390   0.855 0.392484    
## ComunaIndependencia         733.381   1918.310   0.382 0.702318    
## ComunaLa Cisterna           167.191   1699.987   0.098 0.921675    
## ComunaLa Florida           3594.215   1662.167   2.162 0.030831 *  
## ComunaLa Granja           -1671.803   2000.686  -0.836 0.403575    
## ComunaLa Pintana          -1107.033   1808.871  -0.612 0.540678    
## ComunaLa Reina             7448.357   1516.027   4.913 1.05e-06 ***
## ComunaLampa               -1127.686   1558.428  -0.724 0.469481    
## ComunaLas Condes          12192.210   1493.726   8.162 1.00e-15 ***
## ComunaLo Barnechea        12399.482   1495.469   8.291 3.66e-16 ***
## ComunaLo Espejo           -2118.846   2298.570  -0.922 0.356854    
## ComunaLo Prado            -1224.237   2201.717  -0.556 0.578312    
## ComunaMacul                 863.039   1553.945   0.555 0.578757    
## ComunaMaipú                -452.237   1560.486  -0.290 0.772026    
## ComunaÑuñoa                5083.612   1510.896   3.365 0.000796 ***
## ComunaPadre Hurtado        -204.676   1889.446  -0.108 0.913759    
## ComunaPedro Aguirre Cerda -2693.491   1995.382  -1.350 0.177372    
## ComunaPeñaflor            -1075.511   1822.274  -0.590 0.555191    
## ComunaPeñalolén            3742.607   1528.771   2.448 0.014535 *  
## ComunaProvidencia          8124.477   1510.906   5.377 9.46e-08 ***
## ComunaPudahuel             1119.191   1533.531   0.730 0.465678    
## ComunaPuente Alto            72.576   1553.669   0.047 0.962752    
## ComunaQuilicura            -362.878   1533.877  -0.237 0.813035    
## ComunaQuinta Normal       -2047.780   2045.254  -1.001 0.316960    
## ComunaRecoleta              124.453   1729.242   0.072 0.942641    
## ComunaRenca                -403.231   2011.576  -0.200 0.841166    
## ComunaSan Bernardo         1539.463   1560.373   0.987 0.324082    
## ComunaSan Joaquín           539.244   2114.695   0.255 0.798778    
## ComunaSan José de Maipo   -1603.795   3141.313  -0.511 0.609782    
## ComunaSan Miguel           2088.880   1583.301   1.319 0.187370    
## ComunaSan Ramón             -91.246   2813.432  -0.032 0.974134    
## ComunaSantiago             2347.587   1565.567   1.500 0.134063    
## ComunaVitacura            11700.797   1509.198   7.753 2.24e-14 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4918 on 981 degrees of freedom
## Multiple R-squared:  0.7533, Adjusted R-squared:  0.7429 
## F-statistic: 73.04 on 41 and 981 DF,  p-value: < 2.2e-16

El resumen del modelo Modelo_4 indica que la variable Superficie_Construida_M2 tiene un efecto significativo y positivo en el Valor_UF, mientras que la significancia del efecto de las comunas varía.

En otras palabras, mientras la superficie construida influye positivamente en el precio de la propiedad, la ubicación también afecta el precio pero de manera inconsistente. En comunas como Las Condes, Lo Barnechea, Vitacura, Ñuñoa y Providencia, las propiedades aumentan significativamente su precio. En otras comunas, sin embargo, la locación no tiene impacto en el precio de la propiedad.

Podemos verlo gráficamente a continuación.

fit4_coef <- coefficients(Modelo_4)
Dataset %>%  
  ggplot(aes(x = Superficie_Construida_M2, y = Valor_UF, color = Comuna)) +
  geom_point() +
  geom_function(fun = function(x) {fit4_coef[1] + fit4_coef[2] * x},
                color = "darkred", linetype = 1, alpha = 0.5) +
  geom_function(fun = function(x) {fit4_coef[1] + fit4_coef[2] * x + fit4_coef[3]},
                color = "darkgreen", linetype = 2, alpha = 0.5) +
  geom_function(fun = function(x) {fit4_coef[1] + fit4_coef[2] * x + + fit4_coef[4]},
                color = "darkblue", linetype = 3, alpha = 0.5) +
  facet_wrap(~Comuna) +
  theme_test() +
  theme(legend.position = "none",
      axis.title.x = element_text(face = "bold"), 
      axis.title.y = element_text(face = "bold")) +
  labs(x = ("Superficie Construida en m2"),
       y = "Precio en unidades de fomento (UF)")

Por último, en lo que respecta a la verificación de los supuestos observables para los modelos de regresión, advertiremos nuevamente que el Modelo_4 no cumple con todos los criterios necesarios para realizar interpretaciones y predicciones precisas de los datos.

gvlma(Modelo_4)
## 
## Call:
## lm(formula = Valor_UF ~ Superficie_Construida_M2 + Comuna, data = Dataset)
## 
## Coefficients:
##               (Intercept)   Superficie_Construida_M2  
##                   -194.76                      42.36  
##           ComunaCerrillos          ComunaCerro Navia  
##                   -439.33                    -390.88  
##              ComunaColina             ComunaConchalí  
##                   2183.48                    -838.43  
##           ComunaEl Bosque             ComunaEl Monte  
##                    263.34                   -3028.75  
##    ComunaEstación Central           ComunaHuechuraba  
##                    176.81                    1413.62  
##       ComunaIndependencia          ComunaLa Cisterna  
##                    733.38                     167.19  
##          ComunaLa Florida            ComunaLa Granja  
##                   3594.22                   -1671.80  
##          ComunaLa Pintana             ComunaLa Reina  
##                  -1107.03                    7448.36  
##               ComunaLampa           ComunaLas Condes  
##                  -1127.69                   12192.21  
##        ComunaLo Barnechea            ComunaLo Espejo  
##                  12399.48                   -2118.85  
##            ComunaLo Prado                ComunaMacul  
##                  -1224.24                     863.04  
##               ComunaMaipú                ComunaÑuñoa  
##                   -452.24                    5083.61  
##       ComunaPadre Hurtado  ComunaPedro Aguirre Cerda  
##                   -204.68                   -2693.49  
##            ComunaPeñaflor            ComunaPeñalolén  
##                  -1075.51                    3742.61  
##         ComunaProvidencia             ComunaPudahuel  
##                   8124.48                    1119.19  
##         ComunaPuente Alto            ComunaQuilicura  
##                     72.58                    -362.88  
##       ComunaQuinta Normal             ComunaRecoleta  
##                  -2047.78                     124.45  
##               ComunaRenca         ComunaSan Bernardo  
##                   -403.23                    1539.46  
##         ComunaSan Joaquín    ComunaSan José de Maipo  
##                    539.24                   -1603.80  
##          ComunaSan Miguel            ComunaSan Ramón  
##                   2088.88                     -91.25  
##            ComunaSantiago             ComunaVitacura  
##                   2347.59                   11700.80  
## 
## 
## ASSESSMENT OF THE LINEAR MODEL ASSUMPTIONS
## USING THE GLOBAL TEST ON 4 DEGREES-OF-FREEDOM:
## Level of Significance =  0.05 
## 
## Call:
##  gvlma(x = Modelo_4) 
## 
##                        Value  p-value                   Decision
## Global Stat        45510.705 0.000000 Assumptions NOT satisfied!
## Skewness            2040.051 0.000000 Assumptions NOT satisfied!
## Kurtosis           43457.025 0.000000 Assumptions NOT satisfied!
## Link Function          9.704 0.001839 Assumptions NOT satisfied!
## Heteroscedasticity     3.926 0.047557 Assumptions NOT satisfied!

En términos gráficos, en efecto, el Modelo_4 exhibe patrones irregulares en los residuos, desviaciones de la normalidad y valores atípicos que podrían afectar la validez del modelo.

par(mfrow = c(2,2))
plot(Modelo_4)

par(mfrow = c(1,1))

5️⃣ Regresión lineal múltiple con interacción entre variables

En nuestro último modelo de regresión usaremos como variables predictivas no sólo Superficie_Construida_M2 y Comuna por separado, sino también la interacción entre ellas.

Esto se distingue del modelo anterior en tanto, el Modelo_4, no considerarba si la relación entre la superficie y el valor de la propiedad cambiaba dependiendo de la comuna en la que se encuentra la propiedad. En este sentido, el Modelo_5 puede revelar si ciertas comunas tienen un efecto amplificador o atenuante en la relación entre la superficie construida y el valor de la propiedad.

Modelo_5 <- lm(Valor_UF ~ Superficie_Construida_M2 * Comuna, data = Dataset)
summary(Modelo_5)
## 
## Call:
## lm(formula = Valor_UF ~ Superficie_Construida_M2 * Comuna, data = Dataset)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -17244  -1792   -364   1089  57094 
## 
## Coefficients:
##                                                      Estimate Std. Error
## (Intercept)                                          8564.123   2825.541
## Superficie_Construida_M2                               15.312      7.781
## ComunaCerrillos                                     -5987.790   4273.301
## ComunaCerro Navia                                  -10370.760  12206.507
## ComunaColina                                        -7759.283   3320.844
## ComunaConchalí                                      -8173.196   4973.690
## ComunaEl Bosque                                     -5564.207   3865.970
## ComunaEl Monte                                      -7441.705   8542.958
## ComunaEstación Central                              -7967.107   4691.402
## ComunaHuechuraba                                    -9519.360   3777.078
## ComunaIndependencia                                 -4232.310   4186.157
## ComunaLa Cisterna                                   -5133.799   3709.518
## ComunaLa Florida                                    -5618.390   3438.234
## ComunaLa Granja                                     -9130.256   5063.068
## ComunaLa Pintana                                    -8198.958   3716.446
## ComunaLa Reina                                      -1876.278   3327.594
## ComunaLampa                                         -6279.100   3220.560
## ComunaLas Condes                                    -1403.342   3260.237
## ComunaLo Barnechea                                    127.430   3249.657
## ComunaLo Espejo                                     -6568.151   7806.502
## ComunaLo Prado                                      -7204.131   7495.841
## ComunaMacul                                         -5316.093   3199.391
## ComunaMaipú                                         -6921.864   3497.520
## ComunaÑuñoa                                         -2339.511   3483.587
## ComunaPadre Hurtado                                 -8742.860   4174.342
## ComunaPedro Aguirre Cerda                           -8219.922   4750.536
## ComunaPeñaflor                                      -7866.713   3560.189
## ComunaPeñalolén                                     -7003.734   3424.187
## ComunaProvidencia                                   -4129.132   3257.753
## ComunaPudahuel                                      -8080.819   3513.916
## ComunaPuente Alto                                   -5765.343   3313.301
## ComunaQuilicura                                     -8181.676   3477.954
## ComunaQuinta Normal                                 -6056.519   4204.954
## ComunaRecoleta                                      -6731.615   3696.002
## ComunaRenca                                         -7014.575   4781.185
## ComunaSan Bernardo                                  -8640.061   3188.272
## ComunaSan Joaquín                                   -7636.018   4790.489
## ComunaSan José de Maipo                             -5225.945   8694.166
## ComunaSan Miguel                                    -3438.873   3414.757
## ComunaSan Ramón                                     -5175.944  11545.889
## ComunaSantiago                                      -1741.794   3200.455
## ComunaVitacura                                        866.999   3029.427
## Superficie_Construida_M2:ComunaCerrillos               -1.837     27.732
## Superficie_Construida_M2:ComunaCerro Navia             40.251    123.301
## Superficie_Construida_M2:ComunaColina                  30.707      9.179
## Superficie_Construida_M2:ComunaConchalí                16.485     30.213
## Superficie_Construida_M2:ComunaEl Bosque                2.636     21.076
## Superficie_Construida_M2:ComunaEl Monte                -7.304     58.367
## Superficie_Construida_M2:ComunaEstación Central        22.321     27.201
## Superficie_Construida_M2:ComunaHuechuraba              42.239     18.004
## Superficie_Construida_M2:ComunaIndependencia           -4.417     24.411
## Superficie_Construida_M2:ComunaLa Cisterna              4.801     16.020
## Superficie_Construida_M2:ComunaLa Florida              30.093     13.849
## Superficie_Construida_M2:ComunaLa Granja               17.647     29.578
## Superficie_Construida_M2:ComunaLa Pintana               8.530     24.774
## Superficie_Construida_M2:ComunaLa Reina                29.554     10.527
## Superficie_Construida_M2:ComunaLampa                    3.522     11.684
## Superficie_Construida_M2:ComunaLas Condes              41.911      9.001
## Superficie_Construida_M2:ComunaLo Barnechea            36.492      8.701
## Superficie_Construida_M2:ComunaLo Espejo              -11.824     64.059
## Superficie_Construida_M2:ComunaLo Prado                 2.913     59.005
## Superficie_Construida_M2:ComunaMacul                    7.400     12.571
## Superficie_Construida_M2:ComunaMaipú                    8.838     17.097
## Superficie_Construida_M2:ComunaÑuñoa                   19.276     13.604
## Superficie_Construida_M2:ComunaPadre Hurtado           24.768     29.938
## Superficie_Construida_M2:ComunaPedro Aguirre Cerda      7.568     22.688
## Superficie_Construida_M2:ComunaPeñaflor                12.187     15.703
## Superficie_Construida_M2:ComunaPeñalolén               39.496     13.669
## Superficie_Construida_M2:ComunaProvidencia             45.596     10.994
## Superficie_Construida_M2:ComunaPudahuel                30.538     17.361
## Superficie_Construida_M2:ComunaPuente Alto              4.969     14.105
## Superficie_Construida_M2:ComunaQuilicura               16.661     22.464
## Superficie_Construida_M2:ComunaQuinta Normal            2.629     16.011
## Superficie_Construida_M2:ComunaRecoleta                15.772     14.825
## Superficie_Construida_M2:ComunaRenca                    3.569     39.877
## Superficie_Construida_M2:ComunaSan Bernardo            36.814     11.623
## Superficie_Construida_M2:ComunaSan Joaquín             23.478     22.937
## Superficie_Construida_M2:ComunaSan José de Maipo      -10.905     57.749
## Superficie_Construida_M2:ComunaSan Miguel               9.031     12.383
## Superficie_Construida_M2:ComunaSan Ramón              -24.336    153.150
## Superficie_Construida_M2:ComunaSantiago                 8.334      9.275
## Superficie_Construida_M2:ComunaVitacura                35.423      8.467
##                                                    t value Pr(>|t|)    
## (Intercept)                                          3.031 0.002504 ** 
## Superficie_Construida_M2                             1.968 0.049382 *  
## ComunaCerrillos                                     -1.401 0.161481    
## ComunaCerro Navia                                   -0.850 0.395759    
## ComunaColina                                        -2.337 0.019672 *  
## ComunaConchalí                                      -1.643 0.100658    
## ComunaEl Bosque                                     -1.439 0.150404    
## ComunaEl Monte                                      -0.871 0.383926    
## ComunaEstación Central                              -1.698 0.089794 .  
## ComunaHuechuraba                                    -2.520 0.011890 *  
## ComunaIndependencia                                 -1.011 0.312264    
## ComunaLa Cisterna                                   -1.384 0.166701    
## ComunaLa Florida                                    -1.634 0.102574    
## ComunaLa Granja                                     -1.803 0.071660 .  
## ComunaLa Pintana                                    -2.206 0.027616 *  
## ComunaLa Reina                                      -0.564 0.572988    
## ComunaLampa                                         -1.950 0.051510 .  
## ComunaLas Condes                                    -0.430 0.666973    
## ComunaLo Barnechea                                   0.039 0.968729    
## ComunaLo Espejo                                     -0.841 0.400355    
## ComunaLo Prado                                      -0.961 0.336757    
## ComunaMacul                                         -1.662 0.096927 .  
## ComunaMaipú                                         -1.979 0.048098 *  
## ComunaÑuñoa                                         -0.672 0.502015    
## ComunaPadre Hurtado                                 -2.094 0.036489 *  
## ComunaPedro Aguirre Cerda                           -1.730 0.083902 .  
## ComunaPeñaflor                                      -2.210 0.027371 *  
## ComunaPeñalolén                                     -2.045 0.041096 *  
## ComunaProvidencia                                   -1.267 0.205298    
## ComunaPudahuel                                      -2.300 0.021686 *  
## ComunaPuente Alto                                   -1.740 0.082175 .  
## ComunaQuilicura                                     -2.352 0.018856 *  
## ComunaQuinta Normal                                 -1.440 0.150107    
## ComunaRecoleta                                      -1.821 0.068875 .  
## ComunaRenca                                         -1.467 0.142677    
## ComunaSan Bernardo                                  -2.710 0.006852 ** 
## ComunaSan Joaquín                                   -1.594 0.111273    
## ComunaSan José de Maipo                             -0.601 0.547927    
## ComunaSan Miguel                                    -1.007 0.314164    
## ComunaSan Ramón                                     -0.448 0.654045    
## ComunaSantiago                                      -0.544 0.586410    
## ComunaVitacura                                       0.286 0.774794    
## Superficie_Construida_M2:ComunaCerrillos            -0.066 0.947214    
## Superficie_Construida_M2:ComunaCerro Navia           0.326 0.744157    
## Superficie_Construida_M2:ComunaColina                3.346 0.000854 ***
## Superficie_Construida_M2:ComunaConchalí              0.546 0.585448    
## Superficie_Construida_M2:ComunaEl Bosque             0.125 0.900480    
## Superficie_Construida_M2:ComunaEl Monte             -0.125 0.900445    
## Superficie_Construida_M2:ComunaEstación Central      0.821 0.412082    
## Superficie_Construida_M2:ComunaHuechuraba            2.346 0.019178 *  
## Superficie_Construida_M2:ComunaIndependencia        -0.181 0.856444    
## Superficie_Construida_M2:ComunaLa Cisterna           0.300 0.764467    
## Superficie_Construida_M2:ComunaLa Florida            2.173 0.030037 *  
## Superficie_Construida_M2:ComunaLa Granja             0.597 0.550906    
## Superficie_Construida_M2:ComunaLa Pintana            0.344 0.730699    
## Superficie_Construida_M2:ComunaLa Reina              2.808 0.005095 ** 
## Superficie_Construida_M2:ComunaLampa                 0.301 0.763157    
## Superficie_Construida_M2:ComunaLas Condes            4.656 3.68e-06 ***
## Superficie_Construida_M2:ComunaLo Barnechea          4.194 3.00e-05 ***
## Superficie_Construida_M2:ComunaLo Espejo            -0.185 0.853604    
## Superficie_Construida_M2:ComunaLo Prado              0.049 0.960641    
## Superficie_Construida_M2:ComunaMacul                 0.589 0.556229    
## Superficie_Construida_M2:ComunaMaipú                 0.517 0.605322    
## Superficie_Construida_M2:ComunaÑuñoa                 1.417 0.156819    
## Superficie_Construida_M2:ComunaPadre Hurtado         0.827 0.408271    
## Superficie_Construida_M2:ComunaPedro Aguirre Cerda   0.334 0.738770    
## Superficie_Construida_M2:ComunaPeñaflor              0.776 0.437881    
## Superficie_Construida_M2:ComunaPeñalolén             2.890 0.003946 ** 
## Superficie_Construida_M2:ComunaProvidencia           4.147 3.67e-05 ***
## Superficie_Construida_M2:ComunaPudahuel              1.759 0.078901 .  
## Superficie_Construida_M2:ComunaPuente Alto           0.352 0.724708    
## Superficie_Construida_M2:ComunaQuilicura             0.742 0.458450    
## Superficie_Construida_M2:ComunaQuinta Normal         0.164 0.869604    
## Superficie_Construida_M2:ComunaRecoleta              1.064 0.287646    
## Superficie_Construida_M2:ComunaRenca                 0.090 0.928695    
## Superficie_Construida_M2:ComunaSan Bernardo          3.167 0.001588 ** 
## Superficie_Construida_M2:ComunaSan Joaquín           1.024 0.306292    
## Superficie_Construida_M2:ComunaSan José de Maipo    -0.189 0.850267    
## Superficie_Construida_M2:ComunaSan Miguel            0.729 0.465982    
## Superficie_Construida_M2:ComunaSan Ramón            -0.159 0.873781    
## Superficie_Construida_M2:ComunaSantiago              0.899 0.369136    
## Superficie_Construida_M2:ComunaVitacura              4.184 3.14e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4786 on 941 degrees of freedom
## Multiple R-squared:  0.7758, Adjusted R-squared:  0.7566 
## F-statistic: 40.21 on 81 and 941 DF,  p-value: < 2.2e-16

El resumen del modelo Modelo_5 muestra que, además del impacto individual de la superficie construida y la comuna en el valor de una propiedad, hay interacciones significativas entre estas dos variables en once comunas: Colina, Huechuraba, La Florida, La Reina, Las Condes, Lo Barnechea, Peñalolén, Providencia, Pudahuel, Quilicura y San Bernardo.

Estas comunas muestran que la relación entre la superficie construida y el valor de las propiedades no es constante, sino que varía dependiendo de la comuna específica, lo que sugiere que la ubicación puede modificar cómo la superficie construida afecta el valor de una propiedad

El modelo tiene un alto R-cuadrado ajustado (0,7566), indicando que explica aproximadamente el 75.66% de la variabilidad en el valor de las propiedades. Los residuos y los p-values de los coeficientes sugieren que tanto los factores individuales como las interacciones entre la superficie construida y la comuna son importantes para predecir el valor de las propiedades.

Si bien el modelo es sólido y explicativo, cuando verificamos si se cumplen los supuestos observables para los modelos de regresión, advertimos que no cumple con los criterios necesarios para realizar interpretaciones y predicciones precisas de los datos.

gvlma(Modelo_5)
## 
## Call:
## lm(formula = Valor_UF ~ Superficie_Construida_M2 * Comuna, data = Dataset)
## 
## Coefficients:
##                                        (Intercept)  
##                                           8564.123  
##                           Superficie_Construida_M2  
##                                             15.312  
##                                    ComunaCerrillos  
##                                          -5987.790  
##                                  ComunaCerro Navia  
##                                         -10370.760  
##                                       ComunaColina  
##                                          -7759.283  
##                                     ComunaConchalí  
##                                          -8173.196  
##                                    ComunaEl Bosque  
##                                          -5564.207  
##                                     ComunaEl Monte  
##                                          -7441.705  
##                             ComunaEstación Central  
##                                          -7967.107  
##                                   ComunaHuechuraba  
##                                          -9519.360  
##                                ComunaIndependencia  
##                                          -4232.310  
##                                  ComunaLa Cisterna  
##                                          -5133.799  
##                                   ComunaLa Florida  
##                                          -5618.390  
##                                    ComunaLa Granja  
##                                          -9130.256  
##                                   ComunaLa Pintana  
##                                          -8198.958  
##                                     ComunaLa Reina  
##                                          -1876.278  
##                                        ComunaLampa  
##                                          -6279.100  
##                                   ComunaLas Condes  
##                                          -1403.342  
##                                 ComunaLo Barnechea  
##                                            127.430  
##                                    ComunaLo Espejo  
##                                          -6568.151  
##                                     ComunaLo Prado  
##                                          -7204.131  
##                                        ComunaMacul  
##                                          -5316.093  
##                                        ComunaMaipú  
##                                          -6921.864  
##                                        ComunaÑuñoa  
##                                          -2339.511  
##                                ComunaPadre Hurtado  
##                                          -8742.860  
##                          ComunaPedro Aguirre Cerda  
##                                          -8219.922  
##                                     ComunaPeñaflor  
##                                          -7866.713  
##                                    ComunaPeñalolén  
##                                          -7003.734  
##                                  ComunaProvidencia  
##                                          -4129.132  
##                                     ComunaPudahuel  
##                                          -8080.819  
##                                  ComunaPuente Alto  
##                                          -5765.343  
##                                    ComunaQuilicura  
##                                          -8181.676  
##                                ComunaQuinta Normal  
##                                          -6056.519  
##                                     ComunaRecoleta  
##                                          -6731.615  
##                                        ComunaRenca  
##                                          -7014.575  
##                                 ComunaSan Bernardo  
##                                          -8640.061  
##                                  ComunaSan Joaquín  
##                                          -7636.018  
##                            ComunaSan José de Maipo  
##                                          -5225.945  
##                                   ComunaSan Miguel  
##                                          -3438.873  
##                                    ComunaSan Ramón  
##                                          -5175.944  
##                                     ComunaSantiago  
##                                          -1741.794  
##                                     ComunaVitacura  
##                                            866.999  
##           Superficie_Construida_M2:ComunaCerrillos  
##                                             -1.837  
##         Superficie_Construida_M2:ComunaCerro Navia  
##                                             40.251  
##              Superficie_Construida_M2:ComunaColina  
##                                             30.707  
##            Superficie_Construida_M2:ComunaConchalí  
##                                             16.485  
##           Superficie_Construida_M2:ComunaEl Bosque  
##                                              2.636  
##            Superficie_Construida_M2:ComunaEl Monte  
##                                             -7.304  
##    Superficie_Construida_M2:ComunaEstación Central  
##                                             22.321  
##          Superficie_Construida_M2:ComunaHuechuraba  
##                                             42.239  
##       Superficie_Construida_M2:ComunaIndependencia  
##                                             -4.417  
##         Superficie_Construida_M2:ComunaLa Cisterna  
##                                              4.801  
##          Superficie_Construida_M2:ComunaLa Florida  
##                                             30.093  
##           Superficie_Construida_M2:ComunaLa Granja  
##                                             17.647  
##          Superficie_Construida_M2:ComunaLa Pintana  
##                                              8.530  
##            Superficie_Construida_M2:ComunaLa Reina  
##                                             29.554  
##               Superficie_Construida_M2:ComunaLampa  
##                                              3.522  
##          Superficie_Construida_M2:ComunaLas Condes  
##                                             41.911  
##        Superficie_Construida_M2:ComunaLo Barnechea  
##                                             36.492  
##           Superficie_Construida_M2:ComunaLo Espejo  
##                                            -11.824  
##            Superficie_Construida_M2:ComunaLo Prado  
##                                              2.913  
##               Superficie_Construida_M2:ComunaMacul  
##                                              7.400  
##               Superficie_Construida_M2:ComunaMaipú  
##                                              8.838  
##               Superficie_Construida_M2:ComunaÑuñoa  
##                                             19.276  
##       Superficie_Construida_M2:ComunaPadre Hurtado  
##                                             24.768  
## Superficie_Construida_M2:ComunaPedro Aguirre Cerda  
##                                              7.568  
##            Superficie_Construida_M2:ComunaPeñaflor  
##                                             12.187  
##           Superficie_Construida_M2:ComunaPeñalolén  
##                                             39.496  
##         Superficie_Construida_M2:ComunaProvidencia  
##                                             45.596  
##            Superficie_Construida_M2:ComunaPudahuel  
##                                             30.538  
##         Superficie_Construida_M2:ComunaPuente Alto  
##                                              4.969  
##           Superficie_Construida_M2:ComunaQuilicura  
##                                             16.661  
##       Superficie_Construida_M2:ComunaQuinta Normal  
##                                              2.629  
##            Superficie_Construida_M2:ComunaRecoleta  
##                                             15.772  
##               Superficie_Construida_M2:ComunaRenca  
##                                              3.569  
##        Superficie_Construida_M2:ComunaSan Bernardo  
##                                             36.814  
##         Superficie_Construida_M2:ComunaSan Joaquín  
##                                             23.478  
##   Superficie_Construida_M2:ComunaSan José de Maipo  
##                                            -10.905  
##          Superficie_Construida_M2:ComunaSan Miguel  
##                                              9.031  
##           Superficie_Construida_M2:ComunaSan Ramón  
##                                            -24.336  
##            Superficie_Construida_M2:ComunaSantiago  
##                                              8.334  
##            Superficie_Construida_M2:ComunaVitacura  
##                                             35.423  
## 
## 
## ASSESSMENT OF THE LINEAR MODEL ASSUMPTIONS
## USING THE GLOBAL TEST ON 4 DEGREES-OF-FREEDOM:
## Level of Significance =  0.05 
## 
## Call:
##  gvlma(x = Modelo_5) 
## 
##                        Value   p-value                   Decision
## Global Stat        59235.289 0.000e+00 Assumptions NOT satisfied!
## Skewness            2368.423 0.000e+00 Assumptions NOT satisfied!
## Kurtosis           56836.262 0.000e+00 Assumptions NOT satisfied!
## Link Function         25.937 3.527e-07 Assumptions NOT satisfied!
## Heteroscedasticity     4.667 3.075e-02 Assumptions NOT satisfied!

Y, en efecto, en términos gráficos se detectan signos de heterocedasticidad y valores atípicos.

par(mfrow = c(2,2))
plot(Modelo_5)

par(mfrow = c(1,1))

🪛 Ajuste, transformación y selección de modelo final

Dado que ninguno de nuestros modelos cumple plenamente con los supuestos observables para construir regresiones, utilizaremos la función powerTransform() para optimizar la transformación de nuestras variables cuantitativas. Esto se hace con el fin de homogeneizar la varianza y lograr una distribución más cercana a la normalidad.

summary(powerTransform(Dataset$N_Habitaciones))
## bcPower Transformation to Normality 
##                        Est Power Rounded Pwr Wald Lwr Bnd Wald Upr Bnd
## Dataset$N_Habitaciones    -0.145       -0.15      -0.2593      -0.0307
## 
## Likelihood ratio test that transformation parameter is equal to 0
##  (log transformation)
##                            LRT df     pval
## LR test, lambda = (0) 6.180835  1 0.012914
## 
## Likelihood ratio test that no transformation is needed
##                            LRT df       pval
## LR test, lambda = (1) 401.4036  1 < 2.22e-16
summary(powerTransform(Dataset$N_Baños))
## bcPower Transformation to Normality 
##                 Est Power Rounded Pwr Wald Lwr Bnd Wald Upr Bnd
## Dataset$N_Baños    0.1679        0.17       0.0635       0.2722
## 
## Likelihood ratio test that transformation parameter is equal to 0
##  (log transformation)
##                            LRT df      pval
## LR test, lambda = (0) 9.805086  1 0.0017403
## 
## Likelihood ratio test that no transformation is needed
##                            LRT df       pval
## LR test, lambda = (1) 257.2142  1 < 2.22e-16
summary(powerTransform(Dataset$N_Estacionamientos, family = "yjPower"))
## yjPower Transformation to Normality 
##                            Est Power Rounded Pwr Wald Lwr Bnd Wald Upr Bnd
## Dataset$N_Estacionamientos    -1.103          -1      -1.2495      -0.9564
## 
##  Likelihood ratio test that transformation parameter is equal to 0
##                            LRT df       pval
## LR test, lambda = (0) 271.3473  1 < 2.22e-16
summary(powerTransform(Dataset$Total_Superficie_M2, family = "yjPower"))
## yjPower Transformation to Normality 
##                             Est Power Rounded Pwr Wald Lwr Bnd Wald Upr Bnd
## Dataset$Total_Superficie_M2    0.0836        0.08       0.0593        0.108
## 
##  Likelihood ratio test that transformation parameter is equal to 0
##                           LRT df       pval
## LR test, lambda = (0) 49.4029  1 2.0843e-12
summary(powerTransform(Dataset$Superficie_Construida_M2, family = "yjPower"))
## yjPower Transformation to Normality 
##                                  Est Power Rounded Pwr Wald Lwr Bnd
## Dataset$Superficie_Construida_M2    0.3144        0.33       0.2693
##                                  Wald Upr Bnd
## Dataset$Superficie_Construida_M2       0.3596
## 
##  Likelihood ratio test that transformation parameter is equal to 0
##                            LRT df       pval
## LR test, lambda = (0) 267.0542  1 < 2.22e-16

Los resultados nos indican que:

  • N_Habitaciones requiere una ligera transformación logarítmica con un poder estimado de -0,145.
  • N_Baños muestra un poder estimado de 0,1679 para su transformación, sugiriendo una transformación logarítmica para su normalidad.
  • N_Estacionamientos necesita una transformación significativa Yeo-Johnson con un poder estimado de -1,103.
  • Total_Superficie_M2 tiene un poder estimado muy bajo de 0,0836, lo que implica que casi no requiere transformación.
  • Superficie_Construida_M2 presenta un poder estimado de 0,3144, indicando una transformación moderada de Yeo-Johnson para mejorar la normalidad.
Dataset_Transformado <- Dataset %>%  
  mutate(N_Habitaciones = log(N_Habitaciones),
         N_Baños = log(N_Baños),
         N_Estacionamientos = yjPower(Dataset$N_Estacionamientos, lambda = -1.103),
         Total_Superficie_M2 = yjPower(Total_Superficie_M2, lambda = 0.0836),
         Superficie_Construida_M2 = yjPower(Superficie_Construida_M2, lambda = 0.3144))

Con las variables ya modificadas en Dataset_Transformado, recrearemos nuestros cinco modelos.

Modelo_1_Nuevo <- lm(Valor_UF ~ Superficie_Construida_M2, data = Dataset_Transformado)
Modelo_2_Nuevo <- lm(Valor_UF ~ Superficie_Construida_M2 + I(Superficie_Construida_M2^2), data = Dataset_Transformado)
Modelo_3_Nuevo <- lm(Valor_UF ~ Superficie_Construida_M2 + N_Habitaciones + N_Baños + N_Estacionamientos + Total_Superficie_M2, data = Dataset_Transformado)
Modelo_4_Nuevo <- lm(Valor_UF ~ Superficie_Construida_M2 + Comuna, data = Dataset_Transformado)
Modelo_5_Nuevo <- lm(Valor_UF ~ Superficie_Construida_M2 * Comuna, data = Dataset_Transformado)

Y, posteriormente, calcularemos el Criterio de Información de Akaike (AIC) para cada uno de los modelos.

El AIC mide la calidad de cada modelo estadístico, penalizando modelos con mayor número de parámetros para evitar el sobreajuste. El resultado nos ayudará a seleccionar el modelo que mejor equilibre la complejidad y el ajuste a los datos: aquél con AIC más bajo.

AIC(Modelo_1_Nuevo, Modelo_2_Nuevo, Modelo_3_Nuevo, Modelo_4_Nuevo, Modelo_5_Nuevo)
##                df      AIC
## Modelo_1_Nuevo  3 20977.17
## Modelo_2_Nuevo  4 20762.06
## Modelo_3_Nuevo  7 20833.98
## Modelo_4_Nuevo 43 20528.70
## Modelo_5_Nuevo 83 20365.58

En base a los resultados concluimos que:

  • Modelo_1_Nuevo: con 3 parámetros, tiene un AIC de 20977.17, el más alto entre los modelos.
  • Modelo_2_Nuevo: tiene 4 parámetros y un AIC de 20762.06, mejor que el Modelo_1_Nuevo pero no el más bajo.
  • Modelo_3_Nuevo: con 7 parámetros, su AIC es 20833.98, lo que indica un rendimiento intermedio.
  • Modelo_4_Nuevo: este modelo tiene 43 parámetros y un AIC de 20528.70, mostrando una mejora considerable en el ajuste del modelo a los datos.
  • Modelo_5_Nuevo: es el modelo más complejo con 83 parámetros. Sin embargo, ofrece el AIC más bajo (20365.58), lo que lo convierte en el modelo preferido dentro de los cinco construidos.

A continuación aplicaremos la función ols_step_both_aic(), que es un método de selección paso a paso basado en el AIC para optimizar nuestro Modelo_5_Nuevo. En el proceso, identificaremos las variables más significativas y eliminaremos aquellas que no aportan al modelo.

Steps <- ols_step_both_aic(Modelo_5_Nuevo, progress = T, details = T)
## Stepwise Selection Method 
## -------------------------
## 
## Candidate Terms: 
## 
## 1 . Superficie_Construida_M2 
## 2 . Comuna 
## 3 . Superficie_Construida_M2:Comuna 
## 
##  Step 0: AIC = 21688.06 
##  Valor_UF ~ 1 
## 
## 
## Variables Entered/Removed: 
## 
##                                               Enter New Variables                                             
## --------------------------------------------------------------------------------------------------------------
## Variable                           DF       AIC           Sum Sq               RSS          R-Sq     Adj. R-Sq 
## --------------------------------------------------------------------------------------------------------------
## Superficie_Construida_M2:Comuna     1    20409.860    70709265948.301    25438731636.892    0.735        0.724 
## Comuna                              1    20948.579    52991406141.483    43156591443.711    0.551        0.533 
## Superficie_Construida_M2            1    20977.167    48252254459.352    47895743125.841    0.502        0.501 
## --------------------------------------------------------------------------------------------------------------
## 
## - Superficie_Construida_M2:Comuna added 
## 
## 
##  Step 1 : AIC = 20409.86 
##  Valor_UF ~ Superficie_Construida_M2:Comuna 
## 
##                                            Enter New Variables                                         
## -------------------------------------------------------------------------------------------------------
## Variable                    DF       AIC           Sum Sq               RSS          R-Sq     Adj. R-Sq 
## -------------------------------------------------------------------------------------------------------
## Comuna                       1    20365.582    73619324927.768    22528672657.426    0.766        0.746 
## Superficie_Construida_M2     1    20409.860    70709265948.300    25438731636.892    0.735        0.724 
## -------------------------------------------------------------------------------------------------------
## 
## - Comuna added 
## 
## 
##  Step 2 : AIC = 20365.58 
##  Valor_UF ~ Superficie_Construida_M2:Comuna + Comuna 
## 
##                                           Remove Existing Variables                                           
## --------------------------------------------------------------------------------------------------------------
## Variable                           DF       AIC           Sum Sq               RSS          R-Sq     Adj. R-Sq 
## --------------------------------------------------------------------------------------------------------------
## Comuna                              1    20409.860    70709265948.301    25438731636.892    0.735        0.724 
## Superficie_Construida_M2:Comuna     1    20948.579    52991406141.483    43156591443.711    0.551        0.533 
## --------------------------------------------------------------------------------------------------------------
## 
##                                            Enter New Variables                                         
## -------------------------------------------------------------------------------------------------------
## Variable                    DF       AIC           Sum Sq               RSS          R-Sq     Adj. R-Sq 
## -------------------------------------------------------------------------------------------------------
## Superficie_Construida_M2     1    20365.582    73619324927.768    22528672657.426    0.766        0.746 
## -------------------------------------------------------------------------------------------------------
## 
## 
## No more variables to be added or removed.
## 
## Final Model Output 
## ------------------
## 
##                            Model Summary                             
## --------------------------------------------------------------------
## R                       0.875       RMSE                   4892.975 
## R-Squared               0.766       Coef. Var                46.304 
## Adj. R-Squared          0.746       MSE                23941203.674 
## Pred R-Squared          0.710       MAE                    2685.461 
## --------------------------------------------------------------------
##  RMSE: Root Mean Square Error 
##  MSE: Mean Square Error 
##  MAE: Mean Absolute Error 
## 
##                                      ANOVA                                      
## -------------------------------------------------------------------------------
##                        Sum of                                                  
##                       Squares          DF      Mean Square      F         Sig. 
## -------------------------------------------------------------------------------
## Regression    73619324927.768          81    908880554.664    37.963    0.0000 
## Residual      22528672657.426         941     23941203.674                     
## Total              9.6148e+10        1022                                      
## -------------------------------------------------------------------------------
## 
##                                                             Parameter Estimates                                                             
## -------------------------------------------------------------------------------------------------------------------------------------------
##                                              model          Beta    Std. Error    Std. Beta      t        Sig          lower         upper 
## -------------------------------------------------------------------------------------------------------------------------------------------
##                                        (Intercept)       283.836      5894.285                  0.048    0.962    -11283.629     11851.301 
##                                    ComunaCerrillos      -539.756     10348.542       -0.007    -0.052    0.958    -20848.647     19769.136 
##                                  ComunaCerro Navia     -9136.117     28425.096       -0.042    -0.321    0.748    -64920.033     46647.799 
##                                       ComunaColina    -18336.048      7025.776       -0.371    -2.610    0.009    -32124.049     -4548.046 
##                                     ComunaConchalí     -4963.960     11542.083       -0.067    -0.430    0.667    -27615.160     17687.241 
##                                    ComunaEl Bosque      3245.976      7190.018        0.042     0.451    0.652    -10864.350     17356.301 
##                                     ComunaEl Monte      -501.478     18673.607       -0.002    -0.027    0.979    -37148.211     36145.255 
##                             ComunaEstación Central     -5067.427     10169.863       -0.049    -0.498    0.618    -25025.664     14890.809 
##                                   ComunaHuechuraba    -13766.684      8591.812       -0.223    -1.602    0.109    -30628.013      3094.646 
##                                ComunaIndependencia      5050.546      7322.779        0.058     0.690    0.491     -9320.322     19421.413 
##                                  ComunaLa Cisterna     -1523.298      8014.081       -0.023    -0.190    0.849    -17250.838     14204.241 
##                                   ComunaLa Florida     -3371.306      6944.366       -0.054    -0.485    0.627    -16999.542     10256.930 
##                                    ComunaLa Granja     -6215.963     11005.617       -0.066    -0.565    0.572    -27814.356     15382.431 
##                                   ComunaLa Pintana       739.922      6737.935        0.010     0.110    0.913    -12483.195     13963.040 
##                                     ComunaLa Reina    -11199.368      7248.583       -0.234    -1.545    0.123    -25424.627      3025.891 
##                                        ComunaLampa      1046.614      6653.206        0.020     0.157    0.875    -12010.224     14103.452 
##                                   ComunaLas Condes    -19908.855      6949.417       -0.434    -2.865    0.004    -33547.003     -6270.707 
##                                 ComunaLo Barnechea       534.988      6482.860        0.012     0.083    0.934    -12187.547     13257.524 
##                                    ComunaLo Espejo      1514.752     17481.951        0.013     0.087    0.931    -32793.370     35822.873 
##                                     ComunaLo Prado     -2051.531     18435.092       -0.019    -0.111    0.911    -38230.182     34127.120 
##                                        ComunaMacul     -4305.824      7219.762       -0.086    -0.596    0.551    -18474.522      9862.874 
##                                        ComunaMaipú      -529.743      6906.556       -0.010    -0.077    0.939    -14083.778     13024.292 
##                                        ComunaÑuñoa     -3389.045      7651.344       -0.074    -0.443    0.658    -18404.718     11626.627 
##                                ComunaPadre Hurtado     -6753.867      9855.795       -0.081    -0.685    0.493    -26095.749     12588.014 
##                          ComunaPedro Aguirre Cerda     -5103.789     10850.549       -0.054    -0.470    0.638    -26397.863     16190.284 
##                                     ComunaPeñaflor     -6147.577      7910.854       -0.079    -0.777    0.437    -21672.534      9377.380 
##                                    ComunaPeñalolén      -559.674      6874.963       -0.012    -0.081    0.935    -14051.707     12932.359 
##                                  ComunaProvidencia    -19082.208      7345.877       -0.412    -2.598    0.010    -33498.405     -4666.011 
##                                     ComunaPudahuel    -10182.065      8006.739       -0.215    -1.272    0.204    -25895.196      5531.066 
##                                  ComunaPuente Alto      -376.530      6867.819       -0.008    -0.055    0.956    -13854.544     13101.483 
##                                    ComunaQuilicura     -4606.950      7854.831       -0.100    -0.587    0.558    -20021.963     10808.062 
##                                ComunaQuinta Normal     -2619.709      9241.675       -0.027    -0.283    0.777    -20756.387     15516.968 
##                                     ComunaRecoleta     -7785.447      8221.330       -0.111    -0.947    0.344    -23919.710      8348.816 
##                                        ComunaRenca     -1598.450     10813.369       -0.017    -0.148    0.883    -22819.559     19622.660 
##                                 ComunaSan Bernardo    -18787.976      7197.232       -0.367    -2.610    0.009    -32912.459     -4663.494 
##                                  ComunaSan Joaquín    -11160.417     12193.683       -0.108    -0.915    0.360    -35090.375     12769.541 
##                            ComunaSan José de Maipo      2387.353     20888.358        0.013     0.114    0.909    -38605.803     43380.509 
##                                   ComunaSan Miguel     -3792.185      7771.015       -0.069    -0.488    0.626    -19042.709     11458.340 
##                                    ComunaSan Ramón      3791.929     26021.651        0.024     0.146    0.884    -47275.253     54859.111 
##                                     ComunaSantiago     -5854.584      7070.072       -0.108    -0.828    0.408    -19729.516      8020.348 
##                                     ComunaVitacura    -24518.819      6658.145       -0.519    -3.683    0.000    -37585.349    -11452.289 
##     Superficie_Construida_M2:ComunaCalera de Tango       841.360       365.279        0.163     2.303    0.021       124.504      1558.216 
##           Superficie_Construida_M2:ComunaCerrillos       407.076       790.819        0.054     0.515    0.607     -1144.897      1959.050 
##         Superficie_Construida_M2:ComunaCerro Navia      1225.971      2775.971        0.056     0.442    0.659     -4221.839      6673.781 
##              Superficie_Construida_M2:ComunaColina      2129.025       236.246        0.698     9.012    0.000      1665.396      2592.655 
##            Superficie_Construida_M2:ComunaConchalí       807.856       850.999        0.128     0.949    0.343      -862.221      2477.932 
##           Superficie_Construida_M2:ComunaEl Bosque       154.613       374.062        0.022     0.413    0.679      -579.479       888.705 
##            Superficie_Construida_M2:ComunaEl Monte       212.713      1570.876        0.011     0.135    0.892     -2870.113      3295.538 
##    Superficie_Construida_M2:ComunaEstación Central       918.865       726.786        0.101     1.264    0.206      -507.444      2345.173 
##          Superficie_Construida_M2:ComunaHuechuraba      1766.620       525.492        0.341     3.362    0.001       735.349      2797.892 
##       Superficie_Construida_M2:ComunaIndependencia        29.648       393.892        0.004     0.075    0.940      -743.362       802.657 
##         Superficie_Construida_M2:ComunaLa Cisterna       649.198       443.758        0.119     1.463    0.144      -221.672      1520.068 
##          Superficie_Construida_M2:ComunaLa Florida      1108.296       306.238        0.212     3.619    0.000       507.307      1709.285 
##           Superficie_Construida_M2:ComunaLa Granja       856.270       791.812        0.107     1.081    0.280      -697.652      2410.192 
##          Superficie_Construida_M2:ComunaLa Pintana       163.584       334.519        0.021     0.489    0.625      -492.906       820.074 
##            Superficie_Construida_M2:ComunaLa Reina      1989.264       297.817        0.590     6.679    0.000      1404.802      2573.726 
##               Superficie_Construida_M2:ComunaLampa       328.547       254.998        0.078     1.288    0.198      -171.885       828.978 
##          Superficie_Construida_M2:ComunaLas Condes      2851.662       226.874        1.010    12.569    0.000      2406.425      3296.899 
##        Superficie_Construida_M2:ComunaLo Barnechea      1654.025       158.699        0.615    10.422    0.000      1342.580      1965.470 
##           Superficie_Construida_M2:ComunaLo Espejo        54.471      1525.043        0.005     0.036    0.972     -2938.409      3047.350 
##            Superficie_Construida_M2:ComunaLo Prado       479.015      1593.246        0.048     0.301    0.764     -2647.711      3605.742 
##               Superficie_Construida_M2:ComunaMacul       912.557       364.683        0.209     2.502    0.013       196.871      1628.243 
##               Superficie_Construida_M2:ComunaMaipú       447.189       319.101        0.100     1.401    0.161      -179.043      1073.421 
##               Superficie_Construida_M2:ComunaÑuñoa      1206.518       381.362        0.337     3.164    0.002       458.099      1954.937 
##       Superficie_Construida_M2:ComunaPadre Hurtado      1015.681       778.391        0.124     1.305    0.192      -511.903      2543.265 
## Superficie_Construida_M2:ComunaPedro Aguirre Cerda       720.942       723.316        0.097     0.997    0.319      -698.558      2140.442 
##            Superficie_Construida_M2:ComunaPeñaflor       920.550       463.147        0.134     1.988    0.047        11.629      1829.471 
##           Superficie_Construida_M2:ComunaPeñalolén       872.992       285.325        0.227     3.060    0.002       313.045      1432.939 
##         Superficie_Construida_M2:ComunaProvidencia      2662.056       331.727        0.760     8.025    0.000      2011.045      3313.067 
##            Superficie_Construida_M2:ComunaPudahuel      1438.782       477.426        0.346     3.014    0.003       501.840      2375.724 
##         Superficie_Construida_M2:ComunaPuente Alto       497.202       306.738        0.114     1.621    0.105      -104.768      1099.172 
##           Superficie_Construida_M2:ComunaQuilicura       773.676       523.722        0.167     1.477    0.140      -254.123      1801.475 
##       Superficie_Construida_M2:ComunaQuinta Normal       642.254       535.486        0.087     1.199    0.231      -408.632      1693.140 
##            Superficie_Construida_M2:ComunaRecoleta      1176.386       453.984        0.212     2.591    0.010       285.446      2067.325 
##               Superficie_Construida_M2:ComunaRenca       468.388       912.584        0.050     0.513    0.608     -1322.546      2259.323 
##        Superficie_Construida_M2:ComunaSan Bernardo      2229.895       347.428        0.517     6.418    0.000      1548.071      2911.719 
##         Superficie_Construida_M2:ComunaSan Joaquín      1466.501       852.803        0.177     1.720    0.086      -207.114      3140.116 
##   Superficie_Construida_M2:ComunaSan José de Maipo       109.528      1719.837        0.007     0.064    0.949     -3265.631      3484.688 
##          Superficie_Construida_M2:ComunaSan Miguel      1017.604       390.812        0.240     2.604    0.009       250.640      1784.567 
##           Superficie_Construida_M2:ComunaSan Ramón      -148.378      2808.546       -0.009    -0.053    0.958     -5660.116      5363.359 
##            Superficie_Construida_M2:ComunaSantiago      1283.901       267.632        0.347     4.797    0.000       758.676      1809.126 
##            Superficie_Construida_M2:ComunaVitacura      3291.648       214.222        1.008    15.366    0.000      2871.240      3712.057 
## -------------------------------------------------------------------------------------------------------------------------------------------

Los resultados nos indican que la combinación de Superficie_Construida_M2:Comuna, y Comuna individualmente considerada, proporcionan el mejor ajuste en términos de AIC, lo que indica una interacción significativa entre la superficie construida y la comuna en la predicción del valor UF.

Steps$predictors
## [1] "Superficie_Construida_M2:Comuna" "Comuna"

Nuestro Modelo_Final, por lo tanto, será el siguiente:

Modelo_Final <- lm(Valor_UF ~ Superficie_Construida_M2:Comuna + Comuna, data = Dataset_Transformado)
summary(Modelo_Final)
## 
## Call:
## lm(formula = Valor_UF ~ Superficie_Construida_M2:Comuna + Comuna, 
##     data = Dataset_Transformado)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -13511  -1778   -389   1046  55462 
## 
## Coefficients:
##                                                     Estimate Std. Error t value
## (Intercept)                                           283.84    5894.29   0.048
## ComunaCerrillos                                      -539.76   10348.54  -0.052
## ComunaCerro Navia                                   -9136.12   28425.10  -0.321
## ComunaColina                                       -18336.05    7025.78  -2.610
## ComunaConchalí                                      -4963.96   11542.08  -0.430
## ComunaEl Bosque                                      3245.98    7190.02   0.451
## ComunaEl Monte                                       -501.48   18673.61  -0.027
## ComunaEstación Central                              -5067.43   10169.86  -0.498
## ComunaHuechuraba                                   -13766.68    8591.81  -1.602
## ComunaIndependencia                                  5050.55    7322.78   0.690
## ComunaLa Cisterna                                   -1523.30    8014.08  -0.190
## ComunaLa Florida                                    -3371.31    6944.37  -0.485
## ComunaLa Granja                                     -6215.96   11005.62  -0.565
## ComunaLa Pintana                                      739.92    6737.93   0.110
## ComunaLa Reina                                     -11199.37    7248.58  -1.545
## ComunaLampa                                          1046.61    6653.21   0.157
## ComunaLas Condes                                   -19908.85    6949.42  -2.865
## ComunaLo Barnechea                                    534.99    6482.86   0.083
## ComunaLo Espejo                                      1514.75   17481.95   0.087
## ComunaLo Prado                                      -2051.53   18435.09  -0.111
## ComunaMacul                                         -4305.82    7219.76  -0.596
## ComunaMaipú                                          -529.74    6906.56  -0.077
## ComunaÑuñoa                                         -3389.05    7651.34  -0.443
## ComunaPadre Hurtado                                 -6753.87    9855.80  -0.685
## ComunaPedro Aguirre Cerda                           -5103.79   10850.55  -0.470
## ComunaPeñaflor                                      -6147.58    7910.85  -0.777
## ComunaPeñalolén                                      -559.67    6874.96  -0.081
## ComunaProvidencia                                  -19082.21    7345.88  -2.598
## ComunaPudahuel                                     -10182.06    8006.74  -1.272
## ComunaPuente Alto                                    -376.53    6867.82  -0.055
## ComunaQuilicura                                     -4606.95    7854.83  -0.587
## ComunaQuinta Normal                                 -2619.71    9241.67  -0.283
## ComunaRecoleta                                      -7785.45    8221.33  -0.947
## ComunaRenca                                         -1598.45   10813.37  -0.148
## ComunaSan Bernardo                                 -18787.98    7197.23  -2.610
## ComunaSan Joaquín                                  -11160.42   12193.68  -0.915
## ComunaSan José de Maipo                              2387.35   20888.36   0.114
## ComunaSan Miguel                                    -3792.18    7771.01  -0.488
## ComunaSan Ramón                                      3791.93   26021.65   0.146
## ComunaSantiago                                      -5854.58    7070.07  -0.828
## ComunaVitacura                                     -24518.82    6658.14  -3.683
## Superficie_Construida_M2:ComunaCalera de Tango        841.36     365.28   2.303
## Superficie_Construida_M2:ComunaCerrillos              407.08     790.82   0.515
## Superficie_Construida_M2:ComunaCerro Navia           1225.97    2775.97   0.442
## Superficie_Construida_M2:ComunaColina                2129.03     236.25   9.012
## Superficie_Construida_M2:ComunaConchalí               807.86     851.00   0.949
## Superficie_Construida_M2:ComunaEl Bosque              154.61     374.06   0.413
## Superficie_Construida_M2:ComunaEl Monte               212.71    1570.88   0.135
## Superficie_Construida_M2:ComunaEstación Central       918.86     726.79   1.264
## Superficie_Construida_M2:ComunaHuechuraba            1766.62     525.49   3.362
## Superficie_Construida_M2:ComunaIndependencia           29.65     393.89   0.075
## Superficie_Construida_M2:ComunaLa Cisterna            649.20     443.76   1.463
## Superficie_Construida_M2:ComunaLa Florida            1108.30     306.24   3.619
## Superficie_Construida_M2:ComunaLa Granja              856.27     791.81   1.081
## Superficie_Construida_M2:ComunaLa Pintana             163.58     334.52   0.489
## Superficie_Construida_M2:ComunaLa Reina              1989.26     297.82   6.679
## Superficie_Construida_M2:ComunaLampa                  328.55     255.00   1.288
## Superficie_Construida_M2:ComunaLas Condes            2851.66     226.87  12.569
## Superficie_Construida_M2:ComunaLo Barnechea          1654.03     158.70  10.422
## Superficie_Construida_M2:ComunaLo Espejo               54.47    1525.04   0.036
## Superficie_Construida_M2:ComunaLo Prado               479.02    1593.25   0.301
## Superficie_Construida_M2:ComunaMacul                  912.56     364.68   2.502
## Superficie_Construida_M2:ComunaMaipú                  447.19     319.10   1.401
## Superficie_Construida_M2:ComunaÑuñoa                 1206.52     381.36   3.164
## Superficie_Construida_M2:ComunaPadre Hurtado         1015.68     778.39   1.305
## Superficie_Construida_M2:ComunaPedro Aguirre Cerda    720.94     723.32   0.997
## Superficie_Construida_M2:ComunaPeñaflor               920.55     463.15   1.988
## Superficie_Construida_M2:ComunaPeñalolén              872.99     285.33   3.060
## Superficie_Construida_M2:ComunaProvidencia           2662.06     331.73   8.025
## Superficie_Construida_M2:ComunaPudahuel              1438.78     477.43   3.014
## Superficie_Construida_M2:ComunaPuente Alto            497.20     306.74   1.621
## Superficie_Construida_M2:ComunaQuilicura              773.68     523.72   1.477
## Superficie_Construida_M2:ComunaQuinta Normal          642.25     535.49   1.199
## Superficie_Construida_M2:ComunaRecoleta              1176.39     453.98   2.591
## Superficie_Construida_M2:ComunaRenca                  468.39     912.58   0.513
## Superficie_Construida_M2:ComunaSan Bernardo          2229.89     347.43   6.418
## Superficie_Construida_M2:ComunaSan Joaquín           1466.50     852.80   1.720
## Superficie_Construida_M2:ComunaSan José de Maipo      109.53    1719.84   0.064
## Superficie_Construida_M2:ComunaSan Miguel            1017.60     390.81   2.604
## Superficie_Construida_M2:ComunaSan Ramón             -148.38    2808.55  -0.053
## Superficie_Construida_M2:ComunaSantiago              1283.90     267.63   4.797
## Superficie_Construida_M2:ComunaVitacura              3291.65     214.22  15.366
##                                                    Pr(>|t|)    
## (Intercept)                                        0.961603    
## ComunaCerrillos                                    0.958414    
## ComunaCerro Navia                                  0.747971    
## ComunaColina                                       0.009203 ** 
## ComunaConchalí                                     0.667240    
## ComunaEl Bosque                                    0.651765    
## ComunaEl Monte                                     0.978581    
## ComunaEstación Central                             0.618404    
## ComunaHuechuraba                                   0.109424    
## ComunaIndependencia                                0.490551    
## ComunaLa Cisterna                                  0.849289    
## ComunaLa Florida                                   0.627453    
## ComunaLa Granja                                    0.572345    
## ComunaLa Pintana                                   0.912580    
## ComunaLa Reina                                     0.122672    
## ComunaLampa                                        0.875034    
## ComunaLas Condes                                   0.004265 ** 
## ComunaLo Barnechea                                 0.934248    
## ComunaLo Espejo                                    0.930971    
## ComunaLo Prado                                     0.911415    
## ComunaMacul                                        0.551055    
## ComunaMaipú                                        0.938877    
## ComunaÑuñoa                                        0.657915    
## ComunaPadre Hurtado                                0.493343    
## ComunaPedro Aguirre Cerda                          0.638199    
## ComunaPeñaflor                                     0.437291    
## ComunaPeñalolén                                    0.935135    
## ComunaProvidencia                                  0.009532 ** 
## ComunaPudahuel                                     0.203799    
## ComunaPuente Alto                                  0.956289    
## ComunaQuilicura                                    0.557672    
## ComunaQuinta Normal                                0.776881    
## ComunaRecoleta                                     0.343891    
## ComunaRenca                                        0.882515    
## ComunaSan Bernardo                                 0.009186 ** 
## ComunaSan Joaquín                                  0.360288    
## ComunaSan José de Maipo                            0.909031    
## ComunaSan Miguel                                   0.625670    
## ComunaSan Ramón                                    0.884172    
## ComunaSantiago                                     0.407835    
## ComunaVitacura                                     0.000244 ***
## Superficie_Construida_M2:ComunaCalera de Tango     0.021477 *  
## Superficie_Construida_M2:ComunaCerrillos           0.606847    
## Superficie_Construida_M2:ComunaCerro Navia         0.658853    
## Superficie_Construida_M2:ComunaColina               < 2e-16 ***
## Superficie_Construida_M2:ComunaConchalí            0.342711    
## Superficie_Construida_M2:ComunaEl Bosque           0.679456    
## Superficie_Construida_M2:ComunaEl Monte            0.892316    
## Superficie_Construida_M2:ComunaEstación Central    0.206441    
## Superficie_Construida_M2:ComunaHuechuraba          0.000805 ***
## Superficie_Construida_M2:ComunaIndependencia       0.940017    
## Superficie_Construida_M2:ComunaLa Cisterna         0.143813    
## Superficie_Construida_M2:ComunaLa Florida          0.000311 ***
## Superficie_Construida_M2:ComunaLa Granja           0.279794    
## Superficie_Construida_M2:ComunaLa Pintana          0.624947    
## Superficie_Construida_M2:ComunaLa Reina            4.10e-11 ***
## Superficie_Construida_M2:ComunaLampa               0.197914    
## Superficie_Construida_M2:ComunaLas Condes           < 2e-16 ***
## Superficie_Construida_M2:ComunaLo Barnechea         < 2e-16 ***
## Superficie_Construida_M2:ComunaLo Espejo           0.971515    
## Superficie_Construida_M2:ComunaLo Prado            0.763745    
## Superficie_Construida_M2:ComunaMacul               0.012507 *  
## Superficie_Construida_M2:ComunaMaipú               0.161423    
## Superficie_Construida_M2:ComunaÑuñoa               0.001608 ** 
## Superficie_Construida_M2:ComunaPadre Hurtado       0.192264    
## Superficie_Construida_M2:ComunaPedro Aguirre Cerda 0.319158    
## Superficie_Construida_M2:ComunaPeñaflor            0.047146 *  
## Superficie_Construida_M2:ComunaPeñalolén           0.002279 ** 
## Superficie_Construida_M2:ComunaProvidencia         3.01e-15 ***
## Superficie_Construida_M2:ComunaPudahuel            0.002651 ** 
## Superficie_Construida_M2:ComunaPuente Alto         0.105367    
## Superficie_Construida_M2:ComunaQuilicura           0.139939    
## Superficie_Construida_M2:ComunaQuinta Normal       0.230681    
## Superficie_Construida_M2:ComunaRecoleta            0.009711 ** 
## Superficie_Construida_M2:ComunaRenca               0.607893    
## Superficie_Construida_M2:ComunaSan Bernardo        2.18e-10 ***
## Superficie_Construida_M2:ComunaSan Joaquín         0.085829 .  
## Superficie_Construida_M2:ComunaSan José de Maipo   0.949234    
## Superficie_Construida_M2:ComunaSan Miguel          0.009364 ** 
## Superficie_Construida_M2:ComunaSan Ramón           0.957878    
## Superficie_Construida_M2:ComunaSantiago            1.87e-06 ***
## Superficie_Construida_M2:ComunaVitacura             < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4893 on 941 degrees of freedom
## Multiple R-squared:  0.7657, Adjusted R-squared:  0.7455 
## F-statistic: 37.96 on 81 and 941 DF,  p-value: < 2.2e-16

Sin embargo, no se constatan los supuestos para la validación global del modelo.

gvlma(Modelo_Final)
## 
## Call:
## lm(formula = Valor_UF ~ Superficie_Construida_M2:Comuna + Comuna, 
##     data = Dataset_Transformado)
## 
## Coefficients:
##                                        (Intercept)  
##                                             283.84  
##                                    ComunaCerrillos  
##                                            -539.76  
##                                  ComunaCerro Navia  
##                                           -9136.12  
##                                       ComunaColina  
##                                          -18336.05  
##                                     ComunaConchalí  
##                                           -4963.96  
##                                    ComunaEl Bosque  
##                                            3245.98  
##                                     ComunaEl Monte  
##                                            -501.48  
##                             ComunaEstación Central  
##                                           -5067.43  
##                                   ComunaHuechuraba  
##                                          -13766.68  
##                                ComunaIndependencia  
##                                            5050.55  
##                                  ComunaLa Cisterna  
##                                           -1523.30  
##                                   ComunaLa Florida  
##                                           -3371.31  
##                                    ComunaLa Granja  
##                                           -6215.96  
##                                   ComunaLa Pintana  
##                                             739.92  
##                                     ComunaLa Reina  
##                                          -11199.37  
##                                        ComunaLampa  
##                                            1046.61  
##                                   ComunaLas Condes  
##                                          -19908.85  
##                                 ComunaLo Barnechea  
##                                             534.99  
##                                    ComunaLo Espejo  
##                                            1514.75  
##                                     ComunaLo Prado  
##                                           -2051.53  
##                                        ComunaMacul  
##                                           -4305.82  
##                                        ComunaMaipú  
##                                            -529.74  
##                                        ComunaÑuñoa  
##                                           -3389.05  
##                                ComunaPadre Hurtado  
##                                           -6753.87  
##                          ComunaPedro Aguirre Cerda  
##                                           -5103.79  
##                                     ComunaPeñaflor  
##                                           -6147.58  
##                                    ComunaPeñalolén  
##                                            -559.67  
##                                  ComunaProvidencia  
##                                          -19082.21  
##                                     ComunaPudahuel  
##                                          -10182.06  
##                                  ComunaPuente Alto  
##                                            -376.53  
##                                    ComunaQuilicura  
##                                           -4606.95  
##                                ComunaQuinta Normal  
##                                           -2619.71  
##                                     ComunaRecoleta  
##                                           -7785.45  
##                                        ComunaRenca  
##                                           -1598.45  
##                                 ComunaSan Bernardo  
##                                          -18787.98  
##                                  ComunaSan Joaquín  
##                                          -11160.42  
##                            ComunaSan José de Maipo  
##                                            2387.35  
##                                   ComunaSan Miguel  
##                                           -3792.18  
##                                    ComunaSan Ramón  
##                                            3791.93  
##                                     ComunaSantiago  
##                                           -5854.58  
##                                     ComunaVitacura  
##                                          -24518.82  
##     Superficie_Construida_M2:ComunaCalera de Tango  
##                                             841.36  
##           Superficie_Construida_M2:ComunaCerrillos  
##                                             407.08  
##         Superficie_Construida_M2:ComunaCerro Navia  
##                                            1225.97  
##              Superficie_Construida_M2:ComunaColina  
##                                            2129.03  
##            Superficie_Construida_M2:ComunaConchalí  
##                                             807.86  
##           Superficie_Construida_M2:ComunaEl Bosque  
##                                             154.61  
##            Superficie_Construida_M2:ComunaEl Monte  
##                                             212.71  
##    Superficie_Construida_M2:ComunaEstación Central  
##                                             918.86  
##          Superficie_Construida_M2:ComunaHuechuraba  
##                                            1766.62  
##       Superficie_Construida_M2:ComunaIndependencia  
##                                              29.65  
##         Superficie_Construida_M2:ComunaLa Cisterna  
##                                             649.20  
##          Superficie_Construida_M2:ComunaLa Florida  
##                                            1108.30  
##           Superficie_Construida_M2:ComunaLa Granja  
##                                             856.27  
##          Superficie_Construida_M2:ComunaLa Pintana  
##                                             163.58  
##            Superficie_Construida_M2:ComunaLa Reina  
##                                            1989.26  
##               Superficie_Construida_M2:ComunaLampa  
##                                             328.55  
##          Superficie_Construida_M2:ComunaLas Condes  
##                                            2851.66  
##        Superficie_Construida_M2:ComunaLo Barnechea  
##                                            1654.03  
##           Superficie_Construida_M2:ComunaLo Espejo  
##                                              54.47  
##            Superficie_Construida_M2:ComunaLo Prado  
##                                             479.02  
##               Superficie_Construida_M2:ComunaMacul  
##                                             912.56  
##               Superficie_Construida_M2:ComunaMaipú  
##                                             447.19  
##               Superficie_Construida_M2:ComunaÑuñoa  
##                                            1206.52  
##       Superficie_Construida_M2:ComunaPadre Hurtado  
##                                            1015.68  
## Superficie_Construida_M2:ComunaPedro Aguirre Cerda  
##                                             720.94  
##            Superficie_Construida_M2:ComunaPeñaflor  
##                                             920.55  
##           Superficie_Construida_M2:ComunaPeñalolén  
##                                             872.99  
##         Superficie_Construida_M2:ComunaProvidencia  
##                                            2662.06  
##            Superficie_Construida_M2:ComunaPudahuel  
##                                            1438.78  
##         Superficie_Construida_M2:ComunaPuente Alto  
##                                             497.20  
##           Superficie_Construida_M2:ComunaQuilicura  
##                                             773.68  
##       Superficie_Construida_M2:ComunaQuinta Normal  
##                                             642.25  
##            Superficie_Construida_M2:ComunaRecoleta  
##                                            1176.39  
##               Superficie_Construida_M2:ComunaRenca  
##                                             468.39  
##        Superficie_Construida_M2:ComunaSan Bernardo  
##                                            2229.89  
##         Superficie_Construida_M2:ComunaSan Joaquín  
##                                            1466.50  
##   Superficie_Construida_M2:ComunaSan José de Maipo  
##                                             109.53  
##          Superficie_Construida_M2:ComunaSan Miguel  
##                                            1017.60  
##           Superficie_Construida_M2:ComunaSan Ramón  
##                                            -148.38  
##            Superficie_Construida_M2:ComunaSantiago  
##                                            1283.90  
##            Superficie_Construida_M2:ComunaVitacura  
##                                            3291.65  
## 
## 
## ASSESSMENT OF THE LINEAR MODEL ASSUMPTIONS
## USING THE GLOBAL TEST ON 4 DEGREES-OF-FREEDOM:
## Level of Significance =  0.05 
## 
## Call:
##  gvlma(x = Modelo_Final) 
## 
##                        Value   p-value                   Decision
## Global Stat        4.413e+04 0.000e+00 Assumptions NOT satisfied!
## Skewness           2.233e+03 0.000e+00 Assumptions NOT satisfied!
## Kurtosis           4.188e+04 0.000e+00 Assumptions NOT satisfied!
## Link Function      1.973e+01 8.896e-06 Assumptions NOT satisfied!
## Heteroscedasticity 2.411e-01 6.234e-01    Assumptions acceptable.

Y los gráficos lo confirman: el Modelo_Final muestra patrones irregulares en los residuos, desviaciones de la normalidad, y outliers que podrían afectar la validez del modelo.

par(mfrow = c(2,2))
plot(Modelo_Final)

par(mfrow = c(1,1))

✍️ Conclusiones

Podríamos mencionar tres fortalezas de nuestro Modelo_Final:

  1. Posee un alto R-cuadrado ajustado (74,55%), cuestión que indica que el modelo es capaz de explicar una proporción significativa de la variabilidad en la variable dependiente Valor_UF.
  2. El resumen del modelo muestra que la variable Superficie_Construida_M2, interactuando con diferentes Comunas, tiene un impacto significativo y diferenciado en la variable dependiente Valor_UF. De hecho, la gran mayoría de las interacciones son estadísticamente significativas. Esto indica que la ubicación afecta el valor de la propiedad de manera variable.
  3. El modelo considera no sólo los efectos principales de las variables sino también las interacciones entre la superficie construida y las comunas, lo que permite una comprensión más matizada de cómo estas variables se relacionan con el valor de las propiedades.

Sin embargo, y a pesar de los esfuerzos por ajustarlo y optimizarlo, el modelo presenta cuatro problemas centrales:

  1. La presencia de residuos con valores atípicos muy alejados —tanto mínimos como máximos— indica que hay outliers y una distribución no normal de los residuos, cuestión problemática para las suposiciones de un modelo de regresión.
  2. La dispersión y los valores extremos en los residuos sugieren que la suposición de normalidad de los errores podría no cumplirse, lo cual es crucial para la validez de las pruebas estadísticas en una regresión lineal.
  3. Aunque algunos coeficientes son significativos, otros no lo son, lo que podría indicar que no todas las variables o interacciones incluidas son relevantes para el modelo.
  4. El modelo puede ser complejo y potencialmente propenso al sobreajuste, especialmente si el número de observaciones no es suficientemente grande.

Estos limitantes sugieren la necesidad de explorar enfoques alternativos como transformaciones adicionales de las variables, la inclusión de términos no lineales, o incluso la consideración de modelos estadísticos más complejos o no paramétricos.