El presente análisis de datos explora el valor de venta de casas usadas en la región metropolitana de Santiago de Chile. Para ello se emplea, como principal insumo, un dataset disponible en Kaggle que contiene una muestra de 1.139 observaciones relevadas en mayo de 2020.
En las próximas secciones se procederá a realizar un análisis descriptivo general, se explorarán correlaciones y modelos de regresión y, por último, se generarán visualizaciones con los datos procesados.
library(dplyr)
library(readxl)
library(tidyverse)
library(ggplot2)
library(car)
library(lmtest)
library(readr)
library(Hmisc)
library(pastecs)
library(psych)
library(car)
library(gvlma)
library(olsrr)
Dataset <- read_excel("Dataset/Casas_usadas.xlsx")
El dataset contiene 1.139 observaciones y trece variables.
str(Dataset)
## tibble [1,139 × 13] (S3: tbl_df/tbl/data.frame)
## $ Comuna : chr [1:1139] "Calera de Tango" "Calera de Tango" "Calera de Tango" "Calera de Tango" ...
## $ Link : chr [1:1139] "https://chilepropiedades.cl/ver-publicacion/venta-usada/calera-de-tango/casa/queilen/3000455" "https://chilepropiedades.cl/ver-publicacion/venta-usada/calera-de-tango/casa/queilen/2246315" "https://chilepropiedades.cl/ver-publicacion/venta-usada/calera-de-tango/casa/avenida-calera-de-tango-condominio"| __truncated__ "https://chilepropiedades.cl/ver-publicacion/venta-usada/calera-de-tango/casa/paradero-14-125-kilometros-cruce-c"| __truncated__ ...
## $ Tipo_Vivienda : chr [1:1139] "Casa" "Casa" "Casa" "Casa" ...
## $ N_Habitaciones : num [1:1139] 5 6 3 8 3 3 3 5 5 6 ...
## $ N_Baños : num [1:1139] 6 6 3 6 2 2 2 4 3 4 ...
## $ N_Estacionamientos : chr [1:1139] "3" "6" "No" "No" ...
## $ Total_Superficie_M2 : num [1:1139] 5000 5000 2027 5000 5000 ...
## $ Superficie_Construida_M2: chr [1:1139] "440" "430" "140" "480" ...
## $ Valor_UF : num [1:1139] 12200 13000 10300 21500 9100 ...
## $ Valor_CLP : num [1:1139] 3.51e+08 3.74e+08 2.97e+08 6.19e+08 2.62e+08 ...
## $ Dirección : chr [1:1139] "Calera de Tango, Queilen" "Calera de Tango, Queilen" "Calera de Tango, Avenida calera de tango condominio/santa teresa de tango - el barrancon" "Calera de Tango, Paradero 14 1/2/5 kilometros cruce calera de tango" ...
## $ Quién_Vende : chr [1:1139] "Gabriela Mellado V." "Gabriela Mellado V." "Alonso Baeza Rivera y Cía. Ltda. (Kennedy)" "RED Gestión Propiedades" ...
## $ Corredor : chr [1:1139] "Zenpro Propiedades" "Zenpro Propiedades" "Alonso Baeza Rivera y Cía. Ltda. (Kennedy)" "Red Gestión Propiedades" ...
Del total de variables, cinco son numéricas y ocho son de tipo nominales (character). Sin embargo, podrían realizarse algunos cambios antes de proceder al análisis descriptivo.
En principio, las variables Comuna y Tipo_Vivienda podrían convertirse en factors, es decir, objetos categóricos con niveles. Por su parte, dos variables codificadas como nominales deberían ser recodificadas como numéricas: Superficie_Construida_M2 y N_Estacionamientos.
Dataset$Comuna <- as.factor(Dataset$Comuna)
Dataset$Tipo_Vivienda <- as.factor(Dataset$Tipo_Vivienda)
Dataset$Superficie_Construida_M2 <- as.numeric(Dataset$Superficie_Construida_M2)
Dataset <- Dataset %>%
mutate(N_Estacionamientos = ifelse(N_Estacionamientos == "No", 0, N_Estacionamientos))
Dataset$N_Estacionamientos <- as.numeric(Dataset$N_Estacionamientos)
El redondeo de las variables Total_Superficie_M2, Superficie_Construida_M2 y Valor_UF nos facilitarán el análisis posteriormente.
Dataset$Total_Superficie_M2 <- as.numeric(round(Dataset$Total_Superficie_M2))
Dataset$Superficie_Construida_M2 <- as.numeric(round(Dataset$Superficie_Construida_M2))
Dataset$Valor_UF <- as.numeric(round(Dataset$Valor_UF))
Y, por último, crearemos una nueva columna con el ID de cada observación, eliminaremos las variables que no vamos a usar y prescindiremos de observaciones con datos faltantes (NA), puesto que podrían obstaculizar el correcto funcionamiento de las regresiones.
Dataset <- Dataset %>%
mutate(ID = row_number()) %>%
select(ID, everything()) %>%
select(-Dirección, -Quién_Vende, -Corredor) %>%
na.omit(Dataset)
Ahora sí ya podemos aplicar la función summary()
y
realizar un análisis descriptivo general.
summary(Dataset)
## ID Comuna Link Tipo_Vivienda
## Min. : 1.0 Las Condes : 48 Length:1023 Casa:1023
## 1st Qu.: 294.5 Lo Barnechea: 48 Class :character
## Median : 568.0 Ñuñoa : 48 Mode :character
## Mean : 567.0 Quilicura : 48
## 3rd Qu.: 841.5 Providencia : 47
## Max. :1139.0 Pudahuel : 45
## (Other) :739
## N_Habitaciones N_Baños N_Estacionamientos Total_Superficie_M2
## Min. : 1.000 Min. : 1.00 Min. : 0.0 Min. : 0.0
## 1st Qu.: 3.000 1st Qu.: 2.00 1st Qu.: 0.0 1st Qu.: 181.0
## Median : 4.000 Median : 3.00 Median : 0.0 Median : 300.0
## Mean : 4.142 Mean : 2.73 Mean : 1.1 Mean : 876.6
## 3rd Qu.: 5.000 3rd Qu.: 3.00 3rd Qu.: 2.0 3rd Qu.: 583.5
## Max. :19.000 Max. :12.00 Max. :10.0 Max. :30000.0
##
## Superficie_Construida_M2 Valor_UF Valor_CLP
## Min. : 0.0 Min. : 1215 Min. :3.500e+07
## 1st Qu.: 100.0 1st Qu.: 3992 1st Qu.:1.150e+08
## Median : 140.0 Median : 6980 Median :2.010e+08
## Mean : 182.2 Mean :10567 Mean :3.043e+08
## 3rd Qu.: 220.0 3rd Qu.:13888 3rd Qu.:4.000e+08
## Max. :1400.0 Max. :70828 Max. :2.040e+09
##
Como se advierte:
Nuestro dataset cuenta ahora con 1.023 observaciones.
Las comunas de Las Condes, Lo Barnechea, Ñuñoa y Quilicura concentran la mayor cantidad de casas de la muestra: 48 cada una. Les siguen Providencia (47) y Pudahuel (45).
La mediana indica que más del 50% de las casas tienen cuatro o más habitaciones, pero hay algunas observaciones atípicas, como una casa con diecinueve habitaciones.
En lo que respecta al número de baños, el promedio de baños por casa es de 2,73 y todas las casas tienen al menos un baño.
La mediana de la variable N_Estacionamientos indica que el 50% de las casas no tienen ningún estacionamiento. La media, por su parte, sugiere que hay alrededor de 1,10 estacionamientos por registro. Es importante notar, en este sentido, que la media es mayor que la mediana, lo que sugiere que puede haber algunos valores atípicos o registros con un número mayor de estacionamientos que están afectando la media hacia arriba.
El 50% de las casas tienen una superficie total de 300 m2 o menos. La media, sin embargo, señala que la superficie total promedio es de 876 m2. Esto implica que algunos valores extremadamente altos —casas muy grandes— están afectando la media y la están sesgando hacia arriba.
La variable que refiere la superficie total construida presenta el mismo comportamiento que la variable Total_Superficie_M2: la media es mayor que la mediana, cuestión que estaría indicando que hay valores altos que están sesgando la media hacia arriba.
Por último, el precio promedio de una casa expresado en Unidades de Fomento (UF = unidad de cuenta reajustable a la inflación), es de 10.567. La mediana para la misma variable, sin embargo, es de 6.980 UF. Esta diferencia entre media y mediana, como se ha referido anteriormente, indicaría que hay algunas casas muy caras que están sesgando la media hacia arriba.
Para profundizar en el análisis de datos más allá de realizar una simple descripción de los mismos, exploraremos a continuación cómo correlacionan las variables Superficie_Construida_M2 y Valor_UF.
En principio podría pensarse que existe una correlación positiva entre ambas variables: mientras mayor es la superficie construida de la propiedad, mayor es su precio expresado en UF. Pero, antes de elegir qué correlación correr —Pearson o Spearman—, deberíamos evaluar primero si las variables siguen distribuciones normales.
Si las variables siguen distribuciones normales, Pearson es el adecuado. Si las distribuciones son atípicas, el de Spearman es el coeficiente de correlación más apropiado, ya que es menos sensible a las desviaciones de normalidad y detecta relaciones monótonas.
Para evaluar si las variables tienen una relación lineal, podemos correr primero una prueba de Shapiro-Wilk.
shapiro.test(Dataset$Superficie_Construida_M2)
##
## Shapiro-Wilk normality test
##
## data: Dataset$Superficie_Construida_M2
## W = 0.79667, p-value < 2.2e-16
shapiro.test(Dataset$Valor_UF)
##
## Shapiro-Wilk normality test
##
## data: Dataset$Valor_UF
## W = 0.77872, p-value < 2.2e-16
Para la variable Superficie_Construida_M2, el p-value extremadamente pequeño sugiere que los datos no siguen una distribución normal. De manera similar, el resultado en la prueba de normalidad de Shapiro-Wilk para la variable Valor_UF, indica que los datos de esta variable tampoco siguen una distribución normal.
En ambos casos, entonces, los p-value son significativamente inferiores a cualquier nivel de significancia comúnmente utilizado (0,05), lo que sugiere fuertemente que las variables no siguen una distribución normal.
En función de los resultados en la prueba Shapiro-Wilk, entonces, correremos una correlación de Spearman.
cor(Dataset$Superficie_Construida_M2, Dataset$Valor_UF, method = "spearman")
## [1] 0.7783141
El coeficiente de correlación sobre n = 1.023 observaciones es de 0,7783141. Esto indica que:
Existe una correlación positiva de moderada a fuerte entre las dos variables analizadas.
La tendencia es de aumento general, pero no necesariamente perfecta (relación monotónica creciente).
El coeficiente de correlación confirma que, a medida que una casa tiene mayor superficie, tiende a tener un mayor valor en UF.
El análisis de correlación es importante para comprender las relaciones iniciales entre las variables. Sin embargo, para obtener una comprensión más completa y predictiva del comportamiento de la variable Valor_UF en función de la variable Superficie_Construida_M2, es necesario complementarlo con la construcción de modelos de regresión.
En el presente análisis desarrollaremos cinco modelos, incluyendo una regresión lineal simple, una regresión polinómica, una regresión lineal múltiple, una regresión lineal múltiple con una variable categórica y un modelo de regresión lineal múltiple con interacción entre variables.
En nuestro primer modelo (Modelo_1
), regresionaremos las
variables Valor_UF y Superficie_Construida_M2.
Modelo_1 <- lm(Valor_UF ~ Superficie_Construida_M2, data = Dataset)
summary(Modelo_1)
##
## Call:
## lm(formula = Valor_UF ~ Superficie_Construida_M2, data = Dataset)
##
## Residuals:
## Min 1Q Median 3Q Max
## -23649 -2817 -1050 2185 55848
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 65.438 338.147 0.194 0.847
## Superficie_Construida_M2 57.649 1.516 38.031 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 6242 on 1021 degrees of freedom
## Multiple R-squared: 0.5862, Adjusted R-squared: 0.5858
## F-statistic: 1446 on 1 and 1021 DF, p-value: < 2.2e-16
La regresión nos indica que, en promedio y con fuerte significancia estadística, un aumento de una unidad en la superficie construida se asocia con un aumento estimado de 57,65 unidades en la variable Valor_UF.
El valor R-cuadrado de 0,5862, por su parte, nos señala que aproximadamente el 58,62% de la variabilidad de Valor_UF puede ser explicada por el modelo que desarrollamos.
ggplot(Dataset, aes(x = Superficie_Construida_M2, y = Valor_UF)) +
geom_point() +
geom_smooth(method = "lm", se = FALSE, color = "red") +
labs(x = "Superficie construida (m2)", y = "Precio en unidades de fomento (UF)") +
theme_test()
El modelo, en principio, parece aceptable. Sin embargo, cuando construimos un modelo de regresión, hay cuatro supuestos subyacentes que deben verificarse para que los resultados del modelo sean válidos: los supuestos de normalidad, independencia, linealidad y homocedasticidad.
Para verificar si se cumple el supuesto normalidad, realizaremos en primer lugar una prueba con los residuos del modelo. Para ello utilizaremos una prueba Shapiro-Wilk.
Residuos_1 <- residuals(Modelo_1)
shapiro.test(Residuos_1)
##
## Shapiro-Wilk normality test
##
## data: Residuos_1
## W = 0.86384, p-value < 2.2e-16
La prueba indica que la distribución de los residuos se desvía significativamente de la normalidad, con un p-value muy cercano a cero.
En términos de independencia, la prueba Durbin-Watson con un estadístico de 1.3471 y un p-value de 0 sugiere la presencia de autocorrelación positiva significativa en los residuos del modelo.
durbinWatsonTest(Modelo_1)
## lag Autocorrelation D-W Statistic p-value
## 1 0.3235563 1.3471 0
## Alternative hypothesis: rho != 0
El supuesto de linealidad tampoco se constata.
crPlots(Modelo_1)
El gráfico resulta útil para visualizar la relación no lineal entre la variable independiente y la dependiente. La línea azul discontinua representa la relación esperada bajo el modelo lineal, mientras que la línea fucsia continua muestra la relación real observada en los datos.
Por último, la prueba de homocedasticidad indica que hay una heterocedasticidad significativa en los residuos, ya que el p-value extremadamente bajo sugiere que la varianza de los errores no es constante a lo largo de los valores ajustados del modelo.
ncvTest(Modelo_1)
## Non-constant Variance Score Test
## Variance formula: ~ fitted.values
## Chisquare = 510.2112, Df = 1, p = < 2.22e-16
Para analizar de manera más suscinta si nuestro modelo cumple con los
supuestos requeridos, podemos aplicar también la prueba global de Pena y
Slate (2006) que se encuentra en el paquete gvlma()
. A los
efectos de agilizar la lectura del trabajo, en los próximos modelos se
empleará solamente esta función.
gvlma(Modelo_1)
##
## Call:
## lm(formula = Valor_UF ~ Superficie_Construida_M2, data = Dataset)
##
## Coefficients:
## (Intercept) Superficie_Construida_M2
## 65.44 57.65
##
##
## ASSESSMENT OF THE LINEAR MODEL ASSUMPTIONS
## USING THE GLOBAL TEST ON 4 DEGREES-OF-FREEDOM:
## Level of Significance = 0.05
##
## Call:
## gvlma(x = Modelo_1)
##
## Value p-value Decision
## Global Stat 8096.418 0.000000 Assumptions NOT satisfied!
## Skewness 592.306 0.000000 Assumptions NOT satisfied!
## Kurtosis 7492.703 0.000000 Assumptions NOT satisfied!
## Link Function 8.483 0.003585 Assumptions NOT satisfied!
## Heteroscedasticity 2.925 0.087193 Assumptions acceptable.
Como se advierte, las pruebas de skewness y kurtosis —relacionadas con el supuesto de normalidad—, además del estadístico global, arrojaron resultados negativos. Esto sugiere que nuestro primer modelo de regresión no cumple con los criterios necesarios para interpretaciones y predicciones precisas de los datos.
Cuando lo analizamos gráficamente, por su parte, observamos patrones de residuos no aleatorios y posibles valores atípicos, lo que sugiere que el modelo podría no estar capturando toda la complejidad de los datos. Adicionalmente, podría haber problemas de ausencia homocedasticidad y outliers.
par(mfrow = c(2,2))
plot(Modelo_1)
par(mfrow = c(1,1))
Para nuestro segundo modelo cruzaremos la variable Valor_UF con Superficie_Construida_M2 y su término cuadrático. De esta manera exploraremos la posibilidad de una relación no lineal entre las dos variables que estamos analizando.
Modelo_2 <- lm(Valor_UF ~ Superficie_Construida_M2 + I(Superficie_Construida_M2^2), data = Dataset)
summary(Modelo_2)
##
## Call:
## lm(formula = Valor_UF ~ Superficie_Construida_M2 + I(Superficie_Construida_M2^2),
## data = Dataset)
##
## Residuals:
## Min 1Q Median 3Q Max
## -22898 -2766 -878 2106 55563
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -8.889e+02 4.693e+02 -1.894 0.05853 .
## Superficie_Construida_M2 6.646e+01 3.374e+00 19.699 < 2e-16 ***
## I(Superficie_Construida_M2^2) -1.307e-02 4.477e-03 -2.920 0.00357 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 6220 on 1020 degrees of freedom
## Multiple R-squared: 0.5896, Adjusted R-squared: 0.5888
## F-statistic: 732.8 on 2 and 1020 DF, p-value: < 2.2e-16
Nuestro segundo modelo muestra una relación significativa y no lineal entre Valor_UF y Superficie_Construida_M2, con ambos términos —lineal y cuadrático— estadísticamente significativos, indicando un buen ajuste del modelo como se refleja en el R-cuadrado ajustado (0,5888).
Para graficar nuestro modelo, primero crearemos la función
f_cuadratica, diseñada para calcular y devolver el valor
predicho por Modelo_2
para un valor dado de X basándose en
los coeficientes del modelo.
f_cuadratica <- function(x, fit = Modelo_2){
Modelo_2_coef <- coefficients(Modelo_2)
Modelo_2_coef[1] + Modelo_2_coef[2] * x + Modelo_2_coef[3] * x^2
}
Finalmente, graficaremos los resultados con una nueva curva de ajuste calculada a partir de f_cuadratica.
plot(Dataset$Superficie_Construida_M2, Dataset$Valor_UF,
xlab = "Superficie construida (m2)",
ylab = "Precio en unidades de fomento (UF)")
curve(f_cuadratica, add = T, col = "green")
Resta evaluar si se verifican los supuestos observables para los modelos de regresión.
gvlma(Modelo_2)
##
## Call:
## lm(formula = Valor_UF ~ Superficie_Construida_M2 + I(Superficie_Construida_M2^2),
## data = Dataset)
##
## Coefficients:
## (Intercept) Superficie_Construida_M2
## -888.87275 66.45956
## I(Superficie_Construida_M2^2)
## -0.01308
##
##
## ASSESSMENT OF THE LINEAR MODEL ASSUMPTIONS
## USING THE GLOBAL TEST ON 4 DEGREES-OF-FREEDOM:
## Level of Significance = 0.05
##
## Call:
## gvlma(x = Modelo_2)
##
## Value p-value Decision
## Global Stat 7882.2610 0.0000 Assumptions NOT satisfied!
## Skewness 579.6661 0.0000 Assumptions NOT satisfied!
## Kurtosis 7300.6001 0.0000 Assumptions NOT satisfied!
## Link Function 0.5174 0.4720 Assumptions acceptable.
## Heteroscedasticity 1.4773 0.2242 Assumptions acceptable.
Y, como se observa, las pruebas de skewness y kurtosis —relacionadas con el supuesto de normalidad—, además del estadístico global, arrojaron resultados negativos. Esto sugiere que nuestro segundo modelo de regresión tampoco estaría cumpliendo con los criterios necesarios para interpretaciones y predicciones precisas de los datos.
La constatación gráfica también apunta en este sentido. Tal como lo sugiere el gráfico Scale-Location, se detecta la ausencia de homocedasticidad y posibles valores atípicos. En el gráfico de Residuals vs Leverage, por otra parte, se advierten valores atípicos que podrían estar afectando la precisión del modelo.
par(mfrow = c(2,2))
plot(Modelo_2)
par(mfrow = c(1,1))
En tercer lugar construiremos un modelo de regresión lineal múltiple que busque predecir el valor de las propiedades en UF sobre la base de todas nuestras variables numéricas disponibles: Superficie_Construida_M2, N_Habitaciones, N_Baños, N_Estacionamientos y Total_Superficie_M2.
Modelo_3 <- lm(Valor_UF ~ Superficie_Construida_M2 + N_Habitaciones + N_Baños + N_Estacionamientos + Total_Superficie_M2, data = Dataset)
summary(Modelo_3)
##
## Call:
## lm(formula = Valor_UF ~ Superficie_Construida_M2 + N_Habitaciones +
## N_Baños + N_Estacionamientos + Total_Superficie_M2, data = Dataset)
##
## Residuals:
## Min 1Q Median 3Q Max
## -23040 -2851 -1043 2262 52231
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1204.4643 539.6899 2.232 0.0258 *
## Superficie_Construida_M2 51.0388 2.0036 25.474 < 2e-16 ***
## N_Habitaciones -732.5898 148.9354 -4.919 1.01e-06 ***
## N_Baños 1338.8744 192.0997 6.970 5.70e-12 ***
## N_Estacionamientos -717.3384 111.4876 -6.434 1.91e-10 ***
## Total_Superficie_M2 0.2656 0.1166 2.278 0.0230 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 5974 on 1017 degrees of freedom
## Multiple R-squared: 0.6225, Adjusted R-squared: 0.6206
## F-statistic: 335.4 on 5 and 1017 DF, p-value: < 2.2e-16
El resumen del Modelo_3
indica que todas las variables
incluidas (superficie construída, número de habitaciones, baños,
estacionamientos y superficie total) son estadísticamente significativas
para predecir Valor_UF, dado que sus p-value son muy
bajos.
El coeficiente negativo para número de habitaciones y número de estacionamientos sugiere una relación inversa con el Valor_UF, mientras que el número de baños y la superficie —tanto total como construida— tienen una relación positiva.
El modelo tiene un R-cuadrado ajustado de 0,6206, lo que significa que aproximadamente el 62,06% de la variabilidad en Valor_UF se explica por las variables incluidas. El error estándar residual es de 5.974, y el modelo en general es altamente significativo como lo indica el p-value del estadístico F (< 2.2e-16).
Al momento de evaluar si se verifican los supuestos observables para
los modelos de regresión, sin embargo, advertiremos que —al igual que en
los modelos anteriores— el Modelo_3
no cumple con todos los
criterios necesarios para realizar interpretaciones y predicciones
precisas de los datos.
gvlma(Modelo_3)
##
## Call:
## lm(formula = Valor_UF ~ Superficie_Construida_M2 + N_Habitaciones +
## N_Baños + N_Estacionamientos + Total_Superficie_M2, data = Dataset)
##
## Coefficients:
## (Intercept) Superficie_Construida_M2 N_Habitaciones
## 1204.4643 51.0388 -732.5898
## N_Baños N_Estacionamientos Total_Superficie_M2
## 1338.8744 -717.3384 0.2656
##
##
## ASSESSMENT OF THE LINEAR MODEL ASSUMPTIONS
## USING THE GLOBAL TEST ON 4 DEGREES-OF-FREEDOM:
## Level of Significance = 0.05
##
## Call:
## gvlma(x = Modelo_3)
##
## Value p-value Decision
## Global Stat 9497.6760 0.0000 Assumptions NOT satisfied!
## Skewness 644.9765 0.0000 Assumptions NOT satisfied!
## Kurtosis 8849.9308 0.0000 Assumptions NOT satisfied!
## Link Function 1.8228 0.1770 Assumptions acceptable.
## Heteroscedasticity 0.9458 0.3308 Assumptions acceptable.
En términos gráficos, en efecto, se destaca la presencia de residuos no constantes, valores atípicos, heterocedasticidad y ausencia de normalidad.
par(mfrow = c(2,2))
plot(Modelo_3)
par(mfrow = c(1,1))
Sabemos del mercado inmobiliario que, a menudo, la ubicación de una propiedad resulta ser un predictor importante del precio de la misma. En este sentido, nuestro cuarto modelo incluirá nuestra variable predictora original (Superficie_Construida_M2), pero sumará además una nueva variable categórica: Comuna.
Modelo_4 <- lm(Valor_UF ~ Superficie_Construida_M2 + Comuna, data = Dataset)
summary(Modelo_4)
##
## Call:
## lm(formula = Valor_UF ~ Superficie_Construida_M2 + Comuna, data = Dataset)
##
## Residuals:
## Min 1Q Median 3Q Max
## -15801 -1996 -195 1222 57626
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -194.758 1400.548 -0.139 0.889433
## Superficie_Construida_M2 42.364 1.494 28.347 < 2e-16 ***
## ComunaCerrillos -439.327 1854.889 -0.237 0.812824
## ComunaCerro Navia -390.884 3733.440 -0.105 0.916637
## ComunaColina 2183.479 1522.244 1.434 0.151782
## ComunaConchalí -838.426 1775.021 -0.472 0.636784
## ComunaEl Bosque 263.342 1825.253 0.144 0.885311
## ComunaEl Monte -3028.749 3729.079 -0.812 0.416875
## ComunaEstación Central 176.811 2120.921 0.083 0.933578
## ComunaHuechuraba 1413.617 1652.390 0.855 0.392484
## ComunaIndependencia 733.381 1918.310 0.382 0.702318
## ComunaLa Cisterna 167.191 1699.987 0.098 0.921675
## ComunaLa Florida 3594.215 1662.167 2.162 0.030831 *
## ComunaLa Granja -1671.803 2000.686 -0.836 0.403575
## ComunaLa Pintana -1107.033 1808.871 -0.612 0.540678
## ComunaLa Reina 7448.357 1516.027 4.913 1.05e-06 ***
## ComunaLampa -1127.686 1558.428 -0.724 0.469481
## ComunaLas Condes 12192.210 1493.726 8.162 1.00e-15 ***
## ComunaLo Barnechea 12399.482 1495.469 8.291 3.66e-16 ***
## ComunaLo Espejo -2118.846 2298.570 -0.922 0.356854
## ComunaLo Prado -1224.237 2201.717 -0.556 0.578312
## ComunaMacul 863.039 1553.945 0.555 0.578757
## ComunaMaipú -452.237 1560.486 -0.290 0.772026
## ComunaÑuñoa 5083.612 1510.896 3.365 0.000796 ***
## ComunaPadre Hurtado -204.676 1889.446 -0.108 0.913759
## ComunaPedro Aguirre Cerda -2693.491 1995.382 -1.350 0.177372
## ComunaPeñaflor -1075.511 1822.274 -0.590 0.555191
## ComunaPeñalolén 3742.607 1528.771 2.448 0.014535 *
## ComunaProvidencia 8124.477 1510.906 5.377 9.46e-08 ***
## ComunaPudahuel 1119.191 1533.531 0.730 0.465678
## ComunaPuente Alto 72.576 1553.669 0.047 0.962752
## ComunaQuilicura -362.878 1533.877 -0.237 0.813035
## ComunaQuinta Normal -2047.780 2045.254 -1.001 0.316960
## ComunaRecoleta 124.453 1729.242 0.072 0.942641
## ComunaRenca -403.231 2011.576 -0.200 0.841166
## ComunaSan Bernardo 1539.463 1560.373 0.987 0.324082
## ComunaSan Joaquín 539.244 2114.695 0.255 0.798778
## ComunaSan José de Maipo -1603.795 3141.313 -0.511 0.609782
## ComunaSan Miguel 2088.880 1583.301 1.319 0.187370
## ComunaSan Ramón -91.246 2813.432 -0.032 0.974134
## ComunaSantiago 2347.587 1565.567 1.500 0.134063
## ComunaVitacura 11700.797 1509.198 7.753 2.24e-14 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 4918 on 981 degrees of freedom
## Multiple R-squared: 0.7533, Adjusted R-squared: 0.7429
## F-statistic: 73.04 on 41 and 981 DF, p-value: < 2.2e-16
El resumen del modelo Modelo_4
indica que la variable
Superficie_Construida_M2 tiene un efecto significativo y
positivo en el Valor_UF, mientras que la significancia del
efecto de las comunas varía.
En otras palabras, mientras la superficie construida influye positivamente en el precio de la propiedad, la ubicación también afecta el precio pero de manera inconsistente. En comunas como Las Condes, Lo Barnechea, Vitacura, Ñuñoa y Providencia, las propiedades aumentan significativamente su precio. En otras comunas, sin embargo, la locación no tiene impacto en el precio de la propiedad.
Podemos verlo gráficamente a continuación.
fit4_coef <- coefficients(Modelo_4)
Dataset %>%
ggplot(aes(x = Superficie_Construida_M2, y = Valor_UF, color = Comuna)) +
geom_point() +
geom_function(fun = function(x) {fit4_coef[1] + fit4_coef[2] * x},
color = "darkred", linetype = 1, alpha = 0.5) +
geom_function(fun = function(x) {fit4_coef[1] + fit4_coef[2] * x + fit4_coef[3]},
color = "darkgreen", linetype = 2, alpha = 0.5) +
geom_function(fun = function(x) {fit4_coef[1] + fit4_coef[2] * x + + fit4_coef[4]},
color = "darkblue", linetype = 3, alpha = 0.5) +
facet_wrap(~Comuna) +
theme_test() +
theme(legend.position = "none",
axis.title.x = element_text(face = "bold"),
axis.title.y = element_text(face = "bold")) +
labs(x = ("Superficie Construida en m2"),
y = "Precio en unidades de fomento (UF)")
Por último, en lo que respecta a la verificación de los supuestos
observables para los modelos de regresión, advertiremos nuevamente que
el Modelo_4
no cumple con todos los criterios necesarios
para realizar interpretaciones y predicciones precisas de los datos.
gvlma(Modelo_4)
##
## Call:
## lm(formula = Valor_UF ~ Superficie_Construida_M2 + Comuna, data = Dataset)
##
## Coefficients:
## (Intercept) Superficie_Construida_M2
## -194.76 42.36
## ComunaCerrillos ComunaCerro Navia
## -439.33 -390.88
## ComunaColina ComunaConchalí
## 2183.48 -838.43
## ComunaEl Bosque ComunaEl Monte
## 263.34 -3028.75
## ComunaEstación Central ComunaHuechuraba
## 176.81 1413.62
## ComunaIndependencia ComunaLa Cisterna
## 733.38 167.19
## ComunaLa Florida ComunaLa Granja
## 3594.22 -1671.80
## ComunaLa Pintana ComunaLa Reina
## -1107.03 7448.36
## ComunaLampa ComunaLas Condes
## -1127.69 12192.21
## ComunaLo Barnechea ComunaLo Espejo
## 12399.48 -2118.85
## ComunaLo Prado ComunaMacul
## -1224.24 863.04
## ComunaMaipú ComunaÑuñoa
## -452.24 5083.61
## ComunaPadre Hurtado ComunaPedro Aguirre Cerda
## -204.68 -2693.49
## ComunaPeñaflor ComunaPeñalolén
## -1075.51 3742.61
## ComunaProvidencia ComunaPudahuel
## 8124.48 1119.19
## ComunaPuente Alto ComunaQuilicura
## 72.58 -362.88
## ComunaQuinta Normal ComunaRecoleta
## -2047.78 124.45
## ComunaRenca ComunaSan Bernardo
## -403.23 1539.46
## ComunaSan Joaquín ComunaSan José de Maipo
## 539.24 -1603.80
## ComunaSan Miguel ComunaSan Ramón
## 2088.88 -91.25
## ComunaSantiago ComunaVitacura
## 2347.59 11700.80
##
##
## ASSESSMENT OF THE LINEAR MODEL ASSUMPTIONS
## USING THE GLOBAL TEST ON 4 DEGREES-OF-FREEDOM:
## Level of Significance = 0.05
##
## Call:
## gvlma(x = Modelo_4)
##
## Value p-value Decision
## Global Stat 45510.705 0.000000 Assumptions NOT satisfied!
## Skewness 2040.051 0.000000 Assumptions NOT satisfied!
## Kurtosis 43457.025 0.000000 Assumptions NOT satisfied!
## Link Function 9.704 0.001839 Assumptions NOT satisfied!
## Heteroscedasticity 3.926 0.047557 Assumptions NOT satisfied!
En términos gráficos, en efecto, el Modelo_4
exhibe
patrones irregulares en los residuos, desviaciones de la normalidad y
valores atípicos que podrían afectar la validez del modelo.
par(mfrow = c(2,2))
plot(Modelo_4)
par(mfrow = c(1,1))
En nuestro último modelo de regresión usaremos como variables predictivas no sólo Superficie_Construida_M2 y Comuna por separado, sino también la interacción entre ellas.
Esto se distingue del modelo anterior en tanto, el
Modelo_4
, no considerarba si la relación entre la
superficie y el valor de la propiedad cambiaba dependiendo de la comuna
en la que se encuentra la propiedad. En este sentido, el
Modelo_5
puede revelar si ciertas comunas tienen un efecto
amplificador o atenuante en la relación entre la superficie construida y
el valor de la propiedad.
Modelo_5 <- lm(Valor_UF ~ Superficie_Construida_M2 * Comuna, data = Dataset)
summary(Modelo_5)
##
## Call:
## lm(formula = Valor_UF ~ Superficie_Construida_M2 * Comuna, data = Dataset)
##
## Residuals:
## Min 1Q Median 3Q Max
## -17244 -1792 -364 1089 57094
##
## Coefficients:
## Estimate Std. Error
## (Intercept) 8564.123 2825.541
## Superficie_Construida_M2 15.312 7.781
## ComunaCerrillos -5987.790 4273.301
## ComunaCerro Navia -10370.760 12206.507
## ComunaColina -7759.283 3320.844
## ComunaConchalí -8173.196 4973.690
## ComunaEl Bosque -5564.207 3865.970
## ComunaEl Monte -7441.705 8542.958
## ComunaEstación Central -7967.107 4691.402
## ComunaHuechuraba -9519.360 3777.078
## ComunaIndependencia -4232.310 4186.157
## ComunaLa Cisterna -5133.799 3709.518
## ComunaLa Florida -5618.390 3438.234
## ComunaLa Granja -9130.256 5063.068
## ComunaLa Pintana -8198.958 3716.446
## ComunaLa Reina -1876.278 3327.594
## ComunaLampa -6279.100 3220.560
## ComunaLas Condes -1403.342 3260.237
## ComunaLo Barnechea 127.430 3249.657
## ComunaLo Espejo -6568.151 7806.502
## ComunaLo Prado -7204.131 7495.841
## ComunaMacul -5316.093 3199.391
## ComunaMaipú -6921.864 3497.520
## ComunaÑuñoa -2339.511 3483.587
## ComunaPadre Hurtado -8742.860 4174.342
## ComunaPedro Aguirre Cerda -8219.922 4750.536
## ComunaPeñaflor -7866.713 3560.189
## ComunaPeñalolén -7003.734 3424.187
## ComunaProvidencia -4129.132 3257.753
## ComunaPudahuel -8080.819 3513.916
## ComunaPuente Alto -5765.343 3313.301
## ComunaQuilicura -8181.676 3477.954
## ComunaQuinta Normal -6056.519 4204.954
## ComunaRecoleta -6731.615 3696.002
## ComunaRenca -7014.575 4781.185
## ComunaSan Bernardo -8640.061 3188.272
## ComunaSan Joaquín -7636.018 4790.489
## ComunaSan José de Maipo -5225.945 8694.166
## ComunaSan Miguel -3438.873 3414.757
## ComunaSan Ramón -5175.944 11545.889
## ComunaSantiago -1741.794 3200.455
## ComunaVitacura 866.999 3029.427
## Superficie_Construida_M2:ComunaCerrillos -1.837 27.732
## Superficie_Construida_M2:ComunaCerro Navia 40.251 123.301
## Superficie_Construida_M2:ComunaColina 30.707 9.179
## Superficie_Construida_M2:ComunaConchalí 16.485 30.213
## Superficie_Construida_M2:ComunaEl Bosque 2.636 21.076
## Superficie_Construida_M2:ComunaEl Monte -7.304 58.367
## Superficie_Construida_M2:ComunaEstación Central 22.321 27.201
## Superficie_Construida_M2:ComunaHuechuraba 42.239 18.004
## Superficie_Construida_M2:ComunaIndependencia -4.417 24.411
## Superficie_Construida_M2:ComunaLa Cisterna 4.801 16.020
## Superficie_Construida_M2:ComunaLa Florida 30.093 13.849
## Superficie_Construida_M2:ComunaLa Granja 17.647 29.578
## Superficie_Construida_M2:ComunaLa Pintana 8.530 24.774
## Superficie_Construida_M2:ComunaLa Reina 29.554 10.527
## Superficie_Construida_M2:ComunaLampa 3.522 11.684
## Superficie_Construida_M2:ComunaLas Condes 41.911 9.001
## Superficie_Construida_M2:ComunaLo Barnechea 36.492 8.701
## Superficie_Construida_M2:ComunaLo Espejo -11.824 64.059
## Superficie_Construida_M2:ComunaLo Prado 2.913 59.005
## Superficie_Construida_M2:ComunaMacul 7.400 12.571
## Superficie_Construida_M2:ComunaMaipú 8.838 17.097
## Superficie_Construida_M2:ComunaÑuñoa 19.276 13.604
## Superficie_Construida_M2:ComunaPadre Hurtado 24.768 29.938
## Superficie_Construida_M2:ComunaPedro Aguirre Cerda 7.568 22.688
## Superficie_Construida_M2:ComunaPeñaflor 12.187 15.703
## Superficie_Construida_M2:ComunaPeñalolén 39.496 13.669
## Superficie_Construida_M2:ComunaProvidencia 45.596 10.994
## Superficie_Construida_M2:ComunaPudahuel 30.538 17.361
## Superficie_Construida_M2:ComunaPuente Alto 4.969 14.105
## Superficie_Construida_M2:ComunaQuilicura 16.661 22.464
## Superficie_Construida_M2:ComunaQuinta Normal 2.629 16.011
## Superficie_Construida_M2:ComunaRecoleta 15.772 14.825
## Superficie_Construida_M2:ComunaRenca 3.569 39.877
## Superficie_Construida_M2:ComunaSan Bernardo 36.814 11.623
## Superficie_Construida_M2:ComunaSan Joaquín 23.478 22.937
## Superficie_Construida_M2:ComunaSan José de Maipo -10.905 57.749
## Superficie_Construida_M2:ComunaSan Miguel 9.031 12.383
## Superficie_Construida_M2:ComunaSan Ramón -24.336 153.150
## Superficie_Construida_M2:ComunaSantiago 8.334 9.275
## Superficie_Construida_M2:ComunaVitacura 35.423 8.467
## t value Pr(>|t|)
## (Intercept) 3.031 0.002504 **
## Superficie_Construida_M2 1.968 0.049382 *
## ComunaCerrillos -1.401 0.161481
## ComunaCerro Navia -0.850 0.395759
## ComunaColina -2.337 0.019672 *
## ComunaConchalí -1.643 0.100658
## ComunaEl Bosque -1.439 0.150404
## ComunaEl Monte -0.871 0.383926
## ComunaEstación Central -1.698 0.089794 .
## ComunaHuechuraba -2.520 0.011890 *
## ComunaIndependencia -1.011 0.312264
## ComunaLa Cisterna -1.384 0.166701
## ComunaLa Florida -1.634 0.102574
## ComunaLa Granja -1.803 0.071660 .
## ComunaLa Pintana -2.206 0.027616 *
## ComunaLa Reina -0.564 0.572988
## ComunaLampa -1.950 0.051510 .
## ComunaLas Condes -0.430 0.666973
## ComunaLo Barnechea 0.039 0.968729
## ComunaLo Espejo -0.841 0.400355
## ComunaLo Prado -0.961 0.336757
## ComunaMacul -1.662 0.096927 .
## ComunaMaipú -1.979 0.048098 *
## ComunaÑuñoa -0.672 0.502015
## ComunaPadre Hurtado -2.094 0.036489 *
## ComunaPedro Aguirre Cerda -1.730 0.083902 .
## ComunaPeñaflor -2.210 0.027371 *
## ComunaPeñalolén -2.045 0.041096 *
## ComunaProvidencia -1.267 0.205298
## ComunaPudahuel -2.300 0.021686 *
## ComunaPuente Alto -1.740 0.082175 .
## ComunaQuilicura -2.352 0.018856 *
## ComunaQuinta Normal -1.440 0.150107
## ComunaRecoleta -1.821 0.068875 .
## ComunaRenca -1.467 0.142677
## ComunaSan Bernardo -2.710 0.006852 **
## ComunaSan Joaquín -1.594 0.111273
## ComunaSan José de Maipo -0.601 0.547927
## ComunaSan Miguel -1.007 0.314164
## ComunaSan Ramón -0.448 0.654045
## ComunaSantiago -0.544 0.586410
## ComunaVitacura 0.286 0.774794
## Superficie_Construida_M2:ComunaCerrillos -0.066 0.947214
## Superficie_Construida_M2:ComunaCerro Navia 0.326 0.744157
## Superficie_Construida_M2:ComunaColina 3.346 0.000854 ***
## Superficie_Construida_M2:ComunaConchalí 0.546 0.585448
## Superficie_Construida_M2:ComunaEl Bosque 0.125 0.900480
## Superficie_Construida_M2:ComunaEl Monte -0.125 0.900445
## Superficie_Construida_M2:ComunaEstación Central 0.821 0.412082
## Superficie_Construida_M2:ComunaHuechuraba 2.346 0.019178 *
## Superficie_Construida_M2:ComunaIndependencia -0.181 0.856444
## Superficie_Construida_M2:ComunaLa Cisterna 0.300 0.764467
## Superficie_Construida_M2:ComunaLa Florida 2.173 0.030037 *
## Superficie_Construida_M2:ComunaLa Granja 0.597 0.550906
## Superficie_Construida_M2:ComunaLa Pintana 0.344 0.730699
## Superficie_Construida_M2:ComunaLa Reina 2.808 0.005095 **
## Superficie_Construida_M2:ComunaLampa 0.301 0.763157
## Superficie_Construida_M2:ComunaLas Condes 4.656 3.68e-06 ***
## Superficie_Construida_M2:ComunaLo Barnechea 4.194 3.00e-05 ***
## Superficie_Construida_M2:ComunaLo Espejo -0.185 0.853604
## Superficie_Construida_M2:ComunaLo Prado 0.049 0.960641
## Superficie_Construida_M2:ComunaMacul 0.589 0.556229
## Superficie_Construida_M2:ComunaMaipú 0.517 0.605322
## Superficie_Construida_M2:ComunaÑuñoa 1.417 0.156819
## Superficie_Construida_M2:ComunaPadre Hurtado 0.827 0.408271
## Superficie_Construida_M2:ComunaPedro Aguirre Cerda 0.334 0.738770
## Superficie_Construida_M2:ComunaPeñaflor 0.776 0.437881
## Superficie_Construida_M2:ComunaPeñalolén 2.890 0.003946 **
## Superficie_Construida_M2:ComunaProvidencia 4.147 3.67e-05 ***
## Superficie_Construida_M2:ComunaPudahuel 1.759 0.078901 .
## Superficie_Construida_M2:ComunaPuente Alto 0.352 0.724708
## Superficie_Construida_M2:ComunaQuilicura 0.742 0.458450
## Superficie_Construida_M2:ComunaQuinta Normal 0.164 0.869604
## Superficie_Construida_M2:ComunaRecoleta 1.064 0.287646
## Superficie_Construida_M2:ComunaRenca 0.090 0.928695
## Superficie_Construida_M2:ComunaSan Bernardo 3.167 0.001588 **
## Superficie_Construida_M2:ComunaSan Joaquín 1.024 0.306292
## Superficie_Construida_M2:ComunaSan José de Maipo -0.189 0.850267
## Superficie_Construida_M2:ComunaSan Miguel 0.729 0.465982
## Superficie_Construida_M2:ComunaSan Ramón -0.159 0.873781
## Superficie_Construida_M2:ComunaSantiago 0.899 0.369136
## Superficie_Construida_M2:ComunaVitacura 4.184 3.14e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 4786 on 941 degrees of freedom
## Multiple R-squared: 0.7758, Adjusted R-squared: 0.7566
## F-statistic: 40.21 on 81 and 941 DF, p-value: < 2.2e-16
El resumen del modelo Modelo_5
muestra que, además del
impacto individual de la superficie construida y la comuna en el valor
de una propiedad, hay interacciones significativas entre estas dos
variables en once comunas: Colina, Huechuraba, La Florida, La Reina, Las
Condes, Lo Barnechea, Peñalolén, Providencia, Pudahuel, Quilicura y San
Bernardo.
Estas comunas muestran que la relación entre la superficie construida y el valor de las propiedades no es constante, sino que varía dependiendo de la comuna específica, lo que sugiere que la ubicación puede modificar cómo la superficie construida afecta el valor de una propiedad
El modelo tiene un alto R-cuadrado ajustado (0,7566), indicando que explica aproximadamente el 75.66% de la variabilidad en el valor de las propiedades. Los residuos y los p-values de los coeficientes sugieren que tanto los factores individuales como las interacciones entre la superficie construida y la comuna son importantes para predecir el valor de las propiedades.
Si bien el modelo es sólido y explicativo, cuando verificamos si se cumplen los supuestos observables para los modelos de regresión, advertimos que no cumple con los criterios necesarios para realizar interpretaciones y predicciones precisas de los datos.
gvlma(Modelo_5)
##
## Call:
## lm(formula = Valor_UF ~ Superficie_Construida_M2 * Comuna, data = Dataset)
##
## Coefficients:
## (Intercept)
## 8564.123
## Superficie_Construida_M2
## 15.312
## ComunaCerrillos
## -5987.790
## ComunaCerro Navia
## -10370.760
## ComunaColina
## -7759.283
## ComunaConchalí
## -8173.196
## ComunaEl Bosque
## -5564.207
## ComunaEl Monte
## -7441.705
## ComunaEstación Central
## -7967.107
## ComunaHuechuraba
## -9519.360
## ComunaIndependencia
## -4232.310
## ComunaLa Cisterna
## -5133.799
## ComunaLa Florida
## -5618.390
## ComunaLa Granja
## -9130.256
## ComunaLa Pintana
## -8198.958
## ComunaLa Reina
## -1876.278
## ComunaLampa
## -6279.100
## ComunaLas Condes
## -1403.342
## ComunaLo Barnechea
## 127.430
## ComunaLo Espejo
## -6568.151
## ComunaLo Prado
## -7204.131
## ComunaMacul
## -5316.093
## ComunaMaipú
## -6921.864
## ComunaÑuñoa
## -2339.511
## ComunaPadre Hurtado
## -8742.860
## ComunaPedro Aguirre Cerda
## -8219.922
## ComunaPeñaflor
## -7866.713
## ComunaPeñalolén
## -7003.734
## ComunaProvidencia
## -4129.132
## ComunaPudahuel
## -8080.819
## ComunaPuente Alto
## -5765.343
## ComunaQuilicura
## -8181.676
## ComunaQuinta Normal
## -6056.519
## ComunaRecoleta
## -6731.615
## ComunaRenca
## -7014.575
## ComunaSan Bernardo
## -8640.061
## ComunaSan Joaquín
## -7636.018
## ComunaSan José de Maipo
## -5225.945
## ComunaSan Miguel
## -3438.873
## ComunaSan Ramón
## -5175.944
## ComunaSantiago
## -1741.794
## ComunaVitacura
## 866.999
## Superficie_Construida_M2:ComunaCerrillos
## -1.837
## Superficie_Construida_M2:ComunaCerro Navia
## 40.251
## Superficie_Construida_M2:ComunaColina
## 30.707
## Superficie_Construida_M2:ComunaConchalí
## 16.485
## Superficie_Construida_M2:ComunaEl Bosque
## 2.636
## Superficie_Construida_M2:ComunaEl Monte
## -7.304
## Superficie_Construida_M2:ComunaEstación Central
## 22.321
## Superficie_Construida_M2:ComunaHuechuraba
## 42.239
## Superficie_Construida_M2:ComunaIndependencia
## -4.417
## Superficie_Construida_M2:ComunaLa Cisterna
## 4.801
## Superficie_Construida_M2:ComunaLa Florida
## 30.093
## Superficie_Construida_M2:ComunaLa Granja
## 17.647
## Superficie_Construida_M2:ComunaLa Pintana
## 8.530
## Superficie_Construida_M2:ComunaLa Reina
## 29.554
## Superficie_Construida_M2:ComunaLampa
## 3.522
## Superficie_Construida_M2:ComunaLas Condes
## 41.911
## Superficie_Construida_M2:ComunaLo Barnechea
## 36.492
## Superficie_Construida_M2:ComunaLo Espejo
## -11.824
## Superficie_Construida_M2:ComunaLo Prado
## 2.913
## Superficie_Construida_M2:ComunaMacul
## 7.400
## Superficie_Construida_M2:ComunaMaipú
## 8.838
## Superficie_Construida_M2:ComunaÑuñoa
## 19.276
## Superficie_Construida_M2:ComunaPadre Hurtado
## 24.768
## Superficie_Construida_M2:ComunaPedro Aguirre Cerda
## 7.568
## Superficie_Construida_M2:ComunaPeñaflor
## 12.187
## Superficie_Construida_M2:ComunaPeñalolén
## 39.496
## Superficie_Construida_M2:ComunaProvidencia
## 45.596
## Superficie_Construida_M2:ComunaPudahuel
## 30.538
## Superficie_Construida_M2:ComunaPuente Alto
## 4.969
## Superficie_Construida_M2:ComunaQuilicura
## 16.661
## Superficie_Construida_M2:ComunaQuinta Normal
## 2.629
## Superficie_Construida_M2:ComunaRecoleta
## 15.772
## Superficie_Construida_M2:ComunaRenca
## 3.569
## Superficie_Construida_M2:ComunaSan Bernardo
## 36.814
## Superficie_Construida_M2:ComunaSan Joaquín
## 23.478
## Superficie_Construida_M2:ComunaSan José de Maipo
## -10.905
## Superficie_Construida_M2:ComunaSan Miguel
## 9.031
## Superficie_Construida_M2:ComunaSan Ramón
## -24.336
## Superficie_Construida_M2:ComunaSantiago
## 8.334
## Superficie_Construida_M2:ComunaVitacura
## 35.423
##
##
## ASSESSMENT OF THE LINEAR MODEL ASSUMPTIONS
## USING THE GLOBAL TEST ON 4 DEGREES-OF-FREEDOM:
## Level of Significance = 0.05
##
## Call:
## gvlma(x = Modelo_5)
##
## Value p-value Decision
## Global Stat 59235.289 0.000e+00 Assumptions NOT satisfied!
## Skewness 2368.423 0.000e+00 Assumptions NOT satisfied!
## Kurtosis 56836.262 0.000e+00 Assumptions NOT satisfied!
## Link Function 25.937 3.527e-07 Assumptions NOT satisfied!
## Heteroscedasticity 4.667 3.075e-02 Assumptions NOT satisfied!
Y, en efecto, en términos gráficos se detectan signos de heterocedasticidad y valores atípicos.
par(mfrow = c(2,2))
plot(Modelo_5)
par(mfrow = c(1,1))
Dado que ninguno de nuestros modelos cumple plenamente con los
supuestos observables para construir regresiones, utilizaremos la
función powerTransform()
para optimizar la transformación
de nuestras variables cuantitativas. Esto se hace con el fin de
homogeneizar la varianza y lograr una distribución más cercana a la
normalidad.
summary(powerTransform(Dataset$N_Habitaciones))
## bcPower Transformation to Normality
## Est Power Rounded Pwr Wald Lwr Bnd Wald Upr Bnd
## Dataset$N_Habitaciones -0.145 -0.15 -0.2593 -0.0307
##
## Likelihood ratio test that transformation parameter is equal to 0
## (log transformation)
## LRT df pval
## LR test, lambda = (0) 6.180835 1 0.012914
##
## Likelihood ratio test that no transformation is needed
## LRT df pval
## LR test, lambda = (1) 401.4036 1 < 2.22e-16
summary(powerTransform(Dataset$N_Baños))
## bcPower Transformation to Normality
## Est Power Rounded Pwr Wald Lwr Bnd Wald Upr Bnd
## Dataset$N_Baños 0.1679 0.17 0.0635 0.2722
##
## Likelihood ratio test that transformation parameter is equal to 0
## (log transformation)
## LRT df pval
## LR test, lambda = (0) 9.805086 1 0.0017403
##
## Likelihood ratio test that no transformation is needed
## LRT df pval
## LR test, lambda = (1) 257.2142 1 < 2.22e-16
summary(powerTransform(Dataset$N_Estacionamientos, family = "yjPower"))
## yjPower Transformation to Normality
## Est Power Rounded Pwr Wald Lwr Bnd Wald Upr Bnd
## Dataset$N_Estacionamientos -1.103 -1 -1.2495 -0.9564
##
## Likelihood ratio test that transformation parameter is equal to 0
## LRT df pval
## LR test, lambda = (0) 271.3473 1 < 2.22e-16
summary(powerTransform(Dataset$Total_Superficie_M2, family = "yjPower"))
## yjPower Transformation to Normality
## Est Power Rounded Pwr Wald Lwr Bnd Wald Upr Bnd
## Dataset$Total_Superficie_M2 0.0836 0.08 0.0593 0.108
##
## Likelihood ratio test that transformation parameter is equal to 0
## LRT df pval
## LR test, lambda = (0) 49.4029 1 2.0843e-12
summary(powerTransform(Dataset$Superficie_Construida_M2, family = "yjPower"))
## yjPower Transformation to Normality
## Est Power Rounded Pwr Wald Lwr Bnd
## Dataset$Superficie_Construida_M2 0.3144 0.33 0.2693
## Wald Upr Bnd
## Dataset$Superficie_Construida_M2 0.3596
##
## Likelihood ratio test that transformation parameter is equal to 0
## LRT df pval
## LR test, lambda = (0) 267.0542 1 < 2.22e-16
Los resultados nos indican que:
Dataset_Transformado <- Dataset %>%
mutate(N_Habitaciones = log(N_Habitaciones),
N_Baños = log(N_Baños),
N_Estacionamientos = yjPower(Dataset$N_Estacionamientos, lambda = -1.103),
Total_Superficie_M2 = yjPower(Total_Superficie_M2, lambda = 0.0836),
Superficie_Construida_M2 = yjPower(Superficie_Construida_M2, lambda = 0.3144))
Con las variables ya modificadas en
Dataset_Transformado
, recrearemos nuestros cinco
modelos.
Modelo_1_Nuevo <- lm(Valor_UF ~ Superficie_Construida_M2, data = Dataset_Transformado)
Modelo_2_Nuevo <- lm(Valor_UF ~ Superficie_Construida_M2 + I(Superficie_Construida_M2^2), data = Dataset_Transformado)
Modelo_3_Nuevo <- lm(Valor_UF ~ Superficie_Construida_M2 + N_Habitaciones + N_Baños + N_Estacionamientos + Total_Superficie_M2, data = Dataset_Transformado)
Modelo_4_Nuevo <- lm(Valor_UF ~ Superficie_Construida_M2 + Comuna, data = Dataset_Transformado)
Modelo_5_Nuevo <- lm(Valor_UF ~ Superficie_Construida_M2 * Comuna, data = Dataset_Transformado)
Y, posteriormente, calcularemos el Criterio de Información de Akaike (AIC) para cada uno de los modelos.
El AIC mide la calidad de cada modelo estadístico, penalizando modelos con mayor número de parámetros para evitar el sobreajuste. El resultado nos ayudará a seleccionar el modelo que mejor equilibre la complejidad y el ajuste a los datos: aquél con AIC más bajo.
AIC(Modelo_1_Nuevo, Modelo_2_Nuevo, Modelo_3_Nuevo, Modelo_4_Nuevo, Modelo_5_Nuevo)
## df AIC
## Modelo_1_Nuevo 3 20977.17
## Modelo_2_Nuevo 4 20762.06
## Modelo_3_Nuevo 7 20833.98
## Modelo_4_Nuevo 43 20528.70
## Modelo_5_Nuevo 83 20365.58
En base a los resultados concluimos que:
Modelo_1_Nuevo
: con 3 parámetros, tiene un AIC de
20977.17, el más alto entre los modelos.Modelo_2_Nuevo
: tiene 4 parámetros y un AIC de
20762.06, mejor que el Modelo_1_Nuevo
pero no el más
bajo.Modelo_3_Nuevo
: con 7 parámetros, su AIC es 20833.98,
lo que indica un rendimiento intermedio.Modelo_4_Nuevo
: este modelo tiene 43 parámetros y un
AIC de 20528.70, mostrando una mejora considerable en el ajuste del
modelo a los datos.Modelo_5_Nuevo
: es el modelo más complejo con 83
parámetros. Sin embargo, ofrece el AIC más bajo (20365.58), lo que lo
convierte en el modelo preferido dentro de los cinco construidos.A continuación aplicaremos la función
ols_step_both_aic()
, que es un método de selección paso a
paso basado en el AIC para optimizar nuestro
Modelo_5_Nuevo
. En el proceso, identificaremos las
variables más significativas y eliminaremos aquellas que no aportan al
modelo.
Steps <- ols_step_both_aic(Modelo_5_Nuevo, progress = T, details = T)
## Stepwise Selection Method
## -------------------------
##
## Candidate Terms:
##
## 1 . Superficie_Construida_M2
## 2 . Comuna
## 3 . Superficie_Construida_M2:Comuna
##
## Step 0: AIC = 21688.06
## Valor_UF ~ 1
##
##
## Variables Entered/Removed:
##
## Enter New Variables
## --------------------------------------------------------------------------------------------------------------
## Variable DF AIC Sum Sq RSS R-Sq Adj. R-Sq
## --------------------------------------------------------------------------------------------------------------
## Superficie_Construida_M2:Comuna 1 20409.860 70709265948.301 25438731636.892 0.735 0.724
## Comuna 1 20948.579 52991406141.483 43156591443.711 0.551 0.533
## Superficie_Construida_M2 1 20977.167 48252254459.352 47895743125.841 0.502 0.501
## --------------------------------------------------------------------------------------------------------------
##
## - Superficie_Construida_M2:Comuna added
##
##
## Step 1 : AIC = 20409.86
## Valor_UF ~ Superficie_Construida_M2:Comuna
##
## Enter New Variables
## -------------------------------------------------------------------------------------------------------
## Variable DF AIC Sum Sq RSS R-Sq Adj. R-Sq
## -------------------------------------------------------------------------------------------------------
## Comuna 1 20365.582 73619324927.768 22528672657.426 0.766 0.746
## Superficie_Construida_M2 1 20409.860 70709265948.300 25438731636.892 0.735 0.724
## -------------------------------------------------------------------------------------------------------
##
## - Comuna added
##
##
## Step 2 : AIC = 20365.58
## Valor_UF ~ Superficie_Construida_M2:Comuna + Comuna
##
## Remove Existing Variables
## --------------------------------------------------------------------------------------------------------------
## Variable DF AIC Sum Sq RSS R-Sq Adj. R-Sq
## --------------------------------------------------------------------------------------------------------------
## Comuna 1 20409.860 70709265948.301 25438731636.892 0.735 0.724
## Superficie_Construida_M2:Comuna 1 20948.579 52991406141.483 43156591443.711 0.551 0.533
## --------------------------------------------------------------------------------------------------------------
##
## Enter New Variables
## -------------------------------------------------------------------------------------------------------
## Variable DF AIC Sum Sq RSS R-Sq Adj. R-Sq
## -------------------------------------------------------------------------------------------------------
## Superficie_Construida_M2 1 20365.582 73619324927.768 22528672657.426 0.766 0.746
## -------------------------------------------------------------------------------------------------------
##
##
## No more variables to be added or removed.
##
## Final Model Output
## ------------------
##
## Model Summary
## --------------------------------------------------------------------
## R 0.875 RMSE 4892.975
## R-Squared 0.766 Coef. Var 46.304
## Adj. R-Squared 0.746 MSE 23941203.674
## Pred R-Squared 0.710 MAE 2685.461
## --------------------------------------------------------------------
## RMSE: Root Mean Square Error
## MSE: Mean Square Error
## MAE: Mean Absolute Error
##
## ANOVA
## -------------------------------------------------------------------------------
## Sum of
## Squares DF Mean Square F Sig.
## -------------------------------------------------------------------------------
## Regression 73619324927.768 81 908880554.664 37.963 0.0000
## Residual 22528672657.426 941 23941203.674
## Total 9.6148e+10 1022
## -------------------------------------------------------------------------------
##
## Parameter Estimates
## -------------------------------------------------------------------------------------------------------------------------------------------
## model Beta Std. Error Std. Beta t Sig lower upper
## -------------------------------------------------------------------------------------------------------------------------------------------
## (Intercept) 283.836 5894.285 0.048 0.962 -11283.629 11851.301
## ComunaCerrillos -539.756 10348.542 -0.007 -0.052 0.958 -20848.647 19769.136
## ComunaCerro Navia -9136.117 28425.096 -0.042 -0.321 0.748 -64920.033 46647.799
## ComunaColina -18336.048 7025.776 -0.371 -2.610 0.009 -32124.049 -4548.046
## ComunaConchalí -4963.960 11542.083 -0.067 -0.430 0.667 -27615.160 17687.241
## ComunaEl Bosque 3245.976 7190.018 0.042 0.451 0.652 -10864.350 17356.301
## ComunaEl Monte -501.478 18673.607 -0.002 -0.027 0.979 -37148.211 36145.255
## ComunaEstación Central -5067.427 10169.863 -0.049 -0.498 0.618 -25025.664 14890.809
## ComunaHuechuraba -13766.684 8591.812 -0.223 -1.602 0.109 -30628.013 3094.646
## ComunaIndependencia 5050.546 7322.779 0.058 0.690 0.491 -9320.322 19421.413
## ComunaLa Cisterna -1523.298 8014.081 -0.023 -0.190 0.849 -17250.838 14204.241
## ComunaLa Florida -3371.306 6944.366 -0.054 -0.485 0.627 -16999.542 10256.930
## ComunaLa Granja -6215.963 11005.617 -0.066 -0.565 0.572 -27814.356 15382.431
## ComunaLa Pintana 739.922 6737.935 0.010 0.110 0.913 -12483.195 13963.040
## ComunaLa Reina -11199.368 7248.583 -0.234 -1.545 0.123 -25424.627 3025.891
## ComunaLampa 1046.614 6653.206 0.020 0.157 0.875 -12010.224 14103.452
## ComunaLas Condes -19908.855 6949.417 -0.434 -2.865 0.004 -33547.003 -6270.707
## ComunaLo Barnechea 534.988 6482.860 0.012 0.083 0.934 -12187.547 13257.524
## ComunaLo Espejo 1514.752 17481.951 0.013 0.087 0.931 -32793.370 35822.873
## ComunaLo Prado -2051.531 18435.092 -0.019 -0.111 0.911 -38230.182 34127.120
## ComunaMacul -4305.824 7219.762 -0.086 -0.596 0.551 -18474.522 9862.874
## ComunaMaipú -529.743 6906.556 -0.010 -0.077 0.939 -14083.778 13024.292
## ComunaÑuñoa -3389.045 7651.344 -0.074 -0.443 0.658 -18404.718 11626.627
## ComunaPadre Hurtado -6753.867 9855.795 -0.081 -0.685 0.493 -26095.749 12588.014
## ComunaPedro Aguirre Cerda -5103.789 10850.549 -0.054 -0.470 0.638 -26397.863 16190.284
## ComunaPeñaflor -6147.577 7910.854 -0.079 -0.777 0.437 -21672.534 9377.380
## ComunaPeñalolén -559.674 6874.963 -0.012 -0.081 0.935 -14051.707 12932.359
## ComunaProvidencia -19082.208 7345.877 -0.412 -2.598 0.010 -33498.405 -4666.011
## ComunaPudahuel -10182.065 8006.739 -0.215 -1.272 0.204 -25895.196 5531.066
## ComunaPuente Alto -376.530 6867.819 -0.008 -0.055 0.956 -13854.544 13101.483
## ComunaQuilicura -4606.950 7854.831 -0.100 -0.587 0.558 -20021.963 10808.062
## ComunaQuinta Normal -2619.709 9241.675 -0.027 -0.283 0.777 -20756.387 15516.968
## ComunaRecoleta -7785.447 8221.330 -0.111 -0.947 0.344 -23919.710 8348.816
## ComunaRenca -1598.450 10813.369 -0.017 -0.148 0.883 -22819.559 19622.660
## ComunaSan Bernardo -18787.976 7197.232 -0.367 -2.610 0.009 -32912.459 -4663.494
## ComunaSan Joaquín -11160.417 12193.683 -0.108 -0.915 0.360 -35090.375 12769.541
## ComunaSan José de Maipo 2387.353 20888.358 0.013 0.114 0.909 -38605.803 43380.509
## ComunaSan Miguel -3792.185 7771.015 -0.069 -0.488 0.626 -19042.709 11458.340
## ComunaSan Ramón 3791.929 26021.651 0.024 0.146 0.884 -47275.253 54859.111
## ComunaSantiago -5854.584 7070.072 -0.108 -0.828 0.408 -19729.516 8020.348
## ComunaVitacura -24518.819 6658.145 -0.519 -3.683 0.000 -37585.349 -11452.289
## Superficie_Construida_M2:ComunaCalera de Tango 841.360 365.279 0.163 2.303 0.021 124.504 1558.216
## Superficie_Construida_M2:ComunaCerrillos 407.076 790.819 0.054 0.515 0.607 -1144.897 1959.050
## Superficie_Construida_M2:ComunaCerro Navia 1225.971 2775.971 0.056 0.442 0.659 -4221.839 6673.781
## Superficie_Construida_M2:ComunaColina 2129.025 236.246 0.698 9.012 0.000 1665.396 2592.655
## Superficie_Construida_M2:ComunaConchalí 807.856 850.999 0.128 0.949 0.343 -862.221 2477.932
## Superficie_Construida_M2:ComunaEl Bosque 154.613 374.062 0.022 0.413 0.679 -579.479 888.705
## Superficie_Construida_M2:ComunaEl Monte 212.713 1570.876 0.011 0.135 0.892 -2870.113 3295.538
## Superficie_Construida_M2:ComunaEstación Central 918.865 726.786 0.101 1.264 0.206 -507.444 2345.173
## Superficie_Construida_M2:ComunaHuechuraba 1766.620 525.492 0.341 3.362 0.001 735.349 2797.892
## Superficie_Construida_M2:ComunaIndependencia 29.648 393.892 0.004 0.075 0.940 -743.362 802.657
## Superficie_Construida_M2:ComunaLa Cisterna 649.198 443.758 0.119 1.463 0.144 -221.672 1520.068
## Superficie_Construida_M2:ComunaLa Florida 1108.296 306.238 0.212 3.619 0.000 507.307 1709.285
## Superficie_Construida_M2:ComunaLa Granja 856.270 791.812 0.107 1.081 0.280 -697.652 2410.192
## Superficie_Construida_M2:ComunaLa Pintana 163.584 334.519 0.021 0.489 0.625 -492.906 820.074
## Superficie_Construida_M2:ComunaLa Reina 1989.264 297.817 0.590 6.679 0.000 1404.802 2573.726
## Superficie_Construida_M2:ComunaLampa 328.547 254.998 0.078 1.288 0.198 -171.885 828.978
## Superficie_Construida_M2:ComunaLas Condes 2851.662 226.874 1.010 12.569 0.000 2406.425 3296.899
## Superficie_Construida_M2:ComunaLo Barnechea 1654.025 158.699 0.615 10.422 0.000 1342.580 1965.470
## Superficie_Construida_M2:ComunaLo Espejo 54.471 1525.043 0.005 0.036 0.972 -2938.409 3047.350
## Superficie_Construida_M2:ComunaLo Prado 479.015 1593.246 0.048 0.301 0.764 -2647.711 3605.742
## Superficie_Construida_M2:ComunaMacul 912.557 364.683 0.209 2.502 0.013 196.871 1628.243
## Superficie_Construida_M2:ComunaMaipú 447.189 319.101 0.100 1.401 0.161 -179.043 1073.421
## Superficie_Construida_M2:ComunaÑuñoa 1206.518 381.362 0.337 3.164 0.002 458.099 1954.937
## Superficie_Construida_M2:ComunaPadre Hurtado 1015.681 778.391 0.124 1.305 0.192 -511.903 2543.265
## Superficie_Construida_M2:ComunaPedro Aguirre Cerda 720.942 723.316 0.097 0.997 0.319 -698.558 2140.442
## Superficie_Construida_M2:ComunaPeñaflor 920.550 463.147 0.134 1.988 0.047 11.629 1829.471
## Superficie_Construida_M2:ComunaPeñalolén 872.992 285.325 0.227 3.060 0.002 313.045 1432.939
## Superficie_Construida_M2:ComunaProvidencia 2662.056 331.727 0.760 8.025 0.000 2011.045 3313.067
## Superficie_Construida_M2:ComunaPudahuel 1438.782 477.426 0.346 3.014 0.003 501.840 2375.724
## Superficie_Construida_M2:ComunaPuente Alto 497.202 306.738 0.114 1.621 0.105 -104.768 1099.172
## Superficie_Construida_M2:ComunaQuilicura 773.676 523.722 0.167 1.477 0.140 -254.123 1801.475
## Superficie_Construida_M2:ComunaQuinta Normal 642.254 535.486 0.087 1.199 0.231 -408.632 1693.140
## Superficie_Construida_M2:ComunaRecoleta 1176.386 453.984 0.212 2.591 0.010 285.446 2067.325
## Superficie_Construida_M2:ComunaRenca 468.388 912.584 0.050 0.513 0.608 -1322.546 2259.323
## Superficie_Construida_M2:ComunaSan Bernardo 2229.895 347.428 0.517 6.418 0.000 1548.071 2911.719
## Superficie_Construida_M2:ComunaSan Joaquín 1466.501 852.803 0.177 1.720 0.086 -207.114 3140.116
## Superficie_Construida_M2:ComunaSan José de Maipo 109.528 1719.837 0.007 0.064 0.949 -3265.631 3484.688
## Superficie_Construida_M2:ComunaSan Miguel 1017.604 390.812 0.240 2.604 0.009 250.640 1784.567
## Superficie_Construida_M2:ComunaSan Ramón -148.378 2808.546 -0.009 -0.053 0.958 -5660.116 5363.359
## Superficie_Construida_M2:ComunaSantiago 1283.901 267.632 0.347 4.797 0.000 758.676 1809.126
## Superficie_Construida_M2:ComunaVitacura 3291.648 214.222 1.008 15.366 0.000 2871.240 3712.057
## -------------------------------------------------------------------------------------------------------------------------------------------
Los resultados nos indican que la combinación de Superficie_Construida_M2:Comuna, y Comuna individualmente considerada, proporcionan el mejor ajuste en términos de AIC, lo que indica una interacción significativa entre la superficie construida y la comuna en la predicción del valor UF.
Steps$predictors
## [1] "Superficie_Construida_M2:Comuna" "Comuna"
Nuestro Modelo_Final
, por lo tanto, será el
siguiente:
Modelo_Final <- lm(Valor_UF ~ Superficie_Construida_M2:Comuna + Comuna, data = Dataset_Transformado)
summary(Modelo_Final)
##
## Call:
## lm(formula = Valor_UF ~ Superficie_Construida_M2:Comuna + Comuna,
## data = Dataset_Transformado)
##
## Residuals:
## Min 1Q Median 3Q Max
## -13511 -1778 -389 1046 55462
##
## Coefficients:
## Estimate Std. Error t value
## (Intercept) 283.84 5894.29 0.048
## ComunaCerrillos -539.76 10348.54 -0.052
## ComunaCerro Navia -9136.12 28425.10 -0.321
## ComunaColina -18336.05 7025.78 -2.610
## ComunaConchalí -4963.96 11542.08 -0.430
## ComunaEl Bosque 3245.98 7190.02 0.451
## ComunaEl Monte -501.48 18673.61 -0.027
## ComunaEstación Central -5067.43 10169.86 -0.498
## ComunaHuechuraba -13766.68 8591.81 -1.602
## ComunaIndependencia 5050.55 7322.78 0.690
## ComunaLa Cisterna -1523.30 8014.08 -0.190
## ComunaLa Florida -3371.31 6944.37 -0.485
## ComunaLa Granja -6215.96 11005.62 -0.565
## ComunaLa Pintana 739.92 6737.93 0.110
## ComunaLa Reina -11199.37 7248.58 -1.545
## ComunaLampa 1046.61 6653.21 0.157
## ComunaLas Condes -19908.85 6949.42 -2.865
## ComunaLo Barnechea 534.99 6482.86 0.083
## ComunaLo Espejo 1514.75 17481.95 0.087
## ComunaLo Prado -2051.53 18435.09 -0.111
## ComunaMacul -4305.82 7219.76 -0.596
## ComunaMaipú -529.74 6906.56 -0.077
## ComunaÑuñoa -3389.05 7651.34 -0.443
## ComunaPadre Hurtado -6753.87 9855.80 -0.685
## ComunaPedro Aguirre Cerda -5103.79 10850.55 -0.470
## ComunaPeñaflor -6147.58 7910.85 -0.777
## ComunaPeñalolén -559.67 6874.96 -0.081
## ComunaProvidencia -19082.21 7345.88 -2.598
## ComunaPudahuel -10182.06 8006.74 -1.272
## ComunaPuente Alto -376.53 6867.82 -0.055
## ComunaQuilicura -4606.95 7854.83 -0.587
## ComunaQuinta Normal -2619.71 9241.67 -0.283
## ComunaRecoleta -7785.45 8221.33 -0.947
## ComunaRenca -1598.45 10813.37 -0.148
## ComunaSan Bernardo -18787.98 7197.23 -2.610
## ComunaSan Joaquín -11160.42 12193.68 -0.915
## ComunaSan José de Maipo 2387.35 20888.36 0.114
## ComunaSan Miguel -3792.18 7771.01 -0.488
## ComunaSan Ramón 3791.93 26021.65 0.146
## ComunaSantiago -5854.58 7070.07 -0.828
## ComunaVitacura -24518.82 6658.14 -3.683
## Superficie_Construida_M2:ComunaCalera de Tango 841.36 365.28 2.303
## Superficie_Construida_M2:ComunaCerrillos 407.08 790.82 0.515
## Superficie_Construida_M2:ComunaCerro Navia 1225.97 2775.97 0.442
## Superficie_Construida_M2:ComunaColina 2129.03 236.25 9.012
## Superficie_Construida_M2:ComunaConchalí 807.86 851.00 0.949
## Superficie_Construida_M2:ComunaEl Bosque 154.61 374.06 0.413
## Superficie_Construida_M2:ComunaEl Monte 212.71 1570.88 0.135
## Superficie_Construida_M2:ComunaEstación Central 918.86 726.79 1.264
## Superficie_Construida_M2:ComunaHuechuraba 1766.62 525.49 3.362
## Superficie_Construida_M2:ComunaIndependencia 29.65 393.89 0.075
## Superficie_Construida_M2:ComunaLa Cisterna 649.20 443.76 1.463
## Superficie_Construida_M2:ComunaLa Florida 1108.30 306.24 3.619
## Superficie_Construida_M2:ComunaLa Granja 856.27 791.81 1.081
## Superficie_Construida_M2:ComunaLa Pintana 163.58 334.52 0.489
## Superficie_Construida_M2:ComunaLa Reina 1989.26 297.82 6.679
## Superficie_Construida_M2:ComunaLampa 328.55 255.00 1.288
## Superficie_Construida_M2:ComunaLas Condes 2851.66 226.87 12.569
## Superficie_Construida_M2:ComunaLo Barnechea 1654.03 158.70 10.422
## Superficie_Construida_M2:ComunaLo Espejo 54.47 1525.04 0.036
## Superficie_Construida_M2:ComunaLo Prado 479.02 1593.25 0.301
## Superficie_Construida_M2:ComunaMacul 912.56 364.68 2.502
## Superficie_Construida_M2:ComunaMaipú 447.19 319.10 1.401
## Superficie_Construida_M2:ComunaÑuñoa 1206.52 381.36 3.164
## Superficie_Construida_M2:ComunaPadre Hurtado 1015.68 778.39 1.305
## Superficie_Construida_M2:ComunaPedro Aguirre Cerda 720.94 723.32 0.997
## Superficie_Construida_M2:ComunaPeñaflor 920.55 463.15 1.988
## Superficie_Construida_M2:ComunaPeñalolén 872.99 285.33 3.060
## Superficie_Construida_M2:ComunaProvidencia 2662.06 331.73 8.025
## Superficie_Construida_M2:ComunaPudahuel 1438.78 477.43 3.014
## Superficie_Construida_M2:ComunaPuente Alto 497.20 306.74 1.621
## Superficie_Construida_M2:ComunaQuilicura 773.68 523.72 1.477
## Superficie_Construida_M2:ComunaQuinta Normal 642.25 535.49 1.199
## Superficie_Construida_M2:ComunaRecoleta 1176.39 453.98 2.591
## Superficie_Construida_M2:ComunaRenca 468.39 912.58 0.513
## Superficie_Construida_M2:ComunaSan Bernardo 2229.89 347.43 6.418
## Superficie_Construida_M2:ComunaSan Joaquín 1466.50 852.80 1.720
## Superficie_Construida_M2:ComunaSan José de Maipo 109.53 1719.84 0.064
## Superficie_Construida_M2:ComunaSan Miguel 1017.60 390.81 2.604
## Superficie_Construida_M2:ComunaSan Ramón -148.38 2808.55 -0.053
## Superficie_Construida_M2:ComunaSantiago 1283.90 267.63 4.797
## Superficie_Construida_M2:ComunaVitacura 3291.65 214.22 15.366
## Pr(>|t|)
## (Intercept) 0.961603
## ComunaCerrillos 0.958414
## ComunaCerro Navia 0.747971
## ComunaColina 0.009203 **
## ComunaConchalí 0.667240
## ComunaEl Bosque 0.651765
## ComunaEl Monte 0.978581
## ComunaEstación Central 0.618404
## ComunaHuechuraba 0.109424
## ComunaIndependencia 0.490551
## ComunaLa Cisterna 0.849289
## ComunaLa Florida 0.627453
## ComunaLa Granja 0.572345
## ComunaLa Pintana 0.912580
## ComunaLa Reina 0.122672
## ComunaLampa 0.875034
## ComunaLas Condes 0.004265 **
## ComunaLo Barnechea 0.934248
## ComunaLo Espejo 0.930971
## ComunaLo Prado 0.911415
## ComunaMacul 0.551055
## ComunaMaipú 0.938877
## ComunaÑuñoa 0.657915
## ComunaPadre Hurtado 0.493343
## ComunaPedro Aguirre Cerda 0.638199
## ComunaPeñaflor 0.437291
## ComunaPeñalolén 0.935135
## ComunaProvidencia 0.009532 **
## ComunaPudahuel 0.203799
## ComunaPuente Alto 0.956289
## ComunaQuilicura 0.557672
## ComunaQuinta Normal 0.776881
## ComunaRecoleta 0.343891
## ComunaRenca 0.882515
## ComunaSan Bernardo 0.009186 **
## ComunaSan Joaquín 0.360288
## ComunaSan José de Maipo 0.909031
## ComunaSan Miguel 0.625670
## ComunaSan Ramón 0.884172
## ComunaSantiago 0.407835
## ComunaVitacura 0.000244 ***
## Superficie_Construida_M2:ComunaCalera de Tango 0.021477 *
## Superficie_Construida_M2:ComunaCerrillos 0.606847
## Superficie_Construida_M2:ComunaCerro Navia 0.658853
## Superficie_Construida_M2:ComunaColina < 2e-16 ***
## Superficie_Construida_M2:ComunaConchalí 0.342711
## Superficie_Construida_M2:ComunaEl Bosque 0.679456
## Superficie_Construida_M2:ComunaEl Monte 0.892316
## Superficie_Construida_M2:ComunaEstación Central 0.206441
## Superficie_Construida_M2:ComunaHuechuraba 0.000805 ***
## Superficie_Construida_M2:ComunaIndependencia 0.940017
## Superficie_Construida_M2:ComunaLa Cisterna 0.143813
## Superficie_Construida_M2:ComunaLa Florida 0.000311 ***
## Superficie_Construida_M2:ComunaLa Granja 0.279794
## Superficie_Construida_M2:ComunaLa Pintana 0.624947
## Superficie_Construida_M2:ComunaLa Reina 4.10e-11 ***
## Superficie_Construida_M2:ComunaLampa 0.197914
## Superficie_Construida_M2:ComunaLas Condes < 2e-16 ***
## Superficie_Construida_M2:ComunaLo Barnechea < 2e-16 ***
## Superficie_Construida_M2:ComunaLo Espejo 0.971515
## Superficie_Construida_M2:ComunaLo Prado 0.763745
## Superficie_Construida_M2:ComunaMacul 0.012507 *
## Superficie_Construida_M2:ComunaMaipú 0.161423
## Superficie_Construida_M2:ComunaÑuñoa 0.001608 **
## Superficie_Construida_M2:ComunaPadre Hurtado 0.192264
## Superficie_Construida_M2:ComunaPedro Aguirre Cerda 0.319158
## Superficie_Construida_M2:ComunaPeñaflor 0.047146 *
## Superficie_Construida_M2:ComunaPeñalolén 0.002279 **
## Superficie_Construida_M2:ComunaProvidencia 3.01e-15 ***
## Superficie_Construida_M2:ComunaPudahuel 0.002651 **
## Superficie_Construida_M2:ComunaPuente Alto 0.105367
## Superficie_Construida_M2:ComunaQuilicura 0.139939
## Superficie_Construida_M2:ComunaQuinta Normal 0.230681
## Superficie_Construida_M2:ComunaRecoleta 0.009711 **
## Superficie_Construida_M2:ComunaRenca 0.607893
## Superficie_Construida_M2:ComunaSan Bernardo 2.18e-10 ***
## Superficie_Construida_M2:ComunaSan Joaquín 0.085829 .
## Superficie_Construida_M2:ComunaSan José de Maipo 0.949234
## Superficie_Construida_M2:ComunaSan Miguel 0.009364 **
## Superficie_Construida_M2:ComunaSan Ramón 0.957878
## Superficie_Construida_M2:ComunaSantiago 1.87e-06 ***
## Superficie_Construida_M2:ComunaVitacura < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 4893 on 941 degrees of freedom
## Multiple R-squared: 0.7657, Adjusted R-squared: 0.7455
## F-statistic: 37.96 on 81 and 941 DF, p-value: < 2.2e-16
Sin embargo, no se constatan los supuestos para la validación global del modelo.
gvlma(Modelo_Final)
##
## Call:
## lm(formula = Valor_UF ~ Superficie_Construida_M2:Comuna + Comuna,
## data = Dataset_Transformado)
##
## Coefficients:
## (Intercept)
## 283.84
## ComunaCerrillos
## -539.76
## ComunaCerro Navia
## -9136.12
## ComunaColina
## -18336.05
## ComunaConchalí
## -4963.96
## ComunaEl Bosque
## 3245.98
## ComunaEl Monte
## -501.48
## ComunaEstación Central
## -5067.43
## ComunaHuechuraba
## -13766.68
## ComunaIndependencia
## 5050.55
## ComunaLa Cisterna
## -1523.30
## ComunaLa Florida
## -3371.31
## ComunaLa Granja
## -6215.96
## ComunaLa Pintana
## 739.92
## ComunaLa Reina
## -11199.37
## ComunaLampa
## 1046.61
## ComunaLas Condes
## -19908.85
## ComunaLo Barnechea
## 534.99
## ComunaLo Espejo
## 1514.75
## ComunaLo Prado
## -2051.53
## ComunaMacul
## -4305.82
## ComunaMaipú
## -529.74
## ComunaÑuñoa
## -3389.05
## ComunaPadre Hurtado
## -6753.87
## ComunaPedro Aguirre Cerda
## -5103.79
## ComunaPeñaflor
## -6147.58
## ComunaPeñalolén
## -559.67
## ComunaProvidencia
## -19082.21
## ComunaPudahuel
## -10182.06
## ComunaPuente Alto
## -376.53
## ComunaQuilicura
## -4606.95
## ComunaQuinta Normal
## -2619.71
## ComunaRecoleta
## -7785.45
## ComunaRenca
## -1598.45
## ComunaSan Bernardo
## -18787.98
## ComunaSan Joaquín
## -11160.42
## ComunaSan José de Maipo
## 2387.35
## ComunaSan Miguel
## -3792.18
## ComunaSan Ramón
## 3791.93
## ComunaSantiago
## -5854.58
## ComunaVitacura
## -24518.82
## Superficie_Construida_M2:ComunaCalera de Tango
## 841.36
## Superficie_Construida_M2:ComunaCerrillos
## 407.08
## Superficie_Construida_M2:ComunaCerro Navia
## 1225.97
## Superficie_Construida_M2:ComunaColina
## 2129.03
## Superficie_Construida_M2:ComunaConchalí
## 807.86
## Superficie_Construida_M2:ComunaEl Bosque
## 154.61
## Superficie_Construida_M2:ComunaEl Monte
## 212.71
## Superficie_Construida_M2:ComunaEstación Central
## 918.86
## Superficie_Construida_M2:ComunaHuechuraba
## 1766.62
## Superficie_Construida_M2:ComunaIndependencia
## 29.65
## Superficie_Construida_M2:ComunaLa Cisterna
## 649.20
## Superficie_Construida_M2:ComunaLa Florida
## 1108.30
## Superficie_Construida_M2:ComunaLa Granja
## 856.27
## Superficie_Construida_M2:ComunaLa Pintana
## 163.58
## Superficie_Construida_M2:ComunaLa Reina
## 1989.26
## Superficie_Construida_M2:ComunaLampa
## 328.55
## Superficie_Construida_M2:ComunaLas Condes
## 2851.66
## Superficie_Construida_M2:ComunaLo Barnechea
## 1654.03
## Superficie_Construida_M2:ComunaLo Espejo
## 54.47
## Superficie_Construida_M2:ComunaLo Prado
## 479.02
## Superficie_Construida_M2:ComunaMacul
## 912.56
## Superficie_Construida_M2:ComunaMaipú
## 447.19
## Superficie_Construida_M2:ComunaÑuñoa
## 1206.52
## Superficie_Construida_M2:ComunaPadre Hurtado
## 1015.68
## Superficie_Construida_M2:ComunaPedro Aguirre Cerda
## 720.94
## Superficie_Construida_M2:ComunaPeñaflor
## 920.55
## Superficie_Construida_M2:ComunaPeñalolén
## 872.99
## Superficie_Construida_M2:ComunaProvidencia
## 2662.06
## Superficie_Construida_M2:ComunaPudahuel
## 1438.78
## Superficie_Construida_M2:ComunaPuente Alto
## 497.20
## Superficie_Construida_M2:ComunaQuilicura
## 773.68
## Superficie_Construida_M2:ComunaQuinta Normal
## 642.25
## Superficie_Construida_M2:ComunaRecoleta
## 1176.39
## Superficie_Construida_M2:ComunaRenca
## 468.39
## Superficie_Construida_M2:ComunaSan Bernardo
## 2229.89
## Superficie_Construida_M2:ComunaSan Joaquín
## 1466.50
## Superficie_Construida_M2:ComunaSan José de Maipo
## 109.53
## Superficie_Construida_M2:ComunaSan Miguel
## 1017.60
## Superficie_Construida_M2:ComunaSan Ramón
## -148.38
## Superficie_Construida_M2:ComunaSantiago
## 1283.90
## Superficie_Construida_M2:ComunaVitacura
## 3291.65
##
##
## ASSESSMENT OF THE LINEAR MODEL ASSUMPTIONS
## USING THE GLOBAL TEST ON 4 DEGREES-OF-FREEDOM:
## Level of Significance = 0.05
##
## Call:
## gvlma(x = Modelo_Final)
##
## Value p-value Decision
## Global Stat 4.413e+04 0.000e+00 Assumptions NOT satisfied!
## Skewness 2.233e+03 0.000e+00 Assumptions NOT satisfied!
## Kurtosis 4.188e+04 0.000e+00 Assumptions NOT satisfied!
## Link Function 1.973e+01 8.896e-06 Assumptions NOT satisfied!
## Heteroscedasticity 2.411e-01 6.234e-01 Assumptions acceptable.
Y los gráficos lo confirman: el Modelo_Final
muestra
patrones irregulares en los residuos, desviaciones de la normalidad, y
outliers que podrían afectar la validez del modelo.
par(mfrow = c(2,2))
plot(Modelo_Final)
par(mfrow = c(1,1))
Podríamos mencionar tres fortalezas de nuestro
Modelo_Final
:
Sin embargo, y a pesar de los esfuerzos por ajustarlo y optimizarlo, el modelo presenta cuatro problemas centrales:
Estos limitantes sugieren la necesidad de explorar enfoques alternativos como transformaciones adicionales de las variables, la inclusión de términos no lineales, o incluso la consideración de modelos estadísticos más complejos o no paramétricos.