Autor
Francisco Guijarro
Catedrático de Universidad (profesor funcionario a tiempo completo)
Universidad Politécnica de Valencia
El modelo de regresión múltiple supone la generalización del modelo de regresión simple al considerar más de una variable independiente o explicativa.
\(Y=f(X)=\beta_0 + \beta_1 X_1 + \ldots + \beta_j X_j\)
El coeficiente \(\beta_0\) se interpreta como el valor de la variable dependiente \(Y\) cuando todas las variables explicativas toman valor cero.
El coeficiente \(\beta_i\) se interpreta como el incremento experimentado por la variable Y cuando la variable \(X_i\) se incrementa en una unidad, manteniendo constante el resto de variables –ceteris paribus-.
\(~\)
La salida de SPSS ofrece los coeficientes de regresión, junto con otros estadísticos de interés que permiten conocer la significación estadística de los coeficientes.
Ejercicio
1Realizar una regresión que explique el
valor_de_ventaen función delarea_construida,habitacionesyestrato. Interpretar el \(R^2\) y el \(R^2\) ajustado, así como la importancia relativa de las variables a partir de los coeficientes estandarizados (coeficientes \(\beta\)). ¿Encuentras alguna similitud con la filosofía de la valoración mediante AHP? Interpretar el signo del coeficientes asociado al número de habitaciones. ¿Sorprende que la importancia de estrato sea la más baja?
\(~\)
Figura 1. Resultado de la regresión múltiple
\(~\)
La importancia de las variables no la determinan sus coeficientes, sino sus coeficientes estandarizados (también denominados coeficientes beta).
El modelo resultante valoraría una vivienda a partir de la siguiente expresión:
$valor_de_venta = -40.811.653,6 + 9.489.918,1 area_construida - 166.179.066 habitaciones + $ \(22.005.351,6 \times estrato\)
\(R^2 ajustado = R^2 - \frac{k \left(1-R^2 \right)}{n-k-1}\)
Ejercicio
2En este ejercicio mostraremos los problemas que ocasiona limitar la muestra a testigos lo más similares posible al apartamento que se quiere valorar. Supongamos que queremos valorar una vivienda de 100 metros cuadrados, y que para ello limitamos la muestra a las viviendas que tienen una superficie entre 90 y 110 metros cuadrados. Repetir el modelo de regresión anterior sobre este subconjunto de datos. ¿Sobre cuántos apartamentos corrió la regresión? Comparar el valor de \(R^2\) ajustado, los coeficientes, su significación estadística y la importancia relativa de las variables a través de los coeficientes Beta.
\(~\)
Figura 2. Resultado de la regresión múltiple limitando la superficie de los apartamentos considerados
\(~\)
Figura 3. Diagrama de dispersión entre valor de venta y área construida, limitando el área al rango 90, 110
\(~\)
Figura 4. Diagrama de dispersión entre valor de venta y área construida, sin limitar el área de los apartamentos
\(~\)
Ejercicio
3Realizar una regresión entre
log_valor_de_venta(variable dependiente), ylog_area_construida,dormitorios,banyos,estratoyparqueadero(variables independientes). Interpretar los resultados. ¿Son todas las variables igual de importantes? La importancia de las mismas, ¿está relacionada con la correlación? ¿Qué valor de \(R^2\) ajustado se obtiene?
\(~\)
Figura 5. Resultados del análisis de regresión múltiple
\(~\)
Antes de avanzar con el siguiente ejercicio, interpretar los coeficientes del modelo anterior.
Ejercicio
4Pregunta teórica. Supongamos que las variables independientes estuvieran incorrelacionadas. ¿Crees que los coeficientes beta serían entonces proporcionales a los coeficientes de correlación entre dichas variables y el valor de venta?
\(~\)
Ejercicio
5Repetir la regresión anterior incluyendo una nueva variable:
area_terraza_balcon. ¿Se mejora el \(R^2\) ajustado?
\(~\)
En el caso en que dispongamos de un amplio abanico de variables explicativas, tendremos que correr el modelo de regresión múltiple con todas ellas para identificar cuáles no resultaron significativas.
Sin embargo, no debemos eliminarlas todas ellas de una vez, pues puede que al eliminar alguna de ellas ocurra que otras variables pasen de ser no significativas a significativas.
En el siguiente ejemplo vamos a proceder a eliminar las variables de menos a más significativas, hasta quedarnos con un modelo donde todas las variables resulten estadísticamente significativas.
Paso 1
Correr un modelo entre valor_de_venta y area_construida, estrato, dormitorios, banyos, area_terraza_balcon y parqueadero:
Figura 6. Resultados del análisis de regresión múltiple con area_construida, estrato, dormitorios, banyos, area_terraza_balcon y parqueadero como variables independientes
\(~\)
Paso 2
Quitamos la variable con “Sig.” más alto (area_terraza_balcon) y repetimos análisis:
Figura 7. Resultados del análisis de regresión múltiple eliminando area_terraza_balcon
\(~\)
Paso 3
Eiminamos banyos:
Figura 8. Resultados del análisis de regresión múltiple eliminando banyos
\(~\)
Paso 4
Eiminamos estrato:
Figura 9. Resultados del análisis de regresión múltiple eliminando estrato
\(~\)
Ejercicio
6¿Ha cambiado el \(R^2\) ajustado?
\(~\)
En lugar de realizar este tedioso ejercicio de eliminar las variables una a una, podemos emplear la regresión por pasos (stepwise regression), que realizará los pasos de forma automática y nos devolverá el modelo de regresión donde todas las variables son estadísticamente significativas.
En este caso, SPSS irá añadiendo las variables de una en una, hasta que no quede ninguna otra variable significativa que añadir al modelo:
Figura 10. Detalle de la regresión por pasos
\(~\)
Ejercicio
7Realizar la regresión por pasos, pero tomando
log_valor_de_ventaylog_area_construida(en lugar devalor_de_ventayarea_construida). Comparar los resultados con los obtenidos anteriormente.
\(~\)
En todas las regresiones anteriores se ha considerado:
Tomar las variables ordinales como si fueran lineales. Esto es, pasar de Estrato 3 a Estrato 4, representa el mismo valor que pasar de Estrato 4 a Estrato 5.
Excluir las variables nominales (categóricas), como la antigüedad.
Vamos a analizar en detalle estas dos cuestiones, de forma que permitan mejorar los modelos de regresión múltiple.
En cualquier caso, ¿tiene sentido incluir el estrato como una variable numérica? En caso de incluirla en la regresión, ¿estaríamos asumiendo que pasar de estrato 4 a 5 supone el mismo incremento de valor que pasar de estrato 5 a 6?
Siempre que en una variable nominal tengamos \(n\) niveles, debemos construir \(n-1\) variables binarias para transformarla en numérica. Ejemplo:
| Antigüedad | Entre_5_10 | Entre_10_20 | Mas_20 | Remodelado |
|---|---|---|---|---|
| Entre 0 y 5 | 0 | 0 | 0 | 0 |
| Entre 5 y 10 | 1 | 0 | 0 | 0 |
| Mas_de_20 | 0 | 0 | 1 | 0 |
| Entre 5 y 10 | 1 | 0 | 0 | 0 |
| Entre 10 y 20 | 0 | 1 | 0 | 0 |
| Entre 0 y 5 | 0 | 0 | 0 | 0 |
| Remodelado | 0 | 0 | 0 | 1 |
| Entre 0 y 5 | 0 | 0 | 0 | 0 |
| Mas_de_20 | 0 | 0 | 1 | 0 |
En este caso estamos tomando como valor base la antigüedad entre 0 y 5 años, por lo que un apartamento con esa antigüedad se identificará por tener todos los valores a 0.
Ejercicio
8Realizar la regresión por pasos, tomando
log_valor_de_ventaylog_area_construida, e incluyendo las variables binarias correspondientes a laantiguedad. Comparar los resultados con los obtenidos anteriormente.
\(~\)
Ejercicio
9¿Se puede considerar que el \(R^2\) ajustado se sitúa sobre valores válidos para la práctica profesional? ¿Se cumple que a mayor antigüedad, menor valor de venta? ¿Son los descensos en el valor de venta lineales con los saltos de una antigüedad a otra? ¿Son según los coeficientes beta todas las variables igual de importantes?
\(~\)
Hay que tener en cuenta que en el caso de la antigüedad tenemos varios apartamentos para los que no se cuenta con información. Esto equivale a decir que los apartamentos sin antigüedad han sido considerados como apartamentos con antigüedad entre 0 y 5 años.
Ejercicio
10Razonar la anterior afirmación.
\(~\)
En este caso, tendremos que crear un nivel más para computar esos casos:
antig_sin_valor (nuevo nivel que acabamos de introducir)
antig_5_10
antig_10_20
antig_20
antig_remodelado
Figura 11. Frecuencias de la variable antigüedad
\(~\)
Figura 12. Cálculo de la variable antig_sin_valor
\(~\)
Figura 13. Resultado del modelo de regresión por pasos incluyendo las variables binarias representantes de la antigüedad
\(~\)
Ejercicio
11A partir del modelo de regresión de las anteriores figuras, resumir cuál es el efecto de la antigüedad en el valor de venta de los apartamentos. ¿Hay alguna diferencia (significativa) entre los apartamentos nuevo (0 y 5 años) y los que no tienen definida la antigüedad? En caso de que la diferencia no fuera significativa, ¿podríamos unir ambos grupos?
\(~\)
Ejercicio
12Analiza el siguiente cuadro resumen y responde a la siguiente pregunta referida a la últma regresión: ¿podemos afirmar que un incremento del 1% en la superficie de un apartamento supone en promedio un 1% de incremento en su valor de venta -ceteris paribus-? ¿Y un incremento de un parqueadero supone en promedio un incremento del \(100 \times 0,046 = 4,6\%\) en el valor de venta del apartamento -ceteris paribus-?
Figura 14. Interpretación de la pendiente en los modelos de regresión
\(~\)
Ejercicio
13Repetir la regresión anterior, pero ahora incluyendo variables binarias para el estrato. Tomaremos como valor base el estrato 2. Interpretar los coeficientes y su significatividad estadística.
| estrato | estrato_3 | estrato_4 | estrato_5 | estrato_6 |
|---|---|---|---|---|
| 2 | 0 | 0 | 0 | 0 |
| 3 | 1 | 0 | 0 | 0 |
| 4 | 0 | 1 | 0 | 0 |
| 5 | 0 | 0 | 1 | 0 |
| 6 | 0 | 0 | 0 | 1 |
\(~\)
Figura 15. Resultado del modelo de regresión por pasos incluyendo las variables binarias representantes del estrato
\(~\)
En el caso que nos ocupa de los apartamentos en Bogotá, tenemos un conjunto de variables que actualmente son tipo texto y que al ser transformadas en numéricas podrían mejorar el \(R^2\) ajustado del modelo de regresión múltiple. Se trata de las variables Si/No:
conjunto_cerrado
estudio_biblioteca
parqueadero_cubirto
vigilancia
que convertiremos previamente en variables binarias 1/0:
conjunto_cerrado_binaria
estudio_biblioteca_binaria
parqueadero_cubirto_binaria
vigilancia_binaria
Ejercicio
14Repetir la regresión por pasos anterior, incluyendo las nuevas variables binarias. ¿Mejora el \(R^2\) ajustado? ¿Se incluye en el modelo alguna de las nuevas variables binarias?
\(~\)
Figura 16. Resultado del modelo de regresión por pasos incluyendo nuevas variables binarias
\(~\)
¿De qué forma podemos intentar mejorar la capacidad explicativa del modelo de regresión? ¿Cómo podemos hacer para que nuestra función de valoración sea aún mejor?
Incluir más variables explicativas
Comprobar que nuestro modelo no tiene problemas de heterocedasticidad
Detectar y eliminar observaciones anómalas (outliers)
Variables interacción
Ejercicio
15Debe procederse a identificar los apartamentos atípicos que tenga un residuo estandarizado en valor absoluto por encimar de 3.
\(~\)
En los modelos anteriores no estamos modelizando la posible interacción entre variables. ¿A qué se refiere este concepto?
Pongamos un ejemplo. En las regresiones anteriores estamos incluyendo el estrato como variable independiente, lo que permite analizar las diferencias en el precio total medio de los apartamentos según el estrato en que se sitúen.
Sin embargo, puede que las diferencias de estrato no sólo afectan al valor de venta promedio de los inmuebles, sino también al valor de venta por metro cuadrado. Para recoger estas posibles diferencias es para lo que se puede establecer una variable interacción entre el área construida (o el logaritmo del área construida) y el estrato.
La implementación de esto último se haría creando nuevas variables:
area_estrato_3 = log_area_construida * estrato_3
area_estrato_4 = log_area_construida * estrato_4
area_estrato_5 = log_area_construida * estrato_5
area_estrato_6 = log_area_construida * estrato_6
De esta forma, ahora podremos saber si existen diferencias en el promedio de valor de venta de los apartamentos por estrato, y también si estas diferencias no sólo se dan en términos del valor global del apartamento, sino también en el valor de metro cuadrado.
Ejercicio
16Repetir la regresión por pasos, incluyendo las nuevas variables interacción ¿Mejora el \(R^2\) ajustado? ¿Se incluye en el modelo alguna de las nuevas variables?
\(~\)
Figura 17. Resultado de la regresión por pasos incluyendo variables interacción
En los apartados anteriores hemos medido la calidad o bondad de los modelos de regresión a través del \(R^2\) para el caso de los modelos de regresión simple, y del \(R^2\) ajustado para los modelos de regresión múltiple.
Sin embargo, existen otras alternativas propias de diferentes normativas de valoración para medir la calidad de las estimaciones de estos modelos.
El MAE, o error absoluto medio, es una medida del error cometido en el valor estimado, medido en términos absolutos (monetarios).
Para su medición se emplea la siguiente expresión:
\(MAE = \frac{1}{N} \sum_{i=1}^N abs\left(valor\_observado_i - valor\_estimado_i \right)\)
donde \(abs\) representa la función de valor absoluto.
De esta forma podemos saber cuál es en promedio el error que estamos cometiendo con nuestras estimaciones.
El MAPE, o error porcentual absoluto medio), se calcula con la siguiente expresión:
\(MAPE = \frac{1}{N} \sum_{i=1}^N \frac{abs\left(valor\_observado_i - valor\_estimado_i \right)}{valor\_observado_i}\)
Es, por lo tanto, una medida más fácil de interpretar desde el ámbito de la valoración, pues nos informa del error relativo medio que estamos cometiendo en nuestras estimaciones.
Ejercicio
17Repetir la regresión por pasos, incluyendo las nuevas variables interacción, y guardar los valores estimados para poder calcular el MAE y el MAPE. Calcula dicha variable utilizando las expresiones matemáticas anteriores, y obtén los estadísticos descriptivos de las mismas (entre los que se encuentra la media).
\(~\)
Figura 18. Paso 1, calculamos el valor de venta en pesos (revertimos el logaritmo)
\(~\)
Figura 19. Paso 2, calculamos el APE, como paso previo a calcular su media (MAPE)
\(~\)
Figura 20. Paso 3, calculamos los estadísticos descriptivos del APE, entre los que está su media: el MAPE
\(~\)
Figura 21. Diagrama de dispersión: MAPE frente al área construida
\(~\)
Figura 22. Diagrama de dispersión: MAPE frente al valor de venta
\(~\)
Ejercicio
18Repite el anterior ejercicio, pero filtrando los apartamentos que pudieran ser considerados atípicos según el valor del MAPE obtenido. ¿Qué valor de MAPE podríamos considerar como umbral para distinguir apartamentos atípicos?