Autor

Francisco Guijarro

Catedrático de Universidad (profesor funcionario a tiempo completo)

Universidad Politécnica de Valencia

fraguima@upvnet.upv.es

1 Introducción

El modelo de regresión múltiple supone la generalización del modelo de regresión simple al considerar más de una variable independiente o explicativa.

$Y=f(X)=\beta_0 + \beta_1 X_1 + \ldots + \beta_j X_j$

El coeficiente $\beta_0$ se interpreta como el valor de la variable dependiente $Y$ cuando todas las variables explicativas toman valor cero.
El coeficiente $\beta_i$ se interpreta como el incremento experimentado por la variable Y cuando la variable $X_i$ se incrementa en una unidad, manteniendo constante el resto de variables –ceteris paribus-.

$~$

2 Significación estadística del modelo y de los coeficientes

La salida de SPSS ofrece los coeficientes de regresión, junto con otros estadísticos de interés que permiten conocer la significación estadística de los coeficientes.

Ejercicio 1

Realizar una regresión que explique el valor_de_venta en función del area_construida, habitaciones y estrato. Interpretar el $R^2$ y el $R^2$ ajustado, así como la importancia relativa de las variables a partir de los coeficientes estandarizados (coeficientes $\beta$). ¿Encuentras alguna similitud con la filosofía de la valoración mediante AHP? Interpretar el signo del coeficientes asociado al número de habitaciones. ¿Sorprende que la importancia de estrato sea la más baja?

$~$

Figura 1. Resultado de la regresión múltiple

$~$

La importancia de las variables no la determinan sus coeficientes, sino sus coeficientes estandarizados (también denominados coeficientes beta).
El modelo resultante valoraría una vivienda a partir de la siguiente expresión:

$valor_de_venta = -40.811.653,6 + 9.489.918,1 area_construida - 166.179.066 habitaciones + $ $22.005.351,6 \times estrato$

El $R^2$ ajustado se utiliza para poder comparar la capacidad explicativa de modelos de regresión con diferente número de regresores y/o comparables. Téngase en cuenta que el $R^2$ de un modelo siempre aumenta al incrementar el número de regresores.

$R^2 ajustado = R^2 - \frac{k \left(1-R^2 \right)}{n-k-1}$

donde $R^2$ es el R cuadrado o coeficiente de determinación, $k$ es el número de variables explicativas y $n$ el número de testigos en la muestra.

Ejercicio 2

En este ejercicio mostraremos los problemas que ocasiona limitar la muestra a testigos lo más similares posible al apartamento que se quiere valorar. Supongamos que queremos valorar una vivienda de 100 metros cuadrados, y que para ello limitamos la muestra a las viviendas que tienen una superficie entre 90 y 110 metros cuadrados. Repetir el modelo de regresión anterior sobre este subconjunto de datos. ¿Sobre cuántos apartamentos corrió la regresión? Comparar el valor de $R^2$ ajustado, los coeficientes, su significación estadística y la importancia relativa de las variables a través de los coeficientes Beta.

$~$

Figura 2. Resultado de la regresión múltiple limitando la superficie de los apartamentos considerados

$~$

Figura 3. Diagrama de dispersión entre valor de venta y área construida, limitando el área al rango 90, 110

$~$

Figura 4. Diagrama de dispersión entre valor de venta y área construida, sin limitar el área de los apartamentos

$~$

La relevancia de las variables explicativas es función de la muestra.

Ejercicio 3

Realizar una regresión entre log_valor_de_venta (variable dependiente), y log_area_construida, dormitorios, banyos, estrato y parqueadero (variables independientes). Interpretar los resultados. ¿Son todas las variables igual de importantes? La importancia de las mismas, ¿está relacionada con la correlación? ¿Qué valor de $R^2$ ajustado se obtiene?

$~$

Figura 5. Resultados del análisis de regresión múltiple

$~$

Antes de avanzar con el siguiente ejercicio, interpretar los coeficientes del modelo anterior.

Ejercicio 4

Pregunta teórica. Supongamos que las variables independientes estuvieran incorrelacionadas. ¿Crees que los coeficientes beta serían entonces proporcionales a los coeficientes de correlación entre dichas variables y el valor de venta?

$~$

Ejercicio 5

Repetir la regresión anterior incluyendo una nueva variable: area_terraza_balcon. ¿Se mejora el $R^2$ ajustado?

$~$

Podemos valorar un apartamento con cualquiera de los dos últimos modelos obtenidos. El valor estimado será prácticamente el mismo. ¿Por qué? Eliminar una variable no significativa no afectará a la estimación del valor de los apartamentos.

3 Regresión por pasos

En el caso en que dispongamos de un amplio abanico de variables explicativas, tendremos que correr el modelo de regresión múltiple con todas ellas para identificar cuáles no resultaron significativas.

Sin embargo, no debemos eliminarlas todas ellas de una vez, pues puede que al eliminar alguna de ellas ocurra que otras variables pasen de ser no significativas a significativas.

En el siguiente ejemplo vamos a proceder a eliminar las variables de menos a más significativas, hasta quedarnos con un modelo donde todas las variables resulten estadísticamente significativas.

Paso 1

Correr un modelo entre valor_de_venta y area_construida, estrato, dormitorios, banyos, area_terraza_balcon y parqueadero:

Figura 6. Resultados del análisis de regresión múltiple con area_construida, estrato, dormitorios, banyos, area_terraza_balcon y parqueadero como variables independientes

$~$

Paso 2

Quitamos la variable con “Sig.” más alto (area_terraza_balcon) y repetimos análisis:

Figura 7. Resultados del análisis de regresión múltiple eliminando area_terraza_balcon

$~$

Paso 3

Eiminamos banyos:

Figura 8. Resultados del análisis de regresión múltiple eliminando banyos

$~$

Paso 4

Eiminamos estrato:

Figura 9. Resultados del análisis de regresión múltiple eliminando estrato

$~$

Ejercicio 6

¿Ha cambiado el $R^2$ ajustado?

$~$

En lugar de realizar este tedioso ejercicio de eliminar las variables una a una, podemos emplear la regresión por pasos (stepwise regression), que realizará los pasos de forma automática y nos devolverá el modelo de regresión donde todas las variables son estadísticamente significativas.

En este caso, SPSS irá añadiendo las variables de una en una, hasta que no quede ninguna otra variable significativa que añadir al modelo:

Figura 10. Detalle de la regresión por pasos

$~$

Ejercicio 7

Realizar la regresión por pasos, pero tomando log_valor_de_venta y log_area_construida (en lugar de valor_de_venta y area_construida). Comparar los resultados con los obtenidos anteriormente.

$~$

4 Datos nominales y ordinales en los modelos de regresión

En todas las regresiones anteriores se ha considerado:

Tomar las variables ordinales como si fueran lineales. Esto es, pasar de Estrato 3 a Estrato 4, representa el mismo valor que pasar de Estrato 4 a Estrato 5.
Excluir las variables nominales (categóricas), como la antigüedad.

Vamos a analizar en detalle estas dos cuestiones, de forma que permitan mejorar los modelos de regresión múltiple.

En cualquier caso, ¿tiene sentido incluir el estrato como una variable numérica? En caso de incluirla en la regresión, ¿estaríamos asumiendo que pasar de estrato 4 a 5 supone el mismo incremento de valor que pasar de estrato 5 a 6?

4.1 Transformar una variable nominal

Siempre que en una variable nominal tengamos $n$ niveles, debemos construir $n-1$ variables binarias para transformarla en numérica. Ejemplo:

Antigüedad	Entre_5_10	Entre_10_20	Mas_20	Remodelado
Entre 0 y 5	0	0	0	0
Entre 5 y 10	1	0	0	0
Mas_de_20	0	0	1	0
Entre 5 y 10	1	0	0	0
Entre 10 y 20	0	1	0	0
Entre 0 y 5	0	0	0	0
Remodelado	0	0	0	1
Entre 0 y 5	0	0	0	0
Mas_de_20	0	0	1	0

En este caso estamos tomando como valor base la antigüedad entre 0 y 5 años, por lo que un apartamento con esa antigüedad se identificará por tener todos los valores a 0.

Ejercicio 8

Realizar la regresión por pasos, tomando log_valor_de_venta y log_area_construida, e incluyendo las variables binarias correspondientes a la antiguedad. Comparar los resultados con los obtenidos anteriormente.

$~$

Ejercicio 9

¿Se puede considerar que el $R^2$ ajustado se sitúa sobre valores válidos para la práctica profesional? ¿Se cumple que a mayor antigüedad, menor valor de venta? ¿Son los descensos en el valor de venta lineales con los saltos de una antigüedad a otra? ¿Son según los coeficientes beta todas las variables igual de importantes?

$~$

Hay que tener en cuenta que en el caso de la antigüedad tenemos varios apartamentos para los que no se cuenta con información. Esto equivale a decir que los apartamentos sin antigüedad han sido considerados como apartamentos con antigüedad entre 0 y 5 años.

Ejercicio 10

Razonar la anterior afirmación.

$~$

En este caso, tendremos que crear un nivel más para computar esos casos:

antig_sin_valor (nuevo nivel que acabamos de introducir)
antig_5_10
antig_10_20
antig_20
antig_remodelado

Figura 11. Frecuencias de la variable antigüedad

$~$

Figura 12. Cálculo de la variable antig_sin_valor

$~$

Figura 13. Resultado del modelo de regresión por pasos incluyendo las variables binarias representantes de la antigüedad

$~$

Ejercicio 11

A partir del modelo de regresión de las anteriores figuras, resumir cuál es el efecto de la antigüedad en el valor de venta de los apartamentos. ¿Hay alguna diferencia (significativa) entre los apartamentos nuevo (0 y 5 años) y los que no tienen definida la antigüedad? En caso de que la diferencia no fuera significativa, ¿podríamos unir ambos grupos?

$~$

Ejercicio 12

Analiza el siguiente cuadro resumen y responde a la siguiente pregunta referida a la últma regresión: ¿podemos afirmar que un incremento del 1% en la superficie de un apartamento supone en promedio un 1% de incremento en su valor de venta -ceteris paribus-? ¿Y un incremento de un parqueadero supone en promedio un incremento del $100 \times 0,046 = 4,6\%$ en el valor de venta del apartamento -ceteris paribus-?

Figura 14. Interpretación de la pendiente en los modelos de regresión

$~$

Ejercicio 13

Repetir la regresión anterior, pero ahora incluyendo variables binarias para el estrato. Tomaremos como valor base el estrato 2. Interpretar los coeficientes y su significatividad estadística.

estrato	estrato_3	estrato_4	estrato_5	estrato_6
2	0	0	0	0
3	1	0	0	0
4	0	1	0	0
5	0	0	1	0
6	0	0	0	1

$~$

Figura 15. Resultado del modelo de regresión por pasos incluyendo las variables binarias representantes del estrato

$~$

4.2 Inclusión del resto de variables

En el caso que nos ocupa de los apartamentos en Bogotá, tenemos un conjunto de variables que actualmente son tipo texto y que al ser transformadas en numéricas podrían mejorar el $R^2$ ajustado del modelo de regresión múltiple. Se trata de las variables Si/No:

conjunto_cerrado
estudio_biblioteca
parqueadero_cubirto
vigilancia

que convertiremos previamente en variables binarias 1/0:

conjunto_cerrado_binaria
estudio_biblioteca_binaria
parqueadero_cubirto_binaria
vigilancia_binaria

Ejercicio 14

Repetir la regresión por pasos anterior, incluyendo las nuevas variables binarias. ¿Mejora el $R^2$ ajustado? ¿Se incluye en el modelo alguna de las nuevas variables binarias?

$~$

Figura 16. Resultado del modelo de regresión por pasos incluyendo nuevas variables binarias

$~$

5 Mejorando la capacidad explicativa del modelo

¿De qué forma podemos intentar mejorar la capacidad explicativa del modelo de regresión? ¿Cómo podemos hacer para que nuestra función de valoración sea aún mejor?

Incluir más variables explicativas
Comprobar que nuestro modelo no tiene problemas de heterocedasticidad
Detectar y eliminar observaciones anómalas (outliers)
Variables interacción

Ejercicio 15

Debe procederse a identificar los apartamentos atípicos que tenga un residuo estandarizado en valor absoluto por encimar de 3.

$~$

6 Las variables interacción

En los modelos anteriores no estamos modelizando la posible interacción entre variables. ¿A qué se refiere este concepto?

Pongamos un ejemplo. En las regresiones anteriores estamos incluyendo el estrato como variable independiente, lo que permite analizar las diferencias en el precio total medio de los apartamentos según el estrato en que se sitúen.

Sin embargo, puede que las diferencias de estrato no sólo afectan al valor de venta promedio de los inmuebles, sino también al valor de venta por metro cuadrado. Para recoger estas posibles diferencias es para lo que se puede establecer una variable interacción entre el área construida (o el logaritmo del área construida) y el estrato.

La implementación de esto último se haría creando nuevas variables:

area_estrato_3 = log_area_construida * estrato_3
area_estrato_4 = log_area_construida * estrato_4
area_estrato_5 = log_area_construida * estrato_5
area_estrato_6 = log_area_construida * estrato_6

De esta forma, ahora podremos saber si existen diferencias en el promedio de valor de venta de los apartamentos por estrato, y también si estas diferencias no sólo se dan en términos del valor global del apartamento, sino también en el valor de metro cuadrado.

Ejercicio 16

Repetir la regresión por pasos, incluyendo las nuevas variables interacción ¿Mejora el $R^2$ ajustado? ¿Se incluye en el modelo alguna de las nuevas variables?

$~$

Figura 17. Resultado de la regresión por pasos incluyendo variables interacción

7 Otras métricas para medir la caliad de los modelos de regresión

En los apartados anteriores hemos medido la calidad o bondad de los modelos de regresión a través del $R^2$ para el caso de los modelos de regresión simple, y del $R^2$ ajustado para los modelos de regresión múltiple.

Sin embargo, existen otras alternativas propias de diferentes normativas de valoración para medir la calidad de las estimaciones de estos modelos.

7.1 MAE (Mean Absolute Error)

El MAE, o error absoluto medio, es una medida del error cometido en el valor estimado, medido en términos absolutos (monetarios).

Para su medición se emplea la siguiente expresión:

$MAE = \frac{1}{N} \sum_{i=1}^N abs\left(valor\_observado_i - valor\_estimado_i \right)$

donde $abs$ representa la función de valor absoluto.

De esta forma podemos saber cuál es en promedio el error que estamos cometiendo con nuestras estimaciones.

7.2 MAPE (Mean Absolute Percentage Error)

El MAPE, o error porcentual absoluto medio), se calcula con la siguiente expresión:

$MAPE = \frac{1}{N} \sum_{i=1}^N \frac{abs\left(valor\_observado_i - valor\_estimado_i \right)}{valor\_observado_i}$

Es, por lo tanto, una medida más fácil de interpretar desde el ámbito de la valoración, pues nos informa del error relativo medio que estamos cometiendo en nuestras estimaciones.

Ejercicio 17

Repetir la regresión por pasos, incluyendo las nuevas variables interacción, y guardar los valores estimados para poder calcular el MAE y el MAPE. Calcula dicha variable utilizando las expresiones matemáticas anteriores, y obtén los estadísticos descriptivos de las mismas (entre los que se encuentra la media).

$~$

Figura 18. Paso 1, calculamos el valor de venta en pesos (revertimos el logaritmo)

$~$

Figura 19. Paso 2, calculamos el APE, como paso previo a calcular su media (MAPE)

$~$

Figura 20. Paso 3, calculamos los estadísticos descriptivos del APE, entre los que está su media: el MAPE

$~$

Figura 21. Diagrama de dispersión: MAPE frente al área construida

$~$

Figura 22. Diagrama de dispersión: MAPE frente al valor de venta

$~$

Ejercicio 18

Repite el anterior ejercicio, pero filtrando los apartamentos que pudieran ser considerados atípicos según el valor del MAPE obtenido. ¿Qué valor de MAPE podríamos considerar como umbral para distinguir apartamentos atípicos?