Autor

Francisco Guijarro

Catedrático de Universidad (profesor funcionario a tiempo completo)

Universidad Politécnica de Valencia

1 El problema de la multicolinealidad

  • La multicolinealidad se presenta cuando en un mismo modelo combinamos variables que están fuertemente correlacionadas entre sí. Las diferentes relaciones de dependencia que puedan existir entre ellas acaban afectando y sesgando al resultado final, de forma que el modelo de regresión puede invalidarse por la concurrencia de variables correlacionadas, en lugar de mejorarse por la incorporación de nuevas variables explicativas.

  • Entre los efectos negativos de la multicolinealidad están:

    • La obtención de elevados y artificiales valores del estadístico \(R^2\), dando la falsa sensación de que un modelo con alta capacidad explicativa también será un modelo excelente para la predicción. Puede que un modelo funcione muy bien sobre los datos de la muestra, pero muy mal fuera de ella.

    • La aparición de coeficientes con un signo que no se justifica desde un punto de vista económico.

    • La significación estadística de variables que, a priori, no guardan aparente relación con la variable dependiente.

  • Para evitar estos efectos sobre nuestro modelos de regresión tendremos que llevar a cabo algunas de las siguientes acciones:

    • Eliminar variables explicativas.

    • Aumentar el número de observaciones.

  • El objetivo último de este capítulo no es proponer nuevas funciones de valoración, sino conocer mejor la relación existente de las variables para comprender mejor cómo se han formado las funciones de valoración e interpretar de forma más acertado el comportamiento de los precios inmobiliarios.

\(~\)

2 Cómo detectar la multicolinealidad

  • Podemos emplear el índice de condición.

  • Índices de condición entre 5 y 10 están asociados con una colinealidad débil, mientras que índices de condición entre 30 y 100 señalan una colinealidad de moderada a fuerte.

Ejercicio 1

Obtener el índice de condición de un modelo que explique el log_valor_de_venta a partir del log_area_construida, número de habitaciones y número de baños.

\(~\)

Figura 1. Cuadro de diálogo para pedir diagnóstico de multicolinealidad en el modelo de regresión

\(~\)

Figura 2. Índice de condición obtenido en el modelo de regresión

\(~\)

Podemos observar que apenas con 3 variables explicativas obtenemos valores del índice de condición que indicarían una presencia de multicolinealidad de moderada a fuerte. Esto resulta bastante habitual en el ámbito de la valoración inmobiliaria, donde necesariamente vamos a tener que conjugar variables que están altamente correlacionadas entre sí (como son la superficie, el número de dormitorios y el número de baños).

Por eso resulta interesante validar nuestros modelos reservando un porcentaje de apartamentos para comprobar la calidad del modelo de regresión:

  • Podemos emplear un 70% de la muestra para obtener el modelo de regresión múltiple.

  • Reservamos el otro 30% de la muestra para estimar el valor de venta a partir del anterior modelo de regresión, y medir los errores. De esta forma podemos calcular el \(R^2\) y comprobar si es similar al obtenido con el primer grupo del 70% de la muestra.

3 Análisis factorial

  • El análisis factorial es una de las técnicas que conforman el grupo de técnicas de reducción de la dimensión. Aunque en valoración también se aplica para obtener modelos libres de multicolinealidad, es una técnica que fue ideada originariamente para intentar minimizar el número de dimensiones de los modelos estadísticos.

  • El análisis factorial tiene por objetivo encontrar asociaciones entre variables observables, que nos informen de dimensiones que no podemos observar directamente. Por ejemplo, las variables área construida, habitaciones y baño nos estarían informando sobre la “dimensión” o “tamaño” del apartamento, así como de su “disposición” (número de dormitorios o baños según el área construida, con lo que podemos inferir si los dormitorios son grandes o no). Esto es, las 3 variables forman parte de una variable superior y que no podemos observar o medir directamente: la dimensión del apartamento.

  • Las variables inobservables se conocen como variables latentes.

3.1 Los fundamentos del análisis factorial

Explicaremos los fundamentos de esta técnica a partir de un ejemplo no relacionado con la valoración inmobiliaria:

Supongamos que, para un grupo de alumnos, se ha recopilado información de las calificaciones obtenidas en 6 asignaturas: Matemáticas (M), Física (F), Química (Q), Historia (H), Lengua (L) e Inglés (E).

Supongamos también que la calificación en cada una de estas asignaturas se puede obtener a partir de dos elementos independientes: la inteligencia general (I) y la aptitud específica del alumno a dicha asignatura.

En ese caso, podríamos llegar a obtener el siguiente sistema de ecuaciones:

\(M = 0.90I + A_M\)

\(F = 0.85I + A_F\)

\(Q = 0.75I + A_Q\)

\(H = 0.60I + A_H\)

\(L = 0.70I + A_L\)

\(E = 0.65I + A_E\)

La primera ecuación nos diría que la calificación en Matemáticas se obtiene como 0,9 veces el factor inteligencia, más la aptitud específica de cada alumno hacia esa materia; la calificación en Física se obtiene multiplicando el factor de inteligencia por 0,85, más la aptitud específica del alumno hacia la Física; etc.

Por lo tanto, y a la vista de estas 6 ecuaciones, la asignatura que mayor correlación tiene con la inteligencia de los alumnos es la de Matemáticas, mientras que la menos vinculada a la inteligencia es la Historia.

Dado que la correlación entre la cali- ficación de Matemáticas y la inteligencia general es del 90%, ¿qué \(R^2\) obtendríamos si explicáramos mediante regresión simple la nota en Matemáticas a partir de la inteligencia? Como sabemos que el estadístico \(R^2\) es el cuadrado del coeficiente de correlación, la respuesta sería un \(R^2\) del 81%.

Al cuadrado de la carga factorial, que acabamos de ver coincide con el \(R^2\) de la regresión entre las dos variables, se le conoce como comunalidad. Informa sobre qué porcentaje de variabilidad de la correspondiente variable viene explicada por el factor latente; mientras que al valor \(1-R^2\) se le denomina varianza única o específica:

Carga factorial (correlación) Comunalidad Varianza específica
Matemáticas (M) 0,90 0,81 0,19
Física (F) 0,85 0,72 0,28
Química (Q) 0,75 0,56 0,44
Historia (H) 0,60 0,36 0,64
Lengua (L) 0,70 0,49 0,51
Inglés (E ) 0,65 0,42 0,58
Total 3,37 2,63

De esta forma, podemos afirmar que el factor inteligencia explicaría en promedio el 56% de la variabilidad de las calificaciones. El 44% restante de variabilidad no podría ser explicado por la inteligencia general de los alumnos, sino que dependería exclusivamente de su aptitud hacia cada una de las materias.

Supongamos ahora que decidimos añadir un nuevo factor, además del de inteligencia general. De momento no sabemos la interpretación de este factor, pero imaginemos que las ecuaciones obtenidas con la presencia de dos factores latentes son las siguientes:

\(M = 0.85I + 0.3J + A_M\)

\(F = 0.8I + 0.3J + A_F\)

\(Q = 0.7I + 0.35J + A_Q\)

\(H = 0.15I + 0.85J + A_H\)

\(L = 0.35I + 0.8J + A_L\)

\(E = 0.4I + 0.7J + A_E\)

Ejercicio 2

En general, han bajado los coeficientes asociados a la variable I, pero ¿han bajado por igual en todas las variables, o más en unas que en otras?

\(~\)

Con esta nueva configuración de cargas factoriales y número de factores la- tentes, las comunalides y varianzas específicas deben actualizarse. En la siguiente tabla aparecen los valores (redondeados a dos dígitos decimales):

Carga factorial (correlación) Comunalidad Varianza específica
Factor I J I J I J
Matemáticas (M) 0,85 0,30 0,72 0,09 0,28 0,91
Física (F) 0,80 0,30 0,64 0,09 0,36 0,91
Química (Q) 0,70 0,35 0,49 0,12 0,51 0,88
Historia (H) 0,15 0,85 0,02 0,72 0,98 0,28
Lengua (L) 0,35 0,80 0,12 0,64 0,88 0,36
Inglés (E ) 0,40 0,70 0,16 0,49 0,84 0,51
Total 2,16 2,16 3,84 3,85

A simple vista también podemos comprobar que algunas asignaturas han obtenido mayores cargas factoriales en el primer factor latente (I) que en el segundo (J). Es el caso de Matemáticas, Física y Química. Sin embargo, las asignaturas de Historia, Lengua e Inglés tienen una mayor carga factorial, y por tanto correlación, con el segundo factor latente (J).

\(I = Inteligencia \ Cuantitativa\)

\(J = Inteligencia \ Verbal\)

¿Ha mejorado el segundo modelo la explicación de la variabilidad en las calificaciones respecto del primero? Para ello sólo tenemos que sumar la comunalidad conjunta de ambos factores: 2,1575 + 2,155 = 4,3125. A partir de este valor, podemos calcular la comunalidad conjunta del modelo:

\(Comunalidad \ promedio = 4,3125/6 = 0,7188\)

Por lo tanto, hemos pasado de un modelo unifactorial que explicaba el 56% de la variabilidad en las calificaciones, a otro bifactorial que explica el 71,88%.

¿Cómo se calculan las cargas factoriales que ligan las variables con los factores?

3.2 Un ejemplo de análisis factorial en valoración de inmuebles

A continuación vamos a desarollar un pequeño ejemplo de análisis factorial sobre la base de datos de apartamentos de Bogotá, lo que posibilitará plantear un ejercicio posterior.

En este ejemplo llevaremos a cabo un análisis factorial sobre las variables log_area_construida, habitaciones, banyos, parqueaderos, y las variables binarias de conjunto_cerrado, estudio_biblioteca, parqueadero_cubierto, y vigilancia_binaria. Observemos que el análisis factorial, al igual que ocurre con los modelos de regresión, sólo admite variables numéricas.

Dejamos fuera la variable del valor de venta, puesto que lo que nos interesa es conocer cómo se estructuran las variables que explican precisamente el valor de venta.

Más adelante incluiremos el valor de venta, para ver qué variables se sitúan en el mismo factor que informa del valor de los apartamentos.

Para llevar a cabo el análisis factorial sobre las variables arriba mencionadas, deberemos seleccionar el menú “Analizar -> Reducción de dimensiones -> Factor”. Tras incluir las variables en el correspondiente cuadreo de diálogo, seleccionaremos diferentes opciones:

  • Descriptivos: deseleccionar la opción “Estadísticos -> Solución inicial”, y seleccionar “Matriz de correlaciones -> KMO y prueba de esfericidad de Bartlett”

  • Extracción: deseleccionar “Mostrar -> Solución factorial sin rotar”

  • Rotación: seleccionar “Método -> Varimax”

  • Opciones: seleccionar “Formato de presentación de los coeficientes -> Ordenador por tamaño”

A continuación se presentan los resultadoos:

Figura 3. Análisis factorial: prueba de KMO

\(~\)

Figura 4. Análisis factorial: comunalidades

\(~\)

Figura 5. Análisis factorial: varianza total explicada

\(~\)

Ejercicio 3

Añadir el logaritmo del valor de venta a las anteriores variables y correr de nuevo el análisis factorial, para comprobar en qué factor se sitúa esta variable.

Figura 6. Análisis factorial: prueba de KMO

\(~\)

Figura 7. Análisis factorial: comunalidades

\(~\)

Figura 8. Análisis factorial: varianza total explicada

\(~\)

Para considerar las variables categóricas tendremos que añadir el nivel que se ha tomado hasta ahora como base.

Recordar que cuando una variable categórica presenta \(n\) niveles, se transforma en \(n-1\) varibles binarias para poder incluirla en los modelos de regresión. Por ejemplo, para la variable \(antiguedad\) creamos una variable binaria por nivel, expero para el nivel “Entre 0 y 5” que dejamos como nivel base. Pues bien, ahora tendremos que crear una variable binaria también para ese nivel, de forma que las \(n\) variables binarias representantes de la antigüedad puedan ser incluidas en el análisis factorial.

Y esto tendremos que repetirlo con el estrato.

Ejercicio 4

Repetir el análisis factorial incluyendo el área del balcón/terraza, y todas las variables binarias correspondietes a la antigüedad y el estrato. Tambien aquí incluimos el log_valor_de_venta, para poder comprobar qué variables están más relacionadas con el valor de los apartamentos en Bogotá.

Figura 9. Análisis factorial: comunalidades

\(~\)

Figura 10. Análisis factorial: varianza total explicada

\(~\)