Autor

Francisco Guijarro

Catedrático de Universidad (profesor funcionario a tiempo completo)

Universidad Politécnica de Valencia

1 Introducción

  • El modelo de regresión fue ideado por el polifacético investigador Sir Francis Galton, quien publicó su trabajo Natural Inheritance en el año 1889.

  • En su manual analizó la relación existente entre la altura física de padres e hijos, evidenciando que existía una relación positiva entre ambos: los padres altos solían tener hijos altos, mientras que los padres de menor estatura también solían tener hijos con una altura por debajo de la media.

  • Sin embargo, también pudo observar que en ambos casos existía lo que denominó una regresión a la media, de forma que los hijos de padres con estatura superior a la media heredaban una altura también superior a la media, pero más próxima al promedio general que la de sus padres. De igual forma, los hijos de padres de estatura inferior a la media también eran bajos, pero menos que sus padres.

  • Las siguientes figuras resumen el proceso de obtención de una recta de regresión.

Figura 1. Imagen con dos posibles rectas de regresión y pregunta sobre cuál puede ser más apropiada

\(~\)

Figura 2. Función lineal que define la regresión simple entre Y (variable dependiente) y X (variable independiente)

\(~\)

\(y_i = a+bx_i+e_i\)

\(y_i\): variable dependiente (por lo general, el precio o valor de venta)

\(x_i\): variabe independiente (área, estrato, o cualquier otra variable numérica). En este caso sólo consideramos una variable independiente, que en el capítulo posterior se generalizará al caso de varias variables independientes, lo que se traduce en tener que agregar nuevos ejes a la figura anterior.

\(e_i\): residuo o error, captura la diferencia entre el valor real de \(y_i\) y el valor estimado a partir de \(x_i\)

\(a\): constante o término independiente (también denominado intercepto); valor de \(y_i\) cuando \(x_i\) es cero

\(b\): incremento experimentado por \(y_i\) al incrementar \(x_i\) en una unidad

  • a y b son los parámetros del modelo de regresión; esto es, los valores que debemos determinar a partir del análisis de regresión.

La anterior ecuación recibe el nombre de recta de regresión, que permite estimar para cada posible valor observado \(x_i\) el correspondiente valor estimado de \(y_i\).

2 Estimación del modelo de regresión lineal simple

Figura 3. Ajuste de una recta de regresión simple a una nube de puntos

\(~\)

Figura 4. Ecuaciones utilizadas para obtener el incercepto y la pendiente del modelo de regresión simple

\(~\)

La recta de regresión pasa por el punto central de los datos.

Esto hace que algunos apartamentos puedan afectar de forma significativa al modelo de regresión obtenido:

Figura 5. Ejemplo de cómo unos pocos apartamentos pueden afectar de forma significativa al modelo de regresión, ya que la recta de regresión pasa por el punto central de los datos

\(~\)

La recta de regresión puede ser sensiblemente diferente si se eliminan datos que se alejan de la media:

Figura 6. Cambio en la recta de regresión al eliminar algunos apartamentos

\(~\)

Debe ser cauto en la eliminación de datos: lo que no explica la superficie lo puede explicar otra variable (análisis de regresión múltiple).

\(~\)

3 Ejemplo ilustrativo de modelo de regresión simple entre valor_de_venta y area_construida

En este apartado realizaremos, a modo de ejemplo, tanto los cálculos para llevar a cabo una regresión entre valor_de_venta y area_construida como la comparación con los resultados obtenidos mediante SPSS.

La siguiente figura recoge los valores necesarios para calcular tanto el intercepto como la pendiente de la regresión (Las medias, varianzas y covarianzas necesarias para calcular la constante y pendiente de la regresión se pueden obtener en SPSS a través del menú Analizar -> Correlacionar -> Bivariadas):

Figura 7. Extracto de los datos empleados para llevar a cabo la regresión, junto con los parámetros calculados

\(~\)

El valor de la pendiente se obtiene como:

\(b = \frac{\sigma_{XY}}{\sigma_X^2} = \frac{5,626E+10}{6.409,914} = 8.776.671,236\)

Mientras que el valor del intercepto se corresponde con el obtenido mediante:

\(a = \bar Y - b \bar X = 904.040.918,0-8.776.671,236 \times 134,89 = -279.847.894\)

Obteniendo los mismos resultados que si llevamos a cabo la regresión mediante SPSS:

Figura 8. Resultado de la regresión con SPSS

Figura 9. Diagrama de dispersión entre valor_de_venta y area_construida

\(~\)

Esto es, el metro cuadrado de los apartamentos usados en la ciudad de Bogotá se estima en 8.776.671 pesos/\(m^2\).

Como se ha comentado con anterioridad, el valor de la constante (intercepto) no es un valor base, sino el valor de venta que tendría un hipotética apartamento de 0 \(m^2\). Si quisiéramos valorar un inmueble de 30 \(m^2\), que en nuestra base de datos sería el de menor tamaño, su valor de venta estimado seguiría la siguiente expresión:

\(valor\_de\_venta = -279.847.894 + 8.776.671,236 \times 30 = -16.547.756,92\)

Mientras que para apartamentos de 32 \(m^2\) el valor de venta volvería a valores positivos.

Este tipo de situaciones no resultan extraordinarias en los modelos de regresión, pudiendo presentarse situaciones en las que los valores estimados para inmuebles extremos no estén justificados desde un punto de vista económico.

Ejercicio 1

Obtener un modelo de regresión entre valor_de_venta y estrato. Comentar los resultados obtenidos.

Ejercicio 2

Obtener un modelo de regresión entre log_valor_de_venta y log_area_construida. Estimar el valor de venta para un inmueble de 30 metros cuadrados.

Figura 10. Resultado de la regresión entre las transformadas logarítmicas de valor_de_venta y area_construida

Figura 11. Diagrama de dispersión entre log_valor_de_venta y log_area_construida

\(~\)

Ejercicio 3

Estimar el modelo de regresión entre valor_de_venta y area_privada primero para el estrato 6, y luego para el 4, comentando los resultados obtenidos. ¿Crees que se necesitará un modelo de valoración diferente para cada estrato?

3.1 Relaciones lineales

Debemos tener especial cuidado a la hora de interpretar los resultados de un modelo de regresión lineal. El modelo de regresión lineal sólo captura relaciones de tipo lineal. Por ejemplo, ¿qué pendiente tiene esta recta de regresión?

Ejercicio 4

¿Cuál sería la función obtenida al regresar \(y\) contra \(x\)? Puede resolverse tanto con Excel como con SPSS.

Figura 12. Ejemplo de relación no lineal entre dos variables

\(~\)

4 Significación estadística del modelo de regresión y de sus coeficientes

Los resultados de la regresión en SPSS nos van a informar sobre:

  • La significación estadística del modelo de regresión tomado en su conjunto. Esto equivale a decir que en los resultados podremos deducir si el modelo en su conjunto es significativo desde un punto de vista estadístico. Esto es, si realmente la variable dependiente (valor de venta) puede explicarse a través de la variable independiente, o si, por el contrario, ambas variables están incorrelacionadas (son independientes una de la otra). Este análisis cobrará aún más sentido en el análisis de regresión múltiple, donde explicaremos el valor de venta a partir de más de una variable independiente. Para conocer la significación estadística de la regresión en su conjunto examinaremos la tabla ANOVA. Afirmaremos que el modelo en su conjunto es estadísticamente significativo si el valor de la columna “Sig.” en la tabla ANOVA es menor del 5% (0,05).

Atención: Un modelo puede ser significativo en su conjunto, pero obtener unos resultados muy pobres para ser aplicados en la práctica. Expresado de otra forma, la significativad de un modelo de regresión no asegura su validez profesional. Veremos qué otros resquisitos se le piden.

  • La significación estadística de los coeficiente de regresión. Para cada coeficiente estimado (constante más pendiente) podremos conocer si son o no estadísticamente significativos. Que un coeficiente sea estadísticamente significativo quiere decir que el valor estimado es distinto de cero; esto es, que la variable correspondiente indice en el valor de venta del inmueble. Si un coeficiente no es estadísticamente significativo, entonces podemos concluir que el valor obtenido no es distinto de cero. Es decir, que aunque hayamos obtenido un valor diferente a cero, ello no implica que la variable independiente explique el precio o valor de venta. Si lo quitáramos de la regresión, el modelo no empeoraría. Afirmaremos que un coeficiente es estadísticamente significativo si el valor de la columna “Sig.” en la tabla de coeficientes es menor del 5% (0,05).

Ejercicio 5

En el anterior ejercicio, ¿podemos afirmar que la constante o la pendiente son estadísticamente significativas (distintas de cero)?.

Ejercicio 6

Obtener un modelo de regresión entre valor_de_venta y area_construida. Interpretar la significación del modelo a través de la tabla ANOVA. Interpretar la significación estadística de la constante y la pendiente a través de la tabla de coeficientes.

Figura 13. Significación estadística del modelo y los coeficientes de la regresión entre valor de venta y área constuida

\(~\)

4.1 ¿Qué significa que un coeficiente no sea estadísticamente significativo?

Como norma general consideraremos que un coeficiente es estadísticamente significativo si su valor “Sig.” (o p-valor en otras aplicaciones) está por debajo del 5%. Esto equivale a decir que el valor es distinto de 0 con un nivel de confianza del 95%.

En algunos campos se exigen incluso un mayor nivel del confianza, de hasta el 99%, lo que implica exigir un valor “Sig.” por debajo del 1%.

La significación de un coeficiente está asociada al grado de precisión con que se ha calculado. Veámoslo a través de un ejemplo:

Figura 14. Ejemplo de significación estadística en el cálculo de la pendiente

\(~\)

En ambos casos se obtendría una pendiente b = 2, pero ¿cuál tendría más precisión, cuál parece ser más representativa de los datos?

En la siguiente figura aparecen los coeficientes junto con el valor de la columna “Sig.” para ambos casos:

Figura 15. Ejemplo de significación estadística en el cálculo de la pendiente. Valor de la columna “Sig.”

\(~\)

Comprobamos a través de este ejemplo como en el primer caso, donde los puntos están más alejados de la recta, la pendiente no consigue ser estadísticamente significativa: su valor “Sig.” está por encima del 5%.

Sin embargo, cuando en el segundo caso los puntos se sitúan más cerca de la recta, la pendiente obtenida, que toma igualmente el valor 2, sí es estadísticamente significativa; es decir, que en un caso podríamos decir que no estamos seguros de que sea distinta de cero, mientras que en el otro podemos afirmar con un nivel de confianza del 95% (incluso mayor) que la pendiente de la recta es distinta de 0, y que estimamos que su valor es 2.

Ejercicio 7

Obtener un modelo de regresión entre valor_de_venta y habitaciones. ¿Es estadísticamente significativo el modelo en su conjunto? ¿Lo son los coeficientes asociados a la constante y la pendiente?

Figura 16. Significación estadística del modelo y los coeficientes de la regresión entre valor de venta y número de dormitorios

\(~\)

5 Qué hacer si la constante no es estadísticamente distinta de cero

Acabamos de ver un ejemplo en el que la constante no es estadísticamente distinta de cero; esto es, que el valor de la columna “Sig.” está por encima del 5%. ¿Qué hacer en estas situaciones?

Si el coeficiente no significativo fuera en el de la variable independiente (área construida, habitaciones, etc.), entonces podríamos eliminar la variable sin que ello perjudicara al modelo. Simplemente estaríamos eliminando una variable que no aporta nada en la explicación del precio. De esta forma, el valorador no tendría que recoger información sobre dicha variable para construir el modelo de valoración, evitándose una parte de trabajo.

¿Podemos hacer lo mismo con la constante? Hay un motivo que desaconseja eliminar la constante. Aunque la eliminemos, ello no facilita el trabajo del valorador. Esto es, incluir la constante no significa que tenga que recopilar información para algo que luego no sirve. En el caso hipotético de que el número de dormitorios no resultara significativo, su eliminación sí facilitaría el trabajo del valorador: ya no tendría que recoger ese dato para todos los apartamentos de la muestra. Pero en el caso de la constante no es así. No tiene que recoger ningún dato para incluirla la constante en el modelo. Además, eliminar la constante supone hacer que la recta de regresión pase por el origen de coordenadas. Esto sí añade una restricción al modelo. Le estamos obligando a que pase por el punto (0,0).

Existe otro motivo más importante que el anterior para mantener la constante en el modelo. Si la eliminamos, la calidad de la regresión medida mediante el \(R^2\) ya no será interpretable. Es decir, la interpretación del \(R^2\) cambia cuando se elimina la constante del modelo de regresión, por lo que se aconseja mantenerla aún en el caso de que no sea estadísticamente distinta de cero.

6 El estadístico \(R^2\) (R cuadrado): cómo medir la bondad de los modelos de regresión

El estadístico \(R^2\) permite estudiar la bondad en el ajuste de un modelo de regresión y conocer cuál es su capacidad explicativa.

De esta forma, podremos saber cuán bien o mal explica el precio una función de valoración, y si tiene sentido aplicarla en la práctica profesional.

Además, nos permitirá comparar:

  • diferentes modelos de valoración, donde se empleen diferentes variables explicativas.

  • modelos de valoración distintos obtenidos sobre ciudades diferentes.

Para entender cómo se calcula es necesario conocer cómo se configura el denominado modelo naive, o modelo ingenuo.

Supongamos el siguiente caso simplificado donde hemos tomado el valor de venta y la superficie de 10 apartamentos:

Valor de venta Área construida
236223000 30
203136000 30
200000000 30
426156000 31
285000000 32
198000000 32
124500000 32
275000000 33
223000000 33
198000000 34

El modelo ingenuo (o modelo naive) intenta explicar el valor de venta de los apartamentos acudiendo únicamente a la siguiente información: el propio valor de venta; por lo tanto, ignorando cualquier otra variable como la superficie.

Esto haría que si tuviera que predecir el valor de cualquier otro apartamento, la estimara a partir de la media de los 10 apartamentos que tiene en la muestra.

La siguiente tabla recoge el valor estimado por el modelo ingenuo para cualquiera de estos inmuebles:

Modelo ingenuo
Valor de venta Área construida Valor estimado Residuo
236.223.000 30 236.901.500 -678.500
203.136.000 30 236.901.500 -33.765.500
200.000.000 30 236.901.500 -36.901.500
426.156.000 31 236.901.500 189.254.500
285.000.000 32 236.901.500 48.098.500
198.000.000 32 236.901.500 -38.901.500
124.500.000 32 236.901.500 -112.401.500
275.000.000 33 236.901.500 38.098.500
223.000.000 33 236.901.500 -13.901.500
198.000.000 34 236.901.500 -38.901.500

El residuo se ha obtenido como diferencia entre el valor estimado y el valor observado (valor de venta):

\(Residuo = Valor\ estimado - Valor\ de\ venta\)

Sin embargo, el modelo de regresión explicaría el valor de venta a partir del área construida:

Modelo ingenuo Modelo regresión
Valor de venta Área construida Valor estimado Residuo Valor estimado Residuo
236.223.000 30 236.901.500 -678.500 246.309.685,1 -10.086.685,1
203.136.000 30 236.901.500 -33.765.500 246.309.685,1 -43.173.685,1
200.000.000 30 236.901.500 -36.901.500 246.309.685,1 -46.309.685,1
426.156.000 31 236.901.500 189.254.500 240.775.458,6 185.380.541,4
285.000.000 32 236.901.500 48.098.500 235.241.232,0 49.758.768,0
198.000.000 32 236.901.500 -38.901.500 235.241.232,0 -37.241.232,0
124.500.000 32 236.901.500 -112.401.500 235.241.232,0 -110.741.232,0
275.000.000 33 236.901.500 38.098.500 229.707.005,5 45.292.994,5
223.000.000 33 236.901.500 -13.901.500 229.707.005,5 -6.707.005,5
198.000.000 34 236.901.500 -38.901.500 224.172.779,0 -26.172.779,0

Cuanto más pequeños sean los residuos del modelo de regresión en comparación con los residuos del modelo ingenuo, mejor será el modelo de regresión.

Con esta información se calcula el valor del \(R^2\):

Suma de cuadrados de residuos del modelo ingenuo

\(SC_{ingenuo} = (-678.500)^2 + (-33.765.500)^2 + \ldots + (-38.901.500)^2 = 57.938.519.538.500.000\)

Suma de cuadrados del modelo de regresión \(SC_{regresión} = (-10.086.685,1)^2 + (-43.173.685,1)^2 + \ldots + (-26.172.779,0)^2 = 57.384.158.835.171.300\)

Y finalmente el valor del \(R^2\):

\(R^2 = 1- SC_{regresión}/SC_{ingenuo} = 1 - \frac{57.384.158.835.171.300}{57.938.519.538.500.000} = 1,0\%\)

El valor de \(R^2\) fluctúa entre 0 y 1 (¡salvo que el modelo de regresión fuera peor que el ingenuo!). Si el valor se sitúa cerca de 1 (100%) podemos concluir que el modelo de regresión es muy bueno, mientras que valores próximos a 0 (0%) indican un desempeño muy pobre. Precisamente éste sería el caso del modelo aplicado sobre esos 10 apartamentos.

Con un ejemplo real, el valor del \(R^2\) es mucho mayor. En el caso de toda la base de datos con la que estamos trabajando, el \(R^2\) es del 69,5%.

Además, conforme añadamos más variables con la regresión múltiple, el \(R^2\) se irá acercando a valores ideales entorno al 90% o superiores.

Figura 17. Significación estadística del modelo y los coeficientes de la regresión entre valor de venta y área constuida

\(~\)

Ejercicio 8

Realizar un modelo de regresión entre el valor_de_venta y el estrato. ¿Qué valor \(R^2\) se obtiene? ¿Es significativo el modelo en general y los coeficientes?

Ejercicio 9

Guarda los residuos de la anterior regresión. ¿Cuál es su media?

Ejercicio 10

Calcular la matriz de correlaciones entre valor_de_venta, area_construida y estrato. ¿Guarda alguna relación la correlación con los valores de \(R^2\) obtenidos en las regresiones?

Ejercicio 11

Repetir la regresión guardando los residuos pero también los valores estimados. Calcular la matriz de correlaciones entre valor_de_venta, area_construida, residuos y valores estimados. Comenta los resultados. ¿Por qué algunas correlaciones son 0 y otras son +1?

Ejercicio 12

Calcular la regresión entre valor_de_venta y area_construida sólo para Estrato 3, y luego repetir el mismo ejercicio pero para el Estrato 4. Comparar los resultados: coeficientes, significación estadística del modelo y de los coeficientes, \(R^2\).

Ejercicio 13

¿Existe algo parecido al \(R^2\) en el método de homogeneización?

\(~\)

7 Cómo influyen las observaciones atípicas o outliers en el análisis de regresión

Los outliers u observaciones atípicas son aquellas que no representan ni son representadas por la tendencia central de los datos y que, por lo tanto, se separan mucho del comportamiento medio del resto de observaciones o apartamentos.

Se consideran observaciones atípicas las que reúnen una o más de las siguientes características:

  • Tienen un valor de la variable independiente muy alejado del promedio.

  • Tienen un valor de la variable dependiente muy alejado del promedio.

  • La relación entre la variable dependiente e independiente está muy alejada de la observada en el resto de la muestra.

Las siguientes figuras ejemplifican cada una de estas situaciones:

Figura 18. Outliers: valor de la variable independiente muy alejado del promedio

\(~\)

Figura 19. Outliers: valor de la variable dependiente muy alejado del promedio

\(~\)

Figura 20. Outliers: relación entre la variable dependiente e independiente está muy alejada de la observada en el resto de la muestra

\(~\)

La cuestión que debemos afrontar es qué hacer cuando en nuestra muestra encontramos observaciones como las señaladas en las anteriores figuras.

Su presencia va a distorsionar los resultados en muchos casos, afectará tanto a la pendiente como al intercepto de la recta de regresión. También pueden deteriorar el valor del estadístico \(R^2\), con lo que un buen modelo teórico puede venirse al traste al observar un \(R^2\) bajo como consecuencia de la presencia de observaciones atípicas.

Soluciones:

  • Incluir más variables explicativas, que puedan explicar esa “anormalidad” de los outliers.

  • Eliminar las observaciones atípicas:

    • Vimos en el capítulo anterior que muchas de estas observaciones se podrán eliminar antes de realizar el modelo de regresión, mediante la distancia de Mahalanobis.

    • Eliminar atípicos mediate los residuos estandarizados o tipificados, cuya expresión aparece a continuación:

    \(e_i^{estand.} = (e_i - \bar e)/\sigma_e\)

    \(e_i^{estand.} = e_i/\sigma_e\)

Ejercicio 14

Calcular los residuos estandarizados de la regresión entre el valor de venta y el área construida, y representarlos en un histograma de frecuencias. ¿Cuál es la media y desviación típica de los residuos?

Figura 21. Histograma de los residuos estandarizados en la regresión entre valor de venta y área construida

\(~\)

Comentarios sobre los resultados:

Podemos ver que la distribución de los residuos no es normal. La cola de la derecha es mucho más alargada que la de la izquierda, lo que es un síntoma de que el modelo tiene un problema de heterocedasticidad, como veremos en el siguiente apartado.

Tendrán la consideración de apartamentos atípicos aquellos que tengan un residuo estandarizado fuera del intervalo [-3, +3]. Esto es, habrá que descartar los apartamentos con un residuo estandarizado en valor absoluto mayor que 3.

Ejercicio 15

Deseleccionar los inmuebles considerados atípicos y repetir la regresión. ¿Mejora el \(R^2\)? ¿Cuántos datos se eliminaron al descartar los valores atípicos? Vuelve a representar el histograma de los residuos estandarizados. ¿Ha desaparecido el problema de la no normalidad?

\(~\)

8 El problema de la heterocedasticidad

La heterocedasticidad se relaciona con aquellas situaciones en las que la variabilidad de una variable no es constante con respecto a otra, sino que fluctúa según los valores que toma la segunda variable.

Esto hace que los residuos de la regresión no sigan una distribución normal, que es una de las hipótesis a cumplir para poder aplicar los modelos de regresión.

El problema de la heterocedasticidad es muy común en la valoración de inmuebles. Aparece en todos los países y ciudades.

Figura 22. Heterocedasticidad

\(~\)

Figura 23. Heterocedasticidad en los apartamentos de Bogotá

\(~\)

  • La heterocedasticidad puede aliviarse si tomamos logaritmos:

Figura 24. Heterocedasticidad después de tomar logaritmos

\(~\)

Figura 25. Heterocedasticidad tras tomar logaritmos en los apartamentos de Bogotá

\(~\)

Ejercicio 16

Una pregunta para la reflexión. Comparando los dos modelos anteriores, uno sin y otro con logaritmos, ¿cuál crees que tendrá unos residuos que sigan una distribución normal y cuáles tendrán una cola de la derecha alargada?

Ejercicio 17

Pongamos en práctica la anterior cuestión. Tomar una regresión entre el logaritmo del valor de venta y el logaritmo del área construida, guardar los residuos estandarizados y representarlos en un histograma. Comparar con el histograma que se obtenía de los residuos entre valor de venta y área construida (sin transformación logarítmica).

Figura 26. Histograma de los residuos estandarizados de la regresión entre el logaritmo del valor de venta y el logaritmo del área construida

\(~\)

Figura 27. Coeficientes de la regresión entre el logaritmo del valor de venta y el logaritmo del área construida

\(~\)

Al aplicar logaritmos sobre las variables originales tenemos que pensar que nuestro modelo ha cambiado sus unidades, con lo que tomaremos algunas precauciones a la hora de hacer la predicción.

Si, por ejemplo, queremos valorar una vivienda de 120 metros cuadrados:

\(log\_valor\_de\_venta = 6,345 + 1,204 \times log\_area\_construida\)

\(log\_valor\_de\_venta = 6,345 + 1,204 \times log(120) = 8,848\)

\(valor\_de\_venta = 10^{8,848} = 705.235.589\)

Ejercicio 18

En los siguientes ejercicios vamos a trabajar únicamente con los apartamentos de Estrato 4. Representar gráfico de dispersión del valor de venta (Y) frente a área construida (X). ¿Se observa heterocedasticidad?

Ejercicio 19

Repetir gráfica pero con: a) log_valor_de_venta (Y) , area_construida (X); b) valor_de_venta (Y), log_area_construida (X); c) log_valor_de_venta (Y), log_area_construida (X). ¿En qué gráfica se observa menos heterocedasticidad?

Ejercicio 20

Realizar una regresión entre la mejor opción, guardando los residuos tipificados. Representar los residuos en un histograma. ¿Hay atípicos?

Ejercicio 21

Repetir regresión trabajando sólo los apartamentos con residuo estandarizado en valor absoluto menor o igual que 3 (Abs(ZRE) <= 3). ¿Cómo ha mejorado el \(R^2\)?

\(~\)

9 Limitaciones en la predicción mediante modelos de regresión

  • Los modelos de regresión no siempre son aplicables en la práctica valorativa.

  • En primer lugar, debemos tener presente que para aplicarlos nuestra muestra debe tener un tamaño mínimo. Cuando se trabaja con modelos de regresión simple, con una única variable explicativa, se aconseja tener al menos 100 observaciones.

  • En cualquier caso, no deberíamos aplicar estos modelos si nuestro número de observaciones en la muestra no llega a 20-30.

  • También es importante que la muestra sea heterogénea en las variables consideradas, tanto la dependiente como la independiente.

  • Esto significa que en la muestra tenemos que tener viviendas con un amplio rango de precios y superficies, si la superficie fuera la variable independiente.

  • Imagine que ha seleccionado su muestra y que todas las viviendas tienen una superficie dentro del rango 90-100 metros cuadrados, y que los precios son muy diferentes entre sí: pongamos dentro del rango 300-800 millones de pesos. Difícilmente la superficie va a poder explicar dichas variaciones en los precios.

  • Un error muy habitual, y que debemos intentar evitar a toda costa, es intentar estimar el precio de una vivienda cuando el valor de la variable independiente está fuera del rango considerado en la muestra.

  • Imagine que la superficie de las viviendas de su muestra está entre un mínimo de 68 metros cuadrados, y un máximo de 150 metros cuadrados. En ese caso, no intente valorar una vivienda que tenga menos de 60 metros cuadrados, o una por encima de los 150.

  • Por último, se suelen incluir más hipótesis para considerar la aplicación del análisis de regresión, como que los datos se ajusten a una distribución normal, y que los residuos obtenidos mediante el análisis también cumplan con la hipótesis de normalidad.