La regresión bivariable

La regresión bivariable es el análisis de regresión más sencillo posible, en la cual la variable dependiente o regresada se relaciona con una sola variable explicativa o regresora. Por ejemplo, podemos analizar cómo se relaciona el consumo con los salarios, la inversión con la mejora de resultados de una empresa, o los rendimientos derivados del gasto en publicidad.

Esta relación entre variables puede apreciarse con un diagrama de dispersión, que puede darnos algunas pistas del comportamiento de los factores a estudiar.

#Creamos una muestra aleatoria de variables x e y
x <- c(10, 10, 10, 10, 12, 12, 12, 12, 12, 12, 14, 14, 14, 14, 14, 14, 14, 14, 14, 14, 14, 14, 16, 16, 16, 16, 18, 18, 18, 20)
y <- c(10, 14, 12, 10, 12, 10, 14, 14, 10, 12, 12, 10, 16, 16, 14, 18, 12, 16, 16, 14, 18, 14, 14, 18, 16, 18, 16, 18, 20, 20)

df1 <- data.frame(x, y)
plot(x, y,
     main = "Figura 1. Diagrama de dispersión", 
     xlab = "x", ylab = "y")

Pero en un análisis de regresión no nos interesa conocer cómo se relacionan las variables para cada individuo de nuestra muestra, sino inferir a partir de esta relación cómo se espera que se relacione cualquier individuo. De ahí que en estadística se utilice el término “esperanza” o “valor esperado” en continuas ocasiones.

Sin ir más lejos, en el análisis de regresión lo que hacemos es estimar en base al valor promedio de la variable dependiente, con base a los valores de las variables explicativas. Formalmente:

\[E(Y|X)\] que se lee como el valor esperado de Y, dado el valor de X, siendo el valor promedio de y, E(Y) la media de la suma de todos los valores de la variable regresada o independiente. De forma gráfica, podríamos representar la relación de la figura 1, incluyendo la línea de tendencia esperada a partir de los valores medios de Y para cada valor de X.

#Creamos los valores medios de y respecto a x, y los incorporamos a nuestra base de datos
medias <- tapply(y, x, mean)
m <- data.frame(x=names(medias),Media=medias)

df1 <- merge(df1,m,by="x")
rm(m, medias)
z = df1$Media
plot(df1$x, df1$y,
     main = "Figura 2. Diagrama de dispersión con media y", 
     xlab = "x", ylab = "y")
lines(x,z, pch = 18, col = "blue", type = "b", lty = 2)

Lo que nos muestra esta línea es una respuesta a la pregunta "¿cuál es el valor esperado de la variable y en base al comportamiento de x? Es decir, ¿cómo se comportan mis ingresos en base a mi inversión en publicidad? ¿Cómo afecta el consumo de fruta en la estatura de la población? ¿Cuánto influyen los precios en la llegada de turistas? Para ello, usamos el valor medio (o esperado) condicional.

Pero esta línea o curva no nos sirve para nuestro propósito final, que es poder anticiparnos al comportamiento de cada individuo de forma general, sin tener que estar pendientes en cada caso de sus valores individuales. Para ello se necesita estimar la llamada recta de regresión.

Función de regresión poblacional

Lo desarrollado hasta ahora se podría resumir como que cada media condicional E(Y|X) es en realidad una función de cada valor dado de X (\(X_i\)), de tal forma que:

\[E(Y|X) = f(X_i)\] A esta ecuación se la conoce como regresión poblacional, o función de regresión poblacional. La forma que toma esta función es desconocida en origen, aunque podemos plantear de forma teórica o hipotética algunos supuestos. Por ejemplo, podemos partir de una función lineal dados los resultados observados en el análisis gráfico anterior:

\[E(Y|X) = β_0 + β_1X_i\]

donde \(β_0\) y \(β_1\) son parámetros no conocidos pero fijos que se denominan coeficientes de regresión. Esta ecuación concreta se conoce como función de regresión poblacional lineal (FRP), o simplemente modelo o ecuación de regresión.

Pero asumir la función anterior no sería del todo válido, ya que implica asumir que el ajuste entre el valor esperado de X y la función de X es siempre cierta, y por experiencia sabemos que eso no es así. Por eso se incluye siempre un término de error, que implica que asumimos que el ajuste no es perfecto, y que en la toma de decisiones debemos de ser conscientes del margen de fallar.

De esta forma, entendemos el error como el indicativo de error, o de desviación del valor de y con respecto a la recta de regresión para cada x, de forma que:

\[u_i= Y_i-E(Y|X) \] y por tanto la función de regresión lineal queda como:

\[Y_i =β_0 + β_1X_i+u_i\] Esta función puede ser descompuesta en dos partes: \(E(Y|X_i)\), o componente determinista, y la perturbación aleatoria o estocástica \((u_i)\), que es la dispersión que desconocemos de nuestra relación y que puede tomar tanto valores positivos como negativos. A nivel interpretativo, que la línea de regresión transcurra a través de las medias condicionales de Y implica que los valores de la media condicional de \(u_i\) son cero, de tal forma que:

\[ E(Y_i|X_i ) = E[E(Y | X_i )] + E(u_i | X_i )\\E(Y_i|X_i) = E[E(Y|X_i )],\ siendo\ E(u_i | X_i ) = 0\] La especificación estocástica, por tanto, recoge tanto la dispersión de nuestro modelo respecto a su forma adoptada (lineal en este caso) como el efecto de otras variables que no están siendo recogidas en el modelo de regresión. ¡Pero cuidado! A pesar de esta simplificación, los errores son de vital importancia en el análisis. Su resultado puede indicar diferentes cuestiones que deben ser tenidas en cuenta:

  1. Vaguedad de la teoría, o no existen evidencias del impacto de otras variables (aleatoriedad en el comportamiento).
  2. Falta de disponibilidad de datos o proxies inadecuadas.
  3. Existencia de variables extremos.
  4. Aleatoriedad en el comportamiento incluso aunque tengamos los mejores predictores.
  5. Forma funcional incorrecta (no linealidad)

Es importante entender que la linealidad se deriva de los parámetros, y no de las variables. Tanto X como Y podrán tomar formas cuadráticas, logarítmicas, exponenciales… Eso no importa a nuestro modelo. Lo que importa es que los valores \(\beta_i\) siempre sean lineales.

Es decir: \(β_1 + β_2X^2_i\) es lineal; \(β_1+β^2_iXi\) no es lineal.

Muestra o población

En la mayoría de los casos en los que trabajamos con una base de datos, esta se referirá a una parte de la población, y no al conjunto de todos los casos posibles. Cuando esto ocurre, nuestro modelo se transforma ligeramente, y aunque debemos trabajar con otros conceptos teóricos relativos a la estadística inferencial, el significado de nuestro modelo no cambia. Eso sí, deberemos trabajar con estimadores (añadiendo un sombrerito), quedando nuestro modelo como:

\[\hat Y_i =\hat β_0 + \hat β_1X_i+e_i\\ siendo\ e_i= Y_i-\hat Y\]

Eligiendo nuestra recta de regresión: el modelo de mínimos cuadrados ordinarios

El método de mínimos cuadrados ordinarios, atribuído a Gauss, sigue una lógica muy simple, pero efectiva: la mejor función de regresión posible es aquella que minimiza el valor de sus errores. Esto quiere decir que, si bien será muy difícil que los errores sean cero (pese a ser el valor esperado), nos contentaremos con aquella línea que permita que estos tengan la menor carga posible.

¿Pero cómo hacerlo? Pensemos que los errores de nuestro modelo pueden tomar signo positivo y negativo, y que en una suma simple, un modelo que presente dos errores, de +1.000 y -1.000 (suma igual a cero), podría parecer a simple vista más eficiente que otro que tenga dos errores, de +20 y -5 (suma igual a quince). De ahí que lo que se busque sea minimizar la suma de los cuadrados de los errores, es decir, un modelo de mínimos cuadrados ordinarios, con lo que al elevar al cuadrado los residuos, se otorga más peso a aquellos errores que se encuentran más alejados de la recta de regresión.

De esta forma, la FRM se establece como: \[\sum \hat u^2_i= \sum(Y_i − \hat Y_i)^2\\\sum\hat u^2_i=\sum(Y_i − \hat β_1 - \hat β_2)^2\]

Encontrar los estimadores es un proceso sencillo, partiendo de nuestro modelo orignial de forma que:

\[Y_i=\hatβ_1 + \hatβ_2X_i\\ \sum Y_i=n\hatβ_1 + \sum\hatβ_2X_i\\\sum Y_iX_i=\hatβ_1\sum X_i + \sum\hatβ_2X_i^2\\\hatβ_2 = \frac{\sum x_iy_i}{\sum x_i^2}; \hatβ_1=\bar Y - \hatβ_2 \bar X\] A estos estimadores se les conoce como “estimadores de mínimos cuadradados”. Cada estimador proporciona un solo valor puntual del parámetro poblacional pertinente.

Calculando estos estimadores podemos obtener la mejor curva posible para estimar nuestro valor Y a partir de los datos de X. Gráficamente (en rojo), y tomando los datos anteriores, tendríamos:

#Creamos los valores medios de y respecto a x, y los incorporamos a nuestra base de datos

plot(df1$x, df1$y,
     main = "Figura 2. Diagrama de dispersión con media y", 
     xlab = "x", ylab = "y")
lines(x,z, pch = 18, col = "steelblue", type = "b", lty = 2)
abline(lm(df1$y~df1$x),  col = "red", lty=1)

Anotaciones finales: supuestos del modelo MCO

Para estimar los valores correctamente, debemos saber que hay una serie de supuestos que deben cumplirse:

Supuesto 1: El modelo de regresión es lineal en los parámetros (β1 y β2), aunque puede o no ser lineal en las variables.

Supuesto 2: Los valores de X son fijos, ciertamente relacionados con la variable Y, e independientes de los errores. En caso de que los valores de X fueran estocásticos (independientes de la variable Y), hablaríamos de un modelo neoclásico de regresión lineal (MNRL)

Supuesto 3: El valor medio de la perturbación ui es igual a cero, o dicho de otra forma, dado el valor de Xi, la media o el valor esperado del término de perturbación aleatoria ui es cero.

Supuesto 4: Homoscedasticidad o varianza constante de ui: La varianza de ui es la misma sin importar el valor de X. Esto quiere decir que los valores de X se distribuirán de forma constante para cada valor de y, o con varianzas similares. Podría ocurrir, por ejemplo, que según se incremente o disminuya el valor de y los valores de x se concentren en torno a un valor, dando entonces lugar a heterocedasticidad, que seguramente debamos corregir.

Supuesto 5: No existe autocorrelación entre los errores o perturbaciones, lo que quiere decir que los errores para cada valor x son independientes del resto de valores de error. Estos se obtienen de forma aleatoria. Cuando ocurre autocorrelación entre los errores podemos encontrarnos que nuestra variable Y no solo dependa de la variable X, sino también del propio error. Aun así, cabe advertir que en determinadas muestras, como en los datos transversales, es común encontrar que una variable Yt depende de ut-1.

Supuesto 6: El número de observaciones n debe ser mayor que el número de parámetros por estimar

Supuesto 7: En relación a los valores de X, estos no pueden ser iguales en toda la muestra (es decir, la Varianza de X debe ser un número positivo distinto de cero), y deben evitarse los valores atípicos.