Explicando el modelo MCO

Para realizar un ejercicio de contraste usando el modelo MCO simplemente usaremos el siguiente comando “lm(y~x)” (tras cargar los datos):

#Creamos una muestra aleatoria de variables x e y
x <- c(10, 10, 10, 10, 12, 12, 12, 12, 12, 12, 14, 14, 14, 14, 14, 14, 14, 14, 14, 14, 14, 14, 16, 16, 16, 16, 18, 18, 18, 20)
y <- c(10, 14, 12, 10, 12, 10, 14, 14, 10, 12, 12, 10, 16, 16, 14, 18, 12, 16, 16, 14, 18, 14, 14, 18, 16, 18, 16, 18, 20, 20)
df1 <- data.frame(x, y)

reg1 <- lm(df1$y~df1$x)
summary(reg1)
## 
## Call:
## lm(formula = df1$y ~ df1$x)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -4.5266 -0.9297 -0.2243  1.4734  3.4734 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   1.9375     2.1163   0.916    0.368    
## df1$x         0.8992     0.1495   6.015 1.76e-06 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.049 on 28 degrees of freedom
## Multiple R-squared:  0.5637, Adjusted R-squared:  0.5482 
## F-statistic: 36.18 on 1 and 28 DF,  p-value: 1.757e-06

Y ahora, expliquemos qué son cada uno de los valores obtenidos:

Estimadores

Los estimadores obtenidos, es decir, los valores de \(\hat \beta_0\) y \(\hat \beta_0\) de nuestro modelo, se conocen como estimadores de mínimos cuadrados ordinarios por usar el método de estimación MCO, son los que nos ayudan a encontrar los supuestos valores de Y de sujetos desconocidos.

Para hacerlo es tan sencillo como sustituir \(\hat \beta_0 = 1.93\) y \(\hat \beta_1 = 0.89\) en nuestro modelo, \(\hat Y_i=\hat \beta_0+\hat \beta_1X_i+e_i\) y jugar con los valores de X. Es decir, imaginemos que, dados los resultados anteriores, tenemos dos valores de X = (3, 4), y queremos saber el valor que esperamos tener de Y con esos datos. Lo haríamos así:

\[\hat \beta_0+\hat \beta_1X_i+e_i=\hat Y_i\\ 1.93+0.89\times3=4.6\\ 1.93+0.89\times4=5.5\\\]

Como vemos, los errores no se tienen en cuenta para obtener el valor de Y, dado que son valores aleatorios o estocásticos, y por tanto imposibles de predecir, y además con el ejercicio realizado se espera que estos tengan el menor valor posible (\(E(u_i|X_i)=0\))

El segundo de los estimadores calculados (\(\hat \beta_1\)), toma el valor de la pendiente observada en los gráficos de dispersión de la primera lección. Dicho de otra forma, con el valor de este estimador estamos analizando la relación entre la variable X e Y, de forma que podremos conocer tanto su signo (si tiene una relación positiva, o negativa) como su intensidad (si es elástica, es decir, con un valor superior a 1, o inelástica, o un valor inferior a 1).

plot(x, y,
     main = "Figura 3. Valores de los estimadores", 
     xlab = "x", ylab = "y",
     xlim = c(0, 20), ylim = c(0, 20),
     col = "grey", lty=1)
     abline(lm(y~x),  col = "red", lty=1)
     text(14, 12, expression(β[1]=="0.89"))
     text(1, 5, expression(β[0]=="1.93"))

El primero de los estimadores (\(\hat \beta_0\)), también llamado constructo, variable latente o intercepto, señala el punto de intersección e la línea generada por \(\hat \beta_1\). En nuestro modelo, el punto de inicio de la línea sobre el eje Y es 1.93. ¿A qué hace alusión este valor?

Matemáticamente, la constante sería el valor medio de Y si todos los valores predictores fueran cero. Sin embargo, esto no siempre tiene sentido, ya que podemos encontrarnos valores extremos que no aportan ningún valor a la interpretación de nuestro modelo. Cuando esto ocurre, es debido a que no tiene sentido que los predictores sean cero, y por tanto el valor de \(\beta_0\) carece de sentido (ni siquiera intentes explicarlo)

También podría darnos problemas de interpretación el intercepto si en ninguno de los resultados propuestos en nuestra muestra se contempla el valor cero. Tener un valor de \(X_i\) igual a cero funciona del mismo modo que si todas nuestras \(\beta_i\) tuvieran ese valor. Siendo así, el modelo puede no tener capacidad predictiva para un valor en el que solo actúe el intercepto como explicativo de la dependiente.

A pesar de todo, sin embargo, es necesario contar con un valor latente. Sin él, todas las líneas de regresión pasarían por el origen, algo que puede no tener sentido para la mayoría de los modelos y que además condicionaría que los residuos tengan de media cero. Por tanto, bien sea para evitar sesgos explicativos, o bien por una cuestión estadística, \(\beta_0\) siempre se incluirá en los modelos, tenga o no sentido su resultado.

Bondad de ajuste

La significatividad global del modelo, o la “bondad de ajuste”, nos indica lo bien que se ajustan las líneas de regresión al comportamiento de la relación (Y|X), o dicho de otro modo, la distancia que existe entre los errores muestrales (\(u_i\)) y la línea regresora. El modelo MCO es solo uno de los posibles métodos para estimar esta línea, que depende de que se cumplan los supuestos antes descritos y de la distribución de la relación entre las variables (es decir, podría ocurrir que la relación no fuera lineal)

Como decíamos, el mejor estimador lo encontraremos cuando los errores se minimicen, y esto se calcula utilizando el coeficiente de regresión, o \(r^2\) (R-squared), que tendrá un valor entre 0 y 1, dándose el valor 1 si X = Y, y 0 en caso de que no exista ningún tipo de relación. El cálculo del coeficiente de regresión se consigue de la siguiente forma:

\[r^2 = 1- \frac{\sum \hat u_i^2}{\sum(Y_i-\bar Y)^2}\] O también:

\[r^2 = \frac{\sum (y_i-\hat y_i)^2}{(\sum y_i^2)(\sum \hat y_i^2)}\] Pero además del valor de \(r^2\), el modelo nos presenta un segundo valor, el \(r^2\) ajustado. Este valor se determina introduciendo una penalización al valor de \(r^2\) por cada variable independiente. Esta penalización es relativa tanto al número de ítems en la muestra, como al total de variables independientes utilizadas, y por tanto nos ayudará a elegir entre dos modelos basándonos en el principio de parsimonia (ante dos ejercicios con parecida bondad de ajuste, cuanto más simple sea, mejor)

Planteamiento y prueba de hipótesis

Determinados los valores de nuestras \(\hat \beta_i\), es momento de saber con qué certeza podemos aceptar ese valor como el grado en el que la variable \(X_i\) afecta a nuestra dependiente \(Y_i\). El planteamiento para proceder con esta prueba parte con una hipótesis nula y alternativa.

Pongamos un ejemplo: supongamos que nuestra idea de partida es que la relación entre \(X\) e \(Y\) es igual a la unidad. Esto quiere decir que por cada unidad que aumenta \(X\), el valor de \(Y\) lo hará en la misma proporción. Esta hipótesis, que será mi hipótesis nula (\(H_0\)), o la que utilizo como base, deberá ser contrapuesta con otra, llamada alternativa (\(H_1\)) que para este caso sería que el valor de \(X\) es distinto a la unidad (también puede ser superior, o inferior). Quedaría:

\[H_0: \hat \beta_1 = 1\\ H_1: \hat \beta_1 \neq 1\] Como vemos, la carga de la prueba cae sobre el estimador, y no sobre \(X\). El valor \(X\) es conocido, y lo que queremos saber es si estamos en lo cierto o no respecto al valor estimado, que es desconocido cuando empezamos nuestro ejercicio.

Mediante el procedimiento de prueba de hipótesis se establecen los mecanismos con los que establecer si tenemos evidencias como para conviar en los resultados arrojados por los estimadores. Los métodos más utilizados son el intervalo de confianza y la prueba de significancia, siendo este segundo al que nos referiremos de manera aplicada.

Como curiosidad, comentar que estadísticamente en el método de MCO las hipótesis deben plantearse de forma contraria a la lógica, ya que es en \(H_1\) donde se contrasta nuestra pregunta de investigación. En resumen:

  • La hipótesis nula \(H_0\) representa nuestro status quo. Se trata de una perspectiva escéptica, o una afirmación a ser probada. Siempre establecemos el parámetro de interés igual a algún valor.

  • La hipótesis alternativa \(H_1\) representa la pregunta de
    investigación. Esta hipótesis representa una reclamación alternativa bajo consideración.La hipótesis nula no se abandona salvo que la hipótesis alternativa demuestre que tiene una evidencia tan fuerte que debemos rechazar la primera.

De esta forma, en nuestro modelo teórico \(Y_i = \beta_0+\beta_1X_1+u_i\) partimos de la idea de que no existe relación entre las variables elegidas, y será la estadística la que determine que esto no es cierto y que, por tanto, sí existe relación. Matemáticamente:

\[H_0: \hat \beta_i = 0\\ H_1: \hat \beta_i \neq 0\]

Prueba de significancia y p-valor

El enfoque alternativo a al intervalo de confianza (no visto en clase) es el método de la prueba de significancia^. Sin adentrarnos en demostraciones estadísticas, diremos que trataremos de determinar si la hipótesis nula es o no veraz, partiendo de los valores del estimador y su distribución. Asumiendo el supuesto de distribución normal en una hipótesis como la anterior, lo que estamos calculando es: \[Pr[\beta_1^*-t_{\alpha/2}ee(\hat\beta_2)\leq\hat\beta_2\leq\beta_1^*+t_{\alpha/2}ee(\hat\beta_2)]=1-\alpha \] o dicho de otra forma: la probabilidad de que un valor estimado (en este caso \(\beta_2\)) se encuentre dentro de unos márgenes definidos por los valores de t (distribución normal, en este caso a derecha e izquierda de la curva de distribución). Esta probabilidad se calcula de forma porcentual, como \(100(1-\alpha)\%\).

Dicho de otra forma, la prueba de significancia nos indica una región de aceptación de valores para los que podremos aceptar la hipótesis nula, definidos unos valores críticos a partir de los cuales rechazaremos la hipótesis. ¿Pero con qué certeza probabilística aceptamos o rechazamos nuestra hipótesis? Sin entrar en más detalles, estadísticamente se han establecido tres niveles de aceptación, con el valor de \(\alpha\) siendo igual a 1 (99%), 5 (95%) o 10 (90%).

Si nos damos cuenta, este valor \(\alpha\) tiene el mismo sentido que el “p-valor” que aparece en clase. Sin embargo no son iguales: el valor \(\alpha\) es un criterio arbitrario que nos determina los niveles de aceptación de nuestra hipótesis, mientras que el valor p indica la probabilidad exacta de que nuestro estimador caiga dentro de la región de aceptación, que puede ser superior o inferior a los valores \(\alpha\) de referencia. De esta forma, con un p-valor igual o inferior a 0.05, decimos que tenemos un nivel de significancia del 95%, que está dentro de los valores de \(\alpha\) que aceptamos.

O dicho de otra forma, con un p-valor de 0.05 decimos que corremos el riesgo de equivocarnos en un 5% de las veces en nuestra elección, y por tanto podemos rechazar la hipótesis nula de acuerdo a los criterios estadísticos comentados anteriormente, para abrazar la alternativa que es la que nos interesa.

Pero ojo, estos niveles de significancia no siempre son válidos ni iguales para todos los experimentos. Imaginad que hay una persona que descubre que con un 85% de certeza (p-valor igual a 0.15) es posible acertar el número del Euromillones de cada semana. Este valor estadísticamente puede no ser significativo, pero, ¿quién no compraría boletos de lotería si advierte que tiene un 85% de probabilidades de ganar?