4. Regresion con 1 variable MLS 1

ECONOMETRIA I. GRADO EN ECONOMIA.

Jose Antonio Ortega
Universidad de Salamanca

Motivación

  • Entendemos nuestro objetivo: Estudiar relaciones entre variables económicas combinando modelos teóricos y datos empíricos.

  • Vamos a empezar por el caso más sencillo: Cuando tenemos una única variable explicativa.

  • Nos vamos a centrar, para comprender cómo funcionan los modelos, en un modelo muy sencillo: Cuando la función de regresión \(y=f(x)\) es lineal: Modelo Lineal Simple (MLS)

  • Después ampliaremos a relaciones conocidas no lineales, y a estimación no paramétrica que no requiere conocimiento de la forma funcional.

Ejemplo: Los datos de ISL sobre gasto en publicidad y ventas sugieren una relación aproximademente lineal.

Advertising=read.csv("http://www-bcf.usc.edu/~gareth/ISL/Advertising.csv")
xyplot(Sales~TV,data=Advertising,type=c("g","p","r"))

plot of chunk unnamed-chunk-2

Filosofía de la estadística:

  • Nuestro objetivo eventual es estudiar relaciones entre variables que se den en la realidad, sean lineales o no.

  • Para poder estudiar las propiedades estadísticas de los estimadores necesitamos espeficar las reglas del juego, un modelo lo más sencillo posible.

  • Aprendemos cómo funcionan las cosas en ese modelo y despúes podemos:

    • Estudiar modelos más complejos.
    • Asumir, como ocurrirá en la práctica, que como mucho nuestros modelos serán aproximaciones de la realidad, nunca exactos.

    George Box: Todos los modelos son falsos, pero algunos son útiles

Nuestro primer modelo: \(y=f(x)=E(Y|X=x)=\beta_0 + \beta_1 x\), el MODELO LINEAL SIMPLE.

Modelo Lineal Simple (MLS)

  • Relación entre dos variables, \(X\) e \(Y\)
  • \(y=f(x)=E(Y|X=x)=\beta_0 + \beta_1 x\), una función lineal de x.

\(X\) Variable explicativa, regresor.

\(Y\) Variable explicada o variable de respuesta.

\(\beta_i\) Parámetros o coeficientes del modelo: A \(\beta_0\) se le llama constante del modelo y a \(`\beta_1`\) pendiente.

\(\varepsilon\) Término de error, componente no observado

\[Y = \beta_0 + \beta_1 X + \varepsilon\]

\[Y\,|\,X = \beta_0 + \beta_1 X + \varepsilon\]

  • De la definición inicial se deduce \(E(\varepsilon|X=x)=0\)
  • Esta es la condición que tiene que cumplirse en el modelo causal para que funcionen los métodos estándar de estimación.

Hipótesis MLS

Observaciones generadas por: \(y_i = \beta_0 + \beta_1 x_i + \varepsilon_i\)

Muestra de trabajo: n pares, \((x_1,y_1),(x_2,y_2), \ldots , (x_n,y_n)\)

  • Esperanza condicionada nula: \(E(\varepsilon\,|\,X=x)=0\)

Otras hipótesis:

  • Sobre las X: De momento supondremos que trabajamos con X prefijadas, como ocurriría en un contexto experimental. Eventualmente permitiremos que sean aleatorias procediendo de una distribución.
  • Sobre las observaciones: muestreo aleatorio simple que requiere que las \(\varepsilon\) sean independientes entre sí. En la práctica este supuesto es más fuerte de lo necesario. Basta con covarianzas nulas entre los \(\varepsilon\).
  • Sobre los datos: La condición de identificación requiere tener al menos dos observaciones con x distintas: 2 puntos definen una recta. Matemáticamente: \(\sum_{i=1}^{n}{(x_i-\bar{x})^2} \neq 0\)

Hipótesis adicionales optativas: Homocedasticidad

  • Homocedasticidad o varianza constante \[Var(\varepsilon\,|\,X=x)= \sigma^2_\varepsilon\]

  • En el ejemplo de los datos de publicidad, por ejemplo, este supuesto claramente se incumple: a mayor gasto en publicidad hay mayor dispersión en torno al valor esperado: heterocedasticidad

  • Este supuesto no es central: Tan sólo permite calcular de una manera más sencilla el Error estándar de los estimadores.

plot of chunk unnamed-chunk-3

Simulación del MLS

Con lo que hemos dicho podemos proceder a simular observaciones correspondientes a un MLS. Para ello escogemos los valores de las betas y de las x, así como la distribución que genera las \(\varepsilon\)

library(mosaic)
b0=10
b1=50
datos=data.frame(x=rep(1:10,3)) # n=30, 3 de cada
sigma=100
datos=datos %>% mutate(y=b0+b1*x+rnorm(30,sd=sigma))
xyplot(y~x,data=datos,main="Una muestra n=30 de un MLS")

plot of chunk unnamed-chunk-5

Error cuadrático medio

Tenemos \(n\) pares de observaciones, \((x_1, y_1), (x_2, y_2),\ldots, (x_n, y_n)\)

  • Debido a las propiedades de la esperanza (y de la esp. condicionada) los verdaderos valores de los parámetros minimizarían el verdadero ECM, que viene dado por:

\[(\beta_0, \beta_1) = \text{argmin}_{(b_0, b_1)} {E{(Y- (b_0 + b_1 X))^2}}\]

donde \(b_0\) y \(b_1\) son cualquier valor factible de los parámetros del modelo.

Dada una muestra con \(n\) observaciones ¿Cómo estimamos los parámetros?

  • Muestra: \((x_1,y_1),(x_2,y_2), \ldots , (x_n,y_n)\)
  • Para cada observación y valores hipotéticos de \(b_0\) y \(b_1\) definimos el residuo como: \(e_i=y_i - b_0 + b_1 x_i\)
  • Podemos minimizar el ECM (o MSE) en la muestra:

\[ \widehat{MSE}(b_0, b_1) \equiv \frac{1}{n}\sum_{i=1}^{n}{(y_i - (b_0 + b_1 x_i))^2} \]

Estimador Mínimo Cuadrático

Minimizar el ECM (o MSE) en la muestra:

\[ \widehat{MSE}(b_0, b_1) \equiv \frac{1}{n}\sum_{i=1}^{n}{(y_i - (b_0 + b_1 x_i))^2} \]

es equivalente a minimizar la Suma de Cuadrados de los Residuos (SR, RSS):

\[ SR(b_0, b_1) = \sum_{i=1}^{n}{(y_i - b_0 - b_1 x_i)^2} = \sum_{i=1}^{n}{(e_i^2)}\]

con \(e_i=y_i - b_0 - b_1 x_i\), denominado residuo

A este estimador se le llama ESTIMADOR DE MÍNIMOS CUADRADOS ORDINARIOS o MCO (OLS, Ordinary Least Squares)

Este es la recta que superpone R cuando especificamos type="r" en la función xyplot. Es el estimador que vosotros habéis estudiado en Estadística.

Minimizando la función SR: Pendiente

MCOanim

El valor que minimiza SR (RSS) es el estimador MCO de la pendiente.

[Realizado con la función least.squares del paquete animation]

Minimizando la función SR: Pendiente y Constante

ISL3.2a

SR es función de dos variables. Los estimadores MCO son los valores para los que la función alcanza un mínimo

ISL3.2a

Fuente: ISL, fig. 3.2

Minimizando la SR: Estimadores MCO

  • El método anterior funciona para todo tipo de estimadores, pero para MCO en los modelos lineales es posible derivar fórmulas analíticas de los estimadores.

  • Condiciones de primer orden: Derivando respecto a los argumentos e igualando a cero.

\[ SR(b_0, b_1) = \sum_{i=1}^{n}{(y_i - b_0 - b_1 x_i)^2}\]

  • Se obtienen las llamadas ecuaciones normales:

  • Soluciones: Estimadores Mínimo Cuadráticos (MCO, ó OLS - Ordinary Least Squares)

\[\hat{\beta}_1 = \frac{s_{xy}}{s^2_x}\]

\[\hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x}\]

Vamos a comprobarlo

Derivación analítica de los estimadores MCO

Función objetivo:

\[SR(b_0, b_1) = \sum_{i=1}^{n}{(y_i - b_0 - b_1 x_i)^2}\]

Condición necesaria de primer orden (para un mínimo): Primeras derivadas se anulan en el óptimo.

Derivadas:

\[\frac{\partial SR(b_0, b_1)}{\partial b_0}= -2 \cdot \sum_{i=1}^{n}{(y_i - b_0 - b_1 x_i)}\]

\[\frac{\partial SR(b_0, b_1)}{\partial b_1}= -2 \cdot \sum_{i=1}^{n}{x_i \cdot (y_i - b_0 - b_1 x_i)}\]

Solución de las ecuaciones normales

Las ecuaciones normales nos proporcionan un sistema de 2 ecuaciones lineales con 2 incógnitas (los estimadores MCO, \(\hat{\beta}_0^{(MCO)}\) y \(\hat{\beta}_1^{(MCO)}\)) que podemos solucionar:

\[\sum_{i=1}^{n}{(y_i - b_0 - b_1 x_i)}=0 \Leftrightarrow \hat{\beta}_0=\bar{y}-\hat{\beta}_1 \cdot \bar{x}\]

\[\sum_{i=1}^{n}{x_i \cdot (y_i - b_0 - b_1 x_i)}=0 \Leftrightarrow \overline{xy}=\hat{\beta}_0 \bar{x}+\hat{\beta}_1 \cdot \overline{x^2} \]

Sustituyendo la primera ecuación en la segunda se obtiene:

\[ \overline{xy}=\bar{x} \cdot \bar{y} +\hat{\beta}_1 (\overline{x^2}-\bar{x}^2) \]

Recordando el desarrollo de los momentos de orden 2 respecto a la media, tenemos

\[ \hat{\beta}_1 = \frac{\overline{xy}-\bar{x} \cdot \bar{y}}{\overline{x^2}-\bar{x}^2} = \frac{s_{xy}}{s^2_x} = \frac{ \sum_{i=1}^{n} { (x_i-\bar{x}) (y_i-\bar{y}) }} { \sum_{i=1}^{n} {(x_i-\bar{x})^2} }\]

Estimadores derivados de los estimadores MCO:

  • Residuos MCO (LS residuals): Definíamos los residuos como la diferencia entre \(y_i\) y \(\hat{f}(x_i)\) en la muestra. Son el equivalente muestral del término de error. Vendrán dados por:

\[e_i=y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i\]

  • Valores ajustados (fitted values): El valor ajustado MCO viene dado por nuestra estimación de la función \(f(x)\) para \(x=x_i\):

\[\bar{y}_i = \hat{f}(x_i) = \hat{\beta}_0 + \hat{\beta}_1 x_i\]

  • Predicción MCO (LS forecast): Si queremos predecir el valor de \(y\) para una observación fuera de la muestra dada por \((x_0,y_0)\), correspondería a la estimación de \(f(x_0)\), es decir:

\[\bar{y}_0 = \hat{f}(x_0) = \hat{\beta}_0 + \hat{\beta}_1 x_0\]

  • Error de predicción MCO: El error que cometemos al utilizar \(\bar{y}_0\) para predecir \(y_0\)

\[e_0= y_0 - \hat{f}(x_0)= y_0 - \hat{\beta}_0 - \hat{\beta}_1 x_0\]