class: center, middle # Tema 3. Regresión Multiple ### EconometrÃa #### Licenciatura en EconomÃa #### Dr. Francisco J. Cabrera-Hernández Otoño 2024 ##### CIDE Santa Fe, Ciudad de México. --- ## Outline - **.blue[Regresión Múltiple.]** - Supuestos Estándar. - Sesgo y Variables irrelevantes. - Varianza de estimadores. - Notación Matricial. --- ## Regresión Múltiple `$$E(y|x_1, x_2, x_3... x_k)$$` `$$y = \beta_0 + \beta_1x_1 + \beta_2x_2 + \beta_3x_3 + \mu$$` - Incorpora más variables explciativas en el modelo. - Esto permite dejar más elementos fijos que de otra manera estarÃan en `\(\mu\)`. - Permite incluir formas funcionales distintas: `$$log(wage) = \beta_0 + \beta_1educ - \beta_2educ^2 + \beta_3exper + \mu$$` --- ## Ejemplo: regresión sobre consumo familiar `$$consumption_f = \beta_0 + \beta_1inc_f + \beta_2inc^2_f + \beta_3educfather_f + \mu_f$$` - El consumo está explicado como una función cuadrática del ingreso (*inc*) - ¿Cómo interpretarlo? `$${\partial{cons} \over \partial{inc}} = \beta_1 + 2\beta_2inc$$` --- ## Regresión Múltiple - En general, se interpreta: `$$\beta_j = \frac{\partial y}{\partial x_j}$$` - Cambio en `\(y\)` si la independiente `\(X_j\)` incrementa en una unidad, **manteniendo todas las demas variables `\(x\)` y todas las no observables fijas.** - Aun se debe asumir que los factores no observables no cambian si las variables explicativas cambian: `$$E(u|x_1, x_2, x_3... x_k)=0$$` --- ## Regresión Múltiple `$$log(wage) = \beta_0 + \beta_1 educ + \beta_2 exper + \beta_3exper^2 + \mu$$` ``` r library(wooldridge) data("wage1") wagereg <- lm(lwage ~ educ + exper + expersq , data = wage1) summary(wagereg) ``` ``` ## ## Call: ## lm(formula = lwage ~ educ + exper + expersq, data = wage1) ## ## Residuals: ## Min 1Q Median 3Q Max ## -1.96387 -0.29375 -0.04009 0.29497 1.30216 ## ## Coefficients: ## Estimate Std. Error t value Pr(>|t|) ## (Intercept) 0.1279975 0.1059323 1.208 0.227 ## educ 0.0903658 0.0074680 12.100 < 2e-16 *** ## exper 0.0410089 0.0051965 7.892 1.77e-14 *** ## expersq -0.0007136 0.0001158 -6.164 1.42e-09 *** ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ## ## Residual standard error: 0.4459 on 522 degrees of freedom ## Multiple R-squared: 0.3003, Adjusted R-squared: 0.2963 ## F-statistic: 74.67 on 3 and 522 DF, p-value: < 2.2e-16 ``` --- ## Estimación de MCO - Muestra aleatoria: `\(\small \{(x_{i1},x_{i2}... x_{ik}): i = 1, ... n\}\)` - Residuos: `$$\small\hat\mu_i = y_i - \hat\beta_0 - \hat\beta_1 x_{i1} - \hat\beta_2 x_{i2} ... - \hat\beta_k x_{ik}$$` - Minimiza los residuos al cuadrado `\(\sum_{i=1}^n \hat\mu_i^2\)`: `$$\small \sum_{i=1}^n(y_i - \hat\beta_0 - \hat\beta_1 x_{i1} - \hat\beta_2 x_{i2} ... - \hat\beta_k x_{ik})=0$$` `$$\small \sum_{i=1}^n x_{i1}(y_i - \hat\beta_0 - \hat\beta_1 x_{i1} - \hat\beta_2 x_{i2} ... - \hat\beta_k x_{ik})=0$$` `$$\small \vdots$$` `$$\small \sum_{i=1}^n x_{ik}(y_i - \hat\beta_0 - \hat\beta_1 x_{i1} - \hat\beta_2 x_{i2} ... - \hat\beta_k x_{ik})=0$$` --- ## Propiedades Algebraicas - Valores ajustados (fitted values) y residuos: `$$\hat y_i = \hat\beta_0 + \hat\beta_1 x_{i1} + \hat\beta_2 x_{i2} ... + \hat\beta_k x_{ik}$$` $$\hat u_i = y_i - \hat y_i $$ - Residuos suman cero: `\(\sum_{i=1}^n \hat\mu_i=0\)` - Correlaciones entre residuo y regresores es cero: `\(\sum_{i=1}^n x_{ij}\hat\mu_i=0\)` - Promedios de `\(y\)` y regresores se encuentran en la linea de regresión. `$$\bar{y} = \hat\beta_0 + \hat\beta_1\bar x_1 + \hat\beta_2\bar x_2 ...\bar{y} = \hat\beta_k + \hat\beta_k\bar x_k$$` --- ## "Partialling out" **Frisch Waugh Theorem:** - Para la regresión: `$$\hat{y}= {\hat\beta_0} + \hat\beta_1x_1 + \hat\beta_2 x_2$$` `$$\hat\beta_1 = {\sum_{i=1}^n \hat r_{i1}y_{i1} \over \sum_{i=1}^n \hat r_{i1}^2 }$$` - Donde `\(\hat{r}_{i1}\)` son los residuos de una regresión de `\(x_1\)` en `\(x_2\)`. - Luego, podemos hacer una regresión de `\(y\)` en `\(\hat{r}_{i1}\)` para obtener `\(\hat\beta_1\)`. - Los residuos `\(\hat r_{i1}\)` son la parte de `\(x_{i1}\)` que no esta correlacionada con `\(x_{i2}\)`. - En otras palabras `\(\hat r_{i1}\)` es `\(x_{i1}\)` luego de que los efectos de `\(x_{i2}\)` han sido "partialled-out". --- ##Bondad de Ajuste `\((R^2)\)` `\(SST = \sum_{i=1}^n (y_i - \bar y)^2\)`; `\(SSE = \sum_{i=1}^n (\hat y_i - \bar y)^2\)`; `\(SSR = \sum_{i=1}^n \hat\mu_i^2\)` `$$R^2 = SSE/SST = 1 - SSR/SST$$` - Expresión alternativa de `\(R^2\)` para regresión múltiple: `$$R^2= \frac{(\sum_{i=1}^n (y_i-\bar y)(\hat{y_i} - \bar{\hat y}))^2}{(\sum_{i=1}^n (y_i-\bar y)^2) (\sum_{i=1}^n(\hat{y_i} - \bar{\hat y})^2)}$$` - Coeficiente de correlacion al cuadrado entre `\(y\)` e `\(\hat y\)`. --- ## `\(R^2 = \rho_{xy}^2\)` <style> .centered-word { position: absolute; top: 35%; left: 50%; transform: translate(-50%, -50%); } </style> <div class="centered-word"> <h1>.black[Pizarrón...]</h1> </div> --- ## Ejemplo: `$$\hat {narr86_m} = 0.712 - 0.150pcnv85_m - 0.034 ptime86_m - 0.104 qemp86_m$$` `$$n= 2725; R^2=0.413$$` Donde: - `\(narr86_m\)`: número de arrestos. - `\(pcnv85_m:\)` Proporción de arrestos en 1985 que llevaron a cárcel. - `\(ptime86_m:\)` Meses en prisión promedio 1986. - `\(quem86_m:\)`trimestres empleados en 1986 **Interprete cada coeficiente.** --- ## Ejemplo (continuación): `$$\hat{narr86_m} = 0.707 - 0.151pcnv85_m + 0.0074 avgsen85_m \\ - 0.037 ptime86_m - 0.103 qemp86_m$$` `$$n= 2,725; R^2=0.422$$` Donde: - `\(avgsen85_m:\)` sentencia promedio en meses en 1985. - `\(R^2\)` aumenta muy poco ¿vale la pena incluir ese regresor? - Primero, no depende del tamaño de `\(R^2\)` sino de su importancia teórica/empÃrica. --- ## `\(R^2\)` Ajustada - SSR siempre se reduce con la inclusión de un nuevo regresor. `\(R^2\)` sólo puede aumentar o mantenerse. `$$y_i = \hat\beta_0 + \hat\beta_1 x_{i1} + \hat\beta_2 x_{i1}$$` - Si el control `\(x_{i2}\)` tiene sentido teórico/empÃrico y `\(cov(x_i2,y_i) \ne 0\)`; `\(cov(x_{i2},x_{i1}) = 0\)` - ¿qué tanto aumento es "suficiente" para cada `\(m\)` regresor? `$$adjR^2 = 1 - (1-R^2) \frac {n-1} {n-m-1}$$` - Si el regresor no aumenta lo suficiente `\(R^2\)`, la expresión entera de `\(adjR^2\)` no aumenta. --- ## Outline - Regresión Múltiple. - **.blue[Supuestos Estándar.]** - Sesgo y Variables irrelevantes. - Varianza de estimadores. - Notación Matricial. --- ## Supuestos Estándar - **Supuesto MLR1.** Linealidad en parámetros: En la población la relación entre `\(x\)` e `\(y\)` es lineal. `$$y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \beta_k x_k + \mu$$` - **Supuesto MLR2.** Los datos son una muestra aleatoria de la población: `$$\{ (x_{i1},x_{i2}, x_{ik} : i= 1...n ) \}$$` `$$y = \beta_0 + \beta_1 x_{i1} + \beta_2 x_{i2} + \beta_k x_{ik} + \mu_i$$` --- ## Supuestos Estándar - **Supuesto MLR3.** No colinealidad perfecta: En la población y en la muestra no hay variables *independientes constantes* y *no existen relaciones exactas* entre éstas. - Las "variables" constantes son colineales con el intercepto. - Sólo la colinealidad(correlación) perfecta entre `\(x_{ij}\)` y `\(x_{ik}\)` no permite la estimación de los parámetros. - Una variable perfectamente colineal de otra en realidad es *superflua.* - Una alta colinealidad aun permite estimación pero es menos precisa. * Lo demostraremos más adelante. --- ## Supuestos Estándar (ejemplo MLR3) Ecuación de resultados escolares en función de gastos en la estudiante `\(i\)`: `$$avgscore_{if} = \beta_0 + \beta_1 edexpend_{if} + \beta_2 avginc_f + \mu_{if}$$` - En una muestra pequeña el gasto de la familia en educación `\(edexpen_{if}\)` puede ser una fracción exacta del ingreso familiar `\(avginc_f\)`. - En ese caso no es posible separar sus efectos porque hay covarianza exacta. *Piense en una regresión que integre las proporciones del gasto en publicidad de MC en redes vs. el resto de gasto en publicidad:* --- ## Supuestos Estándar (ejemplo MLR3) Ecuación de consumo en función del ingreso: `$$cons_i = \beta_0 + \beta1 inc_i + \beta_2 inc_i^2+ \mu$$` - `\(inc_i^2\)` no es una combinación lineal de `\(inc_i\)`. ¿Si aplicamos logaritmos? `$$log(cons) = \beta_0 + \beta_1 log(inc) + \beta_2 log(inc^2) + \mu$$` - Esto viola MLR3. Usar: `\([log(inc)]^2\)` --- ## Supuestos Estándar - **Supuesto MLR4. Zero Conditional Mean Independence Assumption:** `$$E(u| x_{1}, x_{2}... x_{k})=0$$` - El valor de las variables explicativas no debe contener información acerca de los factores no observables en `\(\mu\)`. - Es más facil de cumplir porque menos cosas relacionadas con `\(x_{i1}\)`, por ejemplo, terminan en el error. --- ## Teorema de Gauss-Markov **Bajo MLR1-MLR4:** `$$E(\hat\beta_j) = \beta_j; j= 0,1,2...k$$` - Estimadores son insesgados *en muestras repetidas* (los estimadores aun pueden estar lejos en cualquiera muestra). - We hope that we have obtained a sample that gives us an estimate close to the population value, but this cannot be assured. - What is assured is that we have no reason to believe our estimate is more likely to *be too big* or more likely to *be too small*. --- ## Outline - Regresión Múltiple. - Supuestos Estándar. - **.blue[Sesgo y Variables Irrelevantes.]** - Varianza de estimadores. - Notación Matricial. --- ## Sesgo por omisión - Modelo poblacional: $$ y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \mu$$ - Si `\(x_2\)` y `\(x_1\)` están correlacionados: `$$x_2 = \delta_0 + \delta_1 x_1 + \epsilon$$` `$$y = \beta_0 + \beta_1 x_1 + \beta_2(\delta_0+\delta_1x_1+\epsilon)+\mu$$` - Estimamos: `$$y = \beta_0 + \beta_1 x_1 + w$$` `$$y = (\beta_0 + \beta_2\delta_0) + (\beta_1 + \beta_2\delta_1)x_1 + (\beta_2 \epsilon + \mu)$$` - Si `\(\beta_2\)` ó `\(\delta_1\)` son cero. No hay OVB (Omitted Variable Bias) --- ## Sesgo por omisión ejemplo `$$deuda_f = \beta_0 + \beta_1 educpadre_f + \beta_2 miembros_f + \mu_f$$` `$$miembros_f = \delta_0 \pm \delta_1 educfather_f + \epsilon$$` `$$deuda_f = (\beta_0 + \beta_2 \delta_0) + (\beta_1 \pm \beta_2\delta_1) educfather_f + (\beta_2 \epsilon +\mu)$$` El efecto de la educación del padre en la deuda del hogar puede estar sobre o subestimada, dependiendo de correlación con `\(miembros\)`. --- ## Sesgo por omisión con datos ``` r repet <- 1000 n <- 1000 beta <- NULL set.seed(1234567) for (i in 1:repet){ x1 <- rnorm(n) #n values for x1 x2 <- rnorm(n) + .1*x1 #correlate x1 and x2 in 0.1 u <- rnorm(n) #random error y=2+2*x1+1*x2+u #we define y, so that beta1=2 and beta2=1 beta[i] <- lm(y~x1)$coef[2] #we collect all B1s and we omit X2 in regression! } hist(beta, main="Biased estimator, n=1000", xlim = c(1.9,2.3)) abline(v = mean(beta), col="red", lwd=3, lty=2 ) abline(v = 2, col="blue", lwd=3, lty=2) ``` --- ## Sesgo por omisión con datos <img src="data:image/png;base64,#regmulti_files/figure-html/unnamed-chunk-3-1.png" width="65%" style="display: block; margin: auto;" /> --- ## Sesgo en `\(\beta_1\)` a través de `\(x_2\)` - Las variables `\(x_{ik}\)` correlacionadas con el término de error son **endógenas**. - Las variables `\(x_{ik}\)` no correlacionadas son **exógenas**. - MLR4 se mantiene si *toda* `\(x_{ik}\)` es **exógena**. - Si otra `\(x_{ik}\)` se relaciona con `\(\mu\)` esto puede sesgar `\(x_{i1}\)` --- ## Sesgo en `\(\beta_1\)` a través de `\(x_2\)` - Modelo poblacional: `$$y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \mu$$` - `\(x_2\)` y `\(x_1\)` correlacionados: `$$x_2 = \delta_1 x_1$$` - Si `\(x_2\)` y `\(\mu\)` están correlacionados: `\(E(\mu|x_2) \ne 0\)` `$$\mu = \gamma_1 x_2 + \epsilon$$` `$$y = \beta_0 + \beta_1 x_1 + \beta_2(\delta_1 x_1) + (\gamma_1 x_2 + \epsilon)$$` - Estimamos: `$$y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + w$$` `$$y = \beta_0 + \beta_1 x_1 + \beta_2(\delta_1 x_1) + \gamma_1 (\delta_1 x_1) + \epsilon$$` `$$y = \beta_0 + (\beta_1 + \beta_2\delta_1 + \gamma_1\delta_1)x_1 + \epsilon$$` --- ## Sesgo en `\(\beta_1\)` a través de `\(x_2\)` ``` r repet <- 1000 n <- 1000 beta <- NULL set.seed(1234567) for (i in 1:repet){ x1 <- rnorm(n) #n values for x1 x2 <- .1*x1 #function of x1 u <- (rnorm(n, mean=0) + .5*x2) #correlate error to x2 y=2+2*x1+2*x2+u # we define y, so that beta1=2 and beta2=1 beta[i] <- lm(y~x1+x2)$coef[2] #we collect all B1s and we include B2 in regression! } hist(beta, main="Biased estimator, n=1000", xlim = c(1.95,2.25)) abline(v = mean(beta), col="red", lwd=3, lty=2 ) abline(v = 2, col="blue", lwd=3, lty=2) ``` --- ## Sesgo en `\(\beta_1\)` a través de `\(x_2\)` <img src="data:image/png;base64,#regmulti_files/figure-html/unnamed-chunk-5-1.png" width="65%" style="display: block; margin: auto;" /> --- ## Generalización del Sesgo por Omisión Modelo verdadero, en la población: `$$y= \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \beta_3 x_3 + \mu$$` Modelo estimado: `$$\hat y = \hat \beta_0 + \hat \beta_1 x_1 + \hat \beta_2 x_2 + w$$` 1) No es posible establecer la dirección del sesgo, si `\(x_3\)` se relaciona con cada otra `\(x_j\)` positiva/negativamente ¿cuál domina? 2) Si `\(x_2\)` y `\(x_3\)` no están correlacionadas, pero `\(x_1\)` está correlacionada con `\(x_3\)` (omitida), `\(\hat \beta_2\)` igual se sesga a través de la correlación con `\(x_1\)` 3) Con esto, ambos estimadores `\(\hat \beta_1\)` y `\(\hat \beta_2\)` están sesgados. --- ## Generalización del Sesgo por Omisión - Sólo queda hacer supuestos y "aislar" teóricamente el posible sesgo. - Por ejemplo, en: `$$wage = \beta_0 + \beta_1 educ + \beta_2 exper + \beta_3 abil + \mu$$` - Si asumimos `\(exper\)` no correlacionada con `\(educ\)` y `\(abil\)` la dirección del sesgo de `\(\beta_2\)` por variable omitida (como en regresión simple): `$$plim \hat \beta_2 = \beta_2 + \frac {cov(x_2,\mu)} {var(x_2)}$$` --- ## Generalización del Sesgo por Omisión - Nuevamente, en: `$$wage = \beta_0 + \beta_1 educ + \beta_2 exper + \beta_3 abil + \mu$$` - Si `\(abil\)` se omite, y asumimos `\(exper\)` no correlacionada con `\(educ\)` ni con `\(abil\)`, la dirección del sesgo de `\(\beta_1\)` es: `$$plim \hat \beta_1 = \beta_1 + \beta_3 \frac {cov(x_1, x_3)} {var(x_1)}$$` - *Sin embargo, los más probable es que `\(cov(exper; educ) \ne 0\)`* --- ## Variables irrelevantes `$$\hat y = \hat\beta_0 + \hat\beta_1 x_1 + \hat\beta_2 x_2 + \hat\beta_3 x_3 + \hat\mu$$` Donde: `$$E(\hat\beta_3)=\beta_3=0$$` - No hay problema en términos de sesgo. ¿Qué sucede con el poder explicativo de nuestro modelo si la correlación entre `\(x_3\)` and `\(y\)` es bajo? Utilice alguna fórmula para mostrarlo. --- ## Outline - Regresión Múltiple. - Supuestos Estándar. - Sesgo y Variables Irrelevantes. - **.blue[Varianza de estimadores.]** - Notación Matricial. --- #Supuestos Estándar (continuación) **Supuesto MLR5.** Homoscedasticidad: `$$var(u_i | x_{i1}, x_{i2}... x_{ik}) = \sigma^2$$` El valor de las explicativas no debe contener información de la varianza de los factores no observados. - En corto: `$$var (u_i|x_i)= \sigma^2$$` Donde `\(x_i=(x_{i1},x_{i2}..x_{ik})\)` - Si la varianza cambia con cualquier `\(x_{ik}\)` entonces existe **Heteroscedasticidad** --- ## Varianza de `\(\hat\beta\)` <img src="data:image/png;base64,#regmulti_files/figure-html/unnamed-chunk-6-1.png" width="65%" style="display: block; margin: auto;" /> --- ## Varianza de `\(\hat\beta\)` $$ \hat\beta = \beta + \frac {cov(x,\mu)}{var(x)}$$ Donde: `$$cov (x,\mu) = \sum_{i=1}^n (x_i - \bar x) (\mu_i - \bar \mu)$$` `$$\hat\beta = \beta + \frac {\sum_{i=1}^n (x_i - \bar x) \mu_i} {\sum_{i=1}^n (x_i - \bar x)^2}$$` `$$var(\hat \beta | x_i) = var \left( \frac {\sum_{i=1}^n (x_i - \bar x) \mu_i} {\sum_{i=1}^n (x_i - \bar x)^2} \right)$$` --- ## Varianza de `\(\hat\beta\)` - Donde: `\(\sum_{i=1}^n u_i = u_1 + u_2 + u_3... +u_k\)` - Recuerde: `\(\color{red} {var (x_1 + x_2) = var(x_1) + var(x_2) + 2 cov(x_1,x_2)}\)` - **Asumimos que no existe correlación serial.** Entonces: `\(cov(\mu_i,\mu_j)=0\)` - Esto es, independencia en errores: `\(E(\mu_i,\mu_j)=0\)` - **Asumimos:** `\(cov(x_j,x_k)=0\)` (i.e. entre `\(k\)` vectores x); no multicolinearidad. - **Además**: `\(cov(x_i;x_j)=0\)` (i.e. intra cada vector x); no hay *clusters*. --- ## Varianza de `\(\hat\beta\)` - Recuerde: `\(\color{red} {var (ax) = a^2 var(x)}\)` Entonces: `$$var(\hat \beta | x_i) = \frac {\sigma^2} {\sum_{i=1}^n (x_i - \bar x)^2}$$` Donde: `\(\sigma^2 = \sum_{i=1}^n \mu_i^2\)` * Recuerde, que esa estimación de `\(\sigma^2\)` está sesgada, pero lo solucionamos un un momento. --- ## Demostración de varianza de `\(\hat\beta\)` <style> .centered-word { position: absolute; top: 35%; left: 50%; transform: translate(-50%, -50%); } </style> <div class="centered-word"> <h1>.black[Pizarrón...]</h1> </div> --- ## Varianza de `\(\hat\beta\)` bajo Heteroscedasticidad `$$var(\hat \beta | x_i) = \frac {\sum_{i=1}^n (x_i - \bar x)^2 \sigma^2_i} {\left( \sum_{i=1}^n (x_i - \bar x)^2 \right)^2}$$` Solución: `$$var(\hat \beta | x_i) = \frac {\sum_{i=1}^n (x_i - \bar x)^2 \hat \mu^2_i} {\left( \sum_{i=1}^n (x_i - \bar x)^2 \right)^2}$$` Estos son los *White-Huber Standard Errors* Con `\(cov(\mu_i,\mu_j)=0\)` y `\(cov(x_i,x_j)=0\)` --- ## Varianza de `\(\hat\beta\)` bajo Correlación Serial: `\(cov(\mu_i,\mu_j) \ne 0\)` Partiendo de: `$$var(\hat \beta | x_i) = \frac {\sum_{i=1}^n (x_i - \bar x)^2 \sigma^2} {\left( \sum_{i=1}^n (x_i - \bar x)^2 \right)^2}$$` `$$var(\hat \beta | x_i) = \frac {\sum_{i=1}^n (x_i - \bar x)^2 \sigma^2 + 2cov(\sigma_i,\sigma_j)} {\left( \sum_{i=1}^n (x_i - \bar x)^2 \right)^2}$$` Bajo MLR5 pero con `\(cov(\mu_j,\mu_k)\ne 0\)`: `$$var(\hat \beta | x_i) = \frac {\sum_{i=1}^n\mu_i^2} {\sum_{i=1}^n (x_i - \bar x)^2} + \frac {2cov(u_i,u_j)} {\left( \sum_{i=1}^n (x_i - \bar x)^2 \right)^2}$$` Estos son los *Newey-West Standard Errors*. --- ## Varianza de `\(\hat\beta\)` bajo Correlación Serial: `\(cov(\mu_i,\mu_j) \ne 0\)` - Si no se considera la correlación serial, los errores son más altos. No es un gran problema para este curso, sà para series de tiempo. - Es más importante en cohorte transversal `\(cov(x_i, x_j)\)`, pero lo analizaremos después. - En todo caso si `\((x_i- \bar x)^2 \to \infty\)`; `\(var(\hat\beta|x_i) \to 0\)` - Si `\(n \to \infty\)`; `\(var(\hat\beta|x_i) \to 0\)` - Si `\(\sum_{i=1}^n \mu_i^2 \to \infty\)` ; `\(var(\hat\beta|x_i) \to \infty\)` --- ## Varianza de `\(\hat\beta\)` con datos: `\(sd(x) = 0.5\)` ``` r repet <- 1000 n <- 50 beta_var <- NULL set.seed(1234567) for (i in 1:repet){ x1 <- rnorm(n, sd=0.5) #n values for x1 u <- rnorm(n) #random error y=2+5*x1+u # we define y, so that beta1=5 model <- lm(y~x1) beta_var[i] <- vcov(model)[2, 2] #we collect all var of B1s } hist(beta_var, main="Variance of Beta, sd(x)=0.5") abline(v = mean(beta_var), col="red", lwd=3, lty=2 ) ``` --- ## Varianza de `\(\beta\)` con datos: `\(sd(x) = 0.5\)` <img src="data:image/png;base64,#regmulti_files/figure-html/unnamed-chunk-8-1.png" width="65%" style="display: block; margin: auto;" /> --- ## Varianza de `\(\beta\)` con datos: `\(sd(x) = 2\)` ``` r repet <- 1000 n <- 50 beta_var <- NULL set.seed(1234567) for (i in 1:repet){ x1 <- rnorm(n, sd=2) #n values for x1 u <- rnorm(n) #random error y=2+5*x1+u # we define y, so that beta1=5 model <- lm(y~x1) beta_var[i] <- vcov(model)[2, 2] #we collect all var of B1s } hist(beta_var, main="Variance of Beta, sd(x)=2") abline(v = mean(beta_var), col="red", lwd=3, lty=2 ) ``` --- ## Varianza de `\(\beta\)` con datos: `\(sd(x) = 2\)` <img src="data:image/png;base64,#regmulti_files/figure-html/unnamed-chunk-10-1.png" width="65%" style="display: block; margin: auto;" /> --- ## Varianza de `\(\beta\)` con datos: `\(cov(u_i,u_j)\ne 0\)` ``` r library(MASS) library(sandwich) library(lmtest) repet <- 1000 n <- 50 beta_var <- NULL beta_var_nw <- NULL set.seed(1234567) for (i in 1:repet){ x1 <- rnorm(n, sd=2) #n values for x1 u <- runif(n, min=0, max=1) y=2+5*x1+u # we define y, so that beta1=5 model <- lm(y~x1) beta_var[i] <- vcov(model)[2, 2] #we collect all var B1s nw_se <- coeftest(model, vcov = NeweyWest(model)) beta_var_nw[i] <- nw_se[2,2] #we collect all var B1s } hist(beta_var_nw, main="Variance of Beta, sd(x)=2" , xlim = c(0,0.05)) abline(v = mean(beta_var), col="red", lwd=3, lty=2 ) hist(u) ``` --- ## Varianza de `\(\beta\)` con datos: `\(cov(u_i,u_j)\ne 0\)` <img src="data:image/png;base64,#regmulti_files/figure-html/unnamed-chunk-12-1.png" width="65%" style="display: block; margin: auto;" /> --- ## Varianza de `\(\beta\)` con `\(cov(x_j,x_k)>0\)` - Con correlación entre, por ejemplo, `\(x_1\)` y `\(x_2\)`. `$$var(\hat \beta_j) = \frac {\sigma^2} {\sum_{i=1}^n (x_{ij} - \bar x_j)^2 (1 - R^2_j)}$$` - Donde `\(R^2_j\)` viene de una regresión de `\(X_j\)` en todas las demás variables independientes `\(X_k\)`. - `\(R^2_j\)` indica la correlación (al cuadrado) de `\(X_j\)` con las otras explicativas. - La varianza de `\(\hat \beta_j\)` es mayor entre más se relacione `\(x_j\)` con las otras `\(x_k\)`, esto es **multicolinearidad**. - Multicolinearidad no viola MLR3. --- ## Ejemplo de Multicolinearidad $$avgscore_s = \beta_0 + \beta_1 teachexpend_s + \beta2 matexpend_s +...+ u $$ - Si una escuela tiene mucho presupuesto todos sus gastos son altos. - Intuitivamente, esto aumenta `\(var(\hat\beta_k)\)`, pues es dificil estimar con precisión el efecto de cada categorÃa de gasto. - En este caso, como hay alta *multicolinearidad*, quizá sea mejor tener una sola variable de gasto. - **Sólo las variables correlacionadas tendrán `\(\hat\beta\)` con alta varianza.** --- ## Variance Inflation Factor (VIF) - La multicolinearidad se puede detectar a través de los VIF: `$$VIF_j = 1/(1-R_j^2)$$` - Como regla de dedo debe estar bajo 10. - No son tan utilizados en la práctica. - El cambio brusco en `\(var(\beta)\)` es el mejor medidor ante la inclusión de `\(x_j\)`. - Si `\(E(\hat\beta_2) = 0\)`, y `\(cov(x_1, x_2) > 0\)` y `\(var(\hat\beta_1)\)` crece, no hay por qué incluir `\(x_2\)`. --- ## Summing up Colinealidad perfecta: `\(cov(x_j,x_k)=1\)`; viola MLR3. Heteroscedasticidad: `\(var(\hat\beta|x_i)\)` = `\(\sigma^2_i\)` ; aumenta `\(se(\hat\beta_1).\)` Correlación serial: `\(cov(u_i,u_j)\ne 0\)` ; aumenta/disminuye `\(se(\hat\beta_1).\)` Multicolinearidad: `\(cov(x_j,x_k)\to 1\)`; tiende a aumentar `\(se(\hat\beta_1).\)` **No memoricen esto, entiéndanlo.** --- ## Varianza de `\(\hat u\)` Insesgada (recuerde de Tema 2): `$$\hat\sigma^2= \frac{1}{n-k-1} \sum_{i=1}^n \hat u_i^2$$` `$$var(\hat\beta | x_i) = \frac{\frac{1}{n-k-1} \sum_{i=1}^n \hat u_i^2} {{1 \over n} \sum_{i=1}^n (x_i-\bar x)^2}$$` - El estimador insesgado de esta varianza se puede obtener al sustraer el número de `\((k)\)` regresores a `\(n-1\)` - *Bajo MLR1 a MLR5*: `\(E(\hat\sigma^2)=\sigma^2\)` --- ## Desviación Estándar de `\(\hat\beta\)` Por lo que el Error Estándar es: `$$se(\hat\beta_j) = \sqrt{var(\hat \beta_j)} = \sqrt{ \frac {\hat\sigma^2} {\sum_{i=1}^n (x_{ij} - \bar x_j)^2 (1 - R^2_j)}}$$` --- ## Eficiencia de MCO - Bajo MLR1 a MLR5 OLS es insesgado. - Sin embargo pueden haber otros estimadores insesgados. - Por ejemplo, OLS es BLUE bajo MLR1-MLR5, pero si existe heteroscedasticidad, hay otros métodos más eficientes. - *Veremos esto en Tema 6*. --- ## Outline - Regresión Múltiple. - Supuestos Estándar. - Sesgo y Variables Irrelevantes. - Varianza de estimadores. - **.blue[Notación Matricial.]** --- ## Aproximación Lineal Considere un combinación lineal arbitraria: `$$\tilde\beta_1 + \tilde\beta_2x_2 + ... \tilde\beta_k x_k$$` Donde `\(\tilde\beta_1...\tilde\beta_k x_k\)` son constantes a ser escogidas. La diferencia entre el valor ajustado y y el observado de y es: `$$y_i - [\tilde\beta_1 + \tilde\beta_2x_2 + ... \tilde\beta_k x_k],$$` Los valores de x para individuo `\(i\)` y los valores `\(\beta\)` como vectores transpuestos: `$$x_i' = (\color{green}{1}, x_{i1}, x_{i2}... x_{ik})$$` `$$\tilde\beta' = (\color{green}{\tilde\beta_0}, \tilde\beta_1 , \tilde\beta_2... \tilde\beta_{k})$$` --- ## Aproximación Lineal - Donde: `$$\hat S(\tilde\beta) = {1 \over n} \sum_{i=1}^n(y_i - x_i'\tilde\beta)^2 = {1 \over n} SSR(\tilde\beta)$$` - como `\(\hat{S}(B)\)` es una escala de `\(SSR(\beta)\)` podemos minimizar SSE. `$$SSR(\beta) = (\sum_{i = 1}^{n}y_i^{2})-2\tilde\beta'(\sum_{i = 1}^{n}x_iy_i)+\tilde\beta'(\sum_{i = 1}^{n}x_ix'_i)\tilde\beta$$` This is a vector-valued quadratic function. Minimized: `$$0 = \frac{\partial}{\partial \beta} SSE( \tilde{\beta})= -2 \sum_{i = 1}^{n} x_iy_i + 2\sum_{i = 1}^{n}x_i x'_i\tilde{\beta}$$` This is using a single expression, but it is a system of `\(k\)` equations with `\(k\)` unknowns (the elements of `\(\tilde\beta\)`). --- ## Aproximación Lineal - We can solve the system of equations or write compactly: `$$(\sum_{i = 1}^{n}x_i x'_i)\tilde{\beta} = (\sum_{i = 1}^{n} x_iy_i)$$` `$$b = (\sum_{i = 1}^{n}x_i x'_i)^{-1} (\sum_{i = 1}^{n} x_iy_i)$$` - Donde `\(b\)` es para cada `\(x_k\)`. - Esto si `\(\sum_{i = 1}^{n}x_ix'_i>0\)` que es una matrix `\(k \times k\)` es invertible (**No multicolinearidad: MLR3**). - La combinación lineal de `\(x_i\)` está dada por: `\(\hat y= x_i'b\)` --- ## Notación Matricial - Utilizamos algo análogo para la matriz `\(X\)`. `$$X = \left[ \begin{array}{c} 1 & x_{12} & \dots & x_{1k}\\ \vdots & \vdots & & \vdots\\ 1 & x_{n2} & \dots & x_{nk}\\ \end{array} \right] = \left[ \begin{array}{c} x_{1}' \\ \vdots \\ x_{n}' \\ \end{array} \right] , y = \left[ \begin{array}{c} y_{1} \\ \vdots \\ y_{n} \\ \end{array} \right]$$` - Entonces: `\(y_i - x_i'\tilde\beta\)` para `\(n\)` observaciones: `\(y_i - X\tilde\beta\)` - Queremos minimizar: `$$S(\tilde\beta) = (y - X\tilde\beta)^2 = (y - X\tilde\beta)'(y - X\tilde\beta)$$` `$$= y'y - 2 y'X\tilde\beta + \tilde\beta'X'X\tilde\beta$$` --- ## Notación Matricial - Dado esto: `$${\partial SSR(\tilde\beta) \over \partial(\tilde\beta) }= -2(X'y - X'X\tilde\beta)=0$$` *eq. (2.18) en Verbeek. Reglas de diferenciación en Apéndice. ** `$$b = (X'X)^{-1}(X'y)$$` ** - Donde `\(b\)` es un vector `\(k \times 1\)` de `\(\hat \beta s\)`. - Con `\(\sum_{i = 1}^{n}x_ix'_i = X'X\)` invertible. --- ## MLR3. Colinealidad perfecta - Suponga una matriz X con k=2: `$$X = \left[ \begin{array}{c} 2 & 1 \\ 4 & 2\\ \end{array} \right]$$` - Donde: `$$A^{-1} = {1 \over {ad-bc}} \times \left[ \begin{array}{c} d & -b \\ -c & a\\ \end{array} \right]$$` - **Invierta X'X.** --- ##Projection Matrix - Note que: `$$y=X\color{green}{b} + e$$` `$$= X\color{green}{(X'X)^{-1}X'y} + e$$` `$$= \hat {y} + e$$` - Donde: `\(\hat y = Xb = \color{gren}{X(X'X)^{-1}X'}y = \color{green}{P}y\)` - `\(\color{green}P\)` es la matriz que proyecta el vector y en las columnas (o el espacio-columna) de X. - Encuentra la mejor aproximación lineal de `\(y\)` de las columnas en matriz X (regresores) - Por esta propiedad `\(\color{green}P\)` se conoce como **The hat matrix**. - Note que: `\(PX= X(X'X)^{-1}X'X=X\)` --- ##Annhilator Matrix - Note que: `$$e = (y - \hat y) = (y - Xb) = (I - P)y$$` - Donde `\(M = (I - P)\)`, es la **Anhilator Matrix**. I es la matriz identidad. `$$I-Py = My$$` - `\(M\)` entonces crea los residuos: `$$My = y - Py = Y - Xb = \hat{e}$$` - Los residuos son ortogonales a X porque: `$$MX = (I - P)X = X - PX = X - X = 0$$` - Además: `\(MP = 0\)`. *Mecánicamente* no tiene nada en común la proyección de Y con los residuos. --- ##Projection - We can visualize LS fitting as a projection operation. - Matrix `\(X = [X_1, X_2... X_k.]\)` - The range space `\(\mathcal{R}(X)\)` of `\(X\)` is the space consisting of all linear combinations of columns `\(X_1,X_2,...X_k\)`. - Hence `\(\mathcal{R}(X)\)` is a `\(k\)` dimensional surface contained in `\(\mathbb{R}^n\)`. - If `\(k=2\)`, `\(\mathcal{R}(X)\)` is a plane. Operator `\(P= X(X'X)^{-1}X'\)` projects vectors onto `\(\mathcal{R}(X)\)` (the plane) - `\(\hat{Y}=PY\)` are the projection of Y onto `\(\mathcal{R}(X)\)` --- ##Visualization - The plane created by `\(X_1\)` and `\(X_2\)` is the range space `\(\mathcal{R}(X)\)` - `\(\hat{Y}\)` are linear combinations of `\(X_1\)` and `\(X_2\)` and lie in such plane. - `\(\hat{Y}\)` is the closet to `\(Y\)` on this plane. `\(\hat{Y}\)` and `\(\hat{e}\)` (orthogonal) <div class="figure" style="text-align: center"> <img src="data:image/png;base64,#projection.png" alt=" " width="55%" /> <p class="caption"> </p> </div> --- <style> .centered-word { position: absolute; top: 50%; left: 35%; transform: translate(-50%, -50%); } </style> <div class="centered-word"> <h3>.black[¿Dudas?]</h3> <h3>.black[francisco.cabrera@cide.edu]</h3> </div> <div class="figure" style="text-align: right"> <img src="data:image/png;base64,#bullseye.png" alt=" " width="45%" /> <p class="caption"> </p> </div>