regmulti.knit

class: center, middle
# Tema 3. Regresión Multiple
### Econometría
#### Licenciatura en Economía
#### Dr. Francisco J. Cabrera-Hernández
Otoño 2024
##### CIDE Santa Fe, Ciudad de México.

---
## Outline

- **.blue[Regresión Múltiple.]**

- Supuestos Estándar.

- Sesgo y Variables irrelevantes.

- Varianza de estimadores.

- Notación Matricial.

---
## Regresión Múltiple

`$$E(y|x_1, x_2, x_3... x_k)$$`

`$$y = \beta_0 + \beta_1x_1 + \beta_2x_2 + \beta_3x_3 + \mu$$`

- Incorpora más variables explciativas en el modelo.

- Esto permite dejar más elementos fijos que de otra manera estarían en `$\mu$`.

- Permite incluir formas funcionales distintas:

`$$log(wage) = \beta_0 + \beta_1educ - \beta_2educ^2 + \beta_3exper + \mu$$`
---
## Ejemplo: regresión sobre consumo familiar

`$$consumption_f = \beta_0 + \beta_1inc_f + \beta_2inc^2_f + \beta_3educfather_f + \mu_f$$`

- El consumo está explicado como una función cuadrática del ingreso (*inc*)

- ¿Cómo interpretarlo?

`$${\partial{cons} \over \partial{inc}} = \beta_1 + 2\beta_2inc$$`

---
## Regresión Múltiple

- En general, se interpreta:

`$$\beta_j = \frac{\partial y}{\partial x_j}$$`

- Cambio en `$y$` si la independiente `$X_j$` incrementa en una unidad, **manteniendo todas las demas variables `$x$` y todas las no observables fijas.**

- Aun se debe asumir que los factores no observables no cambian si las variables explicativas cambian:

`$$E(u|x_1, x_2, x_3... x_k)=0$$`
---
## Regresión Múltiple

`$$log(wage) = \beta_0 + \beta_1 educ + \beta_2 exper + \beta_3exper^2 + \mu$$`

``` r
library(wooldridge)
data("wage1")

wagereg <- lm(lwage ~ educ + exper  + expersq , data = wage1)
summary(wagereg)
```

```
## 
## Call:
## lm(formula = lwage ~ educ + exper + expersq, data = wage1)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.96387 -0.29375 -0.04009  0.29497  1.30216 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  0.1279975  0.1059323   1.208    0.227    
## educ         0.0903658  0.0074680  12.100  < 2e-16 ***
## exper        0.0410089  0.0051965   7.892 1.77e-14 ***
## expersq     -0.0007136  0.0001158  -6.164 1.42e-09 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.4459 on 522 degrees of freedom
## Multiple R-squared:  0.3003,	Adjusted R-squared:  0.2963 
## F-statistic: 74.67 on 3 and 522 DF,  p-value: < 2.2e-16
```

---
## Estimación de MCO

- Muestra aleatoria: `$\small \{(x_{i1},x_{i2}... x_{ik}): i = 1, ... n\}$`

- Residuos:

`$$\small\hat\mu_i = y_i - \hat\beta_0 - \hat\beta_1 x_{i1} - \hat\beta_2 x_{i2} ... - \hat\beta_k x_{ik}$$`

- Minimiza los residuos al cuadrado `$\sum_{i=1}^n \hat\mu_i^2$`:

`$$\small \sum_{i=1}^n(y_i - \hat\beta_0 - \hat\beta_1 x_{i1} - \hat\beta_2 x_{i2} ... - \hat\beta_k x_{ik})=0$$`
`$$\small \sum_{i=1}^n x_{i1}(y_i - \hat\beta_0 - \hat\beta_1 x_{i1} - \hat\beta_2 x_{i2} ... - \hat\beta_k x_{ik})=0$$`
`$$\small \vdots$$`
`$$\small \sum_{i=1}^n x_{ik}(y_i - \hat\beta_0 - \hat\beta_1 x_{i1} - \hat\beta_2 x_{i2} ... - \hat\beta_k x_{ik})=0$$`

---
## Propiedades Algebraicas

- Valores ajustados (fitted values) y residuos:

`$$\hat y_i =  \hat\beta_0 + \hat\beta_1 x_{i1} + \hat\beta_2 x_{i2} ... + \hat\beta_k x_{ik}$$`

$$\hat u_i = y_i - \hat y_i $$
- Residuos suman cero: `$\sum_{i=1}^n \hat\mu_i=0$`

- Correlaciones entre residuo y regresores es cero: `$\sum_{i=1}^n x_{ij}\hat\mu_i=0$`

- Promedios de `$y$` y regresores se encuentran en la linea de regresión.

`$$\bar{y} = \hat\beta_0 + \hat\beta_1\bar x_1 + \hat\beta_2\bar x_2 ...\bar{y} = \hat\beta_k + \hat\beta_k\bar x_k$$`

---
## "Partialling out"

**Frisch Waugh Theorem:**

- Para la regresión:

`$$\hat{y}= {\hat\beta_0} + \hat\beta_1x_1 + \hat\beta_2 x_2$$`

`$$\hat\beta_1 = {\sum_{i=1}^n \hat r_{i1}y_{i1} \over \sum_{i=1}^n \hat r_{i1}^2 }$$`
- Donde `$\hat{r}_{i1}$` son los residuos de una regresión de `$x_1$` en `$x_2$`.

- Luego, podemos hacer una regresión de `$y$` en `$\hat{r}_{i1}$` para obtener `$\hat\beta_1$`.

- Los residuos `$\hat r_{i1}$` son la parte de `$x_{i1}$` que no esta correlacionada con `$x_{i2}$`.

- En otras palabras  `$\hat r_{i1}$` es `$x_{i1}$` luego de que los efectos de `$x_{i2}$` han sido "partialled-out".

---
##Bondad de Ajuste `$(R^2)$`

`$SST = \sum_{i=1}^n (y_i - \bar y)^2$`; `$SSE = \sum_{i=1}^n (\hat y_i - \bar y)^2$`; `$SSR = \sum_{i=1}^n \hat\mu_i^2$`

`$$R^2 = SSE/SST = 1 - SSR/SST$$`

- Expresión alternativa de `$R^2$` para regresión múltiple:

`$$R^2= \frac{(\sum_{i=1}^n (y_i-\bar y)(\hat{y_i} - \bar{\hat y}))^2}{(\sum_{i=1}^n (y_i-\bar y)^2) (\sum_{i=1}^n(\hat{y_i} - \bar{\hat y})^2)}$$`

- Coeficiente de correlacion al cuadrado entre `$y$` e `$\hat y$`.

---
## `$R^2 = \rho_{xy}^2$`

<div class="centered-word">
  <h1>.black[Pizarrón...]</h1>
</div>

---
## Ejemplo:

`$$\hat {narr86_m} = 0.712 - 0.150pcnv85_m - 0.034 ptime86_m - 0.104 qemp86_m$$`
`$$n= 2725; R^2=0.413$$`

Donde:

- `$narr86_m$`: número de arrestos.
- `$pcnv85_m:$` Proporción de arrestos en 1985 que llevaron a cárcel.
- `$ptime86_m:$` Meses en prisión promedio 1986.
- `$quem86_m:$`trimestres empleados en 1986

**Interprete cada coeficiente.**

---
## Ejemplo (continuación):

`$$\hat{narr86_m} = 0.707 - 0.151pcnv85_m + 0.0074 avgsen85_m \\ - 0.037 ptime86_m - 0.103 qemp86_m$$`
`$$n= 2,725; R^2=0.422$$`

Donde:

- `$avgsen85_m:$` sentencia promedio en meses en 1985.

- `$R^2$` aumenta muy poco ¿vale la pena incluir ese regresor?

- Primero, no depende del tamaño de `$R^2$` sino de su importancia teórica/empírica.

---
## `$R^2$` Ajustada

- SSR siempre se reduce con la inclusión de un nuevo regresor. `$R^2$` sólo puede aumentar o mantenerse.

`$$y_i = \hat\beta_0 + \hat\beta_1 x_{i1} + \hat\beta_2 x_{i1}$$`

- Si el control `$x_{i2}$` tiene sentido teórico/empírico y `$cov(x_i2,y_i) \ne 0$`; `$cov(x_{i2},x_{i1}) = 0$`

- ¿qué tanto aumento es "suficiente" para cada `$m$` regresor?

`$$adjR^2 = 1 - (1-R^2) \frac {n-1} {n-m-1}$$`

- Si el regresor no aumenta lo suficiente `$R^2$`, la expresión entera de `$adjR^2$` no aumenta.

---
## Outline

- Regresión Múltiple.

- **.blue[Supuestos Estándar.]**

- Sesgo y Variables irrelevantes.

- Varianza de estimadores.

- Notación Matricial.

---
## Supuestos Estándar

- **Supuesto MLR1.** Linealidad en parámetros:

En la población la relación entre `$x$` e `$y$` es lineal.

`$$y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \beta_k x_k + \mu$$`

- **Supuesto MLR2.** Los datos son una muestra aleatoria de la población:

`$$\{ (x_{i1},x_{i2}, x_{ik} : i= 1...n ) \}$$`

`$$y = \beta_0 + \beta_1 x_{i1} + \beta_2 x_{i2} + \beta_k x_{ik} + \mu_i$$`

---

## Supuestos Estándar

- **Supuesto MLR3.** No colinealidad perfecta:

En la población y en la muestra no hay variables *independientes constantes* y *no existen relaciones exactas* entre éstas.

- Las "variables" constantes son colineales con el intercepto.

- Sólo la colinealidad(correlación) perfecta entre `$x_{ij}$` y `$x_{ik}$` no permite la estimación de los parámetros.

- Una variable perfectamente colineal de otra en realidad es *superflua.*

- Una alta colinealidad aun permite estimación pero es menos precisa.

* Lo demostraremos más adelante.

---

## Supuestos Estándar (ejemplo MLR3)

Ecuación de resultados escolares en función de gastos en la estudiante `$i$`:

`$$avgscore_{if} = \beta_0 + \beta_1 edexpend_{if} + \beta_2 avginc_f + \mu_{if}$$`

- En una muestra pequeña el gasto de la familia en educación `$edexpen_{if}$` puede ser una fracción exacta del ingreso familiar `$avginc_f$`.
 
- En ese caso no es posible separar sus efectos porque hay covarianza exacta.

*Piense en una regresión que integre las proporciones del gasto en publicidad de MC en redes vs. el resto de gasto en publicidad:*

---

## Supuestos Estándar (ejemplo MLR3)

Ecuación de consumo en función del ingreso:

`$$cons_i = \beta_0 + \beta1 inc_i + \beta_2 inc_i^2+ \mu$$`

- `$inc_i^2$` no es una combinación lineal de `$inc_i$`.

¿Si aplicamos logaritmos?

`$$log(cons) = \beta_0 + \beta_1 log(inc) + \beta_2 log(inc^2) + \mu$$`

- Esto viola MLR3. Usar: `$[log(inc)]^2$`

---
## Supuestos Estándar

- **Supuesto MLR4. Zero Conditional Mean Independence Assumption:**

`$$E(u| x_{1}, x_{2}... x_{k})=0$$`

- El valor de las variables explicativas no debe contener información acerca de los factores no observables en `$\mu$`.

- Es más facil de cumplir porque menos cosas relacionadas con `$x_{i1}$`, por ejemplo, terminan en el error.

---
## Teorema de Gauss-Markov

**Bajo MLR1-MLR4:**

`$$E(\hat\beta_j) = \beta_j; j= 0,1,2...k$$`

- Estimadores son insesgados *en muestras repetidas* (los estimadores aun pueden estar lejos en cualquiera muestra).

- We hope that we have obtained a sample that gives us an estimate close to the population value, but this cannot be assured.

- What is assured is that we have no reason to believe our estimate is more likely to *be too big* or more likely to *be too small*.

---
## Outline

- Regresión Múltiple.

- Supuestos Estándar.

- **.blue[Sesgo y Variables Irrelevantes.]**

- Varianza de estimadores.

- Notación Matricial.

---
## Sesgo por omisión

- Modelo poblacional:
$$ y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \mu$$

- Si `$x_2$` y `$x_1$` están correlacionados:

`$$x_2 = \delta_0 + \delta_1 x_1 + \epsilon$$`
`$$y = \beta_0 + \beta_1 x_1 + \beta_2(\delta_0+\delta_1x_1+\epsilon)+\mu$$`

- Estimamos:

`$$y = \beta_0 + \beta_1 x_1 + w$$`
`$$y = (\beta_0 + \beta_2\delta_0) + (\beta_1 + \beta_2\delta_1)x_1 + (\beta_2 \epsilon + \mu)$$`

- Si `$\beta_2$` ó `$\delta_1$` son cero. No hay OVB (Omitted Variable Bias)

---
## Sesgo por omisión ejemplo

`$$deuda_f = \beta_0 + \beta_1 educpadre_f + \beta_2 miembros_f + \mu_f$$`
`$$miembros_f = \delta_0 \pm \delta_1 educfather_f + \epsilon$$`
`$$deuda_f = (\beta_0 + \beta_2 \delta_0) + (\beta_1 \pm \beta_2\delta_1) educfather_f + (\beta_2 \epsilon +\mu)$$`
El efecto de la educación del padre en la deuda del hogar puede estar sobre o subestimada, dependiendo de correlación con `$miembros$`.

---
## Sesgo por omisión con datos

``` r
repet <- 1000
n <- 1000
beta <- NULL

set.seed(1234567)

for (i in 1:repet){
  x1 <- rnorm(n) #n values for x1
  x2 <- rnorm(n) + .1*x1  #correlate x1 and x2 in 0.1
  u <-  rnorm(n) #random error
  y=2+2*x1+1*x2+u #we define y, so that beta1=2 and beta2=1
  beta[i] <- lm(y~x1)$coef[2] #we collect all B1s and we omit X2 in regression!
}

hist(beta, main="Biased estimator, n=1000", xlim = c(1.9,2.3)) 
abline(v = mean(beta), col="red", lwd=3, lty=2 )
abline(v = 2, col="blue", lwd=3, lty=2)
```

---
## Sesgo por omisión con datos

---
## Sesgo en `$\beta_1$` a través de `$x_2$`

- Las variables `$x_{ik}$` correlacionadas con el término de error son **endógenas**.

- Las variables `$x_{ik}$` no correlacionadas son **exógenas**.

- MLR4 se mantiene si *toda* `$x_{ik}$` es **exógena**.

- Si otra `$x_{ik}$` se relaciona con `$\mu$` esto puede sesgar `$x_{i1}$`

---
## Sesgo en `$\beta_1$` a través de `$x_2$`

- Modelo poblacional:

`$$y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \mu$$`

- `$x_2$` y `$x_1$` correlacionados:

`$$x_2 =  \delta_1 x_1$$`

- Si `$x_2$` y `$\mu$` están correlacionados: `$E(\mu|x_2) \ne 0$`

`$$\mu = \gamma_1 x_2 + \epsilon$$`

`$$y = \beta_0 + \beta_1 x_1 + \beta_2(\delta_1 x_1) + (\gamma_1 x_2 + \epsilon)$$`

- Estimamos:

`$$y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + w$$`
`$$y = \beta_0 + \beta_1 x_1 + \beta_2(\delta_1 x_1) + \gamma_1 (\delta_1 x_1) + \epsilon$$`
`$$y = \beta_0 + (\beta_1 + \beta_2\delta_1 + \gamma_1\delta_1)x_1 + \epsilon$$`

---
## Sesgo en `$\beta_1$` a través de `$x_2$`

``` r
repet <- 1000
n <- 1000
beta <- NULL

set.seed(1234567)

for (i in 1:repet){
  x1 <- rnorm(n) #n values for x1
  x2 <- .1*x1   #function of x1 
  u <- (rnorm(n, mean=0) + .5*x2) #correlate error to x2
  y=2+2*x1+2*x2+u # we define y, so that beta1=2 and beta2=1
  beta[i] <- lm(y~x1+x2)$coef[2] #we collect all B1s and we include B2 in regression!
  }

hist(beta, main="Biased estimator, n=1000", xlim = c(1.95,2.25)) 
abline(v = mean(beta), col="red", lwd=3, lty=2 )
abline(v = 2, col="blue", lwd=3, lty=2)
```

---
## Sesgo en `$\beta_1$` a través de `$x_2$`

---
## Generalización del Sesgo por Omisión

Modelo verdadero, en la población: 
`$$y= \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \beta_3 x_3 + \mu$$`

Modelo estimado:
`$$\hat y = \hat \beta_0 + \hat \beta_1 x_1 + \hat \beta_2 x_2 + w$$`
1) No es posible establecer la dirección del sesgo, si `$x_3$` se relaciona con cada otra `$x_j$` positiva/negativamente ¿cuál domina?

2) Si `$x_2$` y `$x_3$` no están correlacionadas, pero `$x_1$` está correlacionada con `$x_3$` (omitida), `$\hat \beta_2$` igual se sesga a través de la correlación con `$x_1$`

3) Con esto, ambos estimadores `$\hat \beta_1$` y `$\hat \beta_2$` están sesgados.

---
## Generalización del Sesgo por Omisión

- Sólo queda hacer supuestos y "aislar" teóricamente el posible sesgo.

- Por ejemplo, en:

`$$wage = \beta_0 + \beta_1 educ + \beta_2 exper + \beta_3 abil + \mu$$`

- Si asumimos `$exper$` no correlacionada con `$educ$` y `$abil$` la dirección del sesgo de `$\beta_2$` por variable omitida (como en regresión simple):

`$$plim \hat \beta_2 = \beta_2 + \frac {cov(x_2,\mu)} {var(x_2)}$$`

---
## Generalización del Sesgo por Omisión

- Nuevamente, en:

`$$wage = \beta_0 + \beta_1 educ + \beta_2 exper + \beta_3 abil + \mu$$`

- Si  `$abil$` se omite, y asumimos `$exper$` no correlacionada con `$educ$` ni con `$abil$`, la dirección del sesgo de `$\beta_1$` es:

`$$plim \hat \beta_1 = \beta_1 + \beta_3 \frac {cov(x_1, x_3)} {var(x_1)}$$`
- *Sin embargo, los más probable es que `$cov(exper; educ) \ne 0$`*

---
## Variables irrelevantes

`$$\hat y = \hat\beta_0 + \hat\beta_1 x_1 + \hat\beta_2 x_2 + \hat\beta_3 x_3 + \hat\mu$$`
Donde: 
`$$E(\hat\beta_3)=\beta_3=0$$`
- No hay problema en términos de sesgo.

¿Qué sucede con el poder explicativo de nuestro modelo si la correlación entre `$x_3$` and `$y$` es bajo? Utilice alguna fórmula para mostrarlo.

---
## Outline

- Regresión Múltiple.

- Supuestos Estándar.

- Sesgo y Variables Irrelevantes.

- **.blue[Varianza de estimadores.]**

- Notación Matricial.

---
#Supuestos Estándar (continuación)

**Supuesto MLR5.** Homoscedasticidad:

`$$var(u_i | x_{i1}, x_{i2}... x_{ik}) = \sigma^2$$`

El valor de las  explicativas no debe contener información de la varianza de los factores no observados.

- En corto:

`$$var (u_i|x_i)= \sigma^2$$`

Donde `$x_i=(x_{i1},x_{i2}..x_{ik})$`

- Si la varianza cambia con cualquier `$x_{ik}$` entonces existe **Heteroscedasticidad**

---
## Varianza de `$\hat\beta$`

---
## Varianza de `$\hat\beta$`

$$ \hat\beta = \beta + \frac {cov(x,\mu)}{var(x)}$$

Donde:
`$$cov (x,\mu) = \sum_{i=1}^n (x_i - \bar x) (\mu_i - \bar \mu)$$`
`$$\hat\beta = \beta + \frac {\sum_{i=1}^n (x_i - \bar x) \mu_i} {\sum_{i=1}^n (x_i - \bar x)^2}$$`
`$$var(\hat \beta | x_i) = var \left( \frac {\sum_{i=1}^n (x_i - \bar x) \mu_i} {\sum_{i=1}^n (x_i - \bar x)^2} \right)$$`

---
## Varianza de `$\hat\beta$`

- Donde: `$\sum_{i=1}^n u_i = u_1 + u_2 + u_3... +u_k$`

- Recuerde: `$\color{red} {var (x_1 + x_2) = var(x_1) + var(x_2) + 2 cov(x_1,x_2)}$`

- **Asumimos que no existe correlación serial.** Entonces: `$cov(\mu_i,\mu_j)=0$`

- Esto es, independencia en errores: `$E(\mu_i,\mu_j)=0$`

- **Asumimos:** `$cov(x_j,x_k)=0$` (i.e. entre `$k$` vectores x); no multicolinearidad.
- **Además**: `$cov(x_i;x_j)=0$` (i.e. intra cada vector x); no hay *clusters*.

---
## Varianza de `$\hat\beta$`

- Recuerde: `$\color{red} {var (ax) = a^2 var(x)}$`

Entonces:

`$$var(\hat \beta | x_i) = \frac {\sigma^2} {\sum_{i=1}^n (x_i - \bar x)^2}$$`

Donde: `$\sigma^2 = \sum_{i=1}^n \mu_i^2$`

* Recuerde, que esa estimación de `$\sigma^2$` está sesgada, pero lo solucionamos un un momento.

---
## Demostración de varianza de `$\hat\beta$`

<div class="centered-word">
  <h1>.black[Pizarrón...]</h1>
</div>

---
## Varianza de `$\hat\beta$` bajo Heteroscedasticidad

`$$var(\hat \beta | x_i) = \frac {\sum_{i=1}^n (x_i - \bar x)^2 \sigma^2_i} {\left( \sum_{i=1}^n (x_i - \bar x)^2 \right)^2}$$`

Solución:

`$$var(\hat \beta | x_i) = \frac {\sum_{i=1}^n (x_i - \bar x)^2 \hat \mu^2_i} {\left( \sum_{i=1}^n (x_i - \bar x)^2 \right)^2}$$`

Estos son los *White-Huber Standard Errors*

Con `$cov(\mu_i,\mu_j)=0$` y `$cov(x_i,x_j)=0$`

---
## Varianza de `$\hat\beta$` bajo Correlación Serial: `$cov(\mu_i,\mu_j) \ne 0$`

Partiendo de:

`$$var(\hat \beta | x_i) = \frac {\sum_{i=1}^n (x_i - \bar x)^2 \sigma^2} {\left( \sum_{i=1}^n (x_i - \bar x)^2 \right)^2}$$` 
`$$var(\hat \beta | x_i) = \frac {\sum_{i=1}^n (x_i - \bar x)^2 \sigma^2 + 2cov(\sigma_i,\sigma_j)} {\left( \sum_{i=1}^n (x_i - \bar x)^2 \right)^2}$$`

Bajo MLR5 pero con `$cov(\mu_j,\mu_k)\ne 0$`:

`$$var(\hat \beta | x_i) = \frac {\sum_{i=1}^n\mu_i^2} {\sum_{i=1}^n (x_i - \bar x)^2} + \frac {2cov(u_i,u_j)} {\left( \sum_{i=1}^n (x_i - \bar x)^2 \right)^2}$$`
Estos son los *Newey-West Standard Errors*.

---
## Varianza de `$\hat\beta$` bajo Correlación Serial: `$cov(\mu_i,\mu_j) \ne 0$`

- Si no se considera la correlación serial, los errores son más altos. No es un gran problema para este curso, sí para series de tiempo.

- Es más importante en cohorte transversal `$cov(x_i, x_j)$`, pero lo analizaremos después.

- En todo caso si `$(x_i- \bar x)^2 \to \infty$`; `$var(\hat\beta|x_i) \to 0$`

- Si `$n \to \infty$`; `$var(\hat\beta|x_i) \to 0$`

- Si `$\sum_{i=1}^n \mu_i^2 \to \infty$` ; `$var(\hat\beta|x_i) \to \infty$`

---
## Varianza de `$\hat\beta$` con datos: `$sd(x) = 0.5$`

``` r
repet <- 1000
n <- 50
beta_var <- NULL

set.seed(1234567)

for (i in 1:repet){
  x1 <- rnorm(n, sd=0.5) #n values for x1
  u <-  rnorm(n) #random error
  y=2+5*x1+u # we define y, so that beta1=5
  model <- lm(y~x1)
  beta_var[i] <- vcov(model)[2, 2] #we collect all var of B1s 
}

hist(beta_var, main="Variance of Beta, sd(x)=0.5") 
abline(v = mean(beta_var), col="red", lwd=3, lty=2 )
```

---
## Varianza de `$\beta$` con datos: `$sd(x) = 0.5$`

---
## Varianza de `$\beta$` con datos: `$sd(x) = 2$`

``` r
repet <- 1000
n <- 50
beta_var <- NULL

set.seed(1234567)

for (i in 1:repet){
  x1 <- rnorm(n, sd=2) #n values for x1
  u <-  rnorm(n) #random error
  y=2+5*x1+u # we define y, so that beta1=5
  model <- lm(y~x1)
  beta_var[i] <- vcov(model)[2, 2] #we collect all var of B1s 
}

hist(beta_var, main="Variance of Beta, sd(x)=2") 
abline(v = mean(beta_var), col="red", lwd=3, lty=2 )
```

---
## Varianza de `$\beta$` con datos: `$sd(x) = 2$`

---
## Varianza de `$\beta$` con datos: `$cov(u_i,u_j)\ne 0$`

``` r
library(MASS)
library(sandwich)
library(lmtest)
repet <- 1000
n <- 50
beta_var <- NULL
beta_var_nw <- NULL

set.seed(1234567)

for (i in 1:repet){
  x1 <- rnorm(n, sd=2) #n values for x1
  u <- runif(n, min=0, max=1)  
  y=2+5*x1+u # we define y, so that beta1=5
  model <- lm(y~x1)
  beta_var[i] <- vcov(model)[2, 2] #we collect all var B1s 
  nw_se <- coeftest(model, vcov = NeweyWest(model))
  beta_var_nw[i] <- nw_se[2,2] #we collect all var B1s 
}

hist(beta_var_nw, main="Variance of Beta, sd(x)=2" ,  xlim = c(0,0.05)) 
abline(v = mean(beta_var), col="red", lwd=3, lty=2 )
hist(u)
```
---
## Varianza de `$\beta$` con datos: `$cov(u_i,u_j)\ne 0$`

---
## Varianza de `$\beta$` con `$cov(x_j,x_k)>0$`

- Con correlación entre, por ejemplo, `$x_1$` y `$x_2$`.

`$$var(\hat \beta_j) = \frac {\sigma^2} {\sum_{i=1}^n (x_{ij}  - \bar x_j)^2 (1 - R^2_j)}$$`
- Donde  `$R^2_j$` viene de una regresión de `$X_j$` en todas las demás variables independientes `$X_k$`.

- `$R^2_j$` indica la correlación (al cuadrado) de `$X_j$` con las otras explicativas.

- La varianza de `$\hat \beta_j$` es mayor entre más se relacione `$x_j$` con las otras `$x_k$`, esto es **multicolinearidad**.

- Multicolinearidad no viola MLR3.

---
## Ejemplo de Multicolinearidad

$$avgscore_s = \beta_0 + \beta_1 teachexpend_s + \beta2 matexpend_s +...+ u $$

- Si una escuela tiene mucho presupuesto todos sus gastos son altos.

- Intuitivamente, esto aumenta `$var(\hat\beta_k)$`, pues es dificil estimar con precisión el efecto de cada categoría de gasto.

- En este caso, como hay alta *multicolinearidad*, quizá sea mejor tener una sola variable de gasto.

- **Sólo las variables correlacionadas tendrán `$\hat\beta$` con alta varianza.**

---
## Variance Inflation Factor (VIF)

- La multicolinearidad se puede detectar a través de los VIF:

`$$VIF_j = 1/(1-R_j^2)$$` 
- Como regla de dedo debe estar bajo 10.

- No son tan utilizados en la práctica.

- El cambio brusco en `$var(\beta)$` es el mejor medidor ante la inclusión de `$x_j$`.

- Si `$E(\hat\beta_2) = 0$`, y `$cov(x_1, x_2) > 0$` y `$var(\hat\beta_1)$` crece, no hay por qué incluir `$x_2$`.

---
## Summing up

Colinealidad perfecta: `$cov(x_j,x_k)=1$`; viola MLR3.

Heteroscedasticidad: `$var(\hat\beta|x_i)$` = `$\sigma^2_i$`  ; aumenta `$se(\hat\beta_1).$`

Correlación serial: `$cov(u_i,u_j)\ne 0$` ; aumenta/disminuye `$se(\hat\beta_1).$`

Multicolinearidad: `$cov(x_j,x_k)\to 1$`; tiende a aumentar `$se(\hat\beta_1).$`

**No memoricen esto, entiéndanlo.**

---
## Varianza de `$\hat u$`
Insesgada (recuerde de Tema 2):
`$$\hat\sigma^2= \frac{1}{n-k-1} \sum_{i=1}^n \hat u_i^2$$`
`$$var(\hat\beta | x_i) =   \frac{\frac{1}{n-k-1} \sum_{i=1}^n \hat u_i^2} {{1 \over n} \sum_{i=1}^n (x_i-\bar x)^2}$$`
- El estimador insesgado de esta varianza se puede obtener al sustraer el número de `$(k)$` regresores a `$n-1$`

- *Bajo MLR1 a MLR5*: `$E(\hat\sigma^2)=\sigma^2$`

---
## Desviación Estándar de `$\hat\beta$`

Por lo que el Error Estándar es:

`$$se(\hat\beta_j) = \sqrt{var(\hat \beta_j)} = \sqrt{ \frac {\hat\sigma^2} {\sum_{i=1}^n (x_{ij}  - \bar x_j)^2 (1 - R^2_j)}}$$`

---
## Eficiencia de MCO

- Bajo MLR1 a MLR5 OLS es insesgado.

- Sin embargo pueden haber otros estimadores insesgados.

- Por ejemplo, OLS es BLUE bajo MLR1-MLR5, pero si existe heteroscedasticidad, hay otros métodos más eficientes.

- *Veremos esto en Tema 6*.

---
## Outline

- Regresión Múltiple.

- Supuestos Estándar.

- Sesgo y Variables Irrelevantes.

- Varianza de estimadores.

- **.blue[Notación Matricial.]**

---
## Aproximación Lineal

Considere un combinación lineal arbitraria:

`$$\tilde\beta_1 + \tilde\beta_2x_2 + ... \tilde\beta_k x_k$$`

Donde `$\tilde\beta_1...\tilde\beta_k x_k$` son constantes a ser escogidas.

La diferencia entre el valor ajustado y y el observado de y es:

`$$y_i - [\tilde\beta_1 + \tilde\beta_2x_2 + ... \tilde\beta_k x_k],$$`
Los valores de x para individuo `$i$` y los valores `$\beta$` como vectores transpuestos:

`$$x_i' = (\color{green}{1}, x_{i1}, x_{i2}... x_{ik})$$`
`$$\tilde\beta' = (\color{green}{\tilde\beta_0}, \tilde\beta_1 ,  \tilde\beta_2... \tilde\beta_{k})$$`
---
## Aproximación Lineal

- Donde: 
`$$\hat S(\tilde\beta) = {1 \over n} \sum_{i=1}^n(y_i - x_i'\tilde\beta)^2 = {1 \over n} SSR(\tilde\beta)$$`
- como `$\hat{S}(B)$` es una escala de `$SSR(\beta)$` podemos minimizar SSE.

`$$SSR(\beta) = (\sum_{i = 1}^{n}y_i^{2})-2\tilde\beta'(\sum_{i = 1}^{n}x_iy_i)+\tilde\beta'(\sum_{i = 1}^{n}x_ix'_i)\tilde\beta$$`

This is a vector-valued quadratic function. Minimized:

`$$0 = \frac{\partial}{\partial \beta} SSE( \tilde{\beta})= -2 \sum_{i = 1}^{n} x_iy_i + 2\sum_{i = 1}^{n}x_i x'_i\tilde{\beta}$$`
This is using a single expression, but it is  a system of `$k$` equations with `$k$` unknowns (the elements of `$\tilde\beta$`).

---
## Aproximación Lineal

- We can solve the system of equations or write compactly:

`$$(\sum_{i = 1}^{n}x_i x'_i)\tilde{\beta} = (\sum_{i = 1}^{n} x_iy_i)$$`

`$$b = (\sum_{i = 1}^{n}x_i x'_i)^{-1} (\sum_{i = 1}^{n} x_iy_i)$$`
- Donde `$b$` es para cada `$x_k$`.

- Esto si `$\sum_{i = 1}^{n}x_ix'_i>0$` que es una matrix `$k \times k$` es invertible (**No multicolinearidad: MLR3**).

- La combinación lineal de `$x_i$` está dada por: `$\hat y= x_i'b$`

---
## Notación Matricial
- Utilizamos algo análogo para la matriz `$X$`.

`$$X = \left[
\begin{array}{c}
1 & x_{12} & \dots & x_{1k}\\
\vdots & \vdots & & \vdots\\
1 & x_{n2} & \dots & x_{nk}\\
\end{array}
\right]
= \left[
\begin{array}{c}
x_{1}' \\
\vdots \\
x_{n}' \\
\end{array}
\right] , y = 
\left[ \begin{array}{c}
y_{1} \\
\vdots \\
y_{n} \\
\end{array}
\right]$$`

- Entonces: `$y_i - x_i'\tilde\beta$` para `$n$` observaciones: `$y_i - X\tilde\beta$`

- Queremos minimizar:

`$$S(\tilde\beta) =  (y - X\tilde\beta)^2 = (y - X\tilde\beta)'(y - X\tilde\beta)$$`
`$$= y'y - 2 y'X\tilde\beta + \tilde\beta'X'X\tilde\beta$$`
---
## Notación Matricial

- Dado esto: `$${\partial SSR(\tilde\beta) \over \partial(\tilde\beta) }= -2(X'y - X'X\tilde\beta)=0$$`

*eq. (2.18) en Verbeek. Reglas de diferenciación en Apéndice.

** `$$b = (X'X)^{-1}(X'y)$$` **
- Donde `$b$` es un vector `$k \times 1$` de `$\hat \beta s$`.

- Con `$\sum_{i = 1}^{n}x_ix'_i = X'X$` invertible.

---
## MLR3. Colinealidad perfecta

- Suponga una matriz X con k=2:

`$$X = \left[
\begin{array}{c}
2 & 1 \\
4 & 2\\
\end{array}
\right]$$`

- Donde: 
`$$A^{-1} = {1 \over {ad-bc}} \times 
\left[
\begin{array}{c}
d & -b \\
-c & a\\
\end{array}
\right]$$`

- **Invierta X'X.**

---
##Projection Matrix

- Note que: 
`$$y=X\color{green}{b} + e$$` 
`$$= X\color{green}{(X'X)^{-1}X'y} + e$$`
`$$= \hat {y} + e$$`

- Donde: `$\hat y = Xb = \color{gren}{X(X'X)^{-1}X'}y = \color{green}{P}y$`

- `$\color{green}P$` es la matriz que proyecta el vector y en las columnas (o el espacio-columna) de X.

- Encuentra la mejor aproximación lineal de `$y$` de las columnas en matriz X (regresores)

- Por esta propiedad `$\color{green}P$` se conoce como **The hat matrix**.

- Note que: `$PX= X(X'X)^{-1}X'X=X$`

---
##Annhilator Matrix

- Note que:

`$$e = (y - \hat y) = (y - Xb) = (I - P)y$$`
- Donde `$M = (I - P)$`,  es la **Anhilator Matrix**. I es la matriz identidad.

`$$I-Py = My$$`

- `$M$` entonces crea los residuos:

`$$My = y - Py = Y - Xb = \hat{e}$$`
- Los residuos son ortogonales a X porque:

`$$MX = (I - P)X = X - PX = X - X = 0$$`
- Además: `$MP = 0$`. *Mecánicamente* no tiene nada en común la proyección de Y con los residuos.

---
##Projection

- We can visualize LS fitting as a projection operation.

- Matrix `$X = [X_1, X_2... X_k.]$`

- The range space `$\mathcal{R}(X)$` of `$X$` is the space consisting of all linear combinations of columns `$X_1,X_2,...X_k$`.

- Hence `$\mathcal{R}(X)$` is a `$k$` dimensional surface contained in `$\mathbb{R}^n$`.

- If `$k=2$`, `$\mathcal{R}(X)$` is a plane. Operator `$P= X(X'X)^{-1}X'$` projects vectors onto  `$\mathcal{R}(X)$` (the plane)

- `$\hat{Y}=PY$` are the projection of Y onto `$\mathcal{R}(X)$`

---
##Visualization

- The plane created by `$X_1$` and `$X_2$` is the range space `$\mathcal{R}(X)$`

- `$\hat{Y}$` are linear combinations of `$X_1$` and `$X_2$` and lie in such plane.

- `$\hat{Y}$` is the closet to `$Y$` on this plane.  `$\hat{Y}$` and `$\hat{e}$` (orthogonal)

---

<div class="centered-word">
  <h3>.black[¿Dudas?]</h3>
  <h3>.black[francisco.cabrera@cide.edu]</h3>
</div>