class: center, middle # Tema 2. Regresión Simple ### Econometría #### Licenciatura en Economía #### Dr. Francisco J. Cabrera-Hernández Otoño 2024 ##### CIDE Santa Fe, Ciudad de México. --- ## Outline - **.blue[Regresión Econométrica]** - Regresión Simple. - Mínimos Cuadrados Ordinarios (MCO). - Bondad de ajuste. - Supuestos Estándar de MCO. - No linealidades. --- ## ¿Efecto Causal? "If you sweat together you stay together" <div class="figure" style="text-align: center"> <img src="data:image/png;base64,#parejas.jpg" alt=" " width="100%" /> <p class="caption"> </p> </div> --- ## Problemas para causalidad - Variables omitidas (No observables) - Causalidad inversa (Life Expectancy and Growth) - Autoselección (Universidad Pública vs. Privada) - *Selection Bias*. --- ## Causalidad Reversa <div class="figure" style="text-align: center"> <img src="data:image/png;base64,#reverse.png" alt=" " width="100%" /> <p class="caption"> </p> </div> --- <div class="figure" style="text-align: right"> <img src="data:image/png;base64,#causation.png" alt=" " width="110%" /> <p class="caption"> </p> </div> --- ## Ejercicio: - Denote la ecuación formal intentando medir el efecto de leer libros en la salud de las personas. - ¿Es una relación ceteris paribus? - ¿Qué necesitaría para medir este efecto de manera causal? ¿Es factible? **¿Es de interés?** --- ## Es fácil mentir con el uso de datos... ...**pero es difícil convencer de la verdad sin su uso:** "La gente que duerme más tiempo es más inteligente." ["La gente que va a misa vive más años."](https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0177618) "El hermano menor es el más guapo." --- ## Contra factual <div class="figure" style="text-align: right"> <img src="data:image/png;base64,#contra.png" alt=" " width="110%" /> <p class="caption"> </p> </div> --- ## Contra factual - La experimentación y la econometría buscan deshacerse del problema del contrafactual (i.e. que no existe). - Identifica o "genera" un grupo de control que aproxima el contrafactual para encontrar el efecto de A en B. - Busca dejar todo lo demás que no observamos, y que puede mediar la relación causal entre A y B, igual o constante: “ceteris paribus”. --- ## Modelo Econométrico - Model of job training and worker productivity: `$$wage = f(educ, exper, training)$$` - Other factors are relevant but these are the most important. `$$wage = \beta_0 + \beta_1 educ + \beta_2 exper + \beta_3 training + \mu$$` - `\(\mu\)` includes unobserved determinants: innate abbility, quality of education, SES... - Dealing with the error term is the purpose of modern applied econometrics. --- ## Modelo econométrico - Nuestra variable de interés es `\(avgsen_m\)`: la sentencia promedio en municipio `\(m\)` en años `$$crime_m = \beta_0 + \beta_1 wage_m + \beta_2 freqarr_m \\ + \beta_3 freqconvic_m + \beta_4 avgsent_m + \mu$$` - ¿Qué contiene `\(\mu\)`? - ¿Es factible un *experimento*? --- ## Modelo econométrico Nuestra variable de interés es `\(hrstud_i\)`: las horas que estudua cada `\(i\)` `$$score_i = \beta_0 + \beta_1 hrstud_i + \beta_2 promedio_i \\ + \beta_3 asistencia_i + ...+ \mu$$` ¿Qué contiene `\(\mu\)`? ¿Es factible un *experimento*? --- ## Modelo Econométrico y Regresión - Un experimento es más efectivo para invocar el *ceteris paribus* pero no siempre se puede jecutar. - El asunto es que la regresión por sí misma no resuelve el problema del contrafactual. - Para *ceteris paribus* necesitaríamos integrar al modelo de regresión y "dejar fijas así" todas las variables que afectan (Y) y se relacionan con nuestra variable de interés. - No obstante, la regresión pone las bases estadísticas para buscar **estrategias de identificación** que permiten estimar un contrafactual. - Comenzaremos estudiando lo más básico… --- ## Modelo Econométrico y Regresión “Even without resolving the difficult question of causality, however, it’s clear that education predicts earnings in a narrow statistical sense. This predictive power is compellingly summarized by the conditional expectation function (CEF).” **Joshua Angrist – Mostly Harmless Econometrics** --- ## Outline - Regresión Econométrica - **.blue[Regresión Simple.]** - Mínimos Cuadrados Ordinarios (MCO). - Bondad de ajuste. - Supuestos Estándar de MCO. - No linealidades. --- ## Regresión Simple - Explica `\(Y\)` en términos de `\(X\)` (teóricamente o "en la población") `$$Y = \beta_0 + \beta_1 X + \mu$$` Donde: - Y: variable dependiente - X: variable independiente - `\(\mu\)`: término de error - Este modelo dificilmente se aplica en la realidad pero es útil por razones pedagógicas. --- ## Regresión Simple <div class="figure" style="text-align: center"> <img src="data:image/png;base64,#vars.png" alt=" " width="110%" /> <p class="caption"> </p> </div> --- ## Regresión Simple - Estudia cómo varía `\(y\)` con cambios en `\(x\)` `$$Y = \beta_0 + \beta_1 X + \mu$$` `$${dy \over dx} = \beta_1$$` - Siempre y cuando: `$${du \over dx} = 0$$` - *Todo lo demás constante* cuando `\(x\)` aumenta marginalmente (e.g. en una unidad) --- ## Regresión Simple - Es decir, tiene una interpretación causal si y sólo si: `$$E(u)=0$$` `$$E(u|x)=0$$` - La variable explicativa no contiene información sobre el promedio de los *no observables*. - De esto depende el cambio *verdadero* en `\(Y\)` dado el cambio en `\(X\)`. `$$E(u|x)=E(u)=0$$` - Cuando esto se cumple, `\(\mu\)` es *mean-independent* de x. - Esta es la **zero-conditional mean-independence assumption** - Esto no quiere decir que `\(\mu\)` sea *variance-independent* de `\(x\)` (Tema 6) --- ## Regresión Simple - Formalmente: `$$wage = \beta_0 + \beta_1 educ + \mu$$` `$$ability \to \mu$$` `$$E(\mu|x) =_{def} E(abil|educ)=0$$` `$$E(abil|educ=8) = E(abil|educ=9)$$` - El modelo requiere que la habilidad promedio sea la misma independiente de la educación del individuo. - Es poco probable que el supuesto de *zero-conditional mean-independence assumption* se cumpla. --- ## Regresión Simple - En otras palabras el término de error `\((\mu)\)` debe ser "*as good as random*". - Habilidad, en este ejemplo, debiera ser *as good as random*. - Por eso `\(\mu\)` se conoce también como **término estocástico**. - Cualquier no observable que no sea `\(E(u|x)=0\)` (i.e. independiente u ortogonal) hace que `\(\beta_1\)` no esté **"identificada"**. - Para que `\(\beta_1\)` sea **"identificada"** su estimación debe ser insesgada: `\(E(\hat\beta)=\beta\)` --- ## Conditional Expectation Function (CEF) recap. - CEF de una dependiente `\(Y\)` dado un vector de variables X, es el valor esperado o promedio de la población. `$$E[y|x] =_{def} E[y|x=42]$$` - CEF es un concepto teórico o aplicado a *la población* - Es la base para definir la regresión lineal como Population Regression Function (PRF) --- ## Population Regression Function - La zero-conditional mean-independence assumption implica que: dado que `\(y = \beta_0 + \beta_1 x + \mu\)` `$$E(y|x) = E(\beta_0 + \beta_1 x + \mu | x)$$` `$$=\beta_0 + \beta_1 x + E(x|u)$$` `$$=\beta_0 + \beta_1 x$$` - Es decir, el valor esperado de la variable dependiente puede ser expresado como una función lineal de la variable explicativa. --- ## Population Regression Function <div class="figure" style="text-align: center"> <img src="data:image/png;base64,#PRF.png" alt=" " width="70%" /> <p class="caption"> </p> </div> `\(E(y|x)\)`, es una función linear de x. La linearidad permite interpretar: "aumento de una unidad en `\(x\)` cambia el valor esperado de `\(y\)` en la *cantidad* `\(\beta_1\)`" --- ## Término de error `\(\mu\)` - El término de error no sólo "absorbe" las variables no observables. Por ejemplo: `$$consumo = \beta_0 + \beta_1 ingreso + \mu$$` Posibles fuentes de *error*: - Consumer uncertainty is hard to measure (omitted variable) - Observed consumption different than actual consumption (measurement error) - The consumption function might not be linear (different functional form) - Some random event (purely random, *not a big problem*) --- ## Estimación de la PRF - Partiremos de utlizar n datos aleatorios i.i.d. `$$\{(X_i, Y_i) : i = 1 ... n\}$$` <div class="figure" style="text-align: center"> <img src="data:image/png;base64,#fitline.png" alt=" " width="70%" /> <p class="caption"> </p> </div> --- ## Ejemplo: - Sueldo de CEO en función del ROE: `$$salary = \beta_0 + \beta_1ROE + \mu$$` salary: thousands of dollars roe: percentage. `$$\hat{salary} = 963.191 + 18.501 ROE + \hat\mu$$` - Si el ROE aumenta en 1 p.p. el salario cambia 18,501 dólares. - El *residuo* `\(\hat{\mu}\)` es la estimación con datos del error `\(\mu\)`, donde `\(E(\mu)\)`=0. --- ## Linea ajustada (fitted-line) vs. linea poblacional - Linea "ajustada" depende de la muestra: <div class="figure" style="text-align: center"> <img src="data:image/png;base64,#ROE.jpg" alt=" " width="70%" /> <p class="caption"> </p> </div> --- ##Datos para estimación de la PRF <div class="figure" style="text-align: center"> <img src="data:image/png;base64,#ROEdata.jpg" alt=" " width="90%" /> <p class="caption"> </p> </div> ¿cómo obtenemos `\(\hat u\)` y `\(\hat{salary}\)`? --- ## Estimación en R ``` r library(wooldridge) #Regresión simple: data("ceosal1") reg <- lm(salary ~ roe, data = ceosal1) summary(reg) ``` ``` ## ## Call: ## lm(formula = salary ~ roe, data = ceosal1) ## ## Residuals: ## Min 1Q Median 3Q Max ## -1160.2 -526.0 -254.0 138.8 13499.9 ## ## Coefficients: ## Estimate Std. Error t value Pr(>|t|) ## (Intercept) 963.19 213.24 4.517 1.05e-05 *** ## roe 18.50 11.12 1.663 0.0978 . ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ## ## Residual standard error: 1367 on 207 degrees of freedom ## Multiple R-squared: 0.01319, Adjusted R-squared: 0.008421 ## F-statistic: 2.767 on 1 and 207 DF, p-value: 0.09777 ``` --- ## Estimación en R ``` r #Scatterplot con linea ajustada: plot(ceosal1$roe , ceosal1$salary, xlab = "ROE", ylab = "Salary", main = "Regression line ROE vs Salary") abline(reg,col='red') ``` <img src="data:image/png;base64,#regsimple_files/figure-html/unnamed-chunk-11-1.png" width="50%" style="display: block; margin: auto;" /> --- ## "As good as possible" - ¿Qué hace una regresión "as good as possible"? - ¿Qué nos asegura que esta regresión es la **"Best Linear Unbiased Estimation (BLUE)"**? - En otras palabras ¿que nos asegura que tenemos los menores residuos y se centran en cero? --- ## Outline - Regresión Econométrica - Regresión Simple. - **.blue[Mínimos Cuadrados Ordinarios (MCO).]** - Bondad de ajuste. - Supuestos Estándar de MCO. - No linealidades. --- ## Mínimos Cuadrados Ordinarios (MCO) - OLS: *Ordinary Least Squares* (en Inglés) - Residuos: `$$\hat{y_i} = \hat\beta_0 + \hat\beta_1 x_i$$` `$$\hat\mu = y_i - \hat{y_i} =_{def} y_i - \hat\beta_0 - \hat\beta_1 x_i$$` - Queremos minimizar el cuadrado de la suma de los residuos: `$$min \sum{\hat\mu_i^2} \to \hat{\beta_0}, \hat{\beta_1}$$` - Para llegar a los estimadores de MCO para `\(\beta_1\)` y `\(\beta_0\)`: `$$\hat\beta_1 = {\sum_{i=1}^n (x_i - \bar{x}) (y_i - \bar{y}) \over \sum_{i=1}^n (x_i-\bar{x})^2 }$$` `$$\hat\beta_0 = \bar{y} - \beta_1\bar{x}$$` --- ## Derivación de MCO <style> .centered-word { position: absolute; top: 35%; left: 50%; transform: translate(-50%, -50%); } </style> <div class="centered-word"> <h1>.black[Pizarrón...]</h1> </div> --- ## Derivación de MCO: Método de Momentos. La zero conditional mean assumption implica: `\(E[\mu|x]= \color{green}{E[\mu]=0}\)` ; `\(cov(x,u) = E[xu]=0\)` `\(\color{green}{E[y-\beta_o - \beta_1 x]=0}\)`; `\(E[x(y-\beta_o - \beta_1 x)]=0\)` El equivalente muestral de estas expresiones es: `$$\color{green}{n^{-1} \sum_{i=1}^n(y_i - \hat\beta_0 - \hat\beta_1 x_i)=0}$$` `$$n^{-1} \sum_{i=1}^n x_i(y_i - \hat\beta_0 - \hat\beta_1 x_i)=0$$` Dado `\(\bar y \equiv n^{-1} \sum_{i=1}^n y_i\)`, entonces: `\(\color{green}{\bar y = \hat\beta_0 + \hat\beta_1 \bar x}\)` `\(\to \color{green}{\hat\beta_0 = \bar{y}- \hat\beta_1 \bar{x}}\)` --- ## Derivación de MCO: Método de Momentos. - Sustituyendo `\(\color{green}{\hat\beta_0 = \bar y - \hat\beta_1 \bar x}\)` en el segundo momento: `$$n^{-1} \sum_{i=1}^n x_i[y_i - \color{green}{(\bar y - \hat\beta_1 \bar x)} - \hat\beta_1 x_i]=0$$` `$$\sum_{i=1}^n x_i(y_i-\bar y) = \hat\beta_1 \sum_{i=1}^n x_i(x_i-\bar x)$$` - Si: `\(\sum_{i=1}^n x_i(x_i-\bar x) = \sum_{i=1}^n (x_i-\bar x)^2 > 0\)` `$${\hat\beta_1} = \frac{\sum_{i=1}^n (x_i - \bar x) (y_i - \bar y)}{\sum_{i=1}^n (x_i-\bar x)^2}$$` Esta es la representación muestral de `\(cov(x,y)/var(x)\)` --- ## Derivación de MCO: Método de Momentos. ¿Qué pasa si? `$$\sum_{i=1}^n x_i(x_i-\bar x) = \sum_{i=1}^n (x_i-\bar x)^2 = 0$$` <div class="figure" style="text-align: center"> <img src="data:image/png;base64,#varxx.png" alt=" " width="65%" /> <p class="caption"> </p> </div> --- ## Regresión lineal simple - Modelo de Sueldo y educacion (teórico): `$$wage = \beta_0 +\beta_1 educ + \mu$$` - Regresión ajustada (estimada): `$$\hat{wage} = -0.90 + 0.54 educ$$` - Dibuje (aproximadamente) la línea ajustada. --- #Propiedades Algebráicas de MCO 1) `\(\sum_{i=1}^n\hat\mu_i=0\)`: residuos de MCO suman cero. 2) `\(\sum_{i=1}^n {x_i\hat\mu_i}=0\)`: correlación entre residuos y regresores es cero. 3) `\(\bar{y} = \hat\beta_0 + \hat\beta_1 \bar{x}\)`: los promedios de y,x se encuentran en la recta de regresión. 4) `\(\bar{\hat y} = \bar{y}\)`: por lo anterior. 5) `\(y_i = \hat{y_i} + \hat{\mu_i}\)` 6) `\(\sum_{i=1}^n \hat\mu(y_i - \bar{y})=0\)`: por (1) --- ## Outline - Regresión Econométrica - Regresión Simple. - Mínimos Cuadrados Ordinarios (MCO). - **.blue[Bondad de ajuste.]** - Supuestos Estándar de MCO. - No linealidades. --- ## Descomposición de la varianza de MCO `$$SST = SSR + SSE$$` - Total Sum of Squares (SST): `\(\sum_{i=1}^n (y_i - \bar{y})^2\)` - Residual Sum of Squares (SSR): `\(\sum_{i=1}^n \hat\mu_i^2\)` - Explained Sum of Squares (SSE): `\(\sum_{i=1}^n (\hat{y_i} - \bar{y})^2\)`; porque: `\(\bar{\hat y} = \bar{y}\)` <div class="figure" style="text-align: center"> <img src="data:image/png;base64,#sst.png" alt=" " width="75%" /> <p class="caption"> </p> </div> --- ## Prueba SST = SSR + SSE `$$\sum_{i=1}^n (y_i - \bar y)^2 = \sum_{i=1}^n [(y_i - \hat{y_i}) + (\hat{y_i} - \bar{y})]^2$$` `$$= \sum_{i=1}^n [\hat{\mu_i} + (\hat{y_i} - \bar{y})]^2$$` `$$= \sum_{i=1}^n \hat{\mu_i}^2 + 2 \sum_{i=1}^n \hat{\mu_i} (\hat{y_i} - \bar{y}) +(\hat{y_i} - \bar{y})^2$$` `$$SST = SSR + 2 \sum_{i=1}^n \hat{\mu_i} (\hat{y_i} - \bar{y}) + SSE$$` - Donde: `\(\sum_{i=1}^n \hat{\mu_i} (\hat{y_i} - \bar{y}) = 0\)` (vea propiedad 6) - Note que nombres pueden cambiar SSE = ESS = Regression Sum of Squares (RSS) `\(\ne\)` Residual Sum of Squares (SSR) --- ## Bondad de ajuste (Goodness of Fit) - ¿Qué tan bien se ajusta la linea de regresión a los datos? - ¿Qué tan bien explica la X a la Y? `$$SST = SSE + SSR$$` - Si dividimos esto entre SST = `\(1 = \frac{SSE}{SST} + \frac{SSR}{SST}\)` - `\((R^2)\)` Medida de bondad de ajuste: `$$R^2 = \frac{SSE}{SST}= 1-\frac{SSR}{SST}$$` - El valor de `\(R^2\)` está siempre entre 0 y 1 porque SSE no puede ser mayor que SST. --- ## Ejemplo de `\(R^2\)` `$$\hat{salary} = 963.191 + 18.501 roe$$` `$$n=209, R^2 = 0.0132$$` - La regresión explica el 1.3% de la variación total en salarios. ``` ## ## Call: ## lm(formula = salary ~ roe, data = ceosal1) ## ## Residuals: ## Min 1Q Median 3Q Max ## -1160.2 -526.0 -254.0 138.8 13499.9 ## ## Coefficients: ## Estimate Std. Error t value Pr(>|t|) ## (Intercept) 963.19 213.24 4.517 1.05e-05 *** ## roe 18.50 11.12 1.663 0.0978 . ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ## ## Residual standard error: 1367 on 207 degrees of freedom ## Multiple R-squared: 0.01319, Adjusted R-squared: 0.008421 ## F-statistic: 2.767 on 1 and 207 DF, p-value: 0.09777 ``` --- ## Ejemplo de `\(R^2\)` `$$n=209, R^2 = 0.0132$$` <img src="data:image/png;base64,#regsimple_files/figure-html/unnamed-chunk-15-1.png" width="65%" style="display: block; margin: auto;" /> --- # `\(R^2\)` El tamaño "no importa" - **Precaución**: una alta `\(R^2\)` no significa que se tiene un buen modelo econométrico (causal). - **Precaución**: el tamaño de la `\(R^2\)` no es tan importante cuando se busca causalidad. - Es útil para comparar entre modelos "anidados". Donde: `$$wage = \beta_0 + \beta_1 educ + \mu$$` `$$R^2 = 0.018$$` es un "modelo anidado" de: `$$wage = \beta_0 + \beta_1 educ + \beta_2 exper + \mu$$` `$$R^2 = 0.025$$` --- ## Outline - Regresión Econométrica - Regresión Simple. - Mínimos Cuadrados Ordinarios (MCO). - Bondad de ajuste. - **.blue[Supuestos Estándar de MCO.]** - No linealidades --- ## Supuestos Estándar de MCO - ** Supuesto 1 (SLR1):** Los datos son aleatoriamente extraídos de la población \{ `\((x_i, y_i)\)`: i = 1 ... n\} - Y reflejan la ecuación poblacional: `\(y = \beta_0 + \beta_1 x + \mu\)` - Los estimadores `\((\hat\beta_1\)` , `\(\hat\beta_2)\)` son **aleatorios** porque se calculan con datos que vienen de **muestras aleatorias** `\((x_i, y_i)\)` - Los estimadores tienen un promedio si se obtienen de `\(k\)` muestras repetidas: `\(E(\hat\beta_0)\)`; `\(E(\hat\beta_1)\)` - Por lo tanto, también **tienen varianza** normal si `\(n \to \infty\)`: `\(var(\hat\beta_0)\)`; `\(var(\hat\beta_1)\)` --- ## Supuestos Estándar de MCO - **Supuesto 2 (SLR2):** En la población existe *linealidad en los parámetros* `$$y = \beta_0 + \beta_1 x + \mu$$` - Si SLR1 y SLR2, los datos podrían distribuirse al rededor de PRF: <div class="figure" style="text-align: center"> <img src="data:image/png;base64,#random.jpg" alt=" " width="65%" /> <p class="caption"> </p> </div> --- ## Supuestos Estándar de MCO **Supuesto SLR3:** Existe variación en `\(x_i\)` ("Matriz positiva definida.") `$$\sum (x_i-\bar x)^2 > 0$$` **Supuesto SLR4:** *Zero-conditional mean-independence*. La variable explicativa no debe contener información sobre el promedio de los no observables. `$$E(u_i|x_i)=0$$` --- ##Estimadores insesgados `\((\hat\beta_0; \hat\beta_1)\)` **Teorema:** Bajo los supuestos SLR1-SLR4: `\(E(\hat \beta_o)=\beta_0\)`, `\(E(\hat\beta_1)=\beta_1\)` Interpretación: - Los estimadores `\((\hat\beta)\)` pueden estar abajo o encima de `\(\beta\)` poblacional dependiendo de la muestra. Esto debiera ser aleatorio. - En promedio (en `\(k\)` muestras repetidas) serán iguales al valor **verdadero** de `\(\beta\)`. Aproximando **insesgadamente** el valor *verdadero* de la relación entre `\(x\)` e `\(y\)`. --- ##Estimadores insesgados `\((\hat\beta_0; \hat\beta_1)\)` - Demostración con datos para `\(\hat\beta_1\)`: ``` r repet <- 1000 n <- 1000 beta <- NULL set.seed(1234567) for (i in 1:repet){ x <- rnorm(n) #n i-values for x between 0 and 30 u <- rnorm(n) #DO NOT correlate u to x y=2+2*x+u # we define PRF, so that beta is 2 by definition. beta[i] <- lm(y~x)$coef[2] #we collect all betas 1 from our 1000 estimations in one vector. } hist(beta, main="Unbiased estimator", xlim = c(1.9,2.1) ) abline(v = mean(beta), col="red", lwd=3, lty=2 ) abline(v = 2, col="blue", lwd=3, lty=2) ``` --- ##Estimadores insesgados `\((\hat\beta_0; \hat\beta_1)\)` - Demostración con datos para `\(\hat\beta_1\)`: <div class="figure" style="text-align: center"> <img src="data:image/png;base64,#regsimple_files/figure-html/unnamed-chunk-18-1.png" alt=" " width="55%" /> <p class="caption"> </p> </div> --- ##Estimadores sesgados `\((\hat\beta_0; \hat\beta_1)\)` - Demostración con datos para `\(\hat\beta_1\)`: ``` r repet <- 1000 n <- 1000 beta <- NULL set.seed(1234567) for (i in 1:repet){ x <- rnorm(n) #n i-values for x between 0 and 30 u <- (rnorm(n)+.1*x) #correlate u to x, this biases and makes x inconsistent #(the higher the correlation, the bigger the bias). y=2+2*x+u # we define PRF, so that beta is 2 by definition. beta[i] <- lm(y~x)$coef[2] #we collect all betas 1 from our 1000 estimations in one vector. } hist(beta, main="Unbiased estimator", xlim = c(1.9,2.3) ) abline(v = mean(beta), col="red", lwd=3, lty=2 ) abline(v = 2, col="blue", lwd=3, lty=2) ``` --- ##Estimadores sesgados `\((\hat\beta_0; \hat\beta_1)\)` - Demostración con datos (Monte Carlo) para `\(\hat\beta_1\)`: <div class="figure" style="text-align: center"> <img src="data:image/png;base64,#regsimple_files/figure-html/unnamed-chunk-20-1.png" alt=" " width="55%" /> <p class="caption"> </p> </div> --- ## Estimador sesgado (Demostración formal) - **Omitted Variable Bias (violación de SRL4)** `$$plim(\hat\beta)= \frac{cov(x_i,y_i)}{var(x_i)}$$` `$$= \frac{cov(x_i,\beta_0+\beta_1x_i+\mu_i)}{var(x_i)}$$` $$ = \frac{cov(x_i,\beta_0)}{var(x_i)}+\frac{cov(x_i,\beta_1x_i)}{var(x_i)}+\frac{cov(x_i,\mu_i)}{var(x_i)}$$ Si `\(cov(x_i,\mu_i)=0\)` *(bajo SLR4)*: `\(plim(\hat\beta)= 0 + \beta_1 + 0 = \beta_1\)` **(Insesgada)** Si `\(cov(x_i,\mu_i)\ne 0\)` *(violación de SLR4)*: `\(\color{navy}{plim(\hat\beta)= \beta_1 + \frac{cov(x_i,\mu_i)}{var(x_i)}}\)` **(Sesgada)** --- ## Varianza de los Estimadores - Dependiendo de la muestra los esitimadores están más o menos lejos del valor verdadero de la población. - Esta es la varianza surgida por el muestreo: `$$var(\hat\beta_0); var(\hat\beta_1)$$` - **Supuesto 5 (SLR5):** Homoskedasticity (Homoscedasticidad) `$$var(\mu_i|x_i) = \sigma^2$$` - El valor de `\(x\)` no contine información sobre la *variabilidad* de los "no observables". --- ## Homoscedasticidad <div class="figure" style="text-align: center"> <img src="data:image/png;base64,#homos.jpg" alt=" " width="75%" /> <p class="caption"> </p> </div> --- ## Heteroscedasticidad <div class="figure" style="text-align: center"> <img src="data:image/png;base64,#heteros.jpg" alt=" " width="85%" /> <p class="caption"> </p> </div> --- ## Varianza del error `$$y = \beta_0 + \beta_1x + u$$` Bajo SLR4: `\(E(u)=0\)` `$$Var(u) = E[(u - E(u))^2] = E(u)^2 = \sigma^2$$` Por lo tanto: `$$U \tilde{} N(0, \sigma^2)$$` **Con Homoscedasticidad.** --- ## Varianza del residuo - Bajo SLR5: `$$var(u_i|x_i)= \sigma^2 = var(u_i)$$` `$$var(\tilde\sigma^2) = \frac{1}{n} \sum_{i=1}^n (\hat\mu_i - \bar{\hat\mu_i})^2 =\frac{1}{n} \sum_{i=1}^n \hat\mu_i^2$$` - Donde `\(\frac{1}{n} \sum_{i=1}^n \mu_i^2 = SSR\)` es el estimador de `\(\tilde\sigma^2\)`. - Se puede demostrar que `\(\tilde\sigma^2\)` está sesgado, por lo que: `$$\hat\sigma^2 = \frac{1}{n-2} \sum_{i=1}^n \hat\mu_i^2 = {SSR\over n-2}$$` - Este es el estimador insesgado de la varianza del residuo donde `\(k=2\)` es el número de restricciónes de primer orden. --- ##Varianza del residuo insesgada **Teorema:** - **Bajo SLR1-SLR5**: `$$E(\hat\sigma^2) = \sigma^2$$` - Recuerde que `\(\hat\sigma^2\)` sólo se obtiene bajo homoscedasticidad (después quitamos esta restricción). - Estos estimadores de la varianza y SE **no son válidos con heteroscedasticidad**. Están sesgados. --- ## Varianza de los estimadores - Bajo SLR1-SLR5: `$$var(\hat\beta_1) = \frac{\hat\sigma^2}{\sum_{i=1}^n(x_i - \bar x)^2} = \frac{\hat\sigma^2}{SSTx}$$` `$$var(\hat\beta_0) = \frac{\hat\sigma^2n^{-1}\sum_{i=1}^nx_i^2}{\sum_{i=1}^n(x_i - \bar x)^2} = \frac{\hat\sigma^2n^{-1}\sum_{i=1}^nx_i^2}{SSTx}$$` - Con más variación en `\((\hat\mu_i)\)`, más dificil conocer variación sistematica entre `\(x\)` e `\(y\)`. Entonces mayor la variación de `\(\hat\beta_1\)` (menor precisión). - Con más variación en `\(x\)` (denominador) se puede saber más sobre variación de `\(y\)`, entonces es menor la variación de `\(\hat\beta_1\)` (mayor precisión). - Si `\(n\to \infty\)` más información sobre `\(x\)` y menor la varianza de `\(\hat\beta_1\)`. --- ##Error estándar de los estimadores - Con error estándar (SE): `$$se(\hat\beta_1) = \sqrt{{var}(\hat\beta_1)} = \sqrt{\color{green}{\hat\sigma^2}/SSTx}$$` - Ejemplo ecuación de Mincer en pesos: `$$wage = 2400 + 240 educ$$` `$$\quad\quad\quad (800) \quad (430)$$` Los errores estándar son útiles para obtener intervalos de confianza y test de hipótesis de estimadores. --- ## Outline - Regresión Econométrica - Regresión Simple. - Mínimos Cuadrados Ordinarios (MCO). - Bondad de ajuste. - Supuestos Estándar de MCO. - **.blue[No linealidades.]** --- ## No linealidades I - Si: `$$E(u_i|x_i)=E(u_i)=0$$` `$$var(u_i|x_i)=var(u_i)=\sigma^2$$` - Entonces, `$$\mu \sim N(0,\sigma^2)$$` - Si `\(y\)` no se distribuye normal, el residuo no se distribuye normal. Piense en la relación *salario* - *educación* - Una manera de "suavizar" la distribución de "ingreso" es aplicando logaritmo natural. --- ## No linealidades I `$$log(wage)= \beta_0 + \beta_1educ + \mu$$` `$$\beta_1 = \displaystyle \frac{\partial log(wage)}{\partial educ}=\frac{1}{wage} \cdot \frac{\partial wage}{\partial educ} = \frac{\frac{\partial wage}{ wage}}{\partial educ}$$` - Esto es el cambio porcental en *wage* ante el cambio en educación en años. `$$\% \Delta wage = (100 \cdot \beta_1) \Delta educ$$` `$$\hat\log(wage) = 0.584 + 0.083 educ$$` - El aumento en *wage* es de 8.3% por cada año de educación extra (todo lo demás constante) --- ## No linealidades I `$$\hat\log(wage) = 0.584 + 0.083 educ$$` <div class="figure" style="text-align: center"> <img src="data:image/png;base64,#logwage.jpg" alt=" " width="35%" /> <p class="caption"> </p> </div> <div class="figure" style="text-align: center"> <img src="data:image/png;base64,#loglog.png" alt=" " width="65%" /> <p class="caption"> </p> </div> --- ## No linealidades I - Sueldo de CEO y ventas de la firma: `$$log(salary)= \beta_0 + \beta_1log(sales) + \mu$$` `$$\beta_1 = \frac{\frac{\partial salary}{salary}}{\frac{\partial sales}{sales}}$$` - Esto es el cambio porcental en *salary* / ante el cambio porcentual en *sales* `$$log(salary)= 4.822 + 0.257log(sales)$$` - Esta es una elasticidad. - **Nota:** `\((\beta_0)\)` sólo cambia su escala y se interpreta como *log-points* --- <style> .centered-word { position: absolute; top: 50%; left: 35%; transform: translate(-50%, -50%); } </style> <div class="centered-word"> <h3>.black[¿Dudas?]</h3> <h3>.black[francisco.cabrera@cide.edu]</h3> </div> <div class="figure" style="text-align: right"> <img src="data:image/png;base64,#bullseye.png" alt=" " width="45%" /> <p class="caption"> </p> </div>