class: center, middle # Tema 5. Regresión Multiple II ### EconometrÃa #### Licenciatura en EconomÃa #### Dr. Francisco J. Cabrera-Hernández Otoño 2024 ##### CIDE Santa Fe, Ciudad de México. --- ## Outline - **.blue[Propiedades Asintóticas.]** - Información Qualitativa (dummies). - Interacciones. - Modelo de probabilidad lineal. --- ## Propiedades de OLS finitas y asintóticas: **Propiedades de OLS que aplican para cualquier tamaño de muestra:** - Valores esperados insesgados: MLR1 - MLR4. - Varianza de `\(\hat\beta_j\)` bajo MLR1 - MLR5. - Distribuciones muestrales exactas y sus tests bajo MLR1 - MLR6. **Propiedades de OLS que aplican cuando `\(n \to \infty\)` (asintóticamente)** - Consistencia bajo MLR1 - MLR4. - Normalidad asintótica bajo MLR1 - MLR5. - Eficiencia bajo MLR1 - MLR5. --- ## Consistencia - Un estimador `\(\theta_n\)` es consistente para el parámetro `\(\theta\)` si: $$ \color{green}{P(|\theta_n - \theta| < \epsilon ) \to 1; n\to\infty}$$ Similar: `$$plim {} \theta_n = \theta$$` - La consistencia es el requerimiento mÃnimo para tener estimadores sensatos. --- ## Consistencia - Bajo MLR1 - MLR4: `$$plim \hat\beta_j = \beta_j; j=,1... k$$` - En regresión simple, bajo MLR4. `$$plim \hat\beta_1= \beta_1 + {{Cov(x_1,u)} \over {var(x_1)}}$$` - En regresión múltiple `$$E(u|x_j)=0; cov(x_j,0)=0$$` - Para estimadores insesgados toda `\(x_j\)` no debe estar relacionadas con error. - **Si los estimadores son insesgados, son consitentes cuando `\(n \to \infty\)`.** --- ## Consistencia `$$y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \mu$$` - Recuerde, si `\(cov(x_2,\mu)=0\)`; pero `\(cov(x_1,\mu)\ne0\)`: - Ambos estimadores están sesgados por `\(cov(x_1, x_2)\ne 0\)`. - Ambos estimadores tampoco serán consistentes. Esto quiere decir que el sesgo no desaparece cuando `\(n \to \infty\)` `$$plim \hat\beta_j \to \beta_j + \frac {cov(x_j,u)} {var(x_j)}; n \to \infty$$` --- ## Consistencia con datos ``` r repet <- 1000 n <- 1000 beta1 <- NULL set.seed(1234567) for (i in 1:repet){ x1 <- rnorm(n) #n i-values for x1 x2 <- (rnorm(n)+.1*x1) #correlate x1 to x2 u <- rnorm(n) y=2+2*x1+1*x2+u # we define y beta1[i] <- lm(y~x1+x2)$coef[2] #we collect all B1s. No Bias! } hist(beta1, main="Unbiased and consistent, n=1000" ) abline(v = mean(beta), col="red", lwd=3, lty=2 ) abline(v = 2, col="blue", lwd=3, lty=2) ``` --- ## Consistencia con datos, n=1000 <img src="data:image/png;base64,#regmulti2_files/figure-html/unnamed-chunk-2-1.png" width="70%" style="display: block; margin: auto;" /> --- ## Inconsistencia con datos, n=100 ``` r repet <- 1000 n <- 100 beta1 <- NULL set.seed(1234567) for (i in 1:repet){ x1 <- rnorm(n) #n values for x1 x2 <- .1*x1 #function of x1 u <- (rnorm(n, mean=0) + .5*x2) #correlate error to x2 y=2+2*x1+1*x2+u # we define y, so that beta1=2 and beta2=1 beta1[i] <- lm(y~x1+x2)$coef[2] #we collect all B1s and we include B2 in regression! } hist(beta1, main="Biased estimator, n=100", xlim = c(1.6,2.6)) abline(v = mean(beta1), col="red", lwd=3, lty=2 ) abline(v = 2, col="blue", lwd=3, lty=2) ``` --- ## Inconsistencia con datos, n=100 <img src="data:image/png;base64,#regmulti2_files/figure-html/unnamed-chunk-4-1.png" width="70%" style="display: block; margin: auto;" /> --- ## Inconsistencia con datos, n=1000 <img src="data:image/png;base64,#regmulti2_files/figure-html/unnamed-chunk-5-1.png" width="70%" style="display: block; margin: auto;" /> --- ##Consistencia para X exogena. ``` r repet <- 1000 n <- 1000 beta1 <- NULL beta2 <- NULL set.seed(1234567) for (i in 1:repet){ x1 <- rnorm(n) #n i-values for x1 x2 <- rnorm(n) u <- (rnorm(n)+.2*x2) #we correlate x2 with the error making B2 biased and unconsistent. y=2+2*x1+1*x2+u # we define y. beta1[i] <- lm(y~x1+x2)$coef[2] #we collect all B1s and we include b2 in regression that is correlated with error. beta2[i] <- lm(y~x1+x2)$coef[3] } hist(beta1, main="Unbiased and consistent, n=1000") hist(beta2, main="Biased and inconsistent, n=1000") #as long as x1 is not correlated with U, B1 remains unbiased and consistent. ``` --- ## `\(\hat\beta_1\)` insesgada y consistente <img src="data:image/png;base64,#regmulti2_files/figure-html/unnamed-chunk-7-1.png" width="70%" style="display: block; margin: auto;" /> --- ## `\(\hat\beta_2\)` sesgada e inconsistente <img src="data:image/png;base64,#regmulti2_files/figure-html/unnamed-chunk-8-1.png" width="70%" style="display: block; margin: auto;" /> --- ## Normalidad asintótica e inferencia - In practice, the normality assumption MLR.6 is questionable. - If MLR.6 does not hold, **the results of t- or F-tests may be wrong** - F- and t-tests are consistent if `\(n \to \infty\)`. **Also confidence intervals.** - Also, OLS estimates are normal in large samples **even without MLR.6** Under assumptions MLR.1 – MLR.5 and `\(n \to \infty\)` `$$\frac {(\hat\beta_j - \beta_j)} {se(\hat\beta_j)} \tilde N(0,1); n \to \infty$$` --- ## Varianza del estimador y su eficiencia - Igualmente: `$$plim \text{ } \hat\sigma^2 = \sigma^2$$` - Aunque no se necesite MLR6, aun necesario MLR5 para calcular: `$$var(\hat \beta_j) = \frac {\hat\sigma^2} {\sum_{i=1}^n (x_i - \bar x)^2}$$` - Donde `\({\sum_{i=1}^n (x_i - \bar x)^2}\)` converge a `\(n \text{ . } var(x)\)` - `\(\hat{var}(\hat\beta_j)\)` se reduce a la tasa 1/n - `\(SE(\hat\beta_j)\)` se reduce a la tasa `\(\sqrt{1/n}\)` - La tasa a la que `\(\hat\beta_j\)` converge a `\(\beta_j\)` se refiere a la **eficiencia del estimador** --- ## Eficiencia con datos, n=50 ``` r repet <- 1000 n <- 50 beta1 <- NULL set.seed(1234567) for (i in 1:repet){ x1 <- rnorm(n) #n i-values for x1 x2 <- (rnorm(n)+.1*x1) #correlate x1 to x2 u <- rnorm(n) y=2+2*x1+1*x2+u # we define y, so that beta1=2 and beta2=10 by definition. beta1[i] <- lm(y~x1+x2)$coef[2] #we collect all B1s. No Bias! } hist(beta1, main= "Unbiased and consistent, n=50") abline(v = mean(beta1), col="red", lwd=3, lty=2, xlim = c(1.5,2.5) ) abline(v = 2, col="blue", lwd=3, lty=2) ``` --- ## Eficiencia con datos, n=50 <img src="data:image/png;base64,#regmulti2_files/figure-html/unnamed-chunk-10-1.png" width="65%" style="display: block; margin: auto;" /> --- ## Eficiencia con datos, n=1000 <img src="data:image/png;base64,#regmulti2_files/figure-html/unnamed-chunk-11-1.png" width="65%" style="display: block; margin: auto;" /> --- ##Eficiencia de estimadores <img src="data:image/png;base64,#regmulti2_files/figure-html/unnamed-chunk-12-1.png" width="65%" style="display: block; margin: auto;" /> --- ##Velocidad de convergencia a tasa 1/n ``` r library(ggplot2) repet <- 1000 beta_estimates <- NULL running_means <- NULL # Set seed for reproducibility set.seed(123456) # Simulate beta estimates and calculate the running mean for (i in 1:repet) { x <- rnorm(repet) u <- rnorm(repet) y <- 2 + 2 * x + u # Define y, with beta_1 = 2 beta_estimates[i] <- lm(y ~ x)$coef[2] running_means[i] <- mean(beta_estimates[1:i]) } # we then plot the running mean... ``` --- ##Velocidad de convergencia a tasa 1/n <img src="data:image/png;base64,#regmulti2_files/figure-html/unnamed-chunk-14-1.png" width="65%" style="display: block; margin: auto;" /> --- ## Outline - Propiedades Asintóticas. - **.blue[Información Qualitativa (dummies).]** - Interacciones. - Modelo de probabilidad lineal. --- ## Variable *Dummy* - Expresan información qualitativa como género, raza, industria, región, o un rating/grado. - Pueden aparecer como dependiente o independiente en nuestro modelo. Primero estudiamos caso *independiente*. - Una variable dummy simple: `$$wage = \beta_0 + \delta_0 female + \beta_1 educ + u$$` - Donde female = 1 si mujer, y female=0 si individuo es hombre. --- ## Variable *Dummy* `$$wage = \beta_0 + \delta_0 female + \beta_1 educ + u$$` - Donde female = 1 si mujer, y female=0 si hombre. <div class="figure" style="text-align: center"> <img src="data:image/png;base64,#dummy.png" alt=" " width="50%" /> <p class="caption"> </p> </div> `$$\delta_0 = E(wage | female = 1, educ) - E(wage| female = 0, educ)$$` --- ## Dummy Trap `$$wage = \beta_0 + \gamma_0 male + \delta_0 female + \beta_1 educ$$` - Esta regresión no puede ser estimada ¿por qué razón? - Por lo tanto cuando se utilizan variables dummy se debe omitir una categorÃa `$$wage = \beta_0 + \delta_0 female + \beta_1 educ + u$$` - Aquà la categorÃa base es *hombre*. La diferencia en sueldo de las mujeres *respecto a hombres* esta dada por `\(\delta_0\)`. - Y viceversa en: `$$wage = \beta_0 + \delta_0 male + \beta_1 educ + u$$` --- ## Variable *Dummy* `$$\hat{wage} = -1.57 (0.72) - 1.81 (0.26) female + 0.572 (0.049) educ + \\ 0.025 (0.012) exper + 0.141 (0.021) tenure$$` *SE entre paréntesis - Sueldo se encuentra en dólares por hora. - ¿cuál es el efecto de ser mujer en el sueldo? - ¿cuánto ganan los hombres/mujeres sin educación, experiencia y tenure en promedio? - ¿cuánto ganan un hombre/mujer con 10 años de educación en promedio y sin experiencia y tenure? --- ## Variable *Dummy* - Se puede testear si diferencia entre subpoblaciones es significativa. `$$\hat{wage} = 7.10(0.21) - 2.51 (0.26) female$$` - Note que diferencia entre hombre y mujeres es significativa y más grande si no se controla por experiencia, eduación y tenure. - ¿Es significativamente más grande? ¿cómo puede probarlo? --- ## Ejemplo: datos de la vida real - Este paper explora "descriptivamente" (no causal) diferencias de género en trabajo no remunerado del hogar. <div class="figure" style="text-align: center"> <img src="data:image/png;base64,#TNRH.png" alt=" " width="70%" /> <p class="caption"> </p> </div> --- ## Ejemplo Variable *Dummy* - Precio de departamentos: `$$\hat{log(price)} = -1.35(0.65) + 0.168(0.038) log(lotsize) + \\ 0.707(0.093) log(sqrft) + 0.027 (0.029) bdrms - 0.543(0.153)elpara$$` - Donde "elpara" es una dummy que identifica con "1" si el departamento está en "el paraiso" y "0" *otherwise*. - Interprete el coeficiente ¿qué otras variables dummy incluirÃa? --- ## Ejemplo: datos de la vida real `$$gasto_{ih} = \beta_0 + \delta_0 remesas_ + X_{ih} + u$$` - Donde `\(X_{ih}\)` es un vector de controles a nivel individuo - hogar. - Utiliza datos de ENIGH, EMIF y US Censo. <div class="figure" style="text-align: center"> <img src="data:image/png;base64,#remesa.png" alt=" " width="90%" /> <p class="caption"> </p> </div> - Una evaluación de un programa (social) implica el uso de dummies. --- ## Ejemplo: múltiples categorÃas - Salarios por estado civil. La categorÃa base es "hombre soltero": $$\hat{log(wage)} = 0.321(0.100) + 0.213 (0.055) marrmale $$ `$$+ 0.198(0.058)marrfem - 0.110(0.056) singfem$$` `$$+ 0.079 (0.007) educ + 0.027(0.005)exper + 0.00054 (0.00023) exper^2$$` `$$+ 0.079 (0.007) - 0.00053 (0.00023) tenure^2$$` - Interprete cada dummy. - ¿Cuál es el efecto de pasar de uno a dos años de experiencia ceteris paribus? --- ## Ejemplo: regiones `$${log(wage)} = \beta_0 + + \delta_0 female + \beta_1 educ + \beta_2 region + u$$` - Si región toma el valor 1 a 5 ¿cómo interpreta `\(\beta_2\)`? - Lo mejor es estimar esto con un *set de dummies:* `$${log(wage) = \beta_0 + + \delta_0 female + \beta_1 educ + \sum_{j=2}^5 \theta_j region_j + u}$$` --- ## Outline - Propiedades Asintóticas. - Información Qualitativa (dummies). - **.blue[Interacciones.]** - Modelo de probabilidad lineal. --- ## Modelos con interacciones `$$price = \beta_0 + \beta_1 sqrft + \beta_2 bdrms + \beta_3 sqrft * bdrms + \beta_4 bthrms + u$$` `$$\frac {\partial price} {\partial bdrms} = \beta_2 + \beta_3 sqrft$$` - El efecto del número de habitaciones depende del nivel del de *square footage* del departamento. - `\(\beta_2\)` = Efecto de número de *bedrooms* pero para un *square footage* de cero. - `\(var(x_2) + var(x_3) + 2cov(x_2,x_3)\)` se necesita para obtener el SE de la interacción. --- ## Modelos con interacciones - Para facilitar interpretación de parámetros, $$price = \beta_0 + \beta_1 sqrft + \beta_2 bdrms + $$ `$$\beta_3 (sqrft - \bar {sqrft}) * (bdrms - \bar{bdrms})$$` `$$+ \beta_4 bthrms + u$$` - Los valores *de-meaned* de *sqrft* y *bdrms* permiten la interpretación de `\(\beta_2\)` como el efecto de *bdrms* en el promedio de sqrft. - La ventaja es que, `\(SE(\beta_2)\)` se puede interpretar directamente. --- ## Variables "dummy" + Interacciones `$$log(wage) = \beta_0 + \delta_0 female + \beta_1 educ + \delta_1 female * educ + u$$` - `\(\beta_0\)`: el intercepto para hombres. - `\(\beta_0 + \delta_0\)`: el intercepto para mujeres. - `\(\beta_1\)`: la pendiente para hombres. e.g. su retorno a la educación. - `\(\delta_1\)`: la diferencia en el retorno a la educación para mujeres respecto a hombres. - `\(\beta_1 + \delta_1\)`: retorno a la educación para mujeres. **Si `\(\delta_1\)` = 0: retorno a la educación para hombres y mujeres es el mismo.** **Si `\(\delta_0=\delta_1=0\)`: toda la ecuación de sueldos es igual para mujeres y hombres.** --- ## Variables "dummy" + Interacciones <div class="figure" style="text-align: center"> <img src="data:image/png;base64,#dummyinteract.png" alt=" " width="75%" /> <p class="caption"> </p> </div> --- ## Variables "dummy" + Interacciones $$log(wage)= 0.389(0.119) - 0.227(0.168) female + $$ `$$0.082(0.008) educ - 0.056(0.013) female * educ$$` - *female* no es significativa ¿esto significa que las mujeres no ganan menos que los hombres en promedio a misma educ? - No, esto sólo es para `\(educ=0\)`. Para saber esto en el promedio tenemos que *de-mean* educ en el término de interacción. - ¿Existe evidencia de que existe un retorno distinto a la educación para hombres y mujeres? --- ## Variables "dummy" + Interacciones - Piense en un modelo para explicar el promedio en el examen de econometrÃa como variable dependiente. `$$prometrics_i = \beta_0 + \beta_1 examnadm_i + \beta2 promprepa_i + \beta_3 studhrs_i + \mu$$` - `\(examadm\)` es el promedio en el examen de admisión a CIDE del alumno `\(i\)`. - `\(promprepa\)` es el promedio obtenido en media superior. - `\(studhrs\)` horas de estudio a la semana dedicadas a econometrÃa. **¿cómo puede ver si existe una ecuación diferente para hombres y mujeres?** **¿cómo puede probar si existe una diferencia significativa (en las tres variables) entre hombres y mujeres?** --- ## Prueba conjunta de hipótesis - Suponga el SSRr = 85.515 - Suponga el SSRur = 78.355 - n = 366 - Recuerde: `$$\frac {(SSR_r - SSR_ur) / q} {(SSR_ur)/n-k-1}$$` --- <style> .centered-word { position: absolute; top: 50%; left: 35%; transform: translate(-50%, -50%); } </style> <div class="centered-word"> <h2>.black[Computadora...]</h3> </div> --- ## Outline - Propiedades Asintóticas. - Información Qualitativa (dummies). - Interacciones. - **.blue[Modelo de probabilidad lineal.]** --- ## Modelo de probabilidad lineal - Modelo de regresión lineal con una variable dependente binaria `$$y = \beta_0 + \beta_1 x_1 + ... \beta_k x_k + \mu$$` `$$E(y|x) = \beta_0 + \beta_1x_1 + ... \beta_k x_k$$` `$$P(y=1|x) = \beta_0 + \beta_1x_1 + ... \beta_k x_k$$` `$$\beta_j = \delta P(y=1|x)/\delta x$$` - Los estimadores describen el efecto del cambio en la variable explicativa sobre la probabilidad de que y=1 --- ## Modelo de probabilidad lineal `$$FLFP = -0.146(0.154) - 0.038(0.007) educ - 0.262(0.034) kidsl6$$` - `\(FLFP\)` es participación laboral femenina - `\(kidsl6\)` es cantidad de hijos menores a 6 años. <div class="figure" style="text-align: center"> <img src="data:image/png;base64,#lpm.png" alt=" " width="65%" /> <p class="caption"> </p> </div> --- ## Modelo de probabilidad lineal - El modelo de probabildad lineal no considera que las probabildades no son lineales, cerradas entre 0 y 1. - Para ello existen otro tipo de modelos que se adaptan a distribuciones de probabilidad y utilizan máxima verosimilitud. - Esto lo estudiamos en el Tema 10. - Dada `\(var(y|x)\)` de una bernoulli = `\(P[(y=1|x)(1-P(y=1|x)]\)` la varianza es heteroscedástica y necesita corrección a SE. - Ventaja: en valores promedio de `\(x_j\)`, CDF y ajuste lineal son similares. --- <style> .centered-word { position: absolute; top: 50%; left: 35%; transform: translate(-50%, -50%); } </style> <div class="centered-word"> <h3>.black[¿Dudas?]</h3> <h3>.black[francisco.cabrera@cide.edu]</h3> </div> <div class="figure" style="text-align: right"> <img src="data:image/png;base64,#bullseye.png" alt=" " width="45%" /> <p class="caption"> </p> </div>