Ejercicio 1

Griliches (1977) es una investigación muy influyente intenta determinar los “Retornos a la educación” en EE.UU. Es decir, cuánto contribuye un año más de educación formal al sueldo en dólares. Usó las siguientes variables:

Variable	Qué demuestra
wage	Sueldo mensual en dólares
lwage	Log del sueldo mensual en dólares
educ	Años de educación
exper	Años de experiencia laboral
IQ	Coeficiente intelectual (Media de 100 puntos, DS de 15 puntos)
age	Edad del individuo en años
Married=1	Si se encuentra casado
Black=1	Si el individuo es de raza negra
meduc	Educación de la madre en años
Feduc	Educación del padre en años

El autor, primero, obtiene la siguiente regresión:

Interprete el coeficiente de educ

En promedio, si se incrementa un año en educación, entonces el salario aumenta en 5.9%, ceteris patibus.
Interprete el coeficiente ajustado de determinación (Adj \(R^2\))

La variable de educación explica el 9.6% de la variación del salario.
Interprete la constante en el modelo

No es muy útil la interpretación de la constante dado que la variable dependiente es logarítmica

Posteriormente, el autor estima la siguiente regresión:

Interprete el coeficiente de IQ

En promedio, si el IQ aumenta una unidad, entonces, el salario aumenta 0.5%, ceteris paribus.
¿En cuánto porciento aumenta el ingreso si el IQ aumenta en una desviación estándar?

Dado que la respuesta anterior implica el efecto de una unidad más de IQ, si el IQ aumenta en 15 unidades, dicho efecto debe ser multiplicado por 15. Entonces, en promedio, si el IQ aumenta en una desviación estándar (15 unidades), entonces el salario aumenta en 5%, ceteris paribus.
Demuestre formalmente/matemáticamente, por qué el coeficiente de educ es menor que el obtenido en la primera regresión.

Realizado manualmente.

Ahora obtenemos el modelo integrando todas las variables explicativas.

¿Es este modelo mejor describiendo la variación en sueldos que el modelo anterior? Estime manualmente \(adjR^2\) en ambos modelos

Recuerde que \[adjR^2=1-(1-R^2)\frac{n-1}{n-m-1}\]

En modelo anterior

\[R^2=\frac{SSE}{SST}=\frac{21.4779447}{165.656283}=0.12965366789 \]

entonces

\[ adjR^2=1-(1-0.1297)\frac{935-1}{935-2-1}=0.1278. \]

En este modelo

\[ R^2=\frac{26.4478349}{126.811916}=0.20855954026 \]

entonces

\[ adjR^2=1-(1-0.2086)\frac{722-1}{722-9-1}=0.19859634831. \]

Note que el segundo modelo, que contiene más regresores, explica más la variación del sueldo.
Interprete el coeficiente de exper ¿la no inclusión de esta variabe sesgaba el resultado anterior de educ? ¿Es posible saber si el sesgo es “hacia arriba” o “hacia abajo” con los resultados de esta regresión? ¿Es posible establecerlo teóricamente?

Interpretación: En promedio, si aumentamos en un año la experiencia laboral, entonces el salario aumenta 1.5%, ceteris paribus.

Notamos, por los resultados del coeficiente de educ, que el efecto de educación es más grande cuando incluímos la experiencia a la regresión. Es evidente un sesgo. Pero esto no significa que el sesgo es causado gracias a que omitimos la variable de experiencia, ya que no solo agregamos experiencia a la regresión, también otras 7 variables más. De hecho, para asegurar que el sesgo es “hacia abajo” (ya que la nueva regresión, con más regresores, tiene un coeficiente de educ más alto) debido solo a omitir experiencia, entonces debería cumplirse que la covarianza entre educación y años de experiencia es negativa, pero esto, lógicamente, es una relación positiva. Por tanto, el “sesgo hacia abajo” del coeficiente de educación no es explicado por omitir la variable de experiencia.

En resumen, podemos asegurar que existía un sesgo hacia abajo, pero este sesgo es explicado, en lo agregado, por las demás 8 variables que en un principio se omitieron.
¿Por qué al autor le interesa interesaría controlar por la educación de los padres del individuo i si su interés es el de estudiar la relación de la educación del individuo i con su sueldo?

Para que no suceda sesgo por variable omitida. Controlar el supuesto de Zero Conditional Mean Indendence Assumption, donde no exista relación entre educación del individuo i y los residuos. Es claro que hay relación entre su educación y la educación de sus padres, si no fuera inlcuída esta variable, estos efectos estarían en el residuo y, por tanto, no se cumpliría el supuesto mencionado.
Formalmente, describa la relación entre educación de los padres con los del individuo y demuestre la relación del sesgo.

La relación es positiva, entre mayor educación de padres, mayor educación del individuo i. Esto ya que, si lo padres estudiaron más, posiblemente existen incentivos y, quizá ingresos, para que el individuo aumente sus años de estudios. Formalmente fue realizado manual.

Ejercicio 2

¿Cuáles son los supuestos clásicos SLR y MLR analizados hasta el momento? Escríbalos formalmente y decríbalos brevemente con palabras.

En SLR los supuestos son:

Linear parámeters: la regresión debe ser lineal en los términos beta \[y=\beta_0+\beta_1x+u\]
Random sampling: debe ser tomada una muestra totalemnte aleatoria en donde para cada \(x_1\) corresponda un valor \(y_1\) para podeer generar una regresión con parámetros poblacionales

\[{(x_1,y_i):i=1,...,n}\] to create \[y_i=\beta_0+\beta_1x_i +u_i\]

Sample variation in explanatory variable: Debe existir variación en la variable explicativa

\[\sum_{i=1}^{n}=(x_i-\overline{x})^2>0\]

Zero conditional mean: No debe existir relación entre la variable explicativa y los residuos. \[E(u_i|x_i)=0\]
Homoskedasticity: No debe hacer relación entre la variable explicativa y la variación de la variable explicada. Por tanto, la varianza debe ser constante.

\[Var(u_i|x_i)=\sigma^2\]

En MLR los supuestos son:

Linear in parámeters: La regresión debe ser lineal en los parámetros:

\[y=\beta_0+\beta_1x_1+\beta_2x_2+\beta_kx_k+u\]
Random sampling: Sebe tomarse una muestra totalemnte alatoria en donde para cada observación de \(x_i\) exista un \(y_i\)

\[\{(x_{i1},x_{i2},...,x_{ik},y_{i}):i=1,...,n\}\]

y obtener

\[y_i=\beta_0+\beta_1x_{i1}+\beta_2x_{i2}+...+\beta_kx_{ik}+u_i\]
No perfect collinearity: No existe relación exacta entre la variable dependiente y le independiente
Zero Conditional Mean Independence Assumption:

\[ E[u_i|x_{i1},x_{i2},...,x_{ik}]=0 \]

Ejercicio 3

Copie el siguiente código en R

#GENERE VARIABLES
set.seed(1234567)
x3<-rnorm(1000)
y3<-matrix((5000+100*x3)+rnorm(1000*500,mean=0,sd=1),ncol=500)
y3df<-data.frame(y3)

#loop to rename i columns of y matrix
for (i in 1:ncol(y3df)) {
  colnames(y3df)[i]<-paste0("y",i)  
}

#Run 500 regresions
betas<-1:500 #create an emptpy object with 500 entries to be filled with betas

#loop tu run 500 regressions Yi on X for i=1 to 500
for (i in 1:ncol(y3df)) {
betas[i]<-summary(
  lm(y3[,i]~x3))$coefficients [2,1] #extracts the coeficient beta 1 from the matrix of results provided by R
}

Paste the avarage estimator of betas

mean(betas)

## [1] 100.0009

Paste the histogram of betas

hist(betas, col="antiquewhite3")

Gauss-Markov thm states that under the classical assumptions OLS is BLUE (Best Linear Unbiased Estimator). Do summary statistics and histogram from parts a. and b. suggests that the OLS estimator is unbiased? Explain why

Sí, la estimación por OLS es insesgada, ya que de la distribución obtenida de betas, la esperanza es de hecho el parámetro poblacional.
Explica qué partes del códifgo asegura supuestos de Gauss-Markov

Al la línea de códgio donde se define y3. Es dicha línea, se general valores de y lineales en beta y, además, en los residuos no se define ninguna relación con x. Por tanto, cumple con supuestos de Gaus Markov.

Ejercicio 4

Use el código de abajo y cambie el número de observaciones de 100 a 10,000 y a 100,000

Muestre los 3 resumenes

set.seed(1234569)
x4.1<-rnorm(100)
resid4.1<-rnorm(100,mean=0,sd=10)
y4.1<-(20+2*x4.1+resid4.1)
model4.1<-lm(y4.1~x4.1)
summary(model4.1)

## 
## Call:
## lm(formula = y4.1 ~ x4.1)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -25.467  -7.136   1.303   7.979  20.364 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   20.673      1.013   20.40   <2e-16 ***
## x4.1           2.188      1.004    2.18   0.0317 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 10.13 on 98 degrees of freedom
## Multiple R-squared:  0.04623,    Adjusted R-squared:  0.0365 
## F-statistic: 4.751 on 1 and 98 DF,  p-value: 0.03168

x4.2<-rnorm(10000)
resid4.2<-rnorm(10000,mean=0,sd=10)
y4.2<-(20+2*x4.2+resid4.2)
model4.2<-lm(y4.2~x4.2)
summary(model4.2)

## 
## Call:
## lm(formula = y4.2 ~ x4.2)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -37.303  -6.625   0.098   6.568  32.746 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 20.05099    0.09894   202.7   <2e-16 ***
## x4.2         2.03127    0.09862    20.6   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 9.893 on 9998 degrees of freedom
## Multiple R-squared:  0.04071,    Adjusted R-squared:  0.04061 
## F-statistic: 424.2 on 1 and 9998 DF,  p-value: < 2.2e-16

x4.3<-rnorm(100000)
resid4.3<-rnorm(100000,mean=0,sd=10)
y4.3<-(20+2*x4.3+resid4.3)
model4.3<-lm(y4.3~x4.3)
summary(model4.3)

## 
## Call:
## lm(formula = y4.3 ~ x4.3)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -42.514  -6.768   0.006   6.787  45.860 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 19.99584    0.03168  631.26   <2e-16 ***
## x4.3         1.99872    0.03174   62.98   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 10.02 on 99998 degrees of freedom
## Multiple R-squared:  0.03815,    Adjusted R-squared:  0.03814 
## F-statistic:  3966 on 1 and 99998 DF,  p-value: < 2.2e-16

En todo momento beta es consistente, ya que la formulación de las regresiones no implican sesgo, ya que se cumplen los supuestos necesarios para una estimación insesgada

Explique porqué, formalmente, (use formula!) el error estándar de beta converge a cero cuando n tiende a infinito.

\[lim_{n\to\infty} se(\hat{\beta_1})\equiv\frac{\hat{\sigma}}{SST_x}\equiv\frac{n^{-1}\sum_{i=1}^n\hat{u_1}}{\sum_{i=1}^n(x_i-\overline{x})^2}=0\]

Transform the code above to show that a higher variance of x reduces the standard error of beta

set.seed(12345678)
x4.c<-rnorm(10000, mean=0, sd=5)
resid4.c<-rnorm(10000,mean=0,sd=10)
y4.c<-(20+2*x4.c+resid4.c)
model4.c<-lm(y4.c~x4.c)
summary(model4.c)

## 
## Call:
## lm(formula = y4.c ~ x4.c)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -35.096  -6.748   0.118   6.780  39.945 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 19.90633    0.10048   198.1   <2e-16 ***
## x4.c         2.03457    0.02014   101.0   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 10.05 on 9998 degrees of freedom
## Multiple R-squared:  0.5052, Adjusted R-squared:  0.5051 
## F-statistic: 1.021e+04 on 1 and 9998 DF,  p-value: < 2.2e-16

Note que en el caso donde las observaciones son 10,000 pero hay muy poca variación de x, el error estándar del estimador es mayor al caso donde se agrega variación en x (al agregar una desviación estándar de 5)

By construction, in the code above the residual is centered around zero. Let´s artificially change this. Keep n=100 and change the resid term in the code above to a mean of 20. What is the constant now? Is \(\hat{\beta_1}\) baised?

x4.d<-rnorm(100)
resid4.d<-rnorm(100,mean=0,sd=20)
y4.d<-(20+2*x4.d+resid4.d)
model4.d<-lm(y4.d~x4.d)
summary(model4.d)

## 
## Call:
## lm(formula = y4.d ~ x4.d)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -48.051 -11.416   1.884  10.577  44.218 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  22.2658     1.8070  12.322   <2e-16 ***
## x4.d          0.2687     1.9459   0.138     0.89    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 18.01 on 98 degrees of freedom
## Multiple R-squared:  0.0001945,  Adjusted R-squared:  -0.01001 
## F-statistic: 0.01906 on 1 and 98 DF,  p-value: 0.8905

La constante ahora es 22.2658 cuando anteriormente era 19.854. Además, obtuvimos un parámetro de 3.880, muy lejano al poblacional (coeficiente=2). Por tanto, dado que existe demasiado ruido en la varianza de los residuos, no es posible asegurar que el coeficiente obtenido es insesgado.

e)Draw a scatterplot (with a fitted line) for regressions in part 4.a (n=100) and in part 4.d. What are your conclusions regarding the estimation of \(\beta_1\)

 #4.a (n=100 with slight variance in resid)
df4.1<-data.frame(x4.1,y4.1)
ggplot(data=df4.1, aes(x=x4.1,y=y4.1))+geom_point()+geom_smooth(method=lm)+labs(x="x",y="y")

## `geom_smooth()` using formula = 'y ~ x'

#4.d (n=100 with more variance in resid)
df4.d<-data.frame(x4.d,y4.d)
ggplot(data=df4.d, aes(x=x4.d,y=y4.d))+geom_point()+geom_smooth(method=lm)+labs(x="x",y="y")

## `geom_smooth()` using formula = 'y ~ x'

A simple vista, el ruido que genera la variación del residuo más alta afecta mucho a la regresión tanto en el intercepto como en el coeficiente. Por tanto, es desconfiable la segunda regresión (con variación en residuos muy alta).

Ejercicio 6

Ejecute el siguiente código

repet<-1000
n<-1000
beta<-NULL

set.seed(123454)

for (i in 1:repet) {
  x1.6<-rnorm(n,mean = 50,sd=10) #Se general muestras aleatorias
  x2.6<-(rnorm(n,mean = 5,sd=30)+.1*x1.6) #¡¡Se viola no perfect collinearity!!
  u<-rnorm(n,mean = 0,sd=1) #Relevante para el Zero Conditional Mean Ind Assumption
  y6=2+(2*x1.6)+(10*x2.6)+u #La MLR es linear en los parámetros
  beta[i]<-lm(y6~x1.6)$coef[2]
}

hist(beta,main="suit yourself ,n=1000",xlim=c(0,8))
abline(v=mean(beta),col="red",lwd=3,lty=2)
abline(v=2,col="blue",lwd=3,lty=2)

Ligue las líneas de código que considere relevantes con los supuestos MLR pertinentes. Describa un supuesto clave que se está analizando y demuestre matemáticamente por qué el estimador \(\beta_1\) es sesgado/insesgado e inconsistente/consistente.

Se comentó en el script las lineas asociadas a supuestos Gauss-Markov.

El supuesto clave aquí analizado y que de hecho está siendo violado es el supuesto de no perfect collinearity.

La demostración matemática es realizada manualmente.
Modifique el código de arriba para estimar \(E[\hat{\beta_1}]=\beta_1\)

En este caso se quitará la combinación lineal perfecta entre x1 y x2

repet<-1000
n<-1000
beta<-NULL

set.seed(123454)

for (i in 1:repet) {
  x1.6<-rnorm(n,mean = 50,sd=10) 
  x2.6<-(rnorm(n,mean = 5,sd=30)) 
  u<-rnorm(n,mean = 0,sd=1)
  
  y6=2+(2*x1.6)+(10*x2.6)+u 
  beta[i]<-lm(y6~x1.6)$coef[2]
}

hist(beta,main="suit yourself ,n=1000",xlim=c(0,8))
abline(v=mean(beta),col="red",lwd=3,lty=2)
abline(v=2,col="blue",lwd=3,lty=2)

Note que, ahora, el parámetro estimado es igual al poblacional

Ejercicio 7

Ejercicios del Wooldridge realizados manualmente

Ejercicio 8

Wooldridge Data in R

Use the database”bwght”. Obtain the regression of birth weight in ounces on cigarettes consumption per day. Use controls log(cigprice), and mothereduc. Interpret \(\beta_0\) and \(\beta _1\) coefficients.

reg8.a<-lm(bwght~cigs+log(cigtax)+motheduc, data=datos)
summary(reg8.a)

## 
## Call:
## lm(formula = bwght ~ cigs + log(cigtax) + motheduc, data = datos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -95.723 -11.915   0.846  13.047 150.750 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 111.97520    3.97835  28.146  < 2e-16 ***
## cigs         -0.48947    0.09262  -5.285 1.46e-07 ***
## log(cigtax)   1.30313    0.93397   1.395    0.163    
## motheduc      0.31224    0.23314   1.339    0.181    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 20.12 on 1383 degrees of freedom
##   (1 observation deleted due to missingness)
## Multiple R-squared:  0.02557,    Adjusted R-squared:  0.02346 
## F-statistic:  12.1 on 3 and 1383 DF,  p-value: 8.083e-08

En promedio, el aumento en consumo de un cigarro por más por día, afecta -0.489 ounces the birth weight of a baby, manteniendo las demás variables constantes y ceteris paribus. Si el consumo es de 0 cigarros por día durante el embarazo, en promedio y, de nuevo ceteris paribus (incluyendo las demás variables), entonces the birth weight será de 111.9752.

Run the same regression using the log of birthweight as dependent. Interpret the coefficient \(\beta_0\) y \(\beta_1\)

reg8.b<-lm(log(bwght)~cigs+log(cigtax)+motheduc, data=datos)
summary(reg8.b)

## 
## Call:
## lm(formula = log(bwght) ~ cigs + log(cigtax) + motheduc, data = datos)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.62517 -0.08968  0.02348  0.12180  0.82867 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  4.7036035  0.0373349 125.984  < 2e-16 ***
## cigs        -0.0042773  0.0008692  -4.921 9.65e-07 ***
## log(cigtax)  0.0105999  0.0087649   1.209    0.227    
## motheduc     0.0027209  0.0021879   1.244    0.214    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.1888 on 1383 degrees of freedom
##   (1 observation deleted due to missingness)
## Multiple R-squared:  0.02208,    Adjusted R-squared:  0.01996 
## F-statistic: 10.41 on 3 and 1383 DF,  p-value: 8.95e-07

En promedio y manteniendo todas las demás variables constantes, consumir un cigarro más por día disminuye 0.4% the birth weight, ceteris paribus. En este caso, dado que la variable dependiente es logarítmica, no es muy útil la interpretación del intercepto.

Actividad 2

Víctor Escandón