| Variable | Qué demuestra |
|---|---|
| wage | Sueldo mensual en dólares |
| lwage | Log del sueldo mensual en dólares |
| educ | Años de educación |
| exper | Años de experiencia laboral |
| IQ | Coeficiente intelectual (Media de 100 puntos, DS de 15 puntos) |
| age | Edad del individuo en años |
| Married=1 | Si se encuentra casado |
| Black=1 | Si el individuo es de raza negra |
| meduc | Educación de la madre en años |
| Feduc | Educación del padre en años |
El autor, primero, obtiene la siguiente regresión:
Interprete el coeficiente de educ
En promedio, si se incrementa un año en educación, entonces el salario aumenta en 5.9%, ceteris patibus.
Interprete el coeficiente ajustado de determinación (Adj \(R^2\))
La variable de educación explica el 9.6% de la variación del salario.
Interprete la constante en el modelo
No es muy útil la interpretación de la constante dado que la variable dependiente es logarítmica
Posteriormente, el autor estima la siguiente regresión:
Interprete el coeficiente de IQ
En promedio, si el IQ aumenta una unidad, entonces, el salario aumenta 0.5%, ceteris paribus.
¿En cuánto porciento aumenta el ingreso si el IQ aumenta en una desviación estándar?
Dado que la respuesta anterior implica el efecto de una unidad más de IQ, si el IQ aumenta en 15 unidades, dicho efecto debe ser multiplicado por 15. Entonces, en promedio, si el IQ aumenta en una desviación estándar (15 unidades), entonces el salario aumenta en 5%, ceteris paribus.
Demuestre formalmente/matemáticamente, por qué el coeficiente de educ es menor que el obtenido en la primera regresión.
Realizado manualmente.
Ahora obtenemos el modelo integrando todas las variables explicativas.
¿Es este modelo mejor describiendo la variación en sueldos que el modelo anterior? Estime manualmente \(adjR^2\) en ambos modelos
Recuerde que \[adjR^2=1-(1-R^2)\frac{n-1}{n-m-1}\]
En modelo anterior
\[R^2=\frac{SSE}{SST}=\frac{21.4779447}{165.656283}=0.12965366789 \]
entonces
\[ adjR^2=1-(1-0.1297)\frac{935-1}{935-2-1}=0.1278. \]
En este modelo
\[ R^2=\frac{26.4478349}{126.811916}=0.20855954026 \]
entonces
\[ adjR^2=1-(1-0.2086)\frac{722-1}{722-9-1}=0.19859634831. \]
Note que el segundo modelo, que contiene más regresores, explica más la variación del sueldo.
Interprete el coeficiente de exper ¿la no inclusión de esta variabe sesgaba el resultado anterior de educ? ¿Es posible saber si el sesgo es “hacia arriba” o “hacia abajo” con los resultados de esta regresión? ¿Es posible establecerlo teóricamente?
Interpretación: En promedio, si aumentamos en un año la experiencia laboral, entonces el salario aumenta 1.5%, ceteris paribus.
Notamos, por los resultados del coeficiente de educ, que el efecto de educación es más grande cuando incluímos la experiencia a la regresión. Es evidente un sesgo. Pero esto no significa que el sesgo es causado gracias a que omitimos la variable de experiencia, ya que no solo agregamos experiencia a la regresión, también otras 7 variables más. De hecho, para asegurar que el sesgo es “hacia abajo” (ya que la nueva regresión, con más regresores, tiene un coeficiente de educ más alto) debido solo a omitir experiencia, entonces debería cumplirse que la covarianza entre educación y años de experiencia es negativa, pero esto, lógicamente, es una relación positiva. Por tanto, el “sesgo hacia abajo” del coeficiente de educación no es explicado por omitir la variable de experiencia.
En resumen, podemos asegurar que existía un sesgo hacia abajo, pero este sesgo es explicado, en lo agregado, por las demás 8 variables que en un principio se omitieron.
¿Por qué al autor le interesa interesaría controlar por la educación de los padres del individuo i si su interés es el de estudiar la relación de la educación del individuo i con su sueldo?
Para que no suceda sesgo por variable omitida. Controlar el supuesto de Zero Conditional Mean Indendence Assumption, donde no exista relación entre educación del individuo i y los residuos. Es claro que hay relación entre su educación y la educación de sus padres, si no fuera inlcuída esta variable, estos efectos estarían en el residuo y, por tanto, no se cumpliría el supuesto mencionado.
Formalmente, describa la relación entre educación de los padres con los del individuo y demuestre la relación del sesgo.
La relación es positiva, entre mayor educación de padres, mayor educación del individuo i. Esto ya que, si lo padres estudiaron más, posiblemente existen incentivos y, quizá ingresos, para que el individuo aumente sus años de estudios. Formalmente fue realizado manual.
¿Cuáles son los supuestos clásicos SLR y MLR analizados hasta el momento? Escríbalos formalmente y decríbalos brevemente con palabras.
En SLR los supuestos son:
Linear parámeters: la regresión debe ser lineal en los términos beta \[y=\beta_0+\beta_1x+u\]
Random sampling: debe ser tomada una muestra totalemnte aleatoria en donde para cada \(x_1\) corresponda un valor \(y_1\) para podeer generar una regresión con parámetros poblacionales
\[{(x_1,y_i):i=1,...,n}\] to create \[y_i=\beta_0+\beta_1x_i +u_i\]
\[\sum_{i=1}^{n}=(x_i-\overline{x})^2>0\]
Zero conditional mean: No debe existir relación entre la variable explicativa y los residuos. \[E(u_i|x_i)=0\]
Homoskedasticity: No debe hacer relación entre la variable explicativa y la variación de la variable explicada. Por tanto, la varianza debe ser constante.
\[Var(u_i|x_i)=\sigma^2\]
En MLR los supuestos son:
Linear in parámeters: La regresión debe ser lineal en los parámetros:
\[y=\beta_0+\beta_1x_1+\beta_2x_2+\beta_kx_k+u\]
Random sampling: Sebe tomarse una muestra totalemnte alatoria en donde para cada observación de \(x_i\) exista un \(y_i\)
\[\{(x_{i1},x_{i2},...,x_{ik},y_{i}):i=1,...,n\}\]
y obtener
\[y_i=\beta_0+\beta_1x_{i1}+\beta_2x_{i2}+...+\beta_kx_{ik}+u_i\]
No perfect collinearity: No existe relación exacta entre la variable dependiente y le independiente
Zero Conditional Mean Independence Assumption:
\[ E[u_i|x_{i1},x_{i2},...,x_{ik}]=0 \]
Copie el siguiente código en R
#GENERE VARIABLES
set.seed(1234567)
x3<-rnorm(1000)
y3<-matrix((5000+100*x3)+rnorm(1000*500,mean=0,sd=1),ncol=500)
y3df<-data.frame(y3)
#loop to rename i columns of y matrix
for (i in 1:ncol(y3df)) {
colnames(y3df)[i]<-paste0("y",i)
}
#Run 500 regresions
betas<-1:500 #create an emptpy object with 500 entries to be filled with betas
#loop tu run 500 regressions Yi on X for i=1 to 500
for (i in 1:ncol(y3df)) {
betas[i]<-summary(
lm(y3[,i]~x3))$coefficients [2,1] #extracts the coeficient beta 1 from the matrix of results provided by R
}
mean(betas)
## [1] 100.0009
hist(betas, col="antiquewhite3")
Gauss-Markov thm states that under the classical assumptions OLS is BLUE (Best Linear Unbiased Estimator). Do summary statistics and histogram from parts a. and b. suggests that the OLS estimator is unbiased? Explain why
Sí, la estimación por OLS es insesgada, ya que de la distribución obtenida de betas, la esperanza es de hecho el parámetro poblacional.
Explica qué partes del códifgo asegura supuestos de Gauss-Markov
Al la línea de códgio donde se define y3. Es dicha línea, se general valores de y lineales en beta y, además, en los residuos no se define ninguna relación con x. Por tanto, cumple con supuestos de Gaus Markov.
Use el código de abajo y cambie el número de observaciones de 100 a 10,000 y a 100,000
set.seed(1234569)
x4.1<-rnorm(100)
resid4.1<-rnorm(100,mean=0,sd=10)
y4.1<-(20+2*x4.1+resid4.1)
model4.1<-lm(y4.1~x4.1)
summary(model4.1)
##
## Call:
## lm(formula = y4.1 ~ x4.1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -25.467 -7.136 1.303 7.979 20.364
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 20.673 1.013 20.40 <2e-16 ***
## x4.1 2.188 1.004 2.18 0.0317 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 10.13 on 98 degrees of freedom
## Multiple R-squared: 0.04623, Adjusted R-squared: 0.0365
## F-statistic: 4.751 on 1 and 98 DF, p-value: 0.03168
x4.2<-rnorm(10000)
resid4.2<-rnorm(10000,mean=0,sd=10)
y4.2<-(20+2*x4.2+resid4.2)
model4.2<-lm(y4.2~x4.2)
summary(model4.2)
##
## Call:
## lm(formula = y4.2 ~ x4.2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -37.303 -6.625 0.098 6.568 32.746
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 20.05099 0.09894 202.7 <2e-16 ***
## x4.2 2.03127 0.09862 20.6 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 9.893 on 9998 degrees of freedom
## Multiple R-squared: 0.04071, Adjusted R-squared: 0.04061
## F-statistic: 424.2 on 1 and 9998 DF, p-value: < 2.2e-16
x4.3<-rnorm(100000)
resid4.3<-rnorm(100000,mean=0,sd=10)
y4.3<-(20+2*x4.3+resid4.3)
model4.3<-lm(y4.3~x4.3)
summary(model4.3)
##
## Call:
## lm(formula = y4.3 ~ x4.3)
##
## Residuals:
## Min 1Q Median 3Q Max
## -42.514 -6.768 0.006 6.787 45.860
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 19.99584 0.03168 631.26 <2e-16 ***
## x4.3 1.99872 0.03174 62.98 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 10.02 on 99998 degrees of freedom
## Multiple R-squared: 0.03815, Adjusted R-squared: 0.03814
## F-statistic: 3966 on 1 and 99998 DF, p-value: < 2.2e-16
En todo momento beta es consistente, ya que la formulación de las regresiones no implican sesgo, ya que se cumplen los supuestos necesarios para una estimación insesgada
\[lim_{n\to\infty} se(\hat{\beta_1})\equiv\frac{\hat{\sigma}}{SST_x}\equiv\frac{n^{-1}\sum_{i=1}^n\hat{u_1}}{\sum_{i=1}^n(x_i-\overline{x})^2}=0\]
Transform the code above to show that a higher variance of x reduces the standard error of beta
set.seed(12345678)
x4.c<-rnorm(10000, mean=0, sd=5)
resid4.c<-rnorm(10000,mean=0,sd=10)
y4.c<-(20+2*x4.c+resid4.c)
model4.c<-lm(y4.c~x4.c)
summary(model4.c)
##
## Call:
## lm(formula = y4.c ~ x4.c)
##
## Residuals:
## Min 1Q Median 3Q Max
## -35.096 -6.748 0.118 6.780 39.945
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 19.90633 0.10048 198.1 <2e-16 ***
## x4.c 2.03457 0.02014 101.0 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 10.05 on 9998 degrees of freedom
## Multiple R-squared: 0.5052, Adjusted R-squared: 0.5051
## F-statistic: 1.021e+04 on 1 and 9998 DF, p-value: < 2.2e-16Note que en el caso donde las observaciones son 10,000 pero hay muy poca variación de x, el error estándar del estimador es mayor al caso donde se agrega variación en x (al agregar una desviación estándar de 5)
x4.d<-rnorm(100)
resid4.d<-rnorm(100,mean=0,sd=20)
y4.d<-(20+2*x4.d+resid4.d)
model4.d<-lm(y4.d~x4.d)
summary(model4.d)
##
## Call:
## lm(formula = y4.d ~ x4.d)
##
## Residuals:
## Min 1Q Median 3Q Max
## -48.051 -11.416 1.884 10.577 44.218
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 22.2658 1.8070 12.322 <2e-16 ***
## x4.d 0.2687 1.9459 0.138 0.89
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 18.01 on 98 degrees of freedom
## Multiple R-squared: 0.0001945, Adjusted R-squared: -0.01001
## F-statistic: 0.01906 on 1 and 98 DF, p-value: 0.8905
La constante ahora es 22.2658 cuando anteriormente era 19.854. Además, obtuvimos un parámetro de 3.880, muy lejano al poblacional (coeficiente=2). Por tanto, dado que existe demasiado ruido en la varianza de los residuos, no es posible asegurar que el coeficiente obtenido es insesgado.
e)Draw a scatterplot (with a fitted line) for regressions in part 4.a (n=100) and in part 4.d. What are your conclusions regarding the estimation of \(\beta_1\)
#4.a (n=100 with slight variance in resid)
df4.1<-data.frame(x4.1,y4.1)
ggplot(data=df4.1, aes(x=x4.1,y=y4.1))+geom_point()+geom_smooth(method=lm)+labs(x="x",y="y")
## `geom_smooth()` using formula = 'y ~ x'
#4.d (n=100 with more variance in resid)
df4.d<-data.frame(x4.d,y4.d)
ggplot(data=df4.d, aes(x=x4.d,y=y4.d))+geom_point()+geom_smooth(method=lm)+labs(x="x",y="y")
## `geom_smooth()` using formula = 'y ~ x'
A simple vista, el ruido que genera la variación del residuo más alta afecta mucho a la regresión tanto en el intercepto como en el coeficiente. Por tanto, es desconfiable la segunda regresión (con variación en residuos muy alta).
Ejecute el siguiente código
repet<-1000
n<-1000
beta<-NULL
set.seed(123454)
for (i in 1:repet) {
x1.6<-rnorm(n,mean = 50,sd=10) #Se general muestras aleatorias
x2.6<-(rnorm(n,mean = 5,sd=30)+.1*x1.6) #¡¡Se viola no perfect collinearity!!
u<-rnorm(n,mean = 0,sd=1) #Relevante para el Zero Conditional Mean Ind Assumption
y6=2+(2*x1.6)+(10*x2.6)+u #La MLR es linear en los parámetros
beta[i]<-lm(y6~x1.6)$coef[2]
}
hist(beta,main="suit yourself ,n=1000",xlim=c(0,8))
abline(v=mean(beta),col="red",lwd=3,lty=2)
abline(v=2,col="blue",lwd=3,lty=2)
Ligue las líneas de código que considere relevantes con los supuestos MLR pertinentes. Describa un supuesto clave que se está analizando y demuestre matemáticamente por qué el estimador \(\beta_1\) es sesgado/insesgado e inconsistente/consistente.
Se comentó en el script las lineas asociadas a supuestos Gauss-Markov.
El supuesto clave aquí analizado y que de hecho está siendo violado es el supuesto de no perfect collinearity.
La demostración matemática es realizada manualmente.
Modifique el código de arriba para estimar \(E[\hat{\beta_1}]=\beta_1\)
En este caso se quitará la combinación lineal perfecta entre x1 y x2
repet<-1000
n<-1000
beta<-NULL
set.seed(123454)
for (i in 1:repet) {
x1.6<-rnorm(n,mean = 50,sd=10)
x2.6<-(rnorm(n,mean = 5,sd=30))
u<-rnorm(n,mean = 0,sd=1)
y6=2+(2*x1.6)+(10*x2.6)+u
beta[i]<-lm(y6~x1.6)$coef[2]
}
hist(beta,main="suit yourself ,n=1000",xlim=c(0,8))
abline(v=mean(beta),col="red",lwd=3,lty=2)
abline(v=2,col="blue",lwd=3,lty=2)
Note que, ahora, el parámetro estimado es igual al poblacional
Ejercicios del Wooldridge realizados manualmente
Wooldridge Data in R
reg8.a<-lm(bwght~cigs+log(cigtax)+motheduc, data=datos)
summary(reg8.a)
##
## Call:
## lm(formula = bwght ~ cigs + log(cigtax) + motheduc, data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -95.723 -11.915 0.846 13.047 150.750
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 111.97520 3.97835 28.146 < 2e-16 ***
## cigs -0.48947 0.09262 -5.285 1.46e-07 ***
## log(cigtax) 1.30313 0.93397 1.395 0.163
## motheduc 0.31224 0.23314 1.339 0.181
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 20.12 on 1383 degrees of freedom
## (1 observation deleted due to missingness)
## Multiple R-squared: 0.02557, Adjusted R-squared: 0.02346
## F-statistic: 12.1 on 3 and 1383 DF, p-value: 8.083e-08
En promedio, el aumento en consumo de un cigarro por más por día, afecta -0.489 ounces the birth weight of a baby, manteniendo las demás variables constantes y ceteris paribus. Si el consumo es de 0 cigarros por día durante el embarazo, en promedio y, de nuevo ceteris paribus (incluyendo las demás variables), entonces the birth weight será de 111.9752.
reg8.b<-lm(log(bwght)~cigs+log(cigtax)+motheduc, data=datos)
summary(reg8.b)
##
## Call:
## lm(formula = log(bwght) ~ cigs + log(cigtax) + motheduc, data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.62517 -0.08968 0.02348 0.12180 0.82867
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 4.7036035 0.0373349 125.984 < 2e-16 ***
## cigs -0.0042773 0.0008692 -4.921 9.65e-07 ***
## log(cigtax) 0.0105999 0.0087649 1.209 0.227
## motheduc 0.0027209 0.0021879 1.244 0.214
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.1888 on 1383 degrees of freedom
## (1 observation deleted due to missingness)
## Multiple R-squared: 0.02208, Adjusted R-squared: 0.01996
## F-statistic: 10.41 on 3 and 1383 DF, p-value: 8.95e-07
En promedio y manteniendo todas las demás variables constantes, consumir un cigarro más por día disminuye 0.4% the birth weight, ceteris paribus. En este caso, dado que la variable dependiente es logarítmica, no es muy útil la interpretación del intercepto.