library("pacman")
p_load(data.table, fixest, magrittr, wooldridge, multcomp, tidyverse)
# Load data
data("wage1")
# Run regressions
# Assume no serial correlation and homocedasticity
est_0 <- lm(lwage ~ educ, data = wage1)
summary_0 <- summary(est_0)
# Compute p_value, insert degrees of freedom
2* pt(-10.935, df = 526-1) # n-k-1
## [1] 3.247857e-25
a. Demuestre que el estadístico t de educ = 10.94
Asumiendo que \(H_{0} \colon \beta=0\) calculamos el estadístico t de la siguiente forma:
t_educ <- summary_0$coefficients[2]/ summary_0$coefficients["educ", "Std. Error"]
cat(t_educ)
## 10.93534
b. ¿Se rechaza la \(H_{0}\)?
Usando el valor crítico del 99%: 2.58, el estadístico \(t = 10.94\), cae en la región de rechazo. Por tanto,podemos concluir que la prueba otorga suficiente evidencia para rechazar \(H_{0}\) al 99% de confianza.
c. ¿Por lo menos con qué nivel de confianza estadística es
significativo el coeficiente de educación? ¿con qué valor
crítico?
El estadístico es significativo con el 99% de
confianza, cuyo valor crítico asociado es de 2.58.
d. Dibuje (a mano) el gráfico de la distribución t que surge
de c. donde aproximadamente identifique el área que equivale al
p-value.
El p-value del modelo es:
cat(summary_0$coefficients["educ", "Pr(>|t|)"])
## 3.270644e-25
Este es muy pequeño, por lo que indica evidencia en contra de \(H_{0}\). Adjunto foto de la gráfica.
e. ¿Cuál es el supuesto clave para poder estimar el
estadístico t?
El supuesto clave para poder estimar
cualquier estadístico \(t\) es el
supuesto de la normalidad en los errores. Es decir, asumimos que los
factores no observados se distribuyen normalmente sobre la población
\(U_{i} \sim
\mathcal{N}(0,\sigma^2)\).
f. Estime el intervalo de confianza al 99%.
El
intervalo de confianza se calcula como: \(P(\beta_{1}-c_{.01}se(\beta_{1}) < \beta <
\beta_{1}+c_{.01}se(\beta_{1}))\), donde \(c_{.01}\) es 2.58. De esta forma:
lb <- summary_0$coefficients["educ", "Estimate"] - (2.58 *summary_0$coefficients["educ", "Std. Error"])
ub <- summary_0$coefficients["educ", "Estimate"] + (2.58 *summary_0$coefficients["educ", "Std. Error"])
cat(lb,ub)
## 0.0632223 0.1022664
g. Draw (with R) a scatter plot of Y on X and draw and add
the regression line. Are the residuals homoscedastic? Will they
distribute normally? Draw (manually) how do you think the distribution
of residuals will look?
data <- data.frame(wage1$lwage, wage1$educ)
ggplot(data, aes(y = wage1$lwage, x =wage1$educ)) +
geom_point() +
geom_smooth(method = lm)
Los residuos no son homocedásticos, porque su varianza difiere entre los valores de educ. Por tanto, no se distribuyen de forma normal.
Con los datos de “wage1” (librería de Wooldridge en R) estime el modelo logaritmo del sueldo como dependiente y educación, experiencia y su cuadrado, además de la variable female como explicativas.
est_1 <- lm(lwage ~ educ + exper + I(exper^2) + female, data = wage1)
summary_1 <- summary(est_1)
summary_1
##
## Call:
## lm(formula = lwage ~ educ + exper + I(exper^2) + female, data = wage1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.80836 -0.27728 -0.01813 0.25637 1.23896
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.3904830 0.1022096 3.820 0.000149 ***
## educ 0.0841361 0.0069568 12.094 < 2e-16 ***
## exper 0.0389100 0.0048235 8.067 5.00e-15 ***
## I(exper^2) -0.0006860 0.0001074 -6.389 3.71e-10 ***
## female -0.3371868 0.0363214 -9.283 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.4134 on 521 degrees of freedom
## Multiple R-squared: 0.3996, Adjusted R-squared: 0.395
## F-statistic: 86.69 on 4 and 521 DF, p-value: < 2.2e-16
a. Interprete el efecto del primer año de
experiencia.
Como incluimos a la variable experiencia como un polinomio de grado 2, debemos utilizar su derivada para interpretarla. La derivada de la regresión respecto a esper es: \(\frac{\partial(lwage)}{\partial(exper)} = 0.0389100 -2(0.0006860) exper\). Por tanto, ceteris paribus, el primer año de experiencia, en promedio, aumenta el salario en un:
año1 <- 0.0389100 - 2*(0.0006860*1)
cat(paste0(100*año1,"%"))
## 3.7538%
b.Interprete el efecto de la experiencia al pasar de 7 a 8
años de experiencia y de 17 a 18 años de experiencia,
respectivamente.
Como la función es decreciente, esperamos
que entre más avancen los años de experiencia, el incremento en el
salario sea menor.
año7 <- 0.0389100 - 2*(0.0006860*7)
año8 <- 0.0389100 - 2*(0.0006860*8)
cat(paste0("Ceteris paribus, el séptimo año de experiencia, en promedio, aumenta el salario en un ", 100*año7,"%. "))
## Ceteris paribus, el séptimo año de experiencia, en promedio, aumenta el salario en un 2.9306%.
cat(paste0("Ceteris paribus, el octavo año de experiencia, en promedio, aumenta el salario en un ", 100*año8,"%. "))
## Ceteris paribus, el octavo año de experiencia, en promedio, aumenta el salario en un 2.7934%.
cat(paste0("Por tanto, el aumento del año 7 al 8 disminuye en: ",100*(round(año8-año7,digits = 4)),"%."))
## Por tanto, el aumento del año 7 al 8 disminuye en: -0.14%.
c.¿Con cuántos años de experiencia se alcanza el máximo
sueldo, ceteris paribus?
El máximo sueldo se alcanza en el
punto máximo de la derivada, esto es:
cat(0.0389 / 2*(0.000686) )
## 1.33427e-05
d. ¿Es estadísticamente significativa la experiencia en la
ecuación de sueldos estimada? (vea sección 4.4 en Wooldridge ed.7) y
explore el comando “glht” en R (instalado con el paquete
multcomp)
Sí es estadísticamente significativa.
t_1 <- 0.0389100 / 0.0048235
paste0("El estadístico t es: ", t_1, ". ", "Por tanto, cae en la región de rechazo con el 99% de confianza.")
## [1] "El estadístico t es: 8.06675650461283. Por tanto, cae en la región de rechazo con el 99% de confianza."
e. ¿Cuál es el valor predicho del sueldo en dólares por hora
para un hombre con 10 años de experiencia y 12 años de educación? ¿Cuál
es el valor predicho para una mujer con las mismas
características?
La ecuación de la regresión para mujeres
es la siguiente: \(lwage = 0.3904830 -
0.3371868 female + 0.0841361 educ + 0.0389100 exper - 0.0006860
exper^2\). Para los hombres, \(lwage =
0.3904830 + 0.0841361 educ + 0.0389100 exper - 0.0006860
exper^2\).
paste0("Entonces, para un hombre con 10 años de experiencia y 12 de educación el sueldo en dól por hora es de $", 100*(0.3904830 + 0.0841361*12 + 0.0389100*10 - 0.0006860*(10^2)))
## [1] "Entonces, para un hombre con 10 años de experiencia y 12 de educación el sueldo en dól por hora es de $172.06162"
paste0("Para una mujer con las mismas características el sueldo en dól por hora es de $", 100*((0.3904830- 0.3371868) + 0.0841361*12 + 0.0389100*10 - 0.0006860*(10^2)))
## [1] "Para una mujer con las mismas características el sueldo en dól por hora es de $138.34294"
f. Interprete el coeficiente female ¿Qué representa la
constante del modelo en este caso? Interprétela.
El
coeficiente de female indica la diferencia promedio en el retorno
salarial que otorga la educación entre hombres y mujeres. Cómo es
negativo, el coeficiente indica que el retorno de la educación, en
promedio, es menor para mujeres que para hombres.
Suponga que nos interesa saber cómo la educación potencialmente tiene diferentes retornos para la mujer y para el hombre.
a. Estime una regresión con el logaritmo del sueldo como
dependiente solamente para la muestra de mujeres y otra solamente para
la muestra de hombres. Escriba la ecuación estimada y pegue los
resultados incluyendo errores estándar robustos “hetero”.
est_fem <- lm(lwage ~ educ + exper + expersq, data = subset(wage1, female == "1"))
summary_fem <- summary(est_fem)
est_male <- lm(lwage ~ educ + exper + expersq, data = subset(wage1, female == "0"))
summary_male <- summary(est_male)
La ecuación estimada para las mujeres es: \(lwage = 0.2660838 + 0.0791949 educ + 0.0223715 exper -0.0004231 exper^2\). La ecuación estimada para los hombres es: \(lwage = 0.1572910 + 0.0903540 educ + 0.0540175exper -0.0009138exper^2\)
b. ¿De qué tamaño es la diferencia entre los retornos a la
educación (por año adicional) del hombre y los de la mujer?
paste0("La diferencia entre los retornos a la educación entre hombres y mujeres es de ", 100*(0.0791949 - 0.0903540), "%", " por año adicional.")
## [1] "La diferencia entre los retornos a la educación entre hombres y mujeres es de -1.11591% por año adicional."
c.Construya el intervalo de confianza al 95% del coeficiente
de educación para ambas submuestras. f. Estime el
intervalo de confianza al 99%.
El intervalo de confianza
se calcula como: \(P(\beta_{1}-c_{.01}se(\beta_{1}) < \beta <
\beta_{1}+c_{.01}se(\beta_{1}))\), donde \(c_{.05}\) es 1.96. De esta forma, el
intervalo de confianza al 99% para la submuestra de mujeres es:
lb <- summary_fem$coefficients["educ", "Estimate"] - (1.96 *summary_fem$coefficients["educ", "Std. Error"])
ub <- summary_fem$coefficients["educ", "Estimate"] + (1.96 *summary_fem$coefficients["educ", "Std. Error"])
cat(lb,ub)
## 0.05887211 0.09951763
Por otro lado, el intervalo de confianza al 99% para la submuestra de hombres es:
lb <- summary_male$coefficients["educ", "Estimate"] - (1.96 *summary_male$coefficients["educ", "Std. Error"])
ub <- summary_male$coefficients["educ", "Estimate"] + (1.96 *summary_male$coefficients["educ", "Std. Error"])
cat(lb,ub)
## 0.07219141 0.1085166
d. ¿Con el 95% de significancia estadística son
significativamente distintos los coeficientes de educación para la
muestra de hombres y de mujeres?
No son estadísticamente distintos, porque se intersectan entre sí.
e. ¿Es estadísticamente distinto el retorno al primer año de
experiencia para hombres y mujeres?
No porque sus
intervalos se contienen.
Estime una regresión con el logaritmo del sueldo como dependiente y como explicativas la educación, experiencia (sin su cuadrado), más la interacción entre estas dos variables y la variable dummy que denota a las mujeres, más la variable female sin interactuar. Escriba la ecuación estimada y:
est_4 <- lm(lwage ~ educ + exper + female + female:educ:exper, data = wage1)
summary_4 <- summary(est_4)
La ecuación estimada es: \(lwage = 0.2509623 -0.1449393 female + 0.1013765 educ + 0.0151593 exper -0.0009624(exper)(educ)(female)\)
a. Cree una tabla incluyendo estos resultados y los de
3.a.
| Resultados de las estimaciones | 3a | 4a |
|---|---|---|
| Para mujeres | \(lwage = 0.2660838 + 0.0791949 educ + 0.0223715 exper -0.0004231 exper^2\) | - |
| Para hombres | \(lwage = 0.1572910 + 0.0903540 educ + 0.0540175exper -0.0009138exper^2\) | - |
| 4a | - | \(lwage=0.2509623−0.1449393female+0.1013765educ+0.0151593exper−0.0009624(exper)(educ)(female)\) |
b. Observando el resultado obtenido en esta regresión ¿Cuál
es el retorno a un año extra de educación para los hombres? ¿Para
mujeres? Explique cómo lo obtuvo.
Cuando \(female = 0\), \(lwage=0.2509623+0.1013765educ+0.0151593exper\). Entonces, el retorno de un año extra de educación para los hombres es de:
cat(paste0(0.1013765*100), "%.")
## 10.13765 %.
En el caso de las mujeres, cuando \(female = 1\). \(lwage = 0.106023 + 0.1013765 educ + 0.0151593 exper -0.0009624(exper)(educ)\). Por tanto, un año de educación extra se representa por: \(0.1013765 educ - 0.0009624(exper)(educ)\).
c. De qué tamaño es la diferencia en los retornos a la
educación entre hombres y mujeres? ¿Es significativamente distinta la
diferencia en el retorno a la educación entre hombres y mujeres?
Explique.
La diferencia en los retornos a la educación entre hombres y mujeres se representa por el coeficiente de female y el de la interacción \(−0.1449393 − 0.0009624(exper)(educ)(female)\). Es significativa al 99%, pues en el summary de la interacción se indican tres estrellas ***.
d. De qué tamaño es la diferencia en el retorno a un año
extra de experiencia entre hombres y mujeres? ¿Es significativamente
distinta esta diferencia?
La diferencia en los retornos a
la educación entre hombres y mujeres se representa por el coeficiente de
female y el de la interacción \(−0.1449393 −
0.0009624(exper)(educ)(female)\). Es significativa al 99%, pues
en el summary de la interacción se indican tres estrellas ***.
e. En esta muestra y ceteris paribus ¿es más alto el
logaritmo del sueldo promedio de las mujeres o el de los hombres? ¿En
qué medida se encuentran?
a.
b.