Inferencia, Dummies, e Interacciones.

library("pacman")

p_load(data.table, fixest, magrittr, wooldridge, multcomp, tidyverse)

Ejercicio 1

# Load data
data("wage1")

# Run regressions
# Assume no serial correlation and homocedasticity
est_0 <- lm(lwage ~ educ, data = wage1)
summary_0 <- summary(est_0)

# Compute p_value, insert degrees of freedom
2* pt(-10.935, df = 526-1) # n-k-1
## [1] 3.247857e-25

a. Demuestre que el estadístico t de educ = 10.94

Asumiendo que \(H_{0} \colon \beta=0\) calculamos el estadístico t de la siguiente forma:

t_educ <- summary_0$coefficients[2]/ summary_0$coefficients["educ", "Std. Error"]

cat(t_educ)
## 10.93534

b. ¿Se rechaza la \(H_{0}\)?

Usando el valor crítico del 99%: 2.58, el estadístico \(t = 10.94\), cae en la región de rechazo. Por tanto,podemos concluir que la prueba otorga suficiente evidencia para rechazar \(H_{0}\) al 99% de confianza.

c. ¿Por lo menos con qué nivel de confianza estadística es significativo el coeficiente de educación? ¿con qué valor crítico?
El estadístico es significativo con el 99% de confianza, cuyo valor crítico asociado es de 2.58.

d. Dibuje (a mano) el gráfico de la distribución t que surge de c. donde aproximadamente identifique el área que equivale al p-value.
El p-value del modelo es:

cat(summary_0$coefficients["educ", "Pr(>|t|)"])
## 3.270644e-25

Este es muy pequeño, por lo que indica evidencia en contra de \(H_{0}\). Adjunto foto de la gráfica.

e. ¿Cuál es el supuesto clave para poder estimar el estadístico t?
El supuesto clave para poder estimar cualquier estadístico \(t\) es el supuesto de la normalidad en los errores. Es decir, asumimos que los factores no observados se distribuyen normalmente sobre la población \(U_{i} \sim \mathcal{N}(0,\sigma^2)\).

f. Estime el intervalo de confianza al 99%.
El intervalo de confianza se calcula como: \(P(\beta_{1}-c_{.01}se(\beta_{1}) < \beta < \beta_{1}+c_{.01}se(\beta_{1}))\), donde \(c_{.01}\) es 2.58. De esta forma:

lb <- summary_0$coefficients["educ", "Estimate"] - (2.58 *summary_0$coefficients["educ", "Std. Error"])

ub <- summary_0$coefficients["educ", "Estimate"] + (2.58 *summary_0$coefficients["educ", "Std. Error"])

cat(lb,ub)
## 0.0632223 0.1022664

g. Draw (with R) a scatter plot of Y on X and draw and add the regression line. Are the residuals homoscedastic? Will they distribute normally? Draw (manually) how do you think the distribution of residuals will look?

data <- data.frame(wage1$lwage, wage1$educ)
ggplot(data, aes(y = wage1$lwage, x =wage1$educ)) + 
  geom_point() +
  geom_smooth(method = lm)

Los residuos no son homocedásticos, porque su varianza difiere entre los valores de educ. Por tanto, no se distribuyen de forma normal.

Ejercicio 2

Con los datos de “wage1” (librería de Wooldridge en R) estime el modelo logaritmo del sueldo como dependiente y educación, experiencia y su cuadrado, además de la variable female como explicativas.

est_1 <- lm(lwage ~ educ + exper + I(exper^2) + female, data = wage1)

summary_1 <- summary(est_1)
summary_1
## 
## Call:
## lm(formula = lwage ~ educ + exper + I(exper^2) + female, data = wage1)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.80836 -0.27728 -0.01813  0.25637  1.23896 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  0.3904830  0.1022096   3.820 0.000149 ***
## educ         0.0841361  0.0069568  12.094  < 2e-16 ***
## exper        0.0389100  0.0048235   8.067 5.00e-15 ***
## I(exper^2)  -0.0006860  0.0001074  -6.389 3.71e-10 ***
## female      -0.3371868  0.0363214  -9.283  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.4134 on 521 degrees of freedom
## Multiple R-squared:  0.3996, Adjusted R-squared:  0.395 
## F-statistic: 86.69 on 4 and 521 DF,  p-value: < 2.2e-16

a. Interprete el efecto del primer año de experiencia.

Como incluimos a la variable experiencia como un polinomio de grado 2, debemos utilizar su derivada para interpretarla. La derivada de la regresión respecto a esper es: \(\frac{\partial(lwage)}{\partial(exper)} = 0.0389100 -2(0.0006860) exper\). Por tanto, ceteris paribus, el primer año de experiencia, en promedio, aumenta el salario en un:

año1 <- 0.0389100 - 2*(0.0006860*1)
cat(paste0(100*año1,"%"))
## 3.7538%

b.Interprete el efecto de la experiencia al pasar de 7 a 8 años de experiencia y de 17 a 18 años de experiencia, respectivamente.
Como la función es decreciente, esperamos que entre más avancen los años de experiencia, el incremento en el salario sea menor.

año7 <- 0.0389100 - 2*(0.0006860*7)
año8 <- 0.0389100 - 2*(0.0006860*8)

cat(paste0("Ceteris paribus, el séptimo año de experiencia, en promedio, aumenta el salario en un ", 100*año7,"%. "))
## Ceteris paribus, el séptimo año de experiencia, en promedio, aumenta el salario en un 2.9306%.
cat(paste0("Ceteris paribus, el octavo año de experiencia, en promedio, aumenta el salario en un ", 100*año8,"%. "))
## Ceteris paribus, el octavo año de experiencia, en promedio, aumenta el salario en un 2.7934%.
cat(paste0("Por tanto, el aumento del año 7 al 8 disminuye en: ",100*(round(año8-año7,digits = 4)),"%."))
## Por tanto, el aumento del año 7 al 8 disminuye en: -0.14%.

c.¿Con cuántos años de experiencia se alcanza el máximo sueldo, ceteris paribus?
El máximo sueldo se alcanza en el punto máximo de la derivada, esto es:

cat(0.0389 / 2*(0.000686) )
## 1.33427e-05

d. ¿Es estadísticamente significativa la experiencia en la ecuación de sueldos estimada? (vea sección 4.4 en Wooldridge ed.7) y explore el comando “glht” en R (instalado con el paquete multcomp)
Sí es estadísticamente significativa.

t_1 <- 0.0389100 / 0.0048235
paste0("El estadístico t es: ", t_1, ". ", "Por tanto, cae en la región de rechazo con el 99% de confianza.")
## [1] "El estadístico t es: 8.06675650461283. Por tanto, cae en la región de rechazo con el 99% de confianza."

e. ¿Cuál es el valor predicho del sueldo en dólares por hora para un hombre con 10 años de experiencia y 12 años de educación? ¿Cuál es el valor predicho para una mujer con las mismas características?
La ecuación de la regresión para mujeres es la siguiente: \(lwage = 0.3904830 - 0.3371868 female + 0.0841361 educ + 0.0389100 exper - 0.0006860 exper^2\). Para los hombres, \(lwage = 0.3904830 + 0.0841361 educ + 0.0389100 exper - 0.0006860 exper^2\).

paste0("Entonces, para un hombre con 10 años de experiencia y 12 de educación el sueldo en dól por hora es de $", 100*(0.3904830 + 0.0841361*12 + 0.0389100*10 - 0.0006860*(10^2)))
## [1] "Entonces, para un hombre con 10 años de experiencia y 12 de educación el sueldo en dól por hora es de $172.06162"
paste0("Para una mujer con las mismas características el sueldo en dól por hora es de $", 100*((0.3904830- 0.3371868) + 0.0841361*12 + 0.0389100*10 - 0.0006860*(10^2)))
## [1] "Para una mujer con las mismas características el sueldo en dól por hora es de $138.34294"

f. Interprete el coeficiente female ¿Qué representa la constante del modelo en este caso? Interprétela.
El coeficiente de female indica la diferencia promedio en el retorno salarial que otorga la educación entre hombres y mujeres. Cómo es negativo, el coeficiente indica que el retorno de la educación, en promedio, es menor para mujeres que para hombres.

Ejercicio 3

Suponga que nos interesa saber cómo la educación potencialmente tiene diferentes retornos para la mujer y para el hombre.

a. Estime una regresión con el logaritmo del sueldo como dependiente solamente para la muestra de mujeres y otra solamente para la muestra de hombres. Escriba la ecuación estimada y pegue los resultados incluyendo errores estándar robustos “hetero”.

est_fem <- lm(lwage ~ educ + exper + expersq, data = subset(wage1, female == "1"))

summary_fem <- summary(est_fem)

est_male <- lm(lwage ~ educ + exper + expersq, data = subset(wage1, female == "0"))

summary_male <- summary(est_male)

La ecuación estimada para las mujeres es: \(lwage = 0.2660838 + 0.0791949 educ + 0.0223715 exper -0.0004231 exper^2\). La ecuación estimada para los hombres es: \(lwage = 0.1572910 + 0.0903540 educ + 0.0540175exper -0.0009138exper^2\)

b. ¿De qué tamaño es la diferencia entre los retornos a la educación (por año adicional) del hombre y los de la mujer?

paste0("La diferencia entre los retornos a la educación entre hombres y mujeres es de ", 100*(0.0791949 - 0.0903540), "%", " por año adicional.")
## [1] "La diferencia entre los retornos a la educación entre hombres y mujeres es de -1.11591% por año adicional."

c.Construya el intervalo de confianza al 95% del coeficiente de educación para ambas submuestras. f. Estime el intervalo de confianza al 99%.
El intervalo de confianza se calcula como: \(P(\beta_{1}-c_{.01}se(\beta_{1}) < \beta < \beta_{1}+c_{.01}se(\beta_{1}))\), donde \(c_{.05}\) es 1.96. De esta forma, el intervalo de confianza al 99% para la submuestra de mujeres es:

lb <- summary_fem$coefficients["educ", "Estimate"] - (1.96 *summary_fem$coefficients["educ", "Std. Error"])

ub <- summary_fem$coefficients["educ", "Estimate"] + (1.96 *summary_fem$coefficients["educ", "Std. Error"])

cat(lb,ub)
## 0.05887211 0.09951763

Por otro lado, el intervalo de confianza al 99% para la submuestra de hombres es:

lb <- summary_male$coefficients["educ", "Estimate"] - (1.96 *summary_male$coefficients["educ", "Std. Error"])

ub <- summary_male$coefficients["educ", "Estimate"] + (1.96 *summary_male$coefficients["educ", "Std. Error"])

cat(lb,ub)
## 0.07219141 0.1085166

d. ¿Con el 95% de significancia estadística son significativamente distintos los coeficientes de educación para la muestra de hombres y de mujeres?

No son estadísticamente distintos, porque se intersectan entre sí.

e. ¿Es estadísticamente distinto el retorno al primer año de experiencia para hombres y mujeres?
No porque sus intervalos se contienen.

Ejercicio 4

Estime una regresión con el logaritmo del sueldo como dependiente y como explicativas la educación, experiencia (sin su cuadrado), más la interacción entre estas dos variables y la variable dummy que denota a las mujeres, más la variable female sin interactuar. Escriba la ecuación estimada y:

est_4 <- lm(lwage ~ educ + exper + female + female:educ:exper, data = wage1)

summary_4 <- summary(est_4)

La ecuación estimada es: \(lwage = 0.2509623 -0.1449393 female + 0.1013765 educ + 0.0151593 exper -0.0009624(exper)(educ)(female)\)

a. Cree una tabla incluyendo estos resultados y los de 3.a.

Resultados de las estimaciones 3a 4a
Para mujeres \(lwage = 0.2660838 + 0.0791949 educ + 0.0223715 exper -0.0004231 exper^2\) -
Para hombres \(lwage = 0.1572910 + 0.0903540 educ + 0.0540175exper -0.0009138exper^2\) -
4a - \(lwage=0.2509623−0.1449393female+0.1013765educ+0.0151593exper−0.0009624(exper)(educ)(female)\)

b. Observando el resultado obtenido en esta regresión ¿Cuál es el retorno a un año extra de educación para los hombres? ¿Para mujeres? Explique cómo lo obtuvo.

Cuando \(female = 0\), \(lwage=0.2509623+0.1013765educ+0.0151593exper\). Entonces, el retorno de un año extra de educación para los hombres es de:

cat(paste0(0.1013765*100), "%.")
## 10.13765 %.

En el caso de las mujeres, cuando \(female = 1\). \(lwage = 0.106023 + 0.1013765 educ + 0.0151593 exper -0.0009624(exper)(educ)\). Por tanto, un año de educación extra se representa por: \(0.1013765 educ - 0.0009624(exper)(educ)\).

c. De qué tamaño es la diferencia en los retornos a la educación entre hombres y mujeres? ¿Es significativamente distinta la diferencia en el retorno a la educación entre hombres y mujeres? Explique.

La diferencia en los retornos a la educación entre hombres y mujeres se representa por el coeficiente de female y el de la interacción \(−0.1449393 − 0.0009624(exper)(educ)(female)\). Es significativa al 99%, pues en el summary de la interacción se indican tres estrellas ***.

d. De qué tamaño es la diferencia en el retorno a un año extra de experiencia entre hombres y mujeres? ¿Es significativamente distinta esta diferencia?
La diferencia en los retornos a la educación entre hombres y mujeres se representa por el coeficiente de female y el de la interacción \(−0.1449393 − 0.0009624(exper)(educ)(female)\). Es significativa al 99%, pues en el summary de la interacción se indican tres estrellas ***.

e. En esta muestra y ceteris paribus ¿es más alto el logaritmo del sueldo promedio de las mujeres o el de los hombres? ¿En qué medida se encuentran?

Ejercicio 5

a.

b.