Analisis exploratorio de la base de datos CPS1988

La base de datos CPS1988 está compuesta por 28.155 observaciones y 7 variables, las cuales son: “wage”, “education”, “experience”, “ethnicity”, “smsa”, “region”, “parttime”, nuestro interés es construir un modelo de regresión lineal del salario con respecto a la educación, la experiencia y la etnia.

Como primer paso para esto haremos un analisis exploratorio de los datos.

Histograma Salarios

La variable salario tiene como mínimo 50.05 y como máximo 18,777.20, su media y su mediana son 603.73 y 522.32, respectivamente, a continuación podemos ver un histograma que muestra la distribución de los salarios, con este gráfico y con la información anterior podemos ver que es una distribución asimétrica, donde muchos ganan valores bajos y pocos ganan valores muy altos.

Histograma Educación

En cuanto a la variable educación, tenemos como mínimo 0 años de educación, como máximo 18 y como mediana 12, el promedio de educación se encuentra en 13.07 años.

Histograma Experiencia

La variable experiencia tiene una distribución asimétrica positiva, donde la media es mayor que la mediana, 18.2 y 16 años respectivamente, el mínimo de experiencia es de -4, lo que posiblemente nos indique un error en los datos, y el máximo de experiencia es de 63.

Grafico de barras etnia

En cuanto a la etnia, podemos ver que el 92% de las personas pertenecen a la etnia Cauc, mientras que el 8% restante pertenecen a la etnia Afam

Grafico de dispersión Salario vs Educación

La correlación entre la variable educación y el salario es de 0.301644, en el grafico puede apreciarse que hay una pequeña tendencia a que, a mayores años de educación, mayor salario, sin embargo, más adelante, en nuestros modelos, veremos si esta relación es significativa.

Grafico de dispersión Experiencia vs Educación

El coeficiente de correlación entre la variable entre la variable educación y la variable experiencia es negativo, de -0.2867064, en este punto podemos plantear la hipótesis de que a mayor experiencia menor educación, esto podría interpretarse como que las personas con mayor experiencia empezaron a trabajar jóvenes, y por tanto no pudieron constituirse como mano de obra cualificada.

Grafico de dispersión Salario vs Experiencia

El salario y la experiencia tiene un coeficiente de correlación de 0.19, lo que indicaría que, a mayor experiencia, mayor salario, sin embargo, gráficamente esta relación se ve algo incierta.

2. Estime el modelo log(wage)=β1+β2experience+β3experince2+β4education+β5ethnicity+ϵi. Interprete los estimadores y el R2 ajustado.

Ahora procederemos a configurar nuestros modelos, donde la variable dependiente será el Salario y nuestras variables independientes serán la experiencia, la educación, la etnia y la experiencia al cuadrado.

A continuación encontrará el código con el que se calcula el primer modelo.

logwage=CPS1988$wage %>% log()
experience=CPS1988$experience
experience2=CPS1988$experience^2
education=CPS1988$education
ethnicity=CPS1988$ethnicity
ethnicity=if_else(ethnicity=="afam",1,0) %>% as.factor()

model1 <- lm(logwage ~ experience + experience2 + education + ethnicity)

En la siguiente tabla veremos los coeficientes del primer modelo, el intercepto nos indica que al tener experiencia y educación igual a cero y al pertenecer a la etnia cauc, el logaritmo del salario será igual a 4.321395, el coeficiente de la educación nos indica que por cada año adicional de educación el logaritmo del salario aumentará 0.085673, mientras que disminuirá por cada año de experiencia al cuadrado, la etnia afam hace que el logaritmo del salario disminuya 0.243364.

tabbb=summary(model1)

tabbb$coefficients %>% kable() %>%
      kable_styling("striped", full_width = F)
Estimate Std. Error t value Pr(>|t|)
(Intercept) 4.3213950 0.0191742 225.37534 0
experience 0.0774732 0.0008800 88.03310 0
experience2 -0.0013161 0.0000190 -69.31223 0
education 0.0856728 0.0012722 67.34298 0
ethnicity1 -0.2433643 0.0129181 -18.83898 0

El modelo tiene un R cuadrado ajustado de 0.3346, lo que nos indica que el 33.46% de la varianza de log(wage) es explicada por el modelo. El p-value del modelo para el estadístico F es muy pequeño (< 2.2e-16) lo que indica que al menos uno de los predictores introducidos en el modelo está relacionado con la variable respuesta logwage.

Viendo el valor P de la prueba F de los regresores, concluimos que todos los predictores tienen una contribución significativa al modelo.

3. Realice e interprete las cuatro gráficas de los residuales vistas en clase.

par(mfrow = c(2,2))
plot(model1)

Residuals vs Fitted: indican que la varianza de los errores no es constante, es posible interpretarse como tipo embudo, lo que indicaría que la varianza es creciente en Y

Normal Q-Q: Podemos observar que nos encontramos frente a una distribución con colas gruesas

Scale-Location en gráfico podemos ver, que, al parecer, los residuales se distribuyen de forma más o menos homogénea a lo largo del rango de los predictores, por lo que podríamos suponer homocedasticidad en el modelo

Residuals vs Leverage Debido a que apenas podemos ver las líneas de la distancia de Cook, podemos concluir que no hay casos que tengan puntajes altos, o sea que no influyen en los resultados de la regresión.

4. Estime el modelo log(wage)i=β1+β2experience+β3experince2+β4education+ϵi y compárelo con el modelo del punto 3 (aplicando pruebas estadísticas) ¿es la étnia una variable estadísticamente significativa? ¿por qué?

model2 <- lm(logwage ~ experience + experience^2 + education)

AIC(model1)
## [1] 49614.68
AIC(model2)
## [1] 54348.09

Al comparar los AIC de los modelos, este nos indicaría que el mejor modelo es el primero, donde incluíamos la variable etnia, también podemos ver en la tabla del modelo 1 que esta variable era significativa, esto también se evidencia en el R cuadrado ajustado, donde pasamos de explicar el 33.46% de la variabilidad del logaritmo natural del Salario, a explicar el 21.28%