La base de datos CPS1988 está compuesta por 28.155 observaciones y 7 variables, las cuales son: “wage”, “education”, “experience”, “ethnicity”, “smsa”, “region”, “parttime”, nuestro interés es construir un modelo de regresión lineal del salario con respecto a la educación, la experiencia y la etnia.
Como primer paso para esto haremos un analisis exploratorio de los datos.
La variable salario tiene como mínimo 50.05 y como máximo 18,777.20, su media y su mediana son 603.73 y 522.32, respectivamente, a continuación podemos ver un histograma que muestra la distribución de los salarios, con este gráfico y con la información anterior podemos ver que es una distribución asimétrica, donde muchos ganan valores bajos y pocos ganan valores muy altos.
En cuanto a la variable educación, tenemos como mínimo 0 años de educación, como máximo 18 y como mediana 12, el promedio de educación se encuentra en 13.07 años.
La variable experiencia tiene una distribución asimétrica positiva, donde la media es mayor que la mediana, 18.2 y 16 años respectivamente, el mínimo de experiencia es de -4, lo que posiblemente nos indique un error en los datos, y el máximo de experiencia es de 63.
En cuanto a la etnia, podemos ver que el 92% de las personas pertenecen a la etnia Cauc, mientras que el 8% restante pertenecen a la etnia Afam
La correlación entre la variable educación y el salario es de 0.301644, en el grafico puede apreciarse que hay una pequeña tendencia a que, a mayores años de educación, mayor salario, sin embargo, más adelante, en nuestros modelos, veremos si esta relación es significativa.
El coeficiente de correlación entre la variable entre la variable educación y la variable experiencia es negativo, de -0.2867064, en este punto podemos plantear la hipótesis de que a mayor experiencia menor educación, esto podría interpretarse como que las personas con mayor experiencia empezaron a trabajar jóvenes, y por tanto no pudieron constituirse como mano de obra cualificada.
El salario y la experiencia tiene un coeficiente de correlación de 0.19, lo que indicaría que, a mayor experiencia, mayor salario, sin embargo, gráficamente esta relación se ve algo incierta.
Ahora procederemos a configurar nuestros modelos, donde la variable dependiente será el Salario y nuestras variables independientes serán la experiencia, la educación, la etnia y la experiencia al cuadrado.
A continuación encontrará el código con el que se calcula el primer modelo.
logwage=CPS1988$wage %>% log()
experience=CPS1988$experience
experience2=CPS1988$experience^2
education=CPS1988$education
ethnicity=CPS1988$ethnicity
ethnicity=if_else(ethnicity=="afam",1,0) %>% as.factor()
model1 <- lm(logwage ~ experience + experience2 + education + ethnicity)
En la siguiente tabla veremos los coeficientes del primer modelo, el intercepto nos indica que al tener experiencia y educación igual a cero y al pertenecer a la etnia cauc, el logaritmo del salario será igual a 4.321395, el coeficiente de la educación nos indica que por cada año adicional de educación el logaritmo del salario aumentará 0.085673, mientras que disminuirá por cada año de experiencia al cuadrado, la etnia afam hace que el logaritmo del salario disminuya 0.243364.
tabbb=summary(model1)
tabbb$coefficients %>% kable() %>%
kable_styling("striped", full_width = F)
| Estimate | Std. Error | t value | Pr(>|t|) | |
|---|---|---|---|---|
| (Intercept) | 4.3213950 | 0.0191742 | 225.37534 | 0 |
| experience | 0.0774732 | 0.0008800 | 88.03310 | 0 |
| experience2 | -0.0013161 | 0.0000190 | -69.31223 | 0 |
| education | 0.0856728 | 0.0012722 | 67.34298 | 0 |
| ethnicity1 | -0.2433643 | 0.0129181 | -18.83898 | 0 |
El modelo tiene un R cuadrado ajustado de 0.3346, lo que nos indica que el 33.46% de la varianza de log(wage) es explicada por el modelo. El p-value del modelo para el estadístico F es muy pequeño (< 2.2e-16) lo que indica que al menos uno de los predictores introducidos en el modelo está relacionado con la variable respuesta logwage.
Viendo el valor P de la prueba F de los regresores, concluimos que todos los predictores tienen una contribución significativa al modelo.
par(mfrow = c(2,2))
plot(model1)
Residuals vs Fitted: indican que la varianza de los errores no es constante, es posible interpretarse como tipo embudo, lo que indicaría que la varianza es creciente en Y
Normal Q-Q: Podemos observar que nos encontramos frente a una distribución con colas gruesas
Scale-Location en gráfico podemos ver, que, al parecer, los residuales se distribuyen de forma más o menos homogénea a lo largo del rango de los predictores, por lo que podríamos suponer homocedasticidad en el modelo
Residuals vs Leverage Debido a que apenas podemos ver las líneas de la distancia de Cook, podemos concluir que no hay casos que tengan puntajes altos, o sea que no influyen en los resultados de la regresión.
model2 <- lm(logwage ~ experience + experience^2 + education)
AIC(model1)
## [1] 49614.68
AIC(model2)
## [1] 54348.09
Al comparar los AIC de los modelos, este nos indicaría que el mejor modelo es el primero, donde incluíamos la variable etnia, también podemos ver en la tabla del modelo 1 que esta variable era significativa, esto también se evidencia en el R cuadrado ajustado, donde pasamos de explicar el 33.46% de la variabilidad del logaritmo natural del Salario, a explicar el 21.28%