En este documento hemos realizado un analisis descriptivo con la base de datos obtenida, tambien hemos tratado de conseguir un modelo de regresion para relacionar el salario de las mujeres con el salario de los hombres, el porcentaje de paro y el tipo de trabajo. Una vez hemos obtenido el mejor modelo de regresion, que se ha tratado del modelo ANCOVA, hemos creado una serie temporal del salario de las mujeres para crear un modelo ARIMA(1,0,1) con el que los residuos del modelo no esten correlados y asi hacer 4 tipos de predicciones de lo que podria pasar con el salario de las mujeres en los proximos 5 años, estas predicciones han sido pesimista, neutra, optimista y muy optimista. Obteniendo como conclusion que el salario de las mujeres depende principalmente del tipo de trabajo y del salario de los hombres, siendo un salario muy alto si ambos son altos y un salario bajo si son bajos.
Para realizar el informe, vamos a utilizar unos datos que corresponden al salario medio de hombres y mujeres de los ultimos 50 años. Ademas, tambien disponemos de las tasas de paro medias anuales y el tipo de trabajo, que estara clasificado de 0 a 4, siendo 0 ‘sin calificar’, 1 ‘estudios primarios’, 2 ‘estudios secundaria’, 3 ‘FP grado superior o grado universitario’ y 4 ‘Master oficial o doctorado universitario’.
Como es bien conocido, vivimos en una sociedad en la que las mujeres reciben un salario inferior al de los hombres por desempeñar el mismo trabajo, aunque se trate de corregir, ya que es uno de los principales problemas, la brecha que los separa cada vez se va haciendo mas grande. Ademas cuanto mayor es el nivel academico de las mujeres mas amplia es la brecha salarial respecto a los hombres de la misma cualificacion.
Con estos datos vamos a ver como esta relacionado el salario medio de las mujeres con el salario medio de los hombres, el tipo de trabajo y la tasa de paro, tratando de crear un modelo con estas variables para conseguir predecir cual sera el salario medio de las mujeres habiendo obtenido los datos de las demas variables, y asi tratar de ver como va a evolucionar el salario de las mujeres los proximos años con el menor error posible.
Como hemos mencionado anteriormente, las variables que disponemos para realizar este estudio son el salario medio de hombres y mujeres, la tasa de paro anual y el tipo de trabajo de los ultimos 50 años. En primer lugar, las variables salario medio de hombres y salario medio de mujeres muestran el salario mensual medio al para cada uno de los 50 años anteriores, se trata de dos variables continuas. En segundo lugar, la variable tasa de paro anual muestra el porcentaje de desocupacion laboral medio que hubo cada año, se trata de una variable continua, y por ultimo, la variable tipo de trabajao es una variable categorica con valores validos desde 0 hasta 4, siendo 0 ‘sin calificar’, 1 ‘estudios primarios’, 2 ‘estudios secundaria’, 3 ‘FP grado superior o grado universitario’ y 4 ‘Master oficial o doctorado universitario’, los datos han sido obtenidos de la pagina web de la asignatura analisis estadistico de series economicas de la umh, concretamente se trata del archivo14.csv.
Para realizar este estudio, vamos a utilizar modelos de regresion lineal, modelos ANOVA, modelos ANCOVA y modelos ARIMA. Los modelos de regresion lineal se utilizan para relacionar variables, creando una recta que se ajuste lo mejor posible a los datos. Los modelos ANOVA dividen la varianza de la variable dependiente en dos o mas componentes y el modelo ANCOVA es una mezcla de los modelo ANOVA y los modelos de regresion lineal, introduciendo variables cuantitativas y factores. Y por ultimo los modelos ARIMA son modelos autorregresivos integrados de medias moviles, que mezcla modelos AR y modelos MA, pudiendo necesitar diferenciar la serie temporal, tratando de conseguir patrones para poder hacer predicciones futuras.
Estos son los datos que vamos autilizar para realizar el estudio.
X | Porcen.paro | Salario.hombres | Tipo | Salario.Mujeres | anyo |
---|---|---|---|---|---|
1 | 27.895023 | 1358.9399 | 4 | 3958.6320 | 1967 |
2 | 16.796443 | 1621.7249 | 1 | 1251.9789 | 1968 |
3 | 17.106040 | 1686.0097 | 3 | 3699.9574 | 1969 |
4 | 15.430364 | 1184.5518 | 1 | 841.9892 | 1970 |
5 | 14.106088 | 1909.9465 | 2 | 2835.4366 | 1971 |
6 | 21.581480 | 1709.5801 | 2 | 2470.3757 | 1972 |
7 | 18.833548 | 1424.9057 | 2 | 2108.8411 | 1973 |
8 | 25.002328 | 1880.9430 | 2 | 2760.9685 | 1974 |
9 | 6.500757 | 1799.3724 | 3 | 4042.3267 | 1975 |
10 | 14.333167 | 1409.7972 | 2 | 2099.5498 | 1976 |
11 | 19.798372 | 2043.0815 | 3 | 4545.9542 | 1977 |
12 | 15.303095 | 1150.1009 | 3 | 2585.9508 | 1978 |
13 | 12.169237 | 1526.1132 | 2 | 2340.0316 | 1979 |
14 | 18.106787 | 1304.1976 | 1 | 876.6749 | 1980 |
15 | 21.837617 | 1600.2832 | 2 | 2365.3716 | 1981 |
16 | 13.513874 | 2044.7555 | 1 | 1511.4831 | 1982 |
17 | 13.548268 | 1350.5945 | 2 | 1997.0485 | 1983 |
18 | 24.736297 | 1294.5168 | 1 | 823.7387 | 1984 |
19 | 19.961452 | 1529.5093 | 2 | 2335.9206 | 1985 |
20 | 20.630585 | 1690.8930 | 1 | 1130.2228 | 1986 |
21 | 20.970537 | 1557.8193 | 2 | 2267.0844 | 1987 |
22 | 20.968855 | 1758.1204 | 2 | 2475.2007 | 1988 |
23 | 14.447575 | 1710.2528 | 2 | 2630.1429 | 1989 |
24 | 25.529729 | 953.8875 | 2 | 1342.3280 | 1990 |
25 | 19.322874 | 1950.8425 | 3 | 4355.1727 | 1991 |
26 | 14.035209 | 1647.6973 | 2 | 2473.2063 | 1992 |
27 | 15.693047 | 1982.8025 | 4 | 5843.9769 | 1993 |
28 | 13.685997 | 1682.7442 | 1 | 1230.9370 | 1994 |
29 | 20.287963 | 1859.2218 | 1 | 1361.2052 | 1995 |
30 | 16.515103 | 1474.8424 | 2 | 2181.0080 | 1996 |
31 | 20.620672 | 1523.4954 | 2 | 2128.5422 | 1997 |
32 | 22.831081 | 1306.1020 | 2 | 1980.7653 | 1998 |
33 | 20.744130 | 1441.0790 | 2 | 1996.8529 | 1999 |
34 | 26.658685 | 1665.6487 | 2 | 2430.9952 | 2000 |
35 | 19.498292 | 1459.7948 | 3 | 3175.7388 | 2001 |
36 | 23.551762 | 885.5478 | 2 | 1291.5138 | 2002 |
37 | 25.302878 | 1385.0503 | 3 | 3043.1981 | 2003 |
38 | 23.816594 | 1328.5157 | 1 | 900.1971 | 2004 |
39 | 20.446606 | 1052.6468 | 1 | 789.3076 | 2005 |
40 | 16.575152 | 1684.5753 | 2 | 2409.0247 | 2006 |
41 | 22.576035 | 2159.3421 | 3 | 4751.2547 | 2007 |
42 | 22.941743 | 1529.7113 | 2 | 2232.8600 | 2008 |
43 | 15.708889 | 1381.5136 | 3 | 3085.3746 | 2009 |
44 | 30.475470 | 2141.5199 | 2 | 3097.0891 | 2010 |
45 | 23.322284 | 1411.8971 | 2 | 1987.3678 | 2011 |
46 | 28.275233 | 1388.8084 | 3 | 3044.7039 | 2012 |
47 | 22.006561 | 1490.6707 | 1 | 1055.9606 | 2013 |
48 | 25.642090 | 1252.2451 | 3 | 2655.2992 | 2014 |
49 | 20.796694 | 1932.8575 | 2 | 2849.1541 | 2015 |
50 | 22.599520 | 1433.0922 | 2 | 2060.2856 | 2016 |
En primer lugar, vamos a comenzar analizando las variables continuas, como vemos en la tabla, la mayor parte del salario de las mujeres ha oscilado en los ultimos 50 años entre 1628 y 2845, mientras que el de los hombres oscila mayoritariamente entre 1382 y 1710 y el porcentaje de paro durante los 50 años anteriores ha estado entre 15,91% y 22,91%.
Salario.Mujeres | Salario.hombres | Porcen.paro | |
---|---|---|---|
Min. : 789.3 | Min. : 885.5 | Min. : 6.501 | |
1st Qu.:1628.8 | 1st Qu.:1382.4 | 1st Qu.:15.910 | |
Median :2338.0 | Median :1527.8 | Median :20.534 | |
Mean :2394.2 | Mean :1559.0 | Mean :19.861 | |
3rd Qu.:2845.7 | 3rd Qu.:1710.1 | 3rd Qu.:22.914 | |
Max. :5844.0 | Max. :2159.3 | Max. :30.475 |
Como el objetivo es relacionar el salario de las mujeres con el resto de las variables, vamos a ver como estan relacionadas cada una de las variables con las demas.
En los graficos vemos que el salario de las mujeres esta relacionada positivamente con el salario de los hombres, aunque no demasiado 0,546, y vemos que el porcentaje de paro no depende del salario de las mujeres ni de los hombres.
En este grafico se muestra la relacion del salario de las mujeres con el de los hombres segun el tipo de trabajo, vemos que los salarios estan agrupados segun el tipo de trabajo, siendo bastante evidentes los grupos, y podemos ver como cuando aumenta el salario de las mujeres, aumenta el de los hombres, de ahi esa relacion directa que se mostraba en los graficos anteriores.
Cuando graficamos del mismo modelo el salario de las mujeres con el porcentaje de paro segun el tipo de trabajo, vemos que no tienen relacion, ya que no importa lo alto a bajo que sea el porcentaje de paro para que el sueldo sea mayor o menor.
En este grafico de cajas esta representado el salario de las mujeres con el tipo de trabajo, vemos que cuanto mayor es el tipo de trabajo, mayor es el sueldo, estando relacionados de manera directa. Como podemos apreciar en el bloque del tipo de trabajo 2, hay 3 puntos que estan distanciados de la gran mayoria, el valor que se encuentra por encima de la caja coincide con un valor muy elevado del salario de los hombres, y los dos valares que estan por debajo de la caja, coinciden con valores muy pequeños del salario de los hombres.
Por ultimo, vemos en este grafico como evoluciona el salario de las mujeres conforme pasan los años, vemos que presenta continuas oscilaciones a lo largo del tiempo.
Una vez hemos analizado las variables de que disponemos, vamos a intentar encontrar el mejor modelo posible que relacione el salario de las mujeres con las demas variables. Vamos a empezar por los modelos de regresion, primero vamos usar solo las variables continuas.
##
## \begin{table}[!htbp] \centering
## \caption{}
## \label{}
## \begin{tabular}{@{\extracolsep{5pt}}lc}
## \\[-1.8ex]\hline
## \hline \\[-1.8ex]
## & \multicolumn{1}{c}{\textit{Dependent variable:}} \\
## \cline{2-2}
## \\[-1.8ex] & Salario.Mujeres \\
## \hline \\[-1.8ex]
## Salario.hombres & 2.069$^{***}$ (0.463) \\
## Porcen.paro & 8.788 (28.258) \\
## Constant & $-$1,006.297 (989.572) \\
## \hline \\[-1.8ex]
## Observations & 50 \\
## Log Likelihood & $-$412.678 \\
## Akaike Inf. Crit. & 831.357 \\
## \hline
## \hline \\[-1.8ex]
## \textit{Note:} & \multicolumn{1}{r}{$^{*}$p$<$0.1; $^{**}$p$<$0.05; $^{***}$p$<$0.01} \\
## \end{tabular}
## \end{table}
En este modelo podemos ver que el porcentaje de paro no es significativo, por lo tanto tendriamos que crear el modelo habiendo eliminado esta variable.
Teniendo el modelo sin el porcentaje de paro, vemos que es un modelo mejor que el anterior ya que presenta un AIC menor, 829,46, aunque seguramente el modelo mejoraria si le añadieramos el factor tipo de trabajo.
Efectivamente, el modelo con todas las variables es mejor que los dos anteriores, y aunque el porcentaje de paro sigue sin ser significativo, eliminarlo haria que el modelo fuera peor, ya que aumentaria su AIC.
Teniendo este modelo como posiblemente el mejor, vamos a ver si el modelo ANOVA, mejoraria a este. Para ello solo vamos a usar la variable tipo de trabajo, ya que es un factor.
En este modelo, aunque la variable tipo de trabajo es significativa, el modelo es peor que el anterior.
Vamos ahora a probar con el modelo ANCOVA.
Vemos que este modelo es mejor que los anteriores, pero no todas las variables son significativas, asi que vamos a ver cual es el mejor modelo ANCOVA.
Este es el mejor modelo ANCOVA posible.
\[Salario.Mujeres = Salario.hombres + Tipof + Porcen.paro + Salario.hombres*Tipof\]
Una vez tenemos el mejor modelo de todos, vamos ahora a comprobar si los residuos del modelo cumplen las hipotesis necesarias para que el modelo sea bueno.
##
## One Sample t-test
##
## data: mejormodelo$residuals
## t = 1.1133e-14, df = 49, p-value = 1
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## -13.54435 13.54435
## sample estimates:
## mean of x
## 7.503387e-14
##
## studentized Breusch-Pagan test
##
## data: mejormodelo
## BP = 3.9446, df = 8, p-value = 0.8621
##
## Shapiro-Wilk normality test
##
## data: mejormodelo$residuals
## W = 0.97434, p-value = 0.3441
Vemos que los residuos cumplen todas las hipotesis, ya que el p-valor es mayor que 0.05, excepto la correlacion, que segun podemos apreciar en los graficos de autocorrelacion, parece indicar que seria necesario un modelo AR(1).
Vamos a comparar el modelo AR(1) con el AR(2) y con el modelo que tenemos actualmente, para ver si mejora.
## Model df AIC BIC logLik Test L.Ratio p-value
## modelo2 1 11 528.6112 549.6434 -253.3056
## modelo3 2 12 528.6070 551.5513 -252.3035 1 vs 2 2.004104 0.1569
## Model df AIC BIC logLik Test L.Ratio p-value
## modelo2 1 11 528.6112 549.6434 -253.3056
## modelo0 2 10 547.2895 566.4097 -263.6447 1 vs 2 20.67834 <.0001
Como podemos observar, el modelo AR(1) es muy parecido al modelo AR(2), pero al ser un modelo de menor AR, nos quedamos con el. Y vemos que el modelo AR(1) es mejor que el modelo que teniamos anteriormente, por lo que este seria el mejor modelo posible.
Aun teniendo el mejor modelo elegido, vamos a ver si el modelo mejoraria si usaramos series temporales para crear un modelo ARIMA.
## Series: sert
## Regression with ARIMA(1,0,0) errors
##
## Coefficients:
## ar1 intercept salariohombres porcparo Tipotrabajo
## -0.1646 -2279.3730 1.5640 -11.0597 1180.6142
## s.e. 0.1510 202.6376 0.0939 5.4056 34.2305
##
## sigma^2 estimated as 35085: log likelihood=-329.96
## AIC=671.93 AICc=673.88 BIC=683.4
##
## Training set error measures:
## ME RMSE MAE MPE MAPE MASE
## Training set -0.9102877 177.6974 128.3133 1.006594 7.283018 0.09609598
## ACF1
## Training set 0.001477425
Vemos que el modelo ARIMA es peor que el ANCOVA, aunque presenta una correlacion significativa en el orden 10, por lo que vamos a tratar de buscar un modelo ARIMA que no tenga correlaciones significativas.
## Series: sert
## Regression with ARIMA(1,0,1) errors
##
## Coefficients:
## ar1 ma1 intercept salariohombres porcparo Tipotrabajo
## 0.6946 -0.9999 -2357.0191 1.5711 -7.9140 1185.8191
## s.e. 0.1188 0.0542 177.9467 0.0909 3.6089 34.0361
##
## sigma^2 estimated as 31262: log likelihood=-327.66
## AIC=669.31 AICc=671.98 BIC=682.7
##
## Training set error measures:
## ME RMSE MAE MPE MAPE MASE
## Training set -8.013271 165.8641 119.1368 0.3554151 6.35903 0.08922359
## ACF1
## Training set 0.008447024
Este modelo ARMA(1,1) es mejor que el anterior, y no tiene correlaciones significativas, por lo tanto este seria el mejor modelo ARIMA. Vamos a usar este modelo para tratar de predecir que podria pasar en los proximos 5 años.
En primer lugar vamos a realizar una prediccion pesimista, en la que el salario de los hombres este entre 1000 y 1200, el porcentaje de paro este entre 24 y 26 y el tipo de trabajo sea 1.
Vemos que con estas condiciones el salario de las mujeres estaria alrededor de 500.
Ahora vamos a realizar un prediccion neutra, en la que el salario de los hombres este entre 1400 y 1600, el porcentaje de paro este entre 19 y 21 y el tipo de trabajo sea 2.
En esta prediccion vemos que el salario estaria un poco por encima de 2000.
Ahora vamos a realizar una prediccion optimista, en la que el salario de los hombres este entre 1800 y 1900, el porcentaje de paro este entre 14 y 16 y el tipo de trabajo sea 3.
Vemos que el salario estaria alrededor de los 4000.
Y por ultimo vamos a realizar una prediccion muy optimista, en la que el salario de los hombres este entre 2100 y 2300, el porcentaje de paro este entre 9 y 10 y el tipo de trabajo sea 4.
Como se puede ver el salario estaria cerca de 6000.
Como conclusion, el salario de las mujeres depende principalmente del salario de los hombres y del tipo de trabajo, hemos visto en las predicciones realizadas con el modelo ARIMA(1,0,1) que cuanto mayor sean ambas mas alto sera el salario de las mujeres. El mejor modelo para relaccionar el salario de las mujeres con las demas variables es el modelo ANCOVA. Parece que lo mas importante a la hora de que las mujeres obtengan un salario mas alto es el tipo de trabajo, cuanto mayor cualificacion requiera el trabajo mas salario cobrara, por lo que las mujeres deben centrarse en la preparacion academica para tener mas opciones de recibir un salario mas alto.
http://halweb.uc3m.es/esp/Personal/personas/jmmarin/esp/GuiaSPSS/18reglin.pdf
http://www.ugr.es/~imartin/TEMA5_ANOVA.pdf
https://www.eldiario.es/economia/brecha-salarial-hombres-mujeres-crisis_0_357314908.html
http://www.lavanguardia.com/economia/20180212/44737602135/brecha-salarial-genero-mujer-cobrar.html
http://www.elmundo.es/economia/macroeconomia/2017/06/28/5953753246163f5d0b8b4573.html