RESUMEN

En este documento hemos realizado un analisis descriptivo con la base de datos obtenida, tambien hemos tratado de conseguir un modelo de regresion para relacionar el salario de las mujeres con el salario de los hombres, el porcentaje de paro y el tipo de trabajo. Una vez hemos obtenido el mejor modelo de regresion, que se ha tratado del modelo ANCOVA, hemos creado una serie temporal del salario de las mujeres para crear un modelo ARIMA(1,0,1) con el que los residuos del modelo no esten correlados y asi hacer 4 tipos de predicciones de lo que podria pasar con el salario de las mujeres en los proximos 5 años, estas predicciones han sido pesimista, neutra, optimista y muy optimista. Obteniendo como conclusion que el salario de las mujeres depende principalmente del tipo de trabajo y del salario de los hombres, siendo un salario muy alto si ambos son altos y un salario bajo si son bajos.

INTRODUCCION

ACERCA DE LOS DATOS

Para realizar el informe, vamos a utilizar unos datos que corresponden al salario medio de hombres y mujeres de los ultimos 50 años. Ademas, tambien disponemos de las tasas de paro medias anuales y el tipo de trabajo, que estara clasificado de 0 a 4, siendo 0 ‘sin calificar’, 1 ‘estudios primarios’, 2 ‘estudios secundaria’, 3 ‘FP grado superior o grado universitario’ y 4 ‘Master oficial o doctorado universitario’.

Como es bien conocido, vivimos en una sociedad en la que las mujeres reciben un salario inferior al de los hombres por desempeñar el mismo trabajo, aunque se trate de corregir, ya que es uno de los principales problemas, la brecha que los separa cada vez se va haciendo mas grande. Ademas cuanto mayor es el nivel academico de las mujeres mas amplia es la brecha salarial respecto a los hombres de la misma cualificacion.

OBJETIVOS

Con estos datos vamos a ver como esta relacionado el salario medio de las mujeres con el salario medio de los hombres, el tipo de trabajo y la tasa de paro, tratando de crear un modelo con estas variables para conseguir predecir cual sera el salario medio de las mujeres habiendo obtenido los datos de las demas variables, y asi tratar de ver como va a evolucionar el salario de las mujeres los proximos años con el menor error posible.

MATERIAL Y METODOS

INFORMACION DISPONIBLE

Como hemos mencionado anteriormente, las variables que disponemos para realizar este estudio son el salario medio de hombres y mujeres, la tasa de paro anual y el tipo de trabajo de los ultimos 50 años. En primer lugar, las variables salario medio de hombres y salario medio de mujeres muestran el salario mensual medio al para cada uno de los 50 años anteriores, se trata de dos variables continuas. En segundo lugar, la variable tasa de paro anual muestra el porcentaje de desocupacion laboral medio que hubo cada año, se trata de una variable continua, y por ultimo, la variable tipo de trabajao es una variable categorica con valores validos desde 0 hasta 4, siendo 0 ‘sin calificar’, 1 ‘estudios primarios’, 2 ‘estudios secundaria’, 3 ‘FP grado superior o grado universitario’ y 4 ‘Master oficial o doctorado universitario’, los datos han sido obtenidos de la pagina web de la asignatura analisis estadistico de series economicas de la umh, concretamente se trata del archivo14.csv.

ANALISIS ESTADISTICO

Para realizar este estudio, vamos a utilizar modelos de regresion lineal, modelos ANOVA, modelos ANCOVA y modelos ARIMA. Los modelos de regresion lineal se utilizan para relacionar variables, creando una recta que se ajuste lo mejor posible a los datos. Los modelos ANOVA dividen la varianza de la variable dependiente en dos o mas componentes y el modelo ANCOVA es una mezcla de los modelo ANOVA y los modelos de regresion lineal, introduciendo variables cuantitativas y factores. Y por ultimo los modelos ARIMA son modelos autorregresivos integrados de medias moviles, que mezcla modelos AR y modelos MA, pudiendo necesitar diferenciar la serie temporal, tratando de conseguir patrones para poder hacer predicciones futuras.

RESULTADOS

ANALISIS DESCRIPTIVO

Estos son los datos que vamos autilizar para realizar el estudio.

X Porcen.paro Salario.hombres Tipo Salario.Mujeres anyo
1 27.895023 1358.9399 4 3958.6320 1967
2 16.796443 1621.7249 1 1251.9789 1968
3 17.106040 1686.0097 3 3699.9574 1969
4 15.430364 1184.5518 1 841.9892 1970
5 14.106088 1909.9465 2 2835.4366 1971
6 21.581480 1709.5801 2 2470.3757 1972
7 18.833548 1424.9057 2 2108.8411 1973
8 25.002328 1880.9430 2 2760.9685 1974
9 6.500757 1799.3724 3 4042.3267 1975
10 14.333167 1409.7972 2 2099.5498 1976
11 19.798372 2043.0815 3 4545.9542 1977
12 15.303095 1150.1009 3 2585.9508 1978
13 12.169237 1526.1132 2 2340.0316 1979
14 18.106787 1304.1976 1 876.6749 1980
15 21.837617 1600.2832 2 2365.3716 1981
16 13.513874 2044.7555 1 1511.4831 1982
17 13.548268 1350.5945 2 1997.0485 1983
18 24.736297 1294.5168 1 823.7387 1984
19 19.961452 1529.5093 2 2335.9206 1985
20 20.630585 1690.8930 1 1130.2228 1986
21 20.970537 1557.8193 2 2267.0844 1987
22 20.968855 1758.1204 2 2475.2007 1988
23 14.447575 1710.2528 2 2630.1429 1989
24 25.529729 953.8875 2 1342.3280 1990
25 19.322874 1950.8425 3 4355.1727 1991
26 14.035209 1647.6973 2 2473.2063 1992
27 15.693047 1982.8025 4 5843.9769 1993
28 13.685997 1682.7442 1 1230.9370 1994
29 20.287963 1859.2218 1 1361.2052 1995
30 16.515103 1474.8424 2 2181.0080 1996
31 20.620672 1523.4954 2 2128.5422 1997
32 22.831081 1306.1020 2 1980.7653 1998
33 20.744130 1441.0790 2 1996.8529 1999
34 26.658685 1665.6487 2 2430.9952 2000
35 19.498292 1459.7948 3 3175.7388 2001
36 23.551762 885.5478 2 1291.5138 2002
37 25.302878 1385.0503 3 3043.1981 2003
38 23.816594 1328.5157 1 900.1971 2004
39 20.446606 1052.6468 1 789.3076 2005
40 16.575152 1684.5753 2 2409.0247 2006
41 22.576035 2159.3421 3 4751.2547 2007
42 22.941743 1529.7113 2 2232.8600 2008
43 15.708889 1381.5136 3 3085.3746 2009
44 30.475470 2141.5199 2 3097.0891 2010
45 23.322284 1411.8971 2 1987.3678 2011
46 28.275233 1388.8084 3 3044.7039 2012
47 22.006561 1490.6707 1 1055.9606 2013
48 25.642090 1252.2451 3 2655.2992 2014
49 20.796694 1932.8575 2 2849.1541 2015
50 22.599520 1433.0922 2 2060.2856 2016

En primer lugar, vamos a comenzar analizando las variables continuas, como vemos en la tabla, la mayor parte del salario de las mujeres ha oscilado en los ultimos 50 años entre 1628 y 2845, mientras que el de los hombres oscila mayoritariamente entre 1382 y 1710 y el porcentaje de paro durante los 50 años anteriores ha estado entre 15,91% y 22,91%.

Salario.Mujeres Salario.hombres Porcen.paro
Min. : 789.3 Min. : 885.5 Min. : 6.501
1st Qu.:1628.8 1st Qu.:1382.4 1st Qu.:15.910
Median :2338.0 Median :1527.8 Median :20.534
Mean :2394.2 Mean :1559.0 Mean :19.861
3rd Qu.:2845.7 3rd Qu.:1710.1 3rd Qu.:22.914
Max. :5844.0 Max. :2159.3 Max. :30.475

Como el objetivo es relacionar el salario de las mujeres con el resto de las variables, vamos a ver como estan relacionadas cada una de las variables con las demas.

En los graficos vemos que el salario de las mujeres esta relacionada positivamente con el salario de los hombres, aunque no demasiado 0,546, y vemos que el porcentaje de paro no depende del salario de las mujeres ni de los hombres.

En este grafico se muestra la relacion del salario de las mujeres con el de los hombres segun el tipo de trabajo, vemos que los salarios estan agrupados segun el tipo de trabajo, siendo bastante evidentes los grupos, y podemos ver como cuando aumenta el salario de las mujeres, aumenta el de los hombres, de ahi esa relacion directa que se mostraba en los graficos anteriores.

Cuando graficamos del mismo modelo el salario de las mujeres con el porcentaje de paro segun el tipo de trabajo, vemos que no tienen relacion, ya que no importa lo alto a bajo que sea el porcentaje de paro para que el sueldo sea mayor o menor.

En este grafico de cajas esta representado el salario de las mujeres con el tipo de trabajo, vemos que cuanto mayor es el tipo de trabajo, mayor es el sueldo, estando relacionados de manera directa. Como podemos apreciar en el bloque del tipo de trabajo 2, hay 3 puntos que estan distanciados de la gran mayoria, el valor que se encuentra por encima de la caja coincide con un valor muy elevado del salario de los hombres, y los dos valares que estan por debajo de la caja, coinciden con valores muy pequeños del salario de los hombres.

Por ultimo, vemos en este grafico como evoluciona el salario de las mujeres conforme pasan los años, vemos que presenta continuas oscilaciones a lo largo del tiempo.

MODELO DE REGRESION

Una vez hemos analizado las variables de que disponemos, vamos a intentar encontrar el mejor modelo posible que relacione el salario de las mujeres con las demas variables. Vamos a empezar por los modelos de regresion, primero vamos usar solo las variables continuas.

## 
## \begin{table}[!htbp] \centering 
##   \caption{} 
##   \label{} 
## \begin{tabular}{@{\extracolsep{5pt}}lc} 
## \\[-1.8ex]\hline 
## \hline \\[-1.8ex] 
##  & \multicolumn{1}{c}{\textit{Dependent variable:}} \\ 
## \cline{2-2} 
## \\[-1.8ex] & Salario.Mujeres \\ 
## \hline \\[-1.8ex] 
##  Salario.hombres & 2.069$^{***}$ (0.463) \\ 
##   Porcen.paro & 8.788 (28.258) \\ 
##   Constant & $-$1,006.297 (989.572) \\ 
##  \hline \\[-1.8ex] 
## Observations & 50 \\ 
## Log Likelihood & $-$412.678 \\ 
## Akaike Inf. Crit. & 831.357 \\ 
## \hline 
## \hline \\[-1.8ex] 
## \textit{Note:}  & \multicolumn{1}{r}{$^{*}$p$<$0.1; $^{**}$p$<$0.05; $^{***}$p$<$0.01} \\ 
## \end{tabular} 
## \end{table}

En este modelo podemos ver que el porcentaje de paro no es significativo, por lo tanto tendriamos que crear el modelo habiendo eliminado esta variable.

Teniendo el modelo sin el porcentaje de paro, vemos que es un modelo mejor que el anterior ya que presenta un AIC menor, 829,46, aunque seguramente el modelo mejoraria si le añadieramos el factor tipo de trabajo.

Efectivamente, el modelo con todas las variables es mejor que los dos anteriores, y aunque el porcentaje de paro sigue sin ser significativo, eliminarlo haria que el modelo fuera peor, ya que aumentaria su AIC.

Teniendo este modelo como posiblemente el mejor, vamos a ver si el modelo ANOVA, mejoraria a este. Para ello solo vamos a usar la variable tipo de trabajo, ya que es un factor.

En este modelo, aunque la variable tipo de trabajo es significativa, el modelo es peor que el anterior.

Vamos ahora a probar con el modelo ANCOVA.

Vemos que este modelo es mejor que los anteriores, pero no todas las variables son significativas, asi que vamos a ver cual es el mejor modelo ANCOVA.

Este es el mejor modelo ANCOVA posible.

\[Salario.Mujeres = Salario.hombres + Tipof + Porcen.paro + Salario.hombres*Tipof\]

Una vez tenemos el mejor modelo de todos, vamos ahora a comprobar si los residuos del modelo cumplen las hipotesis necesarias para que el modelo sea bueno.

## 
##  One Sample t-test
## 
## data:  mejormodelo$residuals
## t = 1.1133e-14, df = 49, p-value = 1
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  -13.54435  13.54435
## sample estimates:
##    mean of x 
## 7.503387e-14
## 
##  studentized Breusch-Pagan test
## 
## data:  mejormodelo
## BP = 3.9446, df = 8, p-value = 0.8621
## 
##  Shapiro-Wilk normality test
## 
## data:  mejormodelo$residuals
## W = 0.97434, p-value = 0.3441

Vemos que los residuos cumplen todas las hipotesis, ya que el p-valor es mayor que 0.05, excepto la correlacion, que segun podemos apreciar en los graficos de autocorrelacion, parece indicar que seria necesario un modelo AR(1).

Vamos a comparar el modelo AR(1) con el AR(2) y con el modelo que tenemos actualmente, para ver si mejora.

##         Model df      AIC      BIC    logLik   Test  L.Ratio p-value
## modelo2     1 11 528.6112 549.6434 -253.3056                        
## modelo3     2 12 528.6070 551.5513 -252.3035 1 vs 2 2.004104  0.1569
##         Model df      AIC      BIC    logLik   Test  L.Ratio p-value
## modelo2     1 11 528.6112 549.6434 -253.3056                        
## modelo0     2 10 547.2895 566.4097 -263.6447 1 vs 2 20.67834  <.0001

Como podemos observar, el modelo AR(1) es muy parecido al modelo AR(2), pero al ser un modelo de menor AR, nos quedamos con el. Y vemos que el modelo AR(1) es mejor que el modelo que teniamos anteriormente, por lo que este seria el mejor modelo posible.

SERIES TEMPORALES

Aun teniendo el mejor modelo elegido, vamos a ver si el modelo mejoraria si usaramos series temporales para crear un modelo ARIMA.

## Series: sert 
## Regression with ARIMA(1,0,0) errors 
## 
## Coefficients:
##           ar1   intercept  salariohombres  porcparo  Tipotrabajo
##       -0.1646  -2279.3730          1.5640  -11.0597    1180.6142
## s.e.   0.1510    202.6376          0.0939    5.4056      34.2305
## 
## sigma^2 estimated as 35085:  log likelihood=-329.96
## AIC=671.93   AICc=673.88   BIC=683.4
## 
## Training set error measures:
##                      ME     RMSE      MAE      MPE     MAPE       MASE
## Training set -0.9102877 177.6974 128.3133 1.006594 7.283018 0.09609598
##                     ACF1
## Training set 0.001477425

Vemos que el modelo ARIMA es peor que el ANCOVA, aunque presenta una correlacion significativa en el orden 10, por lo que vamos a tratar de buscar un modelo ARIMA que no tenga correlaciones significativas.

## Series: sert 
## Regression with ARIMA(1,0,1) errors 
## 
## Coefficients:
##          ar1      ma1   intercept  salariohombres  porcparo  Tipotrabajo
##       0.6946  -0.9999  -2357.0191          1.5711   -7.9140    1185.8191
## s.e.  0.1188   0.0542    177.9467          0.0909    3.6089      34.0361
## 
## sigma^2 estimated as 31262:  log likelihood=-327.66
## AIC=669.31   AICc=671.98   BIC=682.7
## 
## Training set error measures:
##                     ME     RMSE      MAE       MPE    MAPE       MASE
## Training set -8.013271 165.8641 119.1368 0.3554151 6.35903 0.08922359
##                     ACF1
## Training set 0.008447024

Este modelo ARMA(1,1) es mejor que el anterior, y no tiene correlaciones significativas, por lo tanto este seria el mejor modelo ARIMA. Vamos a usar este modelo para tratar de predecir que podria pasar en los proximos 5 años.

PREDICCION

En primer lugar vamos a realizar una prediccion pesimista, en la que el salario de los hombres este entre 1000 y 1200, el porcentaje de paro este entre 24 y 26 y el tipo de trabajo sea 1.

Vemos que con estas condiciones el salario de las mujeres estaria alrededor de 500.

Ahora vamos a realizar un prediccion neutra, en la que el salario de los hombres este entre 1400 y 1600, el porcentaje de paro este entre 19 y 21 y el tipo de trabajo sea 2.

En esta prediccion vemos que el salario estaria un poco por encima de 2000.

Ahora vamos a realizar una prediccion optimista, en la que el salario de los hombres este entre 1800 y 1900, el porcentaje de paro este entre 14 y 16 y el tipo de trabajo sea 3.

Vemos que el salario estaria alrededor de los 4000.

Y por ultimo vamos a realizar una prediccion muy optimista, en la que el salario de los hombres este entre 2100 y 2300, el porcentaje de paro este entre 9 y 10 y el tipo de trabajo sea 4.

Como se puede ver el salario estaria cerca de 6000.

CONCLUSIONES

Como conclusion, el salario de las mujeres depende principalmente del salario de los hombres y del tipo de trabajo, hemos visto en las predicciones realizadas con el modelo ARIMA(1,0,1) que cuanto mayor sean ambas mas alto sera el salario de las mujeres. El mejor modelo para relaccionar el salario de las mujeres con las demas variables es el modelo ANCOVA. Parece que lo mas importante a la hora de que las mujeres obtengan un salario mas alto es el tipo de trabajo, cuanto mayor cualificacion requiera el trabajo mas salario cobrara, por lo que las mujeres deben centrarse en la preparacion academica para tener mas opciones de recibir un salario mas alto.

REFERENCIAS

http://halweb.uc3m.es/esp/Personal/personas/jmmarin/esp/GuiaSPSS/18reglin.pdf

http://www.ugr.es/~imartin/TEMA5_ANOVA.pdf

https://support.minitab.com/es-mx/minitab/18/help-and-how-to/modeling-statistics/time-series/how-to/partial-autocorrelation/interpret-the-results/partial-autocorrelation-function-pacf/

https://www.eldiario.es/economia/brecha-salarial-hombres-mujeres-crisis_0_357314908.html

http://www.lavanguardia.com/economia/20180212/44737602135/brecha-salarial-genero-mujer-cobrar.html

http://www.elmundo.es/economia/macroeconomia/2017/06/28/5953753246163f5d0b8b4573.html

http://umh1465.edu.umh.es/material/practicas/