RESUMEN

La Brecha Salarial entre mujeres y hombres en España no sólo existe, sino que se hace cada vez mayor. Las mujeres ganan menos que los hombres durante su vida laboral y, en su vejez, son más pobres que ellos.

Con este trabajo lo que se pretende es analizar el Salario de las mujeres en los últimos 50 años, teniendo en cuenta el Porcentaje de paro, el salario de los hombres y el nivel de estudios alcanzados, para así poder realizar predicciones y obtener unas conclusiones objetivas.

Para ello se ha realizado una recopilación de información a partir de la base de datos dada que aporta cifras referentes a los últimos 50 años. Después de llevar a cabo la realización de un análisis descriptivo, la búsqueda del mejor modelo que relacione el Sueldo medio de las Mujeres con el resto de variables, las predicciones y la comparación de salarios de hombres y mujeres,se ha llegado a la conclusión de que el Salario de las mujeres depende tanto del porcentaje de paro como del Tipo de estudio y del salario de los hombres.

INTRODUCCIÓN

Los datos que se van a tratar en este estudio corresponden al Salario medio de hombres y mujeres en los últimos 50 años. Se dispone además de las Tasas de paro medias anuales y del Nivel de estudios alcanzado.

GOBIERNO DE ESPAÑA. MINISTERIO DE SANIDAD, SERVICIOS SOCIALES E IGUALDAD. BOLETIN IGUALDAD EMPRESA

BRECHA SALARIAL Y CIENTÍFICA DE GÉNERO XLIV Febrero 2018.

1. Principales causas de la brecha salarial de género y conceptos clave

Las causas de la brecha salarial de género son diferentes y pueden estar interrelacionadas, creando un conjunto de influencias, en ocasiones inconscientes, que obstaculizan las carreras profesionales de las mujeres, tanto en lo que se refiere a acceso al empleo y promoción, como a las remuneraciones y compensaciones desarrollando el mismo puesto o un trabajo de igual valor. Entre las muchas causas que pueden interferir, hay varias que destacan:

Persistencia de los tradicionales estereotipos de género: por las dificultades nacidas de estos tradicionales estereotipos, el camino de las mujeres en determinados sectores laborales se ha visto fuertemente obstaculizado, lo que ha provocado la ausencia casi total de referentes femeninos y ha propiciado la invisibilización de la presencia de las mujeres.
Discriminación salarial directa: ocurre cuando las mujeres reciben menos salario que los hombres en el desempeño del mismo trabajo dentro de una organización. De esta forma, el sexo sería un criterio específico para establecer las diferencias retributivas, infravalorando las capacidades y el trabajo de las mujeres.
Segregación horizontal del mercado de trabajo: Debido a los estereotipos y roles de género persistentes las expectativas sociolaborales de hombres y mujeres se han segregado, apareciendo sectores concretos que se han feminizado o masculinizado. En esta línea, los sectores feminizados tradicionalmente se han relacionado principalmente con labores similares a aquellas realizadas en el hogar o ámbito doméstico, como pueden ser tareas de limpieza o atención a personas dependientes, entre otros. Estos sectores han sido menos valorados tanto socialmente, restando especificidad a sus labores, rebajando su cualificación y desvalorizando sus responsabilidades. Todo esto repercute tanto en su estimación como en su remuneración, que se ve disminuida.

2. Principales datos estadísticos sobre brecha salarial de género

A pesar de que prácticamente en todos los países industrializados se han desarrollado en los últimos años numerosas normativas en torno a la igualdad de trato de mujeres y hombres en el mercado laboral, la desigualdad salarial por razón de sexo sigue siendo una realidad. A continuación se muestran algunos datos y las principales conclusiones extraídas de dos estudios, uno realizado a nivel mundial por la Organización Internacional del Trabajo (OIT) y otro, a nivel nacional, del Instituto Nacional de Estadística (INE).

Informe mundial sobre salarios 2016/2017. Organización Internacional del Trabajo (OIT): Una de las conclusiones más relevantes del informe es la afirmación de una evidente discriminación salarial de género, añadiendo además su crecimiento según aumenta el puesto y las responsabilidades, así como la edad de la persona trabajadora. La discriminación por razón de sexo en los puestos directivos de la población está en torno al 40% (el doble que la discriminación de género total). Los hombres en puestos de dirección ejecutiva perciben el doble de salario que sus compañeras.

Encuesta anual de Estructura Salarial 2017 (Datos relativos al año 2015). Instituto Nacional de Estadística (INE): El salario medio anual de las mujeres es de 20.051,58 euros, mientras que el de los hombres es de 25.992,76 euros. Con ello, el salario medio anual femenino representa el 77,1% del masculino. El 18,2% de las mujeres tuvo ingresos salariales menores o iguales que el Salario Mínimo Interprofesional (SMI), frente al 7,4% de los hombres. Concretando los salarios más elevados, el 9,8% de los hombres presentó unos salarios cinco veces o más superiores al SMI, frente al 5,0% de las mujeres. Las diferencias salariales entre mujeres y hombres aumentan a medida que aumenta la edad, y los puestos y responsabilidades ocupados. De esta forma, según avanza la edad la brecha salarial de género aumenta.

En resumen, el conjunto de estos datos y estudios evidencia la brecha salarial de género a nivel mundial, comunitario y nacional, ampliándose además según aumenta la edad y la responsabilidad de los puestos ocupados. No sólo las mujeres ocupan menos puestos de dirección, sino que además sus remuneraciones en tal caso son menores que las de sus homólogos hombres.

Objetivos del estudio

El objetivo principal de este estudio es buscar el mejor modelo para predecir el salario de las mujeres. Para llevar a cabo este objetivo disponemos de las Tasas de paro medias anuales, del Salario medio de hombres y mujeres en los últimos 50 años así como del Tipo de trabajo. Y el objetivo secundario de este estudio es llevar a cabo una comparación del salario de las mujeres con el de los hombres.

MATERIAL Y MÉTODOS

Información disponible

TIPOLOGÍA DE LAS VARIABLES

Los distintos tipos de variables que podemos encontrar son:

Variables cuantitativas: Toman valores numéricos. Pueden ser discretas o continuas.

Variables discretas: Son las que toman un número finito o infinito numerable de observaciones. Variables contínuas: Son las que toman un número infinito no numerable.

Variables cualitativas o categóricas: Reflejan diferentes carácteristicas o categorías de una cualidad. Pueden ser nominales u ordinales.

Variables nominales: son las que únicamente ponen nombre a una característica. Variables ordinales: son las que llevan asociadas un orden en las respuestas.

Las variables de las que se dispone en este estudio son: Porcentaje de paro, Salario de hombres, Salario de mujeres, Tipo, Año.

Porcentaje de paro: hace referencia a las Tasas de paro medias anuales. Es una variable cuantitativa contínua.

Salario de hombres: Es una variable cuantitativa contínua en la que se recoge el salario de hombres en los últimos 50 años.

Salario de mujeres: Es una variable cuantitativa contínua en la que se explica el salario de hombres en los últimos 50 años.

Tipo: hace alusión al tipo de trabajo/estudios. Es una variable categórica ordinal con 5 categorías, las cuales son las siguientes:

0=sin calificar 1=estudios primarios 2=estudios secundaria 3=FP grado superior o grado universitario 4= Master oficial o Doctorado universitario

Año: Es una variable cuantitativa discreta que agrupa los últimos 50 años. Desde 1967 hasta 2016.

Análisis estadístico

Las metodologías estadísticas que van a ser utilizadas en este estudio y servirán de ayuda para las conclusiones finales son:

MODELO DE REGRESIÓN - Modelo ANCOVA: es una fusión del ANOVA y de la regresión lineal múltiple. Un procedimiento estadístico que permite eliminar la heterogeneidad causada en la variable de interés (variable dependiente) por la influencia de una o más variables cuantitativas (covariables).

SERIES TEMPORALES -MÍNIMOS CUADRADOS ORDINARIOS(OLS) -GENERALIZED LEAST SQUARES (GLS)

MODELO REGRESIÓN Y ARIMA (modelo autorregresivo integrado de promedio móvil)

RESULTADOS

PREPARACIÓN DE LOS DATOS

datos<-read.csv("archivo7.csv", header = T, sep = ",",dec = ".")
attach(datos)   
View(datos)


#write.csv2(datos,"D:/SERIES_TEMPORALES/PRACTICA_INDIVIDUAL/archivo7nuevo.csv")

#Le ponemos las etiquetas de Primaria, Secundaria, Fp/grado sup y Master/Doctorado a los valores de la variable Tipo, convirtiéndola así en factor.
datos$Tipo<-factor(datos$Tipo, labels=c("Primaria", "Secundaria", "FP/grado sup", "Master/Doctorado"))

# ponemos todos los datos en una hoja

hombres<-datos[,c("X","Porcen.paro","Salario.hombres","Tipo","anyo")]
names(hombres)<-c("X","Porcen.paro","salario","Tipo","anyo")
hombres$genero<-c("Hombre")


mujeres<-datos[c("X","Porcen.paro","Salario.Mujeres","Tipo","anyo")]
names(mujeres)<-c("X","Porcen.paro","salario","Tipo","anyo")
mujeres$genero<-c("Mujeres")

datos_u<-rbind(hombres,mujeres)   #para pegar las filas arriba y abajo
View(datos_u)

Contraste de Normalidad

Para contrastar la normalidad realizamos el Test de Shapiro-Wilk es un contraste de ajuste que se utiliza para comprobar si unos datos determinados \((X_1, X_2,., X_n)\) han sido extraídos de una población normal.

shapiro.test(datos_u$salario)

## 
##  Shapiro-Wilk normality test
## 
## data:  datos_u$salario
## W = 0.9271, p-value = 3.419e-05

Siendo la hipótesis nula que la población está distribuida normalmente, al ser el p-valor 0.0000341 menor de 0.05 (nivel de significancia), la hipótesis nula es rechazada y se concluye que los datos no vienen de una distribución normal.

ANÁLISIS DESCRIPTIVO

Descriptivos básicos

Se lleva a cabo la realización de una Análisis Descriptivo centrado en el Mínimo, Máximo, Media, Mediana, quartiles y desviaciones tanto de los hombres como de las mujeres.

cat("Hombres","\n")

## Hombres

cat("Media= ");mean(hombres$salario)

## Media=

## [1] 1625.851

cat("Mediana=");median(hombres$salario)

## Mediana=

## [1] 1614.32

cat("Q1 y Q3 =");quantile(hombres$salario,c(0.25,0.75))

## Q1 y Q3 =

##      25%      75% 
## 1429.185 1790.042

cat("Desviacion=");sd(hombres$salario)

## Desviacion=

## [1] 279.9817

cat("Máximo=");max(hombres$salario)

## Máximo=

## [1] 2373.754

cat("Mínimo=");min(hombres$salario)

## Mínimo=

## [1] 1070.992

cat("Mujeres","\n")

## Mujeres

cat("Media= ");mean(mujeres$salario)

## Media=

## [1] 1999.939

cat("Mediana=");median(mujeres$salario)

## Mediana=

## [1] 1941.331

cat("Q1 y Q3 =");quantile(mujeres$salario,c(0.25,0.75))

## Q1 y Q3 =

##      25%      75% 
## 1441.065 2465.204

cat("Desviacion=");sd(mujeres$salario)

## Desviacion=

## [1] 892.9657

cat("Máximo=");max(mujeres$salario)

## Máximo=

## [1] 4112.975

cat("Mínimo=");min(mujeres$salario)

## Mínimo=

## [1] 556.5888

Contraste de igualdad de medias

La prueba de los rangos con signo de Wilcoxon es una prueba no paramétrica que se utiliza para comparar el rango medio de dos muestras relacionadas y determinar si existen diferencias entre ellas, siendo la Hipótesis nula de este contraste: Dos poblaciones tienen la misma distribucion coninua.

wilcox.test(salario~genero,data=datos_u)

## 
##  Wilcoxon rank sum test with continuity correction
## 
## data:  salario by genero
## W = 867, p-value = 0.008367
## alternative hypothesis: true location shift is not equal to 0

Al ser el p-valor de este Test 0.008367 no podemos afirmar que las distribuciones de estas dos muestras sean distintas. Es decir, que el salario medio de hombres y mujeres es similar.

DIAGRAMA DE PARES GENERALIZADOS

## Warning: package 'GGally' was built under R version 3.4.4

## Loading required package: ggplot2

## Warning: package 'ggplot2' was built under R version 3.4.4

## Warning in warn_if_args_exist(list(...)): Extra arguments: "color" are
## being ignored. If these are meant to be aesthetics, submit them using the
## 'mapping' variable within ggpairs with ggplot2::aes or ggplot2::aes_string.

De este gráfico cabe destacacar la nube de puntos entre el salario de los hombres y el salario de las mujeres en el que se puede apreciar un patrón. Por tanto, a continuación éste se analizará por separado para obtener las correspondientes conclusiones.

Además en la diagonal de este gráfico aparecen los llamados polígonos de frecuencias. Con éstos se comprueba si se sigue una distribución normal (que en este caso no) u otra forma distinta. Además aparecen las colerralaciones entre variables del gráfico de correlaciones que se obtendrá con posterioridad.

DIAGRAMA DE DISPERSIÓN

#GRAFICO DE DISPERSION ENTRE LAS VARIABLES CONTINUAS: Salario mujeres, Salario hombres y Porcentaje de paro.
#install.packages(ggplot2)
library(ggplot2)
w <- subset(datos)
w$pred.SC <- predict(lm(datos$Salario.Mujeres ~ datos$Salario.hombres),data=datos)
p1 <- ggplot(w, aes(x = Salario.hombres, y = Salario.Mujeres))
p1 + geom_point(aes(color = Porcen.paro)) + geom_line(aes(y = pred.SC))

En este gráfico se observan cuatro familias (patrones) que sospechamos se corresponden con los niveles de estuio.

Para comprobar ésto realizamos el siguiente gráfico:

#GRAFICO DE DISPERSION 
#install.packages(ggplot2)
library(ggplot2)
w <- subset(datos)
w$pred.SC <- predict(lm(datos$Salario.Mujeres ~ datos$Salario.hombres),data=datos)
p1 <- ggplot(w, aes(x = Salario.hombres, y = Salario.Mujeres))
p1 + geom_point(aes(color = Tipo)) + geom_line(aes(y = pred.SC))

En este gráfico se pueden diferenciar cuatro bloques referidos a los niveles de estudio (Primarios, Secundaria, Grado Superior o Grado Universitario, Master oficial o Doctorado universitario). Corroborando así lo intuido anteriormente con el gráfico anterior.

Boxplot

Genero

boxplot(salario~genero,data=datos_u,col="red",main="Salario Medio por Género")

En este gráfico se puede apreciar que no hay una diferencia significativa en cuánto a la media en el salario de los hombres y de las mujeres en los últimos 50 años.

Tipo de estudios

boxplot(salario~Tipo,data=datos_u,col="red",main="Salario Medio según el Nivel de Estudios")

A diferencia del anterior, en este gráfico si se puede apreciar que hay una diferencia significativa en cuanto a los sueldos según el tipo de estudio/trabajo tanto para hombres como para mujeres. Es decir, el sueldo aumenta o disminuye en función del nivel de estudios alcanzado.

CORRELACIONES

A continuación, se estudia de una forma gráfica las variables que podrían estar linealmente relacionadas.

#GRÁFICO CORRELACIONES
library(corrplot)

## Warning: package 'corrplot' was built under R version 3.4.4

## corrplot 0.84 loaded

M<-cor(datos[,c("Salario.hombres","Salario.Mujeres","Porcen.paro")])
corrplot(M)

A partir de este gráfico se puede concluir que las variables Salario mujeres y Salario hombres presentan una correlación positiva, es decir, la relación entre una variable y otra es lineal y directa; mientras que el Porcentaje de paro y el Salario de las mujeres son dos variables cuya correlación es próxima a cero y por tanto se puede decir que la relación estre éstas es casi nula. Lo mismo ocurre con las variables Porcentaje de paro y el Salario de los hombres, por lo que se concluye que existe muy poca relación entre las dos.

Una vez visto el comportamiento de las variables independientes frente a la variable del estudio “Salario Mujeres”, se obtiene el que va a ser el modelo de partida.

MODELO DE REGRESIÓN

Mejor Modelo para salario Mujeres:

Introducimos el modelo con variable dependiente Salario Mujeres y como independientes Tipo, Porcentaje de paro, Año y Salario Hombres.

El año en este caso, se introduce por los indicios de que puede haber una tendencia temporal.

library(ggplot2)
ggplot(datos,aes(x=anyo,y=Salario.Mujeres))+geom_line(col="orange")+geom_hline(yintercept=mean(datos$Salario.Mujeres))

En este gráfico, no se aprecia una tendencia clara del Salario de las mujeres con respecto a los años (se obtiene una media más o menos estable). Tampoco se encuetra estacionalidad (variación periódica y predecible con un periodo inferior o igual a un año.), ya que no presenta un patrón establecido.

El modelo completo

modelo<-glm(Salario.Mujeres~Porcen.paro*Tipo+Salario.hombres*Tipo+anyo,data=datos)
summary(modelo)

## 
## Call:
## glm(formula = Salario.Mujeres ~ Porcen.paro * Tipo + Salario.hombres * 
##     Tipo + anyo, data = datos)
## 
## Deviance Residuals: 
##    Min      1Q  Median      3Q     Max  
## -88.18  -41.05    0.00   22.52  113.85  
## 
## Coefficients:
##                                        Estimate Std. Error t value
## (Intercept)                          -819.81288 1227.28790  -0.668
## Porcen.paro                           -15.30255    4.81321  -3.179
## TipoSecundaria                        109.87456  199.89581   0.550
## TipoFP/grado sup                        5.37028  214.05114   0.025
## TipoMaster/Doctorado                 -217.37934  500.84608  -0.434
## Salario.hombres                         0.69882    0.12006   5.821
## anyo                                    0.38201    0.59704   0.640
## Porcen.paro:TipoSecundaria             -0.02568    5.30756  -0.005
## Porcen.paro:TipoFP/grado sup            1.39145    6.27120   0.222
## Porcen.paro:TipoMaster/Doctorado       -4.16046   12.71710  -0.327
## TipoSecundaria:Salario.hombres          0.57031    0.12641   4.512
## TipoFP/grado sup:Salario.hombres        1.26318    0.12888   9.801
## TipoMaster/Doctorado:Salario.hombres    2.18717    0.46670   4.686
##                                      Pr(>|t|)    
## (Intercept)                           0.50829    
## Porcen.paro                           0.00298 ** 
## TipoSecundaria                        0.58586    
## TipoFP/grado sup                      0.98012    
## TipoMaster/Doctorado                  0.66679    
## Salario.hombres                      1.10e-06 ***
## anyo                                  0.52622    
## Porcen.paro:TipoSecundaria            0.99617    
## Porcen.paro:TipoFP/grado sup          0.82563    
## Porcen.paro:TipoMaster/Doctorado      0.74539    
## TipoSecundaria:Salario.hombres       6.31e-05 ***
## TipoFP/grado sup:Salario.hombres     7.91e-12 ***
## TipoMaster/Doctorado:Salario.hombres 3.70e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for gaussian family taken to be 3044.344)
## 
##     Null deviance: 39071996  on 49  degrees of freedom
## Residual deviance:   112641  on 37  degrees of freedom
## AIC: 555.89
## 
## Number of Fisher Scoring iterations: 2

Modelo seleccionado automáticamente

library(MASS)
stepAIC(modelo, direcction = "both")

## Start:  AIC=555.89
## Salario.Mujeres ~ Porcen.paro * Tipo + Salario.hombres * Tipo + 
##     anyo
## 
##                        Df Deviance    AIC
## - Porcen.paro:Tipo      3   113360 550.21
## - anyo                  1   113887 554.44
## <none>                      112641 555.89
## - Tipo:Salario.hombres  3   653521 637.80
## 
## Step:  AIC=550.21
## Salario.Mujeres ~ Porcen.paro + Tipo + Salario.hombres + anyo + 
##     Tipo:Salario.hombres
## 
##                        Df Deviance    AIC
## - anyo                  1   114590 548.75
## <none>                      113360 550.21
## - Porcen.paro           1   328145 601.35
## - Tipo:Salario.hombres  3   709612 635.92
## 
## Step:  AIC=548.75
## Salario.Mujeres ~ Porcen.paro + Tipo + Salario.hombres + Tipo:Salario.hombres
## 
##                        Df Deviance    AIC
## <none>                      114590 548.75
## - Porcen.paro           1   332932 600.08
## - Tipo:Salario.hombres  3   721484 634.75

## 
## Call:  glm(formula = Salario.Mujeres ~ Porcen.paro + Tipo + Salario.hombres + 
##     Tipo:Salario.hombres, data = datos)
## 
## Coefficients:
##                          (Intercept)  
##                             -45.6536  
##                          Porcen.paro  
##                             -15.2237  
##                       TipoSecundaria  
##                              92.7280  
##                     TipoFP/grado sup  
##                              27.7636  
##                 TipoMaster/Doctorado  
##                             -58.2844  
##                      Salario.hombres  
##                               0.6887  
##       TipoSecundaria:Salario.hombres  
##                               0.5813  
##     TipoFP/grado sup:Salario.hombres  
##                               1.2683  
## TipoMaster/Doctorado:Salario.hombres  
##                               2.0119  
## 
## Degrees of Freedom: 49 Total (i.e. Null);  41 Residual
## Null Deviance:       39070000 
## Residual Deviance: 114600    AIC: 548.7

El mejor modelo obtenido y por tanto definitivo (con menor AIC) es el siguiente :

 **Salario.Mujeres ~ Porcen.paro + Tipo + Salario.hombres + Tipo:Salario.hombres**

modelo_definitivo<-glm(Salario.Mujeres ~ Porcen.paro + Tipo + Salario.hombres + 
    Tipo:Salario.hombres,data=datos)  

summary(modelo_definitivo)

## 
## Call:
## glm(formula = Salario.Mujeres ~ Porcen.paro + Tipo + Salario.hombres + 
##     Tipo:Salario.hombres, data = datos)
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -85.894  -35.453    3.985   26.551  110.116  
## 
## Coefficients:
##                                      Estimate Std. Error t value Pr(>|t|)
## (Intercept)                          -45.6536   173.7034  -0.263    0.794
## Porcen.paro                          -15.2237     1.7224  -8.839 4.83e-11
## TipoSecundaria                        92.7280   185.0140   0.501    0.619
## TipoFP/grado sup                      27.7636   190.7393   0.146    0.885
## TipoMaster/Doctorado                 -58.2844   406.1861  -0.143    0.887
## Salario.hombres                        0.6887     0.1067   6.453 9.83e-08
## TipoSecundaria:Salario.hombres         0.5813     0.1126   5.163 6.63e-06
## TipoFP/grado sup:Salario.hombres       1.2683     0.1160  10.934 1.00e-13
## TipoMaster/Doctorado:Salario.hombres   2.0119     0.2860   7.034 1.48e-08
##                                         
## (Intercept)                             
## Porcen.paro                          ***
## TipoSecundaria                          
## TipoFP/grado sup                        
## TipoMaster/Doctorado                    
## Salario.hombres                      ***
## TipoSecundaria:Salario.hombres       ***
## TipoFP/grado sup:Salario.hombres     ***
## TipoMaster/Doctorado:Salario.hombres ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for gaussian family taken to be 2794.884)
## 
##     Null deviance: 39071996  on 49  degrees of freedom
## Residual deviance:   114590  on 41  degrees of freedom
## AIC: 548.75
## 
## Number of Fisher Scoring iterations: 2

BONDAD DE AJUSTE

El R Cuadrado se define como la proporción de la varianza total de la variable explicada por la regresión. El también llamado coeficiente de determinación, refleja la bondad del ajuste de un modelo a la variable que pretender explicar.

R2gauss <- function(Salario.Mujeres, modelo_definitivo) {
moy <- mean(Salario.Mujeres)
N <- length(Salario.Mujeres)
p <- length(modelo_definitivo$coefficients) - 1
SSres <- sum((Salario.Mujeres - predict(modelo_definitivo))^2)
SStot <- sum((Salario.Mujeres - moy)^2)
R2 <- 1 - (SSres/SStot)
Rajust <- 1 - (((1 - R2) * (N - 1))/(N - p - 1))
return(data.frame(R2, Rajust, SSres, SStot))
}

#Cálculo del R cuadrado para datos con variable respuesta Gaussina 
library(BCA)

## Warning: package 'BCA' was built under R version 3.4.4

R2gauss(datos$Salario.Mujeres, modelo_definitivo)

En este caso, se obtiene un coeficiente de determinación de 0.997 lo que quiere decir que éste explica un 99.70% de la varianza total del Salario de las Mujeres (variable explicada por el modelo de Regresión). Por tanto, el ajuste del modelo es muy bueno.

ESTUDIO DEL COMPORTAMIENTO DE LOS RESIDUOS

Forma gráfica y rápida

# diagnoatic plot
layout(matrix(c(1,2,3,4), 2, 2)) # 4 gráficos
plot(modelo_definitivo)

El primer gráfico hace referencia a la homocedasticidad de los residuos, es una nube de puntos sin patrón alguno. El segundo, hace referencia a la normalidad de los residuos, los cuales se encuentran sobre la diagonal y sin forma alguna. El tercer gráfico explica la independencia de los residuos y no tiene patrón alguno (la línea roja debería ser recta). Y por último el cuarto, en el cual se encuentran las observaciones influyentes y atípicas (puntos muy alejados del resto).

Por tanto, debido a todo lo anterior, se puede concluir que a simple vista no se rechaza la Homocedasticidad ni la Normalidad de los residuos.

Hipótesis básicas

A continuación, se estudian detalladamente las hipótesis básicas que cumple nuestro modelo para ver si se verifican las conclusiones obtenidas gráficamente y así contrastarlo de forma numérica.

Hipótesis de media de los residuos = 0

Contraste de hipótesis: H0: Media de los residuos igual a cero H1: Media de los residuos distinta de cero

residuos <- modelo_definitivo$residuals
t.test(residuos)

## 
##  One Sample t-test
## 
## data:  residuos
## t = 8.9102e-14, df = 49, p-value = 1
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  -13.74343  13.74343
## sample estimates:
##   mean of x 
## 6.09363e-13

Al obtener un valor de p igual a 1, mayor que 0.05, se puede decir que el modelo es correcto cumpliéndose así la Hipótesis de Linealidad.

Hipótesis de Normalidad

La hipótesis de normalidad afirma que los errores del modelo (e) siguen una distribución normal. Esta hipótesis se contrasta a partir de los residuos estandarizados. Se pueden aplicar varios contrastes como: contraste de asimetría y kurtosis, contraste chi-cuadrado, contraste de Kolmogorov-Smirnov-Liliefors, aunque en este caso el que se va a utilizar va a ser el de Shapiro-Wilk.

#Normalidad de los residuos (Test de Shapiro-Wilk)
shapiro.test(modelo_definitivo$residuals)

## 
##  Shapiro-Wilk normality test
## 
## data:  modelo_definitivo$residuals
## W = 0.97951, p-value = 0.5316

Al ser el p-valor 0.5316 mayor de 0.05 (nivel de significancia), la hipótesis nula no se rechaza y se concluye que los residuos en este caso siguen una distribución normal.

Hipótesis de Heterocedasticidad

Las pruebas de heteroscedasticidad de los residuos implican las dos siguientes hipótesis: H0 (hipótesis nula): los residuos son homocedásticos. H1 (hipótesis alternativa): los residuos son heterocedásticos.

#Heterocedasticidad de los residuos (Test de Breusch-Pagan)
library(lmtest)

## Loading required package: zoo

## Warning: package 'zoo' was built under R version 3.4.3

## 
## Attaching package: 'zoo'

## The following objects are masked from 'package:base':
## 
##     as.Date, as.Date.numeric

bptest(modelo_definitivo)

## 
##  studentized Breusch-Pagan test
## 
## data:  modelo_definitivo
## BP = 5.8331, df = 8, p-value = 0.6659

Por lo tanto, al obtenerse un valor de p (0.6659) asociado a una prueba de heterocedasticidad por encima de un cierto umbral (en este caso, 0.05), se llega a la conclusión de que los residuos son significativamente homocedásticos, no rechazando así la hipótesis nula.

Hipótesis de Autocorrelacion.

Todos los contrastes numéricos de autocorrelación se plantean con idénticas hipótesis; así, podemos señalar que la forma general del contraste es: H0: No existe autocorrelación H1: Existe autocorrelación

#Autocorrelación de los residuos (Test de Durbin-Watson)

#durbinWatsonTest(modelo_definitivo)

El Test de Durbin-Watson proporciona un p-valor más pequeño que 0.05, lo que nos permite concluir que se rechaza la hipotesis nula y que por tanto no son independientes los residuos.

Datos Atípicos (Outliers)

El Test de Bonferroni es un test de comparaciones múltiples. Permite comparar, como los demás contrastes de este tipo, las medias de los t niveles de un factor.

Se basa en la creación de un umbral, el BSD (Bonferroni significant difference) por encima del cual la diferencia entre las dos medias será significativa y por debajo del cual esa diferencia no lo será.

library(car)

## Warning: package 'car' was built under R version 3.4.4

## Loading required package: carData

## Warning: package 'carData' was built under R version 3.4.4

outlierTest(modelo_definitivo)

## No Studentized residuals with Bonferonni p < 0.05
## Largest |rstudent|:
##    rstudent unadjusted p-value Bonferonni p
## 15 2.370361           0.017771      0.88854

Al ser el valor de p Bonferroni mayor que 0.05, se dice que la observación, en este caso número 15, no es atípica y por tanto, no debemos eliminarla del modelo.

Datos Influyentes

avPlots(modelo_definitivo)

DISTANCIA DE COOK

cutoff <- 4/((nrow(datos)-length(modelo_definitivo$coefficients)-2))
plot(modelo_definitivo, which = 4, cook.levels = cutoff)

Si la Distancia de Cook de alguna observación fuera mayor que uno esa observación sería influyente. En este caso ninguna de las observaciones cumple esta regla.

PREDICCIONES

max(datos$Porcen.paro)

## [1] 31.66849

min(datos$Porcen.paro)

## [1] 7.465474

max(datos$Salario.hombres)

## [1] 2373.754

min(datos$Salario.hombres)

## [1] 1070.992

Nuevos.Datos <- data.frame(Porcen.paro= 20 ,
                           Salario.hombres= 1519 ,
                           Tipo="Primaria")

predict(modelo_definitivo, Nuevos.Datos, type = "response" , se.fit=TRUE)

## $fit
##        1 
## 696.0283 
## 
## $se.fit
## [1] 21.63893
## 
## $residual.scale
## [1] 52.86666

Nuevos.Datos <- data.frame(Porcen.paro= 20 ,
                           Salario.hombres= 1519 ,
                           Tipo="Secundaria")

predict(modelo_definitivo, Nuevos.Datos, type = "response" , se.fit=TRUE)

## $fit
##       1 
## 1671.78 
## 
## $se.fit
## [1] 11.59394
## 
## $residual.scale
## [1] 52.86666

Nuevos.Datos <- data.frame(Porcen.paro= 20 ,
                           Salario.hombres= 1519 ,
                           Tipo="FP/grado sup")

predict(modelo_definitivo, Nuevos.Datos, type = "response" , se.fit=TRUE)

## $fit
##        1 
## 2650.267 
## 
## $se.fit
## [1] 15.65931
## 
## $residual.scale
## [1] 52.86666

Nuevos.Datos <- data.frame(Porcen.paro= 20 ,
                           Salario.hombres= 1519 ,
                           Tipo="Master/Doctorado")

predict(modelo_definitivo, Nuevos.Datos, type = "response" , se.fit=TRUE)

## $fit
##       1 
## 3693.82 
## 
## $se.fit
## [1] 48.85619
## 
## $residual.scale
## [1] 52.86666

Los resultados obtenidos en esta primera predicción son: 696.03 el valor predicho, 21.64 el error estándar de los medios previstos y 52.86 la desviación estándar residual. En el caso de la segunda, el valor predicho es 1671.78, y para la tercera y la cuarta los valores predichos son 2650.267 y 3693.82.

Esto quiere decir que por ejemplo, en el caso de la primera predicción, siendo el porcentaje de paro del 20%, el salario de los hombres 1519 euros y el tipo de estudios alcanzado Primaria, el salario de las mujeres en este caso sería de 696.03 euros. En el caso de la segunda predicción el porcentaje de paro y el salario de los hombres seguiría siendo el mismo pero el nivel de estudios alcanzados pasa a ser Secundaria, obteniendo así una predicción del salario de las mujeres de 1671.78 euros. Y por último en el caso de la tercera y la cuarta predicción siendo el nivel de estudios alcanzado FP/Grado Superior (en la tercera) y Master/Doctorado (en la cuarta) las predicciones de los salarios obtenidas en este caso son 2650.267 y 3693.82 euros respectivamente.

OTROS

Tendencias

En los siguientes gráficos se estudia el comportamiento del salario de las mujeres en función del nivel de estudios alcanzado.

library(ggplot2)
ggplot(datos,aes(x=anyo,y=Salario.Mujeres,colour=Tipo))+geom_line(size=0.75)

table(datos$Tipo)

## 
##         Primaria       Secundaria     FP/grado sup Master/Doctorado 
##                9               25               13                3

Al haber sólo tres observaciones de la categoría Máster/Doctorado, se lleva a cabo su eliminación ya que se considera una muestra muy poco relevante para la obtención de conclusiones en comparación con los demás Tipos de estudios.

library(ggplot2)
ggplot(datos[datos$Tipo!="Master/Doctorado",],aes(x=anyo,y=Salario.Mujeres,colour=Tipo))+geom_line()

Una vez eliminado el nivel de estudios de Máster/Doctorado se obtiene un gráfico en el cual se observa que el salario de las mujeres aumenta en función del nivel de estudios alcanzados. Para un nivel de estudios alcanzados de Primaria, el Salario de las mujeres rondaría entre los 556 euros (mínimo de la variable Salarios.Mujer) y los 1000 euros. Para Secundaria, éste se encontraría entre los 1000 y los 2800 euros aproximadamente y por último, según los datos objeto de estudio, para un nivel de FP/Grado Superior el salario de las mujeres estaría situado entre los valores 1800 y 4200 aproximadamente.

Con respecto al paso de los años, tanto para un nivel como para otro de estudios parece que los salarios no varían significativamente aunque en el caso de FP/Grado Superior el rango sea más amplio y varíe algo más.

SERIES TEMPORALES

Modelización de los datos mediante las técnicas de series temporales.

MODELO LINEAL

library(car)
data(Hartnagel)

GRÁFICAMENTE

A continuación se observa gráficamente la serie:

datos$anyo2<-as.Date(as.character(datos$anyo), "%Y")

p<-ggplot(datos, aes(x=anyo2, y=Salario.Mujeres)) +
geom_line(col="blue") +
geom_point(col="blue", pch=1) +
xlab("Años")

p

La cual podemos observar que no presenta tendencia ni estacionalidad a simple vista.

p <- ggplot(datos, aes(x = anyo2, y = Salario.Mujeres)) + geom_line(col = "blue") +
geom_point(col = "blue", pch = 1) + xlab("Years") + geom_smooth(method = lm,
se = FALSE, col = "red")
p <- p + scale_x_date(date_breaks = "5 year", date_labels = "%Y")
p + theme(axis.text.x = element_text(angle = 60, hjust = 1))

En este caso, no parece que sea bueno hacer sólo un modelo lineal debido a que se aprecia una leve tendencia.

PRIMER TIPO DE AJUSTE: MÍNIMOS CUADRADOS ORDINARIOS(OLS)

mod1<-lm(modelo_definitivo, data=datos)
mod1

## 
## Call:
## lm(formula = modelo_definitivo, data = datos)
## 
## Coefficients:
##                          (Intercept)  
##                             -45.6536  
##                          Porcen.paro  
##                             -15.2237  
##                       TipoSecundaria  
##                              92.7280  
##                     TipoFP/grado sup  
##                              27.7636  
##                 TipoMaster/Doctorado  
##                             -58.2844  
##                      Salario.hombres  
##                               0.6887  
##       TipoSecundaria:Salario.hombres  
##                               0.5813  
##     TipoFP/grado sup:Salario.hombres  
##                               1.2683  
## TipoMaster/Doctorado:Salario.hombres  
##                               2.0119

summary(mod1)

## 
## Call:
## lm(formula = modelo_definitivo, data = datos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -85.894 -35.453   3.985  26.551 110.116 
## 
## Coefficients:
##                                      Estimate Std. Error t value Pr(>|t|)
## (Intercept)                          -45.6536   173.7034  -0.263    0.794
## Porcen.paro                          -15.2237     1.7224  -8.839 4.83e-11
## TipoSecundaria                        92.7280   185.0140   0.501    0.619
## TipoFP/grado sup                      27.7636   190.7393   0.146    0.885
## TipoMaster/Doctorado                 -58.2844   406.1861  -0.143    0.887
## Salario.hombres                        0.6887     0.1067   6.453 9.83e-08
## TipoSecundaria:Salario.hombres         0.5813     0.1126   5.163 6.63e-06
## TipoFP/grado sup:Salario.hombres       1.2683     0.1160  10.934 1.00e-13
## TipoMaster/Doctorado:Salario.hombres   2.0119     0.2860   7.034 1.48e-08
##                                         
## (Intercept)                             
## Porcen.paro                          ***
## TipoSecundaria                          
## TipoFP/grado sup                        
## TipoMaster/Doctorado                    
## Salario.hombres                      ***
## TipoSecundaria:Salario.hombres       ***
## TipoFP/grado sup:Salario.hombres     ***
## TipoMaster/Doctorado:Salario.hombres ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 52.87 on 41 degrees of freedom
## Multiple R-squared:  0.9971, Adjusted R-squared:  0.9965 
## F-statistic:  1742 on 8 and 41 DF,  p-value: < 2.2e-16

RESIDUOS POR AÑO

ggplot(datos, aes(x = anyo2, y = mod1$residuals)) + geom_line(col = "red") +
geom_point(col = "blue", pch = 1) + xlab("Años") + geom_hline(yintercept = 0)

Observando la gráfica, parece que existe autocorrelación en los residuos, ya que éstos presentan un patrón de autocorrelación claro.

CORRELACIÓN DE LOS RESIDUOS

Una vez graficados los residuos, se realiza el correlograma o gráfico de autocorrelación el cual es una representación gráfica de las autocorrelaciones de la muestra

library(tseries)

## Warning: package 'tseries' was built under R version 3.4.4

acf(residuals(mod1))

acf(residuals(mod1), type = "partial")

Todo parece indicar que hay correlación entre los residuos porque el ACF presenta muchos retardos distintos de cero y al parecer sigue un comportamiento estacional.

A simple vista, se probaría con un AR(2). Aunque a continuación, se va a estudiar cuál es el tipo de autocorrelación que tiene el modelo.

#time serie
library(forecast)

## Warning: package 'forecast' was built under R version 3.4.4

library(TSdata)

## Warning: package 'TSdata' was built under R version 3.4.4

tsdata<-ts(modelo_definitivo$residuals, start=c(1967,1),frequency=1)
tsdata

## Time Series:
## Start = 1967 
## End = 2016 
## Frequency = 1 
##          1          2          3          4          5          6 
## -60.705615   4.288120   7.618821  53.429977   3.681973 -57.633640 
##          7          8          9         10         11         12 
## -84.794212 -36.745302  41.065492  19.412394 -17.271635 -67.322384 
##         13         14         15         16         17         18 
## -15.207070  74.916460 110.115596  57.426262 -30.377396 -85.758847 
##         19         20         21         22         23         24 
## -47.644217  52.420946  48.402119  12.644491 -70.273569 -53.099092 
##         25         26         27         28         29         30 
##  26.825037 107.989902  88.112305 -15.799744 -44.691570 -85.893618 
##         31         32         33         34         35         36 
## -54.783647  33.051808  50.933167  14.348701  -2.791274 -32.061136 
##         37         38         39         40         41         42 
## -35.978837  -3.232402  19.388106  20.596563  -2.683540 -25.489693 
##         43         44         45         46         47         48 
## -33.875736  11.207118  17.453134  16.770931  36.468083   8.180923 
##         49         50 
##  25.728028   1.637718

modelo1<- auto.arima(tsdata, seasonal=FALSE)

summary(modelo1)

## Series: tsdata 
## ARIMA(2,0,2) with zero mean 
## 
## Coefficients:
##          ar1      ar2      ma1     ma2
##       0.8533  -0.9212  -0.2546  0.7937
## s.e.  0.0606   0.0467   0.0878  0.2291
## 
## sigma^2 estimated as 579.4:  log likelihood=-229.82
## AIC=469.64   AICc=471   BIC=479.2
## 
## Training set error measures:
##                      ME     RMSE      MAE       MPE     MAPE      MASE
## Training set -0.3343756 23.08827 18.67126 -5.299687 100.8652 0.4645628
##                    ACF1
## Training set 0.03921325

Por tanto, ARMA(2,2) es el tipo de autocorrelaicon que tiene el modelo estudiado siendo p=2 (orden de la parte autorregresiva) y q=2 (orden de la parte de media móvil).

TEST DE DURBIN WATSON

#Autocorrelación de los residuos (Test de Durbin-Watson)

durbinWatsonTest(mod1, max.lag = 5)

##  lag Autocorrelation D-W Statistic p-value
##    1       0.4750355      1.017746   0.000
##    2      -0.3467958      2.655472   0.010
##    3      -0.7566427      3.474075   0.000
##    4      -0.3678035      2.659878   0.008
##    5       0.3421261      1.237446   0.030
##  Alternative hypothesis: rho[lag] != 0

Este Test nos proporciona Autocorrelaciones Significativas. Por tanto, dado que existe una clara autocorrelación se deben probar otros métodos de ajuste.

SEGUNDO TIPO DE AJUSTE: GENERALIZED LEAST SQUARES (GLS)

Estima el modelo corrigiendo la autocorrelación.

library(nlme)

## 
## Attaching package: 'nlme'

## The following object is masked from 'package:forecast':
## 
##     getResponse

mod.gls <- gls(Salario.Mujeres ~ Porcen.paro + Tipo + Salario.hombres + 
    Tipo:Salario.hombres, data=datos,
               correlation=corARMA(p=2, q=2), method='ML') 

summary(mod.gls)

## Generalized least squares fit by maximum likelihood
##   Model: Salario.Mujeres ~ Porcen.paro + Tipo + Salario.hombres + Tipo:Salario.hombres 
##   Data: datos 
##        AIC      BIC    logLik
##   402.4509 429.2193 -187.2255
## 
## Correlation Structure: ARMA(2,2)
##  Formula: ~1 
##  Parameter estimate(s):
##       Phi1       Phi2     Theta1     Theta2 
##  0.9381329 -0.8999514  1.1816254  0.1816357 
## 
## Coefficients:
##                                          Value Std.Error  t-value p-value
## (Intercept)                           19.36815   9.44933   2.0497  0.0468
## Porcen.paro                          -14.96894   0.20776 -72.0505  0.0000
## TipoSecundaria                       -20.43434   8.01975  -2.5480  0.0147
## TipoFP/grado sup                     -28.72833   5.74887  -4.9972  0.0000
## TipoMaster/Doctorado                 -61.69624  32.97236  -1.8712  0.0685
## Salario.hombres                        0.63461   0.00461 137.5339  0.0000
## TipoSecundaria:Salario.hombres         0.66402   0.00521 127.4933  0.0000
## TipoFP/grado sup:Salario.hombres       1.32004   0.00390 338.5528  0.0000
## TipoMaster/Doctorado:Salario.hombres   1.99621   0.02452  81.4160  0.0000
## 
##  Correlation: 
##                                      (Intr) Prcn.p TpScnd TpFP/s TpMs/D
## Porcen.paro                          -0.451                            
## TipoSecundaria                       -0.837  0.208                     
## TipoFP/grado sup                     -0.192 -0.296  0.281              
## TipoMaster/Doctorado                  0.343  0.035 -0.269  0.240       
## Salario.hombres                      -0.878  0.211  0.920  0.394 -0.420
## TipoSecundaria:Salario.hombres        0.871 -0.390 -0.974 -0.247  0.247
## TipoFP/grado sup:Salario.hombres      0.307 -0.079 -0.269 -0.901 -0.231
## TipoMaster/Doctorado:Salario.hombres -0.352 -0.109  0.311 -0.192 -0.994
##                                      Slr.hm TpS:S. TFP/s:
## Porcen.paro                                              
## TipoSecundaria                                           
## TipoFP/grado sup                                         
## TipoMaster/Doctorado                                     
## Salario.hombres                                          
## TipoSecundaria:Salario.hombres       -0.918              
## TipoFP/grado sup:Salario.hombres     -0.436  0.333       
## TipoMaster/Doctorado:Salario.hombres  0.449 -0.268  0.223
## 
## Standardized residuals:
##         Min          Q1         Med          Q3         Max 
## -2.03311911 -0.68190998  0.05632276  0.71586330  2.52488116 
## 
## Residual standard error: 46.4803 
## Degrees of freedom: 50 total; 41 residual

Siendo por tanto éste el modelo final corregido.

RESIDUOS DEL GLS

plot(mod.gls)

En este gráfico se puede observar que no se aprecian indicios de autoccorrelación ni de heterocedasticidad.

PREDICCIÓN

Ahora, se lleva a cabo la predicción del Salario de las Mujeres:

new.data<-data.frame( Porcen.paro= 20 ,
                           Salario.hombres= 1519 ,
                           Tipo="Master/Doctorado" )
predict( mod.gls, new.data)

## [1] 3654.499
## attr(,"label")
## [1] "Predicted values"

Al crear un nuevo conjunto de datos y realizar la predicción, observando la serie original se puede concluir que una predicción del punto 3647 (Salario Medio) sin intervalo de confianza no nos es demasiado útil.

MODELO REGRESIÓN Y ARIMA

Utilización de Series Temporales para hacer las predicciones de otros años.

PREDICCIÓN DEL MODELO

Para llevar a cabo la utilización de esta función (auto.arima) en primer lugar, se cargan los paquetes de R necesarios:

library(forecast)
library(openxlsx)

## Warning: package 'openxlsx' was built under R version 3.4.3

Como se trata de una serie temporal, es necesario configurarla como tal, donde la serie tendrá inicio en el año 1967 y la frecuencia es 1 puesto que es anual.

#time serie
tsdata<-ts(datos$Salario.Mujeres, start=c(1967,1),frequency=1)
tsdata

## Time Series:
## Start = 1967 
## End = 2016 
## Frequency = 1 
##  [1] 1066.7482 1658.2113 3674.1070 4112.9750 3136.3992 2452.3958 1660.3061
##  [8]  670.8183  657.2289  952.4097 2141.8626 2465.1693 2294.7649 2117.6682
## [15] 1370.5206  830.4954 1753.9582 3301.9123 1705.9529 2465.2150  770.5424
## [22] 2055.4361 1376.2426 2306.3797 2764.2364 2039.9171 1688.5099 3233.6811
## [29] 1943.2194  616.3422  778.6797 1975.5760 1939.4432  833.3964 2050.4206
## [36] 2948.1831 1222.4693  556.5888 1651.4130 3442.6606 1877.3165 1853.8093
## [43] 1639.2275 2713.2407 3006.0122 1635.5322 2098.0432 3038.2453 1819.3588
## [50] 3633.7292

Para realizar un auto pronóstico, se utiliza la función auto.arima.

modelo<-auto.arima(tsdata, seasonal=FALSE)

summary(modelo)

## Series: tsdata 
## ARIMA(0,0,1) with non-zero mean 
## 
## Coefficients:
##          ma1       mean
##       0.3650  2008.2632
## s.e.  0.1306   160.2648
## 
## sigma^2 estimated as 725036:  log likelihood=-407.35
## AIC=820.69   AICc=821.22   BIC=826.43
## 
## Training set error measures:
##                    ME     RMSE      MAE       MPE     MAPE      MASE
## Training set 4.150881 834.2866 702.4348 -25.22649 49.14294 0.7835614
##                       ACF1
## Training set -0.0006511153

Se puede observar que la función auto.arima devuelve el posible mejor modelo de entre todos los modelos y realiza transformaciones de la variable de ser el caso que no sea estacionaria; adicionalmente, evalua presencia de estacionalidad en la serie y si existe este componente, construye modelos SARIMA. En este caso, el mejor modelo obtenido es un ARIMA(0,0,1).

Por otra parte, también devuelve los conocidos como criterios de predictibilidad, los cuales son utilizados para evaluar la capacidad predictiva de los modelos incluyendo los criterios de información AIC, AICC, BIC.

Al ser el modelo sugerido ARIMA(0,0,1):

modeloarima <- Arima(tsdata, order=c(0,0,1))
summary(modeloarima)

## Series: tsdata 
## ARIMA(0,0,1) with non-zero mean 
## 
## Coefficients:
##          ma1       mean
##       0.3650  2008.2632
## s.e.  0.1306   160.2648
## 
## sigma^2 estimated as 725036:  log likelihood=-407.35
## AIC=820.69   AICc=821.22   BIC=826.43
## 
## Training set error measures:
##                    ME     RMSE      MAE       MPE     MAPE      MASE
## Training set 4.150881 834.2866 702.4348 -25.22649 49.14294 0.7835614
##                       ACF1
## Training set -0.0006511153

Vamos a comprobar si los residuos del modelo estimado siguen un proceso de Ruido Blanco.

Acf(residuals(modeloarima))

Box.test(residuals(modeloarima), lag=24, fitdf=4, type="Ljung")

## 
##  Box-Ljung test
## 
## data:  residuals(modeloarima)
## X-squared = 22.77, df = 20, p-value = 0.3002

Al encontrarse todos dentro de los límites y el p-valor ser mayor que 0.05, los residuos se comportan como Ruido Blanco.

A continuación, se obtiene el pronóstico de la variable en estudio (Salario Mujeres):

pronostico<- forecast(modelo,7,level=95)

plot(pronostico, main="Pronóstico con auto.arima",
ylab="Salario Mujeres")

Finalmente, se pueden ver estos pronósticos en una matriz donde se guardarán junto con los intervalos de confianza solicitados.

matriz.pronosticos <-data.frame(pronostico$mean,pronostico$lower,pronostico$upper)
matriz.pronosticos

CURIOSIDADES SOBRE HOMBRES Y MUJERES

library(ggplot2)
ggplot(datos_u,aes(x=anyo,y=salario,colour=genero))+geom_line()

Como se puede apreciar en el gráfico, no se aprecia ni tendencia ni una diferencia clara en el salario entre hombres y mujeres.

modelo<-glm(salario~Tipo+genero+Porcen.paro+anyo,data=datos_u)
summary(modelo)

## 
## Call:
## glm(formula = salario ~ Tipo + genero + Porcen.paro + anyo, data = datos_u)
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -950.01  -367.56   -13.15   313.58  1576.43  
## 
## Coefficients:
##                       Estimate Std. Error t value Pr(>|t|)    
## (Intercept)          8007.2475  7846.2608   1.021 0.310130    
## TipoSecundaria        564.1952   155.4836   3.629 0.000465 ***
## TipoFP/grado sup     1099.2203   173.5699   6.333 8.44e-09 ***
## TipoMaster/Doctorado 1174.7969   263.2202   4.463 2.26e-05 ***
## generoMujeres         374.0880   110.5871   3.383 0.001052 ** 
## Porcen.paro             0.6378    12.4407   0.051 0.959223    
## anyo                   -3.5314     3.9238  -0.900 0.370446    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for gaussian family taken to be 305737.6)
## 
##     Null deviance: 46411639  on 99  degrees of freedom
## Residual deviance: 28433593  on 93  degrees of freedom
## AIC: 1555.6
## 
## Number of Fisher Scoring iterations: 2

Observamos que hay diferencia entre las titulaciones por que sale significativa la variable Tipo.

Comparado con “Primaria”" a igual del resto de las variables, se puede observar que siendo “Secunadaria” el nivel de estudios alcanzados son 564 euros más los que aumenta el salario, en FP/grado superior 1099 euros y en Master/Doctorado 1174 euros.

El modelo nos dice además que las mujeres cobran 374 euros mas que los hombres a igualdad de variables siendo significativo.

Comparacion de salarios de hombres y mujeres en función del nivel de estudios.

PRIMARIA

modelo<-glm(salario~genero+Porcen.paro+anyo,data=datos_u[datos_u$Tipo=="Primaria",])
summary(modelo)

## 
## Call:
## glm(formula = salario ~ genero + Porcen.paro + anyo, data = datos_u[datos_u$Tipo == 
##     "Primaria", ])
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -191.22  -115.82   -49.19    79.71   287.83  
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   10069.947   7190.005   1.401    0.183    
## generoMujeres  -895.740     72.737 -12.315  6.7e-09 ***
## Porcen.paro       1.242      9.431   0.132    0.897    
## anyo             -4.256      3.575  -1.191    0.254    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for gaussian family taken to be 23807.84)
## 
##     Null deviance: 3987239  on 17  degrees of freedom
## Residual deviance:  333310  on 14  degrees of freedom
## AIC: 237.96
## 
## Number of Fisher Scoring iterations: 2

En función de los datos obtenidos, con un nivel de estudios de primaria se podría decir que una mujer gana de media 895 euros menos que un hombre.

SECUNDARIA

modelo<-glm(salario~genero+Porcen.paro+anyo,data=datos_u[datos_u$Tipo=="Secundaria",])
summary(modelo)

## 
## Call:
## glm(formula = salario ~ genero + Porcen.paro + anyo, data = datos_u[datos_u$Tipo == 
##     "Secundaria", ])
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -720.91  -209.99    -0.86   162.39   844.46  
## 
## Coefficients:
##                 Estimate Std. Error t value Pr(>|t|)  
## (Intercept)   -2023.7611  6995.2568  -0.289    0.774  
## generoMujeres   190.1578    96.1713   1.977    0.054 .
## Porcen.paro      -0.4563     9.7697  -0.047    0.963  
## anyo              1.8473     3.5075   0.527    0.601  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for gaussian family taken to be 115611.4)
## 
##     Null deviance: 5802784  on 49  degrees of freedom
## Residual deviance: 5318125  on 46  degrees of freedom
## AIC: 730.62
## 
## Number of Fisher Scoring iterations: 2

Sin embargo, en Secundaria no se puede afirmar que existan diferencias significativas entre hombres y mujeres.

FP/GRADO SUPERIOR

modelo<-glm(salario~genero+Porcen.paro+anyo,data=datos_u[datos_u$Tipo=="FP/grado sup",])
summary(modelo)

## 
## Call:
## glm(formula = salario ~ genero + Porcen.paro + anyo, data = datos_u[datos_u$Tipo == 
##     "FP/grado sup", ])
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -887.60  -368.07   -11.96   302.92  1007.04  
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   19439.610  12724.711   1.528    0.141    
## generoMujeres  1245.807    203.026   6.136 3.55e-06 ***
## Porcen.paro      -1.413     26.715  -0.053    0.958    
## anyo             -8.909      6.358  -1.401    0.175    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for gaussian family taken to be 267926.2)
## 
##     Null deviance: 16508816  on 25  degrees of freedom
## Residual deviance:  5894377  on 22  degrees of freedom
## AIC: 404.4
## 
## Number of Fisher Scoring iterations: 2

En el caso de ser FP/Grado superior el nivel de estudios alcanzado, según los resultados obtenidos ganan más las mujeres que los hombres.

CONCLUSIONES

De acuerdo a la información analizada, podemos concluir finalmente que en cuánto a Salario de las mujeres (objetivo principal del estudio) se observa una dependencia clara con respecto al porcentaje de paro, el tipo de estudio alcanzado y el salario de los hombres. Y después de haberse llevado a cabo la comparación de los salarios de hombres y mujeres, a diferenia de la realidad y la vivencia actual, lo obtenido es que no existe una diferencia significativa en los salarios medios por género.

Es importante implementar estas técnicas de investigación para poder concentrar fuerzas y recursos hacia objetivos claros y poder así incrementar la eficiencia de Análisis estadísticos para este tipo de estudios.

REFERENCIAS

1- GOBIERNO DE ESPAÑA. MINISTERIO DE SANIDAD, SERVICIOS SOCIALES E IGUALDAD. BOLETIN IGUALDAD EMPRESA

BRECHA SALARIAL Y CIENTÍFICA DE GÉNERO XLIV Febrero 2018

2-MODELOS DE REGRESIÓN LINEAL PARA ESTIMACIÓN DE TIEMPOS DE VIAJE EN SISTEMAS DE TRANSPORTE MASIVO

3- MODELOS DE REGRESIÓN LINEAL MÚLTIPLE. Autores: Renatas Kizys, Ángel A. Juan.

4-Aplicación de modelo ARIMA para el análisis de series de volúmenes anuales en el río Magdalena.

TAREA 5

Inma Meca Saez

4 de Junio de 2018