La Brecha Salarial entre mujeres y hombres en España no sólo existe, sino que se hace cada vez mayor. Las mujeres ganan menos que los hombres durante su vida laboral y, en su vejez, son más pobres que ellos.
Con este trabajo lo que se pretende es analizar el Salario de las mujeres en los últimos 50 años, teniendo en cuenta el Porcentaje de paro, el salario de los hombres y el nivel de estudios alcanzados, para así poder realizar predicciones y obtener unas conclusiones objetivas.
Para ello se ha realizado una recopilación de información a partir de la base de datos dada que aporta cifras referentes a los últimos 50 años. Después de llevar a cabo la realización de un análisis descriptivo, la búsqueda del mejor modelo que relacione el Sueldo medio de las Mujeres con el resto de variables, las predicciones y la comparación de salarios de hombres y mujeres,se ha llegado a la conclusión de que el Salario de las mujeres depende tanto del porcentaje de paro como del Tipo de estudio y del salario de los hombres.
Los datos que se van a tratar en este estudio corresponden al Salario medio de hombres y mujeres en los últimos 50 años. Se dispone además de las Tasas de paro medias anuales y del Nivel de estudios alcanzado.
GOBIERNO DE ESPAÑA. MINISTERIO DE SANIDAD, SERVICIOS SOCIALES E IGUALDAD. BOLETIN IGUALDAD EMPRESA
BRECHA SALARIAL Y CIENTÍFICA DE GÉNERO XLIV Febrero 2018.
1. Principales causas de la brecha salarial de género y conceptos clave
Las causas de la brecha salarial de género son diferentes y pueden estar interrelacionadas, creando un conjunto de influencias, en ocasiones inconscientes, que obstaculizan las carreras profesionales de las mujeres, tanto en lo que se refiere a acceso al empleo y promoción, como a las remuneraciones y compensaciones desarrollando el mismo puesto o un trabajo de igual valor. Entre las muchas causas que pueden interferir, hay varias que destacan:
Persistencia de los tradicionales estereotipos de género: por las dificultades nacidas de estos tradicionales estereotipos, el camino de las mujeres en determinados sectores laborales se ha visto fuertemente obstaculizado, lo que ha provocado la ausencia casi total de referentes femeninos y ha propiciado la invisibilización de la presencia de las mujeres.
Discriminación salarial directa: ocurre cuando las mujeres reciben menos salario que los hombres en el desempeño del mismo trabajo dentro de una organización. De esta forma, el sexo sería un criterio específico para establecer las diferencias retributivas, infravalorando las capacidades y el trabajo de las mujeres.
Segregación horizontal del mercado de trabajo: Debido a los estereotipos y roles de género persistentes las expectativas sociolaborales de hombres y mujeres se han segregado, apareciendo sectores concretos que se han feminizado o masculinizado. En esta línea, los sectores feminizados tradicionalmente se han relacionado principalmente con labores similares a aquellas realizadas en el hogar o ámbito doméstico, como pueden ser tareas de limpieza o atención a personas dependientes, entre otros. Estos sectores han sido menos valorados tanto socialmente, restando especificidad a sus labores, rebajando su cualificación y desvalorizando sus responsabilidades. Todo esto repercute tanto en su estimación como en su remuneración, que se ve disminuida.
2. Principales datos estadísticos sobre brecha salarial de género
A pesar de que prácticamente en todos los países industrializados se han desarrollado en los últimos años numerosas normativas en torno a la igualdad de trato de mujeres y hombres en el mercado laboral, la desigualdad salarial por razón de sexo sigue siendo una realidad. A continuación se muestran algunos datos y las principales conclusiones extraídas de dos estudios, uno realizado a nivel mundial por la Organización Internacional del Trabajo (OIT) y otro, a nivel nacional, del Instituto Nacional de Estadística (INE).
Informe mundial sobre salarios 2016/2017. Organización Internacional del Trabajo (OIT): Una de las conclusiones más relevantes del informe es la afirmación de una evidente discriminación salarial de género, añadiendo además su crecimiento según aumenta el puesto y las responsabilidades, así como la edad de la persona trabajadora. La discriminación por razón de sexo en los puestos directivos de la población está en torno al 40% (el doble que la discriminación de género total). Los hombres en puestos de dirección ejecutiva perciben el doble de salario que sus compañeras.
Encuesta anual de Estructura Salarial 2017 (Datos relativos al año 2015). Instituto Nacional de Estadística (INE): El salario medio anual de las mujeres es de 20.051,58 euros, mientras que el de los hombres es de 25.992,76 euros. Con ello, el salario medio anual femenino representa el 77,1% del masculino. El 18,2% de las mujeres tuvo ingresos salariales menores o iguales que el Salario Mínimo Interprofesional (SMI), frente al 7,4% de los hombres. Concretando los salarios más elevados, el 9,8% de los hombres presentó unos salarios cinco veces o más superiores al SMI, frente al 5,0% de las mujeres. Las diferencias salariales entre mujeres y hombres aumentan a medida que aumenta la edad, y los puestos y responsabilidades ocupados. De esta forma, según avanza la edad la brecha salarial de género aumenta.
En resumen, el conjunto de estos datos y estudios evidencia la brecha salarial de género a nivel mundial, comunitario y nacional, ampliándose además según aumenta la edad y la responsabilidad de los puestos ocupados. No sólo las mujeres ocupan menos puestos de dirección, sino que además sus remuneraciones en tal caso son menores que las de sus homólogos hombres.
El objetivo principal de este estudio es buscar el mejor modelo para predecir el salario de las mujeres. Para llevar a cabo este objetivo disponemos de las Tasas de paro medias anuales, del Salario medio de hombres y mujeres en los últimos 50 años así como del Tipo de trabajo. Y el objetivo secundario de este estudio es llevar a cabo una comparación del salario de las mujeres con el de los hombres.
TIPOLOGÍA DE LAS VARIABLES
Los distintos tipos de variables que podemos encontrar son:
Variables cuantitativas: Toman valores numéricos. Pueden ser discretas o continuas.
Variables discretas: Son las que toman un número finito o infinito numerable de observaciones. Variables contínuas: Son las que toman un número infinito no numerable.
Variables cualitativas o categóricas: Reflejan diferentes carácteristicas o categorías de una cualidad. Pueden ser nominales u ordinales.
Variables nominales: son las que únicamente ponen nombre a una característica. Variables ordinales: son las que llevan asociadas un orden en las respuestas.
Las variables de las que se dispone en este estudio son: Porcentaje de paro, Salario de hombres, Salario de mujeres, Tipo, Año.
Porcentaje de paro: hace referencia a las Tasas de paro medias anuales. Es una variable cuantitativa contínua.
Salario de hombres: Es una variable cuantitativa contínua en la que se recoge el salario de hombres en los últimos 50 años.
Salario de mujeres: Es una variable cuantitativa contínua en la que se explica el salario de hombres en los últimos 50 años.
Tipo: hace alusión al tipo de trabajo/estudios. Es una variable categórica ordinal con 5 categorías, las cuales son las siguientes:
0=sin calificar 1=estudios primarios 2=estudios secundaria 3=FP grado superior o grado universitario 4= Master oficial o Doctorado universitario
Año: Es una variable cuantitativa discreta que agrupa los últimos 50 años. Desde 1967 hasta 2016.
Las metodologías estadísticas que van a ser utilizadas en este estudio y servirán de ayuda para las conclusiones finales son:
MODELO DE REGRESIÓN - Modelo ANCOVA: es una fusión del ANOVA y de la regresión lineal múltiple. Un procedimiento estadístico que permite eliminar la heterogeneidad causada en la variable de interés (variable dependiente) por la influencia de una o más variables cuantitativas (covariables).
SERIES TEMPORALES -MÍNIMOS CUADRADOS ORDINARIOS(OLS) -GENERALIZED LEAST SQUARES (GLS)
MODELO REGRESIÓN Y ARIMA (modelo autorregresivo integrado de promedio móvil)
PREPARACIÓN DE LOS DATOS
datos<-read.csv("archivo7.csv", header = T, sep = ",",dec = ".")
attach(datos)
View(datos)
#write.csv2(datos,"D:/SERIES_TEMPORALES/PRACTICA_INDIVIDUAL/archivo7nuevo.csv")
#Le ponemos las etiquetas de Primaria, Secundaria, Fp/grado sup y Master/Doctorado a los valores de la variable Tipo, convirtiéndola así en factor.
datos$Tipo<-factor(datos$Tipo, labels=c("Primaria", "Secundaria", "FP/grado sup", "Master/Doctorado"))
# ponemos todos los datos en una hoja
hombres<-datos[,c("X","Porcen.paro","Salario.hombres","Tipo","anyo")]
names(hombres)<-c("X","Porcen.paro","salario","Tipo","anyo")
hombres$genero<-c("Hombre")
mujeres<-datos[c("X","Porcen.paro","Salario.Mujeres","Tipo","anyo")]
names(mujeres)<-c("X","Porcen.paro","salario","Tipo","anyo")
mujeres$genero<-c("Mujeres")
datos_u<-rbind(hombres,mujeres) #para pegar las filas arriba y abajo
View(datos_u)
Para contrastar la normalidad realizamos el Test de Shapiro-Wilk es un contraste de ajuste que se utiliza para comprobar si unos datos determinados \((X_1, X_2,., X_n)\) han sido extraídos de una población normal.
shapiro.test(datos_u$salario)
##
## Shapiro-Wilk normality test
##
## data: datos_u$salario
## W = 0.9271, p-value = 3.419e-05
Siendo la hipótesis nula que la población está distribuida normalmente, al ser el p-valor 0.0000341 menor de 0.05 (nivel de significancia), la hipótesis nula es rechazada y se concluye que los datos no vienen de una distribución normal.
Se lleva a cabo la realización de una Análisis Descriptivo centrado en el Mínimo, Máximo, Media, Mediana, quartiles y desviaciones tanto de los hombres como de las mujeres.
cat("Hombres","\n")
## Hombres
cat("Media= ");mean(hombres$salario)
## Media=
## [1] 1625.851
cat("Mediana=");median(hombres$salario)
## Mediana=
## [1] 1614.32
cat("Q1 y Q3 =");quantile(hombres$salario,c(0.25,0.75))
## Q1 y Q3 =
## 25% 75%
## 1429.185 1790.042
cat("Desviacion=");sd(hombres$salario)
## Desviacion=
## [1] 279.9817
cat("Máximo=");max(hombres$salario)
## Máximo=
## [1] 2373.754
cat("Mínimo=");min(hombres$salario)
## Mínimo=
## [1] 1070.992
cat("Mujeres","\n")
## Mujeres
cat("Media= ");mean(mujeres$salario)
## Media=
## [1] 1999.939
cat("Mediana=");median(mujeres$salario)
## Mediana=
## [1] 1941.331
cat("Q1 y Q3 =");quantile(mujeres$salario,c(0.25,0.75))
## Q1 y Q3 =
## 25% 75%
## 1441.065 2465.204
cat("Desviacion=");sd(mujeres$salario)
## Desviacion=
## [1] 892.9657
cat("Máximo=");max(mujeres$salario)
## Máximo=
## [1] 4112.975
cat("Mínimo=");min(mujeres$salario)
## Mínimo=
## [1] 556.5888
La prueba de los rangos con signo de Wilcoxon es una prueba no paramétrica que se utiliza para comparar el rango medio de dos muestras relacionadas y determinar si existen diferencias entre ellas, siendo la Hipótesis nula de este contraste: Dos poblaciones tienen la misma distribucion coninua.
wilcox.test(salario~genero,data=datos_u)
##
## Wilcoxon rank sum test with continuity correction
##
## data: salario by genero
## W = 867, p-value = 0.008367
## alternative hypothesis: true location shift is not equal to 0
Al ser el p-valor de este Test 0.008367 no podemos afirmar que las distribuciones de estas dos muestras sean distintas. Es decir, que el salario medio de hombres y mujeres es similar.
DIAGRAMA DE PARES GENERALIZADOS
## Warning: package 'GGally' was built under R version 3.4.4
## Loading required package: ggplot2
## Warning: package 'ggplot2' was built under R version 3.4.4
## Warning in warn_if_args_exist(list(...)): Extra arguments: "color" are
## being ignored. If these are meant to be aesthetics, submit them using the
## 'mapping' variable within ggpairs with ggplot2::aes or ggplot2::aes_string.
De este gráfico cabe destacacar la nube de puntos entre el salario de los hombres y el salario de las mujeres en el que se puede apreciar un patrón. Por tanto, a continuación éste se analizará por separado para obtener las correspondientes conclusiones.
Además en la diagonal de este gráfico aparecen los llamados polígonos de frecuencias. Con éstos se comprueba si se sigue una distribución normal (que en este caso no) u otra forma distinta. Además aparecen las colerralaciones entre variables del gráfico de correlaciones que se obtendrá con posterioridad.
DIAGRAMA DE DISPERSIÓN
#GRAFICO DE DISPERSION ENTRE LAS VARIABLES CONTINUAS: Salario mujeres, Salario hombres y Porcentaje de paro.
#install.packages(ggplot2)
library(ggplot2)
w <- subset(datos)
w$pred.SC <- predict(lm(datos$Salario.Mujeres ~ datos$Salario.hombres),data=datos)
p1 <- ggplot(w, aes(x = Salario.hombres, y = Salario.Mujeres))
p1 + geom_point(aes(color = Porcen.paro)) + geom_line(aes(y = pred.SC))
En este gráfico se observan cuatro familias (patrones) que sospechamos se corresponden con los niveles de estuio.
Para comprobar ésto realizamos el siguiente gráfico:
#GRAFICO DE DISPERSION
#install.packages(ggplot2)
library(ggplot2)
w <- subset(datos)
w$pred.SC <- predict(lm(datos$Salario.Mujeres ~ datos$Salario.hombres),data=datos)
p1 <- ggplot(w, aes(x = Salario.hombres, y = Salario.Mujeres))
p1 + geom_point(aes(color = Tipo)) + geom_line(aes(y = pred.SC))
En este gráfico se pueden diferenciar cuatro bloques referidos a los niveles de estudio (Primarios, Secundaria, Grado Superior o Grado Universitario, Master oficial o Doctorado universitario). Corroborando así lo intuido anteriormente con el gráfico anterior.
boxplot(salario~genero,data=datos_u,col="red",main="Salario Medio por Género")
En este gráfico se puede apreciar que no hay una diferencia significativa en cuánto a la media en el salario de los hombres y de las mujeres en los últimos 50 años.
boxplot(salario~Tipo,data=datos_u,col="red",main="Salario Medio según el Nivel de Estudios")
A diferencia del anterior, en este gráfico si se puede apreciar que hay una diferencia significativa en cuanto a los sueldos según el tipo de estudio/trabajo tanto para hombres como para mujeres. Es decir, el sueldo aumenta o disminuye en función del nivel de estudios alcanzado.
A continuación, se estudia de una forma gráfica las variables que podrían estar linealmente relacionadas.
#GRÁFICO CORRELACIONES
library(corrplot)
## Warning: package 'corrplot' was built under R version 3.4.4
## corrplot 0.84 loaded
M<-cor(datos[,c("Salario.hombres","Salario.Mujeres","Porcen.paro")])
corrplot(M)
A partir de este gráfico se puede concluir que las variables Salario mujeres y Salario hombres presentan una correlación positiva, es decir, la relación entre una variable y otra es lineal y directa; mientras que el Porcentaje de paro y el Salario de las mujeres son dos variables cuya correlación es próxima a cero y por tanto se puede decir que la relación estre éstas es casi nula. Lo mismo ocurre con las variables Porcentaje de paro y el Salario de los hombres, por lo que se concluye que existe muy poca relación entre las dos.
Una vez visto el comportamiento de las variables independientes frente a la variable del estudio “Salario Mujeres”, se obtiene el que va a ser el modelo de partida.
Introducimos el modelo con variable dependiente Salario Mujeres y como independientes Tipo, Porcentaje de paro, Año y Salario Hombres.
El año en este caso, se introduce por los indicios de que puede haber una tendencia temporal.
library(ggplot2)
ggplot(datos,aes(x=anyo,y=Salario.Mujeres))+geom_line(col="orange")+geom_hline(yintercept=mean(datos$Salario.Mujeres))
En este gráfico, no se aprecia una tendencia clara del Salario de las mujeres con respecto a los años (se obtiene una media más o menos estable). Tampoco se encuetra estacionalidad (variación periódica y predecible con un periodo inferior o igual a un año.), ya que no presenta un patrón establecido.
modelo<-glm(Salario.Mujeres~Porcen.paro*Tipo+Salario.hombres*Tipo+anyo,data=datos)
summary(modelo)
##
## Call:
## glm(formula = Salario.Mujeres ~ Porcen.paro * Tipo + Salario.hombres *
## Tipo + anyo, data = datos)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -88.18 -41.05 0.00 22.52 113.85
##
## Coefficients:
## Estimate Std. Error t value
## (Intercept) -819.81288 1227.28790 -0.668
## Porcen.paro -15.30255 4.81321 -3.179
## TipoSecundaria 109.87456 199.89581 0.550
## TipoFP/grado sup 5.37028 214.05114 0.025
## TipoMaster/Doctorado -217.37934 500.84608 -0.434
## Salario.hombres 0.69882 0.12006 5.821
## anyo 0.38201 0.59704 0.640
## Porcen.paro:TipoSecundaria -0.02568 5.30756 -0.005
## Porcen.paro:TipoFP/grado sup 1.39145 6.27120 0.222
## Porcen.paro:TipoMaster/Doctorado -4.16046 12.71710 -0.327
## TipoSecundaria:Salario.hombres 0.57031 0.12641 4.512
## TipoFP/grado sup:Salario.hombres 1.26318 0.12888 9.801
## TipoMaster/Doctorado:Salario.hombres 2.18717 0.46670 4.686
## Pr(>|t|)
## (Intercept) 0.50829
## Porcen.paro 0.00298 **
## TipoSecundaria 0.58586
## TipoFP/grado sup 0.98012
## TipoMaster/Doctorado 0.66679
## Salario.hombres 1.10e-06 ***
## anyo 0.52622
## Porcen.paro:TipoSecundaria 0.99617
## Porcen.paro:TipoFP/grado sup 0.82563
## Porcen.paro:TipoMaster/Doctorado 0.74539
## TipoSecundaria:Salario.hombres 6.31e-05 ***
## TipoFP/grado sup:Salario.hombres 7.91e-12 ***
## TipoMaster/Doctorado:Salario.hombres 3.70e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for gaussian family taken to be 3044.344)
##
## Null deviance: 39071996 on 49 degrees of freedom
## Residual deviance: 112641 on 37 degrees of freedom
## AIC: 555.89
##
## Number of Fisher Scoring iterations: 2
library(MASS)
stepAIC(modelo, direcction = "both")
## Start: AIC=555.89
## Salario.Mujeres ~ Porcen.paro * Tipo + Salario.hombres * Tipo +
## anyo
##
## Df Deviance AIC
## - Porcen.paro:Tipo 3 113360 550.21
## - anyo 1 113887 554.44
## <none> 112641 555.89
## - Tipo:Salario.hombres 3 653521 637.80
##
## Step: AIC=550.21
## Salario.Mujeres ~ Porcen.paro + Tipo + Salario.hombres + anyo +
## Tipo:Salario.hombres
##
## Df Deviance AIC
## - anyo 1 114590 548.75
## <none> 113360 550.21
## - Porcen.paro 1 328145 601.35
## - Tipo:Salario.hombres 3 709612 635.92
##
## Step: AIC=548.75
## Salario.Mujeres ~ Porcen.paro + Tipo + Salario.hombres + Tipo:Salario.hombres
##
## Df Deviance AIC
## <none> 114590 548.75
## - Porcen.paro 1 332932 600.08
## - Tipo:Salario.hombres 3 721484 634.75
##
## Call: glm(formula = Salario.Mujeres ~ Porcen.paro + Tipo + Salario.hombres +
## Tipo:Salario.hombres, data = datos)
##
## Coefficients:
## (Intercept)
## -45.6536
## Porcen.paro
## -15.2237
## TipoSecundaria
## 92.7280
## TipoFP/grado sup
## 27.7636
## TipoMaster/Doctorado
## -58.2844
## Salario.hombres
## 0.6887
## TipoSecundaria:Salario.hombres
## 0.5813
## TipoFP/grado sup:Salario.hombres
## 1.2683
## TipoMaster/Doctorado:Salario.hombres
## 2.0119
##
## Degrees of Freedom: 49 Total (i.e. Null); 41 Residual
## Null Deviance: 39070000
## Residual Deviance: 114600 AIC: 548.7
El mejor modelo obtenido y por tanto definitivo (con menor AIC) es el siguiente :
**Salario.Mujeres ~ Porcen.paro + Tipo + Salario.hombres + Tipo:Salario.hombres**
modelo_definitivo<-glm(Salario.Mujeres ~ Porcen.paro + Tipo + Salario.hombres +
Tipo:Salario.hombres,data=datos)
summary(modelo_definitivo)
##
## Call:
## glm(formula = Salario.Mujeres ~ Porcen.paro + Tipo + Salario.hombres +
## Tipo:Salario.hombres, data = datos)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -85.894 -35.453 3.985 26.551 110.116
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -45.6536 173.7034 -0.263 0.794
## Porcen.paro -15.2237 1.7224 -8.839 4.83e-11
## TipoSecundaria 92.7280 185.0140 0.501 0.619
## TipoFP/grado sup 27.7636 190.7393 0.146 0.885
## TipoMaster/Doctorado -58.2844 406.1861 -0.143 0.887
## Salario.hombres 0.6887 0.1067 6.453 9.83e-08
## TipoSecundaria:Salario.hombres 0.5813 0.1126 5.163 6.63e-06
## TipoFP/grado sup:Salario.hombres 1.2683 0.1160 10.934 1.00e-13
## TipoMaster/Doctorado:Salario.hombres 2.0119 0.2860 7.034 1.48e-08
##
## (Intercept)
## Porcen.paro ***
## TipoSecundaria
## TipoFP/grado sup
## TipoMaster/Doctorado
## Salario.hombres ***
## TipoSecundaria:Salario.hombres ***
## TipoFP/grado sup:Salario.hombres ***
## TipoMaster/Doctorado:Salario.hombres ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for gaussian family taken to be 2794.884)
##
## Null deviance: 39071996 on 49 degrees of freedom
## Residual deviance: 114590 on 41 degrees of freedom
## AIC: 548.75
##
## Number of Fisher Scoring iterations: 2
El R Cuadrado se define como la proporción de la varianza total de la variable explicada por la regresión. El también llamado coeficiente de determinación, refleja la bondad del ajuste de un modelo a la variable que pretender explicar.
R2gauss <- function(Salario.Mujeres, modelo_definitivo) {
moy <- mean(Salario.Mujeres)
N <- length(Salario.Mujeres)
p <- length(modelo_definitivo$coefficients) - 1
SSres <- sum((Salario.Mujeres - predict(modelo_definitivo))^2)
SStot <- sum((Salario.Mujeres - moy)^2)
R2 <- 1 - (SSres/SStot)
Rajust <- 1 - (((1 - R2) * (N - 1))/(N - p - 1))
return(data.frame(R2, Rajust, SSres, SStot))
}
#Cálculo del R cuadrado para datos con variable respuesta Gaussina
library(BCA)
## Warning: package 'BCA' was built under R version 3.4.4
R2gauss(datos$Salario.Mujeres, modelo_definitivo)
En este caso, se obtiene un coeficiente de determinación de 0.997 lo que quiere decir que éste explica un 99.70% de la varianza total del Salario de las Mujeres (variable explicada por el modelo de Regresión). Por tanto, el ajuste del modelo es muy bueno.
# diagnoatic plot
layout(matrix(c(1,2,3,4), 2, 2)) # 4 gráficos
plot(modelo_definitivo)
El primer gráfico hace referencia a la homocedasticidad de los residuos, es una nube de puntos sin patrón alguno. El segundo, hace referencia a la normalidad de los residuos, los cuales se encuentran sobre la diagonal y sin forma alguna. El tercer gráfico explica la independencia de los residuos y no tiene patrón alguno (la línea roja debería ser recta). Y por último el cuarto, en el cual se encuentran las observaciones influyentes y atípicas (puntos muy alejados del resto).
Por tanto, debido a todo lo anterior, se puede concluir que a simple vista no se rechaza la Homocedasticidad ni la Normalidad de los residuos.
A continuación, se estudian detalladamente las hipótesis básicas que cumple nuestro modelo para ver si se verifican las conclusiones obtenidas gráficamente y así contrastarlo de forma numérica.
Contraste de hipótesis: H0: Media de los residuos igual a cero H1: Media de los residuos distinta de cero
residuos <- modelo_definitivo$residuals
t.test(residuos)
##
## One Sample t-test
##
## data: residuos
## t = 8.9102e-14, df = 49, p-value = 1
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## -13.74343 13.74343
## sample estimates:
## mean of x
## 6.09363e-13
Al obtener un valor de p igual a 1, mayor que 0.05, se puede decir que el modelo es correcto cumpliéndose así la Hipótesis de Linealidad.
La hipótesis de normalidad afirma que los errores del modelo (e) siguen una distribución normal. Esta hipótesis se contrasta a partir de los residuos estandarizados. Se pueden aplicar varios contrastes como: contraste de asimetría y kurtosis, contraste chi-cuadrado, contraste de Kolmogorov-Smirnov-Liliefors, aunque en este caso el que se va a utilizar va a ser el de Shapiro-Wilk.
#Normalidad de los residuos (Test de Shapiro-Wilk)
shapiro.test(modelo_definitivo$residuals)
##
## Shapiro-Wilk normality test
##
## data: modelo_definitivo$residuals
## W = 0.97951, p-value = 0.5316
Al ser el p-valor 0.5316 mayor de 0.05 (nivel de significancia), la hipótesis nula no se rechaza y se concluye que los residuos en este caso siguen una distribución normal.
Las pruebas de heteroscedasticidad de los residuos implican las dos siguientes hipótesis: H0 (hipótesis nula): los residuos son homocedásticos. H1 (hipótesis alternativa): los residuos son heterocedásticos.
#Heterocedasticidad de los residuos (Test de Breusch-Pagan)
library(lmtest)
## Loading required package: zoo
## Warning: package 'zoo' was built under R version 3.4.3
##
## Attaching package: 'zoo'
## The following objects are masked from 'package:base':
##
## as.Date, as.Date.numeric
bptest(modelo_definitivo)
##
## studentized Breusch-Pagan test
##
## data: modelo_definitivo
## BP = 5.8331, df = 8, p-value = 0.6659
Por lo tanto, al obtenerse un valor de p (0.6659) asociado a una prueba de heterocedasticidad por encima de un cierto umbral (en este caso, 0.05), se llega a la conclusión de que los residuos son significativamente homocedásticos, no rechazando así la hipótesis nula.
Todos los contrastes numéricos de autocorrelación se plantean con idénticas hipótesis; así, podemos señalar que la forma general del contraste es: H0: No existe autocorrelación H1: Existe autocorrelación
#Autocorrelación de los residuos (Test de Durbin-Watson)
#durbinWatsonTest(modelo_definitivo)
El Test de Durbin-Watson proporciona un p-valor más pequeño que 0.05, lo que nos permite concluir que se rechaza la hipotesis nula y que por tanto no son independientes los residuos.
El Test de Bonferroni es un test de comparaciones múltiples. Permite comparar, como los demás contrastes de este tipo, las medias de los t niveles de un factor.
Se basa en la creación de un umbral, el BSD (Bonferroni significant difference) por encima del cual la diferencia entre las dos medias será significativa y por debajo del cual esa diferencia no lo será.
library(car)
## Warning: package 'car' was built under R version 3.4.4
## Loading required package: carData
## Warning: package 'carData' was built under R version 3.4.4
outlierTest(modelo_definitivo)
## No Studentized residuals with Bonferonni p < 0.05
## Largest |rstudent|:
## rstudent unadjusted p-value Bonferonni p
## 15 2.370361 0.017771 0.88854
Al ser el valor de p Bonferroni mayor que 0.05, se dice que la observación, en este caso número 15, no es atípica y por tanto, no debemos eliminarla del modelo.
avPlots(modelo_definitivo)
DISTANCIA DE COOK
cutoff <- 4/((nrow(datos)-length(modelo_definitivo$coefficients)-2))
plot(modelo_definitivo, which = 4, cook.levels = cutoff)
Si la Distancia de Cook de alguna observación fuera mayor que uno esa observación sería influyente. En este caso ninguna de las observaciones cumple esta regla.
max(datos$Porcen.paro)
## [1] 31.66849
min(datos$Porcen.paro)
## [1] 7.465474
max(datos$Salario.hombres)
## [1] 2373.754
min(datos$Salario.hombres)
## [1] 1070.992
Nuevos.Datos <- data.frame(Porcen.paro= 20 ,
Salario.hombres= 1519 ,
Tipo="Primaria")
predict(modelo_definitivo, Nuevos.Datos, type = "response" , se.fit=TRUE)
## $fit
## 1
## 696.0283
##
## $se.fit
## [1] 21.63893
##
## $residual.scale
## [1] 52.86666
Nuevos.Datos <- data.frame(Porcen.paro= 20 ,
Salario.hombres= 1519 ,
Tipo="Secundaria")
predict(modelo_definitivo, Nuevos.Datos, type = "response" , se.fit=TRUE)
## $fit
## 1
## 1671.78
##
## $se.fit
## [1] 11.59394
##
## $residual.scale
## [1] 52.86666
Nuevos.Datos <- data.frame(Porcen.paro= 20 ,
Salario.hombres= 1519 ,
Tipo="FP/grado sup")
predict(modelo_definitivo, Nuevos.Datos, type = "response" , se.fit=TRUE)
## $fit
## 1
## 2650.267
##
## $se.fit
## [1] 15.65931
##
## $residual.scale
## [1] 52.86666
Nuevos.Datos <- data.frame(Porcen.paro= 20 ,
Salario.hombres= 1519 ,
Tipo="Master/Doctorado")
predict(modelo_definitivo, Nuevos.Datos, type = "response" , se.fit=TRUE)
## $fit
## 1
## 3693.82
##
## $se.fit
## [1] 48.85619
##
## $residual.scale
## [1] 52.86666
Los resultados obtenidos en esta primera predicción son: 696.03 el valor predicho, 21.64 el error estándar de los medios previstos y 52.86 la desviación estándar residual. En el caso de la segunda, el valor predicho es 1671.78, y para la tercera y la cuarta los valores predichos son 2650.267 y 3693.82.
Esto quiere decir que por ejemplo, en el caso de la primera predicción, siendo el porcentaje de paro del 20%, el salario de los hombres 1519 euros y el tipo de estudios alcanzado Primaria, el salario de las mujeres en este caso sería de 696.03 euros. En el caso de la segunda predicción el porcentaje de paro y el salario de los hombres seguiría siendo el mismo pero el nivel de estudios alcanzados pasa a ser Secundaria, obteniendo así una predicción del salario de las mujeres de 1671.78 euros. Y por último en el caso de la tercera y la cuarta predicción siendo el nivel de estudios alcanzado FP/Grado Superior (en la tercera) y Master/Doctorado (en la cuarta) las predicciones de los salarios obtenidas en este caso son 2650.267 y 3693.82 euros respectivamente.
En los siguientes gráficos se estudia el comportamiento del salario de las mujeres en función del nivel de estudios alcanzado.
library(ggplot2)
ggplot(datos,aes(x=anyo,y=Salario.Mujeres,colour=Tipo))+geom_line(size=0.75)
table(datos$Tipo)
##
## Primaria Secundaria FP/grado sup Master/Doctorado
## 9 25 13 3
Al haber sólo tres observaciones de la categoría Máster/Doctorado, se lleva a cabo su eliminación ya que se considera una muestra muy poco relevante para la obtención de conclusiones en comparación con los demás Tipos de estudios.
library(ggplot2)
ggplot(datos[datos$Tipo!="Master/Doctorado",],aes(x=anyo,y=Salario.Mujeres,colour=Tipo))+geom_line()
Una vez eliminado el nivel de estudios de Máster/Doctorado se obtiene un gráfico en el cual se observa que el salario de las mujeres aumenta en función del nivel de estudios alcanzados. Para un nivel de estudios alcanzados de Primaria, el Salario de las mujeres rondaría entre los 556 euros (mínimo de la variable Salarios.Mujer) y los 1000 euros. Para Secundaria, éste se encontraría entre los 1000 y los 2800 euros aproximadamente y por último, según los datos objeto de estudio, para un nivel de FP/Grado Superior el salario de las mujeres estaría situado entre los valores 1800 y 4200 aproximadamente.
Con respecto al paso de los años, tanto para un nivel como para otro de estudios parece que los salarios no varían significativamente aunque en el caso de FP/Grado Superior el rango sea más amplio y varíe algo más.
Modelización de los datos mediante las técnicas de series temporales.
MODELO LINEAL
library(car)
data(Hartnagel)
GRÁFICAMENTE
A continuación se observa gráficamente la serie:
datos$anyo2<-as.Date(as.character(datos$anyo), "%Y")
p<-ggplot(datos, aes(x=anyo2, y=Salario.Mujeres)) +
geom_line(col="blue") +
geom_point(col="blue", pch=1) +
xlab("Años")
p
La cual podemos observar que no presenta tendencia ni estacionalidad a simple vista.
p <- ggplot(datos, aes(x = anyo2, y = Salario.Mujeres)) + geom_line(col = "blue") +
geom_point(col = "blue", pch = 1) + xlab("Years") + geom_smooth(method = lm,
se = FALSE, col = "red")
p <- p + scale_x_date(date_breaks = "5 year", date_labels = "%Y")
p + theme(axis.text.x = element_text(angle = 60, hjust = 1))
En este caso, no parece que sea bueno hacer sólo un modelo lineal debido a que se aprecia una leve tendencia.
PRIMER TIPO DE AJUSTE: MÍNIMOS CUADRADOS ORDINARIOS(OLS)
mod1<-lm(modelo_definitivo, data=datos)
mod1
##
## Call:
## lm(formula = modelo_definitivo, data = datos)
##
## Coefficients:
## (Intercept)
## -45.6536
## Porcen.paro
## -15.2237
## TipoSecundaria
## 92.7280
## TipoFP/grado sup
## 27.7636
## TipoMaster/Doctorado
## -58.2844
## Salario.hombres
## 0.6887
## TipoSecundaria:Salario.hombres
## 0.5813
## TipoFP/grado sup:Salario.hombres
## 1.2683
## TipoMaster/Doctorado:Salario.hombres
## 2.0119
summary(mod1)
##
## Call:
## lm(formula = modelo_definitivo, data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -85.894 -35.453 3.985 26.551 110.116
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -45.6536 173.7034 -0.263 0.794
## Porcen.paro -15.2237 1.7224 -8.839 4.83e-11
## TipoSecundaria 92.7280 185.0140 0.501 0.619
## TipoFP/grado sup 27.7636 190.7393 0.146 0.885
## TipoMaster/Doctorado -58.2844 406.1861 -0.143 0.887
## Salario.hombres 0.6887 0.1067 6.453 9.83e-08
## TipoSecundaria:Salario.hombres 0.5813 0.1126 5.163 6.63e-06
## TipoFP/grado sup:Salario.hombres 1.2683 0.1160 10.934 1.00e-13
## TipoMaster/Doctorado:Salario.hombres 2.0119 0.2860 7.034 1.48e-08
##
## (Intercept)
## Porcen.paro ***
## TipoSecundaria
## TipoFP/grado sup
## TipoMaster/Doctorado
## Salario.hombres ***
## TipoSecundaria:Salario.hombres ***
## TipoFP/grado sup:Salario.hombres ***
## TipoMaster/Doctorado:Salario.hombres ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 52.87 on 41 degrees of freedom
## Multiple R-squared: 0.9971, Adjusted R-squared: 0.9965
## F-statistic: 1742 on 8 and 41 DF, p-value: < 2.2e-16
RESIDUOS POR AÑO
ggplot(datos, aes(x = anyo2, y = mod1$residuals)) + geom_line(col = "red") +
geom_point(col = "blue", pch = 1) + xlab("Años") + geom_hline(yintercept = 0)
Observando la gráfica, parece que existe autocorrelación en los residuos, ya que éstos presentan un patrón de autocorrelación claro.
CORRELACIÓN DE LOS RESIDUOS
Una vez graficados los residuos, se realiza el correlograma o gráfico de autocorrelación el cual es una representación gráfica de las autocorrelaciones de la muestra
library(tseries)
## Warning: package 'tseries' was built under R version 3.4.4
acf(residuals(mod1))
acf(residuals(mod1), type = "partial")
Todo parece indicar que hay correlación entre los residuos porque el ACF presenta muchos retardos distintos de cero y al parecer sigue un comportamiento estacional.
A simple vista, se probaría con un AR(2). Aunque a continuación, se va a estudiar cuál es el tipo de autocorrelación que tiene el modelo.
#time serie
library(forecast)
## Warning: package 'forecast' was built under R version 3.4.4
library(TSdata)
## Warning: package 'TSdata' was built under R version 3.4.4
tsdata<-ts(modelo_definitivo$residuals, start=c(1967,1),frequency=1)
tsdata
## Time Series:
## Start = 1967
## End = 2016
## Frequency = 1
## 1 2 3 4 5 6
## -60.705615 4.288120 7.618821 53.429977 3.681973 -57.633640
## 7 8 9 10 11 12
## -84.794212 -36.745302 41.065492 19.412394 -17.271635 -67.322384
## 13 14 15 16 17 18
## -15.207070 74.916460 110.115596 57.426262 -30.377396 -85.758847
## 19 20 21 22 23 24
## -47.644217 52.420946 48.402119 12.644491 -70.273569 -53.099092
## 25 26 27 28 29 30
## 26.825037 107.989902 88.112305 -15.799744 -44.691570 -85.893618
## 31 32 33 34 35 36
## -54.783647 33.051808 50.933167 14.348701 -2.791274 -32.061136
## 37 38 39 40 41 42
## -35.978837 -3.232402 19.388106 20.596563 -2.683540 -25.489693
## 43 44 45 46 47 48
## -33.875736 11.207118 17.453134 16.770931 36.468083 8.180923
## 49 50
## 25.728028 1.637718
modelo1<- auto.arima(tsdata, seasonal=FALSE)
summary(modelo1)
## Series: tsdata
## ARIMA(2,0,2) with zero mean
##
## Coefficients:
## ar1 ar2 ma1 ma2
## 0.8533 -0.9212 -0.2546 0.7937
## s.e. 0.0606 0.0467 0.0878 0.2291
##
## sigma^2 estimated as 579.4: log likelihood=-229.82
## AIC=469.64 AICc=471 BIC=479.2
##
## Training set error measures:
## ME RMSE MAE MPE MAPE MASE
## Training set -0.3343756 23.08827 18.67126 -5.299687 100.8652 0.4645628
## ACF1
## Training set 0.03921325
Por tanto, ARMA(2,2) es el tipo de autocorrelaicon que tiene el modelo estudiado siendo p=2 (orden de la parte autorregresiva) y q=2 (orden de la parte de media móvil).
TEST DE DURBIN WATSON
#Autocorrelación de los residuos (Test de Durbin-Watson)
durbinWatsonTest(mod1, max.lag = 5)
## lag Autocorrelation D-W Statistic p-value
## 1 0.4750355 1.017746 0.000
## 2 -0.3467958 2.655472 0.010
## 3 -0.7566427 3.474075 0.000
## 4 -0.3678035 2.659878 0.008
## 5 0.3421261 1.237446 0.030
## Alternative hypothesis: rho[lag] != 0
Este Test nos proporciona Autocorrelaciones Significativas. Por tanto, dado que existe una clara autocorrelación se deben probar otros métodos de ajuste.
SEGUNDO TIPO DE AJUSTE: GENERALIZED LEAST SQUARES (GLS)
Estima el modelo corrigiendo la autocorrelación.
library(nlme)
##
## Attaching package: 'nlme'
## The following object is masked from 'package:forecast':
##
## getResponse
mod.gls <- gls(Salario.Mujeres ~ Porcen.paro + Tipo + Salario.hombres +
Tipo:Salario.hombres, data=datos,
correlation=corARMA(p=2, q=2), method='ML')
summary(mod.gls)
## Generalized least squares fit by maximum likelihood
## Model: Salario.Mujeres ~ Porcen.paro + Tipo + Salario.hombres + Tipo:Salario.hombres
## Data: datos
## AIC BIC logLik
## 402.4509 429.2193 -187.2255
##
## Correlation Structure: ARMA(2,2)
## Formula: ~1
## Parameter estimate(s):
## Phi1 Phi2 Theta1 Theta2
## 0.9381329 -0.8999514 1.1816254 0.1816357
##
## Coefficients:
## Value Std.Error t-value p-value
## (Intercept) 19.36815 9.44933 2.0497 0.0468
## Porcen.paro -14.96894 0.20776 -72.0505 0.0000
## TipoSecundaria -20.43434 8.01975 -2.5480 0.0147
## TipoFP/grado sup -28.72833 5.74887 -4.9972 0.0000
## TipoMaster/Doctorado -61.69624 32.97236 -1.8712 0.0685
## Salario.hombres 0.63461 0.00461 137.5339 0.0000
## TipoSecundaria:Salario.hombres 0.66402 0.00521 127.4933 0.0000
## TipoFP/grado sup:Salario.hombres 1.32004 0.00390 338.5528 0.0000
## TipoMaster/Doctorado:Salario.hombres 1.99621 0.02452 81.4160 0.0000
##
## Correlation:
## (Intr) Prcn.p TpScnd TpFP/s TpMs/D
## Porcen.paro -0.451
## TipoSecundaria -0.837 0.208
## TipoFP/grado sup -0.192 -0.296 0.281
## TipoMaster/Doctorado 0.343 0.035 -0.269 0.240
## Salario.hombres -0.878 0.211 0.920 0.394 -0.420
## TipoSecundaria:Salario.hombres 0.871 -0.390 -0.974 -0.247 0.247
## TipoFP/grado sup:Salario.hombres 0.307 -0.079 -0.269 -0.901 -0.231
## TipoMaster/Doctorado:Salario.hombres -0.352 -0.109 0.311 -0.192 -0.994
## Slr.hm TpS:S. TFP/s:
## Porcen.paro
## TipoSecundaria
## TipoFP/grado sup
## TipoMaster/Doctorado
## Salario.hombres
## TipoSecundaria:Salario.hombres -0.918
## TipoFP/grado sup:Salario.hombres -0.436 0.333
## TipoMaster/Doctorado:Salario.hombres 0.449 -0.268 0.223
##
## Standardized residuals:
## Min Q1 Med Q3 Max
## -2.03311911 -0.68190998 0.05632276 0.71586330 2.52488116
##
## Residual standard error: 46.4803
## Degrees of freedom: 50 total; 41 residual
Siendo por tanto éste el modelo final corregido.
RESIDUOS DEL GLS
plot(mod.gls)
En este gráfico se puede observar que no se aprecian indicios de autoccorrelación ni de heterocedasticidad.
PREDICCIÓN
Ahora, se lleva a cabo la predicción del Salario de las Mujeres:
new.data<-data.frame( Porcen.paro= 20 ,
Salario.hombres= 1519 ,
Tipo="Master/Doctorado" )
predict( mod.gls, new.data)
## [1] 3654.499
## attr(,"label")
## [1] "Predicted values"
Al crear un nuevo conjunto de datos y realizar la predicción, observando la serie original se puede concluir que una predicción del punto 3647 (Salario Medio) sin intervalo de confianza no nos es demasiado útil.
Utilización de Series Temporales para hacer las predicciones de otros años.
PREDICCIÓN DEL MODELO
Para llevar a cabo la utilización de esta función (auto.arima) en primer lugar, se cargan los paquetes de R necesarios:
library(forecast)
library(openxlsx)
## Warning: package 'openxlsx' was built under R version 3.4.3
Como se trata de una serie temporal, es necesario configurarla como tal, donde la serie tendrá inicio en el año 1967 y la frecuencia es 1 puesto que es anual.
#time serie
tsdata<-ts(datos$Salario.Mujeres, start=c(1967,1),frequency=1)
tsdata
## Time Series:
## Start = 1967
## End = 2016
## Frequency = 1
## [1] 1066.7482 1658.2113 3674.1070 4112.9750 3136.3992 2452.3958 1660.3061
## [8] 670.8183 657.2289 952.4097 2141.8626 2465.1693 2294.7649 2117.6682
## [15] 1370.5206 830.4954 1753.9582 3301.9123 1705.9529 2465.2150 770.5424
## [22] 2055.4361 1376.2426 2306.3797 2764.2364 2039.9171 1688.5099 3233.6811
## [29] 1943.2194 616.3422 778.6797 1975.5760 1939.4432 833.3964 2050.4206
## [36] 2948.1831 1222.4693 556.5888 1651.4130 3442.6606 1877.3165 1853.8093
## [43] 1639.2275 2713.2407 3006.0122 1635.5322 2098.0432 3038.2453 1819.3588
## [50] 3633.7292
Para realizar un auto pronóstico, se utiliza la función auto.arima.
modelo<-auto.arima(tsdata, seasonal=FALSE)
summary(modelo)
## Series: tsdata
## ARIMA(0,0,1) with non-zero mean
##
## Coefficients:
## ma1 mean
## 0.3650 2008.2632
## s.e. 0.1306 160.2648
##
## sigma^2 estimated as 725036: log likelihood=-407.35
## AIC=820.69 AICc=821.22 BIC=826.43
##
## Training set error measures:
## ME RMSE MAE MPE MAPE MASE
## Training set 4.150881 834.2866 702.4348 -25.22649 49.14294 0.7835614
## ACF1
## Training set -0.0006511153
Se puede observar que la función auto.arima devuelve el posible mejor modelo de entre todos los modelos y realiza transformaciones de la variable de ser el caso que no sea estacionaria; adicionalmente, evalua presencia de estacionalidad en la serie y si existe este componente, construye modelos SARIMA. En este caso, el mejor modelo obtenido es un ARIMA(0,0,1).
Por otra parte, también devuelve los conocidos como criterios de predictibilidad, los cuales son utilizados para evaluar la capacidad predictiva de los modelos incluyendo los criterios de información AIC, AICC, BIC.
Al ser el modelo sugerido ARIMA(0,0,1):
modeloarima <- Arima(tsdata, order=c(0,0,1))
summary(modeloarima)
## Series: tsdata
## ARIMA(0,0,1) with non-zero mean
##
## Coefficients:
## ma1 mean
## 0.3650 2008.2632
## s.e. 0.1306 160.2648
##
## sigma^2 estimated as 725036: log likelihood=-407.35
## AIC=820.69 AICc=821.22 BIC=826.43
##
## Training set error measures:
## ME RMSE MAE MPE MAPE MASE
## Training set 4.150881 834.2866 702.4348 -25.22649 49.14294 0.7835614
## ACF1
## Training set -0.0006511153
Vamos a comprobar si los residuos del modelo estimado siguen un proceso de Ruido Blanco.
Acf(residuals(modeloarima))
Box.test(residuals(modeloarima), lag=24, fitdf=4, type="Ljung")
##
## Box-Ljung test
##
## data: residuals(modeloarima)
## X-squared = 22.77, df = 20, p-value = 0.3002
Al encontrarse todos dentro de los límites y el p-valor ser mayor que 0.05, los residuos se comportan como Ruido Blanco.
A continuación, se obtiene el pronóstico de la variable en estudio (Salario Mujeres):
pronostico<- forecast(modelo,7,level=95)
plot(pronostico, main="Pronóstico con auto.arima",
ylab="Salario Mujeres")
Finalmente, se pueden ver estos pronósticos en una matriz donde se guardarán junto con los intervalos de confianza solicitados.
matriz.pronosticos <-data.frame(pronostico$mean,pronostico$lower,pronostico$upper)
matriz.pronosticos
library(ggplot2)
ggplot(datos_u,aes(x=anyo,y=salario,colour=genero))+geom_line()
Como se puede apreciar en el gráfico, no se aprecia ni tendencia ni una diferencia clara en el salario entre hombres y mujeres.
modelo<-glm(salario~Tipo+genero+Porcen.paro+anyo,data=datos_u)
summary(modelo)
##
## Call:
## glm(formula = salario ~ Tipo + genero + Porcen.paro + anyo, data = datos_u)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -950.01 -367.56 -13.15 313.58 1576.43
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 8007.2475 7846.2608 1.021 0.310130
## TipoSecundaria 564.1952 155.4836 3.629 0.000465 ***
## TipoFP/grado sup 1099.2203 173.5699 6.333 8.44e-09 ***
## TipoMaster/Doctorado 1174.7969 263.2202 4.463 2.26e-05 ***
## generoMujeres 374.0880 110.5871 3.383 0.001052 **
## Porcen.paro 0.6378 12.4407 0.051 0.959223
## anyo -3.5314 3.9238 -0.900 0.370446
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for gaussian family taken to be 305737.6)
##
## Null deviance: 46411639 on 99 degrees of freedom
## Residual deviance: 28433593 on 93 degrees of freedom
## AIC: 1555.6
##
## Number of Fisher Scoring iterations: 2
Observamos que hay diferencia entre las titulaciones por que sale significativa la variable Tipo.
Comparado con “Primaria”" a igual del resto de las variables, se puede observar que siendo “Secunadaria” el nivel de estudios alcanzados son 564 euros más los que aumenta el salario, en FP/grado superior 1099 euros y en Master/Doctorado 1174 euros.
El modelo nos dice además que las mujeres cobran 374 euros mas que los hombres a igualdad de variables siendo significativo.
PRIMARIA
modelo<-glm(salario~genero+Porcen.paro+anyo,data=datos_u[datos_u$Tipo=="Primaria",])
summary(modelo)
##
## Call:
## glm(formula = salario ~ genero + Porcen.paro + anyo, data = datos_u[datos_u$Tipo ==
## "Primaria", ])
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -191.22 -115.82 -49.19 79.71 287.83
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 10069.947 7190.005 1.401 0.183
## generoMujeres -895.740 72.737 -12.315 6.7e-09 ***
## Porcen.paro 1.242 9.431 0.132 0.897
## anyo -4.256 3.575 -1.191 0.254
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for gaussian family taken to be 23807.84)
##
## Null deviance: 3987239 on 17 degrees of freedom
## Residual deviance: 333310 on 14 degrees of freedom
## AIC: 237.96
##
## Number of Fisher Scoring iterations: 2
En función de los datos obtenidos, con un nivel de estudios de primaria se podría decir que una mujer gana de media 895 euros menos que un hombre.
SECUNDARIA
modelo<-glm(salario~genero+Porcen.paro+anyo,data=datos_u[datos_u$Tipo=="Secundaria",])
summary(modelo)
##
## Call:
## glm(formula = salario ~ genero + Porcen.paro + anyo, data = datos_u[datos_u$Tipo ==
## "Secundaria", ])
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -720.91 -209.99 -0.86 162.39 844.46
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -2023.7611 6995.2568 -0.289 0.774
## generoMujeres 190.1578 96.1713 1.977 0.054 .
## Porcen.paro -0.4563 9.7697 -0.047 0.963
## anyo 1.8473 3.5075 0.527 0.601
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for gaussian family taken to be 115611.4)
##
## Null deviance: 5802784 on 49 degrees of freedom
## Residual deviance: 5318125 on 46 degrees of freedom
## AIC: 730.62
##
## Number of Fisher Scoring iterations: 2
Sin embargo, en Secundaria no se puede afirmar que existan diferencias significativas entre hombres y mujeres.
FP/GRADO SUPERIOR
modelo<-glm(salario~genero+Porcen.paro+anyo,data=datos_u[datos_u$Tipo=="FP/grado sup",])
summary(modelo)
##
## Call:
## glm(formula = salario ~ genero + Porcen.paro + anyo, data = datos_u[datos_u$Tipo ==
## "FP/grado sup", ])
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -887.60 -368.07 -11.96 302.92 1007.04
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 19439.610 12724.711 1.528 0.141
## generoMujeres 1245.807 203.026 6.136 3.55e-06 ***
## Porcen.paro -1.413 26.715 -0.053 0.958
## anyo -8.909 6.358 -1.401 0.175
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for gaussian family taken to be 267926.2)
##
## Null deviance: 16508816 on 25 degrees of freedom
## Residual deviance: 5894377 on 22 degrees of freedom
## AIC: 404.4
##
## Number of Fisher Scoring iterations: 2
En el caso de ser FP/Grado superior el nivel de estudios alcanzado, según los resultados obtenidos ganan más las mujeres que los hombres.
De acuerdo a la información analizada, podemos concluir finalmente que en cuánto a Salario de las mujeres (objetivo principal del estudio) se observa una dependencia clara con respecto al porcentaje de paro, el tipo de estudio alcanzado y el salario de los hombres. Y después de haberse llevado a cabo la comparación de los salarios de hombres y mujeres, a diferenia de la realidad y la vivencia actual, lo obtenido es que no existe una diferencia significativa en los salarios medios por género.
Es importante implementar estas técnicas de investigación para poder concentrar fuerzas y recursos hacia objetivos claros y poder así incrementar la eficiencia de Análisis estadísticos para este tipo de estudios.
1- GOBIERNO DE ESPAÑA. MINISTERIO DE SANIDAD, SERVICIOS SOCIALES E IGUALDAD. BOLETIN IGUALDAD EMPRESA
BRECHA SALARIAL Y CIENTÍFICA DE GÉNERO XLIV Febrero 2018
2-MODELOS DE REGRESIÓN LINEAL PARA ESTIMACIÓN DE TIEMPOS DE VIAJE EN SISTEMAS DE TRANSPORTE MASIVO
3- MODELOS DE REGRESIÓN LINEAL MÚLTIPLE. Autores: Renatas Kizys, Ángel A. Juan.
4-Aplicación de modelo ARIMA para el análisis de series de volúmenes anuales en el río Magdalena.