RESUMEN

En el análisis que hemos realizado, se ha hecho un análisis descriptivo con los datos propocrionados, se ha buscado el mejor ajuste de modelo que relacione el Salario de las mujeres con el resto de variables, además sin problemas de autocorrelación de los residuos y hemos elaborado unas predicciones modelizando los datos mediante las técnicas de series temporales.

La principal conclusión es que el modelo que relaciona el Sueldo medio de las mujeres con las variables: Porcentaje de paro, Salario de los hombres y Tipo de estudios o trabajo es el mejor.

INTRODUCCIÓN

SOBRE LOS DATOS

Los datos corresponden al Salario medio de hombres y mujeres en los últimos 50 años. Disponemos además de las Tasas de paro medias anuales, y así como el Tipo de estudios o trabajo: 0=sin calificar 1=estudios primarios 2=estudios secundaria 3=FP grado superior o grado universitario 4= Master oficial o Doctorado universitario

En cuánto al aspecto socio-económico, podemos encontrar muchas referencias pero la mayoría están encaminadas a la brecha de género en los salarios. Las causas de la brecha salarial de género son diferentes y pueden estar interrelacionadas, creando un conjunto de influencias, en ocasiones inconscientes, que obstaculizan las carreras profesionales de las mujeres, tanto en lo que se refiere a acceso al empleo y promoción, como a las remuneraciones y compensaciones desarrollando el mismo puesto o un trabajo de igual valor. Entre las muchas causas que pueden interferir, hay varias que destacan.

Persistencia de los tradicionales estereotipos de género. Este aspecto es quizás el más influyente en la discriminación salarial de la que se habla. Y es que, debido a los tradicionales roles y estereotipos de género, el entorno laboral se ha visto segregado y los derechos de las mujeres trabajadoras se han limitado, incurriendo en categorizaciones y desvalorizaciones directas e indirectas que afectan a su desarrollo profesional. A pesar de que cada vez somos más conscientes de estos estereotipos, todavía muchos conviven en nuestro entorno sociolaboral. Es por ello que, a partir de este factor principal, sustentado en la arraigada educación y valores sociales tradicionales.

La discriminación salarial directa es la causa más evidente y fácil de detectar, pues ocurre cuando las mujeres reciben menos salario que los hombres en el desempeño del mismo trabajo dentro de una organización. De esta forma, el sexo sería un criterio específico para establecer las diferencias retributivas, infravalorando las capacidades y el trabajo de las mujeres. Afortunadamente, en la actualidad este factor es uno de los menos comunes, aunque todavía sigue siendo la causa de muchas de las discriminaciones salariales de género que encontramos.

La brecha salarial en España está integrada por más elementos que una diferencia retributiva entre compañeros de trabajo de distinto sexo. Si sólo se tratase de esa diferencia, se podría catalogar como una discriminación salarial directa perseguida por ley, pero la realidad es más compleja y esa brecha está formada por un conjunto de factores que hacen que al final de año, el conjunto de las trabajadoras del país esté cobrando un 14,9% menos por hora bruta (según Eurostat) que los trabajadores. De fondo, lo que subsiste es desigualdad, falta de corresponsabilidad y machismo.

Según el último dato del INE, el conjunto de salarios recibidos por mujeres suma un 22,9% menos que el de los hombres, en términos brutos anuales.

OBJETIVOS DEL ESTUDIO

El objetivo principal del estudio es encontrar el mejor ajuste de modelo para predecir el Salario de las mujeres, teniendo en cuenta la búsqueda de un modelo bondadoso y válido, a la vez que sin problemas de autocorrelación de los residuos.Y el objetivo secundario comparar el Salario de las mujeres con el de los hombres e interpretar conclusiones, ya que puede ser una curiosidad.

MATERIAL Y MÉTODOS

INFORMACIÓN DISPONIBLE

Tipologia de las variables Variables cuantitativas: Toman valores numéricos. Pueden ser discretas o contínuas.

Variables discretas: Son las que toman un número finito o infinito numerable de observaciones. Variables contínuas: Son las que toman un número infinito no numerable.

Variables cualitativas o categóricas: Reflejan diferentes características o categorías de una cualidad. Pueden ser nominales u ordinales.

Variables nominales: son las que únicamente ponen nombre a una característica. Variables ordinales: son las que llevan asociadas un orden en las respuestas.

Respecto a las variables que conforman la base de datos de la que disponemos encontramos: Porcentaje de Paro, que es una variable cuantitativa contínua en la que se recoge las tasas de Paro medias anuales entre hombres y mujeres.

Salario de Hombres, que corresponde a una variable cuantitativa, además, contínua en la que se muestra el salario que perciben los hombres anualmente.

Salario de Mujeres, pertenece al tipo de variables cuantitativas contínuas y muestra el salario que reciben al año las mujeres.

Tipo de estudios/trabajo, es una variable cualitativa ordinal que se clasifica en: 0=sin calificar 1=estudios primarios 2=estudios secundaria 3=FP grado superior o grado universitario 4= Master oficial o Doctorado universitario

Año, que corresponde a una variable cuantitativa discreta en la que sus datos pertenecen a los últimos 50 años. Desde 1967 al 20016.

ANÁLISIS ESTADÍSTICO

Metodología utilizada: Modelos lineales de Regresión y ANCOVA El análisis de regresión se usa para explicar o modelar la relación entre una variable continua Y, llamada variable respuesta o variable dependiente, y una o más variables continuas X1,…..,Xp, llamadas variables explicativas o independientes. Cuando p = 1, se denomina regresión simple y cuando p > 1 se denomina regresión múltiple. Cuando hay más de una variable respuesta Y, entonces el análisis se denomina regresión m´ultiple multivariada. Cuando las Y son totalmente independientes entre sí, entonces hacer una regresión múltiple multivariada sería el equivalente a realizar tantas regresiones múltiples univariadas como Y’s haya. Si la(s) variable(s) explicativas son categóricas en vez de continuas entonces nos enfrentamos ante un caso típico de análisis de la varianza o ANOVA (ADEVA en español). Al igual que antes, si p = 1, el análisis se denomina ANOVA unifactorial, mientras que si p > 1 el análisis se denomina ANOVA multifactorial. Si en vez de una variable respuesta continua tenemos dos o más Y, entonces el análisis se denomina ANOVA multivariado (MANOVA) de uno o varios factores. Este tipo de análisis tambi´en queda fuera del ámbito de esta sesi´on. Por último, es posible que en el mismo análisis aparezcan tanto variables explicativas continuas como categóricas, y en este caso el análisis pasaría a denominarse análisis de la covarianza o ANCOVA. Aquí ya no haríamos distinción entre único o múltiple ya que este análisis se compone siempre de, al menos, dos variables explicativas (una continua y una categórica).

Series temporales Una serie temporal es una sucesi´on de observaciones de una variable tomadas en varios instantes de tiempo. -Nos interesa estudiar los cambios en esa variable con respeto al tiempo. -Predecir sus valores futuros.

Una serie temporal puede ser discreta o continua dependiendo de cómo sean las observaciones. Si se pueden predecir exactamente los valores, se dice que las series son determinísticas. Si el futuro sólo se puede determinar de modo parcial por las observaciones pasadas y no se pueden determinar exactamente, se considera que los futuros valores tienen una distribución de probabilidad que está condicionada a los valores pasados. Las series son así estocásticas.

PREPARACIÓN DE LOS DATOS

datos<-read.csv("archivo6.csv", header = T, sep = ",",dec = ".")
View(datos)
write.csv2(datos,"H:/ANALISIS_ESTADISTICO_DE_SERIES_ECONOMICAS/TAREA_5_INFORME/archivo6nuevo.csv")
#Eliminamos las filas que contienen salarios negativos
datos <- datos[-c(20,22,35),]
#sustituimos los valores 1,2,3 y 4 por Primaria, Secundaria, FP/grado sup y Master/Doctorado respectivamente
datos$Tipo<-factor(datos$Tipo, labels=c("Primaria", "Secundaria", "FP/grado sup", "Master/Doctorado"))
#Reagrupamos los datos en una hoja, separados por la variable Género que divide Hombres y Mujeres

hombres<-datos[,c("X","Porcen.paro","Salario.hombres","Tipo","anyo")]

names(hombres)<-c("X","Porcen.paro","salario","Tipo","anyo")

hombres$genero<-c("Hombres")

mujeres<-datos[c("X","Porcen.paro","Salario.Mujeres","Tipo","anyo")]
names(mujeres)<-c("X","Porcen.paro","salario","Tipo","anyo")
mujeres$genero<-c("Mujeres")

datos_u<-rbind(hombres,mujeres)

RESULTADOS

DESCRIPTIVO NUMÉRICO

Contraste de Normalidad

Este test se emplea para contrastar normalidad cuando el tamaño de la muestra es menor de 50. Se considera como hipótesis nula que los datos sí proceden de una distribución normal y como hipótesis alternativa que no lo hacen. El p-valor del test indica la probabilidad de obtener una distribución como la observada si los datos proceden realmente de una población con una distribución normal.

shapiro.test(datos_u$salario)
## 
##  Shapiro-Wilk normality test
## 
## data:  datos_u$salario
## W = 0.95946, p-value = 0.005282

Como el p-valor es de 0.005282, es decir, menor de 0.05, podemos concluir que los datos no siguen una distribución normal.

A continuación se muestra un breve análisis descriptivo numérico:

cat("Hombres","\n")
## Hombres
cat("Media=")
## Media=
mean(hombres$salario)
## [1] 1631.464
cat("Mediana=")
## Mediana=
median(hombres$salario)
## [1] 1661.522
cat("Q1 y Q3 =")
## Q1 y Q3 =
quantile(hombres$salario,c(0.25,0.75))
##      25%      75% 
## 1407.818 1878.290
cat("Desviacion=")
## Desviacion=
sd(hombres$salario)
## [1] 330.4119
cat("Mínimo= ")
## Mínimo=
min(hombres$salario)
## [1] 947.3497
cat("Máximo= ")
## Máximo=
max(hombres$salario)
## [1] 2390.576
cat("\n")
cat("Mujeres","\n")
## Mujeres
cat("Media= ")
## Media=
mean(mujeres$salario)
## [1] 1612.684
cat("Mediana=")
## Mediana=
median(mujeres$salario)
## [1] 1603.318
cat("Q1 y Q3 =")
## Q1 y Q3 =
quantile(mujeres$salario,c(0.25,0.75))
##      25%      75% 
## 1077.655 1985.408
cat("Desviacion=")
## Desviacion=
sd(mujeres$salario)
## [1] 665.5001
cat("Mínimo= ")
## Mínimo=
min(mujeres$salario)
## [1] 504.6557
cat("Máximo= ")
## Máximo=
max(mujeres$salario)
## [1] 3702.205

Contraste de igualdad de distribuciones

La prueba de los rangos con signo de Wilcoxon es una prueba no paramétrica para comparar el rango medio de dos muestras relacionadas y determinar si existen diferencias entre ellas. La prueba de suma de rangos de Wilcoxon se puede usar para probar la hipótesis nula de que dos poblaciones tienen la misma distribución contínua.

wilcox.test(salario~genero,data=datos_u)
## 
##  Wilcoxon rank sum test
## 
## data:  salario by genero
## W = 1192, p-value = 0.5124
## alternative hypothesis: true location shift is not equal to 0

Como el p.valor es de 0.5124 no podemos afirmar que las distribuciones sean distintas.

Diagrama De Pares Generalizados

library(ggplot2)
## Warning: package 'ggplot2' was built under R version 3.3.3
library(GGally)
ggpairs(datos[, c(2,3,5)], color = datos$Tipo)
## Warning in warn_if_args_exist(list(...)): Extra arguments: "color" are
## being ignored. If these are meant to be aesthetics, submit them using the
## 'mapping' variable within ggpairs with ggplot2::aes or ggplot2::aes_string.

Los subgráficos que forman la diagonal del gráfico se refieren al polígono de frecuencias(dispersión). Se utiliza para ver si se parece a alguna distribución en concreto. La parte superior consta de las correlaciones entre las variables contínuas. Y en la parte inferior del gráfico se observan nubes de puntos también con dichas variables.

De este gráfico destaca el patrón del subgráfico entre Salario Hombres y Salario Mujeres. Por ello, vamos a analizarlo más detenidamente.

Diagramas de dispersión

En primer lugar, se muestra un gráfico de dispersión con las tres variables contínuas que forman la base de datos.

library(ggplot2)
w <- subset(datos)
w$pred.SC <- predict(lm(datos$Salario.Mujeres ~ datos$Salario.hombres),data=datos)
p1 <- ggplot(w, aes(x = Salario.hombres, y = Salario.Mujeres))
p1 + geom_point(aes(color = Porcen.paro)) + geom_line(aes(y = pred.SC)) 

Se observa que se podrían formar 4 líneas, es decir, 4grupos, que sospechamos que corresponden con el Tipo de estudio.

Para corroborar que corresponde con lo expuesto anteriormente, hacemos el siguiente gráfico:

w <- subset(datos)
w$pred.SC <- predict(lm(datos$Salario.Mujeres ~ datos$Salario.hombres),data=datos)
p1 <- ggplot(w, aes(x = Salario.hombres, y = Salario.Mujeres))
p1 + geom_point(aes(color = Tipo)) + geom_line(aes(y = pred.SC))

Y de esta manera, se ven reflejados los 4 grupos distinguidos por colores que corresponden a los Tipo de estudios.

Boxplot(Gráfico de Cajas)

Género

Si observamos el gráfico que se muestra a continuación, vemos que el salario que reciben los Hombres y las Mujeres es muy equitativo entre ambos. No se aprecia una diferencia significativa.

boxplot(salario~genero,data=datos_u,col="pink",main="Salario medio por Género")

Tipo de estudios

En este gráfico se presentan los diferentes Tipos de estudios dependiendo del salario obtenido.

boxplot(salario~Tipo,data=datos_u,col="pink",main="Salario Medio por Tipo de estudios")

Se aprecia que a medida que los Hombres y Mujeres tienen un mayor nivel de estudios/trabajo, el salario medio va aumentando considerablemente. Por tanto, el salario medio más bajo lo obtienen los que poseen unos estudios de Primaria y los que obtienen un salario medio más alto son los que tienen unos estudios de Máster o Doctorado.

Correlaciones entre variables independientes

Seguidamente, obtenemos un gráfico sobre las correlaciones entre las variables independientes, para poder detectar de una forma gráfica las posibles variables que estén “linealmente” relacionadas.Si el cambio en una variable está acompañado de un cambio en la otra, entonces se dice que las variables están correlacionadas.

library(corrplot)
## Warning: package 'corrplot' was built under R version 3.3.3
## corrplot 0.84 loaded
M<-cor(datos[,c("Salario.hombres","Salario.Mujeres","Porcen.paro")])
corrplot(M, method = "square")

Se observa que el Salario de los Hombres y el Salario de las Mujeres sí tienen relación y además positiva. Eso significa que éstas dos variables están relacionadas,y por tanto una influiría sobre la otra y viceversa. Respecto a las variables del Salario de los Hombres y el Porcentaje de Paro, podemos decir que no tienen relación ninguna, ya que su correlación es de -0.2 y dicho valor es muy próximo a 0. Al igual que el Salario de las Mujeres y el Porcentaje de Paro, al tener una correlación de 0.2, podríamos concluir que no existe relación entre estas variables.

MODELO DE REGRESIÓN

Mejor Modelo para el salario de las Mujeres:

Aplicamos un modelo lineal con variable dependiente Salario de las Mujeres y como independientes el Tipo de estudios/trabajo, el Porcentaje de Paro, el Año y el Salario de los Hombres.

La variable Año la introducimos porque parece que hay una tendencia temporal.

library(ggplot2)
ggplot(datos,aes(x=anyo,y=Salario.Mujeres))+geom_line(col="blue")+geom_hline(yintercept=mean(datos$Salario.Mujeres))

Si visualizamos el gráfico, no se aprecia estacionalidad, ya que no se repite un patrón sistemático periódicamente. Podríamos decir que la serie no es estacionaria, que no capta tendencia ni estacionalidad.

Modelo

modelo_completo<-glm(Salario.Mujeres~Porcen.paro*Tipo+anyo+Salario.hombres*Tipo,data=datos)
summary(modelo_completo)
## 
## Call:
## glm(formula = Salario.Mujeres ~ Porcen.paro * Tipo + anyo + Salario.hombres * 
##     Tipo, data = datos)
## 
## Deviance Residuals: 
##      Min        1Q    Median        3Q       Max  
## -19.7483   -6.9522   -0.4759    7.7198   21.9429  
## 
## Coefficients: (1 not defined because of singularities)
##                                        Estimate Std. Error t value
## (Intercept)                           117.85998  284.44284   0.414
## Porcen.paro                            -2.05426    0.98661  -2.082
## TipoSecundaria                         -3.80636   32.59684  -0.117
## TipoFP/grado sup                       24.87138   36.45215   0.682
## TipoMaster/Doctorado                 5454.54183   80.75053  67.548
## anyo                                   -0.06919    0.14586  -0.474
## Salario.hombres                         0.49743    0.01538  32.341
## Porcen.paro:TipoSecundaria             -0.48214    1.11978  -0.431
## Porcen.paro:TipoFP/grado sup           -1.52025    1.31545  -1.156
## Porcen.paro:TipoMaster/Doctorado     -121.53238    3.36881 -36.076
## TipoSecundaria:Salario.hombres          0.51257    0.01714  29.907
## TipoFP/grado sup:Salario.hombres        1.01027    0.01982  50.980
## TipoMaster/Doctorado:Salario.hombres         NA         NA      NA
##                                      Pr(>|t|)    
## (Intercept)                            0.6811    
## Porcen.paro                            0.0447 *  
## TipoSecundaria                         0.9077    
## TipoFP/grado sup                       0.4995    
## TipoMaster/Doctorado                   <2e-16 ***
## anyo                                   0.6382    
## Salario.hombres                        <2e-16 ***
## Porcen.paro:TipoSecundaria             0.6694    
## Porcen.paro:TipoFP/grado sup           0.2556    
## Porcen.paro:TipoMaster/Doctorado       <2e-16 ***
## TipoSecundaria:Salario.hombres         <2e-16 ***
## TipoFP/grado sup:Salario.hombres       <2e-16 ***
## TipoMaster/Doctorado:Salario.hombres       NA    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for gaussian family taken to be 129.561)
## 
##     Null deviance: 20372956.8  on 46  degrees of freedom
## Residual deviance:     4534.6  on 35  degrees of freedom
## AIC: 374.14
## 
## Number of Fisher Scoring iterations: 2
library(MASS)
## Warning: package 'MASS' was built under R version 3.3.3
stepAIC(modelo_completo)
## Start:  AIC=374.14
## Salario.Mujeres ~ Porcen.paro * Tipo + anyo + Salario.hombres * 
##     Tipo
## 
##                        Df Deviance    AIC
## - Porcen.paro:Tipo      2     4732 372.14
## - anyo                  1     4564 372.44
## <none>                        4535 374.14
## - Tipo:Salario.hombres  2   353403 574.87
## 
## Step:  AIC=372.14
## Salario.Mujeres ~ Porcen.paro + Tipo + anyo + Salario.hombres + 
##     Tipo:Salario.hombres
## 
##                        Df Deviance    AIC
## - anyo                  1     4740 370.22
## <none>                        4732 372.14
## - Porcen.paro           1    10359 406.97
## - Tipo:Salario.hombres  3   463654 581.63
## 
## Step:  AIC=370.22
## Salario.Mujeres ~ Porcen.paro + Tipo + Salario.hombres + Tipo:Salario.hombres
## 
##                        Df Deviance    AIC
## <none>                        4740 370.22
## - Porcen.paro           1    10373 405.03
## - Tipo:Salario.hombres  3   548033 587.49
## 
## Call:  glm(formula = Salario.Mujeres ~ Porcen.paro + Tipo + Salario.hombres + 
##     Tipo:Salario.hombres, data = datos)
## 
## Coefficients:
##                          (Intercept)  
##                             -10.3012  
##                          Porcen.paro  
##                              -2.6964  
##                       TipoSecundaria  
##                              -9.3262  
##                     TipoFP/grado sup  
##                               0.3384  
##                 TipoMaster/Doctorado  
##                             -89.2526  
##                      Salario.hombres  
##                               0.4998  
##       TipoSecundaria:Salario.hombres  
##                               0.5098  
##     TipoFP/grado sup:Salario.hombres  
##                               1.0048  
## TipoMaster/Doctorado:Salario.hombres  
##                               1.5584  
## 
## Degrees of Freedom: 46 Total (i.e. Null);  38 Residual
## Null Deviance:       20370000 
## Residual Deviance: 4740  AIC: 370.2
modelo_definitivo<-glm(Salario.Mujeres ~ Porcen.paro + Tipo + Salario.hombres + Tipo:Salario.hombres, data = datos)
summary(modelo_definitivo)
## 
## Call:
## glm(formula = Salario.Mujeres ~ Porcen.paro + Tipo + Salario.hombres + 
##     Tipo:Salario.hombres, data = datos)
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -18.628   -6.864    0.000    7.847   23.194  
## 
## Coefficients:
##                                       Estimate Std. Error t value Pr(>|t|)
## (Intercept)                          -10.30122   24.00714  -0.429    0.670
## Porcen.paro                           -2.69639    0.40123  -6.720 5.89e-08
## TipoSecundaria                        -9.32620   27.16422  -0.343    0.733
## TipoFP/grado sup                       0.33841   29.00214   0.012    0.991
## TipoMaster/Doctorado                 -89.25257   60.60306  -1.473    0.149
## Salario.hombres                        0.49975    0.01363  36.654  < 2e-16
## TipoSecundaria:Salario.hombres         0.50976    0.01567  32.526  < 2e-16
## TipoFP/grado sup:Salario.hombres       1.00484    0.01736  57.874  < 2e-16
## TipoMaster/Doctorado:Salario.hombres   1.55836    0.03611  43.155  < 2e-16
##                                         
## (Intercept)                             
## Porcen.paro                          ***
## TipoSecundaria                          
## TipoFP/grado sup                        
## TipoMaster/Doctorado                    
## Salario.hombres                      ***
## TipoSecundaria:Salario.hombres       ***
## TipoFP/grado sup:Salario.hombres     ***
## TipoMaster/Doctorado:Salario.hombres ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for gaussian family taken to be 124.731)
## 
##     Null deviance: 20372956.8  on 46  degrees of freedom
## Residual deviance:     4739.8  on 38  degrees of freedom
## AIC: 370.22
## 
## Number of Fisher Scoring iterations: 2

BONDAD DE AJUSTE DEL MODELO

R2gauss <- function(Salario.Mujeres, modelo_definitivo) {
moy <- mean(Salario.Mujeres)
N <- length(Salario.Mujeres)
p <- length(modelo_definitivo$coefficients) - 1
SSres <- sum((Salario.Mujeres - predict(modelo_definitivo))^2)
SStot <- sum((Salario.Mujeres - moy)^2)
R2 <- 1 - (SSres/SStot)
Rajust <- 1 - (((1 - R2) * (N - 1))/(N - p - 1))
return(data.frame(R2, Rajust, SSres, SStot))
}
library(BCA)
## Warning: package 'BCA' was built under R version 3.3.3
R2gauss(datos$Salario.Mujeres, modelo_definitivo)
##          R2    Rajust    SSres    SStot
## 1 0.9997673 0.9997184 4739.779 20372957

Al obtener un R2 o Coeficiente de Determinación muy cerano a 1 podemos decir que el ajuste del modelo es muy bueno. La proporción de varianza total explicada por variable Salario.Mujeres es casi del 100%.

VALIDACIÓN DEL MODELO

COMPORTAMIENTO DE LOS RESIDUOS

layout(matrix(c(1, 2, 3, 4), 2, 2))
plot(modelo_definitivo)
## Warning: not plotting observations with leverage one:
##   10, 47

## Warning: not plotting observations with leverage one:
##   10, 47

Gráfico arriba-izquierda: gráfico sobre homocedasticidad de los residuos, debe ser una nube de puntos sin patrón alguno.

Gráfico abajo-izquierda: gráfico sobre la normalidad de los residuos, los residuos deben de estar sobre la diagonal y sin dibujar forma alguna.

Gráfico arriba-derecha: gráfico sobre la independencia de los residuos (los residuos se distribuyen por igual a lo largo de los rangos de los predictores), no debe tener patrón alguno (la línea roja debería ser recta).

Gráfico abajo-derecha : observaciones influyentes y atípicas, no debe de haber puntos muy alejados del resto.

De los gráficos se extraen las siguientes conclusiones: En el primero parece que no existe Homocedasticidad, ya que la nube de puntos no sigue ningún patrón. Respecto al segundo gráfico, podemos decir que los residuos parece que están sobre la diagonal exceptuando algún punto y no dibujan ninguna forma. Por lo que parece que haya Normalidad de los residuos. En el tercer gráfico, parece que no hay un claro indicio de que los residuos están correlacionados(son independientes). Por último, en el cuarto, parece que no hay puntos alejados del resto.

Mediante estos test podemos corroborar de forma numérica los resultados obtenidos en los gráficos para tener mayor seguridad:

Heterocedasticidad de los Residuos

El test de Breusch-Pagan se utiliza para determinar la heterocedasticidad en un modelo de regresión lineal. Analiza si la varianza estimada de los residuos de una regresión dependen de los valores de las variables independientes. H0(hipótesis nula): los datos son homocedásticos. H1(hipótesis alternativa): los datos son heterocedásticos.

library(lmtest)
## Loading required package: zoo
## 
## Attaching package: 'zoo'
## The following objects are masked from 'package:base':
## 
##     as.Date, as.Date.numeric
library(zoo)
bptest(modelo_definitivo)
## 
##  studentized Breusch-Pagan test
## 
## data:  modelo_definitivo
## BP = 6.2151, df = 8, p-value = 0.6232

Este test nos proporciona un p-valor de 0.6232, es decir, mayor que 0.05, por tanto podemos afirmar que los residuos son homocedásticos.

Normalidad de los Residuos

shapiro.test(modelo_definitivo$residuals)
## 
##  Shapiro-Wilk normality test
## 
## data:  modelo_definitivo$residuals
## W = 0.97629, p-value = 0.4488

Obtenemos como resultado un p-valor de 0.4488, por tanto, es mayor que 0.05 por lo que no podemos rechazar la normalidad de los residuos.

Media de los Residuos

H0: media de los residuos es igual a 0 H1: media de los residuos es distinta a 0

residuos <- modelo_definitivo$residuals
t.test(residuos)
## 
##  One Sample t-test
## 
## data:  residuos
## t = -4.7458e-13, df = 46, p-value = 1
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  -2.980386  2.980386
## sample estimates:
##     mean of x 
## -7.026813e-13

Como el p-valor es 1 > 0.05, el modelo es correcto, se cumple la Hipótesis de Linealidad. (Si los residuos no tienen media 0, es que no son lineales.)

Valores atípicos(Outliers)

El Test de Bonferroni es un test de comparaciones múltiples.

library(car)
## Warning: package 'car' was built under R version 3.3.3
## Loading required package: carData
## Warning: package 'carData' was built under R version 3.3.3
a<-outlierTest(modelo_definitivo)
a$bonf.p<-0.99
a
## No Studentized residuals with Bonferonni p < 0.05
## Largest |rstudent|:
##   rstudent unadjusted p-value Bonferonni p
## 5 2.253852           0.024205         0.99

Si Bonferroni p es menor que 0.05 me dice que la observación es atípica y deberíamos eliminarla del modelo. Como en este caso, es mayor que 0.05 no elimino la observación 5.

Valores Influyentes

avPlots(modelo_definitivo)

cutoff <- 4/((nrow(datos) - length(modelo_definitivo$coefficients) - 2))
plot(modelo_definitivo, which = 4, cook.levels = cutoff)

Si la Distancia de Cook de alguna observación es mayor que 1, esa observación es influyente. En este caso, no hay ninguna.

Autocorrelación

Use el estadístico de Durbin-Watson para evaluar la presencia de autocorrelación. La autocorrelación significa que los errores de las observaciones adyacentes están correlacionados. Las hipótesis para la prueba de Durbin Watson son: H0 = no existe autocorrelación H1= existe correlación

library(lmtest)
durbinWatsonTest(modelo_definitivo)
##  lag Autocorrelation D-W Statistic p-value
##    1      -0.2105523      2.397822   0.226
##  Alternative hypothesis: rho != 0

Como el p-valor es mayor que 0.05, no rechazamos la hipótesis nula, así que los errores de las observaciones adyacentes son independientes, no están correlacionados.

PREDICCIONES

Mis variables en el modelo son: - Porcen.paro, Salario.hombres, Tipo

Debo de introducir valores reales en la predicción, para ellos mirare los rangos deestas variables y así poder predecir en consonancia con lso datos que he modelizado, de lo contrario la predicción no será fiable.

Rangos y “levels”

cat("Porcentaje Paro","\n")
## Porcentaje Paro
cat("Mínimo= ")
## Mínimo=
min(datos$Porcen.paro)
## [1] 6.505072
cat("Máximo= ")
## Máximo=
max(datos$Porcen.paro)
## [1] 29.16054
cat("Media=")
## Media=
mean(datos$Porcen.paro)
## [1] 20.12515
cat("Salario Hombres","\n")
## Salario Hombres
cat("Mínimo= ")
## Mínimo=
min(datos$Salario.hombres)
## [1] 947.3497
cat("Máximo= ")
## Máximo=
max(datos$Salario.hombres)
## [1] 2390.576
cat("Media=")
## Media=
mean(datos$Salario.hombres)
## [1] 1631.464
datos.nuevos<-data.frame(Porcen.paro=20, Salario.hombres=1630, Tipo="Primaria")

predict(modelo_definitivo, datos.nuevos,type="response" ,se.fit=TRUE)
## $fit
##        1 
## 750.3707 
## 
## $se.fit
## [1] 3.866154
## 
## $residual.scale
## [1] 11.1683
datos.nuevos<-data.frame(Porcen.paro=20, Salario.hombres=1630, Tipo="Secundaria")

predict(modelo_definitivo, datos.nuevos,type="response" ,se.fit=TRUE)
## $fit
##        1 
## 1571.947 
## 
## $se.fit
## [1] 2.262409
## 
## $residual.scale
## [1] 11.1683
datos.nuevos<-data.frame(Porcen.paro=20, Salario.hombres=1630, Tipo="FP/grado sup")

predict(modelo_definitivo, datos.nuevos,type="response" ,se.fit=TRUE)
## $fit
##        1 
## 2388.594 
## 
## $se.fit
## [1] 3.986234
## 
## $residual.scale
## [1] 11.1683
datos.nuevos<-data.frame(Porcen.paro=20, Salario.hombres=1630, Tipo="Master/Doctorado")

predict(modelo_definitivo, datos.nuevos,type="response" ,se.fit=TRUE)
## $fit
##        1 
## 3201.244 
## 
## $se.fit
## [1] 8.123065
## 
## $residual.scale
## [1] 11.1683

fit es el valor predicho. se.fit es el error estándar de los medios previstos. residual.scale es la desviación estándar residual.

Por tanto, la primera predicción que obtenemos nos indica que el con un Porcentaje de Paro del 20%, con un Salario.hombres de 1630 euros y con unos estudios de Tipo primaria, una Mujer gana de media unos 750 euros. A su vez, la segunda, la tercera y la cuarta predicción significan que para un mismo nivel de Porcentaje de Paro(20%) y de Salario hombres(1630 euros), pero con un nivel de estudios diferente, de Secundaria, FP/grado superior y Master/Doctorado respectivamente el sueldo medio de una Mujer es de 1571 euro en la segunda predicción, 2388 euros en la tercera y 3201 euro en la cuarta.

GRÁFICOS DE TENDENCIA

En el siguiente gráfico se muestra la relación entre el Salario de las Mujeres y el Tipo de estudios que poseen en los últimos 50 años.

library(ggplot2)
ggplot(datos,aes(x=anyo,y=Salario.Mujeres,colour=Tipo))+geom_line()

Por lo que respecta al gráfico anterior, podemos decir que las mujeres que poseen unos estudios de Primaria, su sueldo medio ha ido creciendo desde 1974 hasta 2007 cuyo ingreso era de 500 euros y creció hasta los 900 euros. Parece que tiene una tendencia creciente. Las mujeres que tienen estudios de Secundaria, desde hace 50 años atrás hasta ahora se puede decir que el umbral del sueldo medio que perciben es de entre 1000 y 2000 euros. En cuanto a las mujeres que poseen unos estudios de FP o grado superior, vemos que desde 1980 hasta el 1994 una mujer con dichos estudios ganaba de media unos 3000 euros, pero a partir de este momento, fue descreciento considerablemente hasta el 2002 donde encontramos el mínimo sueldo obtenido por estas mujeres(1300 euros).Y seguidamente, ha ido aumentando hasta llegar a su sueldo actual que rondara los 2400 euros. Y por último, el salario medio de una mujer con estudios de Máster o Doctorado podríamos decir que ha ido decreciendo desde 1976 hasta el 2016. Actualmente están cobrando un sueldo medio de 2600 euros.

SERIES TEMPORALES

Diversos tipos de ajuste

-Se pueden utilizar los Mínimos cuadrados ordinarios (OLS), si se cumplen todas las hipótesis de usuabilidad, es decir, que los residuos tengan media cero, normalidad y homocedasticidad. -Cuando exite heterocedasticidad en los residuos, utilizaremos los Generalized Least Squares. -Si la serie presenta “perturbaciones” se recomienda el uso de los Estimated generalized Least Squares.

REGRESIÓN CON RESIDUOS AUTOCORRLADOS EN R

Deseamos realizar un modelo que ajuste Salario.Mujeres con Porcen.paro, Tipo, Salario.hombres y Tipo:Salario.hombres.

library(car)
datos$anyo2<-as.Date(as.character(datos$anyo), "%Y")
p<-ggplot(datos, aes(x=anyo2, y=Salario.Mujeres)) +
geom_line(col="blue") +
geom_point(col="blue", pch=1) +
xlab("Años")
p

Como hemos dicho anteriormente, parece que la serie no es estacionaria, que no capta tendencia ni estacionalidad. Pero vamos a comprobar si no es estacionaria de la siguiente manera:

p <- ggplot(datos, aes(x = anyo2, y = Salario.Mujeres)) + geom_line(col = "blue") +
geom_point(col = "blue", pch = 1) + xlab("Years") + geom_smooth(method = lm,
se = FALSE, col = "red")
p <- p + scale_x_date(date_breaks = "5 year", date_labels = "%Y")
p + theme(axis.text.x = element_text(angle = 60, hjust = 1))

No parece adecuado realizar solo un modelo lineal(modelo de ajuste), debido a que se aprecia una leve tendencia.

MÍNIMOS CUADRADOS ORDINARIOS(OLS)

Se pueden utilizar los Mínimos cuadrados ordinarios (OLS), si se cumplen todas las hipótesis de usuabilidad, es decir, que los residuos tengan media cero, normalidad y homocedasticidad, como es en este caso:

fit1<-lm(modelo_definitivo, data = datos)
summary(fit1)
## 
## Call:
## lm(formula = modelo_definitivo, data = datos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -18.628  -6.864   0.000   7.847  23.194 
## 
## Coefficients:
##                                       Estimate Std. Error t value Pr(>|t|)
## (Intercept)                          -10.30122   24.00714  -0.429    0.670
## Porcen.paro                           -2.69639    0.40123  -6.720 5.89e-08
## TipoSecundaria                        -9.32620   27.16422  -0.343    0.733
## TipoFP/grado sup                       0.33841   29.00214   0.012    0.991
## TipoMaster/Doctorado                 -89.25257   60.60306  -1.473    0.149
## Salario.hombres                        0.49975    0.01363  36.654  < 2e-16
## TipoSecundaria:Salario.hombres         0.50976    0.01567  32.526  < 2e-16
## TipoFP/grado sup:Salario.hombres       1.00484    0.01736  57.874  < 2e-16
## TipoMaster/Doctorado:Salario.hombres   1.55836    0.03611  43.155  < 2e-16
##                                         
## (Intercept)                             
## Porcen.paro                          ***
## TipoSecundaria                          
## TipoFP/grado sup                        
## TipoMaster/Doctorado                    
## Salario.hombres                      ***
## TipoSecundaria:Salario.hombres       ***
## TipoFP/grado sup:Salario.hombres     ***
## TipoMaster/Doctorado:Salario.hombres ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 11.17 on 38 degrees of freedom
## Multiple R-squared:  0.9998, Adjusted R-squared:  0.9997 
## F-statistic: 2.041e+04 on 8 and 38 DF,  p-value: < 2.2e-16

Residuos por año

ggplot(datos, aes(x = anyo2, y = fit1$residuals)) + geom_line(col = "blue") +
geom_point(col = "blue", pch = 1) + xlab("Años") + geom_hline(yintercept = 0)

Los residuos no presentan un patrón claro de autocorrelación.

¿Los residuos están correlados?

library(tseries)
## Warning: package 'tseries' was built under R version 3.3.3
acf(residuals(fit1))

acf(residuals(fit1), type = "partial")

Solución: En el ACF y PACF no se observa que ningún retardo(línea) se sobresalga. El correlograma no tiene relación. Parece un ruido blanco y la única forma de predecir es con el error.

Test de Durbin Watson

durbinWatsonTest(fit1, max.lag = 5)
##  lag Autocorrelation D-W Statistic p-value
##    1    -0.210552328      2.397822   0.200
##    2    -0.135009033      2.170436   0.466
##    3    -0.038153456      1.943594   0.998
##    4     0.006641505      1.815677   0.814
##    5    -0.036856822      1.788097   0.834
##  Alternative hypothesis: rho[lag] != 0

Dado que no existe una clara autocorrelación no vamos a probar otros métodos de ajuste. Como los p-valores son > 0.05, no rechazamos la hipótesis nula, así que los residuos no están correlacionados, y por tanto, no es un problema.

MODELO DE REGRESIÓN Y ARIMA

Utilizando el comando xreg y ARIMA

library(forecast)
## Warning: package 'forecast' was built under R version 3.3.3
library(openxlsx)
## Warning: package 'openxlsx' was built under R version 3.3.3
library(TSdata)
## Warning: package 'TSdata' was built under R version 3.3.3
tsdata <- ts(datos$Salario.Mujeres, start=c(1967,1), frequency=1)
tsdata
## Time Series:
## Start = 1967 
## End = 2013 
## Frequency = 1 
##  [1] 1440.2135 1680.6641 1860.7158 1743.4521 1843.2177 1998.2112 1141.1875
##  [8]  504.6557  706.4489 3702.2053 1630.4230  862.9367  829.6171 2841.7385
## [15] 1860.0124  869.4820  881.1388  713.2597 1690.2699 1084.3628 1603.3180
## [22] 1373.0000 2135.3946 2330.7366  938.5465 3016.2544 1490.1732 1484.0686
## [29] 1070.9463  953.1659 1485.9732  801.6146 1375.3728 1987.7450 1556.5058
## [36] 2075.4865 1765.9587  887.3753 1736.4922 2064.7407 1781.3276 1356.1668
## [43] 1275.3308 1983.0716 2448.6775 2244.9331 2689.5540

Tratándose de una serie temporal, es necesario configurarla como tal, donde la serie tendrá inicio en el año 1967, año 1 y la frecuencia es 1 puesto que es anual.

modelo <- auto.arima(tsdata[])
summary(modelo)
## Series: tsdata[] 
## ARIMA(0,0,0) with non-zero mean 
## 
## Coefficients:
##           mean
##       1612.684
## s.e.    96.035
## 
## sigma^2 estimated as 442890:  log likelihood=-371.71
## AIC=747.42   AICc=747.69   BIC=751.12
## 
## Training set error measures:
##                         ME     RMSE      MAE       MPE     MAPE      MASE
## Training set -7.062955e-13 658.3822 511.4703 -19.64712 40.35008 0.7928928
##                    ACF1
## Training set 0.06122315

La función auto.arima devuelve el posible mejor modelo de entre todos los modelos y realiza transformaciones de la variable de ser el caso que no sea estacionaria.

Por otra parte, también devuelve los conocidos como criterios de predictibilidad, los cuales son utilizados para evaluar la capacidad predictiva de los modelos incluyendo los criterios de información AIC, AICC, BIC.

En este caso el modelo sugerido es ARIMA(0,0,0). Esto ha ocurrido porque los residuos del modelo no están autocorrelados.

modeloarima <- Arima(tsdata, order=c(0,0,0))
summary(modeloarima)
## Series: tsdata 
## ARIMA(0,0,0) with non-zero mean 
## 
## Coefficients:
##           mean
##       1612.684
## s.e.    96.035
## 
## sigma^2 estimated as 442890:  log likelihood=-371.71
## AIC=747.42   AICc=747.69   BIC=751.12
## 
## Training set error measures:
##                         ME     RMSE      MAE       MPE     MAPE      MASE
## Training set -7.062955e-13 658.3822 511.4703 -19.64712 40.35008 0.7928928
##                    ACF1
## Training set 0.06122315

Vamos a comprobar si los residuos del modelo estimado siguen un proceso de ruido blanco.

Acf(residuals(modeloarima))

Así es, los residuos siguen un ruido blanco.

Box.test(residuals(modeloarima), lag=24, fitdf=4, type="Ljung")
## 
##  Box-Ljung test
## 
## data:  residuals(modeloarima)
## X-squared = 21.06, df = 20, p-value = 0.3936

Como todos se encuentran dentro de los limites y el p-valor es mayor que 0.05, los residuos se comportan como ruido blanco.

Predicción

El pronóstico de la variable del estudio, que en este caso es Salario.Mujeres, es el que se muestra a continuación:

pronostico<- forecast(modelo,5,level=95)

plot(pronostico, main="Pronóstico con auto.arima",
ylab="Salario Mujeres")

Lo que hace la función forecast es llamar al objeto con el nombre modelo, y el número de proyecciones fuera de la muestra.

Finalmente, obtenemos estas predicciones en una matriz.

matriz.pronosticos <-data.frame(pronostico$mean,pronostico$lower,pronostico$upper)
matriz.pronosticos
##   pronostico.mean     X95.  X95..1
## 1        1612.684 308.3277 2917.04
## 2        1612.684 308.3277 2917.04
## 3        1612.684 308.3277 2917.04
## 4        1612.684 308.3277 2917.04
## 5        1612.684 308.3277 2917.04

OTRAS CURIOSIDADES

Seguidamente, encontraréis un gráfico sobre el Salario medio anual de los Hombres y de las Mujeres.

library(ggplot2)
ggplot(datos_u,aes(x=anyo,y=salario,colour=genero))+geom_line()

Si analizamos dicha representación podemos decir que no se aprecia tendencia y tampoco una clara diferencia entre Hombres y Mujeres.

Modelo

Aplicamos un modelo lineal con variable dependiente Salario y como independientes las variables Tipo, Género, Porcentaje de Paro y Año. Introducimos la variable Año porque parece que hay una tendencia temporal.

modelo<-glm(salario~Tipo+genero+Porcen.paro+anyo,data=datos_u)
summary(modelo)
## 
## Call:
## glm(formula = salario ~ Tipo + genero + Porcen.paro + anyo, data = datos_u)
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -916.77  -351.37    -6.87   244.30  1230.79  
## 
## Coefficients:
##                       Estimate Std. Error t value Pr(>|t|)    
## (Intercept)          10318.786   7427.503   1.389 0.168297    
## TipoSecundaria         329.730    126.089   2.615 0.010514 *  
## TipoFP/grado sup       620.066    162.640   3.812 0.000256 ***
## TipoMaster/Doctorado  1210.576    262.760   4.607 1.39e-05 ***
## generoMujeres          -18.780     97.049  -0.194 0.847011    
## Porcen.paro             -8.552     10.994  -0.778 0.438745    
## anyo                    -4.456      3.747  -1.189 0.237576    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for gaussian family taken to be 221336.8)
## 
##     Null deviance: 25403158  on 93  degrees of freedom
## Residual deviance: 19256301  on 87  degrees of freedom
## AIC: 1432.4
## 
## Number of Fisher Scoring iterations: 2

Observamos que hay diferencia entre los Tipos de estudio porque la variable Tipo sale significativa.

Comparado con Primaria y con el resto de los Tipos de estudio, los Hombres y Mujeres que poseen estudios de Secundaria ganan 329 euros más, si poseen el grado superior o FP 620 más y en Máster o Doctorado 1210.

Además, el modelo nos dice que una Mujer cobra 18.78 euros menos que un Hombre con el mismo nivel de estudios, con el mismo Porcentaje de Paro y en el mismo año. Aunque ésta no sale significativa.

Comparación de salarios en los Tipos de estudios/trabajo

Primaria

modelo<-glm(salario~genero+Porcen.paro+anyo,data=datos_u[datos_u$Tipo=="Primaria",])
summary(modelo)
## 
## Call:
## glm(formula = salario ~ genero + Porcen.paro + anyo, data = datos_u[datos_u$Tipo == 
##     "Primaria", ])
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -462.61  -109.62     7.05   152.38   233.18  
## 
## Coefficients:
##                 Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   -16758.489   7780.251  -2.154   0.0468 *  
## generoMujeres   -940.626     83.025 -11.329 4.71e-09 ***
## Porcen.paro       11.586     10.873   1.066   0.3024    
## anyo               9.192      3.949   2.328   0.0334 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for gaussian family taken to be 34465.52)
## 
##     Null deviance: 5281619  on 19  degrees of freedom
## Residual deviance:  551448  on 16  degrees of freedom
## AIC: 271.25
## 
## Number of Fisher Scoring iterations: 2

Siendo Mujer y con un nivel de estudios de Primaria el sueldo medio es de 940 euros menos que los Hombres.

Secundaria

modelo<-glm(salario~genero+Porcen.paro+anyo,data=datos_u[datos_u$Tipo=="Secundaria",])
summary(modelo)
## 
## Call:
## glm(formula = salario ~ genero + Porcen.paro + anyo, data = datos_u[datos_u$Tipo == 
##     "Secundaria", ])
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -689.92  -187.14     4.39   154.31   904.66  
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)   
## (Intercept)   5185.752   6559.490   0.791   0.4333   
## generoMujeres  -55.358     91.608  -0.604   0.5486   
## Porcen.paro    -28.149      9.988  -2.818   0.0071 **
## anyo            -1.511      3.315  -0.456   0.6507   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for gaussian family taken to be 104899.2)
## 
##     Null deviance: 5790433  on 49  degrees of freedom
## Residual deviance: 4825364  on 46  degrees of freedom
## AIC: 725.76
## 
## Number of Fisher Scoring iterations: 2

En secundaria no podemos afirmar que existan diferencias significativas entre Hombres y Mujeres.

FP o Grado superior

modelo<-glm(salario~genero+Porcen.paro+anyo,data=datos_u[datos_u$Tipo=="FP/grado sup",])
summary(modelo)
## 
## Call:
## glm(formula = salario ~ genero + Porcen.paro + anyo, data = datos_u[datos_u$Tipo == 
##     "FP/grado sup", ])
## 
## Deviance Residuals: 
##    Min      1Q  Median      3Q     Max  
## -835.8  -218.7    -0.7   271.9   635.8  
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)   
## (Intercept)   39556.367  22263.391   1.777  0.09462 . 
## generoMujeres   678.286    176.974   3.833  0.00147 **
## Porcen.paro       2.937     24.596   0.119  0.90644   
## anyo            -19.027     10.948  -1.738  0.10142   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for gaussian family taken to be 156599.2)
## 
##     Null deviance: 5612510  on 19  degrees of freedom
## Residual deviance: 2505587  on 16  degrees of freedom
## AIC: 301.52
## 
## Number of Fisher Scoring iterations: 2

En el caso de FP/Grado superior ganan más las Mujeres que los Hombres. Una Mujer gana 678 euros más que un Hombre.

Máster o Doctorado

modelo<-glm(salario~genero+Porcen.paro+anyo,data=datos_u[datos_u$Tipo=="Master/Doctorado",])
summary(modelo)
## 
## Call:
## glm(formula = salario ~ genero + Porcen.paro + anyo, data = datos_u[datos_u$Tipo == 
##     "Master/Doctorado", ])
## 
## Deviance Residuals: 
##     10      50     101     501  
## -132.2   132.2   132.2  -132.2  
## 
## Coefficients: (1 not defined because of singularities)
##               Estimate Std. Error t value Pr(>|t|)
## (Intercept)    4601.50    1065.22   4.320    0.145
## generoMujeres  1562.35     264.39   5.909    0.107
## Porcen.paro    -120.22      42.48  -2.830    0.216
## anyo                NA         NA      NA       NA
## 
## (Dispersion parameter for gaussian family taken to be 69901.16)
## 
##     Null deviance: 3070722  on 3  degrees of freedom
## Residual deviance:   69901  on 1  degrees of freedom
## AIC: 58.426
## 
## Number of Fisher Scoring iterations: 2

Se observa que las Mujeres con estudios de Máster/Doctorado ganan 1562 euros más que los Hombres.

CONCLUSIONES

Podemos concluir que el mejor ajuste de modelo es el siguiente: Salario.Mujeres ~ Porcen.paro + Tipo + Salario.hombres + Tipo:Salario.hombres. El que relaciona el Sueldo medio de las mujeres con las variables: Porcentaje de paro, Salario de los hombres y Tipo de estudios o trabajo.

Y además,que la diferencia entre el Salario medio anual de una mujer o de un hombre en ciertas ocasiones sí es significativa, como puede ser según los estudios que posean, pero otras veces no lo es tanto y está más equitativo. Entre la media del Salario medio de ambos no se observan grandes diferencias, pero sí podemos afirmar que hay grandes distinciones según los factores que expliquen el Salario medio entre una mujer y un hombre.