¿Discriminación salarial por género – Existe?

El salario acumulado en nueve meses de 2008-09 para profesores asistentes, profesores asociados y profesores en una universidad en los EE. UU. Los datos se recogieron como parte del esfuerzo continuo de la administración de la universidad para monitorear las diferencias salariales entre los miembros masculinos y femeninos de la facultad.

La hoja de datos Salaries.csv contiene la información de 397 profesores con el registro de 6 variables.

    rank:               Factor ordinal con niveles AssocProf AsstProf Prof 

    discipline:         Factor con niveles A (“teórica”) o B (“aplicado”). 
    
    yrs.since.phd:      Años transcurrido desde la obtención del doctorado.
    
    yrs.service:        Años de servicio.
    
    sex:                Factor nominal con niveles Female (Femenino) o Male (Masculino) 
    
    salary:             Salario de nueve meses, en dólares.

Objetivo.

Contribuir a la Institución a responder las siguientes dos preguntas.
1. ¿Se evidencia una diferencia salarial entre hombres y mujeres?
2. ¿Las diferencias salariales son atribuibles exclusivamente al género de los profesores? o ¿existen otras características – factores de confusión, que pueden explicar la diferencia salarial? .

Entregable

Construir un informe sintético (no más de 6 paginas), en el cual, a través de una visualización contundente de los datos y el contraste adecuado de indicadores resumen, permita atender a los requerimientos de la Institución.

Sugerencia: Apoyarse en visualizaciones sintéticas y efectivas de los datos, organizándolas en tableros graficos. Organizando los indicadores resumen en tablas comparativas adecuadas (sin exceso de números decimales). No incluir en el informe las salidas crudas del software, ni las lineas de codigo empleadas.

Aproximación al problema

Grupo de Profesoras

## El número de profesoras es 39

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   62884   77250  103750  101002  117003  161101

Notas: Se utiliza la mediana como indicador de tendencia central, dado que los datos no tienen un comportamiento de distribución normal para usar el promedio de esta.

## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  salarios_m$Salario
## D = 0.14729, p-value = 0.03248

Nota: Como p-value < 5% entonces la distribución NO se puede considerar normal.

Grupo de Profesores

## El número de profesores es 358

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   57800   92000  108043  115090  134864  231545

Nota: Se utiliza la mediana como indicador de tendencia central, dado que los datos no tienen un comportamiento de distribución normal para usar el promedio de esta.

## 
##  Shapiro-Wilk normality test
## 
## data:  salarios_h$Salario
## W = 0.95877, p-value = 1.735e-08

Nota: Como p-value < 5% entonces la distribución NO se puede considerar normal.

Resultados Parciales

## la mediana de los salarios de las profesoras es de 103750
## la mediana de los salarios de las profesores es de 108043
## la diferencia de las medianas de los salarios de profesores vs profesoras es de 4293
## lo que equivale a un 4.14 % de la mediana del salario de las profesoras

Comparación medianas Salarios Profesoras vs Profesores

## 
##  Wilcoxon rank sum test with continuity correction
## 
## data:  salarios_m$Salario and salarios_h$Salario
## W = 5182.5, p-value = 0.008237
## alternative hypothesis: true location shift is not equal to 0

Notas: Como p-value < 5% entonces se considera que HAY una diferencia significativa entre las medianas de ambos grupos de salarios.

Se utiliza esta prueba porque no asume una distribución específica de los datos, por que es más robusta cuando los supuestos de normalidad o igualdad de varianzas no se cumplen.

Ajustando los datos a una distibución. Grupo Profesoras.

## 
## Maximum likelihood for the Inverse Gaussian model 
##  
## Call:  mlinvgauss(x = salarios_m$Salario) 
## 
## Estimates: 
##      mean      shape  
##  101002.4  1542171.6  
## 
## Data:            salarios_m$Salario (39 obs.)
## Support:         (0, Inf)
## Density:         actuar::dinvgauss
## Log-likelihood:  -449.714
## Ajustando los datos a una distribución Gaussiana Inversa, se determina que el valor promedio de los salarios de las profesoras es 101002

Al realizar un análisis de la distribución que mejor se ajustara a los datos usando los criterios AIC y BIC, se seleccionó la distribución Gaussiana Inversa.

A través del ajuste a esta distribución, se estimó el mismo valor promedio de los salarios de las profesoras obtenido en la primera aproximación.

Ajustando los datos a una distibución. Grupo Profesores.

## 
## Maximum likelihood for the Inverse Gaussian model 
##  
## Call:  mlinvgauss(x = salarios_h$Salario) 
## 
## Estimates: 
##      mean      shape  
##  115090.4  1684700.9  
## 
## Data:            salarios_h$Salario (358 obs.)
## Support:         (0, Inf)
## Density:         actuar::dinvgauss
## Log-likelihood:  -4181.57
## Ajustando los datos a una distribución Gaussiana Inversa, se determina que el valor promedio de los salarios de los profesores es 115090

Al realizar un análisis de la distribución que mejor se ajustara a los datos usando los criterios AIC y BIC, se seleccionó la distribución Gaussiana Inversa.

A través del ajuste a esta distribución, se estimó el mismo valor promedio de los salarios de las profesores obtenido en la primera aproximación.

Comparación de Salarios por Género

Conclusión Parcial

En una primera aproximación al problema se observan dos puntos principales:

  1. En el indicador de tendencia central utilizado (mediana) se observa una diferencia entre el salario de los profesores vs el de las profesoras y la prueba de comparación de medianas sugiere que esta diferencia es significativa. Igual resultado se obtiene al comparar los promedios de los salarios al ajustar las distribuciones de los datos.

  2. La forma asimétrica del histograma y del boxplot de los salarios de las profesoras, con agrupaciones de datos hacia la izquierda en el primero y hacia abajo en el segundo, señalan un número alto de profesoras que devengan salarios más bajos dentro de su grupo y también frente al grupo de profesores.

Estos puntos señalan que las profesoras devengan salarios más bajos; pero a este momento de la aproximación al problema NO se puede concluir que sea debido al género. Por esto se requiere profundizar segmentando en el análisis, lo que se realizará a continuación. (Con esto se da respuesta al primer interrogante).

Análisis

Tiempo de obtención del PhD vs Salarios

Los diagramas nos sugieren que cuanto más tiempo llevan los profesores(as) de haber obtenido un doctorado, mayores son los salarios que devengan, muy a pesar de encontrarse una correlación débil entre las variables, con ocasión de la dispersión de los datos.

Nota: Se obtienen valores similares en el coeficiente de correlación al utilizar el método de Spearman para modelos no paramétricos

Tiempo de Servicio vs Salarios

De manera análoga, los diagramas nos sugieren que cuanto más tiempo de servicio llevan los profesores(as), mayores son los salarios que devengan, muy a pesar de encontrarse una correlación débil entre las variables, debido a la dispersión de los datos.

Nota: Se obtienen valores similares en el coeficiente de correlación al utilizar el método de Spearman para modelos no paramétricos

Los modelos de regresión lineal pueden sugerir que las profesoras comienzan su vida laboral y de obtención de su PhD con menores salarios que los profesores (menores interceptos en eje y), pero que anualmente incrementan sus ingresos con mayor rapidez que los profesores (mayor pendiente).

Mediana Salarios por Disciplina y Categoría

En la segmentación realizada se evidencia mayores valores de salarios de los profesores vs las profesoras, para todas las categorías dentro de cada disciplina exceptuando las profesoras asociadas de las disciplinas aplicadas, que adicionalmente revelan muy pocos datos como grupo poblacional.

Salarios por Disciplina y Categoría

Se señalan mayores valores de salarios promedio de los profesores vs las profesoras para todas las categorías dentro de cada disciplina, así como mayores rangos intercuartiles desplazados hacia arriba en el caso de los profesores,

Conclusiones

Se evidencian mayores valores de salarios de los profesores frente a las profesoras tanto en los análisis grupales como en las segmentaciones realizadas.

Se encuentra una correlación moderada de los salarios recibidos por los profesoras frente a los años de haber recibido su PhD, así como frente a su tiempo de servicio, esta correlación es débil en el caso de los profesores.

Estos hechos desvirtúan la hipótesis que asegura que el desbalance salarial hallado se debe en exclusiva al género.