El salario acumulado en nueve meses de 2008-09 para profesores asistentes, profesores asociados y profesores en una universidad en los EE. UU. Los datos se recogieron como parte del esfuerzo continuo de la administración de la universidad para monitorear las diferencias salariales entre los miembros masculinos y femeninos de la facultad.
La hoja de datos Salaries.csv contiene la información de 397 profesores con el registro de 6 variables.
| Variable | Descripción |
|---|---|
| rank | Factor ordinal con niveles AssocProf AsstProf Prof |
| discipline | Factor con niveles A (“teórico”) o B (“aplicado”) |
| yrs.since.phd | Años transcurrido desde la obtención del doctorado |
| yrs.service | Años de servicio |
| sex | Factor nominal con niveles Female (Femenino) o
Male (Masculino) |
| salary | Salario de nueve meses, en dólares |
En consistencia con el objetivo del estudio, se espera que usted construya un informe sintético, en el cual, a través de una visualización contundente de los datos y el contraste adecuado de indicadores resumen, contribuya a la institución a responder las siguientes dos preguntas de investigación.
¿Existe una diferencia salarial entre hombres y mujeres?
Si la diferencia existe: ¿son atribuibles exclusivamente al género de los profesores ó existen otras características que pueden explicar la diferencia salarial?
Como primer paso de este ejercicio se realizará un análisis exploratorio de los datos para arrojar las principales medidas de tendencia central de los salarios de los profesores, calculando la cantidad de registros por género.Por lo cual, se presenta a continuación una visualización del dataframe objeto del estudio:
Dataframe Salaries.csv
Una vez cargado el dataframe se arrojan algunas medidas de tendencia central y de dispersiòn para la variable cuantitativa salario y se cálcula la frecuencia de los registros por género:
## salary
## Min. : 57800
## 1st Qu.: 91000
## Median :107300
## Mean :113706
## 3rd Qu.:134185
## Max. :231545
## Desviación Coef.Var
## 30289.04 0.27
## [1] 397
## sexo
## Female Male
## 39 358
## sexo
## Female Male
## 9.82 90.18
Dado los datos anteriores, se tiene que de todo el set de datos, el 90.18% de los registros se categorizan por género masculino y el 9.82% restante por género femenino.
Bajo los porcentajes mencionados, como primer indicador se ve reflajado una desigualdad o disparidad fuerte de genero referente a la cantidad de hombres versus la mujeres que ejercen como profesores en sus diferentes rangos y disciplinas.
Conforme a esto, se realiza un análisis exploratorio de los datos contenidos en el dataset, para identificar ciertas variables en función del salario y también se crean otras variables como factores para segmentar los datos por el sexo, el rango y la disciplina. Los niveles de los factores corresponden a los requeridos por el ejercicio.
Otras variables se crean para calcular los promedios salariales por rango, disciplina y sexo.
El gráfico exploratorio inicial se basa en graficar los datos en un Histograma, Boxplot y un gráfico de dispersión de los salarios según el género (Femenino o Masculino):
Conforme a las representaciones gráficas anteriormente ilustradas se puede identificar lo siguiente:
Con todas estas observaciones se consolidad la hipótesis que daría respuesta a la primer pregunta planteada en el plan de análisis, conforme a que además de existe una desigualdad de género frente a la cantidad de hombres y mujeres que ejercen como profesores, también se presenta una diferencia muy marcada en terminos salariales. Sin embargo, es conveniente profundizar en el análisis de tal forma que se revise también, si existe una difrencia salarial desagregando esta variable en función de los Rangos y Disciplinas
Para esto, se construyen 2 boxplot con su respectivo gráfico de dispersión unidimensional de la siguiente manera:
Dado estos gráficos se evidencia lo siguiente:
Se procede a calcular el coeficiente de correlación de Pearson (r) por cada par de variables [Años desde haberse graduado del Doctorado y Años de servicio] y el coeficiente de cada variable respecto al salario, determinando así, cuáles de estas presentan una relación directa (r igual o cercano a 1), cuales tienen una relación inversa (r igual o cercano a -1) o cuales no presentan una relación alguna (r igual o cercano a 0) observando de esta manera que: