Descripcion de variables

Se cuenta con una base de datos que contiene informacion acerca de los salarios de profesores en diferentes disciplinas y niveles, contenida en el CSV Salaries.csv. Se realiza la carga del documento a un dataframe, sobre este se realiza una operacion describe, la cual nos permitira analizar de manera resumida y concisa cada una de las columnas, categoricas y continuas, de acuerdo con las cuales podmeos observar que contamos con 397 muestras, de las cuales no existen faltantes para niguna de las 6 columnas.

El dataframe esta compuesto por las siguientes columnas:

De la operacion describe, podemos realizar las siguientes observaciones:

### Data Reading ###
salaries = read.table('Salaries.csv',header = T,sep = ";", na.strings = "NA")
describe(salaries)
## salaries 
## 
##  6  Variables      397  Observations
## --------------------------------------------------------------------------------
## rank 
##        n  missing distinct 
##      397        0        3 
##                                         
## Value      AssocProf  AsstProf      Prof
## Frequency         64        67       266
## Proportion     0.161     0.169     0.670
## --------------------------------------------------------------------------------
## discipline 
##        n  missing distinct 
##      397        0        2 
##                       
## Value          A     B
## Frequency    181   216
## Proportion 0.456 0.544
## --------------------------------------------------------------------------------
## yrs.since.phd 
##        n  missing distinct     Info     Mean      Gmd      .05      .10 
##      397        0       53    0.999    22.31    14.77        4        5 
##      .25      .50      .75      .90      .95 
##       12       21       32       40       45 
## 
## lowest :  1  2  3  4  5, highest: 49 51 52 54 56
## --------------------------------------------------------------------------------
## yrs.service 
##        n  missing distinct     Info     Mean      Gmd      .05      .10 
##      397        0       52    0.999    17.61    14.63      1.0      3.0 
##      .25      .50      .75      .90      .95 
##      7.0     16.0     27.0     37.0     41.4 
## 
## lowest :  0  1  2  3  4, highest: 49 51 53 57 60
## --------------------------------------------------------------------------------
## sex 
##        n  missing distinct 
##      397        0        2 
##                         
## Value      Female   Male
## Frequency      39    358
## Proportion  0.098  0.902
## --------------------------------------------------------------------------------
## salary 
##        n  missing distinct     Info     Mean      Gmd      .05      .10 
##      397        0      371        1   113706    33872    73293    77381 
##      .25      .50      .75      .90      .95 
##    91000   107300   134185   152946   168908 
## 
## lowest :  57800  62884  63100  63900  67559, highest: 193000 194800 204000 205500 231545
## --------------------------------------------------------------------------------

Balance de datos

En el siguiente analisis exploratorio de datos, se abordaran las siguientes preguntas respecto a los salarios de los profesores dentro del conjunto de estudio.

  • ¿Existe una diferencia salarial entre hombres y mujeres?
  • si la diferencia existe: ¿son atribuibles exclusivamente al genero de los profesores? O ¿existen otras caracteristicas que pueden explicar la diferencia salarial?

Para dar respuesta a estas preguntas, se realiza inicialmente una revison del balanceo del grupo de datos en cuanto a hombres y mujeres, para lo cual se construye el siguiente grafico circular en el cual se evidencia que existe una desproporcion entre la cantidad de profesores hombres y mujeres dentro del conjunto de datos de estudio, esto podria afectar en cierta medida el resultado del analisis dado que no existe una muestra equitativa de datos para cada grupo bajo estudio (hombres y mujeres).

## >>> Suggestions
## PieChart(gend, hole=0)  # traditional pie chart
## PieChart(gend, values="%")  # display %'s on the chart
## PieChart(gend)  # bar chart
## Plot(gend)  # bubble plot
## Plot(gend, values="count")  # lollipop plot 
## 
## --- gend --- 
## 
##                Female   Male     Total 
## Frequencies:       39    358       397 
## Proportions:    0.098  0.902     1.000 
## 
## Chi-squared test of null hypothesis of equal probabilities 
##   Chisq = 256.325, df = 1, p-value = 0.000

Distribucion de salarios por sexo

El primer acercamiento se realiza sobre la variable salario en relacion con la variable sexo, utilizando un grafico de boxplots, en este se identifica inicialmente que la mediana de los salarios de los hombres es superior al de las mujeres, y el boxplot de los hombres se ubica en sus quartiles 1 y 3 por encima del boxplot de las mujeres, desde el analisis de la variable salario. Sin embargo se debe revisar la relacion de la variable salario con las demas caracteristicas de cada profesor y su sexo, para determinar si la diferencia salarial solo esta determinada por el sexo o por otros factores.

boxplot(salary ~ sex, data=salaries, col=c('red','darkblue'))

Distribucion de salario por rank y sexo

En el siguiente grafico observamos una comparacion de boxplots para cada uno de los ranking de profesores, discriminando por el sexo. Podemos evidenciar que los profesores con el rank Prof perciben un mayor salario con respecto a los demas, esto aplica tanto para los hombres o mujeres dentro de este rank, sin embargo podemos observar que aunque las medianas de los salarios para mujeres y hombres en los diferentes rank son similares, para el caso de los hombres los boxplot tienden a tener un quartil 1 y 3 ligeramente superiores a los de las mujeres, indicando que existen algunos casos particulares en los cuales los salarios pueden llegar a ser superiores para los hombres dentro del mismo rank.

## boxplot relating salary disribution for each rank discriminating by sex 
ggplot(salaries, aes(x=rank, y=salary, fill=sex)) + 
  geom_boxplot()

Distribucion de salario por discipline y sexo

El siguiente factor por revisar corresponde a la disciplina, en este caso podemos evidenciar que en generla la disciplina B cuenta con salarios mayores que A, ademas dentro de ambas disciplinas la mediana del salario de los hombres es superior a los de las mujeres, siendo esta diferencia mucho mas marcada para la disciplina A particularmente.

## boxplot relating salary disribution for each discipline discriminating by sex 
ggplot(salaries, aes(x=discipline, y=salary, fill=sex)) + 
  geom_boxplot()

Las siguientes variables por analizar son de tipo continuas, por lo cual se utilizaran graficos de dispersion, en los cuales se diferencian por colores los individuos masculinos y femeninos.

Grafico de dispersion años desde Phd y salario, discriminado por sexo

En el siguiente grafico se puede observar la relacion de la variable salario y el numero de años desde el grado Phd, observando en general que entre menos años en servicio tenga el profesor, el salario tiende a ser inferior, y conforme su experiencia va aumentando los salario empiezan a incrementar, sin embargo existen casos a partir de los 40 años en los cuales el salario empieza a disminuir. En cuanto a la distribucion de hombres y mujeres en el grafico, podemeos observar que existen claramente mas individuos hombres que mujeres, y que los casos particulares con salarios mas altos corresponden a individuos masculinos, sin embargo las mujeres existentes dentro de la base de datos siguen la misma tendencia que los hombres en cuanto al aumento salarial con respecto a los años despues del grado Phd.

## Salary vs Years since phd (Male, Female)

#Define colors per Male Female categories
colors <- c("red", # Orange
            "darkblue") # Light green

#Scatter plot relating yrs.since.phd with salary, discriminating by male female with colors
plot(salaries$yrs.since.phd,salaries$salary, pch=19, xlab = "Years since Phd" , ylab= "Salary" ,col=colors[factor(salaries$sex)])

# Legend
legend("topleft",
       legend = levels(factor(salaries$sex)),
       pch = 19,
       col = colors)

## Linea de tenedecia para cada grupo de datos (Hombres, Mujeres)
#abline(lm(filter(salaries, sex == 'Female')$salary ~ filter(salaries, sex == 'Female')$yrs.since.phd), col = 'red', lwd = 3)
#abline(lm(filter(salaries, sex == 'Male')$salary ~ filter(salaries, sex == 'Male')$yrs.since.phd), col = 'darkblue', lwd = 3)

Grafico de dispersion años de servicio y salario, discriminado por sexo

El siguiente grafico de dispersion muestra la relacion entre los años de servicio y los salarios, discriminando por color entre hombres y mujeres, de manera general se puede observar que existe una mayor concentracion de profesores entre los 0 y 10 años de servicio, dentro de los cuales se observa una tendencia al aumento de salarios ligado a un numero mayor de años de servicio, y a partir de los 30 años o mas de servicio se observa una tendencia a la disminucion de los salarios, a excepcion de algunos casos particulares con salarios muy altos y mas de 30 años de servicio. En cuanto a la diferencia entre hombres y mujeres, se puede observar que las mujeres siguen la misma tendencia que los hombres en cuanto al aumento de salario con respecto a los años de servicio, sin embargo si se puede evidenciar que los casos particulares con salarios mas altos que el promedio corresponden mayormente a hombres y los casos con salarios particularmente menores corresponden a mujeres en mayor medida.

## Salary vs Years service (Male, Female)
plot(salaries$yrs.service,salaries$salary, pch=19, xlab = "Years of service" , ylab= "Salary" ,col=colors[factor(salaries$sex)])

# Legend
legend("topleft",
       legend = levels(factor(salaries$sex)),
       pch = 19,
       col = colors)

## Linea de tenedecia para cada grupo de datos (Hombres, Mujeres)
#abline(lm(filter(salaries, sex == 'Female')$salary ~ filter(salaries, sex == 'Female')$yrs.service), col = 'red', lwd = 3)
#abline(lm(filter(salaries, sex == 'Male')$salary ~ filter(salaries, sex == 'Male')$yrs.service), col = 'darkblue', lwd = 3)

Conclusion

Finalmente, a partir de los graficos relacionando cada una de las variables con el salario y discriminando los resultados entre hombre y mujeres, se puede evidenciar que existe una diferencia salarial, sin embargo esta no es atribuible completamente al genero, dado que factores como el ranking () y la disciplina (A,B) tienen un impacto significativo en el salario recibido por los profesores independientemente del genero, sin embargo cabe resaltar que en general los salarios para profesores de genero femenino dentro del mismo rank o disciplina son ligeramente inferiores a los recibidos por profesores del genero masculino. Esta diferencia no es tan perceptible cuando se revisa las variables de años de servicio o de años desde el grado de Phd, pues los profesores independientemente del genero siguen una misma tendencia de aumento salarial con el aumento de los años en una etapa temprana (0-20 años), para estas mismas variables es importante resaltar que no existen casos de profesores de genero femenino con mas de 40 años de servicio o de obtencion del grado de Phd, lo cual podria reflejar que las mujeres han tenido mas dificultades para un acceso al trabajo y a grados de Phd que los hombres. Debe tenerse en cuenta para la interpretacion de estos resultados, que la base de datos cuenta con muchos menos registros para mujeres que para hombres, lo cual puede afectar los resultados obtenidos para el analisis de cada variable con respecto al salario, pues no se cuenta con la misma cantidad de muestras que representen a la poblacion de mujeres.