Se cuenta con una base de datos que contiene informacion acerca de los salarios de profesores en diferentes disciplinas y niveles, contenida en el CSV Salaries.csv. Se realiza la carga del documento a un dataframe, sobre este se realiza una operacion describe, la cual nos permitira analizar de manera resumida y concisa cada una de las columnas, categoricas y continuas, de acuerdo con las cuales podmeos observar que contamos con 397 muestras, de las cuales no existen faltantes para niguna de las 6 columnas.
El dataframe esta compuesto por las siguientes columnas:
De la operacion describe, podemos realizar las siguientes observaciones:
### Data Reading ###
salaries = read.table('Salaries.csv',header = T,sep = ";", na.strings = "NA")
describe(salaries)
## salaries
##
## 6 Variables 397 Observations
## --------------------------------------------------------------------------------
## rank
## n missing distinct
## 397 0 3
##
## Value AssocProf AsstProf Prof
## Frequency 64 67 266
## Proportion 0.161 0.169 0.670
## --------------------------------------------------------------------------------
## discipline
## n missing distinct
## 397 0 2
##
## Value A B
## Frequency 181 216
## Proportion 0.456 0.544
## --------------------------------------------------------------------------------
## yrs.since.phd
## n missing distinct Info Mean Gmd .05 .10
## 397 0 53 0.999 22.31 14.77 4 5
## .25 .50 .75 .90 .95
## 12 21 32 40 45
##
## lowest : 1 2 3 4 5, highest: 49 51 52 54 56
## --------------------------------------------------------------------------------
## yrs.service
## n missing distinct Info Mean Gmd .05 .10
## 397 0 52 0.999 17.61 14.63 1.0 3.0
## .25 .50 .75 .90 .95
## 7.0 16.0 27.0 37.0 41.4
##
## lowest : 0 1 2 3 4, highest: 49 51 53 57 60
## --------------------------------------------------------------------------------
## sex
## n missing distinct
## 397 0 2
##
## Value Female Male
## Frequency 39 358
## Proportion 0.098 0.902
## --------------------------------------------------------------------------------
## salary
## n missing distinct Info Mean Gmd .05 .10
## 397 0 371 1 113706 33872 73293 77381
## .25 .50 .75 .90 .95
## 91000 107300 134185 152946 168908
##
## lowest : 57800 62884 63100 63900 67559, highest: 193000 194800 204000 205500 231545
## --------------------------------------------------------------------------------
En el siguiente analisis exploratorio de datos, se abordaran las siguientes preguntas respecto a los salarios de los profesores dentro del conjunto de estudio.
Para dar respuesta a estas preguntas, se realiza inicialmente una revison del balanceo del grupo de datos en cuanto a hombres y mujeres, para lo cual se construye el siguiente grafico circular en el cual se evidencia que existe una desproporcion entre la cantidad de profesores hombres y mujeres dentro del conjunto de datos de estudio, esto podria afectar en cierta medida el resultado del analisis dado que no existe una muestra equitativa de datos para cada grupo bajo estudio (hombres y mujeres).
## >>> Suggestions
## PieChart(gend, hole=0) # traditional pie chart
## PieChart(gend, values="%") # display %'s on the chart
## PieChart(gend) # bar chart
## Plot(gend) # bubble plot
## Plot(gend, values="count") # lollipop plot
##
## --- gend ---
##
## Female Male Total
## Frequencies: 39 358 397
## Proportions: 0.098 0.902 1.000
##
## Chi-squared test of null hypothesis of equal probabilities
## Chisq = 256.325, df = 1, p-value = 0.000
El primer acercamiento se realiza sobre la variable salario en relacion con la variable sexo, utilizando un grafico de boxplots, en este se identifica inicialmente que la mediana de los salarios de los hombres es superior al de las mujeres, y el boxplot de los hombres se ubica en sus quartiles 1 y 3 por encima del boxplot de las mujeres, desde el analisis de la variable salario. Sin embargo se debe revisar la relacion de la variable salario con las demas caracteristicas de cada profesor y su sexo, para determinar si la diferencia salarial solo esta determinada por el sexo o por otros factores.
boxplot(salary ~ sex, data=salaries, col=c('red','darkblue'))
En el siguiente grafico observamos una comparacion de boxplots para cada uno de los ranking de profesores, discriminando por el sexo. Podemos evidenciar que los profesores con el rank Prof perciben un mayor salario con respecto a los demas, esto aplica tanto para los hombres o mujeres dentro de este rank, sin embargo podemos observar que aunque las medianas de los salarios para mujeres y hombres en los diferentes rank son similares, para el caso de los hombres los boxplot tienden a tener un quartil 1 y 3 ligeramente superiores a los de las mujeres, indicando que existen algunos casos particulares en los cuales los salarios pueden llegar a ser superiores para los hombres dentro del mismo rank.
## boxplot relating salary disribution for each rank discriminating by sex
ggplot(salaries, aes(x=rank, y=salary, fill=sex)) +
geom_boxplot()
El siguiente factor por revisar corresponde a la disciplina, en este caso podemos evidenciar que en generla la disciplina B cuenta con salarios mayores que A, ademas dentro de ambas disciplinas la mediana del salario de los hombres es superior a los de las mujeres, siendo esta diferencia mucho mas marcada para la disciplina A particularmente.
## boxplot relating salary disribution for each discipline discriminating by sex
ggplot(salaries, aes(x=discipline, y=salary, fill=sex)) +
geom_boxplot()
Las siguientes variables por analizar son de tipo continuas, por lo cual se utilizaran graficos de dispersion, en los cuales se diferencian por colores los individuos masculinos y femeninos.
En el siguiente grafico se puede observar la relacion de la variable salario y el numero de años desde el grado Phd, observando en general que entre menos años en servicio tenga el profesor, el salario tiende a ser inferior, y conforme su experiencia va aumentando los salario empiezan a incrementar, sin embargo existen casos a partir de los 40 años en los cuales el salario empieza a disminuir. En cuanto a la distribucion de hombres y mujeres en el grafico, podemeos observar que existen claramente mas individuos hombres que mujeres, y que los casos particulares con salarios mas altos corresponden a individuos masculinos, sin embargo las mujeres existentes dentro de la base de datos siguen la misma tendencia que los hombres en cuanto al aumento salarial con respecto a los años despues del grado Phd.
## Salary vs Years since phd (Male, Female)
#Define colors per Male Female categories
colors <- c("red", # Orange
"darkblue") # Light green
#Scatter plot relating yrs.since.phd with salary, discriminating by male female with colors
plot(salaries$yrs.since.phd,salaries$salary, pch=19, xlab = "Years since Phd" , ylab= "Salary" ,col=colors[factor(salaries$sex)])
# Legend
legend("topleft",
legend = levels(factor(salaries$sex)),
pch = 19,
col = colors)
## Linea de tenedecia para cada grupo de datos (Hombres, Mujeres)
#abline(lm(filter(salaries, sex == 'Female')$salary ~ filter(salaries, sex == 'Female')$yrs.since.phd), col = 'red', lwd = 3)
#abline(lm(filter(salaries, sex == 'Male')$salary ~ filter(salaries, sex == 'Male')$yrs.since.phd), col = 'darkblue', lwd = 3)
El siguiente grafico de dispersion muestra la relacion entre los años de servicio y los salarios, discriminando por color entre hombres y mujeres, de manera general se puede observar que existe una mayor concentracion de profesores entre los 0 y 10 años de servicio, dentro de los cuales se observa una tendencia al aumento de salarios ligado a un numero mayor de años de servicio, y a partir de los 30 años o mas de servicio se observa una tendencia a la disminucion de los salarios, a excepcion de algunos casos particulares con salarios muy altos y mas de 30 años de servicio. En cuanto a la diferencia entre hombres y mujeres, se puede observar que las mujeres siguen la misma tendencia que los hombres en cuanto al aumento de salario con respecto a los años de servicio, sin embargo si se puede evidenciar que los casos particulares con salarios mas altos que el promedio corresponden mayormente a hombres y los casos con salarios particularmente menores corresponden a mujeres en mayor medida.
## Salary vs Years service (Male, Female)
plot(salaries$yrs.service,salaries$salary, pch=19, xlab = "Years of service" , ylab= "Salary" ,col=colors[factor(salaries$sex)])
# Legend
legend("topleft",
legend = levels(factor(salaries$sex)),
pch = 19,
col = colors)
## Linea de tenedecia para cada grupo de datos (Hombres, Mujeres)
#abline(lm(filter(salaries, sex == 'Female')$salary ~ filter(salaries, sex == 'Female')$yrs.service), col = 'red', lwd = 3)
#abline(lm(filter(salaries, sex == 'Male')$salary ~ filter(salaries, sex == 'Male')$yrs.service), col = 'darkblue', lwd = 3)
Finalmente, a partir de los graficos relacionando cada una de las variables con el salario y discriminando los resultados entre hombre y mujeres, se puede evidenciar que existe una diferencia salarial, sin embargo esta no es atribuible completamente al genero, dado que factores como el ranking () y la disciplina (A,B) tienen un impacto significativo en el salario recibido por los profesores independientemente del genero, sin embargo cabe resaltar que en general los salarios para profesores de genero femenino dentro del mismo rank o disciplina son ligeramente inferiores a los recibidos por profesores del genero masculino. Esta diferencia no es tan perceptible cuando se revisa las variables de años de servicio o de años desde el grado de Phd, pues los profesores independientemente del genero siguen una misma tendencia de aumento salarial con el aumento de los años en una etapa temprana (0-20 años), para estas mismas variables es importante resaltar que no existen casos de profesores de genero femenino con mas de 40 años de servicio o de obtencion del grado de Phd, lo cual podria reflejar que las mujeres han tenido mas dificultades para un acceso al trabajo y a grados de Phd que los hombres. Debe tenerse en cuenta para la interpretacion de estos resultados, que la base de datos cuenta con muchos menos registros para mujeres que para hombres, lo cual puede afectar los resultados obtenidos para el analisis de cada variable con respecto al salario, pues no se cuenta con la misma cantidad de muestras que representen a la poblacion de mujeres.