En este documento se analizará los salarios de los Profesores Asistentes, Asociados y Principales, de una universidad de los Estados Unidos durante el período 2008-2009. El objetivo es analizar si existen diferencias salariales asociadas al género entre los miembros de dicha universidad.
Primero, se observa que los profesores son en su gran mayoría hombres (358) versus sólo 39 mujeres.
Segundo, la mayoría de los profesores son profesores principales (266), luego profesores asistentes (67) y en menor cantidad los profesores asociados (64). Asimismo, la distribución de las disciplinas enseñadas por los docentes es más o menos similar: 181 en departamentos teóricos y 216 en departamentos aplicados.
Tercero, con respecto a los años de servicio, el promedio de servicio es 17.61 años. Sin embargo, esta variable tiene una amplia desviación, ya que el mínimo año de servicio es 0 años y el máximo es 60 años.
Finalmente, con respecto a los salarios, el promedio durante el período en cuestión es 113706 dólares, Siendo el máximo salario de 231545 dólares y el mínimo de 57800 dólares. Es decir se observa mucha diferencia, lo cual es esperable en este sector.
salaries<-read.table("salaries.csv",header=T,dec=".",sep=";",na.strings = "NA")
summary(salaries)
## rank discipline yrs.since.phd yrs.service
## Length:397 Length:397 Min. : 1.00 Min. : 0.00
## Class :character Class :character 1st Qu.:12.00 1st Qu.: 7.00
## Mode :character Mode :character Median :21.00 Median :16.00
## Mean :22.31 Mean :17.61
## 3rd Qu.:32.00 3rd Qu.:27.00
## Max. :56.00 Max. :60.00
## sex salary
## Length:397 Min. : 57800
## Class :character 1st Qu.: 91000
## Mode :character Median :107300
## Mean :113706
## 3rd Qu.:134185
## Max. :231545
Iniciamos analizando la variable objetivo, que es el género, dado que es la hipótesis que se propone evaluar, teniendo en cuenta que hay 358 hombres y 39 mujeres, ya nos da un indicio de que hay una alta probabilidad que la suma de los salarios sea menor para las mujeres, por lo cual descartamos la suma como una cifra determinante, En el siguiente gráfico de barras se puede apreciar la diferencia mencionada.
En el gráfico por sectores se muestra la relación proporcional entre hombres y mujeres y esta muestra menos de un 10% de mujeres en la planta de docentes
cuenta_sex <- table(salaries$sex)
windows(10,5)
par(mfrow=c(1,2))
barplot(cuenta_sex, main= "Cantidad por género", xlab="Género",ylab="Cantidad", ylim=c(0,400),names=c("Mujeres","Hombres"),col = c("pink1","azure3"))
suma_sex <- sum(table(salaries$sex))
valores <- paste(names=c("M","H"),"<- ", round(100 * cuenta_sex/suma_sex, 1),"%")
pie(cuenta_sex, labels=valores, col=c("pink1","azure3"))
En la siguiente fase del análisis exploratorio, procedemos a generar un resumen con el fin de conocer propiedades más específicas de los datos por género las cuales se presentan a continuación. Se observan diferencias relevantes en todos los resultados, pero en la mediana es similar
summary(salaries$salary[salaries$sex == 'Female'])
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 62884 77250 103750 101002 117003 161101
summary(salaries$salary[salaries$sex == 'Male'])
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 57800 92000 108043 115090 134864 231545
Teniendo en cuenta que con los resultados anteriores no se puede concluir, pasamos a revisar parámetros más determinantes como lo son la varianza y el coeficiente de variación. Para esto calculamos la media y la desviación estándar con las expresiones que se muestran a continuación
media_F <- mean(salaries$salary[salaries$sex == 'Female']) #Se valida la media del salario de mujeres
media_M <- mean(salaries$salary[salaries$sex == 'Male']) #Se valida la media del salario de hombres
desv_F <- sd(salaries$salary[salaries$sex == 'Female']) #Se calcula desviación en salario de mujeres
desv_M <- sd(salaries$salary[salaries$sex == 'Male']) #Se calcula desviación en salario de hombres
#Se valida un mayor valor en la desviación de los hombres, pero era de esperarse ya que su promedio es mayor
CV_F = desv_F/media_F #Se calcula el coeficiente de variación en mujeres
CV_M = desv_M/media_M #Se calcula el coeficiente de variación en hombres
desv_F/media_F #Se calcula el coeficiente de variación en mujeres
## [1] 0.2569456
desv_M/media_M #Se calcula el coeficiente de variación en hombres
## [1] 0.264461
Al analizar el coeficiente de variación, se puede observar que es muy similar para hombres y mujetres, por lo cual no se puede afirmar que la causa es atribuible especificamente al género y debemos valorar las otras variables involucradas.
En el siguiente gráfico de caja se puede notar de manera visual la relación entre el género y salario, cabe destacar que a pesar que la mediana es similar, para cada género se observa una asimetria pero en hombres es en la parte superior lo que indica que hay una mayor cantidad de hombre ganando un salario mayor a la mediana, mientras que en las mujeres es mayor la mayor cantidad gana un salario inferior a la media.
boxplot(cbind(salaries$salary[salaries$sex=="Male"],salaries$salary[salaries$sex=="Female"]),horizontal=F,xlab="Género",ylab="Salario",ylim=c(55000,250000),main="",col=c("azure3","pink"),names=c("Hombres","Mujeres"))
#titulo
attach(salaries)
Al comparar el salario de los profesores teniendo como criterio las diciplinas, se puede observar que Cada cuartíl del aplicado es superior a cada cuartíl del teorico, sin embargo no es una diferencia considerable como para concluir que la disciplina es el determinante en la diferencia de salarios. Se concluye que la disciplina no representa en la misma magnitud la diferencia apreciada entre los salarios de hombres y mujeres
tapply(salary,discipline,mean)
## A B
## 108548.4 118028.7
boxplot(cbind(salaries$salary[salaries$discipline=="A"],salaries$salary[salaries$discipline=="B"]),horizontal=F,xlab="Disciplina",ylab="Salario", ylim=c(50000,250000),main="",col="blue",names=c("Teórico","Aplicado"))
En este primer gráfico comparativo teniendo como creiterio el rango, se muestra la propoción de profesores por cada da uno de ellos
cuenta_rank <- table(rank)
suma_rank <- sum(table(rank))
valores_2 <- paste(names=c("Asociado","Asistente","Profesor"),"<- ", round(100 * cuenta_rank/suma_rank, 1),"%")
pie(cuenta_rank, labels=valores_2, col=c("azure1","azure2","azure3"))
En el siguiente gráfico se puede observar que el profesor de rango prof gana mucho más que los otros rangos, nada más su primer cuartil es superior al 100% del asistente y a 3 cuartiles del asociado, siendo una variable que puede ser la causante de la diferencia de salarios, si es que hubiera mayor proporción de hombres en ese rango que de mujeres
tapply(salary,rank,mean)
## AssocProf AsstProf Prof
## 93876.44 80775.99 126772.11
windows(10,10)
summary(rank)
## Length Class Mode
## 397 character character
boxplot(cbind(salaries$salary[salaries$rank=="AsstProf"],salaries$salary[salaries$rank=="AssocProf"],salaries$salary[salaries$rank=="Prof"]),horizontal=F,xlab="Rango",ylab="Salario",ylim=c(50000,220000),main="",col="blue",names=c("Asistente","Asociado","Profesor"))
Teneinedo en cuenta que se evidencia una influencia determinante del rango en el salario de los profesores, procedemos a profundizar el análisis de ésta variable
a= sum(salaries$rank == "Prof" & salaries$sex == "Male")
b= sum(salaries$rank == "AsstProf" & salaries$sex == "Male")
c= sum(salaries$rank == "AssocProf" & salaries$sex == "Male")
windows(15,10)
par(mfrow=c(1,2))
rank_M= factor(c(rep("Prof",a), rep("AsstProf",b),rep("AssocProf",c)),levels = c("Prof","AsstProf","AssocProf"),labels=c("Prof","AsstProf","AssocProf"))
cuenta_rank_M <- table(rank_M)
suma_rank_M <- sum(table(rank_M))
valores_3 <- paste(names=c("Prof","Asis","Aso"),":", round(100 * cuenta_rank_M/suma_rank_M, 1),"%")
pie(c(a,b,c), labels=valores_3, col=c("azure1","azure2","azure3"))
d= sum(salaries$rank == "Prof" & salaries$sex == "Female")
e= sum(salaries$rank == "AsstProf" & salaries$sex == "Female")
f= sum(salaries$rank == "AssocProf" & salaries$sex == "Female")
rank_F= factor(c(rep("Prof",d), rep("AsstProf",e),rep("AssocProf",f)),levels = c("Prof","AsstProf","AssocProf"),labels=c("Prof","AsstProf","AssocProf"))
cuenta_rank_F <- table(rank_F)
suma_rank_F <- sum(table(rank_F))
valores_4 <- paste(names=c("Prof","Asis","Aso"),":",round(100 * cuenta_rank_F/suma_rank_F, 1),"%")
pie(c(a,b,c), labels=valores_4, col=c("pink1","pink2","pink3"))
detach()
En los gráficos que se encuentran a continuación, se puede observar que los hombres respecto a las mujeres tienen una mayor proporción de profesores de rango prof, y al ser el rango que más gana, tiende a halar el promedio hacia un mayor valor.
colores <- c("red","blue")
plot(salaries$yrs.service,salaries$salary, pch=19, xlab = "Años de servicio" , ylab= "Salario" ,col=colores[factor(salaries$sex)])
legend(50,180000,legend = levels(factor(salaries$sex)),pch = 19,col = colores)
colores <- c("red","blue")
plot(salaries$yrs.since.phd,salaries$salary, pch=19, xlab = "Años post. PhD" , ylab= "Salario" ,col=colores[factor(salaries$sex)])
legend(0,235000,legend = levels(factor(salaries$sex)),pch = 19,col = colores)
Calculando el salario promedio, se puede observar una gran influencia en los años de servicio y años después del doctorado sobre el salario, como se observa el promedio las mujeres tienen 16 años desde el doctorado mientras los hombres 22.9. Esto podría explicar la diferencia salarial.
mean(salaries$yrs.since.phd[salaries$sex == 'Male'])
## [1] 22.94693
mean(salaries$yrs.since.phd[salaries$sex == 'Female'],na.rm = T)
## [1] 16.51282
mean(salaries$yrs.service[salaries$sex == 'Male'])
## [1] 18.27374
mean(salaries$yrs.service[salaries$sex == 'Female'],na.rm = T)
## [1] 11.5641
En ese sentido, como conclusión se tiene que el valor del salario es afectado por el rango Prof en gran proporsión y por los años de servicio y después del doctorado, los cuales son ampliamente superiores por los hombres.