El enunciado del taller plantea una pregunta, la cual debe ser resulta partir del analisis de datos propuesto
En caso de evidenciar esta diferencia, será necesario abordar preguntas secundarias:
El archivo fuente (csv), presenta un total de 397 registros con seis (6) variables (columnas), clasificadas por el equipo de analistas como cuantitativas y cualitativas, las cuales se detallan en la siguiente tabla:
| # | Variable | Descripción | Tipo |
|---|---|---|---|
| 1 | rank | Nivel o rango del | Cualitativo |
| 2 | discipline | Disciplina que dicta | Cualitativo |
| 3 | yrs.since.phd | Cantidad de años desde el cual obtuvo el doctorado | Cuantitativo - Discreto |
| 4 | yrs.service | Cantidad de años que lleva ejerciendo la docencia | Cuantitativo - Discreto |
| 5 | sex | Sexo del docente | Cualitativo |
| 6 | salary | Salario devengado por el docente | Cuantitativo - Continuo |
A partir de la descripción de la base de datos y la pregunta problema, planteamos una serie de pasos, siguiendo la metología empleada por el docente en la solución de ejercicios previos.
Las herramientas seleccionadas para el plan, estarán alineadas a la tipología de variables a análizar y a la pregunta central, teniendo en cuenta la tabla anterior, haremos uso de: * Indicadores de frecuencia, tendencia y forma, recurriendo a la asociación en busca de patrones y correlaciones entre variables * Graficos de tipos especificos, Las variales cuantitativas se representan principalmente en barras, sectores e histogramas, de acuerdo a la naturales de las variables podremos hacer uso de Cajas para la representación de indicadores.
Notas:
Realizamos un analisis inicial de las variables en Datos, en esta parte del analisis, empleamos la funcion describe de la libreria Hmisc, esta retorna una tabla con los indicadores por variable:
library('Hmisc')
describe(Datos)
| Variable | repeticiones, valores | Frecuencia y Proporción | Max y Min |
|---|---|---|---|
| rank | n 397 missing 0 distinc 3 | AssocProf: Frequency 64, Proporcion 16.1 %. AsstProf: Frequency 67, Proporcion 16.9%. Prof: Frecuency 266, Proportion 67.0% | |
| sex | n 397 missing 0 distinc 2 | Female: Frequency 39 Proportion: 9.8% . Male: Frequency : 358 Proportion 90.2 % | |
| yrs.service | n 397 missing 0 distinc 52 | Media:17.1 | lowest : 0 1 2 3 4, highest: 49 51 53 57 60 |
| discipline | n 397 missing 0 distinc 2 | Value A: Frequency 181, Proportion 45.6%. Value B: Frequency 216, Proportion 54.4% | |
| yrs.since.phd | n 397 missing 0 distinc 53 | Media:22.31 | lowest : 1 2 3 4 5, highest: 49 51 52 54 56 |
| salary | n 397 missing 0 distinc 52 | Media: 17.61 | lowest : 57800 62884 63100 63900 67559, highest: 193000 194800 204000 205500 231545 |
Construimos una gráfica de sectores simple, que permita conocer la distribución de la variable sex en la base de datos.
attach(Datos)
info_sex <- table(sex)
etiquetas <- paste(names(info_sex), " = ", round(100 * info_sex/sum(info_sex), 2), "%")
pie(info_sex, labels=etiquetas, col=c("azure2","azure3"))
Continuamos con una gráfica que me permita identificar información sobre la relacion entre las variables salary y sex, datos fundamentales para dar respuesta a la pregunta inicial:
boxplot(salary~sex,xlab="Sexo",ylab="Salario",col=c("azure2","azure3"))
El gráfico anterior presenta de forma contundente una diferencia significativa en los salarios de los hombres y las mujeres, respondiendo a la pregunta inicial: se evidencia un mayor valor en el salario devengado por los hombres en comparación con el de las mujeres, lo anterior, teniendo en cuenta únicamente el salario y el genero para el analisis. Complementario al grafico anterior, generamos el promedio del salario para cada grupo:
tapply(salary,sex,mean)
| Female | Male |
|---|---|
| 101,002.4 | 115,090.4 |
A partir de la respuesta anterior, incluimos en el analisis las otras variables presentes en la base de datos con el objetivo de hallar patrones y correlaciones que permitan evidenciar factores que influyan en la diferencia salarial previamente identificada y mejorar el analisis dado el bajo número de mujeres de la muestra comparado con la cantidad de hombres.
Analicemos el comportamiento de las otras variables respecto al salario para generar una nueva hipotesis sobre las razones de diferencia en los salarios
attach(Datos)
windows()
par(mfrow=c(2,2))
boxplot(salary~sex,xlab= "Género", ylab="Salario", col="azure2")
boxplot(salary~rank,xlab= "Categoria", ylab="Salario", col="azure3")
boxplot(salary~discipline,xlab= "Disciplina", ylab="Salario", col="azure2")
Revisando categoria, años de servicio y género, con respecto al salario, se puede observar que las diferencias se deben en mayor proporcion a las cantidades de Profesores hombres en la categoria Prof
ggplot(Datos, aes(salary, yrs.service), ) +
geom_point(aes(color = rank))+
geom_smooth(se=FALSE, color ="grey")+
facet_wrap(~ sex)+
labs(title = "Comparacion años se servicio, salario y categoría entre Mujeres y Hombres",
x = "Salario",
y = "Años de servicio",
color="Categoria"
)+
theme_classic()+
scale_colour_grey()
Seguido lo anterior, verificamos los valores promedio de salarios ente hombres y mujeres para las categorias presentes en la base de datos:
Asociado <- filter(Datos[,5:6], Datos$rank=="AssocProf")
tapply(Asociado$salary,Asociado$sex,mean)
Asistente <- filter(Datos[,5:6], Datos$rank=="AsstProf")
tapply(Asistente$salary,Asistente$sex,mean)
Prof <- filter(Datos[,5:6], Datos$rank=="Prof")
tapply(Prof$salary,Prof$sex,mean)
| Category | Female | Male | Diferencia |
|---|---|---|---|
| asstProf | 78049.91 | 81311.46 | 4.01% |
| assocProf | 88512.8 | 94869.7 | 6.7% |
| Prof | 121967.6 | 127120.8 | 4.05% |
Verificamos si la variable discipline tiene una relacion con la variable category. Graficamos la relacion de las variables discipline vs category, para verificar el impacto o la correlación que puedan tener con respecto a la diferencia de salarios.
barplot(DisciplinaPorRank, col=c("azure2","azure3"),legend.text=c("A","B"),xlab = "Rank",
ylab="Frecuencia",main="Disciplinas en diferentes categorías",
args.legend = list(x = "top"))
Finalmente, el analisis presentado nos permite concluir que la diferencia de salarios entre hombres y mujeres no solo depende de la distribución de género, sino tambien de la categoria y la cantidad de mujeres presentes en cada una, esta última es la que influye significativamente en el promedio salarial de los hombres, ya que, la categoría que mayor promedio de salarios tiene, es en la que menos cantidad de mujeres registra.