Información General

Taller #2: Análisis exploratorio de Datos

Asignatura: Métodos Cuantitativos para el análisis de la informacion
Integrantes: Luz Aída Rozo Sánchez - 2200677 / Daniel Eduardo Gaviria Mazuera - 2201126

Descripción

El enunciado del taller plantea una pregunta, la cual debe ser resulta partir del analisis de datos propuesto

Pregunta problema:

¿Existe una diferencia salarial entre hombres y mujeres?

En caso de evidenciar esta diferencia, será necesario abordar preguntas secundarias:

¿Son atribuibles exclusivamente al género de los profesores? O ¿existen otras características que pueden explicar la diferencia salarial?

Revisión y Clasificación inicial

El archivo fuente (csv), presenta un total de 397 registros con seis (6) variables (columnas), clasificadas por el equipo de analistas como cuantitativas y cualitativas, las cuales se detallan en la siguiente tabla:

# Variable Descripción Tipo
1 rank Nivel o rango del Cualitativo
2 discipline Disciplina que dicta Cualitativo
3 yrs.since.phd Cantidad de años desde el cual obtuvo el doctorado Cuantitativo - Discreto
4 yrs.service Cantidad de años que lleva ejerciendo la docencia Cuantitativo - Discreto
5 sex Sexo del docente Cualitativo
6 salary Salario devengado por el docente Cuantitativo - Continuo

Plan de análisis

A partir de la descripción de la base de datos y la pregunta problema, planteamos una serie de pasos, siguiendo la metología empleada por el docente en la solución de ejercicios previos.

Las herramientas seleccionadas para el plan, estarán alineadas a la tipología de variables a análizar y a la pregunta central, teniendo en cuenta la tabla anterior, haremos uso de: * Indicadores de frecuencia, tendencia y forma, recurriendo a la asociación en busca de patrones y correlaciones entre variables * Graficos de tipos especificos, Las variales cuantitativas se representan principalmente en barras, sectores e histogramas, de acuerdo a la naturales de las variables podremos hacer uso de Cajas para la representación de indicadores.

Desarrollo

Notas:

  • La el objeto Datos definido en las muestras de código, contiene la base de datos cargada desde el archivo fuente.

Realizamos un analisis inicial de las variables en Datos, en esta parte del analisis, empleamos la funcion describe de la libreria Hmisc, esta retorna una tabla con los indicadores por variable:

library('Hmisc')
describe(Datos)
Variable repeticiones, valores Frecuencia y Proporción Max y Min
rank n 397 missing 0 distinc 3 AssocProf: Frequency 64, Proporcion 16.1 %. AsstProf: Frequency 67, Proporcion 16.9%. Prof: Frecuency 266, Proportion 67.0%
sex n 397 missing 0 distinc 2 Female: Frequency 39 Proportion: 9.8% . Male: Frequency : 358 Proportion 90.2 %
yrs.service n 397 missing 0 distinc 52 Media:17.1 lowest : 0 1 2 3 4, highest: 49 51 53 57 60
discipline n 397 missing 0 distinc 2 Value A: Frequency 181, Proportion 45.6%. Value B: Frequency 216, Proportion 54.4%
yrs.since.phd n 397 missing 0 distinc 53 Media:22.31 lowest : 1 2 3 4 5, highest: 49 51 52 54 56
salary n 397 missing 0 distinc 52 Media: 17.61 lowest : 57800 62884 63100 63900 67559, highest: 193000 194800 204000 205500 231545

Construimos una gráfica de sectores simple, que permita conocer la distribución de la variable sex en la base de datos.

attach(Datos)
info_sex <- table(sex)
etiquetas <- paste(names(info_sex), " = ", round(100 * info_sex/sum(info_sex), 2), "%")
pie(info_sex, labels=etiquetas, col=c("azure2","azure3"))
  • Menos del 10% de los datos cargados corresponden a información relacionada con mujeres.

Continuamos con una gráfica que me permita identificar información sobre la relacion entre las variables salary y sex, datos fundamentales para dar respuesta a la pregunta inicial:

boxplot(salary~sex,xlab="Sexo",ylab="Salario",col=c("azure2","azure3"))
  • La caja formada para el grupo female denota una alta asimetría en sus datos. Asi mismo, se evidencian al menos 3 datos atípicos en el grupo male
  • A excepción de la cota inferior, la mediana y los cuartiles son superiores en el grupo male;

Respuesta inicial

El gráfico anterior presenta de forma contundente una diferencia significativa en los salarios de los hombres y las mujeres, respondiendo a la pregunta inicial: se evidencia un mayor valor en el salario devengado por los hombres en comparación con el de las mujeres, lo anterior, teniendo en cuenta únicamente el salario y el genero para el analisis. Complementario al grafico anterior, generamos el promedio del salario para cada grupo:

tapply(salary,sex,mean)
Female Male
101,002.4 115,090.4

Analisis secundario

A partir de la respuesta anterior, incluimos en el analisis las otras variables presentes en la base de datos con el objetivo de hallar patrones y correlaciones que permitan evidenciar factores que influyan en la diferencia salarial previamente identificada y mejorar el analisis dado el bajo número de mujeres de la muestra comparado con la cantidad de hombres.

  • Variables: category, discipline y yrs.service

Analicemos el comportamiento de las otras variables respecto al salario para generar una nueva hipotesis sobre las razones de diferencia en los salarios

attach(Datos)
windows()
par(mfrow=c(2,2)) 
boxplot(salary~sex,xlab= "Género", ylab="Salario", col="azure2")
boxplot(salary~rank,xlab= "Categoria", ylab="Salario", col="azure3")
boxplot(salary~discipline,xlab= "Disciplina", ylab="Salario", col="azure2")

Revisando categoria, años de servicio y género, con respecto al salario, se puede observar que las diferencias se deben en mayor proporcion a las cantidades de Profesores hombres en la categoria Prof

ggplot(Datos, aes(salary, yrs.service), ) +
  geom_point(aes(color = rank))+
  geom_smooth(se=FALSE, color ="grey")+
  facet_wrap(~ sex)+
 labs(title = "Comparacion años se servicio, salario y categoría entre Mujeres y Hombres",
      x = "Salario",
      y = "Años de servicio",
      color="Categoria"
      )+
  theme_classic()+
  scale_colour_grey()

  • La nueva hipotesis indicaría que la diferencia no solo se debe al género, sino a la categoria de los profesores y la cantidad de mujeres presentes en cada una. Esto lo podemos comprobar verificando los salarios de las otras categorias.

Seguido lo anterior, verificamos los valores promedio de salarios ente hombres y mujeres para las categorias presentes en la base de datos:

Asociado <- filter(Datos[,5:6], Datos$rank=="AssocProf")
tapply(Asociado$salary,Asociado$sex,mean)

Asistente <- filter(Datos[,5:6], Datos$rank=="AsstProf")
tapply(Asistente$salary,Asistente$sex,mean)

Prof <- filter(Datos[,5:6], Datos$rank=="Prof")
tapply(Prof$salary,Prof$sex,mean)
Category Female Male Diferencia
asstProf 78049.91 81311.46 4.01%
assocProf 88512.8 94869.7 6.7%
Prof 121967.6 127120.8 4.05%

Verificamos si la variable discipline tiene una relacion con la variable category. Graficamos la relacion de las variables discipline vs category, para verificar el impacto o la correlación que puedan tener con respecto a la diferencia de salarios.

barplot(DisciplinaPorRank, col=c("azure2","azure3"),legend.text=c("A","B"),xlab = "Rank",
        ylab="Frecuencia",main="Disciplinas en diferentes categorías",
        args.legend = list(x = "top"))

Respuesta complementaria

Finalmente, el analisis presentado nos permite concluir que la diferencia de salarios entre hombres y mujeres no solo depende de la distribución de género, sino tambien de la categoria y la cantidad de mujeres presentes en cada una, esta última es la que influye significativamente en el promedio salarial de los hombres, ya que, la categoría que mayor promedio de salarios tiene, es en la que menos cantidad de mujeres registra.