A continuación, cargaremos la base de datos de Excel para empezar el análisis exploratorio. Con base en los datos de rotación realizar los puntos 1 a 4:
library(readxl)
#datos = read_excel("C:/Users/Familia Camargo M/Desktop/OSCAR/Maestría en Ciencia de Datos/Métodos y Simulación Estadística/Datos_Rotacion.xlsx")
datos = read_excel("./Datos_Rotacion.xlsx")
names(datos)
## [1] "Rotación" "Edad"
## [3] "Viaje de Negocios" "Departamento"
## [5] "Distancia_Casa" "Educación"
## [7] "Campo_Educación" "Satisfacción_Ambiental"
## [9] "Genero" "Cargo"
## [11] "Satisfación_Laboral" "Estado_Civil"
## [13] "Ingreso_Mensual" "Trabajos_Anteriores"
## [15] "Horas_Extra" "Porcentaje_aumento_salarial"
## [17] "Rendimiento_Laboral" "Años_Experiencia"
## [19] "Capacitaciones" "Equilibrio_Trabajo_Vida"
## [21] "Antigüedad" "Antigüedad_Cargo"
## [23] "Años_ultima_promoción" "Años_acargo_con_mismo_jefe"
Seleccionar 3 variables categóricas (distintas de rotación) y 3 variables cuantitativas, que consideren estén relacionadas con la rotación. Nota: Justificar por qué estas variables están relacionadas y que tipo de relación se espera (Hipótesis). Ejemplo: Se espera que las horas extra se relacionen con la rotación ya que las personas podrían desgastarse más al trabajar horas extra y descuidan aspectos personales. La hipótesis es que las personas que trabajan horas extra tienen mayor posibilidad de rotar que las que no trabajan extra. (serian 6, una por variable).
1- Viaje de negocios: Si tal vez la cantidad de viajes son muchos, la persona podría pasar mucho tiempo lejos de su familia y eso no necesariamente es bueno. Por lo tanto, eso significaría un malestar respecto a las condiciones laborales y puede que lleve al empleado a tomar la decisión de renunciar a su puesto. La hipótesis será entonces que a mayor cantidad de viajes es más probable que las personas renuncien.
2- Cargo: Teniendo en cuenta que las personas con menor cargo o de jerarquía más baja siempre están buscando posibilidades de ascender y no siempre las consiguen en la misma empresa donde laboran, es posible que esta sea una razón para cambiar de trabajo. Además, puede que sólo tengan este empleo en puestos bajos para adquirir experiencia y que esto apalanque una ubicación mejor en otra compañía. La hipótesis será entonces que a menor cargo más probabilidad de rotación.
3- Estado civil: Ocurre con frecuencia que las personas que tienen una pareja estable y con familia tienden a trabajar mucho más y a conservar su puesto laboral dado que esto asegura ingresos de forma segura. Por otra parte, los solteros están abiertos a nuevas aventuras y a empezar de nuevo en cualquier momento. Por lo tanto, la hipótesis será que los solteros tienen mayor probabilidad de rotación que los casados.
1-Distancia Casa: En nuestra experiencia personal no hay nada mejor que trabajar cerca a la casa. Primero, se reducen los tiempos de traslado; segundo, se evita la incomodidad del transporte público; y tercero, posibilita el uso de diferentes medios de transporte como bicicleta y patineta. Por lo anterior, la hipótesis es que a menor distancia del trabajo es mayor la probabilidad de no rotar de empleo.
2-Satisfacción ambiental: Para muchas personas es importante la estabilidad laboral y el salario ofrecido, sin embargo, hay cosas que también son importantes a la hora de desempeñar las labores. Por lo tanto, la hipótesis es que, a mejor satisfacción en el ambiente laboral, menor es la probabilidad de rotación.
3-Trabajos anteriores: Una persona que haya tenido muchos trabajos anteriores podría significar que nunca están conformes en la empresa y siempre quieren nuevas experiencias. La hipótesis será entonces que a menor cantidad de trabajos anteriores, menor es la probabilidad de rotación.
Para esta parte de la actividad, se hará análisis exploratorio de cada una de las variables descritas en el punto anterior teniendo en cuenta los gráficos de estas, empezando adicionalmente con la variable dependiente que se tiene, en este caso, “Rotación”.
Variable dependiente: Rotación
library(ggplot2)
ggplot(datos, aes(x=`Rotación`, fill =`Rotación`))+
geom_bar()+ #grafica de barras
geom_text(stat='count', aes(label=..count..), vjust=1)+ # coloca los count en cada barra
theme_bw() #fondo blanco y lineas de ejes negras
Se observa que el conjunto de datos disponible no está balanceado frente a la variable Rotación, pues se presentan muchos más casos de NO rotación frente a SI. Este hecho debe tomarse en cuenta en análisis posteriores, seguramente incluyendo técnicas de balanceo (aún no vistas en clase).
1- Viaje de negocios:
library(ggplot2)
ggplot(datos, aes(x=`Viaje de Negocios`, fill =`Viaje de Negocios`))+
geom_bar()+ #grafica de barras
geom_text(stat='count', aes(label=..count..), vjust=1)+ # coloca los count en cada barra
theme_bw() #fondo blanco y lineas de ejes negras
La gráfica nos muestra que la mayoría de personas que aún trabajan o han trabajado en la empresa viajan en pocas ocasiones, de hecho esta población es más del 50% del total de la base de datos estudiada.
2- Cargo:
ggplot(datos, aes(x=Cargo, fill = Cargo))+
#scale_fill_brewer(palette="Blues")
geom_bar()+
geom_text(stat='count', aes(label=..count..), vjust=1)+ # coloca los count en cada barra
theme_bw()+
theme(axis.text.x = element_text(angle = 90)) #Gráfica de barras
Continuando, vemos en la gráfica anterior que la menor cantidad de empleos lo ocupan las personas de Recursos Humanos, seguidos de Directores Investigativos y Representantes de Ventas. En contra parte, la mayoría de la población se concentra entre los Ejecutivos de Ventas, Investigadores Científicos y Técnicos de Laboratorio.
3- Estado civil:
ggplot(datos, aes(x=Estado_Civil, fill = Estado_Civil))+
geom_bar()+
geom_text(stat='count', aes(label=..count..), vjust=1)+ # coloca los count en cada barra
theme_bw() #Gráfica de barras
Por otra parte, revisando la distribución de los empleados por su estado civil vemos que más de 650 son casados, cerca de 480 son solteros y un poco más de 300 son divorciados, los últimos siendo la mitad de la población que anteriormente ha contraído nupcias.
1-Distancia Casa:
ggplot(datos, aes(x=Distancia_Casa, fill = Distancia_Casa))+
geom_bar()+
geom_text(stat='count', aes(label=..count..), vjust=1)+ # coloca los count en cada barra
theme_bw() #Gráfica de barras
Adicionalmente, la gráfica en donde vemos la distancia de los empleados al sitio de trabajo nos muestra que la mayoría de los empleados prefieren vivir cerca al sitio de trabajo, presentando mayor cantidad de personas en el rango de 0-10 que en los otros rangos.
2-Satisfacción ambiental:
ggplot(datos, aes(x=Satisfacción_Ambiental,fill = Satisfacción_Ambiental))+
geom_bar()+
geom_text(stat='count', aes(label=..count..), vjust=1)+ # coloca los count en cada barra
theme_bw() #Gráfica de barras
La gráfica tiene una distribución de la cual podemos concluir que no hay mucha diferencia entre la cantidad de personas que tiene satisfacción ambiental 1 y 2, de ahí hay un salto (cerca de 300 empleados más) a las personas que puntuaron 3 y de las que puntuaron 4.
3-Trabajos anteriores:
ggplot(datos, aes(x=Trabajos_Anteriores, fill = Trabajos_Anteriores))+
geom_bar()+
geom_text(stat='count', aes(label=..count..), vjust=1)+ # coloca los count en cada barra
theme_bw() #Gráfica de barras
Para terminar esta sección, notamos cómo la mayoría de empleados (mas de 500 personas) tienen sólamente un empleo anterior, mientras que la gente entre 5 y 9 empleos anteriores hay un promedio de 60 empleados aproximadamente por cada una de las columnas de la gráfica.
Por otra parte, y habiendo realizado un análisis univariado, se hará una revisión de dos variables simultáneamente contra la variable de repuesta Rotación. De esta forma, se podrá identificar de la mejor manera algunas de las variables más influyentes en la rotación, o no, de los empleados.
1- Viaje de negocios:
#install.packages("ggplot2")
#library(ggplot2)
ggplot(datos, aes(x=`Viaje de Negocios`, fill = Rotación))+
geom_bar(position="fill")+
ylab('Proporción')+
theme_bw() #Gráfica de barras
Al revisar la gráfica, podemos ver que la proporción de personas que rotan de empleo es mayor cuando se viaja frecuentemente, comparada con el caso de aquellos empleados que no viajan o viajan raramente. Es decir, que entre menos viajes hace el empleado parece ser menor la probabilidad de cambiar de empleo.
Por lo tanto, la hipótesis gana fuerza pues se aprecia una relación inversa entre las variables. Faltaría estudiar si esta diferencia es significativa, además de probar causalidad y la existencia o no de otras variables escondidas antes de probar la hipótesis.
2- Cargo:
ggplot(datos, aes(x=Cargo, fill = Rotación))+
geom_bar(position="fill")+
ylab('Proporción')+
theme_bw()+
theme(axis.text.x = element_text(angle = 90)) #Gráfica de barras
Si tenemos en cuenta que los cargos más altos en la compañía son Gerente, Director Investigativo y Director de Manufactura, podemos observar una tendencia de los empleados en puestos elevados a conservar su cargo y no hacer rotación de empleo. Por otra parte, cargos relativamente inferiores como Representante de Ventas, Ejecutivo de Ventas, personal de Recursos Humanos y Técnicos de Laboratorio son más propensos a cambiar de empleo. Además, los Investigadores Científicos, aunque aparecerían en un grupo intermedio, tienen un poco más de tendencia a la rotación que a conservar su puesto, comparados con los cargos de mayor jerarquía. Finalmente, el caso especial sería la población de Representantes de la Salud pues, aunque parece que su posición en la empresa es jerárquicamente inferior, no tienen tendencia al cambio como se esperaría.
Por lo anterior, la hipótesis gana fuerza pues se evidencia una relación entre las variables. Faltaría si esta diferencia es significativa y probar causalidad y eliminar variables escondidas para aceptar la hipótesis.
3- Estado civil:
ggplot(datos, aes(x=Estado_Civil, fill = Rotación))+
geom_bar(position="fill")+
ylab('Proporción')+
theme_bw() #Gráfica de barras
Al observar la gráfica, podemos identificar que la población soltera aparece con más frecuencia que rota de empleo en comparación con las personas casadas. Estas últimas por su parte, tienen una frecuencia cercana a la de las personas divorciadas y superadas en alto porcentaje por los empleados solteros.
En conclusión, la hipótesis gana fuerza pues se observa una relación entre las variables. Faltaría probar que esta diferencia es significativa, y también probrar causalidad, además de eliminar variables escondidas para aceptar la hipótesis y tomar decisiones al respecto.
1-Distancia Casa:
ggplot(datos, aes(x=Distancia_Casa, fill = Rotación))+
geom_histogram()+
#geom_text(stat='count', aes(label=..count..), vjust=0)+ # coloca los count en cada barra
theme_bw() #Gráfica de barras
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
Teniendo en cuenta que es un poco más complicado poder interpretar este tipo de gráficos con tantas columnas debido a la cantidad de distintos valores que puede tomar la variable “Distancia_Casa”, se aumenta el tamaño del bin un agrupando por cada 10, para posteriormente hacer el respectivo análisis.
ggplot(datos, aes(x=Distancia_Casa, fill = Rotación))+
geom_histogram(binwidth=10)+
#geom_text(stat='count', aes(label=..count..), vjust=-1)+ # coloca los count en cada barra
theme_bw() #Gráfica de barras
Ahora bien, utilizando bins de tamaño 10, podemos observar que los que viven más lejos de su lugar de trabajo, tienen mayor probabilidad de rotar que los grupos anteriores; de hecho, el grupo de personas que vive más cerca pareciera hacer rotación en menos ocasiones.
Observando una gráfica con los porcentajes (en vez de las cantidades) para cada caso, podría encontrarse más evidencia a favor o en contra de la hipótesis, caso que sigue a continuación.
ggplot(datos, aes(x=Distancia_Casa, fill = Rotación))+
geom_histogram(binwidth=10, position='fill')+ # histograma
ylab('Proporción') +
theme_bw() #Fondo blanco y grilla negra
Al observar la gráfica con los porcentajes de casos de rotación o no para cada valor de bin de la variable Distancia_Casa, se observa un leve aumento de los casos con rotación=‘Si’ a medida que se aumenta la distancia a casa. Sin embargo, esta parece ser marginal y por tanto se requerirían análisis más detallados que permitieran confirmar la hipótesis. Con la evidencia hasta el momento, parecería que la hipótesis no se confirma.
2-Satisfacción ambiental:
ggplot(datos, aes(x=Satisfacción_Ambiental, fill = Rotación))+
geom_bar(position="fill")+
ylab('Proporción') +
theme_bw() #Gráfica de barras
Como vemos en la gráfica, se puede notar una leve tendencia a la baja de la rotación de empleo con respecto a una mejor satisfacción ambiental. Hoy en día las personas no solo buscan un mejor salario y condiciones prestacionales dignas sino un trabajo donde no sufran acoso laboral o ambiente hostil.
Lo anterior implica que para sustentar la hipótesis se requerirían analisis adicionales para confirmar si la diferencia encontrada es significativa o una mera casualidad, pues las diferencias son leves. Igualmente hay que probar causalidad y si hay variables escondidas antes de tomar decisiones a partir de la hipótesis.
3-Trabajos anteriores:
ggplot(datos, aes(x=Trabajos_Anteriores, fill = Rotación))+
geom_bar(position="fill")+
ylab('Proporción') +
theme_bw() #Gráfica de barras
Haciendo un trabajo similar a uno de los análisis en una gráfica anterior, se agruparán en rangos para poder identificar mejor los comportamientos de las personas respecto a la cantidad de trabajos anteriores.
ggplot(datos, aes(x=Trabajos_Anteriores, fill = Rotación))+
geom_histogram(binwidth=3, position='fill')+ # histograma
ylab('Proporción') +
theme_bw() #Fondo blanco y grilla negra
Finalmente, se observa una leve tendencia que indica que cuando la cantidad de trabajos anteriores ronda un valor cercano a 7.5, hay un aumento en la ratación. En los otros bins no se observa una relación lineal.
En suma, ante la evidencia leve encontrada, habría que confirmar si las diferencias encontradas son significativas para poder aceptar la hipótesis, además de confirmar causalidad y explorar posibles variables escondidas.
Cantidades vs Proporciones: Al determinar hipótesis sobre variables tanto categóricas como continuas, es importante trabajar con indicadores que permitan comparar los diferentes valores de los grupos proporcionalmente, pues si se trabaja sólo con las cantidades podría llegarse a conclusiones erradas. La proporcionalidad permite confirmar si una situación se presenta en diferente proporcion cuando se cambia algún valor de una variable. El caso de la variable Distancia_Casa es el más claro en este tema, en donde una conclusión podría llegarse desprevenidamente sólo mirando los datos de cantidades. Al analizar los datos de rotación proporcionales para cada caso, las diferencias se reducen dramáticamente.
Canfirmaciíon de hipótesis: Al realizar el análisis de la relación de las variables independientes frente a la variable dependiente de rotación, se observa que aunque se encuentren diferencias en las proporciones, es importante pasar a una revisión más detallada para confirmar que las diferencias son significativas (tema aún no visto en clase), pues de lo contrario se podría caer en conclusiones equivocadas fácilmente.