Actividad 1 Aplicación de análisis exploratorio de datos con datos de rotacion

La siguiente actividad corresponde a una compañía que presenta una situación de alta rotación (personas que se retiran de manera voluntaria de la compañía) en algunos empleados. La actividad consiste en por medio de la exploración de una base de datos en la cual se identifican posibles factores que se relacionan con la rotación tales como salario, carga laboral entre otros. Se pretende que el estudiante realice una descripción de la base, luego relaciones entre factores previamente identificados con la rotación y finalmente con estos factores proponer una estrategia de retención para mejorar las cifras de rotación.

1. Seleccion de variables

VARIABLES CATEGORICAS

1. Estado civil: Se espera que las personas solteras se relacionen con la rotación debido a que cuentan con menores responsabilidades en comparación a las personas comprometidas o casadas. La hipótesis plateada es que las personas solteras tienen más probabilidad de rotación.

2. Viaje de negocios: Se plantea la hipótesis de que las personas que viajan frecuentemente tienden a rotar menos que las que lo hacen raramente o no viajan, ya que los viajes permiten a los empleados estar en contacto con otras personas y salir de sus espacios de trabajo para distraerse de sus labores comunes.

3. Educación: Se espera que las personas con mayor educación tiendan a tener más acceso oportunidades en términos laborales lo que podría relacionarse con el proceso de rotación. La hipótesis es que las personas profesionales y con posgrado tienen mayor posibilidad de rotar por el acceso a nuevas ofertas laborales.

VARIABLES CUANTITATIVAS

1. Edad: Actualmente las personas más jóvenes tienden a tener constantemente cambios en términos laborales por razones como su estado emocional y salud mental, búsqueda de nuevas oportunidades, mejores salarios, entre otros. Se plantea la hipótesis de que las personas mayores tienden a rotar menos debido a que probablemente cuentan con mas responsabilidades y buscan una mayor estabilidad.

2. Satisfacción laboral: Se espera que las personas con menor satisfacción laboral sean las que más rotan, ya que es muy probable que les disguste alguno de los aspectos de su cargo o actividad.

3. Ingreso mensual: Se crea la hipótesis de que las persona que tienen un mayor ingreso mensual son las que menos tienden a rotar debido a que probablemente se les hace más fácil suplir todas las necesidades económicas.

library(readxl)
datos = read_excel("C:/Users/yeffe/OneDrive/Documentos/Maestria Ciencia de Datos/Primer semestre/Metodos de simulación estadistica/Achivos de R/Datos_Rotación.xlsx")
names(datos)
##  [1] "Rotación"                    "Edad"                       
##  [3] "Viaje de Negocios"           "Departamento"               
##  [5] "Distancia_Casa"              "Educación"                  
##  [7] "Campo_Educación"             "Satisfacción_Ambiental"     
##  [9] "Genero"                      "Cargo"                      
## [11] "Satisfación_Laboral"         "Estado_Civil"               
## [13] "Ingreso_Mensual"             "Trabajos_Anteriores"        
## [15] "Horas_Extra"                 "Porcentaje_aumento_salarial"
## [17] "Rendimiento_Laboral"         "Años_Experiencia"           
## [19] "Capacitaciones"              "Equilibrio_Trabajo_Vida"    
## [21] "Antigüedad"                  "Antigüedad_Cargo"           
## [23] "Años_ultima_promoción"       "Años_acargo_con_mismo_jefe"

2. Análisis univariado

A continuación, se realiza en análisis univariado a cada una de las variables seleccionadas.

VARIABLES CATEGORICAS

En un inicio se procede a realizar una tabla resumen de las variables en esta área.

y <- table1::table1(~ Estado_Civil+`Viaje de Negocios`+factor(Educación) | Rotación, data = datos)
y
No
(N=1233)
Si
(N=237)
Overall
(N=1470)
Estado_Civil
Casado 589 (47.8%) 84 (35.4%) 673 (45.8%)
Divorciado 294 (23.8%) 33 (13.9%) 327 (22.2%)
Soltero 350 (28.4%) 120 (50.6%) 470 (32.0%)
Viaje de Negocios
Frecuentemente 208 (16.9%) 69 (29.1%) 277 (18.8%)
No_Viaja 138 (11.2%) 12 (5.1%) 150 (10.2%)
Raramente 887 (71.9%) 156 (65.8%) 1043 (71.0%)
factor(Educación)
1 139 (11.3%) 31 (13.1%) 170 (11.6%)
2 238 (19.3%) 44 (18.6%) 282 (19.2%)
3 473 (38.4%) 99 (41.8%) 572 (38.9%)
4 340 (27.6%) 58 (24.5%) 398 (27.1%)
5 43 (3.5%) 5 (2.1%) 48 (3.3%)

Por otro lado, se presentan las graficas relacionadas a las variables trabajadas en este caso:

require(ggplot2)
## Loading required package: ggplot2
require (ggpubr)
## Loading required package: ggpubr
g1=ggplot(datos,aes(x=Estado_Civil))+geom_bar(col = "blue")+theme_bw()
g2=ggplot(datos,aes(x=`Viaje de Negocios`))+geom_bar(col = "blue")+theme_bw()
g3=ggplot(datos,aes(x=Educación))+geom_bar(col = "blue")+theme_bw()
ggarrange(g2, g1, g3, labels = c("D", "E", "F"),ncol = 2, nrow = 2)

A partir de la tabla generada y las graficas se pueden inferir valores que permiten realizar análisis a las variables de manera unitaria, por ejemplo en términos del estado civil de los trabajadores de la empresa se obtiene que el porcentaje más grande pertenece a las personas casadas con un 45.8% para un total de 673 trabajadores, por el contrario, el valor mas bajo con tan solo 327 personas son los divorciadas los cuales abarcan tan solo un 22.2%, seguido después de las personas solteras con un 32% y total de 470 personas.

Con relación a los viajes realizados por los empleados del negocio, se encontró que más de la mitad viajan muy raramente, con un total de 1043 personas las cuales representan el 71%. Solo 150 empleados que representan el 10.2% no viaja y el restante 18.8% (277 personas) viajan frecuentemente. En términos de educación la gran mayoría de trabajadores cuenta con una educación técnica y tecnológica los cuales representan el 38.9% (572 personas), los empleados con posgrado son el grupo mas pequeño presente en la empresa con tan solo un 3.3% del total con 47 personas.

VARIABLES CUANTITATIVAS

Se realiza una segunda tabla que permita visualizar los resultados obtenidos para las variables cuantitativas.

y <- table1::table1(~ Edad+factor(Satisfación_Laboral)+Ingreso_Mensual | Rotación, data = datos)
y
No
(N=1233)
Si
(N=237)
Overall
(N=1470)
Edad
Mean (SD) 37.6 (8.89) 33.6 (9.69) 36.9 (9.14)
Median [Min, Max] 36.0 [18.0, 60.0] 32.0 [18.0, 58.0] 36.0 [18.0, 60.0]
factor(Satisfación_Laboral)
1 223 (18.1%) 66 (27.8%) 289 (19.7%)
2 234 (19.0%) 46 (19.4%) 280 (19.0%)
3 369 (29.9%) 73 (30.8%) 442 (30.1%)
4 407 (33.0%) 52 (21.9%) 459 (31.2%)
Ingreso_Mensual
Mean (SD) 6830 (4820) 4790 (3640) 6500 (4710)
Median [Min, Max] 5200 [1050, 20000] 3200 [1010, 19900] 4920 [1010, 20000]

Se presentan las graficas relacionadas a las variables trabajadas de tipo cuantitativo:

x = c (datos$Satisfación_Laboral)
datos2 = table(x)
etiquetas = c("Demasiado","Algunas veces","Pocas veces","Nada")
pie(datos2, labels=etiquetas,col=rainbow(length(datos2)))

g1=ggplot(datos,aes(x=Edad))+geom_bar(col = "red")+theme_bw()
g3=ggplot(datos,aes(x=Ingreso_Mensual))+geom_histogram(col = "red")+theme_bw()
ggarrange(g1, g3, labels = c( "E", "F"),ncol = 2, nrow = 1)
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

La edad media de los trabajadores de la empresa es de 36.9 años, sin embargo, se cuenta con una desviación estándar muy por encima de 1 la cual alcanza un valor de 9.14, esta dispersión se ve reflejada con la edad mínima de 18 años y máxima de 60 años en el grupo evaluado. En términos generales los empleados de la empresa sienten un grado alto de satisfacción ya que en los valores 3 y 4 acumulan un porcentaje total de 61.3% (suma de los dos porcentajes obtenidos 30.1% mas 31.2%), los empleados más insatisfechos representan únicamente el 19.7% (289 personas).

Con relación al ingreso mensual obtenido por los trabajadores se tiene que la media general del sueldo es de $6,500,000 sin embargo la desviación estándar que genera ese mismo valor es de 4710 lo que representa una dispersión muy elevada. Esto anterior se corrobora en la revisión del sueldo mínimo $1,010,000 y el máximo $20,000,000, entre los cuales hay un rango considerable.

3. Análisis bivariado

A continuación, se realiza un análisis bivariado a cada una de las variables seleccionadas.

VARIABLES CATEGORICAS

Se realizan las gráficas necesarias para el análisis de las variables seleccionadas, teniendo como resultado la variable de rotación

require(CGPfunctions)
## Loading required package: CGPfunctions
PlotXTabs2(data = datos,x = Estado_Civil,y = Rotación)

1. Estado civil: Como se planteó en la hipótesis mas de la mitad de las personas que realizaron el proceso de rotación son las que se encuentran en el grupo de solteros con un 26%. Los casados están por debajo de los solteros, son el grupo intermedio con un 12% de personas las cuales rotan.

PlotXTabs2(data = datos,x = `Viaje de Negocios`,y = Rotación)

2. Viaje de negocios: Al contrario de lo que se había planteado, el grupo que menos tuvo rotación con relación a la variable de viajes son las personas que no viajan, esto se puede deber a que tienen una estabilidad en un mismo sitio los que les permite compartir más tiempo con familias y amigos.

PlotXTabs2(data = datos,x = Educación,y = Rotación)

3. Educación: Aunque los profesionales son el segundo grupo en términos de rotación con un 24.5%, se encuentra que el grupo con mayor rotación en la empresa son los técnicos, tecnólogos y tambien los bachilleres, esto también se puede deber en gran medida a la alta demanda que actualmente se presenta en estas áreas, debido principalmente a que ayuda a las empresas a disminuir el costo de mano de obra.

VARIABLES CUANTITATIVAS

Se realizan las gráficas necesarias para el análisis de las variables cuantitativas, teniendo como resultado la variable de rotación

t.test(datos$Edad~datos$Rotación)
## 
##  Welch Two Sample t-test
## 
## data:  datos$Edad by datos$Rotación
## t = 5.828, df = 316.93, p-value = 1.38e-08
## alternative hypothesis: true difference in means between group No and group Si is not equal to 0
## 95 percent confidence interval:
##  2.618930 5.288346
## sample estimates:
## mean in group No mean in group Si 
##         37.56123         33.60759
datos$Edad_grupo=cut(datos$Edad,breaks = c(0,30,40,50,60))
PlotXTabs2(data = datos,x = Edad_grupo,y = Rotación)

1. Edad: Como se esperaba, en términos de edad las personas que suelen rotar son más jóvenes en comparación a los que no rotan. La media de las personas que con mayor frecuencia rotan es de 33.6 años, por otro lado, las personas que menos tienden a rotar son mayores con una media de edad de 37.6 años.Las personas menores de 30 años son el grupo que más rotación presenta con un 26% del total de trabajadores con esa edad.

t.test(datos$Satisfación_Laboral~datos$Rotación)
## 
##  Welch Two Sample t-test
## 
## data:  datos$Satisfación_Laboral by datos$Rotación
## t = 3.9261, df = 328.59, p-value = 0.0001052
## alternative hypothesis: true difference in means between group No and group Si is not equal to 0
## 95 percent confidence interval:
##  0.1547890 0.4656797
## sample estimates:
## mean in group No mean in group Si 
##         2.778589         2.468354
PlotXTabs2(data = datos,x = Satisfación_Laboral,y = Rotación)

2. Satisfacción laboral: Como se había planteado en el principio en la hipótesis, las personas que menos satisfacción laboral tienen son las que mas tienden a rotar siendo un 23% de personas de este grupo las que si lo hicieron.

t.test(datos$Ingreso_Mensual~datos$Rotación)
## 
##  Welch Two Sample t-test
## 
## data:  datos$Ingreso_Mensual by datos$Rotación
## t = 7.4826, df = 412.74, p-value = 4.434e-13
## alternative hypothesis: true difference in means between group No and group Si is not equal to 0
## 95 percent confidence interval:
##  1508.244 2583.050
## sample estimates:
## mean in group No mean in group Si 
##         6832.740         4787.093
datos$Ingreso_grupo=cut(datos$Ingreso_Mensual,breaks = c(0,3000,7000,12000,20000))
PlotXTabs2(data = datos,x = Ingreso_grupo,y = Rotación)

3. Ingreso mensual: Efectivamente las personas que ganan mas de tres salarios mínimos son las personas que menos porcentaje de rotación tienen. Por el contrario, las personas que tienen unos ingresos menores a los tres salarios mínimos son las que mas rotación presentan con un 29% del total de personas que componen ese grupo.

4. Conclusiones y posibles soluciones

En conclusión, se recomendaría a la empresa abarcar principalmente sus esfuerzos en dos áreas que son especialmente cruciales. La primera es fomentar acciones que permitan llamar la atención y permanencia de las personas jóvenes; se pueden implementar estrategias muy utilizadas en la actualidad en términos de bienestar, diversión y salud ocupacional en trabajadores, si se trata de una empresa presencial se puede gestionar zonas de descanso para que los trabajadores en sus pausas activas puedan tomarse un respiro, también puede crearse espacios de juegos con actividades tradicionales como mesas de Ping-Pong, zonas de juegos de mesa, áreas de videojuegos, canchas (futbol, basquetbol, entre otros.), por ultimo otro posible espacio son las zonas de lunch gratuito en donde las personas puedan ir a comer o tomar algo sin necesidad de salir de sus espacios de trabajo y sin costo alguno. Si se tratase de una empresa con trabajo remoto, pueden mirar la opción de regalar bonos, realizar sorteos en donde premien a los trabajadores, dar cursos de crecimiento personal, enviar mercados o lunch sorpresa, entre otros. Todas estas opciones se podrían evaluar en la medida que el presupuesto lo permita, ya que las anteriores estrategias se han ido implementando en varias empresas, especialmente las de tecnología y han dado excelentes resultados, precisamente esto permite la continuidad de muchas personas jóvenes las cuales ven su espacio de trabajo no como una obligación si no como una segunda casa.

La segunda área que se puede fortalecer y en donde se presenta una gran deserción, son los trabajadores que ganan menos de los tres salarios mínimos ($3,000,000). En este caso podría plantearse la idea del aumento salarial para este grupo en específico, no conllevaría un gasto presupuestal muy grande teniendo en cuenta que el grupo de personas que lo componen esta por debajo del 30% total de la empresa. Otra solución podría ser plantear bonos económicos en fechas especiales o poniendo ciertas metas de cumplimiento en donde se les reconozca económicamente si estas se llegan a cumplir.