La siguiente actividad corresponde a una compañía que presenta una situación de alta rotación (personas que se retiran de manera voluntaria de la compañía) en algunos empleados. La actividad consiste en por medio de la exploración de una base de datos en la cual se identifican posibles factores que se relacionan con la rotación tales como salario, carga laboral entre otros. Se pretende que el estudiante realice una descripción de la base, luego relaciones entre factores previamente identificados con la rotación y finalmente con estos factores proponer una estrategia de retención para mejorar las cifras de rotación.
En primera instancia cargaremos los datos de rotación, además, analizaremos de manera general cuales son las variables o columnas de nuestro data set, adicional, filtraremos solo los datos .
library("readxl")
datos = read_excel("C:/Users/Lenovo/Documents/Datos_Rotacion.xlsx")
names(datos)
## [1] "Rotación" "Edad"
## [3] "Viaje de Negocios" "Departamento"
## [5] "Distancia_Casa" "Educación"
## [7] "Campo_Educación" "Satisfacción_Ambiental"
## [9] "Genero" "Cargo"
## [11] "Satisfación_Laboral" "Estado_Civil"
## [13] "Ingreso_Mensual" "Trabajos_Anteriores"
## [15] "Horas_Extra" "Porcentaje_aumento_salarial"
## [17] "Rendimiento_Laboral" "Años_Experiencia"
## [19] "Capacitaciones" "Equilibrio_Trabajo_Vida"
## [21] "Antigüedad" "Antigüedad_Cargo"
## [23] "Años_ultima_promoción" "Años_acargo_con_mismo_jefe"
1. Seleccionar 3 variables categóricas (distintas de rotación) y 3 variables cuantitativas, que consideren estén relacionadas con la rotación. Nota: Justificar por que estas variables están relacionadas y que tipo de relación se espera (Hipótesis). Ejemplo: Se espera que las horas extra se relacionen con la rotación ya que las personas podrían desgastarse mas al trabajar horas extra y descuidan aspectos personales. La hipótesis es que las personas que trabajan horas extra tienen mayor posibilidad de rotar que las que no trabajan extra. (serian 6, una por variable).
Dado lo anterior, seleccionamos 3 variables categóricas las cuales son: Edada, Estado civil, Genero. En base a estas variables se formulan las siguientes Hipótesis:
• La Edad y la rotación tienen una relación dado que las personas más jóvenes tienden a cambiar de trabajo de manera frecuente.
• Se espera que el estado civil se relacione con la rotación ya que las personas solteras podrían presentar una baja estabilidad laboral debito a sus pocas responsabilidades.
• El género se relaciona con la rotación ya que el género femenino puede sentirse más amenazada que el genero masculino debido a la discriminación o la poca cantidad de mujeres.
De igual manera seleccionamos 3 variables cuantitativas: Antigüedad, rendimiento laboral, Distancia Casa y se formulas las siguientes hipótesis.
• La antigüedad y la rotación tienen una relación porque las personas que demoran mas en la empresa tienen mas probabilidad de irse, debido a la monotonía del trabajo.
• El rendimiento y la rotación se relacionan porque las personas con bajo rendimiento tienen mas probabilidad de abandonar la compañía que los que tienen un rendimiento alto.
• Las personas con más distancia de casa rotan más rápido, debido que gastan mucho tiempo en transportarse.
2. Realizar un análisis univariado (caracterización). Nota: Los indicadores o gráficos se usan dependiendo del tipo de variable (cuanti o cuali). Incluir interpretaciones de la rotación.
Procedemos hacer un análisis univariado por algunas variables de la data, para esto realizamos los siguientes gráficos.
library("ggplot2")
library("ggpubr")
##Categorizamos la edad por rangos
edades_new = cut(datos$Edad, breaks = c(0, 14, 26, 59, Inf),
labels = c("Niño", "Joven", "Adulto", "Mayor"))
##Construimos las graficas
grafica_uno=ggplot(datos,aes(x=edades_new))+geom_bar()+theme_bw()
grafica_dos=ggplot(datos,aes(x=Estado_Civil))+geom_bar()+theme_bw()
grafica_tres = ggplot(datos, aes(x = "", y = Genero, fill = Genero)) +
geom_col() + coord_polar(theta = "y")
grafica_cuatro = ggplot(datos,aes(x=Distancia_Casa))+geom_bar()+theme_bw()
grafica_cinco = ggplot(datos,aes(x=Antigüedad))+geom_histogram(bins=5)+theme_bw()
grafica_seis = ggplot(datos,aes(x=Rendimiento_Laboral))+geom_histogram(bins=10)+theme_bw()
ggarrange(grafica_uno, grafica_dos,grafica_tres, grafica_cuatro, grafica_cinco, grafica_seis,
labels = c("A","B","C", "D","E","F"),ncol = 2, nrow = 3)
Revisando las grafica se observa que, aproximadamente el 60% de la población analizada es de género masculino, adicional se observa que la mayoría de la población se encuentra a una distancia de 1 a 10 Km del del trabajo, también se observa las personas casadas representan el 45% de la población y el otro porciento se distribuyen entre Solteros y divorciados, además categorizando las edades encontramos que el 88% de la población está en la etapa de adultez la cual es de 27 a 59 años. Por otra parte, es importante destacar que la mayoría de personas tienen un rendimiento de 3 puntos.
datos$Edad_grupo=cut(datos$Edad,breaks = c(0,30,40,50,60))
library("table1", warn.conflicts = FALSE)
y <- table1::table1(~ Edad+Estado_Civil+Genero+Distancia_Casa+Antigüedad+Rendimiento_Laboral | Rotación, data = datos)
y
| No (N=1233) |
Si (N=237) |
Overall (N=1470) |
|
|---|---|---|---|
| Edad | |||
| Mean (SD) | 37.6 (8.89) | 33.6 (9.69) | 36.9 (9.14) |
| Median [Min, Max] | 36.0 [18.0, 60.0] | 32.0 [18.0, 58.0] | 36.0 [18.0, 60.0] |
| Estado_Civil | |||
| Casado | 589 (47.8%) | 84 (35.4%) | 673 (45.8%) |
| Divorciado | 294 (23.8%) | 33 (13.9%) | 327 (22.2%) |
| Soltero | 350 (28.4%) | 120 (50.6%) | 470 (32.0%) |
| Genero | |||
| F | 501 (40.6%) | 87 (36.7%) | 588 (40.0%) |
| M | 732 (59.4%) | 150 (63.3%) | 882 (60.0%) |
| Distancia_Casa | |||
| Mean (SD) | 8.92 (8.01) | 10.6 (8.45) | 9.19 (8.11) |
| Median [Min, Max] | 7.00 [1.00, 29.0] | 9.00 [1.00, 29.0] | 7.00 [1.00, 29.0] |
| Antigüedad | |||
| Mean (SD) | 7.37 (6.10) | 5.13 (5.95) | 7.01 (6.13) |
| Median [Min, Max] | 6.00 [0, 37.0] | 3.00 [0, 40.0] | 5.00 [0, 40.0] |
| Rendimiento_Laboral | |||
| Mean (SD) | 3.15 (0.360) | 3.16 (0.364) | 3.15 (0.361) |
| Median [Min, Max] | 3.00 [3.00, 4.00] | 3.00 [3.00, 4.00] | 3.00 [3.00, 4.00] |
Si analizamos la tabla anterior, podemos ver de manera descriptiva la relación de las variables seleccionadas en el punto 1 con la rotación, por ejemplo, si miramos la variable estado civil contra la rotación destacamos que los solteros representan un 50% de las personas que si rotan, adicional, el promedio de edad de las personas que sí rotan es de 34 años y de las que no es de 38 años. Por otra parte, el promedio del rendimiento laboral entre las personas que rotan y los que no, no tiene diferencia significativa.
3. Realizar un análisis de bivariado en donde la variable respuesta sea la rotación, con base en estos resultados identifique cuales son las variables determinantes de la rotación e interpretar. Compare estos resultados con la hipotesis planteada en el punto 1.
t.test(datos$Edad~datos$Rotación)
##
## Welch Two Sample t-test
##
## data: datos$Edad by datos$Rotación
## t = 5.828, df = 316.93, p-value = 1.38e-08
## alternative hypothesis: true difference in means between group No and group Si is not equal to 0
## 95 percent confidence interval:
## 2.618930 5.288346
## sample estimates:
## mean in group No mean in group Si
## 37.56123 33.60759
Teniendo en cuenta la tabla anterior, vemos que el p-value es de 0.0000000138 podemos concluir que tenemos pruebas estadísticas significativas para poder afirmar que las medias no son iguales y hay diferencias significativas, por otra parte nos da un intervalo de confianza de 2.618930 y 5.288346
library("CGPfunctions")
PlotXTabs2(data = datos,x = Estado_Civil,y = Rotación)
Si comparamos la grafica anterior y la Hipótesis que se planteó en el punto 1 con respecto a la relación entre el estado civil y la rotación, podemos ver que las personas solteras tienen mas grado de rotación que los otros estados civiles.
PlotXTabs2(data = datos,x = Genero,y = Rotación)
Según la gráfica anterior, podemos ver que el Genero no es una variable que influya directamente en la rotación, ya que la diferencia de medias es no es tan significativa y los porcentajes de rotación entre hombres y mujeres tienen una diferencia de 2 puntos, por la tanto la Hipótesis propuesta en el punto 1 se podría rechazar.
t.test(datos$Rendimiento_Laboral~datos$Rotación)
##
## Welch Two Sample t-test
##
## data: datos$Rendimiento_Laboral by datos$Rotación
## t = -0.10999, df = 331.22, p-value = 0.9125
## alternative hypothesis: true difference in means between group No and group Si is not equal to 0
## 95 percent confidence interval:
## -0.05350780 0.04784086
## sample estimates:
## mean in group No mean in group Si
## 3.153285 3.156118
Si hacemos la relación entre el rendimiento y la rotación vemos que las medias de los que rotan y los que no se mantienen es aproximadamente iguales, por lo que el rendimiento no es un factor que determine la posibilidad de rotar, contrario a la hipótesis que se planteó en el punto 1.
t.test(datos$Antigüedad~datos$Rotación)
##
## Welch Two Sample t-test
##
## data: datos$Antigüedad by datos$Rotación
## t = 5.2826, df = 338.21, p-value = 2.286e-07
## alternative hypothesis: true difference in means between group No and group Si is not equal to 0
## 95 percent confidence interval:
## 1.404805 3.071629
## sample estimates:
## mean in group No mean in group Si
## 7.369019 5.130802
Si hacemos un análisis a la tablan anterior, podemos ver que la media de antigüedad de las personas que rotan están en 5 años y los que no están en 7 por lo tanto, podemos decir que las personas con mas años dentro de la compañía tienen menos probabilidad de rotar, lo contrario a la hipótesis propuesta en el punto 1.
t.test(datos$Distancia_Casa~datos$Rotación)
##
## Welch Two Sample t-test
##
## data: datos$Distancia_Casa by datos$Rotación
## t = -2.8882, df = 322.72, p-value = 0.004137
## alternative hypothesis: true difference in means between group No and group Si is not equal to 0
## 95 percent confidence interval:
## -2.8870025 -0.5475146
## sample estimates:
## mean in group No mean in group Si
## 8.915653 10.632911
La distancia de casa y la rotación parecen estar un poco relacionadas, sin embargo, al tener valores extremos de 1km y 30km y viendo que mayoría de personas están en el rango de 1km a 10 km confiarnos en la media podría ser un poco peligroso, ya que por algún valor muy alto o muy bajo la media podría arrastrarse más a un lado, sin embargo, el hecho de que la mayoría de las personas que rotan estén en el rango de [1,10] no se cumple la hipótesis planteada en el punto 1.
Después de analizar las 6 variables propuestas en el punto 1, podemos concluir que el sexo no es un factor determinante para pronosticar la rotación de una persona, sin embargo la rotación en personas solteras es mayor que en otros estados civiles, por lo que se podrían implementar espacios de aprovechamiento, retroalimentación y aprendizaje para entender la problemática de las personas solteras y buscar soluciones al problema de rotación, adicional implementar el trabajo remoto y así favorecer a las personas que gastan mas en el recorrido a casa.
Por otra parte, revisar la remuneración y la satisfacción laboral de las personas solteras para encarar el problema y así reducir la rotación, adicional entregar bonos a las personas con mas tiempo en la compañía.