En una organización, se busca comprender y prever los factores que influyen en la rotación de empleados entre distintos cargos. La empresa ha recopilado datos históricos sobre el empleo de sus trabajadores, incluyendo variables como la antigüedad en el cargo actual, el nivel de satisfacción laboral, el salario actual, edad y otros factores relevantes. La gerencia planea desarrollar un modelo de regresión logística que permita estimar la probabilidad de que un empleado cambie de cargo en el próximo período y determinar cuáles factores indicen en mayor proporción a estos cambios.
Con esta información, la empresa podrá tomar medidas proactivas para retener a su talento clave, identificar áreas de mejora en la gestión de recursos humanos y fomentar un ambiente laboral más estable y tranquilo. La predicción de la probabilidad de rotación de empleados ayudará a la empresa a tomar decisiones estratégicas informadas y a mantener un equipo de trabajo comprometido y satisfecho en sus roles actuales.
Antes de seleccionar las 6 variables (3 Categóricas y 3 Numéricas), se hará una revisión general de los datos para un mejor entendimiento buscando seleccionar las mejores variables que permitan explicar la rotacion.
str(rotacion)
## tibble [1,470 × 25] (S3: tbl_df/tbl/data.frame)
## $ Rotación : chr [1:1470] "Si" "No" "Si" "No" ...
## $ Edad : num [1:1470] 41 49 37 33 27 32 59 30 38 36 ...
## $ Viaje de Negocios : chr [1:1470] "Raramente" "Frecuentemente" "Raramente" "Frecuentemente" ...
## $ Departamento : chr [1:1470] "Ventas" "IyD" "IyD" "IyD" ...
## $ Distancia_Casa : num [1:1470] 1 8 2 3 2 2 3 24 23 27 ...
## $ Educación : num [1:1470] 2 1 2 4 1 2 3 1 3 3 ...
## $ Campo_Educación : chr [1:1470] "Ciencias" "Ciencias" "Otra" "Ciencias" ...
## $ Satisfacción_Ambiental : num [1:1470] 2 3 4 4 1 4 3 4 4 3 ...
## $ Genero : chr [1:1470] "F" "M" "M" "F" ...
## $ Cargo : chr [1:1470] "Ejecutivo_Ventas" "Investigador_Cientifico" "Tecnico_Laboratorio" "Investigador_Cientifico" ...
## $ Satisfación_Laboral : num [1:1470] 4 2 3 3 2 4 1 3 3 3 ...
## $ Estado_Civil : chr [1:1470] "Soltero" "Casado" "Soltero" "Casado" ...
## $ Ingreso_Mensual : num [1:1470] 5993 5130 2090 2909 3468 ...
## $ Trabajos_Anteriores : num [1:1470] 8 1 6 1 9 0 4 1 0 6 ...
## $ Horas_Extra : chr [1:1470] "Si" "No" "Si" "Si" ...
## $ Porcentaje_aumento_salarial: num [1:1470] 11 23 15 11 12 13 20 22 21 13 ...
## $ Rendimiento_Laboral : num [1:1470] 3 4 3 3 3 3 4 4 4 3 ...
## $ Años_Experiencia : num [1:1470] 8 10 7 8 6 8 12 1 10 17 ...
## $ Capacitaciones : num [1:1470] 0 3 3 3 3 2 3 2 2 3 ...
## $ Equilibrio_Trabajo_Vida : num [1:1470] 1 3 3 3 3 2 2 3 3 2 ...
## $ Antigüedad : num [1:1470] 6 10 0 8 2 7 1 1 9 7 ...
## $ Antigüedad_Cargo : num [1:1470] 4 7 0 7 2 7 0 0 7 7 ...
## $ Años_ultima_promoción : num [1:1470] 0 1 0 3 2 3 0 0 1 7 ...
## $ Años_acargo_con_mismo_jefe : num [1:1470] 5 7 0 0 2 6 0 0 8 7 ...
## $ rotacion_bin : num [1:1470] 1 0 1 0 0 0 0 0 0 0 ...
Edad: se espera que la edad se relacione con la rotación ya que las personas más jóvenes pueden ser más arriesgadas a buscar nuevas oportunidades y cambiar de trabajo mientras que a mayor edad se busca más estabilidad laboral. La hipótesis es que a menor edad más rotación, a mayor edad más estabilidad. se espera una relación negativa.
Años_Experiencia: se espera que los años de experiencia se relacione con la rotación ya que las personas con más experiencia buscan más estabilidad y tienden a ocupar cargos más altos, además de entender el costo del cambio. La hipótesis es que a mayor experiencia, menor probabilidad de rotación, ya que los empleados suelen buscar estabilidad laboral. se espera una relación negativa.
Ingreso_Mensual: se espera que el ingreso mensual se relacione con la rotación ya que personas con menores ingresos suelen ver como una forma de aumentar sus ingresos al cambiar de empleo. La hipótesis es que a mayor ingreso hay menor rotación. se espera una relación negativa.
Genero: se espera que el género se relacione con la rotación aunque a priori, no de manera muy clara, ya que los hombres podrían priorizar el estatus y ambición económica para buscar un nuevo empleo y las mujeres podrían priorizar equilibrio trabajo_vida o satisfacción laboral. esto puede depender de expectativas o roles sociales.
Satisfaccion_Laboral: se espera que la satisfacción laboral se relaciona con la rotación ya que quienes están más insatisfechos con su trabajo actual podrían querer buscar un nuevo empleo. La hipótesis es que a mayor satisfacción laboral hay mayor probabilidad de rotación.
Estado Civil: se espera que el estado civil se relacione con la rotación ya que las personas casadas, podrían buscar mayor estabilidad laboral presentando menor rotación. La hipótesis es que los casados rotan menos.
| Minimo | Media | Q1 | Mediana | Q3 | Maximo | Desv_Estandar |
|---|---|---|---|---|---|---|
| 18 | 36.92449 | 30 | 36 | 43 | 60 | 9.135938 |
Tanto el histograma de frecuencia como la gráfica de cajas muestran una distribución simétrica de los valores de la variable edad, es decir, no se presenta un sesgo significativo ya que no se observan outliers o valores atípicos. esto se puede comprar con la cercanía entre la media (36.9) y la mediana (36).
El 50% de los datos (rango intercuartílico) se presentan edades medio-altas (entre 30 y 43 años), esto podría impactar la rotacion según la hipótesis planteada anteriormente, observando una menor rotacion.
| Minimo | Media | Q1 | Mediana | Q3 | Maximo | Desv_Estandar |
|---|---|---|---|---|---|---|
| 0 | 11.27959 | 6 | 10 | 15 | 40 | 7.780782 |
La distribución de los años de experiencia presenta un sesgo a la derecha, esto se comprueba por una media (11.28) superior a la mediana (10), lo cual indica que hay valores altos que impactan el promedio. esto se conforma en el diagrama de cajas, donde se observan varios outliers en la parte superior. la mayoría de empleados se concentra en niveles bajos o medios de experiencia.
En vista que la mayoría de empleados se concentra en niveles bajos y medios de experiencia, es probable que tenga un mayor impacto en la rotacion. esto se debe a que, según la hipótesis planteada, empleados con menor experiencia suelen tener mayor movilidad o rotacion por diferentes motivos. Por otro lado, los empleados con alta experiencia, aunque menos numerosos, podrían presentar menor rotación debido a mayor estabilidad laboral.
| Minimo | Media | Q1 | Mediana | Q3 | Maximo | Desv_Estandar |
|---|---|---|---|---|---|---|
| 1009 | 6502.931 | 2911 | 4919 | 8379 | 19999 | 4707.957 |
En vista que la mayoría de los empleados tiene ingresos bajos o medios, es probable que este grupo tenga mayor tendencia a rotar en busca de mejores oportunidades salariales. Por otro lado, los empleados con ingresos altos, aunque menos numerosos, podrían presentar menor rotación debido a mejores condiciones económicas.
| Genero | Frecuencia | Proporcion |
|---|---|---|
| F | 588 | 0.4 |
| M | 882 | 0.6 |
la variable genero presenta una distribución ligeramente desbalanceada con una mayor participación de hombres (60%) frente a mujeres (40%). para esta variable no se planteó una hipótesis clara sobre el impacto sobre la rotacion, sin embargo se espera que permita visualizar diferencias en comportamientos laborales según condiciones de trabajo, por lo que se incluye como variable exploratoria en el análisis.
Esta variable está sujeta a validaciones en el análisis bivariado, donde según la evidencia estadística que se obtenga mediante las pruebas estadísticas, se conservara si no resulta significativa o se conservara en caso contrario.
| Satisfaccion_Laboral | Frecuencia | Proporcion |
|---|---|---|
| 1 | 289 | 0.20 |
| 2 | 280 | 0.19 |
| 3 | 442 | 0.30 |
| 4 | 459 | 0.31 |
La variable satisfacción laboral muestra una mayor concentración en niveles altos (3 y 4, satisfecho y muy satisfecho respectivamente), los cuales representan aproximadamente el 61% de los empleados. Esto indica que la mayoría de los trabajadores reporta niveles medios-altos de satisfacción. según la hipótesis planteada anteriormente, dado que una mayor satisfacción laboral suele estar asociada con mayor estabilidad, se espera que estos empleados presenten una menor probabilidad de rotación.
| Estado_Civil | Frecuencia | Proporcion |
|---|---|---|
| Casado | 673 | 0.46 |
| Divorciado | 327 | 0.22 |
| Soltero | 470 | 0.32 |
La variable estado civil presenta una distribución no balanceada, siendo la categoría “Casado” la más frecuente con un 46%, seguida de “Soltero” (32%) y “Divorciado” (22%). Esta distribución sugiere que una participación importante de empleados se encuentra en un estado asociado con búsqueda de mayor estabilidad. por lo tanto, se podría esperar que los empleados casados presenten una menor probabilidad de rotación en comparación con otras categorías, dado su posible interés en mantener estabilidad laboral.
Para el análisis bivariado se utilizarán diferentes pruebas estadísticas adecuadas según el tipo de variable. Para variables categóricas vs rotacion se utilizará Chi-Cuadrado y para variables cuantitativas vs rotacion se utilizará t-test u otras como Mann-Whitney si no hay normalidad.
Edad
| rotacion_bin | Minimo | Media | Q1 | Mediana | Q3 | Maximo | Desv_Estandar |
|---|---|---|---|---|---|---|---|
| 0 | 18 | 37.56204 | 31 | 36 | 43 | 60 | 8.888994 |
| 1 | 18 | 33.60759 | 28 | 32 | 39 | 58 | 9.689350 |
##
## Welch Two Sample t-test
##
## data: Edad by rotacion_bin
## t = 5.8291, df = 316.94, p-value = 1.371e-08
## alternative hypothesis: true difference in means between group 0 and group 1 is not equal to 0
## 95 percent confidence interval:
## 2.619728 5.289170
## sample estimates:
## mean in group 0 mean in group 1
## 37.56204 33.60759
En la tabla resumen se observa que los empleados que no rotan presentan una mayor edad promedio (37.56) en comparación con los empleados que si rotan (33.6), esto indica que los empleados más jóvenes tienden a rotar con mayor frecuencia, lo cual esta alineado con la hipótesis de que a menor edad existe mayor probabilidad de rotacion.
con la prueba t-test, como el p-valor (1.37e-08) es mucho menor que 0.05, existe suficiente evidencia para decir que hay diferencia en la edad promedio entre los empleados que rotan y los que no. Se concluye entonces que esta variable si debe incluirse en el modelo.
Años Experiencia
| rotacion_bin | Minimo | Media | Q1 | Mediana | Q3 | Maximo | Desv_Estandar |
|---|---|---|---|---|---|---|---|
| 0 | 0 | 11.862936 | 6 | 10 | 16 | 38 | 7.760719 |
| 1 | 0 | 8.244726 | 3 | 7 | 10 | 40 | 7.169204 |
##
## Welch Two Sample t-test
##
## data: Años_Experiencia by rotacion_bin
## t = 7.0192, df = 350.88, p-value = 1.16e-11
## alternative hypothesis: true difference in means between group 0 and group 1 is not equal to 0
## 95 percent confidence interval:
## 2.604401 4.632019
## sample estimates:
## mean in group 0 mean in group 1
## 11.862936 8.244726
Con esta variable de Años de experiencia se observa que los empleados que no rotan presentan un mayor número de años de experiencia en promedio (11.86) en comparación con aquellos que sí rotan (8.24). Esto sugiere que los empleados con menor experiencia tienen una mayor probabilidad de rotación, lo cual esta alineado con la hipótesis planteada de que la experiencia está asociada con mayor estabilidad laboral.
Igualmente, con la prueba t-test se puede observar y comprobar que existe una diferencia significativa en los años de experiencia entre los empleados que rotan y los que no ya que el p-valor (1.16e-11) es menor que 0.05.
Ingreso Mensual
| rotacion_bin | Minimo | Media | Q1 | Mediana | Q3 | Maximo | Desv_Estandar |
|---|---|---|---|---|---|---|---|
| 0 | 1051 | 6832.740 | 3211 | 5204 | 8834 | 19999 | 4818.208 |
| 1 | 1009 | 4787.093 | 2373 | 3202 | 5916 | 19859 | 3640.210 |
##
## Welch Two Sample t-test
##
## data: Ingreso_Mensual by rotacion_bin
## t = 7.4826, df = 412.74, p-value = 4.434e-13
## alternative hypothesis: true difference in means between group 0 and group 1 is not equal to 0
## 95 percent confidence interval:
## 1508.244 2583.050
## sample estimates:
## mean in group 0 mean in group 1
## 6832.740 4787.093
Se observa en la variable Ingreso_Mensual que los empleados que no rotan presentan un mayor ingreso mensual promedio (6832.74) en comparación con los empleados que sí rotan (4787.09). Esto sugiere que los empleados con menores ingresos tienen una mayor probabilidad de rotación, lo cual esta alineado con la hipótesis planteada de que el ingreso influye negativamente en la rotación.
Igualmente, con la prueba t-test se puede observar y comprobar que existe una diferencia significativa en el ingreso mensual entre los empleados que rotan y los que no ya que el p-valor (4.43e-13) es menor que 0.05.
Genero
##
## 0 1
## F 501 87
## M 732 150
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: tabla_genero
## X-squared = 1.117, df = 1, p-value = 0.2906
Tal como se intuía anteriormente, la variable genero no representa una relación estadísticamente significativa con la rotacion, esto queda demostrado con p-value (0.2906) > 0.05, por lo que no se considera que sea relevante para explicar el punto de interés de esta actividad sobre la rotacion de empleados, por lo que no será incluida en el modelo final y será reemplazada por otra variable categórica que si sea significativa estadísticamente para explicar la rotacion.
Satisfacción Laboral
##
## 0 1
## 1 223 66
## 2 234 46
## 3 369 73
## 4 407 52
##
## Pearson's Chi-squared test
##
## data: tabla_satisf
## X-squared = 17.505, df = 3, p-value = 0.0005563
La prueba de Chi-cuadrado muestra que existe una relación estadísticamente significativa entre la satisfacción laboral y la rotación (p-valor (0.0005563) < 0.05). Se observa que los niveles más bajos de satisfacción presentan una mayor proporción de empleados que rotan, mientras que los niveles más altos presentan menor rotación. Esto confirma la hipótesis de que una mayor satisfacción laboral está asociada con una menor probabilidad de rotación.
Estado Civil
##
## 0 1
## Casado 589 84
## Divorciado 294 33
## Soltero 350 120
##
## Pearson's Chi-squared test
##
## data: tabla_estado
## X-squared = 46.164, df = 2, p-value = 9.456e-11
para esta variable la prueba de Chi-cuadrado también indica que existe una relación estadísticamente significativa entre el estado civil y la rotación (p-valor (9.456e-11) < 0.05). Se observa que los empleados solteros presentan una mayor proporción de rotación en comparación con los empleados casados y divorciados, quienes muestran mayor estabilidad laboral. Esto es consistente con la hipótesis planteada, donde se esperaba que los empleados casados presentaran menor rotación.
Equilibrio Trabajo-Vida
En vista que la variable Genero no presenta evidencia estadísticamente significativa de relación con rotacion, se decide cambiar por la variable “Equilibrio_Trabajo_Vida”, la cual puede resultar más relevante en el contexto del problema.
Hipótesis: se espera que el Equilibrio_Trabajo_vida se relacione con la rotación ya que las personas con nivel de equilibrio muy bajo en su vida personal y laboral podrían estar más inclinados a buscar nuevas oportunidades que les permitan mejorar dicha condición. La hipótesis que se plantea es que a menor equilibrio trabajo_vida, mayor probabilidad de rotacion.
##
## 0 1
## 1 55 25
## 2 286 58
## 3 766 127
## 4 126 27
##
## Pearson's Chi-squared test
##
## data: tabla_equilibrio
## X-squared = 16.325, df = 3, p-value = 0.0009726
La variable equilibrio trabajo-vida presenta una relación significativa con la rotación (p-valor < 0.05). Se observa que los empleados con menor equilibrio (nivel 1) presentan una mayor proporción de rotación en comparación con niveles más altos, lo cual sugiere que un mejor balance entre vida personal y trabajo está asociado con una menor probabilidad de rotación. Esto demuestra que esta variable es significativa para el modelo y esta alineada con la hipótesis previamente planteada.
##
## Call:
## glm(formula = rotacion_bin ~ Edad + Años_Experiencia + Ingreso_Mensual +
## Satisfaccion_Laboral + Estado_Civil + Equilibrio_Trabajo_Vida,
## family = binomial, data = rotacion)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 7.464e-01 4.544e-01 1.643 0.100428
## Edad -1.725e-02 1.122e-02 -1.537 0.124252
## Años_Experiencia -3.573e-02 2.002e-02 -1.785 0.074253 .
## Ingreso_Mensual -5.820e-05 3.002e-05 -1.939 0.052514 .
## Satisfaccion_Laboral2 -4.849e-01 2.247e-01 -2.158 0.030948 *
## Satisfaccion_Laboral3 -4.519e-01 1.998e-01 -2.262 0.023702 *
## Satisfaccion_Laboral4 -9.787e-01 2.136e-01 -4.583 4.58e-06 ***
## Estado_CivilDivorciado -2.390e-01 2.228e-01 -1.073 0.283403
## Estado_CivilSoltero 8.254e-01 1.644e-01 5.020 5.18e-07 ***
## Equilibrio_Trabajo_Vida2 -7.542e-01 2.995e-01 -2.518 0.011803 *
## Equilibrio_Trabajo_Vida3 -1.063e+00 2.777e-01 -3.828 0.000129 ***
## Equilibrio_Trabajo_Vida4 -7.497e-01 3.416e-01 -2.195 0.028169 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 1298.6 on 1469 degrees of freedom
## Residual deviance: 1168.8 on 1458 degrees of freedom
## AIC: 1192.8
##
## Number of Fisher Scoring iterations: 5
## GVIF Df GVIF^(1/(2*Df))
## Edad 1.644507 1 1.282383
## Años_Experiencia 2.598125 1 1.611870
## Ingreso_Mensual 1.905838 1 1.380521
## Satisfaccion_Laboral 1.021360 3 1.003529
## Estado_Civil 1.024958 2 1.006182
## Equilibrio_Trabajo_Vida 1.018426 3 1.003048
Variables como Edad, Años_Experincia. Ingreos_Mensual y Estado_Civil-Divorciado parecen no muy significativas en el modelo (p > 0.05), esto aun cuando en el análisis bivariado si parecían ser significativas. Otras variables como Satisfacción laboral sobre todo el nivel 4, estado civil (Soltero) y Equilibrio Vida Trabajo principalmente nivel 3, son las más significativas de todas.
para Satisfaccion_Laboral-Nivel 4, con un coeficiente de -0.9787, dice que los empleados con dicho nivel de satisfacción tienen menor log-odds de comparación con el nivel base (nivel 1), manteniendo constantes las demás variables, o en otras palabras, dice que a mayor satisfacción hay menor probabilidad de rotacion.
Estado_Civel-Soltero con un coeficiente de 0.8254, nos indica que los empleados solteros tienen mayor probabilidad de rotacion que los casados (que es la categoría base), alienado con lo visto anteriormente.
Con Equilibrio_Trabajo_Vida, teniendo un coeficiente de -1.066, indica que a mayor equilibrio entre el área personal y laboral, menos probabilidad de rotacion, lo cual también esta alineado con lo anteriormente planteado.
Por otro lado, variables como Edad, Años de Experiencia e Ingreso Mensual perdieron significancia, a primera vista porque pueden estar correlacionadas entre sí, es decir, presentan multicolinealidad, sin embargo, al realizar la prueba VIF (Variance Inflation Factor), se observa que están en un rango entre 1 y 5, lo cual se considera un rango moderado y que no afecta de forma directa la estabilidad e interpretación de los coeficientes del modelo. simplemente variables como satisfacción Laboral y equilibrio trabajo-vida pueden explicar de manera más directa la rotacion
El valor del AUC es 0.7198, lo que indica que el modelo tiene una capacidad aceptable de clasificacion de los empleados entre los que rotan y los que no. En general el modelo tiene una buena capacidad para clasificar correctamente a los empleados (es mejor que el azar con un AUC = 0.5), aunque existe margen en su poder predictivo.
Este desempeño podria optimizarse mediante una mejor seleccion de varbales, considerando aquellas que aporten mayor capacidad explicativa en conjunto (teniendo en cuenta y evitando la colinealidad), lo cual podrpía mejorar la capacidad de clasificacion del modelo.
Partiendo segun la aplicacion de este problema, el modelo puede ser una herramienta utila para apoyar la toma de decisiones en la empresa o lugar donde se este evaluando, permitiendo identificar empleados con mayor probabilidad de rotación. Sin embargo, no debe ser utilizado como único criterio, sino como complemento dentro de una estrategia más amplia de gestión del personal.