En una organización, se busca comprender y prever los factores que influyen en la rotación de empleados entre distintos cargos. La empresa ha recopilado datos históricos sobre el empleo de sus trabajadores, incluyendo variables como la antigüedad en el cargo actual, el nivel de satisfacción laboral, el salario actual, edad y otros factores relevantes. La gerencia planea desarrollar un modelo de regresión logística que permita estimar la probabilidad de que un empleado cambie de cargo en el próximo período y determinar cuáles factores indicen en mayor proporción a estos cambios.
Con esta información, la empresa podrá tomar medidas proactivas para retener a su talento clave, identificar áreas de mejora en la gestión de recursos humanos y fomentar un ambiente laboral más estable y tranquilo. La predicción de la probabilidad de rotación de empleados ayudará a la empresa a tomar decisiones estratégicas informadas y a mantener un equipo de trabajo comprometido y satisfecho en sus roles actuales.
Antes de seleccionar las 6 variables (3 Categóricas y 3 Numéricas), se hará una revisión general de los datos para un mejor entendimiento buscando seleccionar las mejores variables que permitan explicar la rotacion.
## tibble [1,470 × 25] (S3: tbl_df/tbl/data.frame)
## $ Rotación : chr [1:1470] "Si" "No" "Si" "No" ...
## $ Edad : num [1:1470] 41 49 37 33 27 32 59 30 38 36 ...
## $ Viaje de Negocios : chr [1:1470] "Raramente" "Frecuentemente" "Raramente" "Frecuentemente" ...
## $ Departamento : chr [1:1470] "Ventas" "IyD" "IyD" "IyD" ...
## $ Distancia_Casa : num [1:1470] 1 8 2 3 2 2 3 24 23 27 ...
## $ Educación : num [1:1470] 2 1 2 4 1 2 3 1 3 3 ...
## $ Campo_Educación : chr [1:1470] "Ciencias" "Ciencias" "Otra" "Ciencias" ...
## $ Satisfacción_Ambiental : num [1:1470] 2 3 4 4 1 4 3 4 4 3 ...
## $ Genero : chr [1:1470] "F" "M" "M" "F" ...
## $ Cargo : chr [1:1470] "Ejecutivo_Ventas" "Investigador_Cientifico" "Tecnico_Laboratorio" "Investigador_Cientifico" ...
## $ Satisfación_Laboral : num [1:1470] 4 2 3 3 2 4 1 3 3 3 ...
## $ Estado_Civil : chr [1:1470] "Soltero" "Casado" "Soltero" "Casado" ...
## $ Ingreso_Mensual : num [1:1470] 5993 5130 2090 2909 3468 ...
## $ Trabajos_Anteriores : num [1:1470] 8 1 6 1 9 0 4 1 0 6 ...
## $ Horas_Extra : chr [1:1470] "Si" "No" "Si" "Si" ...
## $ Porcentaje_aumento_salarial: num [1:1470] 11 23 15 11 12 13 20 22 21 13 ...
## $ Rendimiento_Laboral : num [1:1470] 3 4 3 3 3 3 4 4 4 3 ...
## $ Años_Experiencia : num [1:1470] 8 10 7 8 6 8 12 1 10 17 ...
## $ Capacitaciones : num [1:1470] 0 3 3 3 3 2 3 2 2 3 ...
## $ Equilibrio_Trabajo_Vida : num [1:1470] 1 3 3 3 3 2 2 3 3 2 ...
## $ Antigüedad : num [1:1470] 6 10 0 8 2 7 1 1 9 7 ...
## $ Antigüedad_Cargo : num [1:1470] 4 7 0 7 2 7 0 0 7 7 ...
## $ Años_ultima_promoción : num [1:1470] 0 1 0 3 2 3 0 0 1 7 ...
## $ Años_acargo_con_mismo_jefe : num [1:1470] 5 7 0 0 2 6 0 0 8 7 ...
## $ rotacion_bin : num [1:1470] 1 0 1 0 0 0 0 0 0 0 ...
Edad: se espera que la edad se relacione con la rotación ya que las personas más jóvenes pueden ser más arriesgadas a buscar nuevas oportunidades y cambiar de trabajo mientras que a mayor edad se busca más estabilidad laboral. La hipótesis es que a menor edad más rotación, a mayor edad más estabilidad. se espera una relación negativa.
Años_Experiencia: se espera que los años de experiencia se relacione con la rotación ya que las personas con más experiencia buscan más estabilidad y tienden a ocupar cargos más altos, además de entender el costo del cambio. La hipótesis es que a mayor experiencia, menor probabilidad de rotación, ya que los empleados suelen buscar estabilidad laboral. se espera una relación negativa.
Ingreso_Mensual: se espera que el ingreso mensual se relacione con la rotación ya que personas con menores ingresos suelen ver como una forma de aumentar sus ingresos al cambiar de empleo. La hipótesis es que a mayor ingreso hay menor rotación. se espera una relación negativa.
Genero: se espera que el género se relacione con la rotación aunque a priori, no de manera muy clara, ya que los hombres podrían priorizar el estatus y ambición económica para buscar un nuevo empleo y las mujeres podrían priorizar equilibrio trabajo_vida o satisfacción laboral. esto puede depender de expectativas o roles sociales.
Satisfaccion_Laboral: se espera que la satisfacción laboral se relacione con la rotación ya que quienes están más insatisfechos con su trabajo actual podrían querer buscar un nuevo empleo. La hipótesis es que a mayor satisfacción laboral hay menor probabilidad de rotación. Se espera una relación negativa.
Estado Civil: se espera que el estado civil se relacione con la rotación ya que las personas casadas, podrían buscar mayor estabilidad laboral presentando menor rotación. La hipótesis es que los casados rotan menos.
La matriz de correlación muestra asociaciones moderadas a altas entre varias variables predictoras, lo que sugiere posible multicolinealidad. Sin embargo, para este análisis exploratorio inicial se mantienen las variables seleccionadas por su relevancia teórica y las hipótesis planteadas. En etapas posteriores se evaluará el Factor de Inflación de Varianza (VIF) y, de ser necesario, se ajustará un modelo reducido eliminando predictores redundantes. Esto permitirá obtener estimaciones más estables y mejorar la interpretación de los efectos sobre la rotación.
En esta sección se realiza una caracterización de las variables seleccionadas. Para las cuantitativas se usan histogramas, diagramas de caja y estadísticos descriptivos. Para las cualitativas se presentan tablas de frecuencia y proporciones.
Edad
## Warning: package 'ggpubr' was built under R version 4.5.2
| Minimo | Media | Q1 | Mediana | Q3 | Maximo | Desv_Estandar |
|---|---|---|---|---|---|---|
| 18 | 36.92449 | 30 | 36 | 43 | 60 | 9.135938 |
Tanto el histograma de frecuencia como la gráfica de cajas muestran una distribución simétrica de los valores de la variable edad, es decir, no se presenta un sesgo significativo ya que no se observan outliers o valores atípicos. esto se puede comprar con la cercanía entre la media (36.9) y la mediana (36).
El 50% de los datos (rango intercuartílico) se presentan edades medio-altas (entre 30 y 43 años), esto podría impactar la rotacion según la hipótesis planteada anteriormente, observando una menor rotacion.
Años_Experiencia
| Minimo | Media | Q1 | Mediana | Q3 | Maximo | Desv_Estandar |
|---|---|---|---|---|---|---|
| 0 | 11.27959 | 6 | 10 | 15 | 40 | 7.780782 |
La distribución de los años de experiencia presenta un sesgo a la derecha, esto se comprueba por una media (11.28) superior a la mediana (10), lo cual indica que hay valores altos que impactan el promedio. esto se conforma en el diagrama de cajas, donde se observan varios outliers en la parte superior. la mayoría de empleados se concentra en niveles bajos o medios de experiencia.
En vista que la mayoría de empleados se concentra en niveles bajos y medios de experiencia, es probable que tenga un mayor impacto en la rotacion. esto se debe a que, según la hipótesis planteada, empleados con menor experiencia suelen tener mayor movilidad o rotacion por diferentes motivos. Por otro lado, los empleados con alta experiencia, aunque menos numerosos, podrían presentar menor rotación debido a mayor estabilidad laboral.
Ingreso_Mensual
| Minimo | Media | Q1 | Mediana | Q3 | Maximo | Desv_Estandar |
|---|---|---|---|---|---|---|
| 1009 | 6502.931 | 2911 | 4919 | 8379 | 19999 | 4707.957 |
En vista que la mayoría de los empleados tiene ingresos bajos o medios, es probable que este grupo tenga mayor tendencia a rotar en busca de mejores oportunidades salariales. Por otro lado, los empleados con ingresos altos, aunque menos numerosos, podrían presentar menor rotación debido a mejores condiciones económicas.
Genero
| Genero | Frecuencia | Proporcion |
|---|---|---|
| F | 588 | 0.4 |
| M | 882 | 0.6 |
la variable genero presenta una distribución ligeramente desbalanceada con una mayor participación de hombres (60%) frente a mujeres (40%). para esta variable no se planteó una hipótesis clara sobre el impacto sobre la rotacion, sin embargo se espera que permita visualizar diferencias en comportamientos laborales según condiciones de trabajo, por lo que se incluye como variable exploratoria en el análisis.
Esta variable está sujeta a validaciones en el análisis bivariado, donde según la evidencia estadística que se obtenga mediante las pruebas estadísticas, se conservara si no resulta significativa o se conservara en caso contrario.
Satisfación_Laboral
| Satisfaccion_Laboral | Frecuencia | Proporcion |
|---|---|---|
| 1 | 289 | 0.20 |
| 2 | 280 | 0.19 |
| 3 | 442 | 0.30 |
| 4 | 459 | 0.31 |
La variable satisfacción laboral muestra una mayor concentración en niveles altos (3 y 4, satisfecho y muy satisfecho respectivamente), los cuales representan aproximadamente el 61% de los empleados. Esto indica que la mayoría de los trabajadores reporta niveles medios-altos de satisfacción. según la hipótesis planteada anteriormente, dado que una mayor satisfacción laboral suele estar asociada con mayor estabilidad, se espera que estos empleados presenten una menor probabilidad de rotación.
Estado_Civil
| Estado_Civil | Frecuencia | Proporcion |
|---|---|---|
| Casado | 673 | 0.46 |
| Divorciado | 327 | 0.22 |
| Soltero | 470 | 0.32 |
La variable estado civil presenta una distribución no balanceada, siendo la categoría “Casado” la más frecuente con un 46%, seguida de “Soltero” (32%) y “Divorciado” (22%). Esta distribución sugiere que una participación importante de empleados se encuentra en un estado asociado con búsqueda de mayor estabilidad. por lo tanto, se podría esperar que los empleados casados presenten una menor probabilidad de rotación en comparación con otras categorías, dado su posible interés en mantener estabilidad laboral.
Para el análisis bivariado se utilizarán diferentes pruebas estadísticas adecuadas según el tipo de variable. Para variables categóricas vs rotacion se utilizará Chi-Cuadrado y para variables cuantitativas vs rotacion se utilizará t-test u otras como Mann-Whitney si no hay normalidad.
Edad
| rotacion_bin | Minimo | Media | Q1 | Mediana | Q3 | Maximo | Desv_Estandar |
|---|---|---|---|---|---|---|---|
| 0 | 18 | 37.56204 | 31 | 36 | 43 | 60 | 8.888994 |
| 1 | 18 | 33.60759 | 28 | 32 | 39 | 58 | 9.689350 |
##
## Welch Two Sample t-test
##
## data: Edad by rotacion_bin
## t = 5.8291, df = 316.94, p-value = 1.371e-08
## alternative hypothesis: true difference in means between group 0 and group 1 is not equal to 0
## 95 percent confidence interval:
## 2.619728 5.289170
## sample estimates:
## mean in group 0 mean in group 1
## 37.56204 33.60759
En la tabla resumen se observa que los empleados que no rotan presentan una mayor edad promedio (37.56) en comparación con los empleados que si rotan (33.6), esto indica que los empleados más jóvenes tienden a rotar con mayor frecuencia, lo cual esta alineado con la hipótesis de que a menor edad existe mayor probabilidad de rotacion.
con la prueba t-test, como el p-valor (1.37e-08) es mucho menor que 0.05, existe suficiente evidencia para decir que hay diferencia en la edad promedio entre los empleados que rotan y los que no. Se concluye entonces que esta variable si debe incluirse en el modelo.
Años_Experiencia
| rotacion_bin | Minimo | Media | Q1 | Mediana | Q3 | Maximo | Desv_Estandar |
|---|---|---|---|---|---|---|---|
| 0 | 0 | 11.862936 | 6 | 10 | 16 | 38 | 7.760719 |
| 1 | 0 | 8.244726 | 3 | 7 | 10 | 40 | 7.169204 |
##
## Welch Two Sample t-test
##
## data: Años_Experiencia by rotacion_bin
## t = 7.0192, df = 350.88, p-value = 1.16e-11
## alternative hypothesis: true difference in means between group 0 and group 1 is not equal to 0
## 95 percent confidence interval:
## 2.604401 4.632019
## sample estimates:
## mean in group 0 mean in group 1
## 11.862936 8.244726
Con esta variable de Años de experiencia se observa que los empleados que no rotan presentan un mayor número de años de experiencia en promedio (11.86) en comparación con aquellos que sí rotan (8.24). Esto sugiere que los empleados con menor experiencia tienen una mayor probabilidad de rotación, lo cual esta alineado con la hipótesis planteada de que la experiencia está asociada con mayor estabilidad laboral.
Igualmente, con la prueba t-test se puede observar y comprobar que existe una diferencia significativa en los años de experiencia entre los empleados que rotan y los que no ya que el p-valor (1.16e-11) es menor que 0.05.
Ingreso_Mensual
| rotacion_bin | Minimo | Media | Q1 | Mediana | Q3 | Maximo | Desv_Estandar |
|---|---|---|---|---|---|---|---|
| 0 | 1051 | 6832.740 | 3211 | 5204 | 8834 | 19999 | 4818.208 |
| 1 | 1009 | 4787.093 | 2373 | 3202 | 5916 | 19859 | 3640.210 |
##
## Welch Two Sample t-test
##
## data: Ingreso_Mensual by rotacion_bin
## t = 7.4826, df = 412.74, p-value = 4.434e-13
## alternative hypothesis: true difference in means between group 0 and group 1 is not equal to 0
## 95 percent confidence interval:
## 1508.244 2583.050
## sample estimates:
## mean in group 0 mean in group 1
## 6832.740 4787.093
Se observa en la variable Ingreso_Mensual que los empleados que no rotan presentan un mayor ingreso mensual promedio (6832.74) en comparación con los empleados que sí rotan (4787.09). Esto sugiere que los empleados con menores ingresos tienen una mayor probabilidad de rotación, lo cual esta alineado con la hipótesis planteada de que el ingreso influye negativamente en la rotación.
El gráfico evidencia diferencias en la distribución del ingreso mensual según la condición de rotación del personal. Se observa que los colaboradores que permanecen en la organización tienden a concentrarse en niveles de ingreso más altos, mientras que aquellos que presentan rotación se agrupan principalmente en rangos salariales más bajos.
Si bien existe un grado de solapamiento entre ambas distribuciones, lo que indica que el ingreso no es el único factor asociado a la rotación, la tendencia general sugiere que menores niveles salariales podrían estar relacionados con una mayor probabilidad de desvinculación. En este sentido, el ingreso mensual se perfila como un factor relevante en la retención del talento, aunque su análisis debe complementarse con otras variables organizacionales y laborales para una interpretación integral.
Igualmente, con la prueba t-test se puede observar y comprobar que existe una diferencia significativa en el ingreso mensual entre los empleados que rotan y los que no ya que el p-valor (4.43e-13) es menor que 0.05.
Genero
##
## 0 1
## F 501 87
## M 732 150
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: tabla_genero
## X-squared = 1.117, df = 1, p-value = 0.2906
Tal como se intuía anteriormente, la variable genero no representa una relación estadísticamente significativa con la rotacion, esto queda demostrado con p-value (0.2906) > 0.05, por lo que no se considera que sea relevante para explicar el punto de interés de esta actividad sobre la rotacion de empleados, por lo que no será incluida en el modelo final y será reemplazada por otra variable categórica que si sea significativa estadísticamente para explicar la rotacion.
Satisfación_Laboral
##
## 0 1
## 1 223 66
## 2 234 46
## 3 369 73
## 4 407 52
##
## Pearson's Chi-squared test
##
## data: tabla_satisf
## X-squared = 17.505, df = 3, p-value = 0.0005563
La prueba de Chi-cuadrado muestra que existe una relación estadísticamente significativa entre la satisfacción laboral y la rotación (p-valor (0.0005563) < 0.05). Se observa que los niveles más bajos de satisfacción presentan una mayor proporción de empleados que rotan, mientras que los niveles más altos presentan menor rotación. Esto confirma la hipótesis de que una mayor satisfacción laboral está asociada con una menor probabilidad de rotación.
Por otro lado, el gráfico “Proporción de Rotación por Satisfacción Laboral” evidencia una relación inversa entre la satisfacción laboral y la rotación. A mayor satisfacción, menor proporción de empleados que abandonan la organización. Aunque en todos los niveles predomina la permanencia, la diferencia entre quienes se quedan y quienes rotan aumenta con la satisfacción. La disminución de la rotación es progresiva, lo que sugiere que mejoras graduales en el bienestar laboral pueden favorecer la retención. En conjunto, la satisfacción laboral aparece como un factor clave asociado a la permanencia del talento, aunque no implica causalidad directa.
Estado_Civil
##
## 0 1
## Casado 589 84
## Divorciado 294 33
## Soltero 350 120
##
## Pearson's Chi-squared test
##
## data: tabla_estado
## X-squared = 46.164, df = 2, p-value = 9.456e-11
para esta variable la prueba de Chi-cuadrado también indica que existe una relación estadísticamente significativa entre el estado civil y la rotación (p-valor (9.456e-11) < 0.05). Se observa que los empleados solteros presentan una mayor proporción de rotación en comparación con los empleados casados y divorciados, quienes muestran mayor estabilidad laboral. Esto es consistente con la hipótesis planteada, donde se esperaba que los empleados casados presentaran menor rotación.
Equilibrio Trabajo-Vida
En vista que la variable Genero no presenta evidencia estadísticamente significativa de relación con rotacion, se decide cambiar por la variable “Equilibrio_Trabajo_Vida”, la cual puede resultar más relevante en el contexto del problema.
Hipótesis: se espera que el Equilibrio_Trabajo_vida se relacione con la rotación ya que las personas con nivel de equilibrio muy bajo en su vida personal y laboral podrían estar más inclinados a buscar nuevas oportunidades que les permitan mejorar dicha condición. La hipótesis que se plantea es que a menor equilibrio trabajo_vida, mayor probabilidad de rotacion.
##
## 0 1
## 1 55 25
## 2 286 58
## 3 766 127
## 4 126 27
##
## Pearson's Chi-squared test
##
## data: tabla_equilibrio
## X-squared = 16.325, df = 3, p-value = 0.0009726
La variable equilibrio trabajo-vida presenta una relación significativa con la rotación (p-valor < 0.05). Se observa que los empleados con menor equilibrio (nivel 1) presentan una mayor proporción de rotación en comparación con niveles más altos, lo cual sugiere que un mejor balance entre vida personal y trabajo está asociado con una menor probabilidad de rotación. Esto demuestra que esta variable es significativa para el modelo y esta alineada con la hipótesis previamente planteada.
Con base en los resultados previos, se estima un modelo de regresión logística usando como variable respuesta rotacion_bin y como covariables las seleccionadas en el proceso de análisis.
##
## Call:
## glm(formula = rotacion_bin ~ Edad + Años_Experiencia + Ingreso_Mensual +
## Satisfaccion_Laboral + Estado_Civil + Equilibrio_Trabajo_Vida,
## family = binomial, data = rotacion)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 7.464e-01 4.544e-01 1.643 0.100428
## Edad -1.725e-02 1.122e-02 -1.537 0.124252
## Años_Experiencia -3.573e-02 2.002e-02 -1.785 0.074253 .
## Ingreso_Mensual -5.820e-05 3.002e-05 -1.939 0.052514 .
## Satisfaccion_Laboral2 -4.849e-01 2.247e-01 -2.158 0.030948 *
## Satisfaccion_Laboral3 -4.519e-01 1.998e-01 -2.262 0.023702 *
## Satisfaccion_Laboral4 -9.787e-01 2.136e-01 -4.583 4.58e-06 ***
## Estado_CivilDivorciado -2.390e-01 2.228e-01 -1.073 0.283403
## Estado_CivilSoltero 8.254e-01 1.644e-01 5.020 5.18e-07 ***
## Equilibrio_Trabajo_Vida2 -7.542e-01 2.995e-01 -2.518 0.011803 *
## Equilibrio_Trabajo_Vida3 -1.063e+00 2.777e-01 -3.828 0.000129 ***
## Equilibrio_Trabajo_Vida4 -7.497e-01 3.416e-01 -2.195 0.028169 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 1298.6 on 1469 degrees of freedom
## Residual deviance: 1168.8 on 1458 degrees of freedom
## AIC: 1192.8
##
## Number of Fisher Scoring iterations: 5
| Variable | OR | IC 2.5% | IC 97.5% | p-valor | Significancia |
|---|---|---|---|---|---|
| Edad | 0.983 | 0.961 | 1.004 | 0.124 | No Significativo |
| Años de Experiencia | 0.965 | 0.927 | 1.003 | 0.074 | No Significativo |
| Ingreso Mensual | 1.000 | 1.000 | 1.000 | 0.053 | No Significativo |
| Satisfacción Laboral 2 | 0.616 | 0.395 | 0.954 | 0.031 | Significativo |
| Satisfacción Laboral 3 | 0.636 | 0.430 | 0.942 | 0.024 | Significativo |
| Satisfacción Laboral 4 | 0.376 | 0.246 | 0.570 | 0.000 | Significativo |
| Estado Civil (Divorciado vs Casado) | 0.787 | 0.503 | 1.208 | 0.283 | No Significativo |
| Estado Civil (Soltero vs Casado) | 2.283 | 1.656 | 3.158 | 0.000 | Significativo |
| Equilibrio Trabajo-Vida 2 | 0.470 | 0.263 | 0.853 | 0.012 | Significativo |
| Equilibrio Trabajo-Vida 3 | 0.345 | 0.202 | 0.602 | 0.000 | Significativo |
| Equilibrio Trabajo-Vida 4 | 0.473 | 0.241 | 0.924 | 0.028 | Significativo |
## GVIF Df GVIF^(1/(2*Df))
## Edad 1.644507 1 1.282383
## Años_Experiencia 2.598125 1 1.611870
## Ingreso_Mensual 1.905838 1 1.380521
## Satisfaccion_Laboral 1.021360 3 1.003529
## Estado_Civil 1.024958 2 1.006182
## Equilibrio_Trabajo_Vida 1.018426 3 1.003048
## fitting null model for pseudo-r2
## McFadden
## 0.09990975
##
## Hosmer and Lemeshow goodness of fit (GOF) test
##
## data: modelo_logit$y, fitted(modelo_logit)
## X-squared = 19.236, df = 8, p-value = 0.01365
Variables como Edad, Años_Experincia. Ingreos_Mensual y Estado_Civil-Divorciado parecen no muy significativas en el modelo (p > 0.05), esto aun cuando en el análisis bivariado si parecían ser significativas. Otras variables como Satisfacción laboral sobre todo el nivel 4, estado civil (Soltero) y Equilibrio Vida Trabajo principalmente nivel 3, son las más significativas de todas.
para Satisfaccion_Laboral-Nivel 4, con un coeficiente de -0.9787, dice que los empleados con dicho nivel de satisfacción tienen menor log-odds de comparación con el nivel base (nivel 1), manteniendo constantes las demás variables, o en otras palabras, dice que a mayor satisfacción hay menor probabilidad de rotacion.
Estado_Civel-Soltero con un coeficiente de 0.8254, nos indica que los empleados solteros tienen mayor probabilidad de rotacion que los casados (que es la categoría base), alienado con lo visto anteriormente.
Con Equilibrio_Trabajo_Vida, teniendo un coeficiente de -1.066, indica que a mayor equilibrio entre el área personal y laboral, menos probabilidad de rotacion, lo cual también esta alineado con lo anteriormente planteado.
Por otro lado, variables como Edad, Años de Experiencia e Ingreso Mensual perdieron significancia, a primera vista porque pueden estar correlacionadas entre sí, es decir, presentan multicolinealidad, sin embargo, al realizar la prueba VIF (Variance Inflation Factor), se observa que están en un rango entre 1 y 5, lo cual se considera un rango moderado y que no afecta de forma directa la estabilidad e interpretación de los coeficientes del modelo. simplemente variables como satisfacción Laboral y equilibrio trabajo-vida pueden explicar de manera más directa la rotacion.
El modelo presenta un ajuste limitado. El R² de McFadden (~0.10) indica que explica poca variabilidad, y el test de Hosmer-Lemeshow (p < 0.05) evidencia que las predicciones no se ajustan bien a los datos reales. En términos prácticos, el modelo presenta una capacidad predictiva aceptable pero limitada, sirviendo de apoyo mas reemplazo al criterio humano experimentado.
El valor del AUC es 0.7198, lo que indica que el modelo tiene una capacidad aceptable de clasificacion de los empleados entre los que rotan y los que no. En general el modelo tiene una buena capacidad para clasificar correctamente a los empleados (es mejor que el azar con un AUC = 0.5), aunque existe margen en su poder predictivo.
Este desempeño podria optimizarse mediante una mejor seleccion de varbales, considerando aquellas que aporten mayor capacidad explicativa en conjunto (teniendo en cuenta y evitando la colinealidad), lo cual podrpía mejorar la capacidad de clasificacion del modelo.
Partiendo segun la aplicacion de este problema, el modelo puede ser una herramienta utila para apoyar la toma de decisiones en la empresa o lugar donde se este evaluando, permitiendo identificar empleados con mayor probabilidad de rotación. Sin embargo, no debe ser utilizado como único criterio, sino como complemento dentro de una estrategia más amplia de gestión del personal.
## Real
## Predicho 0 1
## 0 1226 225
## 1 7 12
## Confusion Matrix and Statistics
##
## Reference
## Prediction 0 1
## 0 1226 225
## 1 7 12
##
## Accuracy : 0.8422
## 95% CI : (0.8225, 0.8605)
## No Information Rate : 0.8388
## P-Value [Acc > NIR] : 0.3775
##
## Kappa : 0.0715
##
## Mcnemar's Test P-Value : <2e-16
##
## Sensitivity : 0.050633
## Specificity : 0.994323
## Pos Pred Value : 0.631579
## Neg Pred Value : 0.844935
## Prevalence : 0.161224
## Detection Rate : 0.008163
## Detection Prevalence : 0.012925
## Balanced Accuracy : 0.522478
##
## 'Positive' Class : 1
##
La matriz de confusión muestra un fuerte desequilibrio en la predicción: el modelo clasifica correctamente a la mayoría de los empleados que no rotan (alta especificidad = 0.99), pero apenas detecta a quienes sí rotan (sensibilidad = 0.05). Esto indica que, con el punto de corte estándar de 0.5, el modelo es muy conservador y tiende a predecir “no rotación” en casi todos los casos.
## Confusion Matrix and Statistics
##
## Reference
## Prediction 0 1
## 0 1145 155
## 1 88 82
##
## Accuracy : 0.8347
## 95% CI : (0.8147, 0.8533)
## No Information Rate : 0.8388
## P-Value [Acc > NIR] : 0.6799
##
## Kappa : 0.31
##
## Mcnemar's Test P-Value : 2.297e-05
##
## Sensitivity : 0.34599
## Specificity : 0.92863
## Pos Pred Value : 0.48235
## Neg Pred Value : 0.88077
## Prevalence : 0.16122
## Detection Rate : 0.05578
## Detection Prevalence : 0.11565
## Balanced Accuracy : 0.63731
##
## 'Positive' Class : 1
##
## Warning: glm.fit: algorithm did not converge
La nueva matriz de confusión muestra una mejora sustancial en la capacidad del modelo para detectar la rotación: la sensibilidad pasó de 5% a 35%, y el valor de Kappa subió de 0.07 a 0.31, lo que indica un acuerdo más allá del azar claramente superior al modelo anterior. Sin embargo, el modelo sigue siendo conservador (especificidad 93%), pero ahora ofrece un equilibrio más útil para intervenciones de retención.
EL modelo se va a evaluar con otras variables cuantitativas y cualitativas, para esto vamos a buscar las variables más relevantes, significativas estadisticamente hablando y sin presentar multicolinealidad severa.
Con el fin de evitar redundancia en el modelo se selecciona la variable Años_Experiencia dado que tiene menor correlación numérica respecto a edad. El ingreso mensual tendrá una transformación logarítmica con el fin de linealizar el efectoy reducir los outliers. La Distancia_Casa es otra variable a considerar dada su baja correlación con las otras variables numéricas. Dentro de las variables cualitativas se opta por las variables de Satisfaccion_Laboral dada su asociación significativa, Equilibrio_Trabajo_Vida donde resulta más relevante que el genero y por último el estado civil dado que los solteros presentan una mayor propensión a rotar.
## GVIF Df GVIF^(1/(2*Df))
## Años_Experiencia 1.796676 1 1.340402
## log(Ingreso_Mensual) 1.798689 1 1.341152
## Distancia_Casa 1.017960 1 1.008940
## Satisfación_Laboral 1.013463 1 1.006709
## Equilibrio_Trabajo_Vida 1.014787 3 1.002450
## Estado_Civil 1.020281 2 1.005032
## Area under the curve: 0.7292
## Real
## Predicho 0 1
## 0 1123 150
## 1 110 87
El análisis de multicolinealidad mediante GVIF confirma que las seis variables seleccionadas no presentan correlaciones excesivas que comprometan la estabilidad de los coeficientes del modelo logístico. Los valores GVIF^(1/(2·Df)) se mantienen cercanos a 1, validando la independencia relativa de los predictores y la robustez de las estimaciones obtenidas.
Aumento de sensibilidad (34.6% → 38.4%): El modelo detecta ahora casi 4 de cada 10 rotaciones, una mejora de 4 puntos porcentuales. Esto se debe a que el umbral 0.5 es más permisivo que 0.3, clasificando más casos como positivos.
Ligera caída en especificidad (92.9% → 90.9%): El modelo comete más falsos positivos (112 vs 88), es decir, predice rotación en 24 empleados adicionales que en realidad no rotan.
Precisión moderadamente menor (48.2% → 44.8%): De cada 100 alertas generadas, ahora 45 son acertadas (antes 48). La contrapartida es una mayor cobertura de rotaciones reales.
Para ilustrar la utilidad práctica del modelo, se construyen tres perfiles hipotéticos y se calcula la probabilidad estimada de rotación para cada uno. Esto permite traducir los resultados estadísticos a escenarios de decisión más concretos.
## Años_Experiencia Ingreso_Mensual Distancia_Casa Satisfación_Laboral
## 1 4 2700 40 2
## Equilibrio_Trabajo_Vida Estado_Civil
## 1 2 Soltero
## 1
## "INTERVENIR"
Juan tiene una distancia al trabajo a 40 km, lo que eleva significativamente su riesgo de rotación por fatiga y costos de desplazamiento. La intervención más efectiva es otorgarle teletrabajo de inmediato. Complementariamente, un bono por desempeño y un plan de desarrollo a corto plazo pueden revertir su baja satisfacción. Se recomienda actuar en las próximas dos semanas.
En este segundo caso se considera un empleado con mayor edad, más experiencia, ingreso alto, casado, con alta satisfacción laboral y alto equilibrio trabajo-vida. En principio, este perfil debería presentar una menor probabilidad de rotación.
## Años_Experiencia Ingreso_Mensual Distancia_Casa Satisfación_Laboral
## 1 18 10000 30 4
## Equilibrio_Trabajo_Vida Estado_Civil
## 1 4 Casado
## 1
## "No intervenir"
En este tercer perfil se plantea una situación intermedia: edad media, experiencia moderada, ingreso medio, estado civil divorciado, satisfacción laboral media y equilibrio trabajo-vida medio. Este caso sirve para comparar cómo cambia la probabilidad entre perfiles extremos y perfiles más moderados.
## Años_Experiencia Ingreso_Mensual Distancia_Casa Satisfación_Laboral
## 1 8 5000 15 3
## Equilibrio_Trabajo_Vida Estado_Civil
## 1 3 Divorciado
## 1
## "No intervenir"
A partir del análisis realizado, se encontró que la rotación de empleados está asociada con varios factores laborales y personales. En el análisis bivariado, las variables cuantitativas seleccionadas mostraron diferencias significativas entre empleados que rotan y los que no, lo que sugiere que edad, experiencia e ingreso sí tienen relación con la rotación cuando se evalúan de manera individual. Sin embargo, dentro del modelo logit múltiple, las variables que mostraron una señal más clara fueron la satisfacción laboral, el estado civil en la categoría soltero y el equilibrio trabajo-vida.
En particular, el modelo sugiere que una mayor satisfacción laboral reduce la probabilidad de rotación, lo cual es coherente con la intuición organizacional. Del mismo modo, un mejor equilibrio entre vida personal y trabajo también se asocia con menor probabilidad de salida. Por el contrario, el hecho de que el empleado sea soltero aparece asociado con una mayor probabilidad de rotación frente a la categoría de referencia. Estos resultados muestran que, aunque los factores económicos y de trayectoria importan, variables relacionadas con bienestar y estabilidad percibida parecen tener un peso importante en la explicación conjunta de la rotación.
Desde el punto de vista predictivo, el modelo presenta una capacidad aceptable para discriminar entre quienes rotan y quienes no. La curva ROC y el valor AUC muestran que el modelo funciona mejor que una clasificación al azar. Además, el análisis de sensibilidad del punto de corte mostró que la decisión final puede cambiar de manera importante según el umbral elegido. Un corte bajo favorece la detección temprana de más empleados en riesgo, mientras que un corte alto reduce falsas alarmas, pero también puede dejar pasar algunos casos relevantes.
Las tres predicciones realizadas sobre perfiles hipotéticos permitieron aterrizar mejor los resultados. Se observó que el perfil con baja satisfacción, bajo equilibrio trabajo-vida y condiciones laborales menos favorables presenta mayor probabilidad estimada de rotación. En cambio, el perfil con mejores condiciones de estabilidad muestra una probabilidad considerablemente menor. Esto confirma que el modelo puede ser útil como herramienta de apoyo para segmentar empleados según nivel de riesgo.
Con base en lo anterior, una estrategia razonable para disminuir la rotación en la empresa sería fortalecer acciones relacionadas con el bienestar laboral. En concreto, convendría trabajar en programas de mejora de la satisfacción laboral, revisar cargas de trabajo que afecten el equilibrio vida-trabajo y acompañar de forma más cercana a los perfiles que el modelo identifique como de mayor riesgo. También sería útil complementar estas acciones con planes de desarrollo, ajustes en compensación cuando sea pertinente y medidas de clima organizacional.