Introducción

El siguiente reporte analiza la situación actual de rotación en la empresa en relación a las variables reportadas para cada empleado, específicamente, se busca identificar las variables que aumentan consideblemente la probabilidad de que un empleado tome la decisión de renunciar.

Para cumplir este propósito, se realizaron las siguientes acciones: la base de datos fue preparada a través de codificaciones y limpieza, luego se realizó un análisis univariado dependiendo del tipo de variable (cuantitativa o cualitativa) para posteriormente emplear técnicas visuales y estadísticas a nivel bivariado para medir, de manera preliminar, la incidencia de cada variable sobre la rotación.

A partir de estos insumos, se eligieron siete variables para modelar una regresión logística, encontrando los odds y calculando las “probabilidades comparativas”, así como realizando pruebas para conocer el nivel de certidumbre que puede lograr este modelo e identificar oportunidades de optimización. Finalmente, se presentan conclusiones útiles para la toma de decisiones en la empresa, considerando una simulación de escenarios que permiten entender la naturaleza del modelo.

Preparación de datos

Si bien la base de datos usada no presenta grandes problemas de datos nulos o datos no correspondientes a alguna variable en cuestión (como puede ser un texto en una variable númerica), sí se hizo necesario tomar las siguientes acciones:

Análisis Exploratorio de datos

Univariado

Teniendo en cuenta la separación por variables, vemos que las cuantitativas evaluadas presentan una amplia heterogeneidad en sus rangos y dispersión. Por ejemplo, el ingreso mensual promedio es de $6.503.000, pero con una desviación estándar de $4.708.000, por lo que hay diferencias considerables entre empleados en este aspecto. La antigüedad en la empresa y la antigüedad en el cargo también muestran alta variabilidad, con máximos de 40 años pero medianas relativamente bajas (5 y 3 años, respectivamente), lo que indica que la mayoría de empleados tiene trayectorias más cortas. Otras variables como capacitaciones, promociones recientes y trabajos anteriores tienden a valores bajos, lo que sugiere trayectorias laborales relativamente estables dentro de la empresa.

También se observa que algunas variables presentan sesgo a la derecha, es decir, hay pocos empleados con valores muy altos, como en el caso de la experiencia laboral y los años con el mismo jefe. Este tipo de distribución puede afectar la interpretación de medidas como la media y debe tenerse en cuenta al evaluar su efecto sobre la rotación.

Estadísticas Descriptivas de Variables Cuantitativas
Variable Media Mediana Desviacion Min Max
edad 36.924490 36 9.135938 1 60
distancia_casa 9.192517 7 8.106864 1 29
ingreso_mensual 6502.931293 4919 4707.956783 1 19999
trabajos_anteriores 2.693197 2 2.498009 0 9
porcentaje_aumento 15.209524 14 3.659938 1 25
anos_experiencia 11.279592 10 7.780782 0 40
capacitaciones 2.799320 3 1.289271 0 6
antiguedad 7.008163 5 6.126525 0 40
antiguedad_cargo 4.229252 3 3.623137 0 18
anos_ultima_promocion 2.187755 1 3.222430 0 15
anos_mismo_jefe 4.123129 3 3.568136 0 17

Estas observaciones se complementan con los gráficos de distribución, donde se evidencia visualmente la presencia de valores atípicos en variables como ingreso_mensual, antiguedad, anos_experiencia y anos_mismo_jefe. En estos casos, los boxplots muestran colas largas hacia valores elevados, confirmando la existencia de una minoría de empleados con condiciones significativamente diferentes al resto. Por el contrario, variables como capacitaciones o trabajos_anteriores se concentran fuertemente en valores bajos, con distribuciones más simétricas y compactas.

Gráfica 1: Histogramas de variables cuantitativas

Gráfica 2: Box Plots de variables cuantitativas

Adicionalmente, se aplicó la prueba de Shapiro-Wilk para evaluar la normalidad en este grupo, encontrando que ninguna de ellas presenta una distribución normal (como ya se sugería desde las graficas de distribución). Esta evidencia, sugiere optar por pruebas no paramétricas en el análisis bivariado e invita a tener precaución al interpretar medidas como la media o al aplicar modelos sensibles a supuestos de normalidad. En este contexto, medidas como la mediana y el rango intercuartílico adquieren mayor relevancia, y el análisis visual mediante boxplots se convierte en una herramienta esencial para identificar aquellos casos que puedan distorsionar la búsqueda de modelos más consistente.

Prueba de Normalidad (Shapiro-Wilk)
Variable P_Valor Conclusión
antiguedad_cargo 0 Rechazar H0 (No Normalidad)
anos_mismo_jefe 0 Rechazar H0 (No Normalidad)
capacitaciones 0 Rechazar H0 (No Normalidad)
trabajos_anteriores 0 Rechazar H0 (No Normalidad)
anos_ultima_promocion 0 Rechazar H0 (No Normalidad)
anos_experiencia 0 Rechazar H0 (No Normalidad)
antiguedad 0 Rechazar H0 (No Normalidad)
distancia_casa 0 Rechazar H0 (No Normalidad)
edad 0 Rechazar H0 (No Normalidad)
porcentaje_aumento 0 Rechazar H0 (No Normalidad)

En cuanto a las variables cualitativas, observamos que la mayoría de los empleados no ha presentado rotación (84%), lo que indica cierta estabilidad general o, en el peor de los casos, un potencial sesgo de selección de datos. Sin embargo, hay diferencias notables en los perfiles laborales: por ejemplo, el 71% reporta viajar por trabajo “raramente”, mientras que solo un 10% no viaja nunca. La distribución por departamento muestra una concentración importante en el área de Investigación y Desarrollo (65%), seguida por Ventas (30%). En cuanto al nivel educativo, la mayor parte del personal cuenta con formación técnica o de pregrado, aunque el 30% de los casos sean bachilleres o solo hayan alcanzado la primaria.

En términos de satisfacción y condiciones de trabajo, predominan empleados con percepciones positivas: más del 60% se considera “satisfecho” o “muy satisfecho” tanto en satisfacción laboral como ambiental. En contraste, solo un 10% califica su equilibrio vida-trabajo como “alto”, y un 5% como “muy bajo”; contraste que genera naturalmente suspicacia porque puede haber sienta presión para mostrarse conforme con el trabajo mientras que es el equilibrio de vida lo que proyecte realmente el estado emocional del empleado.

Finalmente, el 28% del personal realiza horas extra, y el 40% son mujeres, lo que ofrece un panorama adicional para futuras segmentaciones o análisis de retención. Se sugiere ver cada gráfica para un entendimiento más eficiente.

Barras apiladas con distribución porcentual por variable cualitativa

Bivariado

Teniendo en cuenta el análisis anterior, continuamos con el análisis bivariado nuevamente por tipos de variable, y usando tanto métodos visuales como de pruebas de hipótesis.

Vemos en el grupo de las cuantitativas que al aplicar una prueba de Mann-Whitney, la mayoría de variables presentan diferencias estadísticamente significativas entre empleados que han rotado y los que no. Este es el caso de variables como edad, ingreso mensual, distancia al trabajo, experiencia laboral y antigüedad tanto en la empresa como en el cargo. La antigüedad con el mismo jefe y el número de capacitaciones también muestran asociación significativa, aunque en menor magnitud. Por otro lado, variables como trabajos anteriores y porcentaje de aumento salarial no presentan diferencias relevantes según el resultado de la prueba. Esto sugiere que, en general, la rotación parece estar más asociada con trayectorias laborales internas (como años de experiencia y antigüedad en el cargo) que con eventos externos como cambios previos de trabajo o aumentos salariales.

Cabe mencionar que se aplicó la prueba de normalidad de Shapiro-Wilk a todas las variables cuantitativas y ninguna cumplió con el supuesto de normalidad. De ahí el uso de Mann-Whitney para las comparaciones.

Comparación de variables cuantitativas con Rotación (Prueba Mann-Whitney)
Variable P-Valor Diferencia Significativa
edad 0.0000
distancia_casa 0.0024
ingreso_mensual 0.0000
trabajos_anteriores 0.2424 No
porcentaje_aumento 0.3655 No
anos_experiencia 0.0000
capacitaciones 0.0473
antiguedad 0.0000
antiguedad_cargo 0.0000
anos_ultima_promocion 0.0412
anos_mismo_jefe 0.0000

Los boxplots permiten visualizar de forma más clara las diferencias entre los grupos con y sin rotación. Por ejemplo, se observa que quienes se mantienen en la empresa tienden a tener mayores niveles de ingreso mensual, experiencia laboral, antigüedad general y antigüedad en el cargo. En contraste, los empleados que se van suelen ser más jóvenes, viven más lejos y han estado menos tiempo tanto en la empresa como en sus cargos actuales. Estas diferencias se alinean con los resultados estadísticos, y en conjunto sugieren que el tiempo acumulado en la organización puede estar vinculado a una mayor estabilidad.

Algunas variables como los años con el mismo jefe o los años desde la última promoción también muestran distribuciones más concentradas para quienes se han ido, lo que podría indicar menor movilidad interna o falta de reconocimiento reciente. Aunque variables como porcentaje de aumento salarial y trabajos anteriores no resultaron significativas en el análisis de hipótesis, su variabilidad sugiere que podrían ser relevantes en ciertos escenarios o abordándolas a través de otro tipo de aproximaciones.

Gráfica 4: Box plots para cada variable distinguiendo el tipo de rotación

Respecto a la relación de las variables cualitativas con la rotación, observamos que once de las catorce variables analizadas presentan una asociación estadísticamente significativa con la decisión de permanecer o no en la empresa. Entre las más destacadas se encuentran el cargo (V de Cramer = 0.242), las horas extra (0.244) y el estado civil (0.177), cuyas magnitudes sugieren un nivel de asociación moderado. Variables como el campo educativo, la satisfacción ambiental y la satisfacción laboral también muestran asociaciones significativas, aunque con efectos más tenues según los valores del estadístico. Por otro lado, la educación, el género y el rendimiento laboral no presentan diferencias significativas, lo cual resulta interesante dado que en otros contextos estos factores suelen ser relevantes.

El uso en este caso de la prueba de Chi-cuadrado fue decidido debido a la naturaleza categórica de este grupo de variables, donde muchas son además ordinales. En el caso particular de campo_educacion, donde algunas celdas de la tabla de contingencia tenían frecuencias esperadas bajas, se empleó una versión con simulación Monte Carlo (MC), lo que permitió mantener la validez del contraste sin violar los supuestos de la prueba. El uso complementario del estadístico de V de Cramer facilita interpretar la magnitud del efecto más allá de la significancia, siendo util para priorizar variables en futuros modelos.

Pruebas de Asociación entre Rotación y Variables Cualitativas
Variable P_Valor Prueba_Aplicada Diferencia_Significativa V_de_Cramer
rotacion 0.0000 Chi-Square Test 0.997
viaje_negocios 0.0000 Chi-Square Test 0.128
departamento 0.0045 Chi-Square Test 0.086
educacion 0.5455 Chi-Square Test No 0.046
campo_educacion 0.0075 Chi-Square (MC) 0.104
satisfaccion_ambiental 0.0001 Chi-Square Test 0.124
genero 0.2906 Chi-Square Test No 0.028
cargo 0.0000 Chi-Square Test 0.242
satisfaccion_laboral 0.0006 Chi-Square Test 0.109
estado_civil 0.0000 Chi-Square Test 0.177
horas_extra 0.0000 Chi-Square Test 0.244
rendimiento_laboral 0.9901 Chi-Square Test No 0.000
equilibrio_vida 0.0010 Chi-Square Test 0.105

Estimación del modelo de regresión logística

Basándonos en los insumos anteriores y teniendo en cuenta que hay fuertes indicios de que las variables internas al trabajo (considerese, endógenas), y no externas o propias del perfil sociodemográfico, son aquella más vinculadas a la variabilidad en la rotación, se decidieron escoger las siguientes para modelar una regresión logística:

Notese que hay cuatro variables cualitativas y tres cuantitativas, todas ellas con pruebas de hipótesis favorable en cuanto su relación con la rotación. De estas siete variables, solo hay dos que no son completamente dependientes del entorno laboral: el estado civil y los años de experiencia (que de cualquier manera se sigue alimentando con la antiguedad en el cargo, lo que podría llegar incluso a generar un tipo de autocorrelación). La primera de estas variables fue añadida principalmente por la notable distancia en los valores de rotación de los trabajadores en pareja y aquellos solteros/independientes.

De manera descriptiva, se ha observado una situación particular que es la que teóricamente se busca comprobar con la regresión logística: una persona con ingresos relativamente bajos, muchos años de experiencia y pero poco tiempo en la empresa (loo que genera menos costos de oportunidad y menos fidelización), con viajes constantes, con trabajo extra y sin dependientes económicos es una persona más propensa a renunciar. El factor diferencial de este racional es, además, el departamento en el que se encuentran estas personas; siendo el departamento de ventas el que parece aglutinar este perfil descrito.

Dicho esto, a continuación se observan los resultados de esta modelo:

## 
## Call:
## glm(formula = rotacion_bin ~ ingreso_mensual + anos_experiencia + 
##     antiguedad_cargo + viaje_negocios + departamento + estado_civil + 
##     horas_extra, family = binomial(link = "logit"), data = rotacion)
## 
## Coefficients:
##                           Estimate Std. Error z value Pr(>|z|)    
## (Intercept)             -1.099e+00  2.421e-01  -4.537 5.69e-06 ***
## ingreso_mensual         -8.535e-05  3.322e-05  -2.569 0.010202 *  
## anos_experiencia        -2.145e-02  1.866e-02  -1.150 0.250173    
## antiguedad_cargo        -9.788e-02  2.907e-02  -3.367 0.000759 ***
## viaje_negociosNo_Viaja  -1.323e+00  3.530e-01  -3.749 0.000178 ***
## viaje_negociosRaramente -6.611e-01  1.817e-01  -3.638 0.000274 ***
## departamentoRH           6.137e-01  3.601e-01   1.704 0.088335 .  
## departamentoVentas       6.360e-01  1.700e-01   3.742 0.000183 ***
## estado_civilDivorciado  -3.091e-01  2.318e-01  -1.334 0.182243    
## estado_civilSoltero      8.284e-01  1.713e-01   4.837 1.32e-06 ***
## horas_extraSi            1.463e+00  1.591e-01   9.192  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 1298.6  on 1469  degrees of freedom
## Residual deviance: 1072.7  on 1459  degrees of freedom
## AIC: 1094.7
## 
## Number of Fisher Scoring iterations: 5

El modelo presenta un ajuste razonablemente bueno. La reducción de la desviación nula (1298.6) a una desviación residual de 1072.7, junto con un AIC de 1094.7, indica que las variables incluidas explican una parte sustancial de la variabilidad en la rotación. Además, cinco de las once variables dummy del modelo - considerando como variables las respuestas particulares en los casos cualitativos - resultaron estadísticamente significativas (p < 0.05), lo cual confirma su relevancia para predecir la probabilidad de rotación/renuncia de los trabajadores. Si bien aún podría optimizarse el desempeño del modelo, los signos de los coeficientes y la significancia observada son consistentes con los patrones descriptivos y con el postulado hipotético que se explicó anteriormente.

Respecto a la interpretación e influencia de cada variable, podríamos decir en el caso de las cuantitativas que:

Respecto a las variables cualitativas:

Es importante considerar que los valores relacionados al Odds Ratio se calculan así:

Tomemos como ejemplo la variable horas extra, cuyo odds ratio (OR) es de 4.32. Este número significa que, manteniendo constantes las demás variables del modelo, un empleado que realiza horas extra tiene 4.32 veces más probabilidades de rotar que uno que no lo hace. Para expresar este valor de forma más intuitiva se aplicó la fórmula (OR−1)×100, que nos indica el porcentaje de aumento en la probabilidad relativa de rotación. En este caso, (4.32−1)×100=332%. Es decir, hacer horas extra se asocia con un incremento del 332% en la probabilidad de rotación, en comparación con no hacerlas.

Con este panorama claro, es importante evaluar el ajuste del modelo. Para esto, se utilizó la curva ROC que permite medir la capacidad predictiva del modelo en términos de sensibilidad y especificidad. El área bajo la curva (AUC) fue de 0.782, lo que indica un buen nivel de discriminación entre empleados que rotan y los que no. Aunque no es un modelo perfecto, un AUC cercano a 0.8 es generalmente considerado adecuado en contextos sociales y organizacionales debido a la naturaleza volatil propia de los espacios humanos. En este caso, el modelo logra balancear correctamente los falsos positivos y negativos, lo que refuerza su utilidad como herramienta práctica de monitoreo y toma de decisiones.

## Area under the curve: 0.7823

Predicciones del modelo

A continuación se presentan los resultados de dos simulaciones con valores aleatorios. El código se deja visible para mostrar los rangos adoptados. La columna prob_rotacion es la probabilidad de que el individuo hipotético renuncie, mientras que intervencion_recomendada indica si se supera el umbral de 0.6 para activar una acción preventiva. Se eligió este umbral para no incentivar un escenario casi de aleatoriedad.

  • El primer individuo tiene características asociadas a mayor riesgo de rotación: bajo ingreso (4000), poca antigüedad en el cargo (1 año), trabaja en el departamento de ventas, es soltero y realiza horas extra. Su probabilidad de rotación estimada es 65%, por lo que el modelo sugiere que sí se debe intervenir.

  • El segundo individuo tiene un perfil más estable: alto ingreso (9000), más experiencia y antigüedad, pertenece a IyD, está casado y no hace horas extra. Su probabilidad de rotación es solo 4.9%, por lo que no se recomienda intervención.

set.seed(123)

rotacionSimulacion <- rotacion %>%
  mutate(
    viaje_negocios = as.factor(viaje_negocios),
    departamento = as.factor(departamento),
    estado_civil = as.factor(estado_civil),
    horas_extra = as.factor(horas_extra)
  )

modelo_logit <- glm(
  rotacion_bin ~ ingreso_mensual + anos_experiencia + antiguedad_cargo +
    viaje_negocios + departamento + estado_civil + horas_extra,
  family = binomial(link = "logit"),
  data = rotacionSimulacion
)

simulaciones <- data.frame(
  ingreso_mensual = c(4000, 9000),
  anos_experiencia = c(5, 15),
  antiguedad_cargo = c(1, 8),
  viaje_negocios = factor(c("Raramente", "Frecuentemente"), 
                          levels = levels(rotacionSimulacion$viaje_negocios)),
  departamento = factor(c("Ventas", "IyD"), 
                        levels = levels(rotacionSimulacion$departamento)),
  estado_civil = factor(c("Soltero", "Casado"), 
                        levels = levels(rotacionSimulacion$estado_civil)),
  horas_extra = factor(c("Si", "No"), 
                       levels = levels(rotacionSimulacion$horas_extra))
)

simulaciones$prob_rotacion <- predict(modelo_logit, newdata = simulaciones, type = "response")

corte_intervencion <- 0.6
simulaciones$intervencion_recomendada <- ifelse(simulaciones$prob_rotacion >= corte_intervencion, "Sí", "No")

kable(simulaciones, 
      caption = "Dos simulaciones aleatorias con trabajadores hipotéticos",
      row.names = FALSE) %>%
  kable_styling(full_width = FALSE, bootstrap_options = c("striped", "hover"))
Dos simulaciones aleatorias con trabajadores hipotéticos
ingreso_mensual anos_experiencia antiguedad_cargo viaje_negocios departamento estado_civil horas_extra prob_rotacion intervencion_recomendada
4000 5 1 Raramente Ventas Soltero Si 0.6503601
9000 15 8 Frecuentemente IyD Casado No 0.0487209 No

Conclusiones

Este informe considera que son tres las conclusiones claves a tener en cuenta para la toma de decisiones respecto a la rotación:

Con base en lo discutido, se dejan a consideración las siguientes recomendaciones: