p { text-align: justify; }

Resumen ejecutivo

La tasa de rotación observada fue de 16.1% (237 de 1,470 empleados). Se seleccionaron tres variables categóricas (Horas_Extra, Departamento y Estado_Civil) y tres cuantitativas (Edad, Ingreso_Mensual y Antigüedad_Cargo) por su relación teórica con carga laboral, contexto organizacional, estabilidad personal, compensación y permanencia en el rol. En el análisis bivariado, todas las variables mostraron asociación estadísticamente significativa con la rotación. En el modelo logístico multivariado, las covariables con evidencia más sólida fueron Horas_Extra, DepartamentoVentas, Estado_CivilSoltero, Edad, Ingreso_Mensual y Antigüedad_Cargo. El factor de mayor peso fue realizar horas extra (OR = 4.39). El modelo alcanzó un AUC = 0.772, valor que indica capacidad de discriminación aceptable. Para fines de gestión preventiva se propone un punto de corte de 0.25, ya que ofrece un mejor equilibrio entre sensibilidad y especificidad que el umbral tradicional de 0.50.

1 Introducción

La rotación de personal es uno de los principales desafíos en la gestión del talento humano, ya que impacta directamente la estabilidad organizacional, los costos de contratación y la continuidad de los procesos. Comprender los factores asociados a este fenómeno permite a las organizaciones diseñar estrategias preventivas orientadas a la retención del talento clave. En este estudio se analiza un conjunto de datos históricos de empleados que incluye variables demográficas, laborales y organizacionales. El objetivo principal es identificar los factores asociados a la rotación de personal y construir un modelo de regresión logística binaria que permita estimar la probabilidad de que un empleado presente rotación laboral. A partir de este modelo, la organización podrá anticipar comportamientos de riesgo, identificar perfiles con alta probabilidad de rotación y tomar decisiones estratégicas basadas en evidencia, con el fin de mejorar la estabilidad laboral y la gestión del talento humano.

2 Carga de datos

En esta sección se realiza la importación del conjunto de datos “rotacion” desde el paquete proporcionado, con el fin de iniciar el proceso de análisis exploratorio y modelamiento estadístico.

## Rows: 1,470
## Columns: 24
## $ Rotación                    <chr> "Si", "No", "Si", "No", "No", "No", "No", …
## $ Edad                        <dbl> 41, 49, 37, 33, 27, 32, 59, 30, 38, 36, 35…
## $ `Viaje de Negocios`         <chr> "Raramente", "Frecuentemente", "Raramente"…
## $ Departamento                <chr> "Ventas", "IyD", "IyD", "IyD", "IyD", "IyD…
## $ Distancia_Casa              <dbl> 1, 8, 2, 3, 2, 2, 3, 24, 23, 27, 16, 15, 2…
## $ Educación                   <dbl> 2, 1, 2, 4, 1, 2, 3, 1, 3, 3, 3, 2, 1, 2, …
## $ Campo_Educación             <chr> "Ciencias", "Ciencias", "Otra", "Ciencias"…
## $ Satisfacción_Ambiental      <dbl> 2, 3, 4, 4, 1, 4, 3, 4, 4, 3, 1, 4, 1, 2, …
## $ Genero                      <chr> "F", "M", "M", "F", "M", "M", "F", "M", "M…
## $ Cargo                       <chr> "Ejecutivo_Ventas", "Investigador_Cientifi…
## $ Satisfación_Laboral         <dbl> 4, 2, 3, 3, 2, 4, 1, 3, 3, 3, 2, 3, 3, 4, …
## $ Estado_Civil                <chr> "Soltero", "Casado", "Soltero", "Casado", …
## $ Ingreso_Mensual             <dbl> 5993, 5130, 2090, 2909, 3468, 3068, 2670, …
## $ Trabajos_Anteriores         <dbl> 8, 1, 6, 1, 9, 0, 4, 1, 0, 6, 0, 0, 1, 0, …
## $ Horas_Extra                 <chr> "Si", "No", "Si", "Si", "No", "No", "Si", …
## $ Porcentaje_aumento_salarial <dbl> 11, 23, 15, 11, 12, 13, 20, 22, 21, 13, 13…
## $ Rendimiento_Laboral         <dbl> 3, 4, 3, 3, 3, 3, 4, 4, 4, 3, 3, 3, 3, 3, …
## $ Años_Experiencia            <dbl> 8, 10, 7, 8, 6, 8, 12, 1, 10, 17, 6, 10, 5…
## $ Capacitaciones              <dbl> 0, 3, 3, 3, 3, 2, 3, 2, 2, 3, 5, 3, 1, 2, …
## $ Equilibrio_Trabajo_Vida     <dbl> 1, 3, 3, 3, 3, 2, 2, 3, 3, 2, 3, 3, 2, 3, …
## $ Antigüedad                  <dbl> 6, 10, 0, 8, 2, 7, 1, 1, 9, 7, 5, 9, 5, 2,…
## $ Antigüedad_Cargo            <dbl> 4, 7, 0, 7, 2, 7, 0, 0, 7, 7, 4, 5, 2, 2, …
## $ Años_ultima_promoción       <dbl> 0, 1, 0, 3, 2, 3, 0, 0, 1, 7, 0, 0, 4, 1, …
## $ Años_acargo_con_mismo_jefe  <dbl> 5, 7, 0, 0, 2, 6, 0, 0, 8, 7, 3, 8, 3, 2, …

3 Descripción de datos

3.1 Variable respuesta

Descripción de variables
Variable Descripcion
Rendimiento_Laboral 1 = bajo; 2 = medio; 3 = alto; 4 = muy alto
Distancia_Casa Kilómetros desde la casa hasta el lugar de trabajo
Educación 1 = primaria; 2 = secundaria; 3 = técnico/tecnólogo; 4 = pregrado; 5 = posgrado
Satisfacción_Ambiental 1 = muy insatisfecho; 2 = insatisfecho; 3 = satisfecho; 4 = muy satisfecho
Satisfación_Laboral 1 = muy insatisfecho; 2 = insatisfecho; 3 = satisfecho; 4 = muy satisfecho
Trabajos_Anteriores Número de trabajos antes de ingresar a la empresa
Equilibrio_Trabajo_Vida 1 = muy bajo; 2 = bajo; 3 = medio; 4 = alto

3.2 Variables cuantitativas

Se escogieron seis covariables: tres categóricas y tres cuantitativas. La selección busca cubrir dimensiones complementarias del problema: sobrecarga laboral, área organizacional, estabilidad personal, experiencia, nivel salarial y consolidación en el cargo.

Variables e hipótesis
Variable Tipo Hipotesis Relacion
Horas_Extra Categórica Los empleados con horas extra tendrán mayor probabilidad de rotación por mayor carga y desgaste laboral. Positiva
Departamento Categórica Se espera mayor rotación en áreas con mayor presión operativa o comercial, particularmente Ventas. Positiva en Ventas/RH frente a IYD
Estado_Civil Categórica Se espera mayor rotación en empleados solteros, dado que suelen tener mayor flexibilidad para cambiar de empleo. Positiva para solteros
Edad Cuantitativa Los empleados más jóvenes tenderán a rotar más en búsqueda de mejores oportunidades o ajuste de carrera. Negativa
Ingreso_Mensual Cuantitativa Un mayor ingreso mensual reducirá la probabilidad de rotación al mejorar la percepción de recompensa. Negativa
Antigüedad_Cargo Cuantitativa Una mayor permanencia en el cargo reflejará ajuste y estabilidad, por lo que debería disminuir la rotación. Negativa

4 Análisis univariado

El análisis univariado se realizó respetando el tipo de variable. Para la variable respuesta y las variables categóricas se reportaron frecuencias y porcentajes; para las cuantitativas se utilizaron medidas de tendencia central y dispersión. Este paso permite caracterizar la muestra antes de evaluar asociaciones. Para las variables cualitativas se emplearon tablas de frecuencia absoluta y relativa, mientras que para las cuantitativas se reportaron medidas de tendencia central y dispersión. Esta caracterización permite describir la muestra y anticipar patrones que luego serán contrastados formalmente en el análisis bivariado y multivariado.

4.1 Variable respuesta: Rotación

La base presenta 1,233 empleados sin rotación (83.9%) y 237 con rotación (16.1%). Esto implica que el evento de interés es minoritario, situación que debe considerarse al definir el punto de corte del modelo, ya que umbrales altos pueden reducir en exceso la sensibilidad.

4.2 Variables cuantitativas

Estadísticos descriptivos de variables cuantitativas
Variable Media Mediana DE Mínimo Máximo
Edad 36.92 36 9.14 18 60
Ingreso_Mensual 6502.93 4919 4707.96 1009 19999
Antigüedad_Cargo 4.23 3 3.62 0 18
  • La edad se concentra alrededor de los 37 años y presenta una dispersión moderada, suficiente para esperar diferencias entre grupos de empleados.

  • El ingreso mensual es la variable más dispersa; además, su media supera con amplitud a la mediana, lo que sugiere heterogeneidad salarial y posible asimetría hacia ingresos altos.

  • La antigüedad en el cargo muestra una mediana de 3 años, por lo que una fracción importante de la planta se encuentra todavía en etapas tempranas de consolidación en su rol actual.

4.3 Variables categóricas

Distribución de variables categóricas
Variable Categoria Frecuencia Porcentaje
Departamento IyD 961 65.4%
Departamento RH 63 4.3%
Departamento Ventas 446 30.3%
Estado_Civil Casado 673 45.8%
Estado_Civil Divorciado 327 22.2%
Estado_Civil Soltero 470 32.0%
Horas_Extra No 1054 71.7%
Horas_Extra Si 416 28.3%
  • La mayoría de empleados no realiza horas extra, aunque 28.3% sí lo hace, proporción suficiente para analizar su asociación con la rotación.

  • IYD concentra casi dos tercios de la planta, mientras que Ventas representa cerca de una tercera parte; RH tiene un peso bajo dentro del total.

  • Predominan los empleados casados y solteros, lo que hace pertinente examinar si la estabilidad familiar se relaciona con decisiones de permanencia.

5 Análisis bivariado

En el caso de las variables cuantitativas se utilizó la prueba t de Welch, ya que no exige igualdad de varianzas entre los grupos comparados y resulta apropiada en contextos con tamaños muestrales desbalanceados. Para las variables categóricas se aplicó la prueba Chi-cuadrado de independencia, con el fin de evaluar si la distribución de la rotación cambia entre categorías. La comparación se realizó siempre contra la variable respuesta y = 1 (rotación) frente a y = 0 (no rotación).

5.1 Variables cuantitativas vs. rotación

Comparación de medias entre grupos (t de Welch)
Variable Media_No Media_Si Diferencia t_Welch p_valor
Edad 37.56 33.61 3.95 5.83 <0.001
Ingreso_Mensual 6832.74 4787.09 2045.65 7.48 <0.001
Antigüedad_Cargo 4.48 2.90 1.58 6.85 <0.001
  • Edad: los empleados que rotan son más jóvenes en promedio (33.61 años) que quienes permanecen (37.56 años). La evidencia respalda la hipótesis de relación negativa entre edad y rotación.

  • Ingreso mensual: quienes rotan presentan ingresos menores (4,787 frente a 6,833). Esto confirma la hipótesis de que una mejor compensación tiene un efecto protector.

  • Antigüedad en el cargo: los empleados que rotan acumulan menos tiempo en su rol (2.90 años frente a 4.48). La evidencia es consistente con una menor consolidación en el cargo.

5.2 Variables categóricas vs. rotación

Asociación entre variables categóricas y rotación (Chi-cuadrado)
Variable Categoria n pct_rotacion Chi2 p_valor
Horas_Extra No 944 10.4% 87.56 <0.001
Horas_Extra Si 289 30.5% 87.56 <0.001
Horas_Extra No 110 10.4% 87.56 <0.001
Horas_Extra Si 127 30.5% 87.56 <0.001
Departamento IyD 828 13.8% 10.80 0.0045
Departamento RH 51 19.0% 10.80 0.0045
Departamento Ventas 354 20.6% 10.80 0.0045
Departamento IyD 133 13.8% 10.80 0.0045
Departamento RH 12 19.0% 10.80 0.0045
Departamento Ventas 92 20.6% 10.80 0.0045
Estado_Civil Casado 589 12.5% 46.16 <0.001
Estado_Civil Divorciado 294 10.1% 46.16 <0.001
Estado_Civil Soltero 350 25.5% 46.16 <0.001
Estado_Civil Casado 84 12.5% 46.16 <0.001
Estado_Civil Divorciado 33 10.1% 46.16 <0.001
Estado_Civil Soltero 120 25.5% 46.16 <0.001
  • Horas extra es la asociación bivariada más fuerte: la rotación sube de 10.4% a 30.5% entre quienes sí realizan horas extra.

  • Por departamento, Ventas presenta la mayor tasa de rotación observada (20.6%), seguido por RH (19.0%), ambos por encima de IYD (13.8%).

  • En estado civil, los empleados solteros muestran la mayor rotación (25.5%), casi el doble de los casados (12.5%).

5.3 Síntesis de hallazgos frente a las hipótesis

Síntesis de hallazgos frente a las hipótesis
Variable Direccion_esperada Evidencia_observada Conclusion
Horas_Extra Positiva Mayor rotación en empleados con horas extra Hipótesis respaldada
Departamento Mayor en Ventas/RH Ventas y RH presentan mayor tasa de rotación Hipótesis respaldada
Estado_Civil Mayor en solteros Solteros muestran mayor rotación Hipótesis respaldada
Edad Negativa Rotan empleados más jóvenes Hipótesis respaldada
Ingreso_Mensual Negativa Rotan empleados con menor ingreso Hipótesis respaldada
Antigüedad_Cargo Negativa Rotan empleados con menor antigüedad Hipótesis respaldada

En las variables categóricas la prueba Chi-cuadrado evidencia asociación, pero no produce un coeficiente con signo. Por ello, la dirección del efecto se interpreta a partir de las tasas observadas y se formaliza en el modelo logístico multivariado de la siguiente sección.

6 Estimación del modelo de regresión logística

El modelo logístico binario estimado toma la forma: donde 𝑝𝑖 representa la probabilidad de rotación del empleado 𝑖, es decir, 𝑃(𝑌𝑖-1). Este enfoque permite modelar una respuesta binaria y expresar el efecto de cada covariable sobre los log-odds de rotación.

Se ajustó un modelo logístico binario con la siguiente estructura general: logit[P(y - 1)] = β0 + β1(Horas_Extra) + β2(Departamento) + β3(Estado_Civil) + β4(Edad) + β5(Ingreso_Mensual) + β6(Antigüedad_Cargo). Las categorías de referencia fueron: No para Horas_Extra, IYD para Departamento y Casado para Estado_Civil.

La prueba global del modelo fue significativa (razón de verosimilitud p < 0.001) y el pseudo R² de McFadden fue 0.163, lo que indica que el conjunto de covariables aporta información relevante para explicar la rotación.

Modelo de regresión logística: Odds Ratios para rotación
Variable Coeficiente OR LI_95 LS_95 p_valor
Horas extra: Sí vs No 1.480 4.391 3.222 5.984 <0.001
Departamento: RH vs IYD 0.641 1.899 0.943 3.821 0.0724
Departamento: Ventas vs IYD 0.619 1.858 1.339 2.578 <0.001
Estado civil: Divorciado vs Casado -0.325 0.722 0.460 1.134 0.1573
Estado civil: Soltero vs Casado 0.796 2.216 1.586 3.096 <0.001
Edad (por año) -0.025 0.976 0.957 0.995 0.0133
Ingreso mensual (por 1 unidad) 0.000 1.000 1.000 1.000 <0.001
Antigüedad en el cargo (por año) -0.099 0.905 0.858 0.955 <0.001

6.1 Interpretación de coeficientes y covariables significativas

  • Horas_Extra es la covariable más influyente del modelo. Su coeficiente es positivo y altamente significativo; en términos de odds ratio, un empleado con horas extra multiplica por 4.39 sus odds de rotación frente a uno sin horas extra, manteniendo las demás variables constantes.

  • DepartamentoVentas presenta coeficiente positivo y significativo. Frente a IYD, pertenecer a Ventas aumenta los odds de rotación en aproximadamente 85.8%. RH va en la misma dirección, pero no alcanza significancia al 5%.

  • Estado_CivilSoltero también presenta coeficiente positivo y significativo. Un empleado soltero tiene 2.22 veces los odds de rotación de un empleado casado, a igualdad de las demás covariables. La categoría Divorciado no resultó significativa.

  • Edad tiene coeficiente negativo. Cada año adicional reduce ligeramente los odds de rotación; expresado en una escala más útil, 10 años adicionales llevan el OR a aproximadamente 0.78, es decir, alrededor de 22% menos odds de rotación.

  • Ingreso_Mensual tiene coeficiente negativo y significativo. El OR por una unidad parece 1.000 por un efecto de escala, pero al expresarlo por 1,000 unidades monetarias el OR es aproximadamente 0.916; esto equivale a una reducción cercana a 8.4% en los odds de rotación.

  • Antigüedad_Cargo también tiene signo negativo. Tres años adicionales en el cargo llevan el OR a aproximadamente 0.742, lo que representa una reducción cercana a 25.8% en los odds de rotación. En consecuencia, las covariables significativas al 5% fueron: Horas_Extra, DepartamentoVentas, Estado_CivilSoltero, Edad, Ingreso_Mensual y Antigüedad_Cargo. Los signos estimados del modelo fueron coherentes con las hipótesis formuladas en la etapa inicial.

7 Evaluación predictiva del modelo

El modelo alcanzó un área bajo la curva ROC de 0.772, lo que indica una capacidad de discriminación aceptable entre empleados con y sin rotación. En términos prácticos, esto significa que, al comparar aleatoriamente un empleado que rota con uno que no rota, el modelo asignará una probabilidad mayor al caso con rotación en aproximadamente 77.2% de las ocasiones. La Figura presenta la curva ROC correspondiente.

## Area under the curve: 0.7724

7.1 Análisis de sensibilidad del punto de corte

Dado que la rotación tiene una frecuencia relativamente baja (16.1%), no es conveniente usar de forma automática el punto de corte 0.50. Para gestión de talento suele ser más costoso no detectar a un empleado en riesgo que revisar preventivamente un caso adicional. Por ello se compararon varios umbrales.

Evaluación del modelo según distintos puntos de corte
Corte Sensibilidad Especificidad Precision Exactitud Porcentaje_intervenir
0.20 65.0% 78.6% 36.8% 76.4% 28.4%
0.25 57.8% 86.1% 44.3% 81.5% 21.0%
0.30 46.0% 90.5% 48.2% 83.3% 15.4%
0.40 30.4% 95.8% 58.1% 85.2% 8.4%
0.50 17.7% 98.1% 64.6% 85.2% 4.4%
  • El corte 0.50 ofrece alta especificidad, pero detecta solo 17.7% de los casos positivos; para intervención preventiva resulta demasiado conservador.

  • El corte 0.20 eleva la sensibilidad, pero amplía considerablemente la proporción de empleados a intervenir.

  • El corte 0.25 ofrece un balance más razonable: mantiene una sensibilidad de 57.8%, una especificidad de 86.1% y focaliza la intervención en aproximadamente 21% de la planta.

Por lo anterior, se propone 0.25 como umbral operativo para intervención temprana. No obstante, la empresa podría moverlo según su capacidad de seguimiento y el costo relativo entre falsos positivos y falsos negativos.

La selección del punto de corte no debe entenderse como una decisión exclusivamente estadística, sino también operativa. En la práctica, la empresa debe escoger el umbral considerando su capacidad de seguimiento, el costo de intervenir empleados que finalmente no rotan y el costo de no intervenir empleados que sí terminan rotando.

8 Predicción para un individuo hipotético

Se evaluó el siguiente perfil: empleado de 25 años, soltero, del área de Ventas, con horas extra, ingreso mensual de 3,000 y un año de antigüedad en el cargo. La probabilidad estimada de rotación fue 72.16%.

Predicción individual de rotación y decisión de intervención
Elemento Valor
Horas_Extra
Departamento Ventas
Estado_Civil Soltero
Edad 25 años
Ingreso_Mensual 3,000
Antigüedad_Cargo 1 año
Probabilidad estimada de rotación 72.16%
Decisión con corte 0.25 Intervenir

Dado que la probabilidad estimada de rotación para este perfil es de 72.16%, el empleado sería clasificado como caso prioritario de intervención bajo el punto de corte propuesto de 0.25. Este resultado es consistente con la acumulación de factores de riesgo identificados en el modelo: horas extra, pertenencia al área de Ventas, estado civil soltero, baja antigüedad, menor edad e ingreso relativamente bajo.

9 Conclusiones y estrategia para disminuir la rotación

Estrategia recomendada para disminuir la rotación: