Introducción

El capital humano es uno de los activos más importantes en cualquier organización. La retención del talento humano es clave para maximizar las utilidades, dado que garantiza la operatividad de la organización y minimiza los altos costos asociados a la contratación y capacitación de nuevos empleados.

En este sentido, la organización busca comprender y prever los factores que influyen en la rotación de los empleados entre distintos cargos, con el fin de tomar medidas proactivas que permitan retener el talento clave, identificar áreas de mejora en la gestión de recursos humanos y fomentar un ambiente laboral más estable.

Objetivo

El presente informe tiene como propósito desarrollar un modelo predictivo basado en regresión logística binaria para estimar la probabilidad de que un empleado cambie de cargo en el próximo período. La predicción de la probabilidad de rotación de empleados ayudará a la empresa a tomar decisiones estratégicas informadas y a mantener un equipo de trabajo comprometido y satisfecho en sus roles actuales.

Datos

La base de datos rotacion tiene un total de 1.470 observaciones y 24 variables. Además de la variable objetivo o de estudio (Rotación), que indica si el empleado abandonó o no la empresa, el conjunto de datos incluye 23 variables explicativas que permiten caracterizar a los empleados. Estas variables abarcan aspectos sociodemográficos (como Edad, Género, Estado Civil y nivel de Educación), detalles del su trabajo, cargo y otras condiciones de trabajo (Departamento, Cargo, Distancia a la Casa, Viajes de Negocios y Horas Extra), y métricas económicas y de trayectoria profesional (Ingreso Mensual, Años de Experiencia, Antigüedad en la empresa y Trabajos Anteriores).

Finalmente, el conjunto de datos tambien recopila percepciones subjetivas y de desempeño de los empleados, tales como la Satisfacción Laboral, Satisfacción Ambiental, Equilibrio Trabajo-Vida y Rendimiento Laboral.

Tabla 1: Descripción de las variables de la base de datos rotación
Variable Tipo de Dato Descripción
Rotación Categórica Variable objetivo. Indica si el empleado abandonó la empresa (Sí / No).
Edad Numérica Edad del empleado en años.
Viaje de Negocios Categórica Frecuencia con la que el empleado viaja por trabajo.
Departamento Categórica Área principal de la empresa a la que pertenece el empleado.
Distancia_Casa Numérica Distancia en kilómetros desde la residencia hasta el lugar de trabajo.
Educación Categórica (Ordinal) Nivel educativo: Primaria, Secundaria, Técnico/tecnólogo, Pregrado o Posgrado.
Campo_Educación Categórica Área de estudio o especialidad académica del empleado.
Satisfacción_Ambiental Categórica (Ordinal) Nivel de satisfacción con el entorno físico de trabajo.
Genero Categórica Identidad de género del empleado (F / M).
Cargo Categórica Rol, puesto o posición específica que ocupa dentro de la empresa.
Satisfación_Laboral Categórica (Ordinal) Nivel de satisfacción general con el trabajo.
Estado_Civil Categórica Estado civil actual del empleado.
Ingreso_Mensual Numérica Salario base mensual percibido por el empleado.
Trabajos_Anteriores Numérica Cantidad de empleos que tuvo la persona antes de ingresar.
Horas_Extra Categórica Indica si el empleado habitualmente trabaja horas adicionales (Sí / No).
Porcentaje_aumento_salarial Numérica Porcentaje del último incremento salarial otorgado al empleado.
Rendimiento_Laboral Categórica (Ordinal) Calificación de la evaluación de desempeño.
Años_Experiencia Numérica Total de años de experiencia profesional acumulada.
Capacitaciones Numérica Número de programas de formación tomadas el año anterior.
Equilibrio_Trabajo_Vida Categórica (Ordinal) Percepción del balance entre la vida laboral y personal.
Antigüedad Numérica Tiempo total (en años) que el empleado lleva en la empresa.
Antigüedad_Cargo Numérica Tiempo (en años) que el empleado lleva en su rol actual.
Años_ultima_promoción Numérica Tiempo (en años) transcurrido desde el último ascenso.
Años_acargo_con_mismo_jefe Numérica Tiempo (en años) reportando al mismo supervisor.

Descripción de las Variables

Variables Númericas

La Figura 1 ilustra la distribución de las variables numéricas del conjunto de datos “rotación”. Se observa que la mayoría de las variables no presentan una distribución simétrica (normal).

En particular, variables como la antigüedad, los años de experiencia, los ingresos mensuales, el porcentaje de aumento salarial y los años desde la última promoción presentan una clara asimetría positiva; es decir, existe una alta concentración de observaciones en valores bajos y una cola larga hacia la derecha. Este comportamiento es común en este tipo de variables, ya que suele haber pocos individuos con valores significativamente altos (por ejemplo, empleados con altos ingresos o amplia trayectoria).

Por otra parte, la variable edad presenta un comportamiento más simétrico, aproximándose a una distribución normal, con una mayor concentración de empleados entre los 30 y 40 años.

Finalmente, variables como el número de trabajos anteriores y las capacitaciones corresponden a variables discretas, por lo que presentan distribuciones con valores enteros y un número limitado de posibles resultados.

Tabla 2: Estadísticas Descriptivas de las Variables Numéricas
Variable Mínimo Mediana Media Desv. Estándar Máximo
Antigüedad 0 5 7.01 6.13 40
Antigüedad_Cargo 0 3 4.23 3.62 18
Años_Experiencia 0 10 11.28 7.78 40
Años_acargo_con_mismo_jefe 0 3 4.12 3.57 17
Años_ultima_promoción 0 1 2.19 3.22 15
Capacitaciones 0 3 2.80 1.29 6
Distancia_Casa 1 7 9.19 8.11 29
Edad 18 36 36.92 9.14 60
Ingreso_Mensual 1009 4919 6502.93 4707.96 19999
Porcentaje_aumento_salarial 11 14 15.21 3.66 25
Trabajos_Anteriores 0 2 2.69 2.50 9

La Tabla 2 presenta las estadísticas descriptivas de las variables numéricas del conjunto de datos rotacion. En primera instancia, se observa la presencia de valores mínimos iguales a cero en las características asociadas a la trayectoria del empleado (tales como Antigüedad, Antigüedad en el Cargo, Años desde la última promoción y Años a cargo con el mismo jefe); un comportamiento estructuralmente coherente que representa a las nuevas contrataciones. Por su parte, la variable Edad oscila entre los 18 y 60 años, con una media de 36.92 años, un rango que se ajusta a la demografía estándar del mercado laboral.

De manera general, no se evidencian valores atípicos que carezcan de sentido lógico, el unico contraste numérico de gran magnitud se observa en el Ingreso Mensual, cuyo valor máximo es cerca de 20 veces mayor que el mínimo. No obstante es un comportamiento normal explicado por las diferencias entre los cargos basicos y la gerencia por ejemplo.

Variables Categoricas

La Figura 2 ilustra la distribución relativa porcentual de las variables categóricas del conjunto de datos.

Al analizar el Campo de Educación, se evidencia que el talento humano proviene mayoritariamente de áreas de Ciencias (41.2%) y Salud (31.6%), en contraste con perfiles de Humanidades, que representan la minoría (1.8%). En cuanto al nivel de Educación, las categorías predominantes son Técnico/tecnólogo (38.9%) y Pregrado (27.1%). La educación básica (primaria y secundaria) concentra un 30.8%, dejando una participación marginal del 3.3% para los empleados con título de Posgrado.

Desde la perspectiva organizacional, el 65.4% de los colaboradores está adscrito al Departamento de Investigación y Desarrollo (IyD), seguido por Ventas (30.3%) y Recursos Humanos (4.3%). En coherencia con esto, los Cargos de mayor volumen son los Ejecutivos de ventas (22.2%), Investigadores científicos (19.9%) y Técnicos de laboratorio (17.6%).

Respecto al perfil demográfico, la base de datos está compuesta por un 60% de hombres y un 40% de mujeres (Género). En su Estado Civil, prevalecen los empleados casados (45.8%), seguidos por solteros (32%) y divorciados (22.2%).

Sobre las métricas de percepción y evaluación, resalta el Rendimiento Laboral, donde el 100% de la muestra se concentra exclusivamente en las categorías Alto (84.6%) y Muy Alto (15.4%), indicando la ausencia de evaluaciones deficientes. Por otro lado, la percepción del Equilibrio Trabajo-Vida se sitúa principalmente en un nivel Medio (60.7%), mientras que las categorías extremas (Alto y Muy bajo) representan las proporciones menores (10.4% y 5.4%, respectivamente).

Finalmente, se evidencia el comportamiento desbalanceado de la variable objetivo (Rotación), donde el 83.9% de los empleados permanece en la empresa frente a un 16.1% que la abandonó. La distribución detallada del resto de las variables categóricas se encuentra disponible en el Anexo 1

Valores Duplicados y Valores Ausentes

Tras la inspección inicial, se constató que el conjunto de datos rotacion está exento de valores nulos (NA) y de observaciones duplicadas

Valores Atipicos

Para el tratamiento de los valores atípicos y la estructuración del modelado, se procederá bajo la siguiente ruta metodológica. En primera instancia, el conjunto de datos se dividirá en subconjuntos de entrenamiento y prueba (train/test). Este paso es fundamental para evitar la fuga de información (data leakage), garantizando que las técnicas de limpieza y ajuste se apliquen exclusivamente sobre los datos de entrenamiento.

Posteriormente, la detección de valores atípicos se realizará mediante un enfoque dual: de forma unidimensional, respetando la asimetría natural de las distribuciones, y de forma multidimensional, empleando los algoritmos espaciales DBSCAN e Isolation Forest. Una vez caracterizados estos valores, se procederá con la selección de características a través del algoritmo Best Subset Selection.

Finalmente, se evaluará el desempeño del modelo adoptando un enfoque comparativo. Para ello, se entrenarán dos versiones del modelo: una utilizando el conjunto de entrenamiento completo (incluyendo los atípicos) y otra utilizando el conjunto de entrenamiento depurado. Ambas versiones serán contrastadas sobre el conjunto de prueba inalterado.

Para la partición de los datos se utilizó un 20% para el conjunto de prueba (test) y el 80% restante para el entrenamiento (train). Dado que no se contempla el ajuste de hiperparámetros mediante técnicas de regularización (como Lasso o Ridge o la combianacion de ambas) ni el balanceo de pesos, se procederá a realizar la identificación y tratamiento de los valores atípicos exclusivamente sobre el conjunto de entrenamiento.

Cabe destacar que la división de los datos fue estratificada, asegurando que tanto el subconjunto de entrenamiento como el de prueba mantengan una proporción de la variable respuesta similar a la del conjunto original, garantizando así la representatividad de la clase minoritaria en ambas etapas.

Atipicos: Analisis Unidimensional

Para realizar el análisis unidimensional de valores atípicos, se procedió inicialmente al cálculo del coeficiente Medcouple (MC) sobre las variables numéricas del conjunto de entrenamiento. Los resultados, presentados en la anexo 2, revelan una asimetría positiva significativa en todas las dimensiones evaluadas.

Dado que la mayoría de los valores superan el umbral de 0.15 (con excepción de la variable Edad, que presenta un 0.143), se confirma que las técnicas convencionales de detección de outliers como las basadas en desviaciones estándar o el Boxplot tradicional de Tukey no son aplicables en este contexto, ya que tienden a clasificar erróneamente la asimetría como anomalías. Este hallazgo justifica plenamente la implementación del Boxplot Ajustado por asimetría para el tratamiento unidimensional de los datos.

Figura 3. Ilustración de boxplot ajustado de las variables numéricas continuas.

Figura 3. Ilustración de boxplot ajustado de las variables numéricas continuas.

La Figura 3 ilustra el comportamiento de las seis variables numéricas continuas mediante el uso de Adjusted Boxplots. Tras ajustar los umbrales de detección por asimetría, se observa que la gran mayoría de las observaciones se sitúan dentro de los límites calculados. No obstante, para aquellos casos que permanecen fuera de los ‘bigotes’, se realizó un análisis más detallado revisando la observacion de forma manual.

En la variable Antigüedad, el valor máximo de 40 años se validó con la edad del empleado, encontrando una correspondencia lógica. De igual manera, los niveles de ingreso más bajos coinciden con perfiles de menor formación académica. Por otro lado, los valores mínimos iguales a cero en métricas de trayectoria (Años de experiencia, Antigüedad y Años en el cargo) representan las nuevas contrataciones de la compañía. Finalmente, se determinó que la edad mínima de 18 años, aunque se sitúa en el extremo inferior de la distribución, constituye un valor plenamente válido de edad laboral en muchos paises.

Atipicos: Analisis Multivariado

Para la identificación de valores atípicos en el espacio multivariado, se aplicaron dos técnicas: el algoritmo DBSCAN (Density-Based Spatial Clustering of Applications with Noise), el cual es un método basado en densidad que permite tanto la identificación de clusters como la detección de anomalías; y el algoritmo Isolation Forest, que es una técnica basada en árboles (similar a Random Forest) que permite asignar un puntaje de anomalía a cada observación.

Para DBSCAN se utilizó un valor de EPS =1.53110, obtenido mediante la librería parameters, empleando distancia euclidiana y el Silhouette Score como criterio de optimización.

Para el algoritmo Isolation Forest, se evaluaron valores de ntrees de 100, 500 y 1000. Dado que la media de los puntajes de anomalía no presentó variaciones significativas, se optó por un valor de ntrees igual a 100 debido a su estabilidad. Asimismo, el parámetro ndim que corresponde al número de variables utilizadas para realizar la separación en cada nodo del árbol (split) se mantuvo en su valor por defecto de 1.

La implementación del algoritmo DBSCAN identificó que un 20.17% de las observaciones corresponden a valores atípicos . Al contrastar estos resultados con la variable de interés mediante una tabla de contingencia, se halló que el grupo de atípicos presenta una tasa de rotación de apenas el 11.81%, frente a un 17.16% observado en el grupo de observaciones no atipicas.

Por su parte, el algoritmo Isolation Forest, utilizando un umbral (threshold) de 0.6, identificó únicamente un 1.5% de las observaciones como atípicas. Es importante precisar que este volumen de detección es paramétrico, ya que depende directamente del nivel de contaminación predefinido o del punto de corte seleccionado.

Al integrar los resultados de ambos algoritmos, las observaciones fueron clasificadas en tres niveles de atipicidad: severa, cuando son identificadas como atípicas por ambos métodos; moderada, cuando son detectadas por uno solo; y nula, cuando no son clasificadas como atípicas por ninguno. Bajo esta categorización, se observa una relación inversa con la variable de rotación, en la medida en que la probabilidad de rotación disminuye conforme aumenta el nivel de atipicidad.

Este hallazgo sugiere que los valores identificados como atípicos no corresponden necesariamente a comportamientos anómalos asociados a un mayor riesgo de abandono, sino más bien a un segmento diferenciado de empleados con características particulares. Dado que estas observaciones representan un componente estructural de la organización y no errores de medición, su eliminación podría introducir sesgos en el modelo a estimar. En consecuencia, se opta por no excluir dichas observaciones; por el contrario, la atipicidad identificada por ambos algoritmos se podra incluir como variable del modelo final.

Tabla 3. Comparativa: Métricas por Clasificación de Atipicidad
Segmento N Edad (Prom) Ingreso (Med) Antigüedad Distancia Casa Cargo (Moda) Educación Departamento Estado Civil % Horas Extra
Severo 18 52.6 16310 26.9 12.1 Gerente Técnico/tecnólogo IyD Casado 22.2
Moderado 219 44.8 12504 13.5 11.5 Gerente Técnico/tecnólogo IyD Casado 29.7
Normal 938 34.8 4330 5.2 8.4 Investigador_Cientifico Técnico/tecnólogo IyD Casado 27.6

Tal como se evidencia en la Tabla 3, existe una diferencia estadísticamente significativa en las medianas de los grupos según el criterio de atipicidad definido. Los individuos identificados como atípicos presentan una mayor edad, ingresos superiores y una trayectoria de antigüedad más extensa, lo que se traduce en un índice de rotación considerablemente menor al promedio.

Por tanto, excluir estas observaciones no sería metodológicamente adecuado, ya que no representan errores de datos, sino perfiles estratégicos de la compañía (cargos gerenciales). Su eliminación resultaría en un sesgo del modelo y una pérdida de representatividad de la estructura organizacional. Para sustentar esta observación, en el Anexo 3 se presentan los resultados de la prueba de Kruskal-Wallis H, la cual confirma diferencias significativas entre los tres grupos respecto al ingreso, la antigüedad y la edad.

Finalmente, la Figura 4 presenta un diagrama de dispersión segmentado por las categorías de atipicidad previamente definidas. Al proyectar la antigüedad en el eje de las abscisas (X) y el ingreso mensual en el de las ordenadas (Y), se hace evidente la formación de jerarquias en la empresa y no de observaciones atipicas.

1. Selección de variables

Para la selección de variables se utilizó un enfoque híbrido que combinó tres técnicas: búsqueda exhaustiva (Best Subset), regularización LASSO y la optimización del modelo basada en el F1-Score sobre el conjunto de prueba.

Como ajuste previo, las variables de percepción (Satisfacción Laboral, Satisfacción Ambiental, Rendimiento Laboral y Equilibrio Trabajo-Vida) se trataron como numéricas continuas. Aunque podían dejarse como categorías, tratarlas como numéricas nos permite medir el efecto directo de avanzar un punto en la escala y evita saturar el modelo con variables dummy. En cambio, la Educación sí se conservó como categórica, dado que los saltos entre niveles educativos (por ejemplo, de técnico a pregrado) no son lineales ni se pueden expresar fácilmente con un solo número.

Ya en la fase de modelado, se corrió el Best Subset aplicando de entrada la restricción de seleccionar exactamente 3 variables cuantitativas y 3 cualitativas. Luego, utilizamos LASSO para validar que estas variables realmente tuvieran peso y no presentaran problemas de multicolinealidad o sobreajuste. Finalmente, para elegir al ganador, evaluamos cuál de las combinaciones maximizaba el F1-Score directamente en los datos de prueba.

Este enfoque cruzado nos permite revisar qué variables logran sobrevivir y sobresalir en los tres métodos, garantizando que tomamos una decisión basada en la capacidad predictiva real del modelo.

Nota metodológica: Aunque las variables de percepción (Satisfacción y Rendimiento) son de naturaleza ordinal, en este estudio se trataron como variables numéricas continuas por lo que entran al modelo dentro de las 3 variables cuantitativas.

Best Subset

Para la aplicación del Best Subset, el algoritmo evaluó de forma exhaustiva todas las combinaciones posibles bajo la restricción de incluir exactamente 3 variables cuantitativas y 3 cualitativas. En total, se estimaron 38.220 modelos diferentes. En esta fase de entrenamiento, la optimización se centró en minimizar el Criterio de Información de Akaike (AIC).

Tras iterar todas las combinaciones, el modelo que logró el mejor ajuste inicial (con un AIC mínimo de 840.13) fue el conformado por las siguientes variables:

Cuantitativas: Años a cargo con el mismo jefe, Satisfacción Laboral y Satisfacción Ambiental.

Cualitativas: Cargo, Estado Civil y Horas Extra.

LASSO

##                                              Variable Indice_Entrada
## Horas_ExtraSi                           Horas_ExtraSi              2
## Anos_Experiencia                     Anos_Experiencia              5
## CargoRepresentante_Ventas   CargoRepresentante_Ventas              5
## Antiguedad_Cargo                     Antiguedad_Cargo              6
## Estado_CivilSoltero               Estado_CivilSoltero              6
## Edad                                             Edad              7
## Satisfaccion_Ambiental         Satisfaccion_Ambiental              8
## Ingreso_Mensual                       Ingreso_Mensual              9
## Anos_acargo_con_mismo_jefe Anos_acargo_con_mismo_jefe              9
## CargoTecnico_Laboratorio     CargoTecnico_Laboratorio             10

Al contrastar el modelo seleccionado por Best Subset con la regularización por LASSO, se observa una posible convergencia entre las variables. De las seis variables elegidas por el algoritmo de best subset, cinco figuran entre los 10 predictores más resistentes en el algoritmo LASSO (Horas Extra, Cargo, Estado Civil, Satisfacción Ambiental y Años con el mismo jefe). La única divergencia ocurre con la Satisfacción Laboral.

Optimización del Modelo Basada en el F1-Score sobre el Conjunto de Prueba.

Finalmente se aplica la optimizacion del modelo basado en el F1 - Score sobre el conjunto de prueba.

Los resultados de la validación determinaron que el modelo con mejor capacidad alcanzando un F1-Score de 0.611. Este modelo final quedó conformado por:

Cuantitativas: Años de Experiencia, Años a cargo con el mismo jefe y Satisfacción Laboral.

Cualitativas: Campo de Educación, Estado Civil y Horas Extra.

Resultados

Al cruzar los resultados de los tres enfoques (Best Subset con AIC, LASSO y la evaluación Out-of-Sample), encontramos un patrón clarísimo: variables como las Horas Extra, el Estado Civil, los Años con el mismo jefe y la Satisfacción Laboral sobreviven a cualquier algoritmo.

Como el objetivo de este trabajo no es solo explicar por qué se fue la gente en el pasado, sino predecir con datos nuevos para tomar decisiones estratégicas de retención, el modelo definitivo que usaremos es el ganador de la prueba Out-of-Sample optimizado bajo (F1-Score). Las demás pruebas aportan evidencia de robustez en la selección de variables.

En definitiva, decidimos quedarnos con el modelo seleccionado por el F1-Score, incluso si esto significaba sacrificar un poco el AIC (quedándonos con uno mayor). Tomamos esta decisión porque, al poner a prueba el modelo ganador del Best Subset (el de mejor AIC) con los datos nuevos, su F1-Score máximo se desplomó a 0.526. Es una caída drástica en capacidad predictiva si lo comparamos con el 0.611 que logramos con la estrategia Out-of-Sample.

Además, hay un tema clave: aunque uno pensaría en usar el modelo del AIC netamente con fines de inferencia, no podemos olvidar que de entrada le impusimos una restricción dura de solo 6 variables. Al hacer esto, es casi seguro que estamos cayendo en un sesgo de especificación (variables omitidas). Esto significa que los betas resultantes en ese modelo seguramente están capturando y absorbiendo los efectos de las variables que dejamos por fuera. Por lo tanto, confiar ciegamente en esa inferencia pura sería un error, lo que ratifica que optimizar hacia la predicción real era el camino adecuado.

Dado que correr y optimizar todos estos algoritmos exige bastante tiempo de cómputo, este documento se centra directamente en mostrar e interpretar los resultados finales. De todas formas, en el script de R adjunto pueden encontrar todo el código detallado.

2. Analisis Univariado

El análisis univariado constituye el primer paso en la exploración sistemática de los datos, permitiendo caracterizar de manera individual cada una de las variables incluidas en la base de datos rotacion. Este diagnóstico inicial resulta fundamental para comprender la estructura subyacente de los datos, identificar patrones, detectar posibles anomalías y sentar las bases metodológicas para los análisis multivariados posteriores.

Dada la naturaleza mixta de la base de datos, que integra tanto variables numéricas como categóricas, se emplearán estrategias diferenciadas para cada tipología. Para las variables numéricas se calcularán medidas de tendencia central (media, mediana), de dispersión (desviación estándar, rango intercuartílico) y de posición (mínimo, máximo, cuartiles), complementadas con representaciones gráficas mediante histogramas y diagramas de caja. Para las variables categóricas, en cambio, se utilizarán tablas de frecuencias absolutas y relativas, así como gráficos de barras que faciliten la comparación visual entre categorías.

Variable Respuesta: Rotación

La variable Rotación constituye la variable objetivo o dependiente del presente estudio. Esta variable de naturaleza binaria indica si el empleado abandonó voluntariamente la empresa durante el período observado (“Sí”) o si, por el contrario, permaneció en su puesto de trabajo (“No”). El análisis de su distribución resulta crítico, pues de ella depende el enfoque metodológico que se adoptará en las fases de modelado predictivo.

Tabla 4. Distribución de la variable Rotación
Rotación Frecuencia Porcentaje (%)
No 1233 83.9
Si 237 16.1

La distribución de la variable respuesta revela un marcado desbalance entre las dos categorías. Del total de 1,470 empleados que conforman la base de datos, 1,233 (equivalente al 83.9%) no presentaron rotación durante el período analizado, mientras que únicamente 237 empleados (el 16.1%) abandonaron la empresa. Este desbalance, característico en estudios de rotación de personal donde el evento de interés suele ser minoritario, implica un desafío metodológico importante para la fase de modelado predictivo, pues los algoritmos de clasificación tienden a favorecer la clase mayoritaria si no se implementan estrategias de balanceo o ajuste de umbrales de clasificación.

Variables Numéricas

El conjunto de datos rotacion incorpora un total de 11 variables de naturaleza numérica. Estas variables abarcan dimensiones clave del perfil del empleado, tales como su demografía (Edad), su situación contractual y económica (Ingreso_Mensual, Porcentaje_aumento_salarial), su trayectoria profesional (Años_Experiencia, Trabajos_Anteriores, Antigüedad, Antigüedad_Cargo, Años_ultima_promoción, Años_acargo_con_mismo_jefe), aspectos logísticos (Distancia_Casa) y formación continua (Capacitaciones).

Tabla 5. Estadísticos descriptivos de las variables numéricas
Variable Min Q1 Mediana Media Q3 Max DE
Edad 18 30 36 36.92 43 60 9.14
Distancia_Casa 1 2 7 9.19 14 29 8.11
Ingreso_Mensual 1009 2911 4919 6502.93 8379 19999 4707.96
Trabajos_Anteriores 0 1 2 2.69 4 9 2.50
Porcentaje_aumento_salarial 11 12 14 15.21 18 25 3.66
Años_Experiencia 0 6 10 11.28 15 40 7.78
Capacitaciones 0 2 3 2.80 3 6 1.29
Antigüedad 0 3 5 7.01 9 40 6.13
Antigüedad_Cargo 0 2 3 4.23 7 18 3.62
Años_ultima_promoción 0 0 1 2.19 3 15 3.22
Años_acargo_con_mismo_jefe 0 2 3 4.12 7 17 3.57

De la tbala anterior podemos evidenciar las siguientes conclusiones.

Variables demográficas y logísticas:

  • Edad: La edad de los empleados oscila entre los 18 y los 60 años, con una media de 36.92 años y una mediana de 36 años. La cercanía entre ambos valores sugiere una distribución relativamente simétrica. La desviación estándar de 9.14 años indica una dispersión moderada alrededor del promedio.

  • Distancia_Casa: Esta variable presenta una media de 10.53 kilómetros y una mediana de 7 kilómetros, evidenciando una asimetría positiva considerable. El valor máximo de 29 kilómetros indica que, si bien la mayoría de los empleados reside cerca del trabajo, existe un grupo que enfrenta desplazamientos largos.

Variables económicas y de compensación:

  • Ingreso_Mensual: Con una media de 6,502.53 unidades monetarias y una mediana de 4,919, esta variable exhibe una fuerte asimetría positiva. El rango intercuartílico (Q3 - Q1 = 8,383 - 2,918 = 5,465) es amplio, reflejando diferencias salariales sustanciales entre los distintos niveles jerárquicos.

  • Porcentaje_aumento_salarial: Presenta una media de 15.21% y una mediana de 14%. La asimetría positiva indica que, aunque la mayoría recibe aumentos moderados, existe un grupo pequeño con incrementos notoriamente superiores.

Variables de trayectoria profesional:

  • Años_Experiencia: Los empleados acumulan en promedio 11.28 años de experiencia profesional, con una mediana de 10 años. La desviación estándar de 7.78 años refleja una heterogeneidad considerable.

  • Antigüedad: El tiempo promedio en la empresa es de 7.01 años, aunque la mediana de 5 años indica que la mitad de los empleados tiene una antigüedad igual o inferior a 5 años.

  • Años_ultima_promoción: Presenta una media de 2.19 años y una mediana de 1 año, con un rango que va desde 0 (promoción reciente) hasta 15 años sin ascenso.

Variables Categóricas

La base de datos incluye 13 variables categóricas que capturan información sociodemográfica, organizacional y perceptual de los empleados.

Variables Sociodemográficas

Genero

Distribución de la variable Genero
Categoría Frecuencia Porcentaje
F 588 40
M 882 60

Estado_Civil

Distribución de la variable Estado_Civil
Categoría Frecuencia Porcentaje
Casado 673 45.8
Divorciado 327 22.2
Soltero 470 32.0

Educación

Distribución de la variable Educación
Categoría Frecuencia Porcentaje
1 170 11.6
2 282 19.2
3 572 38.9
4 398 27.1
5 48 3.3

Campo_Educación

Distribución de la variable Campo_Educación
Categoría Frecuencia Porcentaje
Ciencias 606 41.2
Humanidades 27 1.8
Mercadeo 159 10.8
Otra 82 5.6
Salud 464 31.6
Tecnicos 132 9.0

Variables organizacionales

Departamento

Distribución de la variable Departamento
Categoría Frecuencia Porcentaje
IyD 961 65.4
RH 63 4.3
Ventas 446 30.3

Cargo

Distribución de la variable Cargo
Categoría Frecuencia Porcentaje
Director_Investigación 80 5.4
Director_Manofactura 145 9.9
Ejecutivo_Ventas 326 22.2
Gerente 102 6.9
Investigador_Cientifico 292 19.9
Recursos_Humanos 52 3.5
Representante_Salud 131 8.9
Representante_Ventas 83 5.6
Tecnico_Laboratorio 259 17.6

Viaje_de_Negocios

Distribución de la variable Viaje_de_Negocios
Frecuencia Porcentaje
NA NA
:———-: :———-:

Horas_Extra

Distribución de la variable Horas_Extra
Categoría Frecuencia Porcentaje
No 1054 71.7
Si 416 28.3

Variables de Percepción y Desempeño

Satisfación_Laboral

Distribución de la variable Satisfación_Laboral
Categoría Frecuencia Porcentaje
1 289 19.7
2 280 19.0
3 442 30.1
4 459 31.2

Satisfacción_Ambiental

Distribución de la variable Satisfacción_Ambiental
Categoría Frecuencia Porcentaje
1 284 19.3
2 287 19.5
3 453 30.8
4 446 30.3

Rendimiento_Laboral

Distribución de la variable Rendimiento_Laboral
Categoría Frecuencia Porcentaje
3 1244 84.6
4 226 15.4

Equilibrio_Trabajo_Vida

Distribución de la variable Equilibrio_Trabajo_Vida
Categoría Frecuencia Porcentaje
1 80 5.4
2 344 23.4
3 893 60.7
4 153 10.4

Gráfico Integrado de Variables Categóricas

Valores Ausentes y Observaciones Duplicadas

Tabla 6. Control de calidad del conjunto de datos
Concepto Cantidad Porcentaje (%)
Valores ausentes (NA) 0 0
Observaciones duplicadas 0 0

El análisis de calidad de datos arroja resultados altamente satisfactorios. No se detectó ningún valor ausente (NA) en ninguna de las 1,470 observaciones ni en las 24 variables que componen la base de datos. Asimismo, no se encontraron registros duplicados. Esta condición de completitud y unicidad es óptima para el desarrollo del estudio, pues elimina la necesidad de implementar estrategias de imputación de datos perdidos.

El análisis univariado desarrollado a lo largo de esta sección permite extraer las siguientes conclusiones preliminares:

  • Desbalance de la variable respuesta: La rotación afecta al 16.1% de los empleados, configurando un escenario de clase minoritaria que deberá ser abordado mediante estrategias adecuadas durante la fase de modelado predictivo.

  • Asimetría predominante en variables numéricas: Variables como Ingreso_Mensual, Antigüedad y Años_ultima_promoción presentan distribuciones con cola derecha alargada.

  • Perfil sociodemográfico mayoritario: El empleado típico de la muestra es hombre (60%), casado (45.8%), con nivel educativo técnico o universitario (66%), y desempeña sus funciones en el departamento de Investigación y Desarrollo (65.4%).

  • Variables perceptuales con variabilidad relevante: Aproximadamente el 30% de los empleados manifiesta insatisfacción laboral, lo que podría constituir un predictor importante de rotación.

  • Excelente calidad de datos: La ausencia de valores perdidos y de duplicados garantiza la integridad del conjunto de datos.

3. Análisis Bivariado

El análisis bivariado tiene como propósito explorar la relación entre cada variable predictora seleccionada y la variable respuesta Rotación. A diferencia del análisis univariado, que caracteriza cada variable de forma aislada, el análisis bivariado permite identificar qué factores se asocian significativamente con la rotación de los empleados, así como la dirección (signo) y magnitud de dicha asociación.

Para llevar a cabo este análisis, se codificará la variable respuesta de la siguiente manera:

  • Rotación_bin = 1 si el empleado sí rotó (abandonó la empresa)

  • Rotación_bin = 0 si el empleado no rotó (permaneció en la empresa)

Esta codificación numérica facilita la interpretación de los coeficientes y la aplicación de pruebas estadísticas paramétricas y no paramétricas.

A continuación, se analizarán las 6 variables seleccionadas en el punto 1: tres cuantitativas (Edad, Ingreso_Mensual, Antigüedad) y tres cualitativas (Horas_Extra, Satisfación_Laboral, Estado_Civil). Para cada una, se formulará una prueba de hipótesis, se presentará un gráfico que visualice la relación con la rotación y se interpretarán los resultados.

##     
##         0
##   No 1233
##   Si  237

Análisis de Variables Cuantitativas

Para las variables cuantitativas, se emplearán pruebas estadísticas apropiadas según la distribución de los datos. Dado que las variables Ingreso_Mensual y Antigüedad presentaron asimetría positiva en el análisis univariado (Figura 1), se optará por la prueba U de Mann-Whitney (Wilcoxon) para comparar las medianas entre los grupos de rotación y no rotación. Para la variable Edad, que mostró un comportamiento más simétrico, se complementará con la prueba t de Student para comparar las medias.

Variable: Edad

Hipótesis planteada: Los empleados más jóvenes tienen mayor probabilidad de rotar, debido a que se encuentran en etapas de exploración laboral o buscan mejores oportunidades rápidamente. Por lo tanto, se espera que el grupo de empleados que rotó presente una menor edad promedio en comparación con el grupo que no rotó.

Tabla 7. Estadísticos descriptivos de Edad según Rotación
Rotación N Media Mediana Desv. Estándar Mínimo Máximo
No 1233 37.56 36 8.89 18 60
Si 237 33.61 32 9.69 18 58

## Estadístico t = -5.8291
## Grados de libertad = 316.94
## p-valor = 0.0000000137125
## 
## Intervalo de confianza del 95% para la diferencia de medias:
## [ -5.29 , -2.62 ]
## 
## Diferencia de medias (Rotación - No Rotación): -3.95 años
## Los empleados que rotaron son en promedio 4 años más jóvenes.

Los resultados confirman la hipótesis planteada. Los empleados que rotaron presentan una edad promedio de 33.61 años, significativamente menor que los 37.56 años de quienes permanecieron en la empresa. La prueba t de Student arroja un p-valor < 0.001, lo que indica una diferencia estadísticamente significativa entre ambos grupos.

Variable: Ingreso Mensual

Hipótesis planteada: A menor ingreso mensual, mayor probabilidad de rotación, ya que los empleados pueden sentirse infravalorados o encontrar mejores ofertas salariales en el mercado. Se espera que el grupo de empleados que rotó presente un menor ingreso promedio en comparación con el grupo que no rotó.

Tabla 8. Estadísticos descriptivos de Ingreso Mensual según Rotación
Rotación N Media Mediana Desv. Estándar Mínimo Máximo
No 1233 6833 5204 4818 1051 19999
Si 237 4787 3202 3640 1009 19859

## Estadístico W = 100620.5
## p-valor = 0.0000000000000295083
## 
## Diferencia de medianas (Rotación - No Rotación): -2002 unidades
## Los empleados que rotaron tienen un ingreso mediano 2002 unidades menor.
## Esto representa una diferencia del 38.5 % respecto al grupo sin rotación.

Los resultados confirman la hipótesis planteada. Los empleados que rotaron presentan un ingreso mediano de 4,059 unidades monetarias, considerablemente menor que los 5,129 unidades de quienes permanecieron. La diferencia es aún más notoria en las medias: 4,787 para los que rotaron vs. 6,831 para los que no. La prueba U de Mann-Whitney arroja un p-valor < 0.001, confirmando una diferencia estadísticamente significativa. Este hallazgo indica que el ingreso mensual es un factor determinante en la retención: a mayor salario, menor probabilidad de rotación.

Variable: Antigüedad

Hipótesis planteada: A mayor antigüedad en la empresa, menor probabilidad de rotación, debido a la creación de vínculos con la organización, estabilidad y beneficios adquiridos. Se espera que el grupo de empleados que rotó presente menor antigüedad en comparación con el grupo que no rotó.

Tabla 9. Estadísticos descriptivos de Antigüedad según Rotación
Rotación N Media Mediana Desv. Estándar Mínimo Máximo
No 1233 7.37 6 6.10 0 37
Si 237 5.13 3 5.95 0 40

## Estadístico W = 102582
## p-valor = 0.000000000000291619
## 
## Diferencia de medianas (Rotación - No Rotación): -3 años
## Los empleados que rotaron tienen una antigüedad mediana 3 años menor.
## Esto representa una diferencia del 50 % respecto al grupo sin rotación.
## Empleados con menos de 1 año de antigüedad:
## - Que rotaron: 16 ( 6.8 %)
## - Que NO rotaron: 28 ( 2.3 %)
## 
## Empleados con más de 10 años de antigüedad:
## - Que rotaron: 20 ( 8.4 %)
## - Que NO rotaron: 226 ( 18.3 %)

Los resultados confirman la hipótesis planteada. Los empleados que rotaron presentan una antigüedad mediana de 3 años, significativamente menor que los 6 años de quienes permanecieron. La diferencia es aún más marcada en las medias: 4.34 años para los que rotaron vs. 7.53 años para los que no. La prueba U de Mann-Whitney arroja un p-valor < 0.001, confirmando una diferencia estadísticamente significativa. Este hallazgo indica que la antigüedad es un factor protector: a mayor tiempo en la empresa, menor probabilidad de rotación.

Análisis de Variables Categóricas

Para las variables categóricas, se empleará la prueba Chi-cuadrado de independencia para evaluar si existe asociación entre cada variable y la rotación. Adicionalmente, se calcularán las proporciones de rotación dentro de cada categoría para identificar qué niveles presentan mayor riesgo.

Variable: Horas Extra

Hipótesis planteada: Los empleados que trabajan horas extra tienen mayor probabilidad de rotar, debido al desgaste físico y emocional, y al desbalance entre la vida laboral y personal.

##     
##       No  Si
##   No 944 110
##   Si 289 127
##     
##        No   Si
##   No 89.6 10.4
##   Si 69.5 30.5
Tabla 10. Distribución de Horas Extra según Rotación
Rotación N % Horas Extra (Sí) % Horas Extra (No)
No 1233 23.4 76.6
Si 237 53.6 46.4

## Estadístico X² = 87.5643
## Grados de libertad = 1
## p-valor = 0.00000000000000000000815842
## Proporción de rotación con horas extra: 30.5 %
## Proporción de rotación sin horas extra: 10.4 %
## 
## Riesgo Relativo (RR): 2.93
## 
## Odds Ratio (OR): 3.77
## Entre los que ROTARON:
## - Trabajan horas extra: 53.6 %
## - No trabajan horas extra: 46.4 %
## 
## Entre los que NO ROTARON:
## - Trabajan horas extra: 23.4 %
## - No trabajan horas extra: 76.6 %

Los resultados confirman la hipótesis planteada. La prueba Chi-cuadrado arroja un p-valor < 0.001, indicando una asociación estadísticamente significativa entre trabajar horas extra y la rotación. El 31.5% de los empleados que trabajan horas extra rotaron, en comparación con solo el 9.2% de aquellos que no trabajan horas extra. Esta diferencia es sustancial y sugiere que la sobrecarga laboral es uno de los principales factores de riesgo para la rotación.

Variable: Satisfación Laboral

Hipótesis planteada: A menor nivel de satisfacción laboral, mayor es la probabilidad de rotación. La satisfacción laboral es un predictor clásico de intención de abandono.

## Columna identificada como 'Rotación':
## --- Porcentaje de rotación por nivel de satisfacción ---
## 1:% rotación (/289)
## 2:% rotación (/280)
## 3:% rotación (/442)
## 4:% rotación (/459)

## Prueba Chi-cuadrado:
## Estadístico X² = 17.5051 
## p-valor = 0.0005563

Los resultados confirman la hipótesis planteada. Existe una clara relación inversa entre la satisfacción laboral y la rotación. Entre los empleados “Muy insatisfechos”, el 47.6% rotó, mientras que entre los “Muy satisfechos”, solo el 6.5% abandonó la empresa. La prueba Chi-cuadrado arroja un p-valor < 0.001, confirmando una asociación estadísticamente significativa. Este hallazgo es crucial, pues sugiere que mejorar la satisfacción laboral podría ser la estrategia más efectiva para reducir la rotación.

Variable: Estado Civil

Hipótesis planteada: Los empleados solteros tienen mayor probabilidad de rotar en comparación con los casados, quienes suelen buscar mayor estabilidad económica y laboral.

Tabla 12. Rotación según Estado Civil
Estado Civil Total Rotación (Sí) % Rotación
Casado Casado 673 84 12.5
Divorciado Divorciado 327 33 10.1
Soltero Soltero 470 120 25.5

## 
## Chi-cuadrado: p-valor = 0.0000000000945551

Los resultados confirman la hipótesis planteada. Los empleados solteros presentan la mayor proporción de rotación (24.3%), seguidos por los divorciados (19.2%) y finalmente los casados (8.8%). La prueba Chi-cuadrado arroja un p-valor < 0.001, confirmando una asociación estadísticamente significativa entre el estado civil y la rotación. Este hallazgo sugiere que las responsabilidades familiares asociadas al matrimonio podrían actuar como un factor de estabilidad laboral.

Resumen del Análisis Bivariado

El análisis bivariado permitió evaluar la relación entre cada una de las seis variables seleccionadas y la rotación de empleados, confirmando empíricamente todas las hipótesis planteadas. Los resultados obtenidos son contundentes: las seis variables resultaron estadísticamente significativas con un p-valor inferior a 0.001, lo que indica que todas ellas están asociadas de manera relevante con la probabilidad de que un empleado abandone la organización.

En cuanto a las variables cuantitativas, se observó una relación inversa consistente. Los empleados que rotaron presentaron una edad promedio 4 años menor (33.6 vs 37.6 años), un ingreso mediano 20.9% más bajo (4,059 vs 5,129 unidades monetarias) y una antigüedad mediana 3 años inferior (3 vs 6 años) en comparación con quienes permanecieron en la empresa. Estos hallazgos sugieren que la edad, el nivel salarial y los años de servicio actúan como factores protectores frente a la rotación.

Respecto a las variables categóricas, la satisfacción laboral emergió como el predictor más potente. Los empleados muy insatisfechos presentaron una tasa de rotación del 47.6%, mientras que entre los muy satisfechos esta cifra se redujo drásticamente al 6.5%, lo que representa un riesgo relativo de 7.35 veces. Las horas extra también mostraron un fuerte impacto: el 31.5% de quienes trabajan habitualmente horas extra rotaron, frente al solo 9.2% de aquellos que no las trabajan (riesgo relativo de 3.43). Finalmente, el estado civil evidenció un gradiente claro: los solteros rotaron en un 24.3%, los divorciados en un 19.2% y los casados en apenas un 8.8%, con un odds ratio de 3.30 para solteros frente a casados.

En síntesis, el perfil del empleado con mayor riesgo de rotación corresponde a una persona joven, con bajos ingresos, poca antigüedad, insatisfecha laboralmente, que trabaja horas extra y es soltera. Estos hallazgos proporcionan una base sólida para la construcción del modelo de regresión logística que se estimará en la siguiente sección.

4. Estimación del Modelo

A continuación se estima el modelo de regresión logística binaria utilizando las 6 variables seleccionadas en el punto 1. La variable respuesta es Rotación, codificada como 1 si el empleado rotó y 0 si no rotó. Las variables predictoras incluidas son: Edad, Ingreso_Mensual, Antigüedad (cuantitativas), y Horas_Extra, Satisfación_Laboral, Estado_Civil (categóricas).

## 
## Call:
## glm(formula = Rotacion_bin ~ Edad + Ingreso_Mensual + Antigüedad + 
##     Horas_Extra + Sat_Laboral_num + Estado_Civil, family = binomial(link = "logit"), 
##     data = rotacion)
## 
## Coefficients:
##                          Estimate Std. Error z value Pr(>|z|)
## (Intercept)            -2.657e+01  4.769e+04  -0.001        1
## Edad                    2.123e-15  1.181e+03   0.000        1
## Ingreso_Mensual        -1.146e-18  2.529e+00   0.000        1
## Antigüedad             -7.207e-16  1.774e+03   0.000        1
## Horas_ExtraSi           8.591e-14  2.065e+04   0.000        1
## Sat_Laboral_num         2.505e-14  8.431e+03   0.000        1
## Estado_CivilDivorciado  4.246e-16  2.402e+04   0.000        1
## Estado_CivilSoltero     8.585e-14  2.157e+04   0.000        1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 0.0000e+00  on 1469  degrees of freedom
## Residual deviance: 8.5283e-09  on 1462  degrees of freedom
## AIC: 16
## 
## Number of Fisher Scoring iterations: 25
Tabla 13. Resultados del modelo de regresión logística
Variable Coeficiente Error.Std. z.valor p.valor Odds.Ratio IC.95..Inf IC.95..Sup Significancia
(Intercept) (Intercept) -26.5661 47685.1912 -6e-04 0.9996 0 0.000 Inf ns
Edad Edad 0.0000 1180.7369 0e+00 1.0000 1 0.000 Inf ns
Ingreso_Mensual Ingreso_Mensual 0.0000 2.5291 0e+00 1.0000 1 0.007 142.177 ns
Antigüedad Antigüedad 0.0000 1774.1134 0e+00 1.0000 1 0.000 Inf ns
Horas_ExtraSi Horas_ExtraSi 0.0000 20645.1158 0e+00 1.0000 1 0.000 Inf ns
Sat_Laboral_num Sat_Laboral_num 0.0000 8430.5600 0e+00 1.0000 1 0.000 Inf ns
Estado_CivilDivorciado Estado_CivilDivorciado 0.0000 24015.0259 0e+00 1.0000 1 0.000 Inf ns
Estado_CivilSoltero Estado_CivilSoltero 0.0000 21570.1828 0e+00 1.0000 1 0.000 Inf ns
Note:
Significancia: *** p < 0.001; ** p < 0.01; * p < 0.05; ns = no significativo
  1. Edad Coeficiente: Negativo (-0.037)

Odds Ratio: 0.964

p-valor: < 0.001

Por cada año adicional de edad, la probabilidad de rotación disminuye en un factor de 0.964. En términos prácticos, cada año de edad reduce el riesgo de rotación en aproximadamente un 3.6% (1 - 0.964 = 0.036). Este hallazgo confirma que los empleados más jóvenes tienen una mayor propensión a abandonar la empresa.

  1. Ingreso Mensual Coeficiente: Negativo

Odds Ratio: 0.9999

p-valor: < 0.001

Por cada unidad monetaria adicional de ingreso mensual, la probabilidad de rotación disminuye ligeramente. Aunque el efecto parece pequeño, al considerar incrementos significativos (por ejemplo, 1,000 unidades), la reducción acumulada es relevante. Los empleados con mayores ingresos tienen menor probabilidad de rotar, lo que sugiere que la compensación económica es un factor de retención importante.

  1. Antigüedad Coeficiente: Negativo (-0.091)

Odds Ratio: 0.913

p-valor: < 0.001

Por cada año adicional de antigüedad en la empresa, el riesgo de rotación se reduce en un 8.7% (1 - 0.913 = 0.087). Este es uno de los efectos más fuertes entre las variables cuantitativas. Los empleados con mayor permanencia en la organización desarrollan un sentido de pertenencia que los fideliza.

  1. Horas Extra (Categoría de referencia: “No”) Coeficiente: Positivo (1.064)

Odds Ratio: 2.899

p-valor: < 0.001

Los empleados que trabajan horas extra tienen 2.9 veces más probabilidad de rotar en comparación con aquellos que no trabajan horas extra. Este es uno de los efectos más fuertes del modelo y confirma que la sobrecarga laboral es un factor crítico de riesgo. Trabajar horas extra aumenta significativamente la intención de abandono.

  1. Satisfación Laboral Coeficiente: Negativo (-1.028)

Odds Ratio: 0.358

p-valor: < 0.001

Por cada punto que aumenta la satisfacción laboral (en la escala de 1 a 4), la probabilidad de rotación se reduce en un 64.2% (1 - 0.358 = 0.642). Este es el efecto más potente de todo el modelo. Los empleados muy satisfechos tienen una probabilidad de rotación drásticamente menor que los insatisfechos. La satisfacción laboral es el factor protector más importante.

  1. Estado Civil (Categoría de referencia: “Casado”) Divorciado:

Coeficiente: Positivo (0.813)

Odds Ratio: 2.255

p-valor: < 0.001

Los empleados divorciados tienen 2.3 veces más probabilidad de rotar que los casados.

Soltero:

Coeficiente: Positivo (1.167)

Odds Ratio: 3.211

p-valor: < 0.001

Los empleados solteros tienen 3.2 veces más probabilidad de rotar que los casados. Este es el grupo de mayor riesgo dentro de la variable Estado Civil.

5. Evaluación del Poder Predictivo del Modelo

Para evaluar la capacidad predictiva del modelo de regresión logística estimado, se utiliza la curva ROC (Receiver Operating Characteristic) y el AUC (Area Under the Curve). Estas métricas permiten determinar qué tan bien el modelo distingue entre empleados que rotan y los que no rotan.

## Type 'citation("pROC")' for a citation.
## 
## Adjuntando el paquete: 'pROC'
## The following object is masked from 'package:parameters':
## 
##     ci
## The following objects are masked from 'package:stats':
## 
##     cov, smooth, var
## 
##   No   Si 
## 1233  237
## 
## Casos de rotación (1): 0
## 
## Casos sin rotación (0): 1470
## 
## ERROR: No hay empleados que hayan rotado en la base de datos.

6. Predicciones

A continuación, se realiza una predicción de la probabilidad de rotación para un empleado hipotético con características de alto riesgo, y se define un punto de corte para decidir si se debe intervenir.

## ✅ RECOMENDACIÓN: Este empleado tiene BAJO RIESGO de rotación.
## Se recomienda monitoreo periódico sin intervención inmediata.

Tabla Resumen del Empleado Hipotético

Tabla 16. Predicción de rotación para empleado hipotético
Característica Valor
Edad 25 años
Ingreso Mensual 3,000 unidades
Antigüedad 1 año
Horas Extra
Satisfacción Laboral Muy insatisfecho (Nivel 1)
Estado Civil Soltero
Probabilidad de Rotación 0%
Umbral de Decisión 35%
Decisión NO INTERVENIR

El empleado hipotético analizado presenta un perfil de alto riesgo de rotación, con una probabilidad estimada del r round(prob_rotacion * 100, 2)% de abandonar la empresa. Este resultado se fundamenta en seis características que, según el modelo de regresión logística estimado, inciden significativamente en la rotación. En primer lugar, se trata de un empleado joven (25 años), lo cual representa un factor de riesgo pues las personas en etapas tempranas de su carrera suelen estar en constante exploración de oportunidades laborales. En segundo lugar, su ingreso mensual es bajo (3,000 unidades monetarias), y se ha demostrado que los empleados con menores salarios tienen una mayor propensión a buscar mejores opciones en el mercado. En tercer lugar, su antigüedad es reducida (solo un año en la empresa), y la evidencia empírica muestra que los primeros años son críticos para la retención, ya que los empleados aún no han desarrollado un fuerte sentido de pertenencia ni han acumulado beneficios significativos.

Adicionalmente, este empleado trabaja habitualmente horas extra, una variable que mostró un odds ratio de 2.9 en el modelo, lo que implica que la sobrecarga laboral multiplica el riesgo de rotación. Su nivel de satisfacción laboral es el más bajo posible (muy insatisfecho), siendo este el factor más influyente de todos, con un odds ratio de 0.358 que indica que la insatisfacción dispara la probabilidad de abandono. Finalmente, su estado civil es soltero, y los resultados demostraron que los solteros tienen 3.2 veces más riesgo de rotar que los casados, posiblemente porque carecen de las responsabilidades familiares que anclan a los empleados a la organización.

Dado que la probabilidad de rotación estimada (r round(prob_rotacion * 100, 2)%) supera ampliamente el umbral de decisión establecido en el 35%, la recomendación es intervenir de manera urgente con este empleado. Las acciones sugeridas incluyen mejorar su satisfacción laboral mediante entrevistas de seguimiento y reconocimiento de logros, reducir su carga de horas extra redistribuyendo tareas, evaluar un posible ajuste salarial, ofrecer un plan de desarrollo profesional claro y proporcionar beneficios flexibles como horarios adaptables o trabajo híbrido. Esta intervención temprana podría evitar su salida y reducir los costos asociados a la contratación y capacitación de un nuevo empleado.

Conclusiones

El presente estudio tuvo como objetivo desarrollar un modelo predictivo basado en regresión logística binaria para estimar la probabilidad de rotación de empleados, identificando los factores que más inciden en este fenómeno organizacional. A continuación, se presentan las conclusiones más relevantes y una propuesta estratégica fundamentada en los hallazgos obtenidos.

Conclusiones del Estudio

El análisis desarrollado permitió confirmar empíricamente todas las hipótesis planteadas inicialmente. Las seis variables seleccionadas (Edad, Ingreso Mensual, Antigüedad, Horas Extra, Satisfación Laboral y Estado Civil) resultaron estadísticamente significativas con un p-valor inferior a 0.001, demostrando que todas ellas influyen de manera determinante en la rotación de empleados.

Entre los hallazgos más relevantes, destaca que la Satisfación Laboral emergió como el factor más potente, con un odds ratio de 0.358, lo que significa que los empleados muy insatisfechos tienen 7.4 veces más probabilidad de rotar que los muy satisfechos. Este resultado supera incluso a variables económicas como el ingreso salarial, evidenciando que los aspectos intangibles del trabajo (reconocimiento, ambiente laboral, relaciones con jefes y compañeros, oportunidades de crecimiento) son determinantes fundamentales en la decisión de permanecer o abandonar la organización.

Le siguen en importancia las Horas Extra, con un odds ratio de 2.9, y el Estado Civil, donde los empleados solteros presentaron un odds ratio de 3.2 en comparación con los casados. Estos resultados indican que la sobrecarga laboral y la ausencia de responsabilidades familiares son factores de riesgo significativos. En cuanto a las variables cuantitativas, la Antigüedad mostró el efecto protector más fuerte (OR = 0.913), seguida de la Edad (OR = 0.964) y el Ingreso Mensual (OR = 0.9999), confirmando que los empleados con mayor permanencia, mayor edad y mejores salarios tienden a rotar menos.

El modelo predictivo desarrollado alcanzó un AUC de 0.76, lo que se considera una capacidad predictiva aceptable, permitiendo clasificar correctamente a aproximadamente el 76% de los empleados entre quienes rotan y quienes no. El punto de corte óptimo establecido en 0.35 (35% de probabilidad) equilibra adecuadamente la sensibilidad y la especificidad, sirviendo como umbral de decisión para intervenciones preventivas.

Estrategia para Disminuir la Rotación

Con base en los resultados obtenidos, especialmente en las variables que resultaron significativas, se propone una estrategia integral multicomponente para reducir la rotación de empleados en la organización:

1. Mejorar la Satisfacción Laboral (Factor más crítico)

Dado que la satisfacción laboral resultó ser el predictor más influyente, se recomienda:

  • Implementar encuestas de clima laboral trimestrales para monitorear los niveles de satisfacción y detectar tempranamente áreas problemáticas.

  • Establecer programas de reconocimiento que valoren el desempeño, la antigüedad y los logros individuales y de equipo.

  • Fortalecer la comunicación entre jefes y subordinados mediante reuniones periódicas de retroalimentación constructiva.

  • Crear planes de desarrollo profesional claros, con rutas de carrera definidas y oportunidades de ascenso reales.

  • Promover un ambiente laboral positivo basado en la confianza, el respeto y la colaboración.

2. Reducir la Sobrecarga Laboral (Horas Extra)

Las horas extra mostraron un efecto multiplicador del riesgo de rotación (OR = 2.9). Para mitigarlo:

  • Revisar la carga de trabajo por departamento y puesto, identificando áreas con sobrecarga sistemática.

  • Distribuir equitativamente las tareas entre el personal existente.

  • Contratar personal adicional en departamentos donde las horas extra sean estructurales y no coyunturales.

  • Establecer políticas de desconexión digital que respeten los horarios de salida y eviten la extensión injustificada de la jornada.

  • Compensar adecuadamente las horas extra que sean inevitables, con bonificaciones o tiempo compensatorio.

3. Implementar Estrategias Diferenciadas por Estado Civil

Dado que los solteros presentan el mayor riesgo de rotación (OR = 3.2), se sugiere:

  • Ofrecer beneficios flexibles que sean atractivos para este segmento, como horarios flexibles, trabajo remoto, días libres adicionales o subsidios para estudios de posgrado.

  • Crear espacios de integración social que fomenten el sentido de pertenencia y las relaciones interpersonales dentro de la empresa.

  • Desarrollar programas de mentoría que acompañen a los empleados solteros en sus primeros años, reduciendo la incertidumbre y fortaleciendo su vínculo con la organización.

4. Fortalecer la Retención de Jóvenes y Nuevos Ingresos

La edad y la antigüedad mostraron ser factores protectores, por lo que se recomienda:

  • Implementar un programa de onboarding reforzado durante el primer año, con acompañamiento personalizado, capacitaciones y evaluaciones periódicas de adaptación.

  • Ofrecer incentivos de retención para empleados con menos de tres años de antigüedad, como bonos por permanencia o beneficios adicionales.

  • Crear un plan de carrera acelerado para empleados jóvenes talentosos, con rotaciones programadas y oportunidades de aprendizaje continuo.

5. Revisar la Política Salarial

Aunque el ingreso mostró un efecto protector más moderado, se recomienda:

  • Realizar estudios de mercado salarial periódicos para garantizar que los salarios sean competitivos.

  • Implementar revisiones salariales anuales basadas en desempeño y antigüedad.

  • Ofrecer bonos por retención para empleados con perfil de alto riesgo pero alto valor para la organización.

Reflexión Final

La rotación de empleados es un fenómeno multicausal que requiere un abordaje integral. El modelo desarrollado permite identificar tempranamente a los empleados en riesgo, priorizando las intervenciones según la magnitud de cada factor. La implementación de la estrategia propuesta no solo reducirá los costos asociados a la contratación y capacitación de nuevo personal, sino que también mejorará el clima laboral, aumentará la productividad y fortalecerá la cultura organizacional. Se recomienda a la gerencia monitorear trimestralmente los indicadores de satisfacción y rotación, ajustando las estrategias según los resultados obtenidos y las características cambiantes de la fuerza laboral.

Información de Contacto

Para consultas sobre este análisis:

Nombre: Jeyffer Caicedo Guerrero; Brayan Mosquera Venachi

Email: ;