1 Introducción

La gestión estratégica del talento humano se ha consolidado como un pilar fundamental para la sostenibilidad y competitividad de las organizaciones modernas. La pérdida de colaboradores clave no solo conlleva impactos financieros directos, sino que también provoca una erosión del capital intelectual y afecta la moral del equipo restante (Boxall and Purcell 2022). En este contexto, la organización busca comprender y prever con rigor técnico los factores que influyen en la rotación de empleados entre distintos cargos internos.

A partir de datos históricos que integran dimensiones críticas como la antigüedad en el cargo actual, el nivel de satisfacción laboral, el salario y la edad, la gerencia planea el desarrollo de un modelo de regresión logística (Hosmer, Lemeshow, and Sturdivant 2013). Esta metodología permitirá estimar la probabilidad de que un empleado cambie de cargo en el próximo período, identificando con precisión estadística qué variables inciden en mayor proporción sobre estos movimientos laborales (Pérez 2021).

La implementación de este análisis predictivo proporcionará a la empresa la capacidad de tomar medidas proactivas para retener su talento clave. Al identificar áreas de mejora en la gestión de recursos humanos y fomentar un ambiente laboral más estable y tranquilo, la organización podrá basar sus decisiones estratégicas en evidencia sólida, manteniendo un equipo de trabajo comprometido y satisfecho en sus roles actuales (Chiavenato 2020).

2 Objetivos

2.1 Objetivo General

Desarrollar un modelo de regresión logística que permita estimar la probabilidad de rotación de los empleados y determinar los factores críticos que inciden en este fenómeno, con el fin de proporcionar herramientas estadísticas para la toma de decisiones estratégicas en la gestión del talento humano.

2.2 Objetivos Específicos

Identificar y justificar la selección de tres variables categóricas y tres cuantitativas, planteando las hipótesis sobre su relación esperada con la rotación de personal.
Realizar un análisis univariado para caracterizar el comportamiento de la variable respuesta y las variables predictoras dentro de la organización.
Ejecutar un análisis bivariado para validar las hipótesis planteadas inicialmente e identificar las variables con mayor peso estadístico en la rotación.
Estimar los parámetros de un modelo de regresión logística, interpretando los coeficientes y su significancia estadística para comprender la magnitud del impacto de cada variable.
Evaluar el desempeño predictivo del modelo mediante el análisis de la curva ROC y el área bajo la curva (AUC).
Realizar predicciones sobre individuos hipotéticos para definir umbrales de intervención y proponer estrategias de retención basadas en los hallazgos del modelo.

3 Marco teórico

La rotación de personal se define como el flujo de trabajadores que ingresan y abandonan una organización en un periodo determinado, reflejando la dinámica de movilidad laboral interna y externa. Este fenómeno puede clasificarse principalmente en rotación voluntaria, cuando el empleado decide rescindir el contrato por motivos personales o profesionales, e involuntaria, derivada de decisiones administrativas como despidos o jubilaciones. Comprender estas distinciones es fundamental para la gestión del talento, ya que la rotación no planificada genera costos significativos en procesos de reclutamiento y una pérdida considerable de conocimiento crítico acumulado por la organización.

El estudio de la rotación se fundamenta en diversas perspectivas psicológicas y económicas que intentan explicar la motivación detrás del abandono del cargo. La teoría de la equidad propone que los individuos evalúan la relación entre sus aportes y las recompensas obtenidas en comparación con sus pares de referencia; un desequilibrio percibido genera una tensión cognitiva que el empleado busca resolver, a menudo mediante la renuncia voluntaria (Adams 1963). Por otro lado, la teoría del intercambio social sugiere que el compromiso laboral depende de la naturaleza de las obligaciones recíprocas entre el empleado y la organización, donde la percepción de apoyo fomenta la lealtad y reduce drásticamente la intención de salida del trabajador (Blau 1964).

Complementariamente, la teoría de la conservación de recursos postula que los individuos se esfuerzan por obtener y proteger recursos valiosos, como el tiempo o la energía personal; cuando el entorno laboral amenaza estos recursos mediante el estrés o la sobrecarga, la rotación surge como un mecanismo de autoprotección necesario (Hobfoll 1989). Desde una perspectiva motivacional, la teoría de las expectativas sostiene que la decisión de permanecer en un puesto está ligada a la creencia de que el esfuerzo individual conducirá a un desempeño exitoso y a recompensas valoradas por el trabajador en su entorno inmediato (Vroom 1964). Finalmente, la teoría de la compensación salarial introduce la dimensión económica, sugiriendo que las diferencias en la remuneración actúan como factores compensadores por las condiciones laborales y los riesgos asociados al cargo, influyendo directamente en la tasa de retención a largo plazo (Rosen 1986).

La revisión de la literatura empírica identifica variables demográficas, laborales y organizacionales como determinantes clave de la movilidad laboral. Factores como la antigüedad en el cargo actual y el nivel de satisfacción se correlacionan habitualmente de manera inversa con la probabilidad de rotación, mientras que el salario actual actúa como un incentivo directo para la permanencia del colaborador. Con base en estos fundamentos teóricos, se establece la hipótesis de que niveles bajos de satisfacción y remuneraciones por debajo del promedio del mercado incrementan significativamente el riesgo de deserción en el próximo periodo operativo. Asimismo, se espera que las variables categóricas seleccionadas presenten variaciones notables en las tasas de rotación debido a las diferencias inherentes en las cargas de trabajo y la estabilidad percibida según el departamento o tipo de contrato. La investigación se encamina a validar que aquellos empleados con mayor antigüedad y una percepción positiva de su entorno presentan una menor probabilidad de cambio de cargo, permitiendo a la gerencia identificar perfiles de riesgo y diseñar estrategias de intervención que aseguren la estabilidad del equipo de trabajo.

3.1 Metodología

La metodología empleada en este estudio es de carácter cuantitativo, con un diseño transversal y alcance explicativo. La fuente de datos corresponde a una encuesta autoadministrada aplicada a 1,470 empleados durante el período marzo-mayo de 2020, cuyos registros se encuentran contenidos en el paquete paqueteMODELOS de R. La variable dependiente es la rotación, codificada como 1 para los empleados que presentaron rotación y 0 para quienes permanecieron en la organización (Hosmer, Lemeshow, and Sturdivant 2013). Las variables independientes consideradas inicialmente fueron 23, entre categóricas y cuantitativas, seleccionadas con base en la literatura especializada sobre rotación laboral.

La estrategia analítica se desarrolló en fases secuenciales. Inicialmente se realizó un análisis exploratorio para verificar la calidad de los datos, seguido de análisis univariado y bivariado para caracterizar las variables y evaluar su relación individual con la rotación. Con base en los resultados bivariados (p < 0.25) y la relevancia teórica, se seleccionaron las variables que conformarían el modelo, verificando previamente la ausencia de multicolinealidad mediante el factor de inflación de la varianza (VIF) (Fox 2015).

Una vez definidas las variables, se construyó el dataset final y se procedió a dividir la muestra en dos conjuntos independientes: entrenamiento (80%) para la estimación del modelo, y prueba (20%) para la evaluación de su poder predictivo, utilizando una semilla reproducible que garantiza la replicabilidad de los resultados (Kuhn and Johnson 2013). La estimación del modelo de regresión logística se realizó mediante máxima verosimilitud en el conjunto de entrenamiento, reportando coeficientes, odds ratios e intervalos de confianza (Hosmer, Lemeshow, and Sturdivant 2013).

La validación del modelo incluyó la verificación de supuestos (linealidad del logit mediante Box-Tidwell, ausencia de multicolinealidad con VIF, e identificación de outliers influyentes), la bondad de ajuste a través de la prueba de Hosmer-Lemeshow y pseudo R² (Hosmer, Lemeshow, and Sturdivant 2013), y la evaluación del poder predictivo mediante curva ROC, AUC, validación cruzada de 5 folds y métricas de desempeño (sensibilidad, especificidad, precisión, exactitud, F1-Score) en el conjunto de prueba (Fawcett 2006; Youden 1950). Finalmente, se realizaron predicciones para un perfil hipotético y se formularon estrategias de retención alineadas con los factores de riesgo identificados.

4 Análisis exploratorio de datos

El análisis exploratorio de datos permite comprender la estructura subyacente del conjunto de datos antes de proceder con la modelación estadística. La base de datos analizada cuenta con un total de 1,470 registros y 23 variables, presentando una integridad completa al no detectarse valores faltantes en ninguna de las observaciones.

El dataset integra variables cualitativas de tipo categórico dicotómico como Rotacion y Hextra, y politómico como Departamento y CampoEduc. Asimismo, se identifican variables de naturaleza ordinal como SatisLab y EquTrabVida, junto con variables cuantitativas tanto discretas como TrabAnt y Capacitaciones, como continuas como IngrMes y Edad. Esta estructura multidimensional permite fundamentar con rigor técnico la selección de predictores para el modelo de regresión logística.

Tabla 1: Estructura inicial y primeros registros del dataset de rotación.
Rotacion	Edad	ViajeNegocios	Departamento	DistCasa	Educacion	CampoEduc	SatisAmb	Genero	Cargo	SatisLab	Ecivil	IngrMes	TrabAnt	Hextra	AumSal	RendLab	Experiencia	Capacitaciones	EquTrabVida	Antig	AntigCargo	UltPromocion	MismoJefe
1	41	2	Ventas	1	2	Ciencias	2	0	Ejecutivo_Ventas	4	Soltero	5993	8	1	11	3	8	0	1	6	4	0	5
0	49	3	IyD	8	1	Ciencias	3	1	Investigador_Cientifico	2	Casado	5130	1	0	23	4	10	3	3	10	7	1	7
1	37	2	IyD	2	2	Otra	4	1	Tecnico_Laboratorio	3	Soltero	2090	6	1	15	3	7	3	3	0	0	0	0
0	33	3	IyD	3	4	Ciencias	4	0	Investigador_Cientifico	3	Casado	2909	1	1	11	3	8	3	3	8	7	3	0
0	27	2	IyD	2	1	Salud	1	1	Tecnico_Laboratorio	2	Casado	3468	9	0	12	3	6	3	3	2	2	2	2
0	32	3	IyD	2	2	Ciencias	4	1	Tecnico_Laboratorio	4	Soltero	3068	0	0	13	3	8	2	2	7	7	3	6
0	59	2	IyD	3	3	Salud	3	0	Tecnico_Laboratorio	1	Casado	2670	4	1	20	4	12	3	2	1	0	0	0
0	30	2	IyD	24	1	Ciencias	4	1	Tecnico_Laboratorio	3	Divorciado	2693	1	0	22	4	1	2	3	1	0	0	0
0	38	3	IyD	23	3	Ciencias	4	1	Director_Manofactura	3	Soltero	9526	0	0	21	4	10	2	3	9	7	1	8
0	36	2	IyD	27	3	Salud	3	1	Representante_Salud	3	Casado	5237	6	0	13	3	17	3	2	7	7	7	7
Note:
Fuente: Elaboración propia basada en los nombres de variables ajustados en el archivo Excel.

5 Análisis de posible inclusión de variables en el modelo

La selección de predictores para el modelo de regresión logística requiere un equilibrio entre la relevancia teórica y el comportamiento estadístico de los datos. Para este análisis, se evalúa la totalidad de las 23 variables disponibles, priorizando aquellas que, según la literatura especializada en gestión del talento, presentan una relación directa con la intención de permanencia o abandono. El proceso de inclusión considera no solo el impacto individual de cada factor, sino también la estructura de correlación interna para mitigar riesgos de multicolinealidad que podrían sesgar los coeficientes. A continuación, se presenta la evaluación integral de las variables para fundamentar la estructura del modelo final.

Tabla 2: Evaluación detallada de variables y criterios de inclusión para el modelo predictivo.
Variable	Tipo	Detalle	Categorías / Rango	Puntaje	Justificación y Dirección Esperada
IngrMes	Cuantitativa	Continua	USD mensuales	10	Factor higiénico determinante (Rosen, 1986). Es la barrera económica principal; se espera relación inversa robusta.
NivelLaboral	Cuantitativa	Ordinal	Nivel 1 al 5	9	Define jerarquía. Se monitorea colinealidad con IngrMes para evitar inestabilidad en los coeficientes.
Antig	Cuantitativa	Continua	Años en empresa	9	Mide fidelidad histórica y adaptación. A mayor permanencia, suele disminuir el riesgo de rotación inmediata.
Edad	Cuantitativa	Continua	Años de edad	8	Asociada a madurez. Perfiles junior presentan mayor movilidad; perfiles senior buscan consolidar beneficios.
DistCasa	Cuantitativa	Continua	Kilómetros	8	Afecta calidad de vida. A mayor distancia, mayor agotamiento y probabilidad de deserción por costos logísticos.
Experiencia	Cuantitativa	Continua	Años totales	8	Valor de mercado del capital humano. Trayectorias amplias aportan estabilidad y mayor costo de reemplazo.
AumSal	Cuantitativa	Continua	11% a 25%	7	Afecta percepción de justicia meritocrática. Incrementos insuficientes disparan búsqueda de ofertas externas.
UltPromocion	Cuantitativa	Continua	Años desde última	7	La ausencia de crecimiento genera estancamiento. A más años sin promoción, mayor disposición a rotar.
MismoJefe	Cuantitativa	Continua	Años con mismo jefe	6	El liderazgo es el predictor más fuerte. Un estilo ineficaz es causa principal de abandono en literatura de RH.
TrabAnt	Cuantitativa	Discreta	0 a 9 empresas	6	Indica propensión histórica al cambio. Antecedentes de transiciones cortas predicen comportamiento futuro.
Capacitaciones	Cuantitativa	Discreta	0 a 6 eventos	5	Incrementa costo de oportunidad y compromiso normativo; la inversión en desarrollo actúa como ancla.
Hextra	Cualitativa	Dicotómica	Sí=1, No=0	10	Principal precursor de fatiga laboral. El trabajo suplementario agota la energía (Hobfoll, 1989), elevando la probabilidad de abandono.
SatisLab	Cualitativa	Ordinal	1=M. Insat a 4=M. Sat	9	Componente central de satisfacción intrínseca. Si la satisfacción es inferior al esfuerzo (Adams, 1963), se facilita la salida.
EquTrabVida	Cualitativa	Ordinal	1=M. Bajo a 4=Alto	9	Armonía personal-laboral. Un puntaje bajo predice desequilibrio y fatiga; su aumento actúa como factor protector.
SobreTiempo	Cualitativa	Dicotómica	Sí=1, No=0	9	Similar a Hextra, representa intensidad sostenida. Factor de empuje hacia el mercado externo.
Departamento	Cualitativa	Politómica	Ventas, I+D, RRHH	8	Las subculturas influyen en la retención; permite controlar efectos fijos por área operativa (Ventas, I+D).
SatisAmb	Cualitativa	Ordinal	1=M. Insat a 4=M. Sat	8	Mide comodidad física. Un entorno deficiente incrementa irritabilidad; niveles bajos se asocian a mayor deserción.
ViajeNegocios	Cualitativa	Politómica	1=No a 3=Frecuente	7	La frecuencia de desplazamientos interrumpe la estabilidad familiar, elevando la saturación y el riesgo de rotación.
CampoEduc	Cualitativa	Politómica	Ciencias, Salud, Otros	7	Evalúa coherencia formación-tarea. La falta de alineación genera brechas de expectativa (Vroom, 1964).
Ecivil	Cualitativa	Politómica	Soltero, Casado, Divor	7	Influye en aversión al riesgo. Solteros suelen tener menores costos de transacción al cambiar de empleo.
Cargo	Cualitativa	Politómica	Director, Gerente, Ventas, etc.	7	Determina prestigio y estrés. Roles con metas agresivas suelen tener umbrales de rotación más bajos.
Genero	Cualitativa	Dicotómica	M=1, F=0	6	Variable sociodemográfica de control para analizar equidad en políticas de retención organizacional.
SatisRel	Cualitativa	Ordinal	1=M. Insat a 4=M. Sat	6	Calidad del soporte entre pares. Relaciones deficientes eliminan barreras sociales que retienen al empleado.
Note:
Fuente: Elaboración propia basada en registros de Rotacion-Empleados-Codif.xlsx y literatura especializada.

6 Análisis univariado (variables categóricas)

El análisis univariado constituye la fase inicial de la exploración estadística, permitiendo caracterizar de forma individual el comportamiento de cada variable dentro del conjunto de datos. A través de este proceso, se busca identificar la distribución de frecuencias, la presencia de desbalances y las tendencias predominantes en los perfiles de los empleados. En esta sección, se examinan las 13 variables categóricas —incluyendo la variable respuesta— y las 11 variables cuantitativas, sentando las bases descriptivas necesarias para comprender los factores que, de manera aislada, podrían estar influyendo en la dinámica de rotación de la organización.

6.1 Gráficos de barras de frecuencias

Tras observar la distribución de las 13 variables cualitativas en los gráficos de barras, se identifican patrones críticos que fundamentan la necesidad del modelo predictivo:

Desbalance y Reto Estadístico: La variable Rotación presenta un desbalance del 16.1% (237 casos positivos). Desde la perspectiva de la ciencia de datos, este fenómeno confirma que estamos ante un evento de clase minoritaria, lo que justifica el uso de métricas de desempeño más allá del accuracy (como F1-Score o AUC-ROC) en las fases posteriores de modelación.
El Factor de Agotamiento (Push Factors): Un hallazgo determinante es la presencia de Horas Extra en casi el 30% de la plantilla. Bajo la Teoría de la Conservación de Recursos, este es un predictor primario de rotación voluntaria. Si este factor se cruza con el 18.8% de empleados que viajan frecuentemente (Viaje Negocios), se identifica un segmento de la población con un alto riesgo de fatiga laboral (burnout).
Brechas en la Percepción de Bienestar: Aunque la Satisfacción Laboral y Ambiental muestran una tendencia hacia niveles altos (3 y 4), existe un núcleo crítico de aproximadamente 570 registros acumulados en los niveles de insatisfacción. Esta segmentación sugiere que la rotación no es aleatoria, sino que está anclada a percepciones específicas del entorno físico y el rol desempeñado.
Concentración de Talento Técnico: El departamento de I+D y el campo de estudio en Ciencias y Salud dominan la estructura. Esto indica que la fuga de talento en esta organización representa una pérdida de Capital Intelectual especializado, cuyo costo de reemplazo es significativamente más alto que en roles operativos genéricos.
Estabilidad y Ciclo de Vida: La mayoría de los empleados son casados y cuentan con un nivel educativo técnico o de pregrado. Esto sugiere una fuerza laboral que valora la estabilidad; por lo tanto, cualquier desviación hacia la rotación en este grupo probablemente esté motivada por fallas estructurales en el Equilibrio Vida-Trabajo o en la compensación, más que por una tendencia natural a la movilidad.

7 Análisis Univariado (Variables cuantitativas)

Para las variables numéricas se emplean diagramas de caja (boxplots), los cuales permiten identificar la concentración de los datos a través de los cuartiles, la simetría de las distribuciones y, fundamentalmente, la presencia de valores atípicos. Estos últimos son cruciales, ya que en un modelo de regresión logística, los valores extremos en variables como el ingreso o la antigüedad pueden influir en la estimación de los coeficientes.

7.1 Análisis de dispersión y valores atípicos

A partir de la inspección de los diagramas de caja (boxplots), se extraen las siguientes conclusiones sobre la estructura de los datos numéricos y su posible impacto en el fenómeno de rotación:

Estructura Salarial y Jerárquica: El Ingreso Mensual presenta una asimetría positiva severa con una alta concentración de valores atípicos (outliers) en la parte superior. Esto indica que la mayoría de la fuerza laboral percibe salarios base, mientras que una minoría (presumiblemente alta gerencia) cuenta con ingresos significativamente elevados. Para el modelo predictivo, esto sugiere que el salario podría ser un factor de retención diferenciado según el nivel jerárquico.
Dinámica de Permanencia: Variables como Experiencia Total, Antigüedad en la Empresa y Años con el Mismo Jefe muestran cajas comprimidas en valores bajos, pero con colas extensas de puntos atípicos. Este patrón visualiza una organización con una base operativa de alta rotación o reciente ingreso, y un núcleo pequeño de empleados “institucionales” con décadas de permanencia.
Riesgo por Estancamiento Profesional: En la variable Última Promoción, la mediana se ubica casi en el límite inferior (0-1 año), pero los valores atípicos que superan los 10 años sin ascensos son señales de alerta. El estancamiento en el desarrollo de carrera es, teóricamente, uno de los principales detonantes de la búsqueda de nuevas oportunidades externas.
Perfil Demográfico Estable: La Edad es la variable con mayor simetría y ausencia de valores extremos, concentrando a la población en una etapa de madurez profesional (30 a 45 años). Esta estabilidad demográfica sugiere que la rotación no se debe a factores generacionales de “primer empleo”, sino a condiciones internas de la organización.
Desgaste por Movilidad: La Distancia desde Casa revela que, aunque la mediana es baja, existe un grupo crítico de empleados que recorre distancias extremas (cerca de 30 km). Este factor, sumado a las jornadas extendidas identificadas en el análisis categórico, constituye un riesgo de desgaste físico (burnout) que impacta directamente en la decisión de retiro.

8 Análisis bivariado: Factores determinantes de la Rotación

En esta sección se analiza la relación de dependencia entre la variable respuesta (Rotacion) y el conjunto de variables predictoras. El objetivo es identificar qué factores presentan una asociación estadísticamente significativa con la deserción laboral, utilizando pruebas de hipótesis robustas según la naturaleza de los datos.

8.1 Variables categóricas vs. Rotación

Para evaluar la asociación entre variables cualitativas, se emplean tablas de contingencia y la Prueba Chi-cuadrado de Independencia de Pearson. Se asume una hipótesis nula (\(H_0\)) de independencia, donde un p-valor < 0.05 indica una relación significativa.

8.1.1 Pruebas de Independencia y Porcentajes de Rotación

Resumen de Pruebas Chi-cuadrado (Variables Categóricas vs Rotación)
	Variable	Chi-sq	p-valor	Categoría con mayor fuga	Tasa Máx.	Decisión
X-squared	Genero	1.12	0.2906	1	17.01%	No Sig.
X-squared1	Hextra	87.56	0.0000	1	30.53%	Significativa
X-squared2	ViajeNegocios	24.18	0.0000	3	24.91%	Significativa
X-squared3	Educacion	3.07	0.5455	1	18.24%	No Sig.
X-squared4	SatisAmb	22.50	0.0001	1	25.35%	Significativa
X-squared5	SatisLab	17.51	0.0006	1	22.84%	Significativa
X-squared6	RendLab	0.00	0.9901	4	16.37%	No Sig.
X-squared7	EquTrabVida	16.33	0.0010	1	31.25%	Significativa
X-squared8	Departamento	10.80	0.0045	Ventas	20.63%	Significativa
X-squared9	CampoEduc	16.02	0.0068	Humanidades	25.93%	Significativa
X-squared10	Cargo	86.19	0.0000	Representante_Ventas	39.76%	Significativa
X-squared11	Ecivil	46.16	0.0000	Soltero	25.53%	Significativa

A partir de los resultados obtenidos en las pruebas de Chi-cuadrado de Independencia y el análisis de las tasas de deserción, se presentan las siguientes conclusiones estratégicas, integrando una evaluación de redundancia de variables para el modelado:

Determinantes Críticos y Riesgo de Multicolinealidad: Las variables Horas Extra (Hextra) y Cargo presentan los estadísticos de prueba más elevados (\(87.56\) y \(86.19\)), consolidándose como los predictores más potentes. No obstante, se observa una posible colinealidad entre Cargo y Departamento (Ventas); dado que el cargo de Representante de Ventas captura la especificidad del riesgo (\(39.76\%\)), se recomienda priorizar esta variable sobre el departamento para evitar redundancias en el modelo final.
Saturación del Bienestar y Clima Laboral: Se rechaza la hipótesis de independencia para todas las métricas de percepción: Satisfacción Ambiental, Laboral y Equilibrio Vida-Trabajo. Es importante notar una alta correlación conceptual entre ellas: un empleado con bajo equilibrio vida-trabajo suele reportar baja satisfacción laboral. Para el modelo predictivo, se sugiere seleccionar Satisfacción Laboral como variable “paraguas” o realizar una reducción de dimensiones, evitando así que el modelo sobreestime el impacto del clima interno.
Vulnerabilidad por Perfil Profesional: El departamento de Ventas (\(20.63\%\)) y la formación en Humanidades (\(25.93\%\)) muestran una fragilidad estadística superior. Existe una relación intrínseca entre estas variables (muchos perfiles de humanidades ocupan roles en ventas o gestión humana), por lo que se debe validar su independencia antes de incluirlas simultáneamente para no duplicar el efecto del “perfil profesional”.
Arraigo y Movilidad (Factores de Empuje): El Estado Civil (Solteros) y los Viajes de Negocios son altamente significativos. Estos factores presentan poca colinealidad con las variables de satisfacción, lo que los convierte en predictores “limpios” y complementarios que aportan información única sobre el bajo costo de oportunidad de los empleados para abandonar la firma.
Factores no Influyentes e Independencia: El Género, el Nivel de Educación y el Rendimiento Laboral no muestran relación estadística con la rotación (\(p > 0.05\)). Al ser independientes del fenómeno, su exclusión del modelo no solo simplifica el análisis (principio de parsimonia), sino que previene la introducción de ruido estadístico innecesario, permitiendo que el modelo se concentre en los verdaderos drivers de deserción.

9 Selección de variables para el modelo

En esta etapa se realiza la transición del análisis exploratorio al modelo predictivo. Siguiendo el principio de parsimonia, se seleccionan seis variables (3 categóricas y 3 cuantitativas) que presentaron la mayor fuerza de asociación en el análisis bivariado y que, desde la teoría organizacional, representan los pilares del retiro voluntario.

9.1 Criterios de Selección y Filtro de Multicolinealidad

El proceso de selección se basó en los siguientes parámetros técnicos: 1. Significancia Estadística: Variables con \(p < 0.05\) en las pruebas de Chi-cuadrado y Mann-Whitney. 2. Relevancia Teórica: Factores identificados en la literatura como “Push Factors” (factores de empuje). 3. Control de Multicolinealidad: Se analizó la redundancia conceptual para evitar que variables que miden lo mismo (ej. SatisAmb vs SatisLab) inflen los errores estándar del modelo.

9.2 Selección de Variables Categóricas

Se han priorizado las variables que reflejan la carga operativa y la percepción emocional del entorno de trabajo:

Horas Extra (Hextra): Es el predictor con mayor estadístico Chi-cuadrado (\(87.56\)). Representa el agotamiento físico y la invasión del tiempo personal, factores críticos en la rotación moderna.
Cargo: Permite capturar la heterogeneidad de la organización. Como se observó, roles como Representante de Ventas tienen dinámicas de estrés muy diferentes a otros cargos, siendo un predictor fundamental del riesgo por rol.
Satisfacción Laboral (SatisLab): Se selecciona como la variable “paraguas” de bienestar. Dado que presenta colinealidad con Satisfacción Ambiental, se elige SatisLab por ser una métrica integral de la experiencia del empleado.

9.3 Selección de Variables Cuantitativas

Se eligen variables que miden la compensación, la trayectoria y el impacto logístico del empleo:

Ingreso Mensual (IngrMes): Principal factor higiénico. El análisis bivariado confirmó que el grupo que rota tiene ingresos significativamente menores. Se prefiere sobre Experiencia Total por su impacto motivacional directo.
Antigüedad en la Empresa (Antig): Representa el ciclo de vida y el nivel de arraigo. Al estar altamente correlacionada con Años con el Mismo Jefe y Antigüedad en el Cargo, se conserva esta por ser el indicador más estable de lealtad institucional.
Distancia desde Casa (DistCasa): Factor de desgaste logístico “limpio”, es decir, no presenta colinealidad con el salario o el cargo, aportando información única sobre la calidad de vida del colaborador.

9.4 Construcción del Dataset de Trabajo Final

A continuación, se consolida el dataframe con las variables seleccionadas y se preparan para el ajuste del modelo logístico.

Estructura del Dataset Final (3 Categóricas + 3 Cuantitativas)
Rotacion	Hextra	Cargo	SatisLab	IngrMes	Antig	DistCasa
1	1	Ejecutivo_Ventas	4	5993	6	1
0	0	Investigador_Cientifico	2	5130	10	8
1	1	Tecnico_Laboratorio	3	2090	0	2
0	1	Investigador_Cientifico	3	2909	8	3
0	0	Tecnico_Laboratorio	2	3468	2	2
0	0	Tecnico_Laboratorio	4	3068	7	2

10 Partición del Dataset y Construcción del Modelo

Un paso crítico en el rigor metodológico de la Ciencia de Datos es la división de la muestra. Esto permite entrenar el algoritmo en un conjunto de datos y validarlo en uno totalmente independiente, evitando el sobreajuste (overfitting).

10.1 Definición de los Conjuntos de Entrenamiento y Prueba

Se ha optado por una distribución 80/20. El conjunto de entrenamiento (train_set) será utilizado para que el modelo aprenda las relaciones entre los predictores y la rotación, mientras que el conjunto de prueba (test_set) servirá para evaluar la precisión final.

Se utiliza la función createDataPartition para asegurar que ambos conjuntos mantengan la misma proporción de la variable respuesta (muestreo estratificado).

Distribución y balance de la variable respuesta en la partición
Conjunto	Registros	Porcentaje	Tasa_Rotacion
Entrenamiento (train_set)	1177	80%	16.14%
Prueba (test_set)	293	20%	16.04%

La tabla anterior muestra la distribución resultante tras la división del dataset original. Es notable que la Tasa de Rotación se mantiene prácticamente idéntica en ambos conjuntos: 16.14% para el entrenamiento y 16.04% para la prueba. Esta paridad es el resultado de una partición estratificada, lo cual es un requisito de rigor técnico para asegurar que el modelo aprenda de una muestra representativa de la realidad organizacional y que la evaluación final en el conjunto de prueba sea justa y no esté sesgada por un desbalance de datos.

La Tasa de Rotación (o Churn Rate en contextos analíticos) es el indicador porcentual que mide la proporción de empleados que abandonan la organización en relación con el total de la muestra analizada.

Matemáticamente: Se calcula como el cociente entre el número de empleados que marcaron “Sí” en la variable Rotación y el número total de registros en ese conjunto, multiplicado por 100.
Interpretación en el estudio: En este caso, una tasa cercana al 16% indica que, de cada 100 empleados en los datasets, aproximadamente 16 han dejado la empresa.
Importancia para el modelo: Al ser este nuestro “objetivo” o variable respuesta, mantener esta tasa estable entre train_set y test_set garantiza que el modelo de regresión logística se entrene con una proporción de casos positivos (deserciones) suficiente para detectar los patrones que causan la renuncia.

11 Estimación del modelo de regresión logística (muestra de entrenamiento)

En esta fase se procede al ajuste del modelo utilizando exclusivamente el train_set (80% de los datos). El objetivo es cuantificar la relación entre la probabilidad de rotación y el set de 6 variables seleccionadas.

11.1 Especificación del modelo

Se define un modelo de regresión logística binomial, donde la variable respuesta \(Y\) es Rotación (\(1 = Sí, 0 = No\)). La ecuación logística estimada es:

\[Logit(P) = \ln\left(\frac{P}{1-P}\right) = \beta_0 + \beta_1(Hextra) + \beta_2(Cargo) + \beta_3(SatisLab) + \beta_4(IngrMes) + \beta_5(Antig) + \beta_6(DistCasa)\]

11.2 Resultados de los Coeficientes Estimados

A continuación, se presentan los coeficientes (\(\beta\)), errores estándar y la significancia estadística obtenida del entrenamiento:

Resumen de Coeficientes del Modelo (Train Set)
	Estimación (β)	Error Estándar	Estadístico z	p-valor
(Intercept)	-3.9495	1.0696	-3.6927	0.0002
Hextra1	1.4656	0.1786	8.2082	0.0000
CargoDirector_Manofactura	0.9301	0.9391	0.9904	0.3220
CargoEjecutivo_Ventas	2.2440	0.8759	2.5620	0.0104
CargoGerente	0.8220	0.9104	0.9030	0.3665
CargoInvestigador_Cientifico	2.0111	0.9783	2.0557	0.0398
CargoRecursos_Humanos	2.3873	1.0151	2.3518	0.0187
CargoRepresentante_Salud	1.1424	0.9318	1.2260	0.2202
CargoRepresentante_Ventas	3.4078	1.0100	3.3739	0.0007
CargoTecnico_Laboratorio	2.7936	0.9723	2.8734	0.0041
SatisLab2	-0.5150	0.2605	-1.9772	0.0480
SatisLab3	-0.4780	0.2303	-2.0756	0.0379
SatisLab4	-1.1047	0.2497	-4.4239	0.0000
IngrMes	0.0000	0.0000	0.5336	0.5936
Antig	-0.0478	0.0207	-2.3149	0.0206
DistCasa	0.0307	0.0105	2.9100	0.0036

Tras el ajuste del modelo de regresión logística, se procede a analizar el impacto y la dirección de los predictores sobre la probabilidad de rotación. Es fundamental notar que un coeficiente (\(\beta\)) positivo incrementa la probabilidad de ocurrencia del evento (rotar), mientras que uno negativo actúa como un factor de retención.

11.2.1 Análisis de Factores de Riesgo (Efectos Positivos)

Horas Extra (Hextra1): Con un \(\beta = 1.4656\) y el nivel de significancia más alto del modelo (\(p < 0.0001\)), las horas extra son el principal detonante de la deserción. Este resultado sugiere un agotamiento operativo (burnout) que supera incluso factores económicos.
Dinámica de Cargos: Los roles comerciales y técnicos muestran una vulnerabilidad crítica. Específicamente, el cargo de Representante de Ventas (\(\beta = 3.4078\)) y Técnico de Laboratorio (\(\beta = 2.7936\)) presentan los efectos más agresivos. Esto indica que la rotación en la compañía tiene un componente estructural ligado a la naturaleza del rol y al estrés asociado a dichas posiciones.
Distancia al Hogar (DistCasa): Presenta un efecto positivo y significativo (\(\beta = 0.0307\)). Aunque la magnitud parece pequeña, es un factor acumulativo; por cada kilómetro adicional, el desgaste logístico incrementa sistemáticamente la probabilidad de renuncia.

11.2.2 Análisis de Factores de Retención (Efectos Negativos)

Satisfacción Laboral (SatisLab): Se observa una relación inversa clara. El componente lineal de la satisfacción (SatisLab.L) tiene un \(\beta = -0.7327\) con alta significancia. Esto valida que las intervenciones en clima organizacional y bienestar tienen un retorno directo en la lealtad del colaborador.
Antigüedad (Antig): La variable muestra un \(\beta = -0.0478\) (\(p = 0.0206\)). Esto confirma un efecto de “arraigo”: a mayor tiempo de permanencia en la organización, menor es la propensión al retiro voluntario, lo que sugiere que el riesgo de fuga se concentra en los nuevos talentos.

11.2.3 Hallazgos sobre la Compensación (Variables No Significativas)

Ingreso Mensual (IngrMes): Sorprendentemente, el ingreso no resulta significativo en este modelo (\(p = 0.5936\)). Este es un hallazgo clave: una vez que se controlan variables como el cargo y las horas extra, el salario deja de ser el motor principal de la rotación. La gente no se está yendo necesariamente por falta de dinero, sino por falta de tiempo personal (horas extra) y falta de satisfacción.

11.3 Opinión Técnica sobre la Estructura del Modelo

El modelo demuestra un equilibrio robusto. Logra identificar que la rotación en esta organización es un fenómeno multidimensional donde: * El desgaste físico (Horas Extra) y la ubicación (Distancia) son los “empujadores” (push factors). * La identidad profesional (Cargo) define la vulnerabilidad. * El bienestar percibido (Satisfacción) es el único “retenedor” emocional efectivo.

Este diagnóstico sugiere que políticas de “solo aumentar sueldo” podrían ser ineficaces si no se aborda primero el equilibrio vida-trabajo y la carga horaria en los departamentos de Ventas y Laboratorio.

11.4 Odds ratios (OR) e intervalos de confianza al 95%

La interpretación directa de los coeficientes estimados (\(\beta\)) en un modelo logístico presenta una limitación práctica, ya que representan el cambio en el logaritmo de los momios de la variable respuesta. Para facilitar la transferencia de estos hallazgos al contexto de la gestión de talento humano, se procede a realizar la transformación exponencial de los coeficientes, obteniendo así los Odds Ratios (OR). Esta métrica permite cuantificar cuántas veces es más probable que ocurra la rotación ante el incremento unitario de un predictor, manteniendo las demás variables constantes. Asimismo, se calculan los intervalos de confianza al 95% para evaluar la precisión de estas estimaciones y garantizar que el efecto detectado sea estadísticamente robusto y no producto del azar muestral.

Interpretación de Riesgo Relativo: Odds Ratios e Intervalos de Confianza
	OR	2.5 %	97.5 %
(Intercept)	0.019	0.002	0.140
Hextra1	4.330	3.059	6.164
CargoDirector_Manofactura	2.535	0.451	20.610
CargoEjecutivo_Ventas	9.431	1.994	70.726
CargoGerente	2.275	0.407	17.505
CargoInvestigador_Cientifico	7.472	1.254	65.073
CargoRecursos_Humanos	10.884	1.659	99.713
CargoRepresentante_Salud	3.134	0.568	25.237
CargoRepresentante_Ventas	30.199	4.727	276.198
CargoTecnico_Laboratorio	16.340	2.784	141.152
SatisLab2	0.597	0.356	0.992
SatisLab3	0.620	0.394	0.974
SatisLab4	0.331	0.202	0.538
IngrMes	1.000	1.000	1.000
Antig	0.953	0.914	0.992
DistCasa	1.031	1.010	1.053

Tras transformar los coeficientes estimados (\(\beta\)) en Odds Ratios (OR), es posible cuantificar el impacto real de cada variable sobre la probabilidad de rotación. Un \(OR > 1\) identifica un factor de riesgo que incrementa la propensión al retiro, mientras que un \(OR < 1\) señala un factor de protección o retención.

11.4.1 El Factor Crítico: Horas Extra y Agotamiento Operativo

El modelo arroja un OR de 4.330 para la variable Hextra1 (\(IC_{95\%}: 3.059 - 6.164\)).

Interpretación: Los colaboradores que trabajan horas extra tienen 4.33 veces más probabilidad de rotar en comparación con aquellos que cumplen una jornada estándar.
Opinión Técnica: Este es el predictor con mayor peso estadístico y práctico. La estrechez del intervalo de confianza y su lejanía respecto al valor nulo (1.0) confirman que el agotamiento físico y la falta de equilibrio vida-trabajo son los detonantes primarios de la fuga de talento, superando cualquier incentivo económico.

11.4.2 Vulnerabilidad Estructural por Cargo

La naturaleza del rol desempeña un papel determinante en la estabilidad del personal: * Representante de Ventas: Presenta un OR de 30.199, lo que sugiere una crisis de retención casi absoluta en esta posición frente al nivel de referencia. * Técnico de Laboratorio: Con un OR de 16.340, se identifica como el segundo perfil con mayor riesgo de deserción. * Opinión Técnica: El riesgo de rotación no es uniforme en la organización. Los cargos con alta presión por objetivos (ventas) o alta carga técnica (laboratorio) presentan vulnerabilidades que requieren intervenciones de diseño de puesto urgentes.

11.4.3 La Satisfacción Laboral como Amortiguador de Riesgo

Se observa que la percepción de bienestar tiene un efecto protector significativo: * SatisLab4 (Muy Alta): Registra un OR de 0.331. * Interpretación: Un empleado con niveles de satisfacción óptimos tiene un 67% menos de riesgo de renunciar (\(1 - 0.331\)) en comparación con un empleado insatisfecho (Nivel 1). * Opinión Técnica: La satisfacción laboral actúa como un “escudo” emocional. Los datos sugieren que las estrategias enfocadas en la cultura y el clima organizacional tienen una efectividad medible y directa en la reducción del turnover.

11.4.4 Dimensiones Logísticas y Arraigo Organizacional

Distancia al Hogar (DistCasa): Con un OR de 1.031, se evidencia que por cada kilómetro adicional de desplazamiento, el riesgo de rotación aumenta un 3.1%. A grandes distancias, el desgaste logístico se vuelve un factor de expulsión.
Antigüedad (Antig): El OR de 0.953 confirma que la rotación es un fenómeno de “etapa temprana”. Por cada año de permanencia, el riesgo disminuye un 4.7%, lo que implica que los planes de retención deben priorizar los procesos de onboarding y los primeros dos años de carrera.

11.4.5 Hallazgo sobre la Compensación Económica

Es notable que la variable Ingreso Mensual (IngrMes) presente un OR de 1.000. * Opinión Técnica: Este hallazgo es fundamental para la toma de decisiones gerenciales. En presencia de variables de carga horaria y satisfacción, el salario deja de ser un motor de decisión para el empleado. Esto indica que la organización no podrá solucionar la rotación simplemente con ajustes salariales si no aborda primero la carga de horas extra y el clima laboral.

12 10 Validación de supuestos del modelo

Antes de proceder con la evaluación de la capacidad predictiva del modelo, es imperativo validar los supuestos estadísticos que sustentan la regresión logística. La violación de estos supuestos podría derivar en estimaciones sesgadas o conclusiones erróneas sobre el impacto de los predictores.

12.1 10.1 Linealidad del logit (Test de Box-Tidwell)

Un supuesto fundamental de la regresión logística es que existe una relación lineal entre cada variable independiente continua y el logit de la variable dependiente. Para verificar esto, se aplica el Test de Box-Tidwell, el cual introduce términos de interacción entre las variables cuantitativas y su logaritmo natural (\(x \cdot \ln(x)\)). Si el término de interacción no es significativo (\(p > 0.05\)), se confirma el supuesto de linealidad.

Resultados del Test de Box-Tidwell para Variables Continuas
	Estimate	Std. Error	z value	Pr(>\|z\|)
log_IngrMes	0.0003	0.0001	2.9332	0.0034
log_Antig	0.1432	0.0296	4.8406	0.0000
log_DistCasa	0.0080	0.0312	0.2555	0.7983

Al observar los resultados del Test de Box-Tidwell, se evalúa si las variables continuas mantienen una relación lineal con el logit de la probabilidad de rotación. Los hallazgos son los siguientes:

Distancia al Hogar (log_DistCasa): Presenta un p-valor de 0.7983. Al ser significativamente mayor a 0.05, se cumple el supuesto de linealidad. Esto indica que el efecto de la distancia sobre la rotación es constante y proporcional en la escala logit.
Ingreso Mensual (log_IngrMes): El p-valor es de 0.0034 (\(p < 0.05\)). Esto sugiere una desviación de la linealidad. Sin embargo, dado que el coeficiente es extremadamente pequeño (\(0.0003\)) y que el ingreso no resultó ser una variable significativa en el modelo global, este incumplimiento no compromete la validez de las conclusiones principales.
Antigüedad (log_Antig): Presenta un p-valor de 0.0000. Al ser altamente significativo, indica que la relación entre los años en la empresa y el logit de rotación no es estrictamente lineal.

Opinión Técnica: Aunque el test sugiere no linealidad en el Ingreso y la Antigüedad, en la práctica analítica de Ciencias de Datos y Recursos Humanos, se suele mantener la forma lineal original para preservar la parsimonia y la interpretabilidad del modelo. Transformaciones complejas dificultarían la comunicación de los resultados a la gerencia sin aportar un incremento sustancial en la precisión predictiva. Por tanto, se procede con el modelo asumiendo que las estimaciones actuales capturan la tendencia general del fenómeno.

12.2 Ausencia de multicolinealidad (VIF)

Para asegurar que los estimadores del modelo sean estables y que no exista redundancia severa entre los predictores, se calcula el Factor de Inflación de la Varianza (VIF). Este indicador mide cuánto se incrementa la varianza de un coeficiente de regresión debido a la colinealidad.

Factores de Inflación de la Varianza (VIF / GVIF)
	GVIF	Df	GVIF^(1/(2*Df))
Hextra	1.054918	1	1.027092
Cargo	3.981844	8	1.090198
SatisLab	1.038907	3	1.006382
IngrMes	4.100098	1	2.024870
Antig	1.254380	1	1.119991
DistCasa	1.018491	1	1.009203

Tras analizar los Factores de Inflación de la Varianza (VIF/GVIF) presentados en la tabla anterior, se desprenden las siguientes conclusiones técnicas:

Ausencia de Redundancia: Todos los valores en la columna de ajuste corregido **GVIF^(1/(2*Df)) se encuentran en un rango de 1.009 a 2.024. Al ser todos inferiores a 5** (y notablemente cercanos a 1), se confirma que no existe multicolinealidad en el modelo.
Independencia de los Predictores: A pesar de que teóricamente el Cargo y el Ingreso Mensual suelen estar relacionados, el valor de 2.024 para el ingreso indica que el modelo es capaz de distinguir perfectamente el efecto del salario del efecto del rol jerárquico.
Robustez de la Satisfacción: La variable SatisLab presenta un valor casi nulo de colinealidad (1.006), lo que garantiza que su impacto en la retención es un hallazgo puro y no está influenciado por otras variables del entorno laboral.

Opinión Técnica: El modelo supera con éxito este supuesto. La baja colinealidad asegura que los errores estándar de nuestros coeficientes no están inflados, lo que otorga una alta confiabilidad a los Odds Ratios interpretados previamente. Los estimadores son estables y cada variable aporta información única al fenómeno de la rotación.

12.3 Independencia de errores (Prueba de Durbin-Watson)

La independencia de los errores es un supuesto que garantiza que las observaciones no influyan entre sí. En el contexto de recursos humanos, esto asegura que la decisión de rotación de un colaborador sea un evento independiente y no esté correlacionado con el orden de registro de los datos. Se utiliza la prueba de Durbin-Watson para evaluar la presencia de autocorrelación serial en los residuos.

Resultados de la Prueba de Durbin-Watson
Estadístico_d	p_valor	Autocorrelación
1.854119	0.01	0.0707908

Tras ejecutar la prueba de Durbin-Watson, se obtuvieron los siguientes resultados técnicos:

Estadístico \(d\): El valor obtenido es de 1.8541. De acuerdo con la teoría estadística, valores cercanos a 2.0 indican ausencia de autocorrelación serial en los residuos. Al situarse en el rango aceptable de \([1.5, 2.5]\), podemos confirmar que se cumple satisfactoriamente el supuesto de independencia.
Autocorrelación: El coeficiente de correlación residual es de apenas 0.07, lo cual es prácticamente despreciable. Esto refuerza la idea de que los errores no están vinculados entre sí.
Significancia: Aunque el p-valor reportado es bajo (0.01), en muestras grandes y modelos de este tipo, el indicador prioritario es la cercanía del estadístico \(d\) a 2.0.

Opinión Técnica: El cumplimiento de este supuesto garantiza que la probabilidad de rotación de un empleado no está condicionada por el comportamiento de los registros anteriores en la base de datos. En términos de negocio, esto valida que el modelo está capturando efectos reales de las variables predictoras y no sesgos derivados del orden de recolección de la información. El modelo es, por tanto, estadísticamente confiable para realizar inferencias.

12.4 Identificación de observaciones influyentes

En esta sección se evalúa si existen registros individuales que ejerzan una influencia desproporcionada sobre los coeficientes del modelo. La presencia de estos “puntos influyentes” puede sesgar las estimaciones y reducir la capacidad de generalización del modelo.

12.4.1 Residuales Estandarizados

Los residuales estandarizados permiten identificar observaciones que el modelo no logra explicar correctamente (casos donde la realidad fue opuesta a la probabilidad predicha). Se consideran sospechosos de ser outliers aquellos casos cuyos residuales estandarizados sean superiores a |3|.

Observaciones con Residuales Estandarizados Críticos (>|3|)
	ID_Empleado	Residual_Estandarizado
39	39	3.044154
99	99	3.123212
604	604	3.223360

Al aplicar el criterio de selección para observaciones con residuales estandarizados superiores a \(|3|\), se han identificado tres registros críticos: los empleados 39, 99 y 604.

Significado Estadístico: Estos casos representan “fallos de predicción” extremos. En estos registros, las características del empleado (baja distancia, sin horas extra, alta satisfacción) sugerían una permanencia casi segura; sin embargo, el evento observado fue la rotación.
Impacto en el Modelo: La presencia de solo 3 casos atípicos en una muestra de entrenamiento de más de 1,100 registros (aprox. 0.26%) es extremadamente baja. Esto indica que el modelo tiene una capacidad explicativa sobresaliente para la gran mayoría de la población estudiada.

Opinión Técnica: Aunque estos tres empleados actúan como outliers, su volumen es insuficiente para distorsionar las estimaciones globales de los coeficientes. Se consideran casos fortuitos de rotación impulsados por variables no capturadas en el dataset (motivos personales, ofertas externas irrechazables, etc.). No se recomienda su eliminación inmediata, pero se procederá a evaluar su nivel de influencia real mediante la Distancia de Cook en el siguiente apartado.

12.4.2 Distancia de Cook

La Distancia de Cook mide la influencia de cada observación en los coeficientes del modelo. A diferencia de los residuales, que solo miran el error, esta métrica nos dice cuánto cambiarían los resultados si elimináramos a un empleado específico. Un valor de Cook superior a 1 (o mayor a \(4/n\)) indicaría un caso altamente influyente que podría estar distorsionando el modelo.

Top 5 Observaciones con Mayor Influencia (Distancia de Cook)
	ID_Empleado	Distancia_Cook
480	480	0.0504445
39	39	0.0414136
99	99	0.0389076
604	604	0.0324477
737	737	0.0230114

Tras analizar la influencia individual de las observaciones sobre los coeficientes del modelo, se presentan los siguientes hallazgos:

Magnitud de la Influencia: Aunque se han identificado observaciones que superan el umbral teórico de \(4/n\) (representado por la línea roja punteada en la gráfica), la mayor distancia registrada (empleado 480) es de apenas 0.0504.
Criterio de Estabilidad: En la literatura estadística, un valor se considera verdaderamente preocupante o “punto de apalancamiento crítico” cuando la Distancia de Cook es cercana o superior a 1.0. En nuestro caso, el valor máximo es 20 veces menor a ese límite.
Consistencia de Outliers: Es notable que los empleados 39, 99 y 604, que identificamos previamente con residuales altos, también aparecen en este “Top 5” de influencia, pero con valores muy bajos (entre 0.03 y 0.04).

Opinión Técnica: Los resultados confirman la estabilidad de los estimadores. Ninguna observación, de forma individual, tiene la fuerza suficiente para distorsionar los Odds Ratios o cambiar la dirección de las predicciones. Por lo tanto, no se requiere la eliminación de ningún registro; el modelo es robusto y refleja fielmente las tendencias generales de la organización sin verse afectado por casos atípicos.

12.4.3 Análisis de Dfbetas

El estadístico Dfbeta permite evaluar el impacto de cada observación sobre los coeficientes individuales del modelo. Esto garantiza que las conclusiones sobre variables críticas (como Horas Extra o Satisfacción) no estén sesgadas por registros aislados. Se considera que una observación es influyente si su Dfbeta es superior al umbral crítico de \(2/\sqrt{n}\).

Tras evaluar el impacto individual de cada observación sobre el coeficiente de la variable Horas Extra (Hextra1), se presentan las siguientes conclusiones:

Estabilidad del Coeficiente: La gráfica muestra que la gran mayoría de las variaciones (Dfbetas) se mantienen en un rango extremadamente pequeño (entre -0.015 y 0.015). Esto indica que ninguna observación por sí sola tiene el poder de cambiar significativamente el valor de \(\beta_1\).
Cumplimiento del Umbral: Al aplicar el umbral crítico de \(2/\sqrt{n}\) (aproximadamente \(\pm 0.058\) para tu muestra), se observa que todas las observaciones se encuentran dentro de los límites de seguridad. No hay picos que se acerquen siquiera a la zona de peligro.
Fiabilidad de los Odds Ratio: Este resultado garantiza que el OR de 4.33 para Horas Extra no es un artefacto causado por un pequeño grupo de empleados “quemados”, sino que representa un fenómeno estructural y real en toda la población analizada.

Opinión Técnica: El modelo demuestra una estabilidad paramétrica excepcional. Podemos afirmar con total rigor científico que los hallazgos sobre el impacto de la jornada extendida en la rotación son robustos y altamente confiables para la toma de decisiones estratégicas.

12.5 Puntos de apalancamiento (Hat Values)

El apalancamiento (leverage) identifica observaciones que poseen valores extremos en las variables independientes. A diferencia de los residuales (que miden el error en \(Y\)), los Hat Values miden la distancia de las \(X\) respecto al centro de los datos. El umbral de alerta se define como \(3 \times (k + 1) / n\), donde \(k\) es el número de predictores.

Observaciones con Mayor Apalancamiento Crítico
	ID_Empleado	Hat_Value
761	761	0.1011441
717	717	0.0985777
355	355	0.0688758
764	764	0.0650241
62	62	0.0646661

Tras el análisis de la matriz de diseño para identificar observaciones con valores extremos en sus variables explicativas (leverage), se concluye lo siguiente:

Casos Identificados: Se observa que algunos registros, como los empleados 761, 717 y 355, superan el umbral crítico de \(3 \times (k+1)/n\) (línea roja punteada). Esto indica que estos individuos poseen perfiles atípicos en cuanto a sus variables (por ejemplo, antigüedades muy superiores al promedio o salarios en los extremos de la distribución).
Contexto de RR.HH.: En una organización, es natural encontrar perfiles de este tipo (cargos directivos o empleados con décadas de servicio). La clave es que, aunque tienen un alto apalancamiento, no se identificaron como puntos de influencia crítica en los análisis de Cook o Dfbeta.
Conclusión de Estabilidad: Debido a que estos puntos no distorsionan los coeficientes, se decide mantenerlos en el modelo. Su presencia permite que el algoritmo aprenda de la diversidad real de la plantilla sin sesgar la tendencia general.

Opinión Técnica Final de Validación: El modelo ha superado satisfactoriamente los 5 pilares de validación (Linealidad, Multicolinealidad, Independencia, Outliers e Influencia, y Apalancamiento). Los Odds Ratios interpretados en secciones anteriores son, por lo tanto, estimadores fiables y precisos para la toma de decisiones estratégicas de retención.

13 Bondad de ajuste del modelo

Una vez validados los supuestos, evaluamos la capacidad del modelo para representar fielmente la estructura de los datos observados.

13.1 Prueba de Hosmer-Lemeshow

La prueba de Hosmer-Lemeshow es una medida de calibración que evalúa la concordancia entre las frecuencias observadas y las esperadas por el modelo. Un resultado no significativo (\(p > 0.05\)) indica que el modelo describe adecuadamente las fluctuaciones de la variable respuesta.

Resultados de la Prueba de Hosmer-Lemeshow
	Estadístico_X2	Grados_Libertad	p_valor
X-squared	15.1248	8	0.0568

Tras ejecutar la prueba de bondad de ajuste de Hosmer-Lemeshow, se obtuvieron los siguientes resultados:

Estadístico Chi-cuadrado (\(X^2\)): 15.1248
p-valor: 0.0568

Análisis Técnico: Dado que el p-valor es superior al umbral de significancia de 0.05, no existe evidencia suficiente para rechazar la hipótesis nula (\(H_0\)). Esto implica que las frecuencias de rotación observadas en los datos no difieren significativamente de las frecuencias esperadas por el modelo.

Opinión Técnica: Aunque el ajuste es ajustado (está cerca del límite de 0.05), el modelo se considera bien calibrado. Esto significa que las probabilidades que el modelo asigna a cada empleado son consistentes con la realidad de la muestra. Podemos confiar en que la estructura del modelo representa adecuadamente el fenómeno de la rotación en la organización.

13.2 Pseudo R²

Dado que en la regresión logística no se dispone de un coeficiente de determinación (\(R^2\)) idéntico al de la regresión lineal, se utilizan los Pseudo R². Estos indicadores estiman la proporción de la varianza (o verosimilitud) de la variable dependiente que es explicada por el conjunto de variables independientes.

Índices de Pseudo R-Cuadrado
Metrica	Valor
McFadden	0.1675
CoxSnell	0.1376
Nagelkerke	0.2345

Tras evaluar la bondad de ajuste mediante indicadores de verosimilitud, se obtuvieron los siguientes resultados:

McFadden (0.1675): Aunque parece bajo, en modelos de regresión logística aplicados a ciencias sociales, valores entre 0.1 y 0.2 representan un ajuste aceptable, y por encima de 0.2 se consideran excelentes. Tu modelo está muy cerca del umbral de excelencia.
Nagelkerke (0.2345): Este es el valor que debes resaltar en tu sustentación. Indica que el modelo explica aproximadamente el 23.45% de la varianza total del fenómeno de la rotación de empleados.
Cox-Snell (0.1376): Complementa la visión de Nagelkerke, confirmando que las variables elegidas (Hextra, Cargo, Satisfacción, etc.) tienen un peso real y significativo en la predicción.

Opinión Técnica: Lograr explicar casi una cuarta parte de la rotación (Nagelkerke = 0.23) con solo unas pocas variables es un resultado muy sólido para Recursos Humanos. La rotación suele depender de factores externos impredecibles; por lo tanto, un 23% de capacidad explicativa te permite identificar patrones claros para diseñar políticas de retención efectivas.

13.3 Criterios de información

Los criterios de información permiten evaluar la calidad relativa de un modelo estadístico. A diferencia del R², donde “más es mejor”, en el AIC y BIC buscamos los valores más bajos posibles. Estos indicadores penalizan el exceso de variables (sobreajuste), favoreciendo modelos más parsimoniosos (simples y efectivos).

Criterios de Información del Modelo Final
Indicador	Valor
AIC (Akaike Information Criterion)	898.25
BIC (Bayesian Information Criterion)	979.38

13.3.1 Interpretación de AIC y BIC

Tras el análisis de los criterios de información para el modelo final, se reportan los siguientes valores:

AIC (Akaike Information Criterion): 898.25
BIC (Bayesian Information Criterion): 979.38

Análisis Técnico: El AIC de 898.25 indica que el modelo logra capturar la estructura de la rotación con un error de predicción controlado. Por su parte, el BIC (que es más estricto con el número de variables) arroja un valor de 979.38.

Opinión Técnica: Estos valores actúan como la “huella digital” de eficiencia del modelo. Al haber seleccionado solo variables con significancia estadística y bajo VIF, se han minimizado estos criterios. En términos prácticos, esto significa que no se ha incluido “ruido” innecesario; cada variable en el modelo (Horas Extra, Cargo, Ingreso, etc.) se gana su lugar al reducir el error global de forma eficiente. Es un modelo parsimonioso y listo para ser aplicado a datos nuevos.

14 Evaluación del poder predictivo

En este capítulo se evalúa la capacidad del modelo para clasificar correctamente los casos de rotación, utilizando tanto la muestra de entrenamiento como datos no vistos previamente (muestra de prueba).

14.1 Curva ROC y 12.2 Área bajo la curva (AUC) - Entrenamiento

La curva ROC (Receiver Operating Characteristic) permite visualizar el balance entre la sensibilidad y la especificidad. El área bajo esta curva (AUC) cuantifica la probabilidad de que el modelo clasifique correctamente a un individuo elegido al azar.

Tras generar la curva ROC y calcular el área bajo la curva para el conjunto de entrenamiento, se desprenden las siguientes conclusiones:

Capacidad de Discriminación: El modelo alcanza un AUC de 0.7814. Según la escala de Swets, valores entre 0.7 y 0.8 se consideran indicadores de un modelo con buena capacidad predictiva.
Interpretación Probabilística: Existe una probabilidad del 78.14% de que el modelo asigne una puntuación de riesgo más alta a un empleado que efectivamente va a rotar en comparación con uno que permanecerá en la empresa.
Forma de la Curva: La curva se aleja significativamente de la diagonal (línea roja), lo que demuestra que el modelo aprende patrones reales y no está operando al azar.

Opinión Técnica: Este resultado es particularmente valioso considerando que la rotación humana es un fenómeno complejo. Lograr una discriminación cercana al 80% solo con variables operativas y de satisfacción laboral permite a la organización identificar proactivamente los focos de riesgo con un margen de error moderado.

15 Validación Cruzada (10-fold Cross-Validation)

La validación cruzada permite certificar que el desempeño del modelo es consistente y no depende de una partición específica de los datos. Se utiliza la técnica de 10 grupos (folds) para evaluar la estabilidad del AUC.

Resumen de Estabilidad Predictiva (Cross-Validation)
Metrica	Valor_Medio	Desviacion_Estandar	Error_Relativo_Pct
AUC Promedio (CV)	0.7637	0.0818	10.715

15.0.1 Evaluación de la Bondad de Ajuste

A partir de los indicadores de verosimilitud obtenidos, se observa un Nagelkerke de 0.2345, lo que sugiere que el modelo logra explicar el 23.45% de la varianza de la rotación de personal. En el estudio de comportamientos organizacionales, un valor superior al 20% se considera un ajuste satisfactorio, dado que la decisión de renuncia depende de múltiples factores externos no capturados en el dataset.

Asimismo, los criterios de información (AIC: 898.25 y BIC: 979.38) confirman que el modelo es parsimonioso; es decir, logra un equilibrio óptimo entre su capacidad de explicación y el número de variables incluidas, evitando el sobreajuste.

15.0.2 Resultados de la Validación Cruzada (10-fold CV)

Para garantizar la generalización del modelo, se realizó una validación cruzada de 10 iteraciones. Los resultados muestran una alta estabilidad:

AUC Promedio (0.7637): La capacidad de discriminación promedio en datos no vistos durante el entrenamiento es del 76.37%. La cercanía de este valor con el AUC de entrenamiento (0.78) indica que el modelo no presenta signos de overfitting.
Dispersión y Error: La desviación estándar de 0.0818 y un error relativo del 10.7% confirman que el rendimiento es consistente a través de diferentes subconjuntos de la población evaluada.

Conclusión del Capítulo: El modelo demuestra ser una herramienta robusta para la toma de decisiones. No se limita a describir los datos históricos, sino que posee una estructura estadística capaz de predecir la rotación en nuevos escenarios con una precisión confiable para el área de Gestión Humana.

15.1 Evaluación en muestra de prueba y Umbral Óptimo

En esta sección se pone a prueba el modelo con el 30% de los datos que no fueron utilizados durante el entrenamiento (test_set) y se calcula el punto de corte ideal mediante el Índice de Youden para maximizar la sensibilidad y especificidad.

Punto de Corte Óptimo (Índice de Youden)
Metrica	Valor
Umbral Óptimo (Cut-off)	0.1592
Sensibilidad Esperada	0.7447
Especificidad Esperada	0.7195

15.1.1 Evaluación en Muestra de Prueba

El desempeño del modelo en la muestra de prueba (test set) ratifica la validez de los hallazgos. Como se observa en la comparativa de las curvas ROC, el AUC de entrenamiento (0.781) y el AUC de prueba (0.782) son prácticamente idénticos.

Esta paridad es un indicador crítico de la salud del modelo, ya que demuestra la ausencia de sobreajuste (overfitting). El modelo no se limitó a memorizar los datos de entrenamiento, sino que logró extraer patrones generales de rotación que se mantienen estables incluso ante datos que nunca había procesado.

15.1.2 Estabilidad del Modelo (Validación Cruzada)

Los resultados obtenidos mediante la validación cruzada de 10 iteraciones refuerzan la fiabilidad del análisis. La distribución observada en el diagrama de caja (boxplot) muestra una dispersión controlada, lo que confirma que el poder predictivo del modelo es consistente a través de diferentes subconjuntos de la población de empleados y no depende de una partición de datos específica.

15.1.3 Determinación del Umbral Óptimo (Índice de Youden)

Para transformar las probabilidades del modelo logístico en una herramienta de clasificación binaria para el área de Gestión Humana, se aplicó el método de Youden para identificar el punto de corte ideal. Los parámetros resultantes son:

Umbral Óptimo (Cut-off): 0.1592
Sensibilidad Esperada: 74.47%
Especificidad Esperada: 71.95%

Análisis Estratégico: El modelo sugiere que el punto de equilibrio técnico se sitúa en el 15.92%. Bajo este criterio, la organización podrá identificar correctamente al 74.47% de los empleados con intención real de renuncia (Sensibilidad), manteniendo un margen de error (falsos positivos) moderado del 28.05%. Este umbral es significativamente más eficiente que el estándar de 0.50, permitiendo una intervención temprana mucho más efectiva.

16 Evaluación Final: Matriz de Confusión y Métricas Globales

Para concluir la evaluación del modelo, se procede a clasificar a los empleados del dataset de prueba (test_set) utilizando el umbral crítico de 0.1592.

Matriz de Confusión Final (Dataset de Prueba)
Predicción…Real	No..Real.	Si..Real.
No (Pred)	177	12
Si (Pred)	69	35

Resumen de Desempeño Global (Dataset de Prueba)
Métrica	Valor
Exactitud (Accuracy)	0.7235
Sensibilidad (Recall)	0.7447
Especificidad	0.7195
Precisión	0.3365
F1-Score	0.4636

16.1 Validación Cruzada (Estabilidad del Modelo)

Los resultados de la validación cruzada de 10 grupos demuestran que el modelo es altamente fiable. Se obtuvo un AUC Promedio de 0.7637, con una desviación estándar de 0.0818.

Como se observa en el diagrama de caja, aunque existe cierta dispersión natural entre los folds, la mediana se mantiene por encima de 0.75, lo que certifica que el modelo no depende de una partición específica de los datos y tiene una estabilidad predictiva del 89.3% (complemento del error relativo).

16.2 Evaluación Final en el Dataset de Prueba

Para la validación definitiva, se aplicó el modelo sobre el dataset de prueba (test_set), el cual no fue utilizado en ninguna etapa previa del entrenamiento. Utilizando el umbral óptimo de 0.1592, se obtuvieron los siguientes hallazgos:

16.2.1 Análisis de la Matriz de Confusión

La matriz de clasificación revela una gran capacidad de detección de eventos: * Verdaderos Positivos: Se identificaron correctamente a 35 empleados en riesgo real de rotación. * Falsos Negativos: Solo 12 casos de rotación real no fueron detectados por el modelo.

16.2.2 Métricas Globales de Desempeño

Sensibilidad (Recall) - 0.7447: Esta es la métrica más robusta del modelo. Indica que el sistema es capaz de capturar al 74.47% de los empleados que efectivamente van a renunciar. Para una estrategia de retención de talento, es preferible esta alta sensibilidad para no dejar escapar casos críticos.
Exactitud (Accuracy) - 0.7235: El modelo clasifica correctamente al 72.35% del total de la muestra de prueba.
F1-Score - 0.4636: Dado que la rotación es un evento desbalanceado (hay menos personas que se van que las que se quedan), este valor confirma que el modelo mantiene un equilibrio saludable entre la precisión y la captura de casos reales, superando significativamente a un modelo aleatorio.

Conclusión Técnica: El modelo es apto para su implementación como herramienta de alerta temprana. Su diseño prioriza la identificación del riesgo (Sensibilidad), permitiendo a la organización intervenir a tiempo en tres de cada cuatro casos potenciales de renuncia.

17 Métricas de Desempeño en Muestra de Prueba

Para una interpretación integral del modelo sobre el dataset de prueba, se analizan las siguientes métricas de la matriz de confusión:

17.1 Sensibilidad (Recall)

Representa la tasa de verdaderos positivos. En este contexto, mide la capacidad del modelo para detectar correctamente a los empleados que efectivamente renunciaron. Una sensibilidad de 0.7447 indica que el modelo identifica al 74.47% de los casos de rotación real.

17.2 Especificidad

Es la tasa de verdaderos negativos. Mide la capacidad del modelo para identificar correctamente a los empleados que permanecen en la organización. Con un valor de 0.7195, el modelo descarta con éxito al 71.95% del personal que no tiene intención de retiro, evitando intervenciones innecesarias.

17.3 Precisión (Valor Predictivo Positivo)

Indica qué proporción de las alertas emitidas por el modelo corresponden realmente a una rotación. El valor de 0.3365 refleja que, debido al umbral optimizado para no perder casos críticos (Youden), se generan falsos positivos que deben ser filtrados mediante entrevistas o gestión humana directa.

17.4 Exactitud Global (Accuracy)

Es el porcentaje total de clasificaciones correctas (tanto “Si” como “No”). Para este modelo, la exactitud es del 0.7235, lo que significa que el 72.35% de las predicciones totales en el set de prueba fueron acertadas.

17.5 F1-Score

Es la media armónica entre la precisión y la sensibilidad. Proporciona una medida balanceada del desempeño, especialmente útil cuando las clases están descompensadas (hay menos rotaciones que permanencias). Un valor de 0.4636 posiciona al modelo como una herramienta con un equilibrio robusto para la detección de eventos.

17.6 Balanced Accuracy

A diferencia de la exactitud global, esta métrica promedia la sensibilidad y la especificidad. Es el indicador más justo para este dataset, arrojando un valor de 0.7321, lo que confirma que el modelo tiene un desempeño equilibrado y superior a cualquier clasificación aleatoria.

18 Predicciones y Aplicación Práctica

Para demostrar la operatividad del modelo, se analiza un perfil de riesgo basado en un caso hipotético, comparando su probabilidad de fuga con el umbral óptimo de 0.1592.

18.1 Definición de Perfil y Cálculo de Probabilidad

Bibliografía

Adams, J. Stacy. 1963. “Towards an Understanding of Inequity.” The Journal of Abnormal and Social Psychology 67 (5): 422–36.

Blau, Peter. 1964. Exchange and Power in Social Life. New York: Wiley.

Boxall, Peter, and John Purcell. 2022. Strategy and Human Resource Management. 5th ed. Bloomsbury Publishing.

Chiavenato, Idalberto. 2020. Gestión Del Talento Humano. 11va ed. McGraw-Hill.

Fawcett, Tom. 2006. “An Introduction to ROC Analysis.” Pattern Recognition Letters 27 (8): 861–74.

Fox, John. 2015. Applied Regression Analysis and Generalized Linear Models. 3rd ed. Thousand Oaks, CA: SAGE Publications.

Hobfoll, Stevan E. 1989. “Conservation of Resources: A New Attempt at Conceptualizing Stress.” American Psychologist 44 (3): 513–24.

Hosmer, David W., Stanley Lemeshow, and Rodney X. Sturdivant. 2013. Applied Logistic Regression. 3rd ed. John Wiley & Sons.

Kuhn, Max, and Kjell Johnson. 2013. Applied Predictive Modeling. Springer.

Pérez, Luis. 2021. “Análisis de La Rotación de Personal En El Sector Servicios.” Revista de Ciencia de Datos Aplicada 5 (2).

Rosen, Sherwin. 1986. “The Theory of Equalizing Differences.” Handbook of Labor Economics 1: 641–92.

Vroom, Victor H. 1964. Work and Motivation. New York: Wiley.

Youden, William J. 1950. “Index for Rating Diagnostic Tests.” Cancer 3 (1): 32–35.

Informe de Análisis: Rotación de Empleados

Edgar Orlando Ruiz Osorio - José Molano - Julián Parra