1 INTRODUCCIÓN

La rotación de empleados es un fenómeno que impacta significativamente la estabilidad y el desempeño de las organizaciones. Comprender los factores que influyen en la movilidad del talento dentro de la empresa es clave para diseñar estrategias efectivas de retención y gestión de recursos humanos. En este contexto, el análisis de datos históricos sobre el empleo y las características laborales de los trabajadores permite desarrollar modelos predictivos que faciliten la identificación de patrones asociados a la rotación de personal.

Este estudio tiene como objetivo construir un modelo de regresión logística capaz de estimar la probabilidad de que un empleado cambie de cargo en el próximo período. Para ello, se han analizado distintas variables cuantitativas y categóricas que pueden incidir en este comportamiento, tales como la antigüedad en el cargo, el nivel de satisfacción laboral y el salario, entre otras.

A través del desarrollo y evaluación de diversos modelos, se busca no solo mejorar la capacidad de predicción de la rotación, sino también determinar cuáles son los factores más influyentes en este proceso. Con esta información, la empresa podrá tomar medidas preventivas para minimizar la pérdida de talento clave, optimizar la gestión del personal y promover un ambiente de trabajo más estable y motivador.

2 EDA

2.1 Transformación Inicial

En este proceso se realizaron varias transformaciones en la base de datos con el objetivo de preparar las variables para el análisis. Se llevaron a cabo conversiones de datos, ajustes en la categorización y una verificación de la calidad de los datos.

En primer lugar, la variable de rotación de empleados, que originalmente estaba almacenada en formato de texto con valores como “Sí” y “No”, fue transformada en una variable binaria. Para ello, se reemplazaron los valores de “Sí” por el número uno y los valores de “No” por el número cero. Esta conversión facilita su uso en modelos de regresión y otros análisis estadísticos que requieren variables numéricas. Luego de realizar esta transformación, se verificó la correcta conversión mediante una tabla de frecuencias que permitió confirmar la distribución de los valores en la nueva variable.

Posteriormente, se realizó la conversión de varias variables categóricas en factores. Muchas de estas variables, como el departamento, el género, el estado civil y el campo de educación, estaban almacenadas como texto. Para su correcta interpretación en modelos estadísticos y visualizaciones, se transformaron en factores, lo que permite que R las trate como categorías en lugar de texto plano. Luego de esta conversión, se utilizó una función que muestra la estructura de la base de datos para confirmar que las variables habían sido correctamente convertidas a factores.

Después de estas modificaciones, se llevó a cabo una revisión de la calidad de los datos mediante la búsqueda de valores nulos en la base de datos. La presencia de valores faltantes puede afectar los análisis, por lo que se verificó si alguna variable contenía estos valores para tomar decisiones en caso de ser necesario.

Finalmente, se realizaron ajustes adicionales en las variables categóricas que originalmente estaban codificadas numéricamente. Algunas de estas variables, como la satisfacción ambiental, la satisfacción laboral y el equilibrio entre trabajo y vida, tenían valores numéricos asociados a diferentes categorías. Para mejorar su interpretabilidad, se reasignaron etiquetas descriptivas a cada nivel, permitiendo que cada número representara una categoría clara. Por ejemplo, en el caso de la educación, se definieron los niveles de primaria, secundaria, técnico o tecnólogo, pregrado y posgrado. Del mismo modo, en la variable de rendimiento laboral, los valores numéricos fueron reemplazados por categorías como bajo, medio, alto y muy alto.

Luego de estos ajustes, se realizó una última verificación de la estructura de la base de datos para confirmar que todas las transformaciones habían sido aplicadas correctamente. Este proceso garantiza que los datos estén en un formato adecuado para los análisis posteriores, facilitando la interpretación de las variables y evitando posibles errores en el procesamiento.

2.2 Resultado Final

Estadísticas Completas de Variables Numéricas en la Base de Rotación
Variable Media Mediana Desv_Est Min Max Asimetria Curtosis IQR Outliers NA_Values Miss
Edad 36.9245 36 9.1359 18 60 0.4123 -0.4110 13 0 0 0
Distancia_Casa 9.1925 7 8.1069 1 29 0.9562 -0.2319 12 0 0 0
Ingreso_Mensual 6502.9313 4919 4707.9568 1009 19999 1.3670 0.9923 5468 114 0 0
Trabajos_Anteriores 2.6932 2 2.4980 0 9 1.0244 0.0020 3 52 0 0
Porcentaje_aumento_salarial 15.2095 14 3.6599 11 25 0.8195 -0.3073 6 0 0 0
Años_Experiencia 11.2796 10 7.7808 0 40 1.1149 0.9058 9 63 0 0
Capacitaciones 2.7993 3 1.2893 0 6 0.5520 0.4845 1 238 0 0
Antigüedad 7.0082 5 6.1265 0 40 1.7609 3.9086 6 104 0 0
Antigüedad_Cargo 4.2293 3 3.6231 0 18 0.9155 0.4670 5 21 0 0
Años_ultima_promoción 2.1878 1 3.2224 0 15 1.9802 3.5873 3 107 0 0
Años_acargo_con_mismo_jefe 4.1231 3 3.5681 0 17 0.8318 0.1621 5 14 0 0

La tabla presenta un análisis detallado de las estadísticas descriptivas para las variables numéricas de la base de datos de rotación de empleados. Se incluyen métricas clave como la media, la mediana, la desviación estándar, los valores mínimo y máximo, así como medidas de dispersión y distribución como la asimetría, la curtosis y el rango intercuartil. Además, se identifican posibles valores atípicos y la cantidad de datos faltantes en cada variable.

La variable “Edad” muestra una media de aproximadamente 36.9 años, con un mínimo de 18 y un máximo de 60, lo que indica que la distribución abarca un rango amplio de edades dentro de la empresa. La asimetría positiva sugiere que hay una mayor concentración de empleados en los rangos de menor edad, con algunos valores más elevados que alejan la distribución hacia la derecha.

“Distancia_Casa”, que representa la cantidad de kilómetros desde el hogar del empleado hasta su lugar de trabajo, tiene una media cercana a los 9.2 kilómetros, con valores que van desde 1 hasta 29. La dispersión de estos datos es relativamente moderada, con una desviación estándar de 8.1. Su asimetría y curtosis indican una leve inclinación de la distribución, pero sin valores extremos que sugieran una alta concentración en los extremos.

En el caso de “Ingreso_Mensual”, se observa una gran variabilidad, con un valor medio de 6,502 y un mínimo de 1,009, mientras que el salario más alto registrado alcanza los 19,999. La desviación estándar elevada y un rango intercuartil considerable reflejan diferencias marcadas en los ingresos entre los empleados. Además, se identifican 114 valores atípicos, lo que indica que existen casos con salarios significativamente más altos o más bajos en comparación con la mayoría.

Por otro lado, “Trabajos_Anteriores” revela que en promedio los empleados han tenido cerca de 2.7 trabajos antes de ingresar a la empresa, con un mínimo de 0 y un máximo de 9. Aunque la mayoría tiene antecedentes laborales previos, la presencia de valores elevados sugiere que algunos empleados han pasado por múltiples compañías antes de ocupar su puesto actual.

El “Porcentaje_Aumento_Salarial” presenta una media del 15.2 por ciento, con un rango que va desde 11 hasta 25. La distribución de esta variable parece estar bien balanceada, sin valores atípicos y con una dispersión relativamente baja. En contraste, “Años_Experiencia” tiene una media de 11.2 años, con un máximo de 40, lo que refleja la coexistencia de empleados con trayectorias laborales cortas y otros con una experiencia considerable.

Entre las variables relacionadas con la permanencia en la empresa, “Antigüedad” tiene un promedio de 7 años, con empleados que llevan desde 0 hasta 40 años en la compañía. En el caso de “Años_acargo_con_mismo_jefe”, la media es de 4.1 años, lo que indica que, en general, los empleados han trabajado bajo la supervisión de la misma persona durante un tiempo relativamente estable.

En términos generales, la tabla permite obtener una visión clara de la composición de la base de datos y de las características de los empleados en términos de edad, experiencia, salario y estabilidad laboral. Además, la detección de valores atípicos en algunas variables, como el ingreso mensual, resalta la importancia de analizar más a fondo estos casos para comprender si se trata de errores en los datos o simplemente de una variabilidad natural dentro de la empresa.

Estadísticas Completas de Variables Categóricas en la Base de Rotación
Variable Frecuencia_Modal Frecuencia_Absoluta Frecuencia_Relativa Entropía Simpson
Viaje de Negocios Raramente 1043 70.95 1.141 0.4507
Departamento IyD 961 65.37 1.1177 0.4787
Educación Técnico/Tecnólogo 572 38.91 2.0183 0.724
Campo_Educación Ciencias 606 41.22 2.0496 0.7072
Satisfacción_Ambiental Satisfecho 453 30.82 1.9637 0.7375
Genero M 882 60 0.971 0.48
Cargo Ejecutivo_Ventas 326 22.18 2.9272 0.8504
Satisfación_Laboral Muy Satisfecho 459 31.22 1.9627 0.7372
Estado_Civil Casado 673 45.78 1.5244 0.6387
Horas_Extra No 1054 71.7 0.8595 0.4058
Rendimiento_Laboral Alto 1244 84.63 0.6191 0.2602
Equilibrio_Trabajo_Vida Medio 893 60.75 1.4955 0.5624

La tabla presenta un análisis de las variables categóricas en la base de datos de rotación de empleados. Se incluyen métricas clave como la moda, la frecuencia absoluta y relativa, la entropía y el índice de diversidad de Simpson. Estas estadísticas permiten comprender la distribución de las categorías dentro de cada variable y evaluar la diversidad en la base de datos.

En la variable “Viaje de Negocios”, la categoría más frecuente es “Raramente”, con una frecuencia absoluta de 1043 empleados, lo que representa el 70.95 por ciento del total. Esto sugiere que la mayoría de los empleados no suelen viajar con frecuencia por motivos laborales. La entropía de 1.141 indica una distribución moderadamente dispersa, mientras que el índice de Simpson de 0.4507 refleja cierta diversidad en las respuestas.

Para la variable “Departamento”, la categoría más común es “IyD”, con un 65.37 por ciento de los empleados pertenecientes a esta área. Esto puede indicar que la empresa tiene una fuerte presencia en investigación y desarrollo. La entropía de 1.117 y el índice de Simpson de 0.4787 sugieren que, aunque esta categoría domina, hay cierta variabilidad en los departamentos.

En cuanto al nivel educativo, el grupo más representado es el de empleados con formación técnica o tecnológica, con un 38.91 por ciento del total. La entropía de 2.0183 y el índice de Simpson de 0.724 reflejan una mayor diversidad educativa en la empresa en comparación con otras variables.

“Campo_Educación” muestra que la mayoría de los empleados provienen del área de Ciencias, con un 41.22 por ciento. Su entropía de 2.0496 y su índice de Simpson de 0.7072 indican que, aunque esta categoría es predominante, hay un nivel significativo de diversidad en las áreas de formación.

En la variable “Satisfacción Ambiental”, el 30.82 por ciento de los empleados reporta estar “Satisfechos” con su entorno laboral. Su entropía de 1.9637 y su índice de Simpson de 0.7375 indican que, aunque la mayoría de los empleados comparten esta opinión, hay una distribución moderada en otras categorías.

Para “Género”, el 60 por ciento de los empleados son hombres, con una entropía de 0.971 y un índice de Simpson de 0.482. Esto sugiere que hay una predominancia masculina en la empresa, pero con una distribución relativamente equilibrada.

La variable “Satisfacción Laboral” muestra que la mayoría de los empleados están “Muy Satisfechos”, con un 31.22 por ciento de representación. Esto podría indicar posibles problemas en el ambiente laboral o en la gestión del talento humano. La entropía de 1.9627 y el índice de Simpson de 0.7372 sugieren que hay cierta diversidad en los niveles de satisfacción.

En cuanto al “Estado Civil”, el 45.78 por ciento de los empleados están casados. La entropía de 1.5244 y el índice de Simpson de 0.6387 indican que hay una distribución relativamente equilibrada en comparación con otras variables.

La variable “Rendimiento Laboral” muestra que la mayoría de los empleados tienen un desempeño “Alto”, con un 84.63 por ciento. La baja entropía de 0.6191 y el índice de Simpson de 0.2602 sugieren que hay poca variabilidad en el rendimiento.

Finalmente, “Equilibrio Trabajo-Vida” presenta una categoría predominante de “Medio”, con un 60.75 por ciento de los empleados reportando este nivel de equilibrio. Su entropía de 1.4955 y su índice de Simpson de 0.5624 indican una moderada diversidad en la percepción del balance entre el trabajo y la vida personal.

3 SELECCIÓN DE VARIABLES

Para el análisis de rotación de empleados, se han seleccionado tres variables categóricas y tres variables cuantitativas que pueden influir en la decisión de un empleado de cambiar de cargo o permanecer en la empresa. La selección se basa en la exploración de los datos y la literatura sobre factores que afectan la estabilidad laboral.

VARIABLES CATEGÓRICAS

  • Satisfacción Laboral

Justificación: La satisfacción laboral es un factor determinante en la permanencia de un empleado dentro de una empresa. Un ambiente de trabajo negativo o insatisfactorio puede llevar a la búsqueda de nuevas oportunidades.

Hipótesis: Se espera que los empleados con baja satisfacción laboral tengan una mayor probabilidad de rotación en comparación con aquellos que están satisfechos con su trabajo.

  • Estado Civil

Justificación: El estado civil influye en la estabilidad laboral, ya que empleados casados pueden preferir estabilidad para mantener un ingreso constante, mientras que empleados solteros pueden tener mayor flexibilidad para cambiar de cargo.

Hipótesis: Se espera que los empleados solteros presenten una mayor tasa de rotación en comparación con los empleados casados.

  • Equilibrio Trabajo-Vida

Justificación: Un balance inadecuado entre las responsabilidades laborales y la vida personal puede llevar a desgaste, insatisfacción y, en última instancia, a la rotación.

Hipótesis: Se espera que los empleados con un bajo equilibrio entre el trabajo y la vida personal tengan una mayor probabilidad de rotación debido al agotamiento laboral.

VARIABLES CUANTITATIVAS

  • Ingreso Mensual

Justificación: El nivel de ingresos es un factor clave en la toma de decisiones laborales. Salarios bajos pueden incentivar a los empleados a buscar mejores oportunidades, mientras que salarios altos pueden estar asociados con una mayor estabilidad en la empresa.

Hipótesis: Se espera que los empleados con menores ingresos tengan una mayor probabilidad de rotación, mientras que aquellos con ingresos más altos sean más propensos a permanecer en la organización.

  • Antigüedad

Justificación: Los empleados con mayor tiempo en la empresa pueden desarrollar un sentido de compromiso y lealtad. Sin embargo, la permanencia prolongada sin oportunidades de crecimiento también podría motivar la búsqueda de nuevas oportunidades.

Hipótesis: Se espera que los empleados con menor antigüedad tengan una mayor probabilidad de rotación en comparación con aquellos que llevan más tiempo en la empresa.

  • Años de Experiencia

Justificación: La experiencia laboral acumulada puede afectar la movilidad dentro de la empresa. Los empleados con mayor experiencia pueden sentirse más seguros para explorar nuevas oportunidades, mientras que aquellos con menos experiencia pueden valorar más la estabilidad en su puesto actual.

Hipótesis: Se espera que los empleados con menos años de experiencia tengan una mayor probabilidad de rotación en comparación con aquellos con trayectorias más largas.

4 MANEJO DE OUTLINERS

INGRESO MENSUAL

ANTIGÜEDAD

AÑOS DE EXPERIENCIA

Es preciso mencionar que para las variables numéricas se realizó una transformación logarítmica de sus valores con el fin de reducir la asimetría en las distribuciones de las variables y mejorar la relación lineal entre predictores y la variables respuesta.

5 DIVISIÓN DE LOS DATOS EN ENTRENAMIENTO Y PRUEBA

División de los Datos en Entrenamiento y Prueba
Conjunto Observaciones
Entrenamiento 1029
Prueba 441

Para garantizar la correcta evaluación del modelo de predicción, se realizó la división del conjunto de datos en dos subconjuntos: entrenamiento (70%) y prueba (30%). Este procedimiento es esencial para medir el desempeño del modelo en datos no utilizados durante su ajuste, asegurando que no se sobreajuste y pueda generalizar correctamente a nuevos datos.

6 ESTIMACIÓN DEL MODELO

Para la estimación del modelo de regresión logística binomial, se ajustará un modelo que permita predecir la probabilidad de que un empleado rote dentro de la empresa en función de las variables seleccionadas. Dado que la variable de respuesta es binaria, este tipo de modelo es el más adecuado para la tarea.

Se observa que las clases están desbalanceadas en la variable objetivo

Resultados del Modelo de Regresión Logística
Coeficiente Error Estándar Valor Z Valor P Significancia
Intercept 5.6588642 1.6044880 3.526897 0.0004205 ***
Satisfación Laboral Insatisfecho -0.6068098 0.2836461 -2.139320 0.0324098
Satisfación Laboral Satisfecho -0.6496160 0.2483169 -2.616077 0.0088947 **
Satisfación Laboral Muy Satisfecho -1.0419854 0.2595996 -4.013817 0.0000597 ***
Estado Civil Divorciado -0.3523334 0.2836760 -1.242028 0.2142263
Estado Civil Soltero 0.8663531 0.2012842 4.304129 0.0000168 ***
Equilibrio Trabajo Vida Bajo -0.9168322 0.3634389 -2.522658 0.0116472
Equilibrio Trabajo Vida Medio -1.1840692 0.3309764 -3.577503 0.0003469 ***
Equilibrio Trabajo Vida Alto -0.8009178 0.3975858 -2.014453 0.0439620
Ingreso Mensual Log -0.5778094 0.2161726 -2.672908 0.0075197 **
Antigüedad Log -0.2947381 0.1656775 -1.778987 0.0752419 .
Años Experiencia Log -0.3035752 0.2057532 -1.475434 0.1400960

Si el Valor P es menor a 0.001, se asigna “***” (muy significativa).

Si el Valor P está entre 0.001 y 0.01, se asigna “**” (moderadamente significativa).

Si el Valor P está entre 0.01 y 0.05, se asigna “*” (significativa).

Si el Valor P está entre 0.05 y 0.1, se asigna “.” (tendencia a ser significativa).

Si el Valor P es mayor a 0.1, no se asigna ningún símbolo (no significativa).

Esta tabla presenta los coeficientes de un modelo de regresión logística junto con sus errores estándar, valores Z y valores P, los cuales indican la significancia estadística de cada variable en la predicción del resultado.

El intercepto tiene un coeficiente de 5.66 y un valor P de 0.0004, lo que sugiere que es un término muy significativamente diferente de cero. En términos generales, este valor representa el punto de partida del modelo cuando todas las demás variables son iguales a cero.

Dentro de las variables predictoras, el estado civil soltero tiene un coeficiente positivo de 0.87 y un valor P menor de 0.000017, lo que indica una relación significativa y positiva con la variable dependiente. Esto sugiere que ser soltero está asociado con una mayor probabilidad del evento analizado.

Por otro lado, el equilibrio entre trabajo y vida personal muestra un impacto negativo en todas sus categorías. En particular, la categoría de equilibrio trabajo-vida medio tiene un coeficiente de -1.18 con un valor p de 0.0003, lo que indica una influencia negativa y altamente significativa en la probabilidad de rotación. De manera similar, la categoría de equilibrio trabajo-vida bajo presenta un coeficiente de -0.92, aunque con un valor p de 0.0116. Si bien el signo negativo sugiere una relación adversa con la rotación, su nivel de significancia es menor en comparación con la categoría anterior, lo que indica que su efecto no es tan concluyente dentro de las estimaciones del modelo .

El ingreso mensual logarítmico tiene un coeficiente de -0.58 con un valor P de 0.0075, lo que sugiere que a medida que el ingreso aumenta, la probabilidad del evento analizado disminuye de manera significativa.

En cuanto a la antigüedad y la experiencia, ambas variables tienen coeficientes negativos, aunque con menor nivel de significancia. La antigüedad laboral muestra un coeficiente de -0.29 con un valor P de 0.075, lo que indica una tendencia a ser significativa, mientras que los años de experiencia tienen un coeficiente de -0.30 con un valor P de 0.14, lo que sugiere que su relación con la variable dependiente no es estadísticamente significativa.

Finalmente, la variable de satisfacción laboral muestra un impacto negativo en la predicción del evento de interés. En particular, las categorías “Muy Satisfecho” y “Satisfecho” presentan coeficientes de -1.04 y -0.65, respectivamente, con valores de p < 0.008, lo que indica que tienen una influencia negativa y estadísticamente significativa en el modelo. Por otro lado, la categoría “Insatisfecho” presenta un coeficiente de -0.61 con un valor de p = 0.032, lo que sugiere que también es significativa, aunque con un nivel de significancia menor en comparación con las otras categorías.

7 EVALUACIÓN DEL MODELO

Valores Adicionales del Modelo
Odds.Ratio IC.95…Lím..Inf.. IC.95…Lím..Sup..
(Intercept) 286.8226911 12.6171747 6871.2008064
Satisfación Laboral Insatisfecho 0.5450870 0.3098706 0.9449065
Satisfación Laboral Satisfecho 0.5222463 0.3202711 0.8494967
Satisfación Laboral Muy Satisfecho 0.3527536 0.2108921 0.5848562
Estado Civil Divorciado 0.7030457 0.3949205 1.2068691
Estado Civil Soltero 2.3782218 1.6058928 3.5393664
Equilibrio Trabajo Vida Bajo 0.3997835 0.1965938 0.8212730
Equilibrio Trabajo Vida Medio 0.3060309 0.1609933 0.5924007
Equilibrio Trabajo Vida Alto 0.4489167 0.2051682 0.9803547
Ingreso Mensual Log 0.5611262 0.3666180 0.8566623
Antigüedad Log 0.7447266 0.5414097 1.0386985
Años Experiencia Log 0.7381744 0.4897788 1.0987760

Esta tabla muestra los valores de los odds ratios junto con sus intervalos de confianza del 95%, proporcionando una interpretación sobre la relación entre las variables independientes y la probabilidad del evento analizado.

El intercepto tiene un odds ratio de aproximadamente 286.8, con un intervalo de confianza que va desde 12.62 hasta 6871.2. Este valor extremadamente alto indica que, en ausencia de todas las variables predictoras, la probabilidad del evento es significativamente mayor.

En cuanto a la satisfacción laboral, dos categorías presentan valores de odds ratio inferiores a 0.5, con intervalos de confianza que no incluyen el 1. Esto indica que la satisfacción laboral está asociada con una menor probabilidad de rotación. Es decir, los empleados que se encuentran satisfechos tienen una menor tendencia a dejar la empresa en comparación con la categoría de referencia que es muy insatisfecho.

El estado civil muestra diferencias notables. Las personas solteras tienen un odds ratio de 2.38, con un intervalo de confianza entre 1.60 y 3.54, lo que indica que ser soltero aumenta significativamente la probabilidad del evento. Por otro lado, las personas divorciadas tienen un odds ratio de 0.70, con un intervalo entre 0.39 y 1.21, lo que sugiere una posible reducción en la probabilidad del evento, aunque su intervalo de confianza abarca el valor de 1, lo que indica que el efecto no es completamente concluyente.

Las categorías relacionadas con el equilibrio entre el trabajo y la vida personal tienen odds ratios menores a 1, lo que sugiere que una menor percepción de equilibrio está asociada con una menor probabilidad del evento. Por ejemplo, quienes reportan un bajo equilibrio entre el trabajo y la vida tienen un odds ratio de aproximadamente 0.38, con un intervalo de confianza entre 0.19 y 0.77. De manera similar, aquellos con un equilibrio medio tienen un odds ratio de aproximadamente 0.40, con un intervalo entre 0.19 y 0.82. Finalmente, la categoría de alto equilibrio tiene un odds ratio de aproximadamente 0.45, con un intervalo entre 0.20 y 0.98. Estos valores sugieren que una peor percepción del equilibrio trabajo-vida disminuye la probabilidad del evento.

El ingreso mensual en escala logarítmica tiene un odds ratio de aproximadamente 0.56, con un intervalo de confianza entre 0.37 y 0.86. Esto indica que a medida que los ingresos aumentan, la probabilidad del evento disminuye de manera significativa.

En cuanto a la antigüedad y la experiencia laboral, ambas variables tienen odds ratios menores a 1, con valores de aproximadamente 0.74 para ambos. Sus intervalos de confianza van desde aproximadamente 0.48 hasta 1.1, lo que sugiere que estos factores pueden reducir la probabilidad del evento, aunque sus intervalos de confianza incluyen valores cercanos a 1, lo que indica que su efecto podría no ser concluyente.

Resumen de Medidas del Modelo
Pseudo.R…McFadden. AIC Log.Likelihood
0.14222 792.6007 -384.3004

El pseudo R² de McFadden tiene un valor de 0.14222, lo que indica que el modelo explica aproximadamente el 14.2 % de la variabilidad en los datos. En modelos de regresión logística, valores cercanos a 0.2 suelen considerarse aceptables, mientras que valores más altos indican un mejor ajuste del modelo.

El criterio de información de Akaike (AIC) es 792.6007. Este valor es útil para comparar la calidad del modelo con otros modelos alternativos. Un AIC más bajo sugiere un mejor equilibrio entre el ajuste y la complejidad del modelo. Si se construyen modelos adicionales, este valor servirá como referencia para seleccionar la opción más eficiente.

El logaritmo de la verosimilitud (Log-Likelihood) tiene un valor de -384.3004, lo que mide qué tan bien el modelo predice los datos observados. Valores más cercanos a 0 reflejan un mejor ajuste del modelo a los datos. Aunque este valor por sí solo no permite una comparación directa, se puede utilizar para evaluar mejoras en el modelo al modificar su estructura o las variables predictoras.

En resumen, el modelo presenta un ajuste moderado, con un pseudo R² relativamente bajo. El AIC y el Log-Likelihood pueden utilizarse para evaluar si es posible mejorar la precisión del modelo mediante ajustes en su especificación o la inclusión de nuevas variables.

La matriz de confusión presentada muestra el desempeño del modelo de clasificación al predecir dos categorías: la clase negativa representada por el número cero y la clase positiva representada por el número uno.

En la celda superior izquierda, hay 131 verdaderos negativos, lo que significa que el modelo clasificó correctamente 131 casos como negativos cuando realmente eran negativos. En la celda inferior derecha, hay 13 verdaderos positivos, lo que indica que el modelo identificó correctamente 13 casos positivos.

Los errores se reflejan en las otras dos celdas. En la celda superior derecha, hay 31 falsos negativos, lo que significa que el modelo predijo que estos casos eran negativos cuando en realidad eran positivos. En la celda inferior izquierda, hay 854 falsos positivos, lo que indica que el modelo clasificó incorrectamente estos casos como positivos cuando en realidad eran negativos.

El modelo tiene una alta cantidad de falsos positivos en comparación con los verdaderos positivos, lo que sugiere que puede estar sesgado hacia la clase negativa. Esto puede afectar el desempeño dependiendo del contexto del problema, ya que una gran cantidad de falsos positivos podría significar una alta tasa de falsas alarmas. Para mejorar el rendimiento, podría ser útil ajustar el umbral de clasificación o considerar estrategias como el balanceo de clases.

Métricas del Modelo Base
Métrica Valor
Precisión 0.8670051
Sensibilidad (Recall) 0.9850058
F1-Score 0.9222462
Especificidad (Specificity) 0.1913580
Exactitud (Accuracy) 0.8600583
Kappa 0.2505690

La precisión del modelo es de 0.87, lo que indica que, de todas las predicciones positivas realizadas, el 86 por ciento fueron correctas. La sensibilidad, también conocida como recall, alcanza un valor de 0.98, lo que significa que el modelo identificó correctamente el 98 por ciento de los casos positivos. Este alto recall sugiere que el modelo es muy efectivo para detectar casos positivos y minimiza los falsos negativos.

El puntaje F1, que es una combinación de precisión y recall, tiene un valor de 0.92, lo que muestra un buen equilibrio entre ambas métricas. La especificidad del modelo, que mide la capacidad de identificar correctamente los casos negativos, es de 0.19, lo que indica que el modelo tiene dificultades para distinguir adecuadamente los casos negativos, clasificando erróneamente una gran proporción como positivos.

La exactitud global del modelo es de 0.86, lo que significa que el modelo clasifica correctamente el 86 por ciento de todas las observaciones, tanto positivas como negativas. Finalmente, la métrica Kappa, que mide la concordancia del modelo con respecto a una clasificación aleatoria, tiene un valor de 0.25, lo que sugiere que el desempeño del modelo es apenas moderado y que puede haber un sesgo en la clasificación.

En general, el modelo tiene un excelente recall y un buen puntaje F1, pero una baja especificidad, lo que indica que es muy efectivo para detectar positivos, pero tiene problemas al diferenciar los negativos, generando un número significativo de falsos positivos. Esto puede ser problemático dependiendo del contexto del problema, especialmente si los falsos positivos tienen un alto costo o impacto.

8 AJUSTE DEL MODELO

Para el análisis de la rotación, se implementaron dos modelos adicionales además del modelo base. El primero fue un modelo ajustado, en el cual se seleccionaron únicamente las variables más relevantes basándose en su significancia estadística. Este ajuste permitió reducir la complejidad del modelo sin perder capacidad predictiva, asegurando que las variables incluidas tuvieran un impacto claro en la rotación. Entre las variables seleccionadas se encuentran el estado civil, el equilibrio entre el trabajo y la vida personal, el ingreso mensual y la antigüedad en el cargo.

8.1 Modelo de Regresión Logística Ajustado

Resultados del Modelo de Regresión Logística Ajustado
Coeficiente Error Estándar Valor Z Valor P Significancia
Intercepto 6.0091187 1.3571721 4.427676 0.0000095 ***
Estado Civil Divorciado -0.3343424 0.2811138 -1.189349 0.2343024
Estado Civil Soltero 0.8485102 0.1975828 4.294454 0.0000175 ***
Equilibrio Trabajo Vida Bajo -0.9626347 0.3566072 -2.699426 0.0069459 **
Equilibrio Trabajo Vida Medio -1.1683214 0.3238068 -3.608082 0.0003085 ***
Equilibrio Trabajo Vida Alto -0.7862160 0.3892049 -2.020057 0.0433775
Ingreso Mensual Log -0.7473176 0.1689235 -4.424002 0.0000097 ***
Antigüedad Log -0.4005291 0.1385007 -2.891892 0.0038293 **
Valores Adicionales del Modelo de Regresión Logística Ajustado
Odds.Ratio IC.95…Lím..Inf.. IC.95…Lím..Sup..
(Intercept) 407.1243794 29.8716867 6153.9318039
Estado Civil Divorciado 0.7158087 0.4040618 1.2225539
Estado Civil Soltero 2.3361638 1.5889306 3.4514289
Equilibrio Trabajo Vida Bajo 0.3818854 0.1902985 0.7740689
Equilibrio Trabajo Vida Medio 0.3108884 0.1659645 0.5938161
Equilibrio Trabajo Vida Alto 0.4555654 0.2117071 0.9789679
Ingreso Mensual Log 0.4736353 0.3373623 0.6547759
Antigüedad Log 0.6699655 0.5108605 0.8798940

Métricas del Modelo Ajustado
Métrica Valor
Precisión 0.8608609
Sensibilidad (Recall) 0.9919262
F1-Score 0.9217578
Especificidad (Specificity) 0.1419753
Exactitud (Accuracy) 0.8581147
Kappa 0.2002364

8.2 Modelo de Regresión Logística Transformado

El segundo modelo desarrollado fue el modelo transformado, en el cual se incorporaron términos polinómicos de segundo grado para algunas de las variables numéricas. Esta transformación se realizó con el objetivo de capturar posibles relaciones no lineales entre las variables predictoras y la rotación. En particular, se aplicó esta técnica a las variables de equilibrio trabajo-vida, ingreso mensual y antigüedad, permitiendo que el modelo identificara patrones más complejos en los datos.

Resultados del Modelo de Regresión Logística Transformado
Coeficiente_T Error_Estándar_T Valor_Z_T Valor_P_T Significancia_T
Intercepto_T -2.1106699 0.1488374 -14.1810495 0.0000000 **
Estado Civil Divorciado -0.3449875 0.2817539 -1.2244282 0.2207908
Estado Civil Soltero 0.8169277 0.1996127 4.0925637 0.0000427 **
poly(Equilibrio Trabajo Vida, 2)1 -4.6738893 2.6366796 -1.7726421 0.0762880
poly(Equilibrio Trabajo Vida, 2)2 8.0711430 2.6203328 3.0801977 0.0020686
poly(Ingreso Mensual Log, 2)1 -16.9509194 4.0033786 -4.2341535 0.0000229 **
poly(Ingreso Mensual Log, 2)2 2.1813997 3.2248866 0.6764268 0.4987697
poly(Antigüedad Log, 2)1 -6.3303888 3.5664359 -1.7749902 0.0758995
poly(Antigüedad Log, 2)2 6.4116844 3.2279086 1.9863277 0.0469969 .
Valores Adicionales del Modelo de Regresión Logística Transformado
Odds.Ratio_T IC.95…Lím..Inf.._T IC.95…Lím..Sup.._T
(Intercept) 0.1211568 0.0895318 0.1606121
Estado Civil Divorciado 0.7082292 0.3992202 1.2109241
Estado Civil Soltero 2.2635348 1.5328716 3.3564690
poly(Equilibrio Trabajo Vida, 2)1 0.0093359 0.0000512 1.6156557
poly(Equilibrio Trabajo Vida, 2)2 3200.7582163 17.3838086 513449.1851577
poly(Ingreso Mensual Log, 2)1 0.0000000 0.0000000 0.0000820
poly(Ingreso Mensual Log, 2)2 8.8586974 0.0142216 4591.8462194
poly(Antigüedad Log, 2)1 0.0017813 0.0000015 1.8177667
poly(Antigüedad Log, 2)2 608.9184712 0.9857581 318896.3830048

Métricas del Modelo Transformado
Métrica Valor
Precisión 0.8611670
Sensibilidad (Recall) 0.9873126
F1-Score 0.9199355
Especificidad (Specificity) 0.1481481
Exactitud (Accuracy) 0.8551992
Kappa 0.1988368

En términos generales, el modelo ajustado es más simple y fácil de interpretar, mientras que el modelo transformado ofrece mayor flexibilidad al incorporar relaciones no lineales. Para determinar cuál de estos modelos es más adecuado, se compararon métricas de desempeño como el AIC, el Pseudo R² de McFadden, la precisión, la sensibilidad y la puntuación F1. A partir de estos resultados, se podrá determinar si la transformación polinómica aporta mejoras significativas en la predicción de la rotación o si el modelo ajustado es suficiente para describir el fenómeno.

9 EVALUACIÓN DE MODELOS

Comparación de Modelos
Modelo AIC Pseudo_R2_Nagelkerke Log_Likelihood
Modelo Base 792.6007 0.200354 -384.3004
Modelo Ajustado 802.5520 0.173610 -393.2760
Modelo Polinómico 798.8329 0.182181 -390.4164

Al comparar los tres modelos, se observa que el modelo base tiene un criterio de información de Akaike de 792.6007, mientras que el modelo ajustado y polinomico presentan valores ligeramente superiores de 802.5520 y 798.8329 respectivamente. En términos de ajuste, valores más bajos del criterio de información de Akaike indican un mejor equilibrio entre la complejidad del modelo y su capacidad predictiva.

En cuanto al pseudo coeficiente de determinación de Nagelkerke, el modelo base muestra un valor de 0.200354, el modelo ajustado presenta un valor de 0.173610 y el modelo polinómico alcanza 0.182181. Aunque las diferencias no son significativas, el modelo base logra un mejor desempeño en esta métrica.

Respecto a la log verosimilitud, el modelo base tiene un valor de menos 384.3004, el modelo ajustado mejora a menos 393.2760 y el modelo polinómico obtiene un valor de menos 390.4164. Un valor de log verosimilitud menos negativo indica un mejor ajuste a los datos, lo que evidencia que el modelo con mejor desempeño es el modelo base.

El modelo base parece ofrecer un mejor equilibrio entre ajuste y complejidad, lo cual se evidencia en su menor criterio de información de Akaike (AIC), una mayor log-verosimilitud, y un mayor pseudo coeficiente de determinación de Nagelkerke. Estos indicadores sugieren que el modelo base logra una mejor capacidad explicativa con una estructura más eficiente, evitando el sobreajuste.

Tras analizar las métricas de desempeño de los tres modelos, se observa que el modelo base presenta un mejor balance entre precisión y sensibilidad sin comprometer significativamente la exactitud general. Aunque las diferencias entre los modelos son sutiles, el modelo base logra una ligera mejora en precisión y exactitud en comparación con los demas, lo que indica una mejor capacidad para reducir errores de clasificación sin afectar la detección de instancias positivas.

Por otro lado, aunque el modelo transformado buscaba mejorar el ajuste mediante términos polinómicos, sus métricas no muestran una ventaja clara sobre el modelo ajustado y, en algunos casos, su rendimiento es ligeramente inferior. En particular, la especificidad y el coeficiente Kappa, que reflejan la capacidad del modelo para diferenciar correctamente las clases, no presentan mejoras significativas con la transformación.

Dado este análisis, el modelo base se considera la mejor opción, ya que mantiene un rendimiento robusto en todas las métricas clave sin introducir una complejidad innecesaria en el ajuste.

9.1 Validación Cruzada

Comparación de Validación Cruzada de los Modelos
Modelo Exactitud Kappa
Modelo Base 0.8707092 0.4188824
Modelo Ajustado 0.8542018 0.1730445
Modelo Transformado 0.8522976 0.1831331

En el análisis comparativo de los modelos utilizando validación cruzada, se evaluaron dos métricas fundamentales: exactitud y coeficiente kappa. El modelo base presentó una exactitud de aproximadamente 87.07 por ciento y un coeficiente kappa de 0.41, lo que indica una buena capacidad predictiva y una moderada concordancia entre las predicciones y los valores reales.

Por su parte, el modelo ajustado mostró una exactitud de 85.03 por ciento y un coeficiente kappa de 0.17. A pesar de que su exactitud sigue siendo elevada, la reducción en el coeficiente kappa sugiere una menor capacidad del modelo para diferenciar correctamente entre clases.

El modelo transformado alcanzó una exactitud de 85.23 porciento y un coeficiente kappa de 0.18. Aunque la exactitud es ligeramente inferior a la del modelo ajustado, el valor del coeficiente kappa continúa siendo inferior al del modelo base, lo que sugiere una menor concordancia en la clasificación de las observaciones.

El modelo base obtuvo los mejores resultados en cuanto a estabilidad y precisión global, manteniendo una mejor relación entre exactitud y capacidad discriminativa según el coeficiente kappa.

El gráfico de Curvas ROC Comparativas muestra la capacidad discriminativa de los tres modelos evaluados: el modelo base, el modelo ajustado y el modelo transformado. La curva ROC refleja la relación entre la sensibilidad y la especificidad para cada modelo, proporcionando una visión clara de su desempeño en la clasificación.

En términos del área bajo la curva (AUC), los resultados son muy similares entre los tres modelos. El modelo base obtiene un AUC de 0.749, el modelo ajustado 0.736 y el modelo transformado 0.739. El modelo base presenta un mejor desempeño en comparacion a los ajustados.

Dado que el modelo base ofrece un desempeño comparable con menor complejidad y mayor interpretabilidad, se ha decidido mantener este modelo como la mejor opción. Además, su estabilidad en la validación cruzada respalda su robustez, asegurando que pueda generalizar de manera adecuada en nuevos datos sin sobreajustarse a la muestra de entrenamiento.

En conclusión, aunque los modelos evaluados presentan desempeños similares, la decisión de utilizar el modelo base se fundamenta en su simplicidad, estabilidad y facilidad de implementación en un entorno práctico.

9.2 Gráfica de Odds Ratios con Intervalos de Confianza

El análisis de los odds ratios proporciona información valiosa sobre los factores que influyen en la rotación de empleados dentro de la organización. En primer lugar, se observa que el estado civil soltero es la variable con mayor impacto en la probabilidad de rotación. Los empleados solteros tienen más del doble de probabilidades de cambiar de puesto en comparación con los empleados en la categoría de referencia, lo que sugiere que este grupo puede ser más propenso a buscar nuevas oportunidades laborales o tener menos compromisos que los retengan en su posición actual.

Por otro lado, la satisfacción laboral parece ser un factor determinante en la rotación, ya que tanto la categoría de empleados insatisfechos como la de satisfechos presentan odds ratios alejados de 1. Esto sugiere que la satisfacción laboral disminuye la probabilidad de rotación, es decir, los empleados con mayor satisfacción tienen menos probabilidades de dejar la organización.

El equilibrio entre la vida laboral y personal sí muestra un efecto importante en la rotación. Se encuentra que aquellos empleados con un equilibrio bajo o medio tienen menos probabilidades de cambiar de cargo en comparación con otros grupos. Este resultado sugiere que ofrecer condiciones que permitan a los empleados mantener un balance adecuado entre su trabajo y su vida personal puede contribuir a reducir la rotación.

Las variables relacionadas con la antigüedad y los años de experiencia tienen valores de odds ratio cercanos a uno, lo que indica que su efecto en la rotación es mínimo. Esto sugiere que, en este caso particular, el salario y la trayectoria profesional no son los principales determinantes de la permanencia en la empresa, por el contrario el ingreso mensual reduce la probabilidad de la rotación.

En conclusión, la rotación de empleados está influenciada principalmente por el estado civil. Con base en estos hallazgos, la empresa podría considerar estrategias para retener talento, como flexibilizar horarios y ofrecer beneficios adicionales que favorezcan la conciliación entre la vida laboral y personal, especialmente para empleados solteros que presentan mayor propensión a rotar.

9.3 Comparación de los resultados con las expectativas del análisis

Antes de interpretar los resultados obtenidos, es fundamental contrastarlos con las expectativas previas del análisis. Se asumía que la satisfacción laboral, el ingreso mensual y la antigüedad desempeñarían un papel significativo en la rotación de empleados, mientras que el impacto del estado civil y el equilibrio entre la vida laboral y personal era menos predecible.

Los hallazgos muestran que algunas de estas expectativas no se confirmaron:

  • El estado civil soltero es el factor con mayor impacto en la rotación.

Los empleados solteros presentan una probabilidad significativamente mayor de cambiar de cargo en comparación con otros grupos. Este resultado, que no se había previsto con claridad, sugiere que los trabajadores sin compromisos familiares pueden ser más propensos a buscar nuevas oportunidades laborales.

  • La satisfacción laboral tiene un efecto determinante en la rotación.

Los empleados insatisfechos mostraron una mayor propensión a cambiar de cargo, mientras que aquellos con cualquier grado de satisfacción fueron menos propensos a rotar. Sin embargo, en los tres casos, la satisfacción laboral se asocia con una disminución en la probabilidad de rotación, lo que sugiere que no es un factor determinante por sí solo y que podrían existir otras razones que influyen en la decisión de cambiar de trabajo.

  • El equilibrio entre la vida laboral y personal influye en la retención de empleados.

El equilibrio entre vida y trabajo es un factor que reduce la probabilidad de rotación, lo que indica que influye en la permanencia de los empleados en sus puestos. Sin embargo, su impacto no es lo suficientemente significativo como para considerarlo un factor clave en la decisión de cambiar de trabajo o rotar dentro de la organización.

  • El ingreso mensual, la antigüedad y los años de experiencia no presentan un impacto significativo a la hora de tomar la decision de una rotacion de puesto.

Aunque se asumía que mejores ingresos o mayor antigüedad podrían reducir la rotación, los resultados muestran odds ratios cercanos a uno, lo que indica que su efecto es marginal. Esto sugiere que los empleados no toman decisiones de rotación basadas únicamente en estos factores, sino que priorizan otros aspectos del entorno laboral.

10 PREDICCION

Para determinar un valor de referencia que nos ayude a clasificar si un empleado está en riesgo de rotación, realizaremos la siguiente estrategia:

Casos Referentes: Utilizaremos dos casos previamente evaluados:

Empleado con alta probabilidad de rotación (perfil con condiciones desfavorables).

Empleado con baja probabilidad de rotación (perfil con condiciones favorables).

Caso Aleatorio: Seleccionaremos un empleado del conjunto de datos al azar y calcularemos su probabilidad de rotación con el modelo logístico.

Comparación y Elección del Umbral: Compararemos la probabilidad de rotación del caso aleatorio con los valores obtenidos para los casos referentes. A partir de esta comparación, definiremos un umbral que nos permita clasificar si un empleado está en riesgo de rotación o no.

Caso 1

Para validar el modelo, consideraremos un empleado con características que indican una alta probabilidad de rotación. Este empleado presenta las siguientes condiciones:

Estado Civil: Soltero

Satisfacción Laboral: Muy Insatisfecho

Equilibrio entre Vida y Trabajo: Bajo

Ingreso Mensual: 1009 (el valor más bajo registrado en el conjunto de datos)

Antigüedad en la Empresa: 1 año

Experiencia Laboral: 1 año

Caso 2

Para evaluar el comportamiento del modelo en un caso opuesto, consideraremos un empleado con características que sugieren una menor probabilidad de rotación:

Estado Civil: Casado

Satisfacción Laboral: Satisfecho

Equilibrio entre Vida y Trabajo: Alto

Ingreso Mensual: 19000 (valor alto en el conjunto de datos)

Antigüedad en la Empresa: 35 años

Experiencia Laboral: 35 años

Caso 3

vamos a tomar un caso particular elegido al azar para comparar los dos casos anteriores y tomarlos como referentes para la eleccion de un valor de probabilidad que se considere como referente para decidir si este empleado esta en riesgo de rotar o no.

Estado Civil: Soltero

Satisfacción Laboral: Satisfecho

Equilibrio entre Vida y Trabajo: Medio

Ingreso Mensual: 14.230.3 (valor alto en el conjunto de datos)

Antigüedad en la Empresa: 32.87 años

Experiencia Laboral: 1.18 años

Resultados de Predicción de Rotación
Caso Probabilidad_Rotación
Caso 1 0.7320468
Caso 2 0.0262990
Caso 3 0.1287048

A partir de lo anterior, podemos considerar que un umbral de 0.5 es una estimación adecuada para clasificar la probabilidad de rotación de un empleado. Con base en los análisis obtenidos, se observa que el empleado presenta un salario mensual relativamente alto, buena satisfacción laboral y un equilibrio vida-trabajo medio o superior, es poco probable que rote, ya que estos factores contribuyen a su permanencia en la organización. En este contexto, utilizar 0.5 como punto de corte permite diferenciar de manera clara entre aquellos empleados con menor riesgo de rotación y aquellos potencialmente más propensos a abandonar su empleo.

11 Conclusiones y recomendaciones

El contraste entre los resultados obtenidos y las expectativas iniciales ofrece información valiosa para la gestión del talento humano en la organización:

  • Estrategias para la retención de empleados solteros.

Dado que este grupo presenta mayor propensión a la rotación, se recomienda desarrollar programas de fidelización, como planes de carrera estructurados, incentivos de permanencia o beneficios que refuercen su sentido de pertenencia a la empresa.

  • Reevaluación del impacto de la satisfacción laboral.

Si bien este factor suele considerarse un determinante clave en la rotación, los resultados sugieren que otros elementos pueden ser más relevantes. Es recomendable realizar estudios cualitativos complementarios para identificar los verdaderos impulsores de la permanencia o salida de los empleados.

  • Fortalecimiento de las políticas de conciliación laboral y personal.

Dado que los empleados con un mayor equilibrio entre trabajo y vida personal presentan menor rotación, se sugiere optimizar estrategias como la flexibilidad horaria, el trabajo remoto y el desarrollo de programas de bienestar.

Estos hallazgos ofrecen un enfoque basado en evidencia para la toma de decisiones estratégicas en la gestión de talento, permitiendo diseñar políticas más efectivas para mejorar la retención y reducir los costos asociados a la rotación de personal.

A partir de las predicciones se determinó que un umbral de 0.5 es apropiado para clasificar el riesgo de rotación de los empleados, el cual permite clasificar Empleados en riesgo (probabilidad ≥ 0.5): Como el Caso 1, cuyas condiciones desfavorables (bajo ingreso, insatisfacción laboral, etc.) representan alta propensión a rotar.

Por otra parte, Empleados estables (probabilidad < 0.5): Como los Casos 2 y 3, donde factores favorables (alto salario, satisfacción laboral, antigüedad) reducen el riesgo de rotación.

La elección del umbral 0.5 se justifica por su capacidad para equilibrar sensibilidad y especificidad, basándose en casos referentes extremos y un ejemplo aleatorio. Sin embargo, este umbral puede ajustarse según políticas organizacionales.

12 FIN