##Actividad 3: Rotación de cargo

###En una organización se busca comprender y prever los factores que influyen en la rotación de empleados entre distintos cargos. Para ello, la empresa ha recopilado datos históricos sobre el empleo de sus trabajadores, incluyendo variables como la antigüedad en el cargo actual, el nivel de satisfacción laboral, el salario, la edad y otros factores relevantes. La gerencia planea desarrollar un modelo de regresión logística que permita estimar la probabilidad de que un empleado cambie de cargo en el próximo período e identificar cuáles son los factores que inciden en mayor medida en estos cambios. ###Con esta información, la empresa podrá tomar medidas proactivas para retener a su talento clave, identificar áreas de mejora en la gestión de recursos humanos y fomentar un ambiente laboral más estable, productivo y satisfactorio. La predicción de la probabilidad de rotación de empleados ayudará a la organización a tomar decisiones estratégicas informadas y a mantener un equipo de trabajo comprometido y motivado en sus funciones actuales. ###A continuación, se describen los pasos que la gerencia ha propuesto para el análisis:

##1. Selección de variables: —- ###Seleccione tres variables categóricas (distintas de rotación) y tres variables cuantitativas que se consideren relacionadas con la rotación de empleados. ###Nota: Justifique la elección de cada variable y explique qué tipo de relación se espera entre ellas y la rotación (Hipótesis).

##2. Análisis univariado: —- ###Realice un análisis univariado o de caracterización de la información contenida en la base de datos rotacion. ###Nota: Utilice indicadores o gráficos adecuados según el tipo de variable (cualitativa o cuantitativa). Incluya una interpretación detallada de la variable rotacion como variable de respuesta. ###3. Análisis multivariado: —- ###Efectúe un análisis bivariado en el que la variable respuesta sea rotacion, codificada de la siguiente manera: ###y = 1 → Sí hay rotación ###y = 0 → No hay rotación ###Con base en los resultados: ###- Identifique cuáles variables son determinantes en la rotación. ###- Interprete el signo de los coeficientes estimados. ###- Compare los hallazgos con las hipótesis planteadas en el punto 2.

##4. Estimación del modelo: —- ###Estime un modelo de regresión logística en el cual la variable respuesta sea rotacion (y = 1 si hay rotación, y = 0 si no hay rotación) y las covariables sean las seis seleccionadas en el punto 1. ###Interprete los coeficientes obtenidos y evalúe la significancia estadística de los parámetros.

##5. Evaluación: —- ###Evalúe el poder predictivo del modelo utilizando la curva ROC y el valor del AUC (Área Bajo la Curva), determinando si el modelo es fuerte, moderado o débil en términos de predicción.

##6. Predicciones: —- ###Realice una predicción de la probabilidad de rotación para un individuo hipotético. ###Defina un punto de corte (threshold) que permita decidir si se debe intervenir al ###empleado o no, como parte de una estrategia preventiva para retenerlo y aumentar su motivación.

##7. Conclusiones: ###En las conclusiones, presente una discusión integral sobre los resultados obtenidos. ###Incluya recomendaciones sobre estrategias para reducir la rotación en la empresa, basándose en las variables que resultaron más significativas en el punto 3. ###Sugiera además acciones concretas de gestión del talento humano, tales como: ##- Programas de capacitación y desarrollo profesional. ##- Ajustes en la política de compensación y beneficios. ##- Estrategias para mejorar el equilibrio trabajo–vida.

##- Implementación de planes de reconocimiento y motivación laboral.

#Desarrollo: ##1. Selección de variables #Para realizar una adecuada selección de variables, es necesario comprender primero la estructura y el contenido de la base de datos. ##El análisis inicial debe permitir identificar el tipo de cada variable (cuantitativa, cualitativa u ordinal), así como su posible relevancia en el fenómeno de rotación de empleados. ##Una vez comprendida la base de datos, se podrán diferenciar las variables que son meramente descriptivas de aquellas que tienen un potencial explicativo o predictivo sobre la variable de interés (rotación).

## tibble [1,470 × 24] (S3: tbl_df/tbl/data.frame)
##  $ Rotación                   : chr [1:1470] "Si" "No" "Si" "No" ...
##  $ Edad                       : num [1:1470] 41 49 37 33 27 32 59 30 38 36 ...
##  $ Viaje de Negocios          : chr [1:1470] "Raramente" "Frecuentemente" "Raramente" "Frecuentemente" ...
##  $ Departamento               : chr [1:1470] "Ventas" "IyD" "IyD" "IyD" ...
##  $ Distancia_Casa             : num [1:1470] 1 8 2 3 2 2 3 24 23 27 ...
##  $ Educación                  : num [1:1470] 2 1 2 4 1 2 3 1 3 3 ...
##  $ Campo_Educación            : chr [1:1470] "Ciencias" "Ciencias" "Otra" "Ciencias" ...
##  $ Satisfacción_Ambiental     : num [1:1470] 2 3 4 4 1 4 3 4 4 3 ...
##  $ Genero                     : chr [1:1470] "F" "M" "M" "F" ...
##  $ Cargo                      : chr [1:1470] "Ejecutivo_Ventas" "Investigador_Cientifico" "Tecnico_Laboratorio" "Investigador_Cientifico" ...
##  $ Satisfación_Laboral        : num [1:1470] 4 2 3 3 2 4 1 3 3 3 ...
##  $ Estado_Civil               : chr [1:1470] "Soltero" "Casado" "Soltero" "Casado" ...
##  $ Ingreso_Mensual            : num [1:1470] 5993 5130 2090 2909 3468 ...
##  $ Trabajos_Anteriores        : num [1:1470] 8 1 6 1 9 0 4 1 0 6 ...
##  $ Horas_Extra                : chr [1:1470] "Si" "No" "Si" "Si" ...
##  $ Porcentaje_aumento_salarial: num [1:1470] 11 23 15 11 12 13 20 22 21 13 ...
##  $ Rendimiento_Laboral        : num [1:1470] 3 4 3 3 3 3 4 4 4 3 ...
##  $ Años_Experiencia           : num [1:1470] 8 10 7 8 6 8 12 1 10 17 ...
##  $ Capacitaciones             : num [1:1470] 0 3 3 3 3 2 3 2 2 3 ...
##  $ Equilibrio_Trabajo_Vida    : num [1:1470] 1 3 3 3 3 2 2 3 3 2 ...
##  $ Antigüedad                 : num [1:1470] 6 10 0 8 2 7 1 1 9 7 ...
##  $ Antigüedad_Cargo           : num [1:1470] 4 7 0 7 2 7 0 0 7 7 ...
##  $ Años_ultima_promoción      : num [1:1470] 0 1 0 3 2 3 0 0 1 7 ...
##  $ Años_acargo_con_mismo_jefe : num [1:1470] 5 7 0 0 2 6 0 0 8 7 ...

Existen 23 variables adicionales a la variable de rotación. De ellas, la mayoría son de tipo numérico, mientras que el resto corresponde a variables categóricas.

##  [1] "Edad"                        "Distancia_Casa"             
##  [3] "Educación"                   "Satisfacción_Ambiental"     
##  [5] "Satisfación_Laboral"         "Ingreso_Mensual"            
##  [7] "Trabajos_Anteriores"         "Porcentaje_aumento_salarial"
##  [9] "Rendimiento_Laboral"         "Años_Experiencia"           
## [11] "Capacitaciones"              "Equilibrio_Trabajo_Vida"    
## [13] "Antigüedad"                  "Antigüedad_Cargo"           
## [15] "Años_ultima_promoción"       "Años_acargo_con_mismo_jefe"
## tibble [1,470 × 16] (S3: tbl_df/tbl/data.frame)
##  $ Edad                       : num [1:1470] 41 49 37 33 27 32 59 30 38 36 ...
##  $ Distancia_Casa             : num [1:1470] 1 8 2 3 2 2 3 24 23 27 ...
##  $ Educación                  : num [1:1470] 2 1 2 4 1 2 3 1 3 3 ...
##  $ Satisfacción_Ambiental     : num [1:1470] 2 3 4 4 1 4 3 4 4 3 ...
##  $ Satisfación_Laboral        : num [1:1470] 4 2 3 3 2 4 1 3 3 3 ...
##  $ Ingreso_Mensual            : num [1:1470] 5993 5130 2090 2909 3468 ...
##  $ Trabajos_Anteriores        : num [1:1470] 8 1 6 1 9 0 4 1 0 6 ...
##  $ Porcentaje_aumento_salarial: num [1:1470] 11 23 15 11 12 13 20 22 21 13 ...
##  $ Rendimiento_Laboral        : num [1:1470] 3 4 3 3 3 3 4 4 4 3 ...
##  $ Años_Experiencia           : num [1:1470] 8 10 7 8 6 8 12 1 10 17 ...
##  $ Capacitaciones             : num [1:1470] 0 3 3 3 3 2 3 2 2 3 ...
##  $ Equilibrio_Trabajo_Vida    : num [1:1470] 1 3 3 3 3 2 2 3 3 2 ...
##  $ Antigüedad                 : num [1:1470] 6 10 0 8 2 7 1 1 9 7 ...
##  $ Antigüedad_Cargo           : num [1:1470] 4 7 0 7 2 7 0 0 7 7 ...
##  $ Años_ultima_promoción      : num [1:1470] 0 1 0 3 2 3 0 0 1 7 ...
##  $ Años_acargo_con_mismo_jefe : num [1:1470] 5 7 0 0 2 6 0 0 8 7 ...

Aquí identificamos algunos problemas. Existen variables que representan ordinalidad, pero que están descritas en la base de datos como numéricas. La mayoría de estas corresponden a encuestas relacionadas con satisfacción, rendimiento y otros aspectos similares.

#Por lo tanto, se realizará el cambio de estas variables a tipo factor ordenado, ya que poseen una jerarquía natural. #Adicionalmente, se ajustarán algunas variables categóricas que también presentan una estructura similar y que deben ser tratadas de manera adecuada en el análisis.

#También será necesario ordenar jerárquicamente algunas de estas variables, #ya que su naturaleza ordinal permite establecer un orden lógico en sus categorías. #A continuación, se definen y ordenan las variables correspondientes:

Convertimos en factor aquellas variables que no presentan jerarquía, pero que deben ser tratadas como categóricas dentro del análisis.

Ahora que hemos determinado cuáles variables son numéricas y cuáles son categóricas,

#podemos avanzar con el análisis solicitado por la empresa. #Dado que contamos con datos históricos sobre la rotación de empleados, evaluaremos el comportamiento de cada variable en relación con esta. #A continuación, se presenta el análisis inicial para el caso de las variables categóricas:

## tibble [1,470 × 13] (S3: tbl_df/tbl/data.frame)
##  $ Rotación               : Factor w/ 2 levels "No","Si": 2 1 2 1 1 1 1 1 1 1 ...
##  $ Viaje de Negocios      : Factor w/ 3 levels "Frecuentemente",..: 3 1 3 1 3 1 3 3 1 3 ...
##  $ Departamento           : Factor w/ 3 levels "IyD","RH","Ventas": 3 1 1 1 1 1 1 1 1 1 ...
##  $ Educación              : Ord.factor w/ 5 levels "1"<"2"<"3"<"4"<..: 2 1 2 4 1 2 3 1 3 3 ...
##  $ Campo_Educación        : Factor w/ 6 levels "Ciencias","Humanidades",..: 1 1 4 1 5 1 5 1 1 5 ...
##  $ Satisfacción_Ambiental : Ord.factor w/ 4 levels "1"<"2"<"3"<"4": 2 3 4 4 1 4 3 4 4 3 ...
##  $ Genero                 : Factor w/ 2 levels "F","M": 1 2 2 1 2 2 1 2 2 2 ...
##  $ Cargo                  : Factor w/ 9 levels "Director_Investigación",..: 3 5 9 5 9 9 9 9 2 7 ...
##  $ Satisfación_Laboral    : Ord.factor w/ 4 levels "1"<"2"<"3"<"4": 4 2 3 3 2 4 1 3 3 3 ...
##  $ Estado_Civil           : Factor w/ 3 levels "Casado","Divorciado",..: 3 1 3 1 1 3 1 2 3 1 ...
##  $ Horas_Extra            : Factor w/ 2 levels "No","Si": 2 1 2 2 1 1 2 1 1 1 ...
##  $ Rendimiento_Laboral    : Ord.factor w/ 2 levels "3"<"4": 1 2 1 1 1 1 2 2 2 1 ...
##  $ Equilibrio_Trabajo_Vida: Ord.factor w/ 4 levels "1"<"2"<"3"<"4": 1 3 3 3 3 2 2 3 3 2 ...

La frecuencia de los viajes de negocios posiblemente no sea una variable con mucha carga en la rotación de empleados, aunque con una frecuencia excesiva el empleado se puede sentir abrumado, por lo que no se puede excluir todavía.

El departamento donde opera sí puede ser una variable interesante, puesto que puede haber uno o más departamentos dentro de la empresa que tenga un elevado porcentaje de rotaciones de empleados que sería excelente analizar.

La educación, tomada en el dataset como un factor, también puede ser interesante, puesto que un avance educativo significa, en la mayoría de casos, un cambio de empleo para el trabajador, sin embargo, podría no ser muy reveladora al final.

El campo de eduación no tendría tanta relevancia para la rotación de empleados, a menos que se trate de un campo con muchas opciones laborales.

La satisfacción ambiental, que sin la documentación necesaria no es una variable muy intuitiva, podría referirse a la satisfacción con el ambiente de trabajo, sí es una variable muy importante a analizar, puesto que un empleado con poca satisfacción con el ambiente en el trabaja tiene más posibilidades de rotar.

El cargo es una variable significativa. Los cargos más bajos, jerarquícamente hablabando, tendrán mayor rotación entre los empleados.

El género es una variable, que respecto a la rotación, podría desvelar otros tipos de problemas en la estructura de la empresa, puesto que una rotación significativa de uno u otro género puede denotar un posible problema de discriminación u otros.

La satisfacción laboral es sumamente relevante respecto a la rotación. Las personas con menor satisfacción laboral serán las que más rotación tengan.

El estado civil es una variable que poco podría relacionarse con la rotación de empleados.

Las horas extras es una variable importantísima en la rotación de empleados. Se espera que tiene que hacer horas extras más frecuentemente sí tenga mayor rotación, pero como la variable es una categórica de Sí o No: “Los empleados que sí realizan horas extras tienden a rotar más”. Aunque sería mucho más interesante si fuera una variable que especificara la cantidad de horas extras, podríamos decir, semanales.

El rendimiento laboral también es interesante. Se espera que los empleados con menor rendimiento sean los que más rotan.

Finalmente, una variable interesantísima para la rotación de empleados es el equilibrio trabajo-vida. Entre mejor es el equilibrio y los límites puestos, los empleados se sentirán más satisfechos y no abandonarán los puestos de trabajo. Entonces, entre haya menor equilibrio trabajo-vida más podría sarse la rotación.

Finalmente, nos quedaremos con la satisfacción laboral, el equilibrio trabajo-vida y horas extras.

Haremos el mismo análisis para las variables númericas:

str(datos_num)

##La edad es una variable comúnmente asociada a la rotación de empleados. Se espera que los niveles de rotación se concentren en ciertos rangos etarios, siendo menos frecuente en trabajadores mayores de 40 años, quienes tienden a mostrar mayor estabilidad laboral. ##La distancia entre la casa y el trabajo es un factor relevante. Empleados que invierten mucho tiempo en desplazamientos suelen considerar el cambio de empleo como una alternativa para mejorar su calidad de vida, lo que incrementa la probabilidad de rotación. ##Los ingresos mensuales son otra variable significativa. Se espera que a menores niveles de salario aumente la probabilidad de rotación, dado que los empleados pueden buscar mejores oportunidades económicas. ##El número de trabajos anteriores puede servir como un indicador de la tendencia individual a rotar. Aquellos con un historial de múltiples empleos previos tienen mayor probabilidad de continuar con un patrón de rotación laboral. ##El porcentaje de aumento salarial constituye una variable muy informativa. Un bajo incremento puede ser interpretado como falta de reconocimiento, lo que motiva a los empleados a buscar nuevas oportunidades. ##Los años de experiencia están relacionados con otras variables como antigüedad o nivel educativo. Aunque un mayor nivel de experiencia puede dar estabilidad, también puede fomentar la búsqueda de mejores cargos, por lo que su relación con la rotación no es del todo lineal. ##Las capacitaciones, si bien aportan al desarrollo del empleado, no parecen ser un predictor directo de la rotación, aunque podrían influir indirectamente al mejorar la empleabilidad del trabajador. ##La antigüedad en la empresa es un factor importante. En general, a menor antigüedad, mayor es la probabilidad de rotación. Sin embargo, también pueden existir casos en los que empleados con muchos años en la organización decidan cambiar, aunque son menos frecuentes. Lo mismo aplica para la antigüedad en el cargo. ##Los años transcurridos desde la última promoción son una variable clave. Cuanto más tiempo pasa sin recibir una promoción, mayor es la probabilidad de rotación, ya que se percibe una falta de crecimiento profesional. ##El número de años trabajando con el mismo jefe, aunque podría influir en la dinámica laboral, no parece estar fuertemente relacionado con la rotación, salvo en casos particulares de relaciones interpersonales conflictivas. ##En conclusión, se seleccionarán como variables numéricas más representativas: la distancia a casa, el porcentaje de aumento salarial (anual) y los años desde la última promoción.

2. Análisis univariado:

Observamos que la variable objetivo (rotación) presenta una marcada diferencia porcentual.

La gran mayoría de los empleados de la empresa no rotan, representando aproximadamente el 84 % del total.

En contraste, solo un 16 % de los empleados han experimentado rotación de cargo.

##Encontramos que la mayoría de los empleados residen relativamente cerca de las instalaciones de la empresa. ##El comportamiento de la distribución tiende hacia la izquierda, lo que indica que un mayor número de trabajadores vive en las cercanías. ##Con el fin de facilitar el análisis, se propone agrupar a los empleados en dos categorías: ##aquellos que viven a menos de 10 kilómetros y aquellos que viven a 10 kilómetros o más. ##A continuación, realizamos la agrupación según la distancia al lugar de trabajo.

Por ejemplo, 940 empleados viven a menos de 10 kilómetros de la empresa, mientras que 530 empleados residen a una distancia mayor.

##Esto indica que una proporción significativa de trabajadores se encuentra en el área circundante a las instalaciones, lo que facilita los desplazamientos y reduce la carga asociada al transporte diario.

Asimismo, el boxplot muestra que la distancia promedio de los empleados respecto a la empresa es de aproximadamente 7 kilómetros.

##No se observan valores atípicos significativos y la mayoría de los trabajadores residen en zonas relativamente cercanas al lugar de trabajo.

Al agrupar a los empleados según el porcentaje de aumento salarial, se observa que la mayoría se concentra en valores inferiores al 15 %, mientras que un grupo menor recibe incrementos iguales o superiores a este umbral.

En términos de rotación, aquellos con aumentos inferiores al 15 % presentan una mayor probabilidad de abandonar la empresa, lo que refuerza la hipótesis de que incrementos salariales reducidos están asociados con una menor retención del talento.

Con respecto al umbral del 15 %, la mayoría de empleados recibe incrementos salariales cercanos a este valor.

Sin embargo, aproximadamente 150 trabajadores obtienen aumentos inferiores al 15 %, lo que podría indicar una mayor propensión a la rotación dentro de este grupo.

La mayoría de los empleados llevan relativamente poco tiempo sin recibir una promoción.

Una gran proporción ha sido promovida en los últimos cinco años, mientras que un número considerablemente menor no ha recibido promoción en un período igual o superior a cinco años.

En este boxplot se observa que el porcentaje promedio de aumento salarial es de aproximadamente 14 %.

La mayoría de los empleados se concentra en un rango comprendido entre el 12 % y el 18 %, lo que indica una distribución relativamente homogénea de los incrementos.

Solo un número reducido de empleados ha recibido una promoción hace 5 años o más, mientras que aproximadamente 1.210 trabajadores fueron promovidos en los últimos cinco años.

No obstante, es importante considerar un posible sesgo: si dentro de este grupo se incluyen empleados nuevos en la empresa, muchos de ellos aún no han tenido la oportunidad de recibir una promoción debido a su baja antigüedad, lo que podría distorsionar la interpretación de la variable.

A diferencia de otras variables, en el boxplot de años desde la última promoción se identifican varios valores atípicos, correspondientes a empleados que llevan más de 7 años sin ser promovidos.

La mayoría de los trabajadores se concentra en valores promedios, entre 0 y 3 años, pero aquellos con largos periodos sin promoción podrían representar casos potenciales de rotación.

A continuación, pasamos al análisis de las variables categóricas.

Considerando la escala ordinal donde 1 = no satisfecho, 2 = poco satisfecho, 3 = satisfecho y 4 = muy satisfecho, se observa que la mayoría de los empleados reporta niveles de satisfacción 3 o 4, lo que refleja una tendencia positiva en la organización.

No obstante, aproximadamente un tercio de los trabajadores manifiesta insatisfacción (niveles 1 o 2), lo que los convierte en potenciales candidatos a rotación.

Considerando la misma escala ordinal, se observa que la mayoría de los empleados se declara satisfecha con su equilibrio trabajo–vida.

La percepción general dentro de la empresa es positiva, ya que solo un grupo reducido manifiesta insatisfacción en este aspecto.

Esta variable resulta especialmente interesante de analizar en conjunto con otras, como las horas extras, para identificar posibles relaciones que incidan en la rotación.

Se observa que 416 empleados realizan horas extras. Este grupo puede presentar una mayor propensión a la rotación, ya que la carga laboral adicional suele influir en la satisfacción y el equilibrio trabajo–vida.

#3. Análisis bivariado: ## A continuación, procedemos a codificar la variable objetivo (rotación) para facilitar el análisis estadístico.

El primer paso consiste en verificar la correlación entre las variables numéricas, con el fin de identificar posibles relaciones lineales y su impacto en la variable de rotación.

Lamentablemente, entre las variables numéricas seleccionadas no se observa una correlación evidente.

Las correlaciones obtenidas son de baja magnitud, lo que indica que no existe una relación lineal significativa entre ellas.

Al incluir la variable de rotación codificada, se confirma que tampoco presenta una correlación relevante con estas variables.

Para complementar este análisis y explorar posibles patrones no lineales, procederemos a utilizar otro tipo de representaciones gráficas.

Esta gráfica resulta muy ilustrativa. Se observa que a mayor nivel de satisfacción laboral, menor es la tasa de rotación.

En todos los niveles, los porcentajes de rotación se mantienen por debajo del 25 %, aunque se identifican diferencias relevantes:

##los empleados con baja satisfacción (nivel 1) presentan una rotación cercana al 23 %, mientras que aquellos con alta satisfacción (nivel 4) muestran un valor considerablemente menor, alrededor del 11 %, lo que representa una reducción de 12 puntos porcentuales.

Con la variable equilibrio trabajo–vida se observa un patrón similar.

##Los empleados con bajo equilibrio (nivel 1) presentan una rotación cercana al 31 %, lo que constituye un valor considerablemente alto. ## A medida que el equilibrio mejora, la rotación tiende a disminuir de forma progresiva. ## Sin embargo, en el nivel 4 se aprecia un ligero repunte de alrededor de 3 puntos porcentuales, alcanzando un valor semejante al observado en el nivel 2.

Tal como se había planteado en la hipótesis, las horas extras muestran una relación significativa con la rotación.

Entre los empleados que no realizan horas extras, la tasa de rotación es de aproximadamente 10 %,

mientras que en aquellos que sí las realizan la rotación asciende a cerca del 30 %, evidenciando una diferencia sustancial entre ambos grupos.

En cuanto a la distancia al lugar de trabajo, se observa que los empleados que sí rotaron presentan una mayor dispersión en los valores.

La media de este grupo es de aproximadamente 9 km, frente a los 7 km de quienes no rotaron.

Además, el tercer cuartil (Q3) alcanza los 17 km en el grupo que rotó, mientras que en ambos casos el límite superior se mantiene similar, lo que indica que las distancias extremas no son un factor diferenciador.

En el caso del porcentaje de aumento salarial, tanto los empleados que rotaron como los que no rotaron presentan una media similar de 14 %.

La diferencia entre ambos grupos se aprecia únicamente en el tercer cuartil (Q3):

para quienes no rotaron, el Q3 alcanza aproximadamente 18 %, mientras que para quienes sí rotaron es ligeramente menor (17,25 %).

Aunque esta diferencia no resulta muy significativa en términos generales, podría tener mayor impacto en empleados con niveles salariales más altos, donde las expectativas de incremento suelen ser mayores.

Contrario a lo que podría suponerse, los empleados que rotaron habían recibido una promoción en un período relativamente más reciente.

El límite superior (LS) para este grupo es de 6 años, frente a los 7 años observados en quienes no rotaron.

En ambos casos, la media se sitúa en 1 año, aunque el tercer cuartil (Q3) difiere: 3 años para los que no rotaron y 2 años para los que sí lo hicieron.

Esto puede explicarse porque, tras obtener una promoción, algunos empleados se sienten en mejores condiciones para postularse a nuevas oportunidades laborales, lo que incrementa la rotación.

Para ampliar este análisis, procederemos a comparar otras variables entre sí.

En general, los porcentajes de rotación según los niveles de satisfacción laboral son semejantes.

##La principal diferencia se observa en el grupo 2, donde la rotación es aproximadamente 4 puntos porcentuales menor en los empleados que sí realizan horas extras. ##En contraste, en el grupo 4 (muy satisfechos), la rotación se reduce en 4 puntos porcentuales para aquellos que no realizan horas extras.

Algo similar ocurre con la variable equilibrio trabajo–vida.

En los grupos 1 y 3 los porcentajes de rotación son prácticamente semejantes,

mientras que en el grupo 2 la rotación es 3 puntos porcentuales mayor en los empleados que sí realizan horas extras.

Por el contrario, en el grupo 4 la rotación es 3 puntos porcentuales menor para quienes no realizan horas extras, mostrando un patrón muy parecido al observado en la variable de satisfacción laboral.

La relación observada entre equilibrio trabajo–vida y satisfacción laboral resulta muy semejante, mostrando patrones consistentes entre ambas variables.

4. Estimación del modelo:

##Considerando como variable de respuesta la rotación y como covariables las seleccionadas previamente, procedemos a estimar un modelo logístico básico.

## 
## Call:
## lm(formula = Rot_codificada ~ Satisfación_Laboral + Equilibrio_Trabajo_Vida + 
##     Horas_Extra + Distancia_Casa + Porcentaje_aumento_salarial + 
##     Años_ultima_promoción, data = datos_fil)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.46795 -0.18432 -0.09567 -0.03364  1.01931 
## 
## Coefficients:
##                              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                  0.149920   0.042394   3.536 0.000418 ***
## Satisfación_Laboral.L       -0.080984   0.018752  -4.319 1.68e-05 ***
## Satisfación_Laboral.Q       -0.001350   0.018882  -0.071 0.943014    
## Satisfación_Laboral.C       -0.024077   0.018981  -1.268 0.204829    
## Equilibrio_Trabajo_Vida.L   -0.087607   0.032985  -2.656 0.007994 ** 
## Equilibrio_Trabajo_Vida.Q    0.095810   0.026748   3.582 0.000352 ***
## Equilibrio_Trabajo_Vida.C   -0.008153   0.018558  -0.439 0.660505    
## Horas_ExtraSi                0.202085   0.020421   9.896  < 2e-16 ***
## Distancia_Casa               0.003269   0.001135   2.881 0.004027 ** 
## Porcentaje_aumento_salarial -0.001320   0.002517  -0.524 0.600055    
## Años_ultima_promoción       -0.003531   0.002852  -1.238 0.215907    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.3518 on 1459 degrees of freedom
## Multiple R-squared:  0.0915, Adjusted R-squared:  0.08528 
## F-statistic: 14.69 on 10 and 1459 DF,  p-value: < 2.2e-16

Así podemos observar que:

Las variables Satisfacción laboral y Equilibrio de vida, dado que son ordinales, nos dan los valores de los coeficientes L, Q, y C. Entre estos, el valor lineal de ambas, que es negativo, nos muestran que entre más grande es el nivel de satisfacción y de equilibrio de vida, menor es la probabilidad de rotación. Por lo tanto, confirma nuestra hipótesis inicial.

Respecto a los empleados que hacen horas extras hay un probabilidad de 20 % superior a que haya rotación. Sucede de maera similar con la distancia a casa puesto que por cada kilométro adicional hay un 3,3 % de posibilidad de rotación. El coeficiente negativo del porcentaje de aumento salarial nos dice que entre mayor es el porcentaje, menor es la probabilidad de rotación y de igual manera con años desde la última promoción pues entre más años haya, menos rotación existe, lo que contradice nuestra hipótesis.

Sin embargo, respecto al valor de R2 que es 9,15 %, podemos definir que las variables propuestas no explican la variabilidad de las rotaciones. Entonces, usaremos una estimación paso a paso:

##                        Step Df  Deviance Resid. Df Resid. Dev       AIC
## 1                           NA        NA      1469   198.7898 -2939.131
## 2             + Horas_Extra -1 12.041506      1468   186.7483 -3028.986
## 3     + Satisfación_Laboral -3  2.591249      1465   184.1570 -3043.526
## 4 + Equilibrio_Trabajo_Vida -3  2.332180      1462   181.8249 -3056.261
## 5          + Distancia_Casa -1  1.004470      1461   180.8204 -3062.405

En el procedimiento stepwise, la primera variable añadida fue Horas extras, con lo cual el modelo perdió un grado de libertad, pero al mismo tiempo se observó una reducción significativa del Deviance y del AIC, lo que indica una mejora en el ajuste.

Posteriormente se incorporó la variable Satisfacción laboral, manteniéndose la tendencia a la disminución del AIC.

El mismo efecto se observó al añadir Equilibrio trabajo–vida y, finalmente, Distancia a casa, consolidando un modelo más parsimonioso y explicativo.

La inclusión de variables adicionales no resultó necesaria, dado que no aportaban mejoras sustanciales al ajuste global del modelo.

## 
## Call:
## lm(formula = Rot_codificada ~ Horas_Extra + Satisfación_Laboral + 
##     Equilibrio_Trabajo_Vida + Distancia_Casa, data = datos_fil)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.45761 -0.18393 -0.09444 -0.03117  0.99382 
## 
## Coefficients:
##                            Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                0.122527   0.017787   6.888 8.36e-12 ***
## Horas_ExtraSi              0.202495   0.020417   9.918  < 2e-16 ***
## Satisfación_Laboral.L     -0.080695   0.018744  -4.305 1.78e-05 ***
## Satisfación_Laboral.Q     -0.001948   0.018866  -0.103 0.917754    
## Satisfación_Laboral.C     -0.024258   0.018977  -1.278 0.201347    
## Equilibrio_Trabajo_Vida.L -0.088126   0.032966  -2.673 0.007596 ** 
## Equilibrio_Trabajo_Vida.Q  0.096334   0.026738   3.603 0.000325 ***
## Equilibrio_Trabajo_Vida.C -0.008342   0.018528  -0.450 0.652585    
## Distancia_Casa             0.003230   0.001134   2.849 0.004449 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.3518 on 1461 degrees of freedom
## Multiple R-squared:  0.09039,    Adjusted R-squared:  0.08541 
## F-statistic: 18.15 on 8 and 1461 DF,  p-value: < 2.2e-16

El valor de R^2 del modelo se redujo a aproximadamente 9 %, lo que confirma que esta medida no resulta la más adecuada para evaluar su desempeño.

Por tal motivo, se utilizará principalmente el AIC (Criterio de Información de Akaike) como referencia para comparar y seleccionar los modelos, dado que permite valorar de manera más precisa el equilibrio entre ajuste y complejidad.

## [1] 1113.481
## [1] 1111.275

En efecto, el modelo 2 resulta superior al inicial. Al emplear un menor número de variables, logra un mejor ajuste y presenta un balance más adecuado entre simplicidad y capacidad explicativa.

No obstante, los valores obtenidos siguen siendo relativamente bajos, por lo que es pertinente considerar algún tipo de transformación para mejorar el desempeño del modelo.

Dado que la variable de respuesta es binaria, se inicia con una transformación logística, regresando a la variable original en formato de factor con las categorías “Sí” y “No”.

## 
## Call:
## glm(formula = Rotacion ~ Horas_Extra + Satisfación_Laboral + 
##     Equilibrio_Trabajo_Vida + Distancia_Casa, family = "binomial", 
##     data = datos_fil)
## 
## Coefficients:
##                            Estimate Std. Error z value Pr(>|z|)    
## (Intercept)               -2.132969   0.146331 -14.576  < 2e-16 ***
## Horas_ExtraSi              1.403519   0.151279   9.278  < 2e-16 ***
## Satisfación_Laboral.L     -0.664348   0.151782  -4.377  1.2e-05 ***
## Satisfación_Laboral.Q     -0.092347   0.151484  -0.610 0.542118    
## Satisfación_Laboral.C     -0.196306   0.151753  -1.294 0.195807    
## Equilibrio_Trabajo_Vida.L -0.555100   0.228889  -2.425 0.015300 *  
## Equilibrio_Trabajo_Vida.Q  0.666123   0.191779   3.473 0.000514 ***
## Equilibrio_Trabajo_Vida.C -0.006311   0.142931  -0.044 0.964783    
## Distancia_Casa             0.024829   0.008847   2.807 0.005008 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 1298.6  on 1469  degrees of freedom
## Residual deviance: 1171.5  on 1461  degrees of freedom
## AIC: 1189.5
## 
## Number of Fisher Scoring iterations: 5

Al tratarse de un modelo de regresión logística, los coeficientes estimados se interpretan en términos de log-odds.

##Por lo tanto, es necesario aplicar la función exponencial a cada coeficiente para obtener los odds ratios, que representan los valores reales e interpretables del efecto de cada variable sobre la probabilidad de rotación.

##               (Intercept)             Horas_ExtraSi     Satisfación_Laboral.L 
##                 0.1184849                 4.0694953                 0.5146089 
##     Satisfación_Laboral.Q     Satisfación_Laboral.C Equilibrio_Trabajo_Vida.L 
##                 0.9117888                 0.8217605                 0.5740150 
## Equilibrio_Trabajo_Vida.Q Equilibrio_Trabajo_Vida.C            Distancia_Casa 
##                 1.9466761                 0.9937091                 1.0251395

Obtenemos:

Los empleados que realizan horas extras tienen aproximadamente 4 veces más probabilidad de rotar, y esta variable resulta altamente significativa en el modelo.

En cuanto a la distancia a casa, por cada kilómetro adicional la probabilidad de rotación aumenta en un 2,5 %, lo que confirma la hipótesis inicial.

Para las variables ordinales, se interpreta principalmente el componente lineal (L). Un coeficiente de satisfacción laboral de 0.515 indica que, a medida que aumenta el nivel de satisfacción, la probabilidad de rotación se reduce prácticamente a la mitad.

De forma similar, el equilibrio trabajo–vida muestra una reducción aproximada del 43 % en la probabilidad de rotación por cada nivel adicional.

Además, el componente cuadrático (Q) de esta variable también resulta significativo, lo que sugiere la presencia de una relación no lineal entre equilibrio trabajo–vida y la rotación.

## [1] 1189.478

El valor del AIC también mostró una reducción, lo que confirma una mejora en el ajuste del modelo sin incrementar su complejidad.

##                                  2.5 %      97.5 %
## (Intercept)               -2.426174283 -1.85202507
## Horas_ExtraSi              1.108193462  1.70173914
## Satisfación_Laboral.L     -0.964155030 -0.36829011
## Satisfación_Laboral.Q     -0.389682672  0.20475935
## Satisfación_Laboral.C     -0.496679281  0.09914363
## Equilibrio_Trabajo_Vida.L -1.005254839 -0.10528126
## Equilibrio_Trabajo_Vida.Q  0.285278765  1.03840182
## Equilibrio_Trabajo_Vida.C -0.288902712  0.27202304
## Distancia_Casa             0.007346631  0.04206480

A partir de los intervalos de confianza se pueden reafirmar los hallazgos anteriores.

Los componentes cuadrático (Q) de Satisfacción laboral y cúbico (C) tanto de Satisfacción laboral como de Equilibrio trabajo–vida no resultan significativos, ya que sus intervalos incluyen el valor cero.

En contraste, se confirma la relación positiva de la rotación con las variables Horas extras, Distancia a casa y el componente cuadrático de Equilibrio trabajo–vida (Q).

Asimismo, se mantiene la relación negativa con el componente lineal (L) de Satisfacción laboral y de Equilibrio trabajo–vida, lo que respalda la hipótesis de que mayores niveles de satisfacción y de equilibrio reducen la probabilidad de rotación.

## [1] 127.1047
## [1] 1.125836e-23

5. Evaluación:

Para evaluar el desempeño del modelo, dividiremos la base de datos en dos subconjuntos: entrenamiento y prueba.

Utilizaremos la librería caTools para realizar esta partición, aplicando una separación 70 % para entrenamiento y 30 % para prueba, lo que permitirá validar la capacidad predictiva del modelo de forma más objetiva.

Definimos la variable de respuesta correspondiente a la rotación, la cual será utilizada para entrenar y evaluar el modelo en los subconjuntos de datos establecidos.

Establecemos una semilla aleatoria con el fin de garantizar la reproducibilidad de los resultados en la partición de los datos y en las evaluaciones posteriores del modelo.

Se procede a escalar los datos, con el objetivo de normalizar las variables numéricas y garantizar que todas contribuyan de manera equilibrada al proceso de modelado.

Utilizamos el modelo logístico final previamente seleccionado, aplicándolo sobre el conjunto de entrenamiento ya escalado:

## 
## Call:
## glm(formula = y_train ~ ., family = "binomial", data = as.data.frame(X_train_scaled))
## 
## Coefficients:
##                           Estimate Std. Error z value Pr(>|z|)    
## (Intercept)               -1.90786    0.13955 -13.671  < 2e-16 ***
## Horas_ExtraSi              1.32292    0.17952   7.369 1.72e-13 ***
## Satisfación_Laboral.L     -0.60453    0.17751  -3.406  0.00066 ***
## Satisfación_Laboral.Q      0.02341    0.18049   0.130  0.89680    
## Satisfación_Laboral.C     -0.20760    0.18365  -1.130  0.25831    
## Equilibrio_Trabajo_Vida.L -0.27600    0.28333  -0.974  0.33000    
## Equilibrio_Trabajo_Vida.Q  0.47649    0.23464   2.031  0.04229 *  
## Equilibrio_Trabajo_Vida.C  0.17833    0.17122   1.042  0.29762    
## Distancia_Casa             0.22834    0.08444   2.704  0.00685 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 909.69  on 1029  degrees of freedom
## Residual deviance: 830.91  on 1021  degrees of freedom
## AIC: 848.91
## 
## Number of Fisher Scoring iterations: 5
##               (Intercept)             Horas_ExtraSi     Satisfación_Laboral.L 
##                 0.1483972                 3.7543795                 0.5463293 
##     Satisfación_Laboral.Q     Satisfación_Laboral.C Equilibrio_Trabajo_Vida.L 
##                 1.0236852                 0.8125326                 0.7588150 
## Equilibrio_Trabajo_Vida.Q Equilibrio_Trabajo_Vida.C            Distancia_Casa 
##                 1.6104110                 1.1952249                 1.2565126

En este caso, el modelo ajustó algunos de sus parámetros debido a la división entre los conjuntos de entrenamiento y prueba. Aunque se observa una reducción en el AIC y una ligera disminución de los coeficientes, las variables continúan proporcionando la misma información.

Realizamos las predicciones con el conjunto de prueba.

## 
## Call:
## roc.default(response = y_test, predictor = predic)
## 
## Data: predic in 369 controls (y_test No) < 71 cases (y_test Si).
## Area under the curve: 0.743

Hemos obtenido un valor de área bajo la curva (AUC) de 0,69, lo cual indica un desempeño aceptable del modelo.

Esta gráfica, junto con un AUC de aproximadamente 0,70, indica que el modelo tiene un desempeño moderado en sus predicciones, es decir, que aproximadamente 7 de cada 10 predicciones son correctas.

Aquí observamos varios aspectos importantes: el modelo es muy eficaz para predecir a quienes no rotaron, pero tiene una sensibilidad baja, de solo un 4 %, para identificar a quienes sí rotaron, que es nuestra variable objetivo

6. Conclusiones:

El análisis realizado evidencia que la rotación de empleados está fuertemente influenciada por factores relacionados con la carga laboral, la satisfacción personal y las condiciones del entorno de trabajo. Las variables más significativas identificadas fueron la realización de horas extras, la satisfacción laboral, el equilibrio trabajo–vida y la distancia al lugar de trabajo. Se observó que los empleados que realizan horas extras presentan una probabilidad significativamente mayor de rotación, mientras que un mayor nivel de satisfacción y un equilibrio adecuado entre trabajo y vida personal disminuyen dicha probabilidad. La distancia al trabajo, aunque con un efecto menor, también contribuye a la propensión a rotar, especialmente en quienes residen más lejos de la empresa.

##Con base en estos hallazgos, se recomienda implementar estrategias que promuevan la satisfacción laboral y el equilibrio trabajo–vida, tales como programas de capacitación y desarrollo profesional, ajustes en la política de compensación y beneficios, planes de reconocimiento y motivación laboral, así como medidas para reducir la necesidad de realizar horas extras cuando sea posible. Estas acciones permitirán retener el talento clave, mejorar la estabilidad organizacional y fomentar un ambiente laboral más comprometido y productivo.