Actividad 3: Caso ROTACIÓN

CONTEXTO DEL CASO

En una organización, se busca comprender y prever los factores que influyen en la rotación de empleados entre distintos cargos. La empresa ha recopilado datos históricos sobre el empleo de sus trabajadores, incluyendo variables como la antigüedad en el cargo actual, el nivel de satisfacción laboral, el salario actual, edad y otros factores relevantes. La gerencia planea desarrollar un modelo de regresión logística que permita estimar la probabilidad de que un empleado cambie de cargo en el próximo período y determinar cuales factores indicen en mayor proporción a estos cambios.

Objetivo

Con esta información, la empresa podrá tomar medidas proactivas para retener a su talento clave, identificar áreas de mejora en la gestión de recursos humanos y fomentar un ambiente laboral más estable y tranquilo. La predicción de la probabilidad de rotación de empleados ayudará a la empresa a tomar decisiones estratégicas informadas y a mantener un equipo de trabajo comprometido y satisfecho en sus roles actuales.

Diccionario de datos.

-Rendimiento laboral: 1= bajo, 2=medio, 3=alto, 4=Muy alto.

-Distancia de la casa: kilómetros de distancia desde la casa.

-Educación: 1=primaria, 2=secundaria, 3=técnico/tecnólogo 4=pregrado y 5=posgrado.

-Satisfacción ambiental: 1=Muy insatisfecho, 2=insatisfecho, 3=satisfecho y 4=Muy insatisfecho.

-Satisfacción laboral: 1=Muy insatisfecho, 2=insatisfecho, 3=satisfecho y 4=Muy insatisfecho.

-Trabajos anteriores: cantidad de trabajos antes de ingresar a la empresa.

-Equilibrio trabajo vida: 1=Muy bajo, 2=bajo, 3=Medio, 4=alto.

ANÁLISIS EXPLORATORIO DE LOS DATOS

1. REVISIÓN DE LOS DATOS

La siguiente sección pretende efectuar una verificación de las variables contenidas en la base de datos, donde se pudieron identificar un total de 24 variables y 1470 registros, identificando variables tipo categorico y númerico.

## Rows: 1,470
## Columns: 24
## $ Rotación                    <chr> "Si", "No", "Si", "No", "No", "No", "No", …
## $ Edad                        <dbl> 41, 49, 37, 33, 27, 32, 59, 30, 38, 36, 35…
## $ `Viaje de Negocios`         <chr> "Raramente", "Frecuentemente", "Raramente"…
## $ Departamento                <chr> "Ventas", "IyD", "IyD", "IyD", "IyD", "IyD…
## $ Distancia_Casa              <dbl> 1, 8, 2, 3, 2, 2, 3, 24, 23, 27, 16, 15, 2…
## $ Educación                   <dbl> 2, 1, 2, 4, 1, 2, 3, 1, 3, 3, 3, 2, 1, 2, …
## $ Campo_Educación             <chr> "Ciencias", "Ciencias", "Otra", "Ciencias"…
## $ Satisfacción_Ambiental      <dbl> 2, 3, 4, 4, 1, 4, 3, 4, 4, 3, 1, 4, 1, 2, …
## $ Genero                      <chr> "F", "M", "M", "F", "M", "M", "F", "M", "M…
## $ Cargo                       <chr> "Ejecutivo_Ventas", "Investigador_Cientifi…
## $ Satisfación_Laboral         <dbl> 4, 2, 3, 3, 2, 4, 1, 3, 3, 3, 2, 3, 3, 4, …
## $ Estado_Civil                <chr> "Soltero", "Casado", "Soltero", "Casado", …
## $ Ingreso_Mensual             <dbl> 5993, 5130, 2090, 2909, 3468, 3068, 2670, …
## $ Trabajos_Anteriores         <dbl> 8, 1, 6, 1, 9, 0, 4, 1, 0, 6, 0, 0, 1, 0, …
## $ Horas_Extra                 <chr> "Si", "No", "Si", "Si", "No", "No", "Si", …
## $ Porcentaje_aumento_salarial <dbl> 11, 23, 15, 11, 12, 13, 20, 22, 21, 13, 13…
## $ Rendimiento_Laboral         <dbl> 3, 4, 3, 3, 3, 3, 4, 4, 4, 3, 3, 3, 3, 3, …
## $ Años_Experiencia            <dbl> 8, 10, 7, 8, 6, 8, 12, 1, 10, 17, 6, 10, 5…
## $ Capacitaciones              <dbl> 0, 3, 3, 3, 3, 2, 3, 2, 2, 3, 5, 3, 1, 2, …
## $ Equilibrio_Trabajo_Vida     <dbl> 1, 3, 3, 3, 3, 2, 2, 3, 3, 2, 3, 3, 2, 3, …
## $ Antigüedad                  <dbl> 6, 10, 0, 8, 2, 7, 1, 1, 9, 7, 5, 9, 5, 2,…
## $ Antigüedad_Cargo            <dbl> 4, 7, 0, 7, 2, 7, 0, 0, 7, 7, 4, 5, 2, 2, …
## $ Años_ultima_promoción       <dbl> 0, 1, 0, 3, 2, 3, 0, 0, 1, 7, 0, 0, 4, 1, …
## $ Años_acargo_con_mismo_jefe  <dbl> 5, 7, 0, 0, 2, 6, 0, 0, 8, 7, 3, 8, 3, 2, …

No se encuentran datos faltantes en nuestra base de datos.

2. SELECCIÓN DE VARIABLES

Se deben seleccionar 03 variables categóricas y 03 variables cuantitativas planteando unas hipótesis que justifiquen el tipo de relación con la varibale objetivo (rotación), se encuentra que hay un total de 8 varibles tipo caracter y 16 variables tipo númerica.

Data summary
Name rotacion
Number of rows 1470
Number of columns 24
_______________________
Column type frequency:
character 8
numeric 16
________________________
Group variables None

Variable type: character

skim_variable n_missing complete_rate min max empty n_unique whitespace
Rotación 0 1 2 2 0 2 0
Viaje de Negocios 0 1 8 14 0 3 0
Departamento 0 1 2 6 0 3 0
Campo_Educación 0 1 4 11 0 6 0
Genero 0 1 1 1 0 2 0
Cargo 0 1 7 23 0 9 0
Estado_Civil 0 1 6 10 0 3 0
Horas_Extra 0 1 2 2 0 2 0

Variable type: numeric

skim_variable n_missing complete_rate mean sd p0 p25 p50 p75 p100 hist
Edad 0 1 36.92 9.14 18 30 36 43 60 ▂▇▇▃▂
Distancia_Casa 0 1 9.19 8.11 1 2 7 14 29 ▇▅▂▂▂
Educación 0 1 2.91 1.02 1 2 3 4 5 ▂▃▇▆▁
Satisfacción_Ambiental 0 1 2.72 1.09 1 2 3 4 4 ▅▅▁▇▇
Satisfación_Laboral 0 1 2.73 1.10 1 2 3 4 4 ▅▅▁▇▇
Ingreso_Mensual 0 1 6502.93 4707.96 1009 2911 4919 8379 19999 ▇▅▂▁▂
Trabajos_Anteriores 0 1 2.69 2.50 0 1 2 4 9 ▇▃▂▂▁
Porcentaje_aumento_salarial 0 1 15.21 3.66 11 12 14 18 25 ▇▅▃▂▁
Rendimiento_Laboral 0 1 3.15 0.36 3 3 3 3 4 ▇▁▁▁▂
Años_Experiencia 0 1 11.28 7.78 0 6 10 15 40 ▇▇▂▁▁
Capacitaciones 0 1 2.80 1.29 0 2 3 3 6 ▂▇▇▂▃
Equilibrio_Trabajo_Vida 0 1 2.76 0.71 1 2 3 3 4 ▁▃▁▇▂
Antigüedad 0 1 7.01 6.13 0 3 5 9 40 ▇▂▁▁▁
Antigüedad_Cargo 0 1 4.23 3.62 0 2 3 7 18 ▇▃▂▁▁
Años_ultima_promoción 0 1 2.19 3.22 0 0 1 3 15 ▇▁▁▁▁
Años_acargo_con_mismo_jefe 0 1 4.12 3.57 0 2 3 7 17 ▇▂▅▁▁

Hipótesis Variables Cuantitativas

Edad: Se espera que entre menor edad exista una mayor rotación teniendo en cuenta que las personas jóvenes apenas están adquiriendo experiencia y puede llegar a ser común que roten más seguido al tener una mayor disponibilidad para adaptarse más rápido a otras dependencias, caso contrario una persona con más años, se espera que tenga una mayor experiencia, por lo tanto, puede que ese conocimiento influya en no rotar seguido ya que es alguien que aporta de manera significativa a su área y le sería más complejo aprender de otra área funcional.

Ingreso mensual: se cree que entre menor sea el ingreso las personas tiendan a buscar rotar, con el fin de aumentar su salario y encontrar mejores oportunidades económicas dentro de la compañía que estén acorde con sus responsabilidades y carga laboral.

Distancia a casa: hoy en día es una realidad que las personas tiendan a vivir cerca a sus trabajos, esto les da una calidad de vida mejor, al evitarse largas jornadas de transporte para llegar a una oficina, no existe una variable de tipo de trabajo, que especifique si es home office o presencial, por lo tanto, asumiremos que las personas deben realizar desplazamiento hacia su lugar de trabajo, vivir cerca les brindará mejor calidad de vida

Hipótesis Variables Categóricas

Estado Civil: se espera que los empleados con estado civil casado no roten, considerando que deseen mantener una estabilidad familiar y económica, teniendo en cuenta que se asume que los empleados tienen más responsabilidad financiera, por el contrario, se esperaría que el personal soltero y divorciado tiendan a rotar más porque pueden tener menos responsabilidades familiares y es posible que estos cambios les sientan mejor.

Género: se conoce que a nivel mundial el género influye en los ingresos percibidos, donde las mujeres tienden a tener salarios más bajos que los hombres, siendo muchas veces los cargos y sus responsabilidades similares, por lo tanto, se espera que el género femenino rote menos que el masculino debido a que se les puede dificultar encontrar mejores oportunidades.

Viaje de negocios: se espera que para esta variable el personal que realice viajes con mayor frecuencia tienda a realizar más rotaciones, lo anterior teniendo en cuenta, que, al realizar más viajes, signifique que quieran rotar buscando una estabilidad en una ubicación especifica y tener más tiempo para actividades de ocio.

3. ANÁLISIS UNIVARIADO

A continuación se realizará un análisis univariado de las variables seleccionadas en las diferentes hipótesis planteadas.

Gráficas variable númericas

La variable edad muestra una distribución que no es normal, las edades de las personas se encuentran entre los 18 y 60 años con una media de 36.9, el 50% de los datos oscilan entre los 30 y 43 años, como se mencionó en la hipótesis se espera que la gente con menor edad rote más que los más viejos y con más experiencia de la compañía.

La gráfica de ingresos mensuales esta ligeramente sesgada hacia la izquierda, lo cual significa que la tendencia es a presentar valores de ingresos más bajos, lo cual podría suponer que estas personas sean más propensas a rotar buscando un mejor salario, por el contrario, hay un sesgo de valores atípicos que son las personas con sueldos muy altos y que seguramente debido a esa estabilidad no van a querer rotar. Los valores varían entre 1009 y 19999, con una media de 4919. El 50% de los datos se encuentran entre 2911 y 8379.

La última gráfica de la distancia a la casa nos indica que casi la mitad de las personas prefieren vivir cerca al trabajo, lo cual indicaría que no están dispuestos a rotar para no afectar esa comodidad, mientras que la otra mitad vive en zonas más distantes del trabajo y podrían pensar en rotar laboralmente, los datos van desde 1 km a 29 km, donde el 50% de los empleados se encuentran en distancias de 2 a 14 km con una media de 9.1 km.

Gráficas variables categóricas

De la variable estado civil se puede observar que la mayoría del personal es casado, por lo tanto, se espera que los 673 no deseen rotar ya que podrían estar en un estado de estabilidad económica y emocional, se espera que el personal divorciado tenga una rotación mayor tal vez al intentar realizar un cambio de ambiente por su situación, el personal de soltero también se espera que tenga una alta rotación debido a que son más propensos a tener nuevas experiencias.

Para el género notamos que el 60% de la población es masculina, y un 40% es personal femenino, como lo mencionamos anteriormente se espera que las mujeres tengan una mayor rotación en referencia con los hombres, debido a la desigualdad que se presenta en los salarios entre los diferentes géneros.

Finalmente, se puede observar que 70.9% (1043) del personal raramente viaja y un 10.2% (150) no viaja, por lo que se esperaría que estas personas tengan una baja rotación, ya que cuentan con mayor estabilidad.

4 ANÁLISIS BIVARIADO

Realiza un análisis de bivariado en donde la variable respuesta sea rotacion codificada de la siguiente manera (y=1 es si rotación, y=0 es no rotación). Con base en estos resultados identifique cuales son las variables determinantes de la rotación e interpretar el signo del coeficiente estimado. Compare estos resultados con la hipótesis planteada en el punto 2.

Variables númericas

La gráfica anterior nos permite corroborar la hipótesis planteada en la que se esperaba que a menor edad exista una rotación mayor, y esto se puede evidenciar en los grupos de 0-20, 20-30 y 30-40, después de los 40 se espera que la rotación disminuya.

La gráfica anterior confirma la hipótesis planteada en la que se cree que entre más bajo sea el salario el personal tiende a rotar, por ejemplo, las personas con un salario entre 2000 y 4000 tiene un 23.3% de probabilidad de rotación. Esta rotación puede ser motivada con el deseo de buscar mejores salarios.

Se confirma la hipótesis de la distancia a la casa, teniendo en cuenta que aquellos que viven cerca a sus trabajos son menos propensos a rotación, sin embargo, se puede evidenciar que sin importar la distancia el personal tiene un alto porcentaje de no rotar, por lo tanto, tomaremos otra variable que influya más en la rotación del personal.

La variable de años de experiencia, se puede evidenciar que entre menos años de experiencia tenga una persona, más probabilidad tiene de rotar, por lo tanto, cambiaremos esta variable para nuestro análisis.

Correlaciones variables númericas

De la anterior gráfica de correlaciones podemos corroborar y afirmar las hipótesis planteadas, ya que nos interesan los coeficientes de la primera fila se puede dar las siguientes conclusiones, primero se espera a que a mayor edad exista menor rotación, segundo para el ingreso mensual su valor negativo indica que a mayor ingreso tenga una persona, menor será la tasa de rotación. Por último la variable de años de experiencia se puede confirmar que a mayor años de experiencia menor tasa de rotación.

Variables categóricas

La anterior gráfica nos permite comprobar la hipótesis planteada en donde se esperaba que el personal soltero presentará una mayor rotación, caso contrario, al personal casado que presenta menor rotación, los resultados nos sorprenden en la categoria de divorciado ya que rotan menos de lo que se esperaba.

La anterior gráfica confirma la hipótesis planteada para genero femenino, donde se esperaba que su tendencia a rotar fuera menor en comparación con los hombres, teniendo en cuenta que en muchas ocaciones es más complejo para la mujeres acceder a mejores cargos o empleos.

Finalmente, la última variable refleja que aquellas personas que viajan frecuentemene tienden a realizar más rotaciones, mientras que aquellos que viajan raramente o no viajan registran menor tasa de rotación, reafirmando la hipótesis expuesta.

Pruebas de hipótesis

## 
##  Shapiro-Wilk normality test
## 
## data:  Edad_rel
## W = 0.81041, p-value = 3.824e-09
## 
##  Shapiro-Wilk normality test
## 
## data:  Ingreso_rel
## W = 0.70532, p-value < 2.2e-16
## 
##  Shapiro-Wilk normality test
## 
## data:  Experiencia_rel
## W = 0.64338, p-value = 1.22e-12

Para los datos númericos se pueden observar que su valor p es menor a 0.05, por lo tanto, se rechaza la normalidad.

## 
##  Pearson's Chi-squared test
## 
## data:  Estado_civil_rel
## X-squared = 46.164, df = 2, p-value = 9.456e-11
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  Genero_rel
## X-squared = 1.117, df = 1, p-value = 0.2906
## 
##  Pearson's Chi-squared test
## 
## data:  viaje_rel
## X-squared = 24.182, df = 2, p-value = 5.609e-06

Para los valores categóricos, empleamos el chi2, donde se puede evidenciar que el estado civil y los viajes tienen una asociación altamente significativa con la variable de rotación, mientras que el género tiene un valor p = 0.2906 lo que evidencia que no hay una asociación significativa entre hombres y mujeres y esto se evidencia en los 2 puntos porcentuales de diferencia entre las mujeres que rotan (15%) y los hombres que rota (17%).

5 ESTIMACIÓN DEL MODELO DE LOGIT

Realiza la estimación de un modelo de regresión logístico en el cual la variable respuesta es rotacion (y=1 es si rotación, y=0 es no rotación) y las covariables las 6 seleccionadas en el punto 1. Interprete los coeficientes del modelo y la significancia de los parámetros.

Para este punto emplearemos la base de datos rotacion_biv que ya tiene la variable rotación transformada a 0 y 1, así mismo se creará un nuevo data set que solo incluya las 6 variables a evaluar, es importante conocer que estas variables son de tipo númerica y categórica, por lo tanto, se crearan unas varibles dummy para codificar las variables categóricas.

Verificamos que los datos del nuevo data frame sean la mismos que el original y corremos el modelo:

## 
##    0    1 
## 1233  237
## 
## Call:
## glm(formula = Rotación ~ Edad + Ingreso_Mensual + Años_Experiencia + 
##     Genero + Estado_civil_dummy + Viaje_Negocios_dummy, family = "binomial", 
##     data = df_modelo)
## 
## Coefficients: (2 not defined because of singularities)
##                                                         Estimate Std. Error
## (Intercept)                                           -8.219e-01  4.579e-01
## Edad                                                  -1.736e-02  1.121e-02
## Ingreso_Mensual                                       -5.992e-05  3.004e-05
## Años_Experiencia                                      -3.292e-02  1.981e-02
## Genero                                                 2.102e-01  1.538e-01
## Estado_civil_dummyEstado_CivilCasado                  -7.813e-01  1.630e-01
## Estado_civil_dummyEstado_CivilDivorciado              -1.012e+00  2.176e-01
## Estado_civil_dummyEstado_CivilSoltero                         NA         NA
## Viaje_Negocios_dummy`Viaje de Negocios`Raramente       7.602e-01  3.199e-01
## Viaje_Negocios_dummy`Viaje de Negocios`Frecuentemente  1.388e+00  3.399e-01
## Viaje_Negocios_dummy`Viaje de Negocios`No_Viaja               NA         NA
##                                                       z value Pr(>|z|)    
## (Intercept)                                            -1.795   0.0727 .  
## Edad                                                   -1.549   0.1214    
## Ingreso_Mensual                                        -1.995   0.0461 *  
## Años_Experiencia                                       -1.662   0.0965 .  
## Genero                                                  1.367   0.1717    
## Estado_civil_dummyEstado_CivilCasado                   -4.793 1.65e-06 ***
## Estado_civil_dummyEstado_CivilDivorciado               -4.651 3.30e-06 ***
## Estado_civil_dummyEstado_CivilSoltero                      NA       NA    
## Viaje_Negocios_dummy`Viaje de Negocios`Raramente        2.376   0.0175 *  
## Viaje_Negocios_dummy`Viaje de Negocios`Frecuentemente   4.084 4.42e-05 ***
## Viaje_Negocios_dummy`Viaje de Negocios`No_Viaja            NA       NA    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 1298.6  on 1469  degrees of freedom
## Residual deviance: 1180.3  on 1461  degrees of freedom
## AIC: 1198.3
## 
## Number of Fisher Scoring iterations: 5

Se plantea un segundo modelo donde se balancean las clases aplicando técnicas de smot (ajustes por clases) para crear muestras sintenticos y equiparar los modelos. donde se equipara las muestras como se presenta a continuación:

## 
##   0   1 
## 746 724

Ejecutamos el código para el segundo modelo, donde se realizó el smot, generando datos sintenticos para la clase minoritaria:

## 
## Call:
## glm(formula = Rotación ~ Edad + Ingreso_Mensual + Años_Experiencia + 
##     Genero + Estado_civil_dummy + Viaje_Negocios_dummy, family = "binomial", 
##     data = balanced_data)
## 
## Coefficients: (2 not defined because of singularities)
##                                                         Estimate Std. Error
## (Intercept)                                            1.264e+00  2.635e-01
## Edad                                                  -2.713e-02  5.797e-03
## Ingreso_Mensual                                       -3.292e-05  1.358e-05
## Años_Experiencia                                      -2.157e-02  8.438e-03
## Genero                                                 1.830e-01  9.388e-02
## Estado_civil_dummyEstado_CivilCasado                   1.236e-01  1.243e-01
## Estado_civil_dummyEstado_CivilDivorciado              -3.898e-02  1.497e-01
## Estado_civil_dummyEstado_CivilSoltero                         NA         NA
## Viaje_Negocios_dummy`Viaje de Negocios`Raramente      -1.463e-01  1.807e-01
## Viaje_Negocios_dummy`Viaje de Negocios`Frecuentemente -4.303e-02  2.098e-01
## Viaje_Negocios_dummy`Viaje de Negocios`No_Viaja               NA         NA
##                                                       z value Pr(>|z|)    
## (Intercept)                                             4.796 1.62e-06 ***
## Edad                                                   -4.680 2.87e-06 ***
## Ingreso_Mensual                                        -2.423   0.0154 *  
## Años_Experiencia                                       -2.556   0.0106 *  
## Genero                                                  1.949   0.0513 .  
## Estado_civil_dummyEstado_CivilCasado                    0.994   0.3202    
## Estado_civil_dummyEstado_CivilDivorciado               -0.260   0.7946    
## Estado_civil_dummyEstado_CivilSoltero                      NA       NA    
## Viaje_Negocios_dummy`Viaje de Negocios`Raramente       -0.809   0.4183    
## Viaje_Negocios_dummy`Viaje de Negocios`Frecuentemente  -0.205   0.8375    
## Viaje_Negocios_dummy`Viaje de Negocios`No_Viaja            NA       NA    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 2037.5  on 1469  degrees of freedom
## Residual deviance: 1937.3  on 1461  degrees of freedom
## AIC: 1955.3
## 
## Number of Fisher Scoring iterations: 4

Coeficientes modelo 1

##                                                           HR_OR
## Edad                                                  0.9827928
## Ingreso_Mensual                                       0.9999401
## Años_Experiencia                                      0.9676147
## Genero                                                1.2338782
## Estado_civil_dummyEstado_CivilCasado                  0.4578189
## Estado_civil_dummyEstado_CivilDivorciado              0.3634456
## Estado_civil_dummyEstado_CivilSoltero                        NA
## Viaje_Negocios_dummy`Viaje de Negocios`Raramente      2.1387611
## Viaje_Negocios_dummy`Viaje de Negocios`Frecuentemente 4.0084229
## Viaje_Negocios_dummy`Viaje de Negocios`No_Viaja              NA

Coeficientes modelo 2

##                                                           HR_OR
## Edad                                                  0.9732351
## Ingreso_Mensual                                       0.9999671
## Años_Experiencia                                      0.9786609
## Genero                                                1.2007760
## Estado_civil_dummyEstado_CivilCasado                  1.1315699
## Estado_civil_dummyEstado_CivilDivorciado              0.9617719
## Estado_civil_dummyEstado_CivilSoltero                        NA
## Viaje_Negocios_dummy`Viaje de Negocios`Raramente      0.8639118
## Viaje_Negocios_dummy`Viaje de Negocios`Frecuentemente 0.9578780
## Viaje_Negocios_dummy`Viaje de Negocios`No_Viaja              NA

Para este ejercicio se tuvieron en cuenta dos modelos, el primer modelo toma los datos e interpreta las varaibles sin hacer modificaciones a los registros, el segundo modelo balancea las clases aplicando técnicas de smot (ajustes por clases) para crear muestras sintenticos y equiparar los modelos, de acuerdo a lo aprendido en clase explicaremos y escogeremos el primer modelo teniendo en cuenta que ofrece una mejor calidad debido a sus valores de Null deviance, residual deviance y AIC.

Análisis Modelo 1

Variables Numéricas (Edad, Años_Experiencia, Ingreso_Mensual):

Edad: tiene un coeficiente negativo (-1.736e-02) y es no estadísticamente significativo (p-value > 0.05) No hay evidencia suficiente para rechazar la hipótesis nula, Por cada aumento de 1 año en la edad, el log-odds de que ocurra el evento de rotación disminuye en 0.01736 unidades, manteniendo constantes otras variables del modelo. El OR de 0.982, significa que por cada año adicional la probabilidad de rotar tiene una disminución del 1.72%. Donde se podría concluir que entre más años tenga una persona menor será la probabilidad de rotar

Ingreso_Mensual: tiene un coeficiente negativo (-5.992e-05) y es estadísticamente significativo (p-value < 0.05). Esto sugiere que, por cada aumento de 1 peso en los ingresos mensuales, el log-odds de rotación disminuye en 0.00005992 unidades, manteniendo constantes las otras variables. el OR es de 0.999 indica que, por cada 1 peso adicional de ingreso, la probabilidad relativa ODDS de rotación disminuye un 0.006%. Por lo tanto, podemos concluir que a medida que el ingreso mensual de un empleado aumenta, las probabilidades de rotación tienden a disminuir.

Años_Experiencia: tiene un coeficiente negativo (-3.292e-02) y estadísticamente ofrece una significancia marginal (p-value > 0.05). Esto sugiere que por cada año adicional de experiencia el log-odds de rotación disminuye en 0.03292 unidades, manteniendo contantes las otras variables. El OR es de 0.9676, esto sugiere que a medida que la experiencia en el cargo de un empleado aumenta, las probabilidades de rotación tienden a disminuir un 3.24%.

Variables Categóricas (Estado Civil, Viaje Negocios, Género)

Estado Civil Casado: tiene un coeficiente negativo (-0.7813), es estadísticamente significativo (p-value < 0.05) se rechaza la hipótesis nula. Los empleados casados tienen un log-odds de rotación de 0.7813 unidades menor que los que no son casados (los solteros son la variable de referencia). El OR es de 0.458, es decir que el odds de rotación para los casados es 0.458 veces que el de los que no casados, esto equivale a una reducción de 54.2%. Esto sugiere que los empleados casados tienen menor probabilidad de rotación.

Estado Civil Divorciado:tiene un coeficiente negativo (-0.7813), es estadísticamente significativo (p-value < 0.05) se rechaza la hipótesis nula. Los empleados divorciados tienen un log-odds de rotación 1.012 unidades menor que la categoría de referencia (solteros). El OR es de 0.363 lo que sugiere que la rotación para divorciados es 0.363 veces el de la categoría de referencia, esto equivale a una reducción del 63.7% indicando que los empleados casados tienen menor probabilidad de rotación inclusive que los que son casados.

Estado Civil Soltero: es la variable de referencia empleada para evitar multicolinealidad, de acuerdo con el análisis realizado para la variable casado y divorciado, se puede concluir que los empleados solteros son los que tienen mayor probabilidad de rotación dentro de la compañía.

Viaje negocios raramente: tienen un coeficiente positivo (0.7602), el P-value 0.0175 significa que viajar raramente por negocios está asociado significativamente con mayor rotación. Los empleados que raramente viajan por negocios tienen un log-odds de rotación 0.7602 unidades mayor que la categoría de referencia (No viaja). El OR es de 2.138, lo que equivale a un aumento del 113% con respecto a la categoría de referencia.

Viaje negocios frecuentemente: tiene un coeficiente positivo (1.388), el P-value 4.42e-05 significa que viajar frecuentemente por negocios está asociado significativamente con mayor rotación, los empleados que viajan frecuentemente por negocios tienen un log-odds de rotación de 1.388 unidades mayor que la categoría de referencia (no viaja). El OR es de 4.006, lo que equivale a que los empleados en esta categoría tienen 4 veces más probabilidad relativa de rotar que la categoría base (No viaja).

Viaje negocios - No viaja: es la variable de referencia para evitar multicolinealidad, de acuerdo con el análisis realizado con las otras dos variables, se espera que el coeficiente para la variable no viaja sea negativo y significativo, indicando que los empleados que no viajan tienen menor probabilidad de rotación.

“GeneroM” tiene un coeficiente positivo (0.1830), el valor-P (0.1717) sugiere que la variable no es estadísticamente significativa (p-value > 0.05), no hay suficiente evidencia para rechazar la hipótesis nula. Esto sugiere que no hay una diferencia significativa en las probabilidades de rotación entre géneros masculino y femenino. Si embargo el coeficiente positivo para el género M está asociado con un mayor log-odds de rotación, es decir que la rotación para hombre aumenta en 0.1830 unidades y con un OR de 1.20 se puede inferir que para los hombres la probabilidad relativa de rotación es de 20%.

6 EVALUACIÓN DEL MODELO

Evaluar el poder predictivo del modelo con base en la curva ROC y el AUC.

## Area under the curve: 0.7091

El AUC es de 0.7091,lo que indica un ajuste aceptable del modelo de predicción que permite distinguir entre los empleados que tienen una probabilidad alta de rotación y aquellos que no la tienen, es decir tiene un poder predictivo moderado para distinguir entre las dos categorías de la variable dependiente, puesto que es mayor a 0.5.

7 PREDICCIONES

Realiza una predicción de la probabilidad de que un individuo (hipótetico) rote y defina un corte para decidir si debe intervenir a este empleado o no (Psobile estrategia para motivar al empleado), se tendrán en cuenta los siguientes parametros:

Edad = 28, Ingreso_Mensual = 2500, Años_Experiencia = 5, Genero = 1, # 1 = Masculino, 0 = Femenino Estado_Civil = “Soltero”, # “Casado”, “Soltero” o “Divorciado” Viaje_Negocios = “Raramente”

## La probabilidad estimada de rotación para este individuo es: 34.25 %

Inicialmente fijaremos un punto de corte para intervención el cual se podría definiri como:

  1. Bajo Riesgo < 20% (No requiere acción inmediata)
  2. Mediano Riesgo 20% a 40% (Requiere una revisión)
  3. Alto Riesgo > 40%

Para nuestro caso el empleado representa un riesgo medio, por lo tanto una revisión a su situación actual podría ser útil dentro del departamento de recurso humano, donde se evaluen temas como compensaciones y beneficios, que puedan incluir bonos por metas o beneficios no monetarios como entrenamientos, capacitaciones y actividades de bienestar.

La reducción del riesgo por estado civil podría enfocarse en actividades que potencialicen su desarrollo social, mentorias o eventos que le permitan interactuar socialmente.

Para el manejo de viajes de negocios (Raramente), se pueden enfocar estrategias entendiendo las necesidades del empleado, por ejemplo si requiere más viajes para crecimiento, sería bueno tenerlo en cuenta en rotaciones y eventos estratégicos para motivarlo, también e simportante revisar el balance de cargas laborales y ofrecer alternativas remotas.

Finalmente se recomienda implemntar estas estrategias y realizar un monitoreo y seguimiento cada 3 meses para verificar su estado actual.

8 CONCLUSIONES

En las conclusiones adicione una discusión sobre cuál sería la estrategia para disminuir la rotación en la empresa (con base en las variables que resultaron significativas en el punto 3). Las conslusiones de este trabajo se basan en las variables significativas de las hipótesis planteadas

  1. Variables Numéricas Significativas

Ingreso Mensual:

  • Hallazgo: A mayor ingreso, menor probabilidad de rotación (aunque el efecto es marginal, por peso es pequeño, el impacto acumulado es relevante).
  • Estrategia:

–Revisar la estructura salarial para asegurar competitividad en el mercado.

–Implementar aumentos periódicos basados en desempeño y años de experiencia.

–Ofrecer bonos por metas o beneficios no monetarios (ej. bonos de retención, capacitaciones).

Años de Experiencia (significancia marginal):

  • Hallazgo: Mayor experiencia reduce la rotación, pero el efecto no es robusto.
  • Estrategia:

–Diseñar planes de desarrollo profesional para retener a empleados con mayor experiencia (ej. promociones internas, mentorías).

–Reconocimiento formal por antigüedad (ej. programas de “lealtad”, actividades de bienestar).

  1. Variables Categóricas Significativas

Estado Civil:

  • Hallazgos:Solteros tienen mayor rotación vs. casados/divorciados (reducción del 54.2% y 63.7%, respectivamente).
  • Estrategia:
  • Enfoque en solteros:

–Ofrecer beneficios que mejoren su engagement: flexibilidad horaria, oportunidades de socialización (ej. eventos de team building).

–Programas de bienestar emocional (ej. apoyo psicológico), ya que podrían sentir menor estabilidad.

Viajes de Negocios:

  • Hallazgos: Quienes viajan (especialmente frecuentemente) tienen mayor rotación (OR = 4.006 vs. no viajeros).

  • Estrategia:

  • Para viajeros frecuentes:

–Limitar viajes excesivos o redistribuir cargas.

–Compensar desgaste con días adicionales de descanso, bonos por viaje o beneficios logísticos (ej. vuelos en clase ejecutiva).

  • Para viajeros raramente:

–Investigar causas (ej. si la falta de viajes limita su crecimiento, ofrecer capacitación alternativa).

  1. Otras Consideraciones
  • Género: No es significativo, pero el coeficiente positivo en hombres sugiere monitorear posibles sesgos no detectados (ej. cultura organizacional).
  • Edad: Aunque no es significativa, la tendencia negativa indica que empleados jóvenes podrían rotar más.

–Acción: Fortalecer programas de retención para jóvenes (ej. proyectos desafiantes, plan de carrera).

Estrategia Integral:

  1. Enfoque en Compensación: Ajustar salarios y beneficios para grupos de alto riesgo (solteros, viajeros frecuentes).
  2. Rediseñar Políticas de Viajes: Balancear carga laboral y bienestar para roles con viajes.
  3. Programas de Retención Diferenciados:

-Para solteros: Flexibilidad y comunidad.

-Para empleados con experiencia: Carreras claras y reconocimiento.

  1. Monitoreo Continuo: Realizar encuestas de clima laboral para identificar causas cualitativas de rotación no capturadas en el modelo.

Conclusión Final: La estrategia debe combinar mejoras salariales, adaptación de condiciones laborales (viajes) y acciones personalizadas según perfil (estado civil, experiencia). Esto reducirá la rotación con un enfoque basado en datos y costo-beneficio.