Descripción

En una organización, se busca comprender y prever los factores que influyen en la rotación de empleados entre distintos cargos. La empresa ha recopilado datos históricos sobre el empleo de sus trabajadores, incluyendo variables como la antigüedad en el cargo actual, el nivel de satisfacción laboral, el salario actual, edad y otros factores relevantes. La gerencia planea desarrollar un modelo de regresión logística que permita estimar la probabilidad de que un empleado cambie de cargo en el próximo período y determinar cuáles factores indicen en mayor proporción a estos cambios.

Con esta información, la empresa podrá tomar medidas proactivas para retener a su talento clave, identificar áreas de mejora en la gestión de recursos humanos y fomentar un ambiente laboral más estable y tranquilo. La predicción de la probabilidad de rotación de empleados ayudará a la empresa a tomar decisiones estratégicas informadas y a mantener un equipo de trabajo comprometido y satisfecho en sus roles actuales.

Entendiendo los datos

Antes de seleccionar las 6 variables (3 Categóricas y 3 Numéricas), se hará una revisión general de los datos para un mejor entendimiento buscando seleccionar las mejores variables que permitan explicar la rotacion.

## tibble [1,470 × 25] (S3: tbl_df/tbl/data.frame)
##  $ Rotación                   : chr [1:1470] "Si" "No" "Si" "No" ...
##  $ Edad                       : num [1:1470] 41 49 37 33 27 32 59 30 38 36 ...
##  $ Viaje de Negocios          : chr [1:1470] "Raramente" "Frecuentemente" "Raramente" "Frecuentemente" ...
##  $ Departamento               : chr [1:1470] "Ventas" "IyD" "IyD" "IyD" ...
##  $ Distancia_Casa             : num [1:1470] 1 8 2 3 2 2 3 24 23 27 ...
##  $ Educación                  : num [1:1470] 2 1 2 4 1 2 3 1 3 3 ...
##  $ Campo_Educación            : chr [1:1470] "Ciencias" "Ciencias" "Otra" "Ciencias" ...
##  $ Satisfacción_Ambiental     : num [1:1470] 2 3 4 4 1 4 3 4 4 3 ...
##  $ Genero                     : chr [1:1470] "F" "M" "M" "F" ...
##  $ Cargo                      : chr [1:1470] "Ejecutivo_Ventas" "Investigador_Cientifico" "Tecnico_Laboratorio" "Investigador_Cientifico" ...
##  $ Satisfación_Laboral        : num [1:1470] 4 2 3 3 2 4 1 3 3 3 ...
##  $ Estado_Civil               : chr [1:1470] "Soltero" "Casado" "Soltero" "Casado" ...
##  $ Ingreso_Mensual            : num [1:1470] 5993 5130 2090 2909 3468 ...
##  $ Trabajos_Anteriores        : num [1:1470] 8 1 6 1 9 0 4 1 0 6 ...
##  $ Horas_Extra                : chr [1:1470] "Si" "No" "Si" "Si" ...
##  $ Porcentaje_aumento_salarial: num [1:1470] 11 23 15 11 12 13 20 22 21 13 ...
##  $ Rendimiento_Laboral        : num [1:1470] 3 4 3 3 3 3 4 4 4 3 ...
##  $ Años_Experiencia           : num [1:1470] 8 10 7 8 6 8 12 1 10 17 ...
##  $ Capacitaciones             : num [1:1470] 0 3 3 3 3 2 3 2 2 3 ...
##  $ Equilibrio_Trabajo_Vida    : num [1:1470] 1 3 3 3 3 2 2 3 3 2 ...
##  $ Antigüedad                 : num [1:1470] 6 10 0 8 2 7 1 1 9 7 ...
##  $ Antigüedad_Cargo           : num [1:1470] 4 7 0 7 2 7 0 0 7 7 ...
##  $ Años_ultima_promoción      : num [1:1470] 0 1 0 3 2 3 0 0 1 7 ...
##  $ Años_acargo_con_mismo_jefe : num [1:1470] 5 7 0 0 2 6 0 0 8 7 ...
##  $ rotacion_bin               : num [1:1470] 1 0 1 0 0 0 0 0 0 0 ...

1. Selección de variables

1.1 Cuantitativas

Edad: se espera que la edad se relacione con la rotación ya que las personas más jóvenes pueden ser más arriesgadas a buscar nuevas oportunidades y cambiar de trabajo mientras que a mayor edad se busca más estabilidad laboral. La hipótesis es que a menor edad más rotación, a mayor edad más estabilidad. se espera una relación negativa.

Años_Experiencia: se espera que los años de experiencia se relacione con la rotación ya que las personas con más experiencia buscan más estabilidad y tienden a ocupar cargos más altos, además de entender el costo del cambio. La hipótesis es que a mayor experiencia, menor probabilidad de rotación, ya que los empleados suelen buscar estabilidad laboral. se espera una relación negativa.

Ingreso_Mensual: se espera que el ingreso mensual se relacione con la rotación ya que personas con menores ingresos suelen ver como una forma de aumentar sus ingresos al cambiar de empleo. La hipótesis es que a mayor ingreso hay menor rotación. se espera una relación negativa.

1.2 Cualitativas

Genero: se espera que el género se relacione con la rotación aunque a priori, no de manera muy clara, ya que los hombres podrían priorizar el estatus y ambición económica para buscar un nuevo empleo y las mujeres podrían priorizar equilibrio trabajo_vida o satisfacción laboral. esto puede depender de expectativas o roles sociales.

Satisfaccion_Laboral: se espera que la satisfacción laboral se relacione con la rotación ya que quienes están más insatisfechos con su trabajo actual podrían querer buscar un nuevo empleo. La hipótesis es que a mayor satisfacción laboral hay menor probabilidad de rotación. Se espera una relación negativa.

Estado Civil: se espera que el estado civil se relacione con la rotación ya que las personas casadas, podrían buscar mayor estabilidad laboral presentando menor rotación. La hipótesis es que los casados rotan menos.

La matriz de correlación muestra asociaciones moderadas a altas entre varias variables predictoras, lo que sugiere posible multicolinealidad. Sin embargo, para este análisis exploratorio inicial se mantienen las variables seleccionadas por su relevancia teórica y las hipótesis planteadas. En etapas posteriores se evaluará el Factor de Inflación de Varianza (VIF) y, de ser necesario, se ajustará un modelo reducido eliminando predictores redundantes. Esto permitirá obtener estimaciones más estables y mejorar la interpretación de los efectos sobre la rotación.

2. Análisis Univariado

En esta sección se realiza una caracterización de las variables seleccionadas. Para las cuantitativas se usan histogramas, diagramas de caja y estadísticos descriptivos. Para las cualitativas se presentan tablas de frecuencia y proporciones.

2.1 Cuantitativas

Edad

## Warning: package 'ggpubr' was built under R version 4.5.2
Resumen estadístico de la Edad
Minimo Media Q1 Mediana Q3 Maximo Desv_Estandar
18 36.92449 30 36 43 60 9.135938

Tanto el histograma de frecuencia como la gráfica de cajas muestran una distribución simétrica de los valores de la variable edad, es decir, no se presenta un sesgo significativo ya que no se observan outliers o valores atípicos. esto se puede comprar con la cercanía entre la media (36.9) y la mediana (36).

El 50% de los datos (rango intercuartílico) se presentan edades medio-altas (entre 30 y 43 años), esto podría impactar la rotacion según la hipótesis planteada anteriormente, observando una menor rotacion.

Años_Experiencia

Resumen estadístico de los Años de Experiencia
Minimo Media Q1 Mediana Q3 Maximo Desv_Estandar
0 11.27959 6 10 15 40 7.780782

La distribución de los años de experiencia presenta un sesgo a la derecha, esto se comprueba por una media (11.28) superior a la mediana (10), lo cual indica que hay valores altos que impactan el promedio. esto se conforma en el diagrama de cajas, donde se observan varios outliers en la parte superior. la mayoría de empleados se concentra en niveles bajos o medios de experiencia.

En vista que la mayoría de empleados se concentra en niveles bajos y medios de experiencia, es probable que tenga un mayor impacto en la rotacion. esto se debe a que, según la hipótesis planteada, empleados con menor experiencia suelen tener mayor movilidad o rotacion por diferentes motivos. Por otro lado, los empleados con alta experiencia, aunque menos numerosos, podrían presentar menor rotación debido a mayor estabilidad laboral.

Ingreso_Mensual

Resumen estadístico del Ingreso Mensual
Minimo Media Q1 Mediana Q3 Maximo Desv_Estandar
1009 6502.931 2911 4919 8379 19999 4707.957

En vista que la mayoría de los empleados tiene ingresos bajos o medios, es probable que este grupo tenga mayor tendencia a rotar en busca de mejores oportunidades salariales. Por otro lado, los empleados con ingresos altos, aunque menos numerosos, podrían presentar menor rotación debido a mejores condiciones económicas.

2.2 Cualitativas

Genero

Distribución del Género
Genero Frecuencia Proporcion
F 588 0.4
M 882 0.6

la variable genero presenta una distribución ligeramente desbalanceada con una mayor participación de hombres (60%) frente a mujeres (40%). para esta variable no se planteó una hipótesis clara sobre el impacto sobre la rotacion, sin embargo se espera que permita visualizar diferencias en comportamientos laborales según condiciones de trabajo, por lo que se incluye como variable exploratoria en el análisis.

Esta variable está sujeta a validaciones en el análisis bivariado, donde según la evidencia estadística que se obtenga mediante las pruebas estadísticas, se conservara si no resulta significativa o se conservara en caso contrario.

Satisfación_Laboral

Distribución de la Satisfacción Laboral
Satisfaccion_Laboral Frecuencia Proporcion
1 289 0.20
2 280 0.19
3 442 0.30
4 459 0.31

La variable satisfacción laboral muestra una mayor concentración en niveles altos (3 y 4, satisfecho y muy satisfecho respectivamente), los cuales representan aproximadamente el 61% de los empleados. Esto indica que la mayoría de los trabajadores reporta niveles medios-altos de satisfacción. según la hipótesis planteada anteriormente, dado que una mayor satisfacción laboral suele estar asociada con mayor estabilidad, se espera que estos empleados presenten una menor probabilidad de rotación.

Estado_Civil

Distribución del Estado Civil
Estado_Civil Frecuencia Proporcion
Casado 673 0.46
Divorciado 327 0.22
Soltero 470 0.32

La variable estado civil presenta una distribución no balanceada, siendo la categoría “Casado” la más frecuente con un 46%, seguida de “Soltero” (32%) y “Divorciado” (22%). Esta distribución sugiere que una participación importante de empleados se encuentra en un estado asociado con búsqueda de mayor estabilidad. por lo tanto, se podría esperar que los empleados casados presenten una menor probabilidad de rotación en comparación con otras categorías, dado su posible interés en mantener estabilidad laboral.

3. Análisis Bivariado

Para el análisis bivariado se utilizarán diferentes pruebas estadísticas adecuadas según el tipo de variable. Para variables categóricas vs rotacion se utilizará Chi-Cuadrado y para variables cuantitativas vs rotacion se utilizará t-test u otras como Mann-Whitney si no hay normalidad.

3.1 Cuantitativas

Edad

Distribución del Estado Civil
rotacion_bin Minimo Media Q1 Mediana Q3 Maximo Desv_Estandar
0 18 37.56204 31 36 43 60 8.888994
1 18 33.60759 28 32 39 58 9.689350
## 
##  Welch Two Sample t-test
## 
## data:  Edad by rotacion_bin
## t = 5.8291, df = 316.94, p-value = 1.371e-08
## alternative hypothesis: true difference in means between group 0 and group 1 is not equal to 0
## 95 percent confidence interval:
##  2.619728 5.289170
## sample estimates:
## mean in group 0 mean in group 1 
##        37.56204        33.60759

En la tabla resumen se observa que los empleados que no rotan presentan una mayor edad promedio (37.56) en comparación con los empleados que si rotan (33.6), esto indica que los empleados más jóvenes tienden a rotar con mayor frecuencia, lo cual esta alineado con la hipótesis de que a menor edad existe mayor probabilidad de rotacion.

con la prueba t-test, como el p-valor (1.37e-08) es mucho menor que 0.05, existe suficiente evidencia para decir que hay diferencia en la edad promedio entre los empleados que rotan y los que no. Se concluye entonces que esta variable si debe incluirse en el modelo.

Años_Experiencia

Resumen de Años de Experiencia según Rotación
rotacion_bin Minimo Media Q1 Mediana Q3 Maximo Desv_Estandar
0 0 11.862936 6 10 16 38 7.760719
1 0 8.244726 3 7 10 40 7.169204
## 
##  Welch Two Sample t-test
## 
## data:  Años_Experiencia by rotacion_bin
## t = 7.0192, df = 350.88, p-value = 1.16e-11
## alternative hypothesis: true difference in means between group 0 and group 1 is not equal to 0
## 95 percent confidence interval:
##  2.604401 4.632019
## sample estimates:
## mean in group 0 mean in group 1 
##       11.862936        8.244726

Con esta variable de Años de experiencia se observa que los empleados que no rotan presentan un mayor número de años de experiencia en promedio (11.86) en comparación con aquellos que sí rotan (8.24). Esto sugiere que los empleados con menor experiencia tienen una mayor probabilidad de rotación, lo cual esta alineado con la hipótesis planteada de que la experiencia está asociada con mayor estabilidad laboral.

Igualmente, con la prueba t-test se puede observar y comprobar que existe una diferencia significativa en los años de experiencia entre los empleados que rotan y los que no ya que el p-valor (1.16e-11) es menor que 0.05.

Ingreso_Mensual

Resumen de Ingreso Mensual según Rotación
rotacion_bin Minimo Media Q1 Mediana Q3 Maximo Desv_Estandar
0 1051 6832.740 3211 5204 8834 19999 4818.208
1 1009 4787.093 2373 3202 5916 19859 3640.210
## 
##  Welch Two Sample t-test
## 
## data:  Ingreso_Mensual by rotacion_bin
## t = 7.4826, df = 412.74, p-value = 4.434e-13
## alternative hypothesis: true difference in means between group 0 and group 1 is not equal to 0
## 95 percent confidence interval:
##  1508.244 2583.050
## sample estimates:
## mean in group 0 mean in group 1 
##        6832.740        4787.093

Se observa en la variable Ingreso_Mensual que los empleados que no rotan presentan un mayor ingreso mensual promedio (6832.74) en comparación con los empleados que sí rotan (4787.09). Esto sugiere que los empleados con menores ingresos tienen una mayor probabilidad de rotación, lo cual esta alineado con la hipótesis planteada de que el ingreso influye negativamente en la rotación.

El gráfico evidencia diferencias en la distribución del ingreso mensual según la condición de rotación del personal. Se observa que los colaboradores que permanecen en la organización tienden a concentrarse en niveles de ingreso más altos, mientras que aquellos que presentan rotación se agrupan principalmente en rangos salariales más bajos.

Si bien existe un grado de solapamiento entre ambas distribuciones, lo que indica que el ingreso no es el único factor asociado a la rotación, la tendencia general sugiere que menores niveles salariales podrían estar relacionados con una mayor probabilidad de desvinculación. En este sentido, el ingreso mensual se perfila como un factor relevante en la retención del talento, aunque su análisis debe complementarse con otras variables organizacionales y laborales para una interpretación integral.

Igualmente, con la prueba t-test se puede observar y comprobar que existe una diferencia significativa en el ingreso mensual entre los empleados que rotan y los que no ya que el p-valor (4.43e-13) es menor que 0.05.

3.2 Cualitativas

Genero

##    
##       0   1
##   F 501  87
##   M 732 150
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  tabla_genero
## X-squared = 1.117, df = 1, p-value = 0.2906

Tal como se intuía anteriormente, la variable genero no representa una relación estadísticamente significativa con la rotacion, esto queda demostrado con p-value (0.2906) > 0.05, por lo que no se considera que sea relevante para explicar el punto de interés de esta actividad sobre la rotacion de empleados, por lo que no será incluida en el modelo final y será reemplazada por otra variable categórica que si sea significativa estadísticamente para explicar la rotacion.

Satisfación_Laboral

##    
##       0   1
##   1 223  66
##   2 234  46
##   3 369  73
##   4 407  52
## 
##  Pearson's Chi-squared test
## 
## data:  tabla_satisf
## X-squared = 17.505, df = 3, p-value = 0.0005563

La prueba de Chi-cuadrado muestra que existe una relación estadísticamente significativa entre la satisfacción laboral y la rotación (p-valor (0.0005563) < 0.05). Se observa que los niveles más bajos de satisfacción presentan una mayor proporción de empleados que rotan, mientras que los niveles más altos presentan menor rotación. Esto confirma la hipótesis de que una mayor satisfacción laboral está asociada con una menor probabilidad de rotación.

Por otro lado, el gráfico “Proporción de Rotación por Satisfacción Laboral” evidencia una relación inversa entre la satisfacción laboral y la rotación. A mayor satisfacción, menor proporción de empleados que abandonan la organización. Aunque en todos los niveles predomina la permanencia, la diferencia entre quienes se quedan y quienes rotan aumenta con la satisfacción. La disminución de la rotación es progresiva, lo que sugiere que mejoras graduales en el bienestar laboral pueden favorecer la retención. En conjunto, la satisfacción laboral aparece como un factor clave asociado a la permanencia del talento, aunque no implica causalidad directa.

Estado_Civil

##             
##                0   1
##   Casado     589  84
##   Divorciado 294  33
##   Soltero    350 120
## 
##  Pearson's Chi-squared test
## 
## data:  tabla_estado
## X-squared = 46.164, df = 2, p-value = 9.456e-11

para esta variable la prueba de Chi-cuadrado también indica que existe una relación estadísticamente significativa entre el estado civil y la rotación (p-valor (9.456e-11) < 0.05). Se observa que los empleados solteros presentan una mayor proporción de rotación en comparación con los empleados casados y divorciados, quienes muestran mayor estabilidad laboral. Esto es consistente con la hipótesis planteada, donde se esperaba que los empleados casados presentaran menor rotación.

Equilibrio Trabajo-Vida

En vista que la variable Genero no presenta evidencia estadísticamente significativa de relación con rotacion, se decide cambiar por la variable “Equilibrio_Trabajo_Vida”, la cual puede resultar más relevante en el contexto del problema.

Hipótesis: se espera que el Equilibrio_Trabajo_vida se relacione con la rotación ya que las personas con nivel de equilibrio muy bajo en su vida personal y laboral podrían estar más inclinados a buscar nuevas oportunidades que les permitan mejorar dicha condición. La hipótesis que se plantea es que a menor equilibrio trabajo_vida, mayor probabilidad de rotacion.

##    
##       0   1
##   1  55  25
##   2 286  58
##   3 766 127
##   4 126  27
## 
##  Pearson's Chi-squared test
## 
## data:  tabla_equilibrio
## X-squared = 16.325, df = 3, p-value = 0.0009726

La variable equilibrio trabajo-vida presenta una relación significativa con la rotación (p-valor < 0.05). Se observa que los empleados con menor equilibrio (nivel 1) presentan una mayor proporción de rotación en comparación con niveles más altos, lo cual sugiere que un mejor balance entre vida personal y trabajo está asociado con una menor probabilidad de rotación. Esto demuestra que esta variable es significativa para el modelo y esta alineada con la hipótesis previamente planteada.

4. Estimación del Modelo

Con base en los resultados previos, se estima un modelo de regresión logística usando como variable respuesta rotacion_bin y como covariables las seleccionadas en el proceso de análisis.

## 
## Call:
## glm(formula = rotacion_bin ~ Edad + Años_Experiencia + Ingreso_Mensual + 
##     Satisfaccion_Laboral + Estado_Civil + Equilibrio_Trabajo_Vida, 
##     family = binomial, data = rotacion)
## 
## Coefficients:
##                            Estimate Std. Error z value Pr(>|z|)    
## (Intercept)               7.464e-01  4.544e-01   1.643 0.100428    
## Edad                     -1.725e-02  1.122e-02  -1.537 0.124252    
## Años_Experiencia         -3.573e-02  2.002e-02  -1.785 0.074253 .  
## Ingreso_Mensual          -5.820e-05  3.002e-05  -1.939 0.052514 .  
## Satisfaccion_Laboral2    -4.849e-01  2.247e-01  -2.158 0.030948 *  
## Satisfaccion_Laboral3    -4.519e-01  1.998e-01  -2.262 0.023702 *  
## Satisfaccion_Laboral4    -9.787e-01  2.136e-01  -4.583 4.58e-06 ***
## Estado_CivilDivorciado   -2.390e-01  2.228e-01  -1.073 0.283403    
## Estado_CivilSoltero       8.254e-01  1.644e-01   5.020 5.18e-07 ***
## Equilibrio_Trabajo_Vida2 -7.542e-01  2.995e-01  -2.518 0.011803 *  
## Equilibrio_Trabajo_Vida3 -1.063e+00  2.777e-01  -3.828 0.000129 ***
## Equilibrio_Trabajo_Vida4 -7.497e-01  3.416e-01  -2.195 0.028169 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 1298.6  on 1469  degrees of freedom
## Residual deviance: 1168.8  on 1458  degrees of freedom
## AIC: 1192.8
## 
## Number of Fisher Scoring iterations: 5
Odds Ratios del Modelo de Regresión Logística
Variable OR IC 2.5% IC 97.5% p-valor Significancia
Edad 0.983 0.961 1.004 0.124 No Significativo
Años de Experiencia 0.965 0.927 1.003 0.074 No Significativo
Ingreso Mensual 1.000 1.000 1.000 0.053 No Significativo
Satisfacción Laboral 2 0.616 0.395 0.954 0.031 Significativo
Satisfacción Laboral 3 0.636 0.430 0.942 0.024 Significativo
Satisfacción Laboral 4 0.376 0.246 0.570 0.000 Significativo
Estado Civil (Divorciado vs Casado) 0.787 0.503 1.208 0.283 No Significativo
Estado Civil (Soltero vs Casado) 2.283 1.656 3.158 0.000 Significativo
Equilibrio Trabajo-Vida 2 0.470 0.263 0.853 0.012 Significativo
Equilibrio Trabajo-Vida 3 0.345 0.202 0.602 0.000 Significativo
Equilibrio Trabajo-Vida 4 0.473 0.241 0.924 0.028 Significativo
##                             GVIF Df GVIF^(1/(2*Df))
## Edad                    1.644507  1        1.282383
## Años_Experiencia        2.598125  1        1.611870
## Ingreso_Mensual         1.905838  1        1.380521
## Satisfaccion_Laboral    1.021360  3        1.003529
## Estado_Civil            1.024958  2        1.006182
## Equilibrio_Trabajo_Vida 1.018426  3        1.003048
## fitting null model for pseudo-r2
##   McFadden 
## 0.09990975
## 
##  Hosmer and Lemeshow goodness of fit (GOF) test
## 
## data:  modelo_logit$y, fitted(modelo_logit)
## X-squared = 19.236, df = 8, p-value = 0.01365

Variables como Edad, Años_Experincia. Ingreos_Mensual y Estado_Civil-Divorciado parecen no muy significativas en el modelo (p > 0.05), esto aun cuando en el análisis bivariado si parecían ser significativas. Otras variables como Satisfacción laboral sobre todo el nivel 4, estado civil (Soltero) y Equilibrio Vida Trabajo principalmente nivel 3, son las más significativas de todas.

para Satisfaccion_Laboral-Nivel 4, con un coeficiente de -0.9787, dice que los empleados con dicho nivel de satisfacción tienen menor log-odds de comparación con el nivel base (nivel 1), manteniendo constantes las demás variables, o en otras palabras, dice que a mayor satisfacción hay menor probabilidad de rotacion.

Estado_Civel-Soltero con un coeficiente de 0.8254, nos indica que los empleados solteros tienen mayor probabilidad de rotacion que los casados (que es la categoría base), alienado con lo visto anteriormente.

Con Equilibrio_Trabajo_Vida, teniendo un coeficiente de -1.066, indica que a mayor equilibrio entre el área personal y laboral, menos probabilidad de rotacion, lo cual también esta alineado con lo anteriormente planteado.

Por otro lado, variables como Edad, Años de Experiencia e Ingreso Mensual perdieron significancia, a primera vista porque pueden estar correlacionadas entre sí, es decir, presentan multicolinealidad, sin embargo, al realizar la prueba VIF (Variance Inflation Factor), se observa que están en un rango entre 1 y 5, lo cual se considera un rango moderado y que no afecta de forma directa la estabilidad e interpretación de los coeficientes del modelo. simplemente variables como satisfacción Laboral y equilibrio trabajo-vida pueden explicar de manera más directa la rotacion.

El modelo presenta un ajuste limitado. El R² de McFadden (~0.10) indica que explica poca variabilidad, y el test de Hosmer-Lemeshow (p < 0.05) evidencia que las predicciones no se ajustan bien a los datos reales. En términos prácticos, el modelo presenta una capacidad predictiva aceptable pero limitada, sirviendo de apoyo mas reemplazo al criterio humano experimentado.

5. Evaluación

El valor del AUC es 0.7198, lo que indica que el modelo tiene una capacidad aceptable de clasificacion de los empleados entre los que rotan y los que no. En general el modelo tiene una buena capacidad para clasificar correctamente a los empleados (es mejor que el azar con un AUC = 0.5), aunque existe margen en su poder predictivo.

Este desempeño podria optimizarse mediante una mejor seleccion de varbales, considerando aquellas que aporten mayor capacidad explicativa en conjunto (teniendo en cuenta y evitando la colinealidad), lo cual podrpía mejorar la capacidad de clasificacion del modelo.

Partiendo segun la aplicacion de este problema, el modelo puede ser una herramienta utila para apoyar la toma de decisiones en la empresa o lugar donde se este evaluando, permitiendo identificar empleados con mayor probabilidad de rotación. Sin embargo, no debe ser utilizado como único criterio, sino como complemento dentro de una estrategia más amplia de gestión del personal.

##         Real
## Predicho    0    1
##        0 1226  225
##        1    7   12
## Confusion Matrix and Statistics
## 
##           Reference
## Prediction    0    1
##          0 1226  225
##          1    7   12
##                                           
##                Accuracy : 0.8422          
##                  95% CI : (0.8225, 0.8605)
##     No Information Rate : 0.8388          
##     P-Value [Acc > NIR] : 0.3775          
##                                           
##                   Kappa : 0.0715          
##                                           
##  Mcnemar's Test P-Value : <2e-16          
##                                           
##             Sensitivity : 0.050633        
##             Specificity : 0.994323        
##          Pos Pred Value : 0.631579        
##          Neg Pred Value : 0.844935        
##              Prevalence : 0.161224        
##          Detection Rate : 0.008163        
##    Detection Prevalence : 0.012925        
##       Balanced Accuracy : 0.522478        
##                                           
##        'Positive' Class : 1               
## 

La matriz de confusión muestra un fuerte desequilibrio en la predicción: el modelo clasifica correctamente a la mayoría de los empleados que no rotan (alta especificidad = 0.99), pero apenas detecta a quienes sí rotan (sensibilidad = 0.05). Esto indica que, con el punto de corte estándar de 0.5, el modelo es muy conservador y tiende a predecir “no rotación” en casi todos los casos.

5.1. Mejorando el modelo y las evaluaciones

## Confusion Matrix and Statistics
## 
##           Reference
## Prediction    0    1
##          0 1145  155
##          1   88   82
##                                           
##                Accuracy : 0.8347          
##                  95% CI : (0.8147, 0.8533)
##     No Information Rate : 0.8388          
##     P-Value [Acc > NIR] : 0.6799          
##                                           
##                   Kappa : 0.31            
##                                           
##  Mcnemar's Test P-Value : 2.297e-05       
##                                           
##             Sensitivity : 0.34599         
##             Specificity : 0.92863         
##          Pos Pred Value : 0.48235         
##          Neg Pred Value : 0.88077         
##              Prevalence : 0.16122         
##          Detection Rate : 0.05578         
##    Detection Prevalence : 0.11565         
##       Balanced Accuracy : 0.63731         
##                                           
##        'Positive' Class : 1               
## 
## Warning: glm.fit: algorithm did not converge

La nueva matriz de confusión muestra una mejora sustancial en la capacidad del modelo para detectar la rotación: la sensibilidad pasó de 5% a 35%, y el valor de Kappa subió de 0.07 a 0.31, lo que indica un acuerdo más allá del azar claramente superior al modelo anterior. Sin embargo, el modelo sigue siendo conservador (especificidad 93%), pero ahora ofrece un equilibrio más útil para intervenciones de retención.

EL modelo se va a evaluar con otras variables cuantitativas y cualitativas, para esto vamos a buscar las variables más relevantes, significativas estadisticamente hablando y sin presentar multicolinealidad severa.

Con el fin de evitar redundancia en el modelo se selecciona la variable Años_Experiencia dado que tiene menor correlación numérica respecto a edad. El ingreso mensual tendrá una transformación logarítmica con el fin de linealizar el efectoy reducir los outliers. La Distancia_Casa es otra variable a considerar dada su baja correlación con las otras variables numéricas. Dentro de las variables cualitativas se opta por las variables de Satisfaccion_Laboral dada su asociación significativa, Equilibrio_Trabajo_Vida donde resulta más relevante que el genero y por último el estado civil dado que los solteros presentan una mayor propensión a rotar.

##                             GVIF Df GVIF^(1/(2*Df))
## Años_Experiencia        1.796676  1        1.340402
## log(Ingreso_Mensual)    1.798689  1        1.341152
## Distancia_Casa          1.017960  1        1.008940
## Satisfación_Laboral     1.013463  1        1.006709
## Equilibrio_Trabajo_Vida 1.014787  3        1.002450
## Estado_Civil            1.020281  2        1.005032

## Area under the curve: 0.7292
##         Real
## Predicho    0    1
##        0 1123  150
##        1  110   87

El análisis de multicolinealidad mediante GVIF confirma que las seis variables seleccionadas no presentan correlaciones excesivas que comprometan la estabilidad de los coeficientes del modelo logístico. Los valores GVIF^(1/(2·Df)) se mantienen cercanos a 1, validando la independencia relativa de los predictores y la robustez de las estimaciones obtenidas.

Aumento de sensibilidad (34.6% → 38.4%): El modelo detecta ahora casi 4 de cada 10 rotaciones, una mejora de 4 puntos porcentuales. Esto se debe a que el umbral 0.5 es más permisivo que 0.3, clasificando más casos como positivos.

Ligera caída en especificidad (92.9% → 90.9%): El modelo comete más falsos positivos (112 vs 88), es decir, predice rotación en 24 empleados adicionales que en realidad no rotan.

Precisión moderadamente menor (48.2% → 44.8%): De cada 100 alertas generadas, ahora 45 son acertadas (antes 48). La contrapartida es una mayor cobertura de rotaciones reales.

6. Predicciones

Para ilustrar la utilidad práctica del modelo, se construyen tres perfiles hipotéticos y se calcula la probabilidad estimada de rotación para cada uno. Esto permite traducir los resultados estadísticos a escenarios de decisión más concretos.

Perfil 1

##   Años_Experiencia Ingreso_Mensual Distancia_Casa Satisfación_Laboral
## 1                4            2700             40                   2
##   Equilibrio_Trabajo_Vida Estado_Civil
## 1                       2      Soltero
##            1 
## "INTERVENIR"

Juan tiene una distancia al trabajo a 40 km, lo que eleva significativamente su riesgo de rotación por fatiga y costos de desplazamiento. La intervención más efectiva es otorgarle teletrabajo de inmediato. Complementariamente, un bono por desempeño y un plan de desarrollo a corto plazo pueden revertir su baja satisfacción. Se recomienda actuar en las próximas dos semanas.

Perfil 2

En este segundo caso se considera un empleado con mayor edad, más experiencia, ingreso alto, casado, con alta satisfacción laboral y alto equilibrio trabajo-vida. En principio, este perfil debería presentar una menor probabilidad de rotación.

##   Años_Experiencia Ingreso_Mensual Distancia_Casa Satisfación_Laboral
## 1               18           10000             30                   4
##   Equilibrio_Trabajo_Vida Estado_Civil
## 1                       4       Casado
##               1 
## "No intervenir"

Perfil 3

En este tercer perfil se plantea una situación intermedia: edad media, experiencia moderada, ingreso medio, estado civil divorciado, satisfacción laboral media y equilibrio trabajo-vida medio. Este caso sirve para comparar cómo cambia la probabilidad entre perfiles extremos y perfiles más moderados.

##   Años_Experiencia Ingreso_Mensual Distancia_Casa Satisfación_Laboral
## 1                8            5000             15                   3
##   Equilibrio_Trabajo_Vida Estado_Civil
## 1                       3   Divorciado
##               1 
## "No intervenir"

7. Conclusiones

A partir del análisis realizado, se encontró que la rotación de empleados está asociada con varios factores laborales y personales. En el análisis bivariado, las variables cuantitativas seleccionadas mostraron diferencias significativas entre empleados que rotan y los que no, lo que sugiere que edad, experiencia e ingreso sí tienen relación con la rotación cuando se evalúan de manera individual. Sin embargo, dentro del modelo logit múltiple, las variables que mostraron una señal más clara fueron la satisfacción laboral, el estado civil en la categoría soltero y el equilibrio trabajo-vida.

En particular, el modelo sugiere que una mayor satisfacción laboral reduce la probabilidad de rotación, lo cual es coherente con la intuición organizacional. Del mismo modo, un mejor equilibrio entre vida personal y trabajo también se asocia con menor probabilidad de salida. Por el contrario, el hecho de que el empleado sea soltero aparece asociado con una mayor probabilidad de rotación frente a la categoría de referencia. Estos resultados muestran que, aunque los factores económicos y de trayectoria importan, variables relacionadas con bienestar y estabilidad percibida parecen tener un peso importante en la explicación conjunta de la rotación.

Desde el punto de vista predictivo, el modelo presenta una capacidad aceptable para discriminar entre quienes rotan y quienes no. La curva ROC y el valor AUC muestran que el modelo funciona mejor que una clasificación al azar. Además, el análisis de sensibilidad del punto de corte mostró que la decisión final puede cambiar de manera importante según el umbral elegido. Un corte bajo favorece la detección temprana de más empleados en riesgo, mientras que un corte alto reduce falsas alarmas, pero también puede dejar pasar algunos casos relevantes.

Las tres predicciones realizadas sobre perfiles hipotéticos permitieron aterrizar mejor los resultados. Se observó que el perfil con baja satisfacción, bajo equilibrio trabajo-vida y condiciones laborales menos favorables presenta mayor probabilidad estimada de rotación. En cambio, el perfil con mejores condiciones de estabilidad muestra una probabilidad considerablemente menor. Esto confirma que el modelo puede ser útil como herramienta de apoyo para segmentar empleados según nivel de riesgo.

Con base en lo anterior, una estrategia razonable para disminuir la rotación en la empresa sería fortalecer acciones relacionadas con el bienestar laboral. En concreto, convendría trabajar en programas de mejora de la satisfacción laboral, revisar cargas de trabajo que afecten el equilibrio vida-trabajo y acompañar de forma más cercana a los perfiles que el modelo identifique como de mayor riesgo. También sería útil complementar estas acciones con planes de desarrollo, ajustes en compensación cuando sea pertinente y medidas de clima organizacional.