Actividad 3. Modelo logit para la predicción de la rotación de empleados en una empresa

Dataset original

Se inicia con la carga y descripción preliminar del dataset original rotacion de paqueteMODELOS:

## rotacion 
## 
##  24  Variables      1470  Observations
## --------------------------------------------------------------------------------
## Rotación 
##        n  missing distinct 
##     1470        0        2 
##                       
## Value         No    Si
## Frequency   1233   237
## Proportion 0.839 0.161
## --------------------------------------------------------------------------------
## Edad 
##        n  missing distinct     Info     Mean      Gmd      .05      .10 
##     1470        0       43    0.999    36.92    10.33       24       26 
##      .25      .50      .75      .90      .95 
##       30       36       43       50       54 
## 
## lowest : 18 19 20 21 22, highest: 56 57 58 59 60
## --------------------------------------------------------------------------------
## Viaje de Negocios 
##        n  missing distinct 
##     1470        0        3 
##                                                        
## Value      Frecuentemente       No_Viaja      Raramente
## Frequency             277            150           1043
## Proportion          0.188          0.102          0.710
## --------------------------------------------------------------------------------
## Departamento 
##        n  missing distinct 
##     1470        0        3 
##                                
## Value         IyD     RH Ventas
## Frequency     961     63    446
## Proportion  0.654  0.043  0.303
## --------------------------------------------------------------------------------
## Distancia_Casa 
##        n  missing distinct     Info     Mean      Gmd      .05      .10 
##     1470        0       29    0.993    9.193    8.773        1        1 
##      .25      .50      .75      .90      .95 
##        2        7       14       23       26 
## 
## lowest :  1  2  3  4  5, highest: 25 26 27 28 29
## --------------------------------------------------------------------------------
## Educación 
##        n  missing distinct     Info     Mean      Gmd 
##     1470        0        5    0.913    2.913    1.117 
##                                         
## Value          1     2     3     4     5
## Frequency    170   282   572   398    48
## Proportion 0.116 0.192 0.389 0.271 0.033
## 
## For the frequency table, variable is rounded to the nearest 0
## --------------------------------------------------------------------------------
## Campo_Educación 
##        n  missing distinct 
##     1470        0        6 
##                                                                       
## Value         Ciencias Humanidades    Mercadeo        Otra       Salud
## Frequency          606          27         159          82         464
## Proportion       0.412       0.018       0.108       0.056       0.316
##                       
## Value         Tecnicos
## Frequency          132
## Proportion       0.090
## --------------------------------------------------------------------------------
## Satisfacción_Ambiental 
##        n  missing distinct     Info     Mean      Gmd 
##     1470        0        4    0.928    2.722     1.21 
##                                   
## Value          1     2     3     4
## Frequency    284   287   453   446
## Proportion 0.193 0.195 0.308 0.303
## 
## For the frequency table, variable is rounded to the nearest 0
## --------------------------------------------------------------------------------
## Genero 
##        n  missing distinct 
##     1470        0        2 
##                   
## Value        F   M
## Frequency  588 882
## Proportion 0.4 0.6
## --------------------------------------------------------------------------------
## Cargo 
##        n  missing distinct 
##     1470        0        9 
## 
## lowest : Director_Investigación  Director_Manofactura    Ejecutivo_Ventas        Gerente                 Investigador_Cientifico
## highest: Investigador_Cientifico Recursos_Humanos        Representante_Salud     Representante_Ventas    Tecnico_Laboratorio    
## --------------------------------------------------------------------------------
## Satisfación_Laboral 
##        n  missing distinct     Info     Mean      Gmd 
##     1470        0        4    0.928    2.729    1.221 
##                                   
## Value          1     2     3     4
## Frequency    289   280   442   459
## Proportion 0.197 0.190 0.301 0.312
## 
## For the frequency table, variable is rounded to the nearest 0
## --------------------------------------------------------------------------------
## Estado_Civil 
##        n  missing distinct 
##     1470        0        3 
##                                            
## Value          Casado Divorciado    Soltero
## Frequency         673        327        470
## Proportion      0.458      0.222      0.320
## --------------------------------------------------------------------------------
## Ingreso_Mensual 
##        n  missing distinct     Info     Mean      Gmd      .05      .10 
##     1470        0     1349        1     6503     4868     2098     2318 
##      .25      .50      .75      .90      .95 
##     2911     4919     8379    13776    17821 
## 
## lowest :  1009  1051  1052  1081  1091, highest: 19859 19926 19943 19973 19999
## --------------------------------------------------------------------------------
## Trabajos_Anteriores 
##        n  missing distinct     Info     Mean      Gmd      .05      .10 
##     1470        0       10     0.95    2.693    2.656        0        0 
##      .25      .50      .75      .90      .95 
##        1        2        4        7        8 
##                                                                       
## Value          0     1     2     3     4     5     6     7     8     9
## Frequency    197   521   146   159   139    63    70    74    49    52
## Proportion 0.134 0.354 0.099 0.108 0.095 0.043 0.048 0.050 0.033 0.035
## 
## For the frequency table, variable is rounded to the nearest 0
## --------------------------------------------------------------------------------
## Horas_Extra 
##        n  missing distinct 
##     1470        0        2 
##                       
## Value         No    Si
## Frequency   1054   416
## Proportion 0.717 0.283
## --------------------------------------------------------------------------------
## Porcentaje_aumento_salarial 
##        n  missing distinct     Info     Mean      Gmd      .05      .10 
##     1470        0       15    0.988    15.21    4.033       11       11 
##      .25      .50      .75      .90      .95 
##       12       14       18       21       22 
##                                                                             
## Value         11    12    13    14    15    16    17    18    19    20    21
## Frequency    210   198   209   201   101    78    82    89    76    55    48
## Proportion 0.143 0.135 0.142 0.137 0.069 0.053 0.056 0.061 0.052 0.037 0.033
##                                   
## Value         22    23    24    25
## Frequency     56    28    21    18
## Proportion 0.038 0.019 0.014 0.012
## 
## For the frequency table, variable is rounded to the nearest 0
## --------------------------------------------------------------------------------
## Rendimiento_Laboral 
##        n  missing distinct     Info     Mean      Gmd 
##     1470        0        2     0.39    3.154   0.2604 
##                       
## Value          3     4
## Frequency   1244   226
## Proportion 0.846 0.154
## --------------------------------------------------------------------------------
## Años_Experiencia 
##        n  missing distinct     Info     Mean      Gmd      .05      .10 
##     1470        0       40    0.995    11.28    8.349        1        3 
##      .25      .50      .75      .90      .95 
##        6       10       15       23       28 
## 
## lowest :  0  1  2  3  4, highest: 35 36 37 38 40
## --------------------------------------------------------------------------------
## Capacitaciones 
##        n  missing distinct     Info     Mean      Gmd 
##     1470        0        7     0.91    2.799    1.358 
##                                                     
## Value          0     1     2     3     4     5     6
## Frequency     54    71   547   491   123   119    65
## Proportion 0.037 0.048 0.372 0.334 0.084 0.081 0.044
## 
## For the frequency table, variable is rounded to the nearest 0
## --------------------------------------------------------------------------------
## Equilibrio_Trabajo_Vida 
##        n  missing distinct     Info     Mean      Gmd 
##     1470        0        4    0.762    2.761   0.7004 
##                                   
## Value          1     2     3     4
## Frequency     80   344   893   153
## Proportion 0.054 0.234 0.607 0.104
## 
## For the frequency table, variable is rounded to the nearest 0
## --------------------------------------------------------------------------------
## Antigüedad 
##        n  missing distinct     Info     Mean      Gmd      .05      .10 
##     1470        0       37    0.993    7.008    6.215        1        1 
##      .25      .50      .75      .90      .95 
##        3        5        9       15       20 
## 
## lowest :  0  1  2  3  4, highest: 33 34 36 37 40
## --------------------------------------------------------------------------------
## Antigüedad_Cargo 
##        n  missing distinct     Info     Mean      Gmd      .05      .10 
##     1470        0       19    0.974    4.229    3.939        0        0 
##      .25      .50      .75      .90      .95 
##        2        3        7        9       11 
##                                                                             
## Value          0     1     2     3     4     5     6     7     8     9    10
## Frequency    244    57   372   135   104    36    37   222    89    67    29
## Proportion 0.166 0.039 0.253 0.092 0.071 0.024 0.025 0.151 0.061 0.046 0.020
##                                                           
## Value         11    12    13    14    15    16    17    18
## Frequency     22    10    14    11     8     7     4     2
## Proportion 0.015 0.007 0.010 0.007 0.005 0.005 0.003 0.001
## 
## For the frequency table, variable is rounded to the nearest 0
## --------------------------------------------------------------------------------
## Años_ultima_promoción 
##        n  missing distinct     Info     Mean      Gmd      .05      .10 
##     1470        0       16    0.922    2.188    2.994        0        0 
##      .25      .50      .75      .90      .95 
##        0        1        3        7        9 
##                                                                             
## Value          0     1     2     3     4     5     6     7     8     9    10
## Frequency    581   357   159    52    61    45    32    76    18    17     6
## Proportion 0.395 0.243 0.108 0.035 0.041 0.031 0.022 0.052 0.012 0.012 0.004
##                                         
## Value         11    12    13    14    15
## Frequency     24    10    10     9    13
## Proportion 0.016 0.007 0.007 0.006 0.009
## 
## For the frequency table, variable is rounded to the nearest 0
## --------------------------------------------------------------------------------
## Años_acargo_con_mismo_jefe 
##        n  missing distinct     Info     Mean      Gmd      .05      .10 
##     1470        0       18    0.976    4.123    3.904        0        0 
##      .25      .50      .75      .90      .95 
##        2        3        7        9       10 
##                                                                             
## Value          0     1     2     3     4     5     6     7     8     9    10
## Frequency    263    76   344   142    98    31    29   216   107    64    27
## Proportion 0.179 0.052 0.234 0.097 0.067 0.021 0.020 0.147 0.073 0.044 0.018
##                                                     
## Value         11    12    13    14    15    16    17
## Frequency     22    18    14     5     5     2     7
## Proportion 0.015 0.012 0.010 0.003 0.003 0.001 0.005
## 
## For the frequency table, variable is rounded to the nearest 0
## --------------------------------------------------------------------------------

Datos faltantes

Puesto que el dataset no registra datos faltantes, no se considera ningún proceso de imputación.

1. Selección de atributos del modelo (variables regresoras)

A continuación, se presentan los grupos de variables cualitativas y cuantitativas seleccionadas para la modelación, presentando cada variable y la hipótesis inicial que se tiene sobre su relación con la rotación de los empleados.

Variables cualitativas:

  • Cargo, se espera que la probabilidad de rotación esté estrechamente relacionada con los cargos al interior de la organización, en tanto los factores asociados al desempeño, satisfacción y continuidad de los empleados deberían estar segmentados en función del cargo que ocupan, a raíz de la dificultad y ambiente que genera cada rol en la empresa. De tal forma que el cargo pueden generar mayor o menor probabilidad de rotación.

-Educación, se espera que exista una relación entre el nivel educativo y la probabilidad de rotación, en tanto niveles educativos más altos implican mayor flexibilidad en el mercado laboral para los trabajadores. Así, la hipótesis planteada es que, a mayor nivel educativo, mayor probabilidad de rotación.

-Satisfacción laboral, la hipótesis planteada indica que a menor nivel de satisfacción laboral, existe una mayor probabilidad de rotación.

Variables cuantitativas:

-Ingreso, la hipótesis planteada indica que, a menor ingreso mensual, mayor probabilidad de rotación.

-Trabajos anteriores, se establece la relación entre esta variable y la rotación considerando que un historial de más trabajos anteriores implica mayor probabilidad de rotación en el trabajador.

-Edad, se establece esta relación considerando que el incremento de la edad puede implicar rigidez en la movilidad en el mercado laboral, en este sentido, la hipotesis indica que, a mayor edad, menor probabilidad de rotación.

De esta manera, la modelación partirá de un dataset con 1470 observaciones evaluadas desde los atributos considerados y la etiqueta de clase para la rotación.

## # A tibble: 1,470 × 6
##    Cargo Educación Satisfación_Laboral Ingreso_Mensual Trabajos_Anteriores  Edad
##    <fct>     <dbl>               <dbl>           <dbl>               <dbl> <dbl>
##  1 Ejec…         2                   4            5993                   8    41
##  2 Inve…         1                   2            5130                   1    49
##  3 Tecn…         2                   3            2090                   6    37
##  4 Inve…         4                   3            2909                   1    33
##  5 Tecn…         1                   2            3468                   9    27
##  6 Tecn…         2                   4            3068                   0    32
##  7 Tecn…         3                   1            2670                   4    59
##  8 Tecn…         1                   3            2693                   1    30
##  9 Dire…         3                   3            9526                   0    38
## 10 Repr…         3                   3            5237                   6    36
## # ℹ 1,460 more rows

2. Análisis univariado

A continuación, se procede al análisis univariado de los atributos seleccionados para la modelación, con el fin de realizar una revisión del comportamiento de sus distribuciones, desde las cuales puede ser posible identificar patrones y variables de mayor influencia en la probabilidad de rotación de los trabajadores, la cual se ve reflejada en la variable Rotación, esta variable indica que el empleado rota su cargo en la instancia Si, y no lo hace en la instancia No, de tal forma que la distribución de los empleados sobre esta clase será el núcleo del análisis a realizar.

Variables cualitativas:

Los gráficos de barras integrados denotan la distribución de la frecuencia de las variables categóricas empleadas, revelando los siguientes patrones:

  • En cuanto a la variable Cargo, se tiene que las instancias con mayor frecuencia son los cargos de Director de manufactura (mayor al 20% de la muestra), investigador científico (aproximadamente 20% de la muestra) y técnico de laboratorio (cerca del 18% de la muestra). Existiendo una frecuencia menor para los demás cargos contemplados, con proporciones de entre el 3% y el 10%.

  • En cuanto a la variable Educación, se tiene que la mayoría de los empleados se ubican en el nivel educaativo 3 con poco menos de 40% de la muestra, dada la ausencia de una descripción de las instancias de esta variable categórica, es posible asumir que se trata de un nivel de formación promedio, tal como profesional o tecnólogo. Nótese además que el nivel 4 de la variable es el siguiente en frecuencia relativa (por encima del 25%), por lo cual puede afirmarse que la mayoría de los empleados en la muestra poseen niveles altos de formación educativa.

  • En cuanto a la variable Satisfación_Laboral, se tiene una percepción de satisfacción en los niveles 3 y 4 (con frecuencias de alrededor del 30%), sin embargo, nótese que los niveles 1 y 2 poseen frecuencias significativas (poco menos del 20%), lo cual es un indicio de que existe una división relevante entre los empleados con respecto al grado de satisfacción con sus empleos.

Variables cuantitativas.

Un buen análisis univariado de las variables cuantitativas consideradas puede obtenerse a partir de gráficos de caja y bigotes para cada una de éstas, con el fin de determinar sus valores medios y su comportamiento de desviación.

Inicialmente, se tiene que el ingreso mensual promedio de los empleados se ubica alrededor de $5000, con una desviación correspondiente al rango intercuartílico de entre $3000 y $8000. Además, se perciben outliers que corresponden a salarios muy altos, muy por encima de los $15000.

En cuanto a los trabajos anteriores, se obtiene un promedio de 2, y un rango intercuartílico de entre 1 y 4, existiendo outliers con cifras por encima de los 8 trabajos anteriores.

Finalmente, se tiene que la edad promedio de los trabajadores se halla sobre los 35 años, con un rango intercuartílico de entre 30 y 43 años.

3. Análisis bivariado.

Un análisis descriptivo bivariado del comportamiento de los atributos con respecto a la etiqueta de clase de rotación puede otorgar una vista previa de los patrones de influencia de éstos sobre la probabilidad de rotación.

Para este fin, es necesario crear una columna que fije la etiqueta de clase como una variable binaria, la cual se nombra como Class, y arroja el valor 1 para Sí, y el valor 0 para No.

Ahora, en cuanto a las variables cualitativas, este análisis puede llevarse a cabo empleando gráficos de barra dobles, los cuales relacionen la distribución de la frecuencia de la etiqueta de clase con las instancias de los atributos categóricos.

Cargos

De acuerdo al gráfico de barras dobles, la distribución de la frecuencia de la rotación, dada por la etiqueta de clase con valor 1, indica la mayor presencia de rotación en los cargos de ejecutivos de ventas, investigador científico, representante de ventasy técnico de laboratorio, existiendo rotación en menor medida para el cargo de director de manufactura. En este sentido, la hipótesis planteada anteriormente se hace más específica, al mencionar que se espera que la probabilidad de rotación sea más alta en estos cargos.

Nivel Educativo

En cuanto a la variable Educación, se percibe rotación en todos los niveles excepto el quinto, dándose en mayor medida en los niveles 3 y 4, lo cual es correspondiente con la hipótesis planteada en la sección anterior. Nótese que la ausencia de rotación en el nivel 5 puede estar asociada con cargos directivos, los cuales (se espera) deberían percibir mayores salarios y tener menos incentivos para renunciar.

Satisfacción laboral

La variable Satisfación_Laboral denota una distribución de frecuencia de la rotación en todas sus instancias. Si bien puede decirse que esta se observa mayormente en los menores niveles (1 a 3), no puede decirse a priori que hay una relación directamente proporcionalentre la satisfacción laboral y la rotación. Por lo cual puede afirmarse que los hechos de rotación en la empresa no necesariamente se relacionan a insatisfacción laboral.

El análisis bivariado de los atributos cuantitativos puede rastrearse por medio de diagramas de caja segmentados por cada instancia de clase, de tal forma que es posible detectar cambios en el comportamiento medio y de desviación de estas variables en función de la etiqueta de clase a analizar.

Ingresos mensuales

El comportamiento de desviación de la variable ingresos es completamente congruente con la hipótesis planteada, pues se observa una clara diferencia entre el rango de ingresos de los empleados que rotan (entre $2300 y $5900) con respecto a los empleados que continúan (entre $3200 y $8800), de esta forma, es posible afirmar a priori que un menor nivel de ingresos está relacionado con una mayor probabilidad de rotación.

Trabajos anteriores

Si bien no es posible denotarlo de forma tan clara como en el caso de los ingresos mensuales, se detecta un patrón consistente sobre el cual una mayor cantidad de trabajos anteriores está relacionada con una mayor probabilidad de rotación, pues el rango de variación típica de la cantidad de trabajos anteriores toma valores más altos para la instancia 1 (entre 1 y 5) que para la instancia 0 (entre 1 y 4). Sin embargo, es de resaltarse que esta relación debe reforzarse con el modelo a realizar, pues el hecho de que la mediana para la clase 1 sea menor que para la clase 0 puede implicar una discrepancia con respecto a la hipótesis planteada.

Edad

En cuanto a la edad, la hipótesis planteada puede observarse a priori completamente, pues tanto la mediana de la edad como su rango de variación típica se ubica en valores menores para los casos con rotación que los casos sin rotación: una mediana de 32 años y un rango de entre 27 y 39 años, versus una mediana de 36 años y un rango de entre 31 y 43 años. De esta forma, puede observarse de forma preliminar el hecho de que menores edades pueden incrementar la probabilidad de rotación.

4. Modelo de clasificación

Modelo logit

Habiendo determinado los patrones preliminares para la relación entre la etiqueta de clase y los atributos seleccionados, se prosigue a la estimación del modelo logit para la clasificación de la rotación de los empleados en función de estos. De tal forma que el modelo de clasificación consistirá en el logaritmo de los odds de probabilidad de pertenencia a la clase de rotación positiva en función de la suma de las instancias de los atributos seleccionados (numéricos y categóricos).

## 
## Call:
## glm(formula = Class ~ factor(Cargo) + factor(Satisfación_Laboral) + 
##     factor(Educación) + Ingreso_Mensual + Trabajos_Anteriores + 
##     Edad, family = binomial(link = logit), data = rotacion)
## 
## Coefficients:
##                                        Estimate Std. Error z value Pr(>|z|)    
## (Intercept)                          -2.266e+00  1.013e+00  -2.236 0.025355 *  
## factor(Cargo)Director_Manofactura     1.117e+00  8.702e-01   1.284 0.199091    
## factor(Cargo)Ejecutivo_Ventas         2.164e+00  8.239e-01   2.626 0.008634 ** 
## factor(Cargo)Gerente                  8.899e-01  8.576e-01   1.038 0.299466    
## factor(Cargo)Investigador_Cientifico  2.051e+00  9.063e-01   2.263 0.023638 *  
## factor(Cargo)Recursos_Humanos         2.469e+00  9.300e-01   2.655 0.007931 ** 
## factor(Cargo)Representante_Salud      1.133e+00  8.749e-01   1.295 0.195295    
## factor(Cargo)Representante_Ventas     3.296e+00  9.352e-01   3.525 0.000424 ***
## factor(Cargo)Tecnico_Laboratorio      2.524e+00  9.037e-01   2.793 0.005217 ** 
## factor(Satisfación_Laboral)2         -5.161e-01  2.264e-01  -2.280 0.022617 *  
## factor(Satisfación_Laboral)3         -4.111e-01  1.998e-01  -2.058 0.039593 *  
## factor(Satisfación_Laboral)4         -8.920e-01  2.125e-01  -4.198 2.69e-05 ***
## factor(Educación)2                    6.239e-02  2.785e-01   0.224 0.822723    
## factor(Educación)3                    1.347e-01  2.465e-01   0.547 0.584694    
## factor(Educación)4                    6.945e-02  2.703e-01   0.257 0.797225    
## factor(Educación)5                   -1.687e-01  5.393e-01  -0.313 0.754427    
## Ingreso_Mensual                       1.838e-05  4.369e-05   0.421 0.674065    
## Trabajos_Anteriores                   1.182e-01  3.017e-02   3.919 8.89e-05 ***
## Edad                                 -4.198e-02  1.062e-02  -3.951 7.78e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 1298.6  on 1469  degrees of freedom
## Residual deviance: 1164.5  on 1451  degrees of freedom
## AIC: 1202.5
## 
## Number of Fisher Scoring iterations: 6

Interpretación de coeficientes y significancia estadística

Con el fin de proveer una interpretación congruente de los parámetros del modelo, es necesario transformar los coeficientes obtenidos a términos de odds por medio de exponenciación:

##                          (Intercept)    factor(Cargo)Director_Manofactura 
##                            0.1037138                            3.0570094 
##        factor(Cargo)Ejecutivo_Ventas                 factor(Cargo)Gerente 
##                            8.7030607                            2.4348182 
## factor(Cargo)Investigador_Cientifico        factor(Cargo)Recursos_Humanos 
##                            7.7753790                           11.8123721 
##     factor(Cargo)Representante_Salud    factor(Cargo)Representante_Ventas 
##                            3.1051146                           27.0078585 
##     factor(Cargo)Tecnico_Laboratorio         factor(Satisfación_Laboral)2 
##                           12.4824387                            0.5968313 
##         factor(Satisfación_Laboral)3         factor(Satisfación_Laboral)4 
##                            0.6629054                            0.4098370 
##                   factor(Educación)2                   factor(Educación)3 
##                            1.0643769                            1.1442169 
##                   factor(Educación)4                   factor(Educación)5 
##                            1.0719138                            0.8447594 
##                      Ingreso_Mensual                  Trabajos_Anteriores 
##                            1.0000184                            1.1255253 
##                                 Edad 
##                            0.9588897

Por practicidad, se procede a presentar la interpretación de los coeficientes con significacia estadística de al menos sobre el 1%:

  • Interecepto: se tiene que la razón de probabilidad de rotación cuando los demás coeficientes son nulos es equivalente a 0.10371. Este resultado es congruente, en tanto la probabilidad de rotación es bastante inferior a la probabilidad continuidad en la empresa. (Significancia estadística sobre el 1%)

  • Cargo de ejecutivo de ventas: se tiene que el desempeñarse como ejecutivo de ventas en la empresa incrementa la razón de probabilidad de rotación en aproximadamente 8.7 unidades. En coherencia con el análisis exploratorio realizado, se tiene que este cargo es de los que presenta rotación en mayor medida. (Significancia estadística del 1%).

  • Cargo de investigador científico: se tiene que el desempeñarse como investigador científico en la empresa incrementa la razón de probabilidad de rotación en aproximadamente 7.7 unidades. En coherencia con el análisis exploratorio realizado, se tiene que este cargo es de los que presenta rotación en mayor medida. (Significancia estadística del 1%).

  • Cargo de recursos humanos: se tiene que el desempeñarse como representante de recursos humanos en la empresa incrementa la razón de probabilidad de rotación en aproximadamente 11.8 unidades. Nótese que este resultado no es congruente con el análisis exploratorio realizado. (Significancia estadística del 0,1%).

  • Cargo de representante de ventas: se tiene que el desempeñarse como representante de ventas en la empresa incrementa la razón de probabilidad de rotación en aproximadamente 27 unidades. Así, se tiene que ejercer este cargo incrementa en mayor medida la probabilidad de rotación. (Significancia estadística del 0%).

  • Cargo de técnico de laboratorio: se tiene que el desempeñarse como técnico de laboratorio en la empresa incrementa la razón de probabilidad de rotación en aproximadamente 12.5 unidades. En coherencia con el análisis exploratorio realizado, se tiene que este cargo es de los que presenta rotación en mayor medida. (Significancia estadística del 0,1%).

  • Satisfacción laboral: se obtiene un resultado congruente al del análisis exploratorio, en tanto existe una relación entre el nivel de satisfacción laboral y la probabilidad de rotación, de tal forma que los niveles de satisfacción laboral 2, 3 y 4 incrementan la razón de probabilidad en 0.6, 0.66, y 0.4 respectivamente, con significancia estadística al 1%, 1% y 0% respectivamente. Nótese que, al igual que en el análisis exploratorio, la relación con la probabilidad de rotación es persistente a pesar de no ser estrictamente una relación de proporcionalidad directa.

  • Trabajos anteriores: Nótese que la hipótesis planteada se cumple completamente, pues por cada trabajo anterior que reporta el empleado, la razón de probabilidad de rotación incrementa en 1.3 unidades, siendo este resultado estadísticamente significativo al 0%.

  • Edad: Se tiene cada año adicional a la edad promedio implica un incremento de la razón de probabilidad de rotación de aproximadamente una unidad. Con una significancia estadística al 0%, este resultado indica que, si bien la probabilidad de rotación no disminuye con la edad, incrementa con esta alrededor de un límite.

Es importante resaltar la ausencia de algunas variables clave en el rango de significancia estadística, como lo es el nivel de ingreso, el cual, a pesar de denotar una relación directamente proporcional con la probabilidad de rotación, no es estadísticamente significativo en ningún rango. De igual forma, ninguna de las instancias de la variable educación se muestra con significancia estadística para ser tomada como un parámetro regresor de la probabilidad de rotación. En este sentido, dados los datos de la muestra, se tiene que el salario y el nivel educativo no son determinantes en el patrón de rotación de la empresa.

Finalmente, como se observa a continuación, el test Chi-cuadrado de significancia conjunta denota la significancia estadística del modelo sobre el nivel de 0%, mostrando que el modelo planteado es, por lo menos, una buena base para la clasificación estadística de la probabilidad de rotación en función de los atributos escogidos.

## Analysis of Deviance Table
## 
## Model 1: Class ~ 1
## Model 2: Class ~ factor(Cargo) + factor(Satisfación_Laboral) + factor(Educación) + 
##     Ingreso_Mensual + Trabajos_Anteriores + Edad
##   Resid. Df Resid. Dev Df Deviance  Pr(>Chi)    
## 1      1469     1298.6                          
## 2      1451     1164.5 18   134.07 < 2.2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

5. Evaluación del modelo - Análisis ROC-AUC

Dada la modelación planteada y ejecutada. Se procede a la evaluación del poder predictivo del modelo. Para este fin, se opta por dividir las 1470 observaciones del dataset en un conjunto de training (60%) y test (40%), de tal forma que se obtienen los coeficientes del modelo logit a partir del conjunto de training, y se evalúan sus predicciones a partir del contraste de éste con el conjunto de test. A continuación, se muestran los resultados obtenidos.

## 
## Call:
## glm(formula = Class ~ factor(Cargo) + factor(Satisfación_Laboral) + 
##     factor(Educación) + Ingreso_Mensual + Trabajos_Anteriores + 
##     Edad, family = binomial(link = logit), data = train_data)
## 
## Coefficients:
##                                        Estimate Std. Error z value Pr(>|z|)    
## (Intercept)                          -1.662e+01  5.792e+02  -0.029 0.977103    
## factor(Cargo)Director_Manofactura     1.491e+01  5.792e+02   0.026 0.979468    
## factor(Cargo)Ejecutivo_Ventas         1.628e+01  5.792e+02   0.028 0.977574    
## factor(Cargo)Gerente                  1.362e+01  5.792e+02   0.024 0.981241    
## factor(Cargo)Investigador_Cientifico  1.606e+01  5.792e+02   0.028 0.977873    
## factor(Cargo)Recursos_Humanos         1.684e+01  5.792e+02   0.029 0.976801    
## factor(Cargo)Representante_Salud      1.509e+01  5.792e+02   0.026 0.979220    
## factor(Cargo)Representante_Ventas     1.738e+01  5.792e+02   0.030 0.976056    
## factor(Cargo)Tecnico_Laboratorio      1.662e+01  5.792e+02   0.029 0.977115    
## factor(Satisfación_Laboral)2         -7.156e-01  3.093e-01  -2.314 0.020688 *  
## factor(Satisfación_Laboral)3         -5.554e-01  2.668e-01  -2.082 0.037352 *  
## factor(Satisfación_Laboral)4         -9.537e-01  2.777e-01  -3.435 0.000593 ***
## factor(Educación)2                    3.932e-01  3.901e-01   1.008 0.313519    
## factor(Educación)3                    4.616e-01  3.588e-01   1.286 0.198275    
## factor(Educación)4                    2.580e-01  3.908e-01   0.660 0.509117    
## factor(Educación)5                    9.180e-02  7.177e-01   0.128 0.898221    
## Ingreso_Mensual                       4.054e-05  5.958e-05   0.681 0.496183    
## Trabajos_Anteriores                   1.259e-01  4.134e-02   3.047 0.002312 ** 
## Edad                                 -4.400e-02  1.415e-02  -3.109 0.001875 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 748.08  on 881  degrees of freedom
## Residual deviance: 651.31  on 863  degrees of freedom
## AIC: 689.31
## 
## Number of Fisher Scoring iterations: 16

## AUC:  0.6901025

La curva ROC, la cual mide la relación entre la tasa de falsos positivos en el eje x (Specificity) y la tasa de verdaderos positivos en el eje y (Sensitivity) denota una buena aproximación al codo deseado en este tipo de análisis, la cual se corresponde con un valor de área bajo la curva (AUC) de alrededor del 70%.

En general, este resultado indica que el modelo construido posee un buen nivel de ajuste y poder predictivo, sin embargo, caben posibles mejoras al mismo.

6. Predicción.

A manera de ejercicio de predicción, se procede a extraer una muestra aleatoria del conjunto de test y evaluar, en función del modelo entrenado, la predicción tanto de su clase (bajo un corte o límite de probabilidad del 50%) como de su probabilidad real de rotación en función. En este sentido, el individuo aleatoriamente seleccionado presenta los atributos desplegados en la tabla, obteniendo una probabilidad de rotación de alrededor del 9.1%. En tanto este valor es menor a 50%, se le clasifica en la instancia 0 (rotación negativa).

## # A tibble: 1 × 25
##   Rotación  Edad `Viaje de Negocios` Departamento Distancia_Casa Educación
##   <chr>    <dbl> <chr>               <chr>                 <dbl>     <dbl>
## 1 No          56 Raramente           IyD                       1         2
## # ℹ 19 more variables: Campo_Educación <chr>, Satisfacción_Ambiental <dbl>,
## #   Genero <chr>, Cargo <fct>, Satisfación_Laboral <dbl>, Estado_Civil <chr>,
## #   Ingreso_Mensual <dbl>, Trabajos_Anteriores <dbl>, Horas_Extra <chr>,
## #   Porcentaje_aumento_salarial <dbl>, Rendimiento_Laboral <dbl>,
## #   Años_Experiencia <dbl>, Capacitaciones <dbl>,
## #   Equilibrio_Trabajo_Vida <dbl>, Antigüedad <dbl>, Antigüedad_Cargo <dbl>,
## #   Años_ultima_promoción <dbl>, Años_acargo_con_mismo_jefe <dbl>, …
## Predicción de probabilidad de rotación: 0.09160411
## Predicción de clase: 0

En este sentido, se tiene que el empleado analizado no requiere de una intervención, pues no se le puede clasificar como propenso a renunciar.

7. Conclusiones.

El ejercicio realizado permitió construir un modelo estadísticamente consistente para la predicción de la probabilidad de rotación de los empleados en función de los atributos seleccionados. Además de establecer un mecanismo de análisis y predicción confiable, el modelo permitió identificar los atributos de mayor influencia en la decisión de los empleados de rotar sus cargos.

Sin duda, puede considerarse que el resultado de mayor relevancia fue la identificación de cargos específicos sobre los cuales la probabilidad de rotación incrementa significativamente, siendo estos ejecutivo de ventas, investigador científico, recursos humanos, técnico del laboratorio, y, especialmente representante de ventas. Alrededor de este resultado se recomienda a la empresa ponderar la tasa adecuada de rotación en función del tipo de cargo, puesto que puestos de entrada como técnicos de laboratorio o representantes de ventas suelen tener un comportamiento elevado en su rotación. Adicional a este análisis, y considerando que el ingreso y la educación no se hallaron como estadísticamente relevantes, se recomienda una revisión de la dinámica organizacional y el ambiente laboral asociado a estos cargos y sus correspondientes departamentos, con el fin de hallar medidas correctivas y diseñar incentivos económicos propicios.

Los atributos Edad y Trabajos Anteriores denotaron uan relación estadística fuerte con respecto a la probabilidad de rotación, por lo cual se recomienda a la empresa realizar una caracterización puntual de los rangos de edad de los empleados según su área, con el fin de diseñar incentivos específicos acorde a la etapa de su desarrollo profesional. Por la misma línea, se logró establecer que empleados con más trabajos anteriores son más propensos a rotar. En este sentido, se recomienda a la empresa un mejor monitoreo y diseño de incentivos económicos que puedan contrarrestar la salida de talentos de la empresa, los cuales pueden partir de mejorar posibles ofertas de empresas competidoras.

Finalmente, si bien el modelo permitió una buena esquematización de la probabilidad de rotación en función de atributos críticos, se lograron identificar posibles aspectos a mejorar el poder predictivo de la modelación en función de los datos disponibles. A continuación se presentan algunas sugerencias concretas:

  • Definir métodos propicios de balanceo de clases para evitar posibles sesgos de clases mayoritarias.
  • Revisar la selección de variables regresoras desde criterios estadísticos puntuales.
  • Considaderar la inserción de términos de interacción entre los atributos predictores con el fin de obtener coeficientes que capturen de mejor manera la estructura de variación de la probabilidad de rotación.