Se inicia con la carga y descripción preliminar del dataset original rotacion de paqueteMODELOS:
## rotacion
##
## 24 Variables 1470 Observations
## --------------------------------------------------------------------------------
## Rotación
## n missing distinct
## 1470 0 2
##
## Value No Si
## Frequency 1233 237
## Proportion 0.839 0.161
## --------------------------------------------------------------------------------
## Edad
## n missing distinct Info Mean Gmd .05 .10
## 1470 0 43 0.999 36.92 10.33 24 26
## .25 .50 .75 .90 .95
## 30 36 43 50 54
##
## lowest : 18 19 20 21 22, highest: 56 57 58 59 60
## --------------------------------------------------------------------------------
## Viaje de Negocios
## n missing distinct
## 1470 0 3
##
## Value Frecuentemente No_Viaja Raramente
## Frequency 277 150 1043
## Proportion 0.188 0.102 0.710
## --------------------------------------------------------------------------------
## Departamento
## n missing distinct
## 1470 0 3
##
## Value IyD RH Ventas
## Frequency 961 63 446
## Proportion 0.654 0.043 0.303
## --------------------------------------------------------------------------------
## Distancia_Casa
## n missing distinct Info Mean Gmd .05 .10
## 1470 0 29 0.993 9.193 8.773 1 1
## .25 .50 .75 .90 .95
## 2 7 14 23 26
##
## lowest : 1 2 3 4 5, highest: 25 26 27 28 29
## --------------------------------------------------------------------------------
## Educación
## n missing distinct Info Mean Gmd
## 1470 0 5 0.913 2.913 1.117
##
## Value 1 2 3 4 5
## Frequency 170 282 572 398 48
## Proportion 0.116 0.192 0.389 0.271 0.033
##
## For the frequency table, variable is rounded to the nearest 0
## --------------------------------------------------------------------------------
## Campo_Educación
## n missing distinct
## 1470 0 6
##
## Value Ciencias Humanidades Mercadeo Otra Salud
## Frequency 606 27 159 82 464
## Proportion 0.412 0.018 0.108 0.056 0.316
##
## Value Tecnicos
## Frequency 132
## Proportion 0.090
## --------------------------------------------------------------------------------
## Satisfacción_Ambiental
## n missing distinct Info Mean Gmd
## 1470 0 4 0.928 2.722 1.21
##
## Value 1 2 3 4
## Frequency 284 287 453 446
## Proportion 0.193 0.195 0.308 0.303
##
## For the frequency table, variable is rounded to the nearest 0
## --------------------------------------------------------------------------------
## Genero
## n missing distinct
## 1470 0 2
##
## Value F M
## Frequency 588 882
## Proportion 0.4 0.6
## --------------------------------------------------------------------------------
## Cargo
## n missing distinct
## 1470 0 9
##
## lowest : Director_Investigación Director_Manofactura Ejecutivo_Ventas Gerente Investigador_Cientifico
## highest: Investigador_Cientifico Recursos_Humanos Representante_Salud Representante_Ventas Tecnico_Laboratorio
## --------------------------------------------------------------------------------
## Satisfación_Laboral
## n missing distinct Info Mean Gmd
## 1470 0 4 0.928 2.729 1.221
##
## Value 1 2 3 4
## Frequency 289 280 442 459
## Proportion 0.197 0.190 0.301 0.312
##
## For the frequency table, variable is rounded to the nearest 0
## --------------------------------------------------------------------------------
## Estado_Civil
## n missing distinct
## 1470 0 3
##
## Value Casado Divorciado Soltero
## Frequency 673 327 470
## Proportion 0.458 0.222 0.320
## --------------------------------------------------------------------------------
## Ingreso_Mensual
## n missing distinct Info Mean Gmd .05 .10
## 1470 0 1349 1 6503 4868 2098 2318
## .25 .50 .75 .90 .95
## 2911 4919 8379 13776 17821
##
## lowest : 1009 1051 1052 1081 1091, highest: 19859 19926 19943 19973 19999
## --------------------------------------------------------------------------------
## Trabajos_Anteriores
## n missing distinct Info Mean Gmd .05 .10
## 1470 0 10 0.95 2.693 2.656 0 0
## .25 .50 .75 .90 .95
## 1 2 4 7 8
##
## Value 0 1 2 3 4 5 6 7 8 9
## Frequency 197 521 146 159 139 63 70 74 49 52
## Proportion 0.134 0.354 0.099 0.108 0.095 0.043 0.048 0.050 0.033 0.035
##
## For the frequency table, variable is rounded to the nearest 0
## --------------------------------------------------------------------------------
## Horas_Extra
## n missing distinct
## 1470 0 2
##
## Value No Si
## Frequency 1054 416
## Proportion 0.717 0.283
## --------------------------------------------------------------------------------
## Porcentaje_aumento_salarial
## n missing distinct Info Mean Gmd .05 .10
## 1470 0 15 0.988 15.21 4.033 11 11
## .25 .50 .75 .90 .95
## 12 14 18 21 22
##
## Value 11 12 13 14 15 16 17 18 19 20 21
## Frequency 210 198 209 201 101 78 82 89 76 55 48
## Proportion 0.143 0.135 0.142 0.137 0.069 0.053 0.056 0.061 0.052 0.037 0.033
##
## Value 22 23 24 25
## Frequency 56 28 21 18
## Proportion 0.038 0.019 0.014 0.012
##
## For the frequency table, variable is rounded to the nearest 0
## --------------------------------------------------------------------------------
## Rendimiento_Laboral
## n missing distinct Info Mean Gmd
## 1470 0 2 0.39 3.154 0.2604
##
## Value 3 4
## Frequency 1244 226
## Proportion 0.846 0.154
## --------------------------------------------------------------------------------
## Años_Experiencia
## n missing distinct Info Mean Gmd .05 .10
## 1470 0 40 0.995 11.28 8.349 1 3
## .25 .50 .75 .90 .95
## 6 10 15 23 28
##
## lowest : 0 1 2 3 4, highest: 35 36 37 38 40
## --------------------------------------------------------------------------------
## Capacitaciones
## n missing distinct Info Mean Gmd
## 1470 0 7 0.91 2.799 1.358
##
## Value 0 1 2 3 4 5 6
## Frequency 54 71 547 491 123 119 65
## Proportion 0.037 0.048 0.372 0.334 0.084 0.081 0.044
##
## For the frequency table, variable is rounded to the nearest 0
## --------------------------------------------------------------------------------
## Equilibrio_Trabajo_Vida
## n missing distinct Info Mean Gmd
## 1470 0 4 0.762 2.761 0.7004
##
## Value 1 2 3 4
## Frequency 80 344 893 153
## Proportion 0.054 0.234 0.607 0.104
##
## For the frequency table, variable is rounded to the nearest 0
## --------------------------------------------------------------------------------
## Antigüedad
## n missing distinct Info Mean Gmd .05 .10
## 1470 0 37 0.993 7.008 6.215 1 1
## .25 .50 .75 .90 .95
## 3 5 9 15 20
##
## lowest : 0 1 2 3 4, highest: 33 34 36 37 40
## --------------------------------------------------------------------------------
## Antigüedad_Cargo
## n missing distinct Info Mean Gmd .05 .10
## 1470 0 19 0.974 4.229 3.939 0 0
## .25 .50 .75 .90 .95
## 2 3 7 9 11
##
## Value 0 1 2 3 4 5 6 7 8 9 10
## Frequency 244 57 372 135 104 36 37 222 89 67 29
## Proportion 0.166 0.039 0.253 0.092 0.071 0.024 0.025 0.151 0.061 0.046 0.020
##
## Value 11 12 13 14 15 16 17 18
## Frequency 22 10 14 11 8 7 4 2
## Proportion 0.015 0.007 0.010 0.007 0.005 0.005 0.003 0.001
##
## For the frequency table, variable is rounded to the nearest 0
## --------------------------------------------------------------------------------
## Años_ultima_promoción
## n missing distinct Info Mean Gmd .05 .10
## 1470 0 16 0.922 2.188 2.994 0 0
## .25 .50 .75 .90 .95
## 0 1 3 7 9
##
## Value 0 1 2 3 4 5 6 7 8 9 10
## Frequency 581 357 159 52 61 45 32 76 18 17 6
## Proportion 0.395 0.243 0.108 0.035 0.041 0.031 0.022 0.052 0.012 0.012 0.004
##
## Value 11 12 13 14 15
## Frequency 24 10 10 9 13
## Proportion 0.016 0.007 0.007 0.006 0.009
##
## For the frequency table, variable is rounded to the nearest 0
## --------------------------------------------------------------------------------
## Años_acargo_con_mismo_jefe
## n missing distinct Info Mean Gmd .05 .10
## 1470 0 18 0.976 4.123 3.904 0 0
## .25 .50 .75 .90 .95
## 2 3 7 9 10
##
## Value 0 1 2 3 4 5 6 7 8 9 10
## Frequency 263 76 344 142 98 31 29 216 107 64 27
## Proportion 0.179 0.052 0.234 0.097 0.067 0.021 0.020 0.147 0.073 0.044 0.018
##
## Value 11 12 13 14 15 16 17
## Frequency 22 18 14 5 5 2 7
## Proportion 0.015 0.012 0.010 0.003 0.003 0.001 0.005
##
## For the frequency table, variable is rounded to the nearest 0
## --------------------------------------------------------------------------------
Puesto que el dataset no registra datos faltantes, no se considera ningún proceso de imputación.
A continuación, se presentan los grupos de variables cualitativas y cuantitativas seleccionadas para la modelación, presentando cada variable y la hipótesis inicial que se tiene sobre su relación con la rotación de los empleados.
-Educación, se espera que exista una relación entre el nivel educativo y la probabilidad de rotación, en tanto niveles educativos más altos implican mayor flexibilidad en el mercado laboral para los trabajadores. Así, la hipótesis planteada es que, a mayor nivel educativo, mayor probabilidad de rotación.
-Satisfacción laboral, la hipótesis planteada indica que a menor nivel de satisfacción laboral, existe una mayor probabilidad de rotación.
-Ingreso, la hipótesis planteada indica que, a menor ingreso mensual, mayor probabilidad de rotación.
-Trabajos anteriores, se establece la relación entre esta variable y la rotación considerando que un historial de más trabajos anteriores implica mayor probabilidad de rotación en el trabajador.
-Edad, se establece esta relación considerando que el incremento de la edad puede implicar rigidez en la movilidad en el mercado laboral, en este sentido, la hipotesis indica que, a mayor edad, menor probabilidad de rotación.
De esta manera, la modelación partirá de un dataset con 1470 observaciones evaluadas desde los atributos considerados y la etiqueta de clase para la rotación.
## # A tibble: 1,470 × 6
## Cargo Educación Satisfación_Laboral Ingreso_Mensual Trabajos_Anteriores Edad
## <fct> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 Ejec… 2 4 5993 8 41
## 2 Inve… 1 2 5130 1 49
## 3 Tecn… 2 3 2090 6 37
## 4 Inve… 4 3 2909 1 33
## 5 Tecn… 1 2 3468 9 27
## 6 Tecn… 2 4 3068 0 32
## 7 Tecn… 3 1 2670 4 59
## 8 Tecn… 1 3 2693 1 30
## 9 Dire… 3 3 9526 0 38
## 10 Repr… 3 3 5237 6 36
## # ℹ 1,460 more rows
A continuación, se procede al análisis univariado de los atributos seleccionados para la modelación, con el fin de realizar una revisión del comportamiento de sus distribuciones, desde las cuales puede ser posible identificar patrones y variables de mayor influencia en la probabilidad de rotación de los trabajadores, la cual se ve reflejada en la variable Rotación, esta variable indica que el empleado rota su cargo en la instancia Si, y no lo hace en la instancia No, de tal forma que la distribución de los empleados sobre esta clase será el núcleo del análisis a realizar.
Los gráficos de barras integrados denotan la distribución de la frecuencia de las variables categóricas empleadas, revelando los siguientes patrones:
En cuanto a la variable Cargo, se tiene que las instancias con mayor frecuencia son los cargos de Director de manufactura (mayor al 20% de la muestra), investigador científico (aproximadamente 20% de la muestra) y técnico de laboratorio (cerca del 18% de la muestra). Existiendo una frecuencia menor para los demás cargos contemplados, con proporciones de entre el 3% y el 10%.
En cuanto a la variable Educación, se tiene que la mayoría de los empleados se ubican en el nivel educaativo 3 con poco menos de 40% de la muestra, dada la ausencia de una descripción de las instancias de esta variable categórica, es posible asumir que se trata de un nivel de formación promedio, tal como profesional o tecnólogo. Nótese además que el nivel 4 de la variable es el siguiente en frecuencia relativa (por encima del 25%), por lo cual puede afirmarse que la mayoría de los empleados en la muestra poseen niveles altos de formación educativa.
En cuanto a la variable Satisfación_Laboral, se tiene una percepción de satisfacción en los niveles 3 y 4 (con frecuencias de alrededor del 30%), sin embargo, nótese que los niveles 1 y 2 poseen frecuencias significativas (poco menos del 20%), lo cual es un indicio de que existe una división relevante entre los empleados con respecto al grado de satisfacción con sus empleos.
Un buen análisis univariado de las variables cuantitativas consideradas puede obtenerse a partir de gráficos de caja y bigotes para cada una de éstas, con el fin de determinar sus valores medios y su comportamiento de desviación.
Inicialmente, se tiene que el ingreso mensual promedio de los empleados se ubica alrededor de $5000, con una desviación correspondiente al rango intercuartílico de entre $3000 y $8000. Además, se perciben outliers que corresponden a salarios muy altos, muy por encima de los $15000.
En cuanto a los trabajos anteriores, se obtiene un promedio de 2, y un rango intercuartílico de entre 1 y 4, existiendo outliers con cifras por encima de los 8 trabajos anteriores.
Finalmente, se tiene que la edad promedio de los trabajadores se halla sobre los 35 años, con un rango intercuartílico de entre 30 y 43 años.
Un análisis descriptivo bivariado del comportamiento de los atributos con respecto a la etiqueta de clase de rotación puede otorgar una vista previa de los patrones de influencia de éstos sobre la probabilidad de rotación.
Para este fin, es necesario crear una columna que fije la etiqueta de clase como una variable binaria, la cual se nombra como Class, y arroja el valor 1 para Sí, y el valor 0 para No.
Ahora, en cuanto a las variables cualitativas, este análisis puede llevarse a cabo empleando gráficos de barra dobles, los cuales relacionen la distribución de la frecuencia de la etiqueta de clase con las instancias de los atributos categóricos.
De acuerdo al gráfico de barras dobles, la distribución de la frecuencia de la rotación, dada por la etiqueta de clase con valor 1, indica la mayor presencia de rotación en los cargos de ejecutivos de ventas, investigador científico, representante de ventasy técnico de laboratorio, existiendo rotación en menor medida para el cargo de director de manufactura. En este sentido, la hipótesis planteada anteriormente se hace más específica, al mencionar que se espera que la probabilidad de rotación sea más alta en estos cargos.
En cuanto a la variable Educación, se percibe rotación en todos los niveles excepto el quinto, dándose en mayor medida en los niveles 3 y 4, lo cual es correspondiente con la hipótesis planteada en la sección anterior. Nótese que la ausencia de rotación en el nivel 5 puede estar asociada con cargos directivos, los cuales (se espera) deberían percibir mayores salarios y tener menos incentivos para renunciar.
La variable Satisfación_Laboral denota una distribución de frecuencia de la rotación en todas sus instancias. Si bien puede decirse que esta se observa mayormente en los menores niveles (1 a 3), no puede decirse a priori que hay una relación directamente proporcionalentre la satisfacción laboral y la rotación. Por lo cual puede afirmarse que los hechos de rotación en la empresa no necesariamente se relacionan a insatisfacción laboral.
El análisis bivariado de los atributos cuantitativos puede rastrearse por medio de diagramas de caja segmentados por cada instancia de clase, de tal forma que es posible detectar cambios en el comportamiento medio y de desviación de estas variables en función de la etiqueta de clase a analizar.
El comportamiento de desviación de la variable ingresos es completamente congruente con la hipótesis planteada, pues se observa una clara diferencia entre el rango de ingresos de los empleados que rotan (entre $2300 y $5900) con respecto a los empleados que continúan (entre $3200 y $8800), de esta forma, es posible afirmar a priori que un menor nivel de ingresos está relacionado con una mayor probabilidad de rotación.
Si bien no es posible denotarlo de forma tan clara como en el caso de los ingresos mensuales, se detecta un patrón consistente sobre el cual una mayor cantidad de trabajos anteriores está relacionada con una mayor probabilidad de rotación, pues el rango de variación típica de la cantidad de trabajos anteriores toma valores más altos para la instancia 1 (entre 1 y 5) que para la instancia 0 (entre 1 y 4). Sin embargo, es de resaltarse que esta relación debe reforzarse con el modelo a realizar, pues el hecho de que la mediana para la clase 1 sea menor que para la clase 0 puede implicar una discrepancia con respecto a la hipótesis planteada.
En cuanto a la edad, la hipótesis planteada puede observarse a priori completamente, pues tanto la mediana de la edad como su rango de variación típica se ubica en valores menores para los casos con rotación que los casos sin rotación: una mediana de 32 años y un rango de entre 27 y 39 años, versus una mediana de 36 años y un rango de entre 31 y 43 años. De esta forma, puede observarse de forma preliminar el hecho de que menores edades pueden incrementar la probabilidad de rotación.
Habiendo determinado los patrones preliminares para la relación entre la etiqueta de clase y los atributos seleccionados, se prosigue a la estimación del modelo logit para la clasificación de la rotación de los empleados en función de estos. De tal forma que el modelo de clasificación consistirá en el logaritmo de los odds de probabilidad de pertenencia a la clase de rotación positiva en función de la suma de las instancias de los atributos seleccionados (numéricos y categóricos).
##
## Call:
## glm(formula = Class ~ factor(Cargo) + factor(Satisfación_Laboral) +
## factor(Educación) + Ingreso_Mensual + Trabajos_Anteriores +
## Edad, family = binomial(link = logit), data = rotacion)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -2.266e+00 1.013e+00 -2.236 0.025355 *
## factor(Cargo)Director_Manofactura 1.117e+00 8.702e-01 1.284 0.199091
## factor(Cargo)Ejecutivo_Ventas 2.164e+00 8.239e-01 2.626 0.008634 **
## factor(Cargo)Gerente 8.899e-01 8.576e-01 1.038 0.299466
## factor(Cargo)Investigador_Cientifico 2.051e+00 9.063e-01 2.263 0.023638 *
## factor(Cargo)Recursos_Humanos 2.469e+00 9.300e-01 2.655 0.007931 **
## factor(Cargo)Representante_Salud 1.133e+00 8.749e-01 1.295 0.195295
## factor(Cargo)Representante_Ventas 3.296e+00 9.352e-01 3.525 0.000424 ***
## factor(Cargo)Tecnico_Laboratorio 2.524e+00 9.037e-01 2.793 0.005217 **
## factor(Satisfación_Laboral)2 -5.161e-01 2.264e-01 -2.280 0.022617 *
## factor(Satisfación_Laboral)3 -4.111e-01 1.998e-01 -2.058 0.039593 *
## factor(Satisfación_Laboral)4 -8.920e-01 2.125e-01 -4.198 2.69e-05 ***
## factor(Educación)2 6.239e-02 2.785e-01 0.224 0.822723
## factor(Educación)3 1.347e-01 2.465e-01 0.547 0.584694
## factor(Educación)4 6.945e-02 2.703e-01 0.257 0.797225
## factor(Educación)5 -1.687e-01 5.393e-01 -0.313 0.754427
## Ingreso_Mensual 1.838e-05 4.369e-05 0.421 0.674065
## Trabajos_Anteriores 1.182e-01 3.017e-02 3.919 8.89e-05 ***
## Edad -4.198e-02 1.062e-02 -3.951 7.78e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 1298.6 on 1469 degrees of freedom
## Residual deviance: 1164.5 on 1451 degrees of freedom
## AIC: 1202.5
##
## Number of Fisher Scoring iterations: 6
Con el fin de proveer una interpretación congruente de los parámetros del modelo, es necesario transformar los coeficientes obtenidos a términos de odds por medio de exponenciación:
## (Intercept) factor(Cargo)Director_Manofactura
## 0.1037138 3.0570094
## factor(Cargo)Ejecutivo_Ventas factor(Cargo)Gerente
## 8.7030607 2.4348182
## factor(Cargo)Investigador_Cientifico factor(Cargo)Recursos_Humanos
## 7.7753790 11.8123721
## factor(Cargo)Representante_Salud factor(Cargo)Representante_Ventas
## 3.1051146 27.0078585
## factor(Cargo)Tecnico_Laboratorio factor(Satisfación_Laboral)2
## 12.4824387 0.5968313
## factor(Satisfación_Laboral)3 factor(Satisfación_Laboral)4
## 0.6629054 0.4098370
## factor(Educación)2 factor(Educación)3
## 1.0643769 1.1442169
## factor(Educación)4 factor(Educación)5
## 1.0719138 0.8447594
## Ingreso_Mensual Trabajos_Anteriores
## 1.0000184 1.1255253
## Edad
## 0.9588897
Por practicidad, se procede a presentar la interpretación de los coeficientes con significacia estadística de al menos sobre el 1%:
Interecepto: se tiene que la razón de probabilidad de rotación cuando los demás coeficientes son nulos es equivalente a 0.10371. Este resultado es congruente, en tanto la probabilidad de rotación es bastante inferior a la probabilidad continuidad en la empresa. (Significancia estadística sobre el 1%)
Cargo de ejecutivo de ventas: se tiene que el desempeñarse como ejecutivo de ventas en la empresa incrementa la razón de probabilidad de rotación en aproximadamente 8.7 unidades. En coherencia con el análisis exploratorio realizado, se tiene que este cargo es de los que presenta rotación en mayor medida. (Significancia estadística del 1%).
Cargo de investigador científico: se tiene que el desempeñarse como investigador científico en la empresa incrementa la razón de probabilidad de rotación en aproximadamente 7.7 unidades. En coherencia con el análisis exploratorio realizado, se tiene que este cargo es de los que presenta rotación en mayor medida. (Significancia estadística del 1%).
Cargo de recursos humanos: se tiene que el desempeñarse como representante de recursos humanos en la empresa incrementa la razón de probabilidad de rotación en aproximadamente 11.8 unidades. Nótese que este resultado no es congruente con el análisis exploratorio realizado. (Significancia estadística del 0,1%).
Cargo de representante de ventas: se tiene que el desempeñarse como representante de ventas en la empresa incrementa la razón de probabilidad de rotación en aproximadamente 27 unidades. Así, se tiene que ejercer este cargo incrementa en mayor medida la probabilidad de rotación. (Significancia estadística del 0%).
Cargo de técnico de laboratorio: se tiene que el desempeñarse como técnico de laboratorio en la empresa incrementa la razón de probabilidad de rotación en aproximadamente 12.5 unidades. En coherencia con el análisis exploratorio realizado, se tiene que este cargo es de los que presenta rotación en mayor medida. (Significancia estadística del 0,1%).
Satisfacción laboral: se obtiene un resultado congruente al del análisis exploratorio, en tanto existe una relación entre el nivel de satisfacción laboral y la probabilidad de rotación, de tal forma que los niveles de satisfacción laboral 2, 3 y 4 incrementan la razón de probabilidad en 0.6, 0.66, y 0.4 respectivamente, con significancia estadística al 1%, 1% y 0% respectivamente. Nótese que, al igual que en el análisis exploratorio, la relación con la probabilidad de rotación es persistente a pesar de no ser estrictamente una relación de proporcionalidad directa.
Trabajos anteriores: Nótese que la hipótesis planteada se cumple completamente, pues por cada trabajo anterior que reporta el empleado, la razón de probabilidad de rotación incrementa en 1.3 unidades, siendo este resultado estadísticamente significativo al 0%.
Edad: Se tiene cada año adicional a la edad promedio implica un incremento de la razón de probabilidad de rotación de aproximadamente una unidad. Con una significancia estadística al 0%, este resultado indica que, si bien la probabilidad de rotación no disminuye con la edad, incrementa con esta alrededor de un límite.
Es importante resaltar la ausencia de algunas variables clave en el rango de significancia estadística, como lo es el nivel de ingreso, el cual, a pesar de denotar una relación directamente proporcional con la probabilidad de rotación, no es estadísticamente significativo en ningún rango. De igual forma, ninguna de las instancias de la variable educación se muestra con significancia estadística para ser tomada como un parámetro regresor de la probabilidad de rotación. En este sentido, dados los datos de la muestra, se tiene que el salario y el nivel educativo no son determinantes en el patrón de rotación de la empresa.
Finalmente, como se observa a continuación, el test Chi-cuadrado de significancia conjunta denota la significancia estadística del modelo sobre el nivel de 0%, mostrando que el modelo planteado es, por lo menos, una buena base para la clasificación estadística de la probabilidad de rotación en función de los atributos escogidos.
## Analysis of Deviance Table
##
## Model 1: Class ~ 1
## Model 2: Class ~ factor(Cargo) + factor(Satisfación_Laboral) + factor(Educación) +
## Ingreso_Mensual + Trabajos_Anteriores + Edad
## Resid. Df Resid. Dev Df Deviance Pr(>Chi)
## 1 1469 1298.6
## 2 1451 1164.5 18 134.07 < 2.2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Dada la modelación planteada y ejecutada. Se procede a la evaluación del poder predictivo del modelo. Para este fin, se opta por dividir las 1470 observaciones del dataset en un conjunto de training (60%) y test (40%), de tal forma que se obtienen los coeficientes del modelo logit a partir del conjunto de training, y se evalúan sus predicciones a partir del contraste de éste con el conjunto de test. A continuación, se muestran los resultados obtenidos.
##
## Call:
## glm(formula = Class ~ factor(Cargo) + factor(Satisfación_Laboral) +
## factor(Educación) + Ingreso_Mensual + Trabajos_Anteriores +
## Edad, family = binomial(link = logit), data = train_data)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -1.662e+01 5.792e+02 -0.029 0.977103
## factor(Cargo)Director_Manofactura 1.491e+01 5.792e+02 0.026 0.979468
## factor(Cargo)Ejecutivo_Ventas 1.628e+01 5.792e+02 0.028 0.977574
## factor(Cargo)Gerente 1.362e+01 5.792e+02 0.024 0.981241
## factor(Cargo)Investigador_Cientifico 1.606e+01 5.792e+02 0.028 0.977873
## factor(Cargo)Recursos_Humanos 1.684e+01 5.792e+02 0.029 0.976801
## factor(Cargo)Representante_Salud 1.509e+01 5.792e+02 0.026 0.979220
## factor(Cargo)Representante_Ventas 1.738e+01 5.792e+02 0.030 0.976056
## factor(Cargo)Tecnico_Laboratorio 1.662e+01 5.792e+02 0.029 0.977115
## factor(Satisfación_Laboral)2 -7.156e-01 3.093e-01 -2.314 0.020688 *
## factor(Satisfación_Laboral)3 -5.554e-01 2.668e-01 -2.082 0.037352 *
## factor(Satisfación_Laboral)4 -9.537e-01 2.777e-01 -3.435 0.000593 ***
## factor(Educación)2 3.932e-01 3.901e-01 1.008 0.313519
## factor(Educación)3 4.616e-01 3.588e-01 1.286 0.198275
## factor(Educación)4 2.580e-01 3.908e-01 0.660 0.509117
## factor(Educación)5 9.180e-02 7.177e-01 0.128 0.898221
## Ingreso_Mensual 4.054e-05 5.958e-05 0.681 0.496183
## Trabajos_Anteriores 1.259e-01 4.134e-02 3.047 0.002312 **
## Edad -4.400e-02 1.415e-02 -3.109 0.001875 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 748.08 on 881 degrees of freedom
## Residual deviance: 651.31 on 863 degrees of freedom
## AIC: 689.31
##
## Number of Fisher Scoring iterations: 16
## AUC: 0.6901025
La curva ROC, la cual mide la relación entre la tasa de falsos positivos en el eje x (Specificity) y la tasa de verdaderos positivos en el eje y (Sensitivity) denota una buena aproximación al codo deseado en este tipo de análisis, la cual se corresponde con un valor de área bajo la curva (AUC) de alrededor del 70%.
En general, este resultado indica que el modelo construido posee un buen nivel de ajuste y poder predictivo, sin embargo, caben posibles mejoras al mismo.
A manera de ejercicio de predicción, se procede a extraer una muestra aleatoria del conjunto de test y evaluar, en función del modelo entrenado, la predicción tanto de su clase (bajo un corte o límite de probabilidad del 50%) como de su probabilidad real de rotación en función. En este sentido, el individuo aleatoriamente seleccionado presenta los atributos desplegados en la tabla, obteniendo una probabilidad de rotación de alrededor del 9.1%. En tanto este valor es menor a 50%, se le clasifica en la instancia 0 (rotación negativa).
## # A tibble: 1 × 25
## Rotación Edad `Viaje de Negocios` Departamento Distancia_Casa Educación
## <chr> <dbl> <chr> <chr> <dbl> <dbl>
## 1 No 56 Raramente IyD 1 2
## # ℹ 19 more variables: Campo_Educación <chr>, Satisfacción_Ambiental <dbl>,
## # Genero <chr>, Cargo <fct>, Satisfación_Laboral <dbl>, Estado_Civil <chr>,
## # Ingreso_Mensual <dbl>, Trabajos_Anteriores <dbl>, Horas_Extra <chr>,
## # Porcentaje_aumento_salarial <dbl>, Rendimiento_Laboral <dbl>,
## # Años_Experiencia <dbl>, Capacitaciones <dbl>,
## # Equilibrio_Trabajo_Vida <dbl>, Antigüedad <dbl>, Antigüedad_Cargo <dbl>,
## # Años_ultima_promoción <dbl>, Años_acargo_con_mismo_jefe <dbl>, …
## Predicción de probabilidad de rotación: 0.09160411
## Predicción de clase: 0
En este sentido, se tiene que el empleado analizado no requiere de una intervención, pues no se le puede clasificar como propenso a renunciar.
El ejercicio realizado permitió construir un modelo estadísticamente consistente para la predicción de la probabilidad de rotación de los empleados en función de los atributos seleccionados. Además de establecer un mecanismo de análisis y predicción confiable, el modelo permitió identificar los atributos de mayor influencia en la decisión de los empleados de rotar sus cargos.
Sin duda, puede considerarse que el resultado de mayor relevancia fue la identificación de cargos específicos sobre los cuales la probabilidad de rotación incrementa significativamente, siendo estos ejecutivo de ventas, investigador científico, recursos humanos, técnico del laboratorio, y, especialmente representante de ventas. Alrededor de este resultado se recomienda a la empresa ponderar la tasa adecuada de rotación en función del tipo de cargo, puesto que puestos de entrada como técnicos de laboratorio o representantes de ventas suelen tener un comportamiento elevado en su rotación. Adicional a este análisis, y considerando que el ingreso y la educación no se hallaron como estadísticamente relevantes, se recomienda una revisión de la dinámica organizacional y el ambiente laboral asociado a estos cargos y sus correspondientes departamentos, con el fin de hallar medidas correctivas y diseñar incentivos económicos propicios.
Los atributos Edad y Trabajos Anteriores denotaron uan relación estadística fuerte con respecto a la probabilidad de rotación, por lo cual se recomienda a la empresa realizar una caracterización puntual de los rangos de edad de los empleados según su área, con el fin de diseñar incentivos específicos acorde a la etapa de su desarrollo profesional. Por la misma línea, se logró establecer que empleados con más trabajos anteriores son más propensos a rotar. En este sentido, se recomienda a la empresa un mejor monitoreo y diseño de incentivos económicos que puedan contrarrestar la salida de talentos de la empresa, los cuales pueden partir de mejorar posibles ofertas de empresas competidoras.
Finalmente, si bien el modelo permitió una buena esquematización de la probabilidad de rotación en función de atributos críticos, se lograron identificar posibles aspectos a mejorar el poder predictivo de la modelación en función de los datos disponibles. A continuación se presentan algunas sugerencias concretas: