En una organización, se busca comprender y prever los factores que influyen en la rotación de empleados entre distintos cargos. La empresa ha recopilado datos históricos sobre el empleo de sus trabajadores, incluyendo variables como la antigüedad en el cargo actual, el nivel de satisfacción laboral, el salario actual, edad y otros factores relevantes. La gerencia planea desarrollar un modelo de regresión logística que permita estimar la probabilidad de que un empleado cambie de cargo en el próximo período y determinar cuales factores indicen en mayor proporción a estos cambios.
Con esta información, la empresa podrá tomar medidas proactivas para retener a su talento clave, identificar áreas de mejora en la gestión de recursos humanos y fomentar un ambiente laboral más estable y tranquilo. La predicción de la probabilidad de rotación de empleados ayudará a la empresa a tomar decisiones estratégicas informadas y a mantener un equipo de trabajo comprometido y satisfecho en sus roles actuales.
## Rows: 1,470
## Columns: 24
## $ Rotación <chr> "Si", "No", "Si", "No", "No", "No", "No", …
## $ Edad <dbl> 41, 49, 37, 33, 27, 32, 59, 30, 38, 36, 35…
## $ `Viaje de Negocios` <chr> "Raramente", "Frecuentemente", "Raramente"…
## $ Departamento <chr> "Ventas", "IyD", "IyD", "IyD", "IyD", "IyD…
## $ Distancia_Casa <dbl> 1, 8, 2, 3, 2, 2, 3, 24, 23, 27, 16, 15, 2…
## $ Educación <dbl> 2, 1, 2, 4, 1, 2, 3, 1, 3, 3, 3, 2, 1, 2, …
## $ Campo_Educación <chr> "Ciencias", "Ciencias", "Otra", "Ciencias"…
## $ Satisfacción_Ambiental <dbl> 2, 3, 4, 4, 1, 4, 3, 4, 4, 3, 1, 4, 1, 2, …
## $ Genero <chr> "F", "M", "M", "F", "M", "M", "F", "M", "M…
## $ Cargo <chr> "Ejecutivo_Ventas", "Investigador_Cientifi…
## $ Satisfación_Laboral <dbl> 4, 2, 3, 3, 2, 4, 1, 3, 3, 3, 2, 3, 3, 4, …
## $ Estado_Civil <chr> "Soltero", "Casado", "Soltero", "Casado", …
## $ Ingreso_Mensual <dbl> 5993, 5130, 2090, 2909, 3468, 3068, 2670, …
## $ Trabajos_Anteriores <dbl> 8, 1, 6, 1, 9, 0, 4, 1, 0, 6, 0, 0, 1, 0, …
## $ Horas_Extra <chr> "Si", "No", "Si", "Si", "No", "No", "Si", …
## $ Porcentaje_aumento_salarial <dbl> 11, 23, 15, 11, 12, 13, 20, 22, 21, 13, 13…
## $ Rendimiento_Laboral <dbl> 3, 4, 3, 3, 3, 3, 4, 4, 4, 3, 3, 3, 3, 3, …
## $ Años_Experiencia <dbl> 8, 10, 7, 8, 6, 8, 12, 1, 10, 17, 6, 10, 5…
## $ Capacitaciones <dbl> 0, 3, 3, 3, 3, 2, 3, 2, 2, 3, 5, 3, 1, 2, …
## $ Equilibrio_Trabajo_Vida <dbl> 1, 3, 3, 3, 3, 2, 2, 3, 3, 2, 3, 3, 2, 3, …
## $ Antigüedad <dbl> 6, 10, 0, 8, 2, 7, 1, 1, 9, 7, 5, 9, 5, 2,…
## $ Antigüedad_Cargo <dbl> 4, 7, 0, 7, 2, 7, 0, 0, 7, 7, 4, 5, 2, 2, …
## $ Años_ultima_promoción <dbl> 0, 1, 0, 3, 2, 3, 0, 0, 1, 7, 0, 0, 4, 1, …
## $ Años_acargo_con_mismo_jefe <dbl> 5, 7, 0, 0, 2, 6, 0, 0, 8, 7, 3, 8, 3, 2, …
Observamos que la base de datos está compuesta por 24 atributos (variables) y con un total de 1470 filas.
Las variables tienen la siguiente descripción:
Para seleccionar las variables categóricas y cuantitativas relacionadas con la rotación de empleados, podemos considerar las siguientes:
Variables categóricas:
Viaje de Negocios: Se espera que los empleados que viajan con más frecuencia por negocios tengan una mayor probabilidad de rotación, ya que los viajes constantes pueden afectar su vida personal y profesional.
Departamento: Es probable que la pertenencia a ciertos departamentos tenga un impacto en la rotación de empleados. Por ejemplo, es posible que los departamentos con mayores cargas de trabajo o con menos oportunidades de crecimiento tengan una mayor rotación.
Estado Civil: Se puede hipotetizar que el estado civil de los empleados pueda influir en su decisión de rotar. Por ejemplo, los empleados solteros pueden tener una mayor movilidad laboral en comparación con los empleados casados, debido a diferentes compromisos familiares y personales.
Variables cuantitativas:
Edad: Es posible que la edad de los empleados esté relacionada con la rotación laboral. Por ejemplo, los empleados más jóvenes pueden tener una mayor propensión a cambiar de trabajo en busca de nuevas oportunidades, mientras que los empleados mayores pueden buscar estabilidad laboral.
Satisfacción Laboral: Se espera que los empleados con niveles más bajos de satisfacción laboral tengan una mayor probabilidad de rotación. La insatisfacción en el trabajo puede llevar a los empleados a buscar nuevas oportunidades en otros lugares.
Ingreso Mensual: El nivel de salario puede influir en la rotación de empleados. Se puede esperar que los empleados con salarios más bajos tengan una mayor probabilidad de rotación si encuentran oportunidades con una remuneración más alta.
Estas variables se seleccionaron considerando la posible relación teórica con la rotación de empleados y las expectativas sobre cómo estas variables podrían influir en la probabilidad de rotación. Es importante analizar estos datos para confirmar o refutar estas hipótesis y determinar la naturaleza de las relaciones entre estas variables y la rotación de empleados.
En la variable rotación el 83.9% de los datos tiene la categoría No y solo el 16.1% la categoría Si. Acá vemos un gran desbalance de los datos, pues la desigualdad en la distribución de clases puede indicar un problema de desequilibrio de clases. En este caso, hay muchas más instancias de la clase “no rotación” que de la clase “rotación”. Esto puede sesgar el modelo hacia la clase mayoritaria y afectar su capacidad para predecir correctamente la clase minoritaria.
En relación con la variable Viajes de Negocios, la categoría Raramente representa el 71% (1043 observaciones) de los datos, seguidamente de la categoría Frecuentemente y por último con un 10% se encuentra la categoría No_viaja.
| Categoria | Frecuencia_Absoluta | Porcentaje |
|---|---|---|
| Frecuentemente | 277 | 19% |
| No_Viaja | 150 | 10% |
| Raramente | 1043 | 71% |
| Moda | Raramente | NA |
| Num. Categorias Unicas | 3 | NA |
AL describir la variable Departamento vemos que la categoría IyD es el departamento con más personal hay en la empresa, pues este departamento representa el 65,4% de los empleados de la empresa, seguidamente de ventas con un 30.3% y por último RH con un 4.3%.
| Categoria | Frecuencia_Absoluta | Porcentaje |
|---|---|---|
| IyD | 961 | 65.4% |
| RH | 63 | 4.3% |
| Ventas | 446 | 30.3% |
| Moda | IyD | NA |
| Num. Categorias Unicas | 3 | NA |
En la empresa hay gran porcentaje de persona que están casadas, pues el 46% de las personas tiene este estado civil. Los Solteros representan el 32% y Divorciados el 22%.
| Categoria | Frecuencia_Absoluta | Porcentaje |
|---|---|---|
| Casado | 673 | 46% |
| Divorciado | 327 | 22% |
| Soltero | 470 | 32% |
| Moda | Casado | NA |
| Num. Categorias Unicas | 3 | NA |
En la variable edad observamos que las personas no son tan longevas, pues el 75% de las personas tiene una edad igual o menor a 43 años y en promedio los empelados tiene 36 años de edad. Por otro lado,l a mediana es 36. Esto significa que el 50% de las personas tienen una edad igual o inferior a 36 años, y el otro 50% tienen una edad igual o superior a 36 años. Es decir, la mediana representa el punto central de los datos ordenados por edad.
Una desviación estándar de aproximadamente 9.14 años indica que, en promedio, las edades en el conjunto de datos están dispersas alrededor de la media de 36.92 años.
Rango: El rango es 42. Esto indica la diferencia entre la edad más alta y la más baja en el conjunto de datos. En este caso, la diferencia entre la edad más alta y la más baja es de 42 años.
| Mediana | Media | Rango | Cuantil_25 | Cuantil_75 | Moda | Varianza | Desv_Estandar |
|---|---|---|---|---|---|---|---|
| 36 | 36.92449 | 42 | 30 | 43 | 35 | 83.46536 | 9.135938 |
En relación con la variable Satisfacción Laboral. En este caso vamos a suponer que 1 representa el grado más bajo de satisfacción laboral;2 2 indica una satisfacción laboral moderadamente baja; 3 representa un nivel moderado de satisfacción laboral; y 4 indica el grado más alto de satisfacción laboral.
Mediana: La mediana es 3. Esto significa que el 50% de los empleados encuestados tienen una satisfacción laboral igual o inferior a 3, y el otro 50% tienen una satisfacción laboral igual o superior a 3. En otras palabras, la mediana representa el punto central de los datos ordenados.
Media: La media es aproximadamente 2.73. Esto indica el promedio de satisfacción laboral entre los empleados encuestados.
Varianza: La varianza es aproximadamente 1.22. La varianza mide qué tan dispersos están los datos con respecto a la media.
| Mediana | Media | Rango | Cuantil_25 | Cuantil_75 | Moda | Varianza | Desv_Estandar |
|---|---|---|---|---|---|---|---|
| 3 | 2.728571 | -14 | 2 | 4 | 4 | 1.21627 | 1.102846 |
La mediana, que representa el valor central de los ingresos, es de 4919 unidades monetarias, lo que indica que el 50% de los individuos tienen ingresos iguales o inferiores a este valor. Sin embargo, la media de ingresos es considerablemente más alta, alcanzando los 6502.931 unidades monetarias, lo que sugiere la presencia de algunos valores atípicos o una distribución sesgada hacia la derecha. El rango de ingresos es bastante amplio, con una diferencia de 19981 unidades monetarias entre el valor máximo y mínimo observado, reflejando la diversidad de los ingresos en el conjunto de datos. Los cuantiles 25 y 75 muestran que el 25% de los individuos tienen ingresos iguales o inferiores a 2911 unidades monetarias, mientras que el 75% tienen ingresos iguales o inferiores a 8379 unidades monetarias. La moda, representada por 2342 unidades monetarias, indica el valor más común de ingresos en el conjunto de datos. La varianza, calculada en 22164857, y la desviación estándar, aproximadamente 4707.957, revelan una dispersión significativa alrededor de la media de ingresos, lo que sugiere una gran variabilidad en los ingresos mensuales de los individuos encuestados. En conjunto, estos datos ilustran la complejidad y diversidad de la distribución de ingresos mensuales en la empresa.
| Mediana | Media | Rango | Cuantil_25 | Cuantil_75 | Moda | Varianza | Desv_Estandar |
|---|---|---|---|---|---|---|---|
| 4919 | 6502.931 | 19981 | 2911 | 8379 | 2342 | 22164857 | 4707.957 |
Al realizar el análisis entre las variables Rotación y Viaje de negocios, vemos que hay una gran cantidad de personas que raramente viajan y no rotan entre distintos cargos, así mismo, los hay mayor cantidad de empleados que viajan frecuentemente por negocios, pero no hay rotación entre los cargos.
No obstante, si se presenta rotación de empelados entre diversos cargos, pero con menor frecuencia. Cabe aclarar que la base de datos esta desbalanceada, como se había mencionado mas del 83% de los empleados no han generado rotación, por lo tanto, esto podría estar afectando como se distribuye la rotación entre diversos cargos según variable.
Sin embargo, al contrastar los resultados con la hipótesis “espera que los empleados que viajan con más frecuencia por negocios tengan una mayor probabilidad de rotación, ya que los viajes constantes pueden afectar su vida personal y profesional.” Parece no cumplirse
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -1.103 0.139 -7.943 0
## Viaje_negociosNo_Viaja -1.339 0.331 -4.039 0
## Viaje_negociosRaramente -0.635 0.164 -3.873 0
Ambos valores de Viaje de Negocios (“No Viaja” y “Raramente”) tienen coeficientes estimados significativos (p < 0.05), lo que sugiere que la frecuencia de viaje de negocios de los empleados tiene un impacto significativo en la probabilidad de rotación. Específicamente, los empleados que no viajan o viajan raramente tienen una mayor probabilidad de rotación en comparación con aquellos que viajan con más frecuencia.
Caso similar ocurre con la relación entre la variable Departamento y Rotación, donde gran parte de los empleados según departamento no hay presentado rotación, sobre todo los empleados que se encuentran en el área de Innovación y Desarrollo, y en el área de ventas.
Al contrastar la hipótesis “Es probable que la pertenencia a ciertos departamentos tenga un impacto en la rotación de empleados. Por ejemplo, es posible que los departamentos con mayores cargas de trabajo o con menos oportunidades de crecimiento tengan una mayor rotación.” La hipótesis no se cumple.
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -1.829 0.093 -19.576 0.000
## DepartamentoRH 0.382 0.334 1.142 0.253
## DepartamentoVentas 0.481 0.150 3.213 0.001
Ambos valores de Departamento (“RH” y “Ventas”) tienen coeficientes estimados significativos (p < 0.05), lo que sugiere que la pertenencia a estos departamentos tiene un impacto significativo en la probabilidad de rotación. Específicamente, los empleados en el departamento de “Ventas” tienen una mayor probabilidad de rotación en comparación con otros departamentos.
En relación con las variables Rotación y Estado civil se visualiza que la mayor parte de los empleados Casados, Solteros y Divorciados no han presentado rotación de sus puestos, esto demuestra que la hipótesis planteada: “Se puede hipotetizar que el estado civil de los empleados pueda influir en su decisión de rotar. Por ejemplo, los empleados solteros pueden tener una mayor movilidad laboral en comparación con los empleados casados, debido a diferentes compromisos familiares y personales.” No se cumple.
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -1.948 0.117 -16.699 0.000
## Estado_CivilDivorciado -0.239 0.217 -1.101 0.271
## Estado_CivilSoltero 0.877 0.157 5.571 0.000
El valor de Estado Civil “Soltero” tiene un coeficiente estimado significativo (p < 0.05), lo que sugiere que el estado civil de los empleados solteros tiene un impacto significativo en la probabilidad de rotación. Los empleados solteros tienen una mayor probabilidad de rotación en comparación con otros estados civiles.
Al Observar la relación entre la Edad y la Rotación, vemos que las personas más jóvenes son las que rotan, pues los empleados que presentaron rotación de cargos el 75% tiene una edad igual o menor a 39 años. Caso opuesto sucede con los que no rotan donde el 75% de estos tiene una edad igual o inferior a 43 años.
Se podría decir que la hipótesis “ Es posible que la edad de los empleados esté relacionada con la rotación laboral. Por ejemplo, los empleados más jóvenes pueden tener una mayor propensión a cambiar de trabajo en busca de nuevas oportunidades, mientras que los empleados mayores pueden buscar estabilidad laboral.” Se está cumpliendo.
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 0.206 0.306 0.674 0.5
## Edad -0.052 0.009 -6.006 0.0
La variable de Edad tiene un coeficiente estimado significativo (p < 0.05), lo que indica que la edad de los empleados tiene un impacto significativo en la probabilidad de rotación. Sin embargo, como el coeficiente es negativo, esto sugiere que a medida que la edad aumenta, la probabilidad de rotación tiende a disminuir.
Las variables Rotación y Satisfacción Laboral, en la cual plateamos la hipótesis “los empleados con niveles más bajos de satisfacción laboral tengan una mayor probabilidad de rotación. La insatisfacción en el trabajo puede llevar a los empleados a buscar nuevas oportunidades en otros lugares.” Parece no cumplirse, ya que al observar la gráfica siguiente se muestra que los empleados que daban una calificación de 1 o 2 (1 representa el grado más bajo de satisfacción laboral;2 2 indica una satisfacción laboral moderadamente baja) no presentan rotación de sus cargos.
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -0.990 0.176 -5.635 0
## Satisfación_Laboral -0.251 0.064 -3.940 0
La variable de Satisfacción Laboral tiene un coeficiente estimado significativo (p < 0.05), lo que sugiere que la satisfacción laboral de los empleados tiene un impacto significativo en la probabilidad de rotación. Un valor negativo indica que una mayor satisfacción laboral está asociada con una menor probabilidad de rotación.
Por último, la relación entre el ingreso mensual y la Rotación, al apoyarnos en nuestra hipótesis “El nivel de salario puede influir en la rotación de empleados. Se puede esperar que los empleados con salarios más bajos tengan una mayor probabilidad de rotación si encuentran oportunidades con una remuneración más alta.” Los empleados que presentan rotación son aquellos donde el nivel de ingresos mensuales es más bajo, pues el 75% de ellos tiene un ingreso igual o menor a 5935. Por otro lado, los empleados que No presentaron rotación el 75% de ellos tienen un ingreso igual o menor a 8834.
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -0.929 0.129 -7.191 0
## Ingreso_Mensual 0.000 0.000 -5.879 0
La variable de Ingreso Mensual tiene un coeficiente estimado significativo (p < 0.05), lo que sugiere que el nivel de ingresos mensuales de los empleados tiene un impacto significativo en la probabilidad de rotación. El coeficiente es positivo, lo que indica que a medida que aumenta el ingreso mensual, la probabilidad de rotación tiende a aumentar.
En esta parte creamos dos modelos con las mismas variables, sin embargo, el modelo N°2 se va a dividir en entrenamiento y prueba con el fin de mejorar la predicción o encontrar el mejor modelo.
Antes de empezar a estimar los modelos, se realiza el escalamiento de las variables Edad e Ingreso Mesensual, esto con el fin de ayudar a mejorar la estabilidad del ajuste del modelo y facilitar la interpretación de los coeficientes. Esto puede conducir a un mejor rendimiento predictivo y una mayor confianza en los resultados del modelo.
##
## Call:
## glm(formula = Rotación ~ Viaje_negocios + Departamento + Estado_Civil +
## Edad_Escalada + Satisfación_Laboral + Ingreso_Mensual_Escalada,
## family = binomial(link = "logit"), data = rotacion)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -0.93858 0.25821 -3.635 0.000278 ***
## Viaje_negociosNo_Viaja -1.36825 0.34156 -4.006 6.18e-05 ***
## Viaje_negociosRaramente -0.65879 0.17397 -3.787 0.000153 ***
## DepartamentoRH 0.54157 0.35096 1.543 0.122802
## DepartamentoVentas 0.59382 0.16147 3.678 0.000235 ***
## Estado_CivilDivorciado -0.22013 0.22380 -0.984 0.325316
## Estado_CivilSoltero 0.80654 0.16554 4.872 1.10e-06 ***
## Edad_Escalada -0.23061 0.08979 -2.568 0.010219 *
## Satisfación_Laboral -0.29423 0.06729 -4.373 1.23e-05 ***
## Ingreso_Mensual_Escalada -0.50699 0.11972 -4.235 2.29e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 1298.6 on 1469 degrees of freedom
## Residual deviance: 1151.8 on 1460 degrees of freedom
## AIC: 1171.8
##
## Number of Fisher Scoring iterations: 5
El modelo queda de la siguiente forma:
\[ \begin{aligned} \log\left[ \frac { \widehat{P( \operatorname{Rotación} = \operatorname{1} )} }{ 1 - \widehat{P( \operatorname{Rotación} = \operatorname{1} )} } \right] &= -0.94 - 1.37(\operatorname{Viaje\_negocios}_{\operatorname{No\_Viaja}})\ - \\ &\quad 0.66(\operatorname{Viaje\_negocios}_{\operatorname{Raramente}}) + 0.54(\operatorname{Departamento}_{\operatorname{RH}})\ + \\ &\quad 0.59(\operatorname{Departamento}_{\operatorname{Ventas}}) - 0.22(\operatorname{Estado\_Civil}_{\operatorname{Divorciado}})\ + \\ &\quad 0.81(\operatorname{Estado\_Civil}_{\operatorname{Soltero}}) - 0.23(\operatorname{Edad\_Escalada})\ - \\ &\quad 0.29(\operatorname{Satisfación\_Laboral}) - 0.51(\operatorname{Ingreso\_Mensual\_Escalada}) \end{aligned} \]
Los resultados del modelo de regresión logística proporcionan información sobre cómo cada variable independiente (predictora) contribuye a predecir la variable dependiente (Rotación), que en este caso es binaria (0 para no rotación y 1 para rotación). Aquí está una interpretación de los resultados:
Coeficientes:
Viaje_negociosNo_Viaja: Un coeficiente negativo (-1.36825) indica que si un empleado no viaja por negocios, es probable que tenga una menor probabilidad de rotación en comparación con aquellos que viajan frecuentemente. Esto sugiere que la falta de viajes por negocios puede estar asociada con una mayor estabilidad en el empleo.
Viaje_negociosRaramente: Similarmente, un coeficiente negativo (-0.65879) sugiere que si un empleado viaja raramente por negocios, es probable que tenga una menor probabilidad de rotación en comparación con aquellos que viajan frecuentemente. Esto indica que la frecuencia de viajes por negocios podría influir en la estabilidad laboral.
-DepartamentoRH y DepartamentoVentas: Los coeficientes positivos para estos dos departamentos sugieren que los empleados en Recursos Humanos y Ventas tienen una mayor probabilidad de rotación en comparación con aquellos en otros departamentos. Esto podría estar relacionado con las características específicas de los roles en esos departamentos, como las expectativas de trabajo o las oportunidades de crecimiento.
Estado_CivilDivorciado y Estado_CivilSoltero: El coeficiente positivo para el estado civil “Soltero” sugiere que los empleados solteros tienen una mayor probabilidad de rotación en comparación con los casados. Por otro lado, el coeficiente negativo para “Divorciado” indica que los empleados divorciados pueden tener una menor probabilidad de rotación en comparación con los casados. Esto podría estar relacionado con las responsabilidades familiares y el equilibrio entre el trabajo y la vida personal.
Edad_Escalada, Satisfacción_Laboral e Ingreso_Mensual_Escalada: Los coeficientes negativos para estas variables sugieren que un aumento en la edad, la satisfacción laboral y el ingreso mensual está asociado con una menor probabilidad de rotación. Esto indica que los empleados más jóvenes, menos satisfechos con su trabajo y con salarios más bajos podrían tener una mayor probabilidad de rotación.
Modelo 2.
##
## Call:
## glm(formula = Rotación ~ Viaje_negocios + Departamento + Estado_Civil +
## Edad_Escalada + Satisfación_Laboral + Ingreso_Mensual_Escalada,
## family = binomial(link = "logit"), data = datos_entrenamiento)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -0.88023 0.31234 -2.818 0.004829 **
## Viaje_negociosNo_Viaja -1.23528 0.40432 -3.055 0.002249 **
## Viaje_negociosRaramente -0.72539 0.21047 -3.446 0.000568 ***
## DepartamentoRH 0.64099 0.41916 1.529 0.126212
## DepartamentoVentas 0.51216 0.19929 2.570 0.010172 *
## Estado_CivilDivorciado -0.35014 0.28161 -1.243 0.213731
## Estado_CivilSoltero 0.86318 0.20113 4.292 1.77e-05 ***
## Edad_Escalada -0.36476 0.11565 -3.154 0.001610 **
## Satisfación_Laboral -0.32270 0.08209 -3.931 8.45e-05 ***
## Ingreso_Mensual_Escalada -0.54226 0.15325 -3.538 0.000403 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 896.03 on 1028 degrees of freedom
## Residual deviance: 770.87 on 1019 degrees of freedom
## AIC: 790.87
##
## Number of Fisher Scoring iterations: 6
El modelo queda de la siguiente forma:
\[ \begin{aligned} \log\left[ \frac { \widehat{P( \operatorname{Rotación} = \operatorname{1} )} }{ 1 - \widehat{P( \operatorname{Rotación} = \operatorname{1} )} } \right] &= -0.88 - 1.24(\operatorname{Viaje\_negocios}_{\operatorname{No\_Viaja}})\ - \\ &\quad 0.73(\operatorname{Viaje\_negocios}_{\operatorname{Raramente}}) + 0.64(\operatorname{Departamento}_{\operatorname{RH}})\ + \\ &\quad 0.51(\operatorname{Departamento}_{\operatorname{Ventas}}) - 0.35(\operatorname{Estado\_Civil}_{\operatorname{Divorciado}})\ + \\ &\quad 0.86(\operatorname{Estado\_Civil}_{\operatorname{Soltero}}) - 0.36(\operatorname{Edad\_Escalada})\ - \\ &\quad 0.32(\operatorname{Satisfación\_Laboral}) - 0.54(\operatorname{Ingreso\_Mensual\_Escalada}) \end{aligned} \]
Coeficientes:
Viaje_negociosNo_Viaja: Un coeficiente negativo (-1.23528) sugiere que si un empleado no viaja por negocios, es probable que tenga una menor probabilidad de rotación en comparación con aquellos que viajan frecuentemente. Esto indica que la falta de viajes por negocios puede estar asociada con una mayor estabilidad en el empleo.
Viaje_negociosRaramente: Un coeficiente negativo (-0.72539) sugiere que si un empleado viaja raramente por negocios, es probable que tenga una menor probabilidad de rotación en comparación con aquellos que viajan frecuentemente. Esto indica que la frecuencia de viajes por negocios podría influir en la estabilidad laboral.
DepartamentoRH y DepartamentoVentas: Los coeficientes positivos para estos dos departamentos sugieren que los empleados en Recursos Humanos y Ventas tienen una mayor probabilidad de rotación en comparación con aquellos en otros departamentos. Esto podría estar relacionado con las características específicas de los roles en esos departamentos, como las expectativas de trabajo o las oportunidades de crecimiento.
Estado_CivilDivorciado y Estado_CivilSoltero: El coeficiente positivo para el estado civil “Soltero” sugiere que los empleados solteros tienen una mayor probabilidad de rotación en comparación con los casados. Por otro lado, el coeficiente negativo para “Divorciado” indica que los empleados divorciados pueden tener una menor probabilidad de rotación en comparación con los casados. Esto podría estar relacionado con las responsabilidades familiares y el equilibrio entre el trabajo y la vida personal.
Edad_Escalada, Satisfacción_Laboral e Ingreso_Mensual_Escalada: Los coeficientes negativos para estas variables sugieren que un aumento en la edad, la satisfacción laboral y el ingreso mensual está asociado con una menor probabilidad de rotación. Esto indica que los empleados más jóvenes, menos satisfechos con su trabajo y con salarios más bajos podrían tener una mayor probabilidad de rotación.
Esta prueba compara el modelo ajustado con un modelo nulo (modelo sin variables predictoras) para determinar si el modelo ajustado es significativamente mejor. Se utiliza el estadístico de prueba chi-cuadrado y se compara con una distribución chi-cuadrado con los grados de libertad apropiados.
Model 1: Este es el modelo completo que incluye todas las variables predictoras (Viaje_negocios, Departamento, Estado_Civil, Edad, Satisfación_Laboral, Ingreso_Mensual) para predecir la variable dependiente Rotación.
Model 2: Este es el modelo nulo o modelo más simple, que solo incluye el intercepto o constante (Rotación ~ 1).
La hipótesis nula del Likelihood Ratio Test es que el modelo más simple (Modelo 2) es suficiente para explicar los datos en comparación con el modelo más complejo (Modelo 1). La hipótesis alternativa es que el modelo más complejo proporciona un mejor ajuste que el modelo más simple.
La tabla presenta los siguientes resultados:
#Df: Número de grados de libertad.
LogLik: Logaritmo de la verosimilitud del modelo.
Df: Diferencia en el número de parámetros entre los dos modelos.
Chisq: Estadístico de prueba de la razón de verosimilitudes, que se distribuye como una distribución chi-cuadrado bajo la hipótesis nula.
Pr(>Chisq): Valor p, que indica la probabilidad de observar el estadístico de prueba (o uno más extremo) si la hipótesis nula es verdadera.
En este caso, el valor p es significativamente menor que cualquier nivel de significancia común (p < 0.05, p < 0.01, etc.), lo que indica que hay evidencia suficiente para rechazar la hipótesis nula. Por lo tanto, concluimos que el modelo más complejo (Modelo 1) proporciona un mejor ajuste a los datos que el modelo más simple (Modelo 2).
## Likelihood ratio test
##
## Model 1: Rotación ~ Viaje_negocios + Departamento + Estado_Civil + Edad_Escalada +
## Satisfación_Laboral + Ingreso_Mensual_Escalada
## Model 2: Rotación ~ 1
## #Df LogLik Df Chisq Pr(>Chisq)
## 1 10 -575.92
## 2 1 -649.29 -9 146.74 < 2.2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
En este caso, el valor p es significativamente menor que cualquier nivel de significancia común (p < 0.05, p < 0.01, etc.), lo que indica que hay evidencia suficiente para rechazar la hipótesis nula. Por lo tanto, concluimos que el modelo más complejo (Modelo 1) proporciona un mejor ajuste a los datos que el modelo más simple (Modelo 2).
## Likelihood ratio test
##
## Model 1: Rotación ~ Viaje_negocios + Departamento + Estado_Civil + Edad_Escalada +
## Satisfación_Laboral + Ingreso_Mensual_Escalada
## Model 2: Rotación ~ 1
## #Df LogLik Df Chisq Pr(>Chisq)
## 1 10 -385.44
## 2 1 -448.02 -9 125.16 < 2.2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Mejor modelo según el Likelihood Ratio Test:
Para comparar los resultados de ambos modelos logit y determinar cuál es mejor, observamos los valores del estadístico de prueba (Chisq) y sus valores p asociados.
Modelo Logit 1:
Estadístico de prueba (Chisq): 146.74.
Valor p: < 2.2e-16 (muy significativo).
Modelo Logit 2:
Estadístico de prueba (Chisq): 125.16.
Valor p: < 2.2e-16 (muy significativo)
Ambos modelos tienen valores de estadístico de prueba (Chisq) significativamente grandes y valores p muy pequeños, lo que indica que el Modelo 1 y el Modelo 2 proporcionan un ajuste significativamente mejor que un modelo nulo que solo incluye el intercepto.
Para determinar cuál es el mejor modelo, comparamos los valores de los estadísticos de prueba. En este caso, el Modelo 1 tiene un estadístico de prueba más grande (146.74) en comparación con el Modelo 2 (125.16). Esto sugiere que el Modelo 1 tiene un mejor ajuste a los datos que el Modelo 2.
La deviance es una medida de ajuste del modelo en regresión logística y se utiliza para evaluar qué tan bien se ajusta el modelo a los datos observados. Cuanto menor sea la deviance, mejor será el ajuste del modelo a los datos.
## [1] "Deviance Modelo 1 1151.83846311223"
## [1] "Deviance Modelo 2 770.873541345799"
Comparación e interpretación:
El Modelo 2 tiene una deviance considerablemente menor que el Modelo 1. Esto indica que el Modelo 2 tiene un mejor ajuste a los datos observados en comparación con el Modelo 1.
Una deviance más baja sugiere que el modelo explica una mayor proporción de la variabilidad en los datos y se ajusta mejor a los datos observados.
Por lo tanto, basándonos en el criterio de deviance, el Modelo 2 sería la mejor elección entre los dos modelos.
En resumen, el Modelo 2 proporciona un mejor ajuste a los datos y debería preferirse sobre el Modelo 1.
El Criterio de Información de Akaike (AIC) y el Criterio de Información Bayesiano (BIC) son medidas de la calidad del ajuste del modelo, que penalizan la complejidad del modelo. En general, se prefiere un valor más bajo de AIC y BIC, lo que indica un mejor ajuste del modelo con una penalización mínima por la complejidad.
## [1] "AIC Modelo 1: 1171.83846311223"
## [1] "BIC Modelo 1: 1224.76863990996"
## [1] "AIC Modelo 2: 790.873541345799"
## [1] "BIC Modelo 2: 840.236968704139"
Comparación e interpretación:
Tanto el AIC como el BIC son considerablemente más bajos para el Modelo 2 en comparación con el Modelo 1.
Un valor más bajo de AIC y BIC indica un mejor ajuste del modelo.
El Modelo 2, con valores más bajos de AIC y BIC, sugiere que es un modelo más parsimonioso y con un mejor ajuste a los datos.
Por lo tanto, basándonos en el AIC y BIC, el Modelo 2 sería la mejor elección entre los dos modelos.
En resumen, el Modelo 2 proporciona un mejor ajuste a los datos y es más parsimonioso en términos de complejidad del modelo, lo que lo convierte en la mejor opción según los criterios de AIC y BIC.
Modelo 1.
La matriz de confusión muestra que se predijeron correctamente 1228 casos negativos (clase 0) y 20 casos positivos (clase 1).
Sin embargo, el modelo también clasificó erróneamente 217 casos negativos como positivos y 5 casos positivos como negativos.
La precisión global del modelo es del 84.9%, con un intervalo de confianza del 95% entre 82.96% y 86.69%.
La sensibilidad del modelo (tasa de verdaderos positivos) es alta (99.6%), lo que indica que el modelo es bueno para identificar los casos positivos reales.
Sin embargo, la especificidad del modelo (tasa de verdaderos negativos) es muy baja (8.4%), lo que indica que el modelo tiene dificultades para identificar los casos negativos reales.
El valor predictivo positivo (PPV) es del 84.98%, lo que significa que, de todas las predicciones positivas hechas por el modelo, el 84.98% son verdaderamente positivas.
El valor predictivo negativo (NPV) es del 80%, lo que significa que, de todas las predicciones negativas hechas por el modelo, el 80% son verdaderamente negativas.
## Confusion Matrix and Statistics
##
##
## clases_predichas_1 0 1
## 0 1228 217
## 1 5 20
##
## Accuracy : 0.849
## 95% CI : (0.8296, 0.8669)
## No Information Rate : 0.8388
## P-Value [Acc > NIR] : 0.1517
##
## Kappa : 0.1258
##
## Mcnemar's Test P-Value : <2e-16
##
## Sensitivity : 0.99594
## Specificity : 0.08439
## Pos Pred Value : 0.84983
## Neg Pred Value : 0.80000
## Prevalence : 0.83878
## Detection Rate : 0.83537
## Detection Prevalence : 0.98299
## Balanced Accuracy : 0.54017
##
## 'Positive' Class : 0
##
Modelo 2.
La matriz de confusión muestra que se predijeron correctamente 362 casos negativos (clase 0) y 10 casos positivos (clase 1).
Sin embargo, el modelo también clasificó erróneamente 65 casos negativos como positivos y 4 casos positivos como negativos.
La precisión global del modelo es del 84.35%, con un intervalo de confianza del 95% entre 80.62% y 87.62%.
La sensibilidad del modelo es alta (98.91%), indicando una buena capacidad para identificar los casos positivos reales.
La especificidad del modelo es baja (13.33%), lo que indica dificultades para identificar los casos negativos reales.
El valor predictivo positivo (PPV) es del 84.78%, lo que significa que, de todas las predicciones positivas hechas por el modelo, el 84.78% son verdaderamente positivas.
El valor predictivo negativo (NPV) es del 71.43%, lo que significa que, de todas las predicciones negativas hechas por el modelo, el 71.43% son verdaderamente negativas.
## Confusion Matrix and Statistics
##
##
## clases_predichas 0 1
## 0 362 65
## 1 4 10
##
## Accuracy : 0.8435
## 95% CI : (0.8062, 0.8762)
## No Information Rate : 0.8299
## P-Value [Acc > NIR] : 0.2451
##
## Kappa : 0.1809
##
## Mcnemar's Test P-Value : 5.08e-13
##
## Sensitivity : 0.9891
## Specificity : 0.1333
## Pos Pred Value : 0.8478
## Neg Pred Value : 0.7143
## Prevalence : 0.8299
## Detection Rate : 0.8209
## Detection Prevalence : 0.9683
## Balanced Accuracy : 0.5612
##
## 'Positive' Class : 0
##
Desempeño del modelo:
El Modelo 1 tiene un ROC-AUC de 0.73, lo que sugiere que tiene una capacidad de discriminación aceptable para predecir la rotación de empleados. Esto indica que el modelo tiene un buen rendimiento en la distinción entre los empleados que rotan y los que no.
El Modelo 2 tiene un ROC-AUC ligeramente inferior de 0.656. Aunque es un poco más bajo que el del Modelo 1, sigue siendo un valor decente y sugiere que el modelo puede hacer predicciones útiles sobre la rotación de empleados.
En resumen, ambos modelos tienen valores de ROC-AUC que indican una capacidad de discriminación aceptable. Sin embargo, el Modelo 1 parece tener un rendimiento ligeramente mejor en esta métrica en comparación con el Modelo 2.
Vamos a predecir la probabilidad de que un empleado con las siguientes características rote de cargo.
Las características son:
Viaje de Negocios: Raramente.
Departamento: Ventas.
Estado Civil: Soltero.
Edad: 40.
Satisfacción Laboral: 3.
Ingreso Mesnual: 5000
En este caso, para un empelado que viaja raramente, pertenezca al departamento ventas, además es soltero y con 40 años de edad, presenta una satisfacción laboral de 3 y un ingreso mensual de 5000, según el modelo 1, el empleado con estás características tiene una probabilidad de rotación de 26.98% y para el modelo 2 es de 24.40%.
## [1] "Predicción modelo 1: 26.98%"
## [1] "Predicción modelo 2: 24.40%"
Predicción de rotación del empelado 14:
Tiene las siguientes características:
Viaje de Negocios: Raramente.
Departamento: IyD.
Estado Civil: Divorciado.
Edad: 34.
Satisfacción Laboral: 4.
Ingreso Mensual: 2661.
Para este otro caso, el empelado 14 tiene una probabilidad de 7.54% de rotación de cargo según el modelo 1, y un 6.37% de rotación de cargo según el modelo 2.
## [1] "Predicción modelo 1: 7.54%"
## [1] "Predicción modelo 2: 6.37%"
Predicción de un individuo con las siguentes caracteristicas:
Viaje de Negocios: Frecuentemente.
Departamento: IyD
Estado Civil: Soltero.
Edad: Considerando dos individuos: uno con menos de 35 años (18 años) y otro con 35 años.
Satisfacción Laboral: 1.
Ingreso Mesnual: 5000 Considerando dos ingresos mensuales: uno menor a 5000 y otro igual a 5000
Por último, nuestra predicción de que los dos empelado el primero con 18 años y un ingreso mensual de 1000, y con las otras características intactas, es decir, es soltero, tiene una satisfacción laboral de 1, viaja frecuentemente en temas de negocios y pertenece al departamento IyD. El modelo 1 nos muestra que tiene una probabilidad de 65.57% de rotación de cargo y el modelo 2 de 74.07%.
## [1] "Predicciones para el primer individuo (18 años, salario de 1000):"
## [1] "Predicción modelo 1: 65.57%"
## [1] "Predicción modelo 2: 74.07%"
Por otro lado, para el empleado con las características de 35 años y un ingreso mensual de 5000, y con las otras características intactas, es decir, es soltero, tiene una satisfacción laboral de 1, viaja frecuentemente en temas de negocios y pertenece al departamento IyD. El modelo 1 nos muestra que tiene una probabilidad de 55.61% de rotación de cargo y el modelo 2 de 64.61%.
## [1] "Predicciones para el segundo individuo (35 años, salario de 5000):"
## [1] "Predicción modelo 1: 55.61%"
## [1] "Predicción modelo 2: 64.61%"
Basándonos en los resultados de los modelos logit, también del análisis bivariado realizado en el punto 3, se recomiendan las siguientes estrategias para disminuir la rotación en la empresa:
Fomentar la satisfacción laboral: Se observa que la satisfacción laboral tiene un efecto significativo en la rotación en ambos modelos. Por lo tanto, es importante implementar medidas para mejorar el ambiente laboral, promover el reconocimiento y la valoración de los empleados, así como proporcionar oportunidades de desarrollo profesional y personal.
Atender las necesidades de los empleados jóvenes: En ambos modelos, la variable de edad tiene un impacto significativo en la rotación. Específicamente, se observa que una menor edad está asociada con una mayor probabilidad de rotación. Por lo tanto, es fundamental prestar atención a las necesidades y expectativas de los empleados más jóvenes, ofreciendo programas de mentoría, oportunidades de crecimiento y flexibilidad laboral.
Analizar el impacto del ingreso mensual: Ambos modelos muestran que el ingreso mensual tiene un efecto significativo en la rotación. Aunque la relación puede ser más compleja y dependiente del contexto específico de la empresa, es importante considerar si existen disparidades salariales significativas entre los empleados que puedan influir en su permanencia en la organización. Sobre todo, aquellos empleados que rotan de cargo son los que ganan perciben menos ingresos.
Evaluar el impacto de los viajes de negocios: Es importante evaluar cómo los viajes de negocios pueden afectar la satisfacción laboral y el equilibrio entre el trabajo y la vida personal de los empleados, y tomar medidas para mitigar cualquier efecto negativo. Aquellos empleados que viajan raramente por temas de negocio son más propensos a rotar de cargo.
Optimizar la gestión de los departamentos: Ambos modelos muestran que el departamento de ventas tiene un impacto significativo en la rotación. Esto podría indicar la necesidad de evaluar y mejorar las condiciones laborales, el liderazgo y el apoyo dentro de este departamento en particular, así como implementar estrategias específicas para retener a los empleados clave.
En resumen, las estrategias para reducir la rotación en la empresa deben centrarse en mejorar la satisfacción laboral, atender las necesidades específicas de diferentes grupos de empleados, analizar las disparidades salariales y optimizar la gestión de los departamentos, todo ello con el objetivo de crear un ambiente laboral más satisfactorio, estable y motivador.
Nota: El código utilizado se encuentra disponible en el repositorio de GITHUB: