1. Problema

En una organización, se busca comprender y prever los factores que influyen en la rotación de empleados entre distintos cargos. La empresa ha recopilado datos históricos sobre el empleo de sus trabajadores, incluyendo variables como la antigüedad en el cargo actual, el nivel de satisfacción laboral, el salario actual, edad y otros factores relevantes. La gerencia planea desarrollar un modelo de regresión logística que permita estimar la probabilidad de que un empleado cambie de cargo en el próximo período y determinar cuales factores indicen en mayor proporción a estos cambios.

Con esta información, la empresa podrá tomar medidas proactivas para retener a su talento clave, identificar áreas de mejora en la gestión de recursos humanos y fomentar un ambiente laboral más estable y tranquilo. La predicción de la probabilidad de rotación de empleados ayudará a la empresa a tomar decisiones estratégicas informadas y a mantener un equipo de trabajo comprometido y satisfecho en sus roles actuales.

A continuación se describen los pasos que la gerencia ha propuesto para el análisis:

#Carga de librerías a utilizar en el desarrollo del informe ejecutivo
# devtools::install_github("dgonxalex80/paqueteMODELOS", force = TRUE)
suppressMessages(library(paqueteMODELOS))
suppressMessages(library(paqueteMET))
suppressMessages(library(knitr))
suppressMessages(library(dplyr))
suppressMessages(library(ggplot2))
suppressMessages(library(tidyverse))
suppressMessages(library(sp)) 
suppressMessages(library(maps)) 
suppressMessages(library(plotly)) 
data("rotacion")
glimpse(rotacion)
## Rows: 1,470
## Columns: 24
## $ Rotación                    <chr> "Si", "No", "Si", "No", "No", "No", "No", …
## $ Edad                        <dbl> 41, 49, 37, 33, 27, 32, 59, 30, 38, 36, 35…
## $ `Viaje de Negocios`         <chr> "Raramente", "Frecuentemente", "Raramente"…
## $ Departamento                <chr> "Ventas", "IyD", "IyD", "IyD", "IyD", "IyD…
## $ Distancia_Casa              <dbl> 1, 8, 2, 3, 2, 2, 3, 24, 23, 27, 16, 15, 2…
## $ Educación                   <dbl> 2, 1, 2, 4, 1, 2, 3, 1, 3, 3, 3, 2, 1, 2, …
## $ Campo_Educación             <chr> "Ciencias", "Ciencias", "Otra", "Ciencias"…
## $ Satisfacción_Ambiental      <dbl> 2, 3, 4, 4, 1, 4, 3, 4, 4, 3, 1, 4, 1, 2, …
## $ Genero                      <chr> "F", "M", "M", "F", "M", "M", "F", "M", "M…
## $ Cargo                       <chr> "Ejecutivo_Ventas", "Investigador_Cientifi…
## $ Satisfación_Laboral         <dbl> 4, 2, 3, 3, 2, 4, 1, 3, 3, 3, 2, 3, 3, 4, …
## $ Estado_Civil                <chr> "Soltero", "Casado", "Soltero", "Casado", …
## $ Ingreso_Mensual             <dbl> 5993, 5130, 2090, 2909, 3468, 3068, 2670, …
## $ Trabajos_Anteriores         <dbl> 8, 1, 6, 1, 9, 0, 4, 1, 0, 6, 0, 0, 1, 0, …
## $ Horas_Extra                 <chr> "Si", "No", "Si", "Si", "No", "No", "Si", …
## $ Porcentaje_aumento_salarial <dbl> 11, 23, 15, 11, 12, 13, 20, 22, 21, 13, 13…
## $ Rendimiento_Laboral         <dbl> 3, 4, 3, 3, 3, 3, 4, 4, 4, 3, 3, 3, 3, 3, …
## $ Años_Experiencia            <dbl> 8, 10, 7, 8, 6, 8, 12, 1, 10, 17, 6, 10, 5…
## $ Capacitaciones              <dbl> 0, 3, 3, 3, 3, 2, 3, 2, 2, 3, 5, 3, 1, 2, …
## $ Equilibrio_Trabajo_Vida     <dbl> 1, 3, 3, 3, 3, 2, 2, 3, 3, 2, 3, 3, 2, 3, …
## $ Antigüedad                  <dbl> 6, 10, 0, 8, 2, 7, 1, 1, 9, 7, 5, 9, 5, 2,…
## $ Antigüedad_Cargo            <dbl> 4, 7, 0, 7, 2, 7, 0, 0, 7, 7, 4, 5, 2, 2, …
## $ Años_ultima_promoción       <dbl> 0, 1, 0, 3, 2, 3, 0, 0, 1, 7, 0, 0, 4, 1, …
## $ Años_acargo_con_mismo_jefe  <dbl> 5, 7, 0, 0, 2, 6, 0, 0, 8, 7, 3, 8, 3, 2, …

1. Selección de variables

- Seleccione 3 variables categóricas (distintas de rotación) y 3 variables cuantitativas, que se consideren estén relacionadas con la rotación. **Nota:** Debes justificar por qué estas variables están relacionadas y que tipo de relación se espera entre ellas (Hipótesis).

Seleccionar las variables adecuadas es crucial en análisis estadístico, en especial, para la creación de un modelo predictivo como la regresión logística, donde el objetivo es entender cómo distintas características influyen en un evento específico, en este caso, la rotación de empleados. Por lo tanto, se presenta la selección de las variables categóricas y númericas escogidas, con su correspondiente explicación:

- Variables categóricas

1. Viaje de Negocios

Justificación: Empleados que viajen frecuentemente por negocios pueden tener un mayor nivel de estrés o menor satisfacción debido a la carga que estos viajes pueden representar para el equilibrio entre la vida laboral y personal. Este estrés adicional podría influir en su decisión de dejar su puesto actual en busca de opciones que ofrezcan un mejor equilibrio.

2. Departamento:

Justificación: La cultura, el ambiente, las oportunidades de crecimiento pueden variar significativamente entre los distintos departamentos de una empresa. Algunos departamentos pueden ofrecer más oportunidades de avance, lo que podría reducir la rotación, mientras que otros pueden tener más problemas estructurales o de gestión, lo que podría incrementarla.

3. Estado Civil:

Justificación: El estado civil puede influir en las decisiones laborales de un empleado. Por ejemplo, las personas casadas pueden buscar mayor estabilidad laboral, mientras que las solteras podrían estar más abiertas a cambios que impliquen riesgos o nuevas oportunidades, influenciando así su propensión a rotar.

- Variables Cuantitativas

1. Edad:

Justificación: La edad puede estar asociada con la etapa de carrera en la que se encuentra un empleado. Los trabajadores más jóvenes pueden estar en búsqueda de oportunidades para avanzar o explorar distintos roles, mientras que los empleados mayores pueden valorar más la estabilidad, lo que podría influir en su probabilidad de rotación.

2. Ingreso Mensual:

Justificación: El nivel de ingresos puede ser un factor determinante en la satisfacción laboral y, por ende, en la rotación. Empleados con salarios más bajos pueden sentirse menos valorados o motivados a permanecer en su posición actual si consideran que no están siendo compensados adecuadamente por su trabajo.

3. Satisfacción Laboral:

Justificación: Este es probablemente uno de los predictores más directos de la rotación. La insatisfacción laboral incide directamente en la intención de dejar un empleo. Se espera que los empleados que reportan niveles más bajos de satisfacción laboral sean más propensos a considerar cambiar de empleo en comparación con aquellos que están más satisfechos con su trabajo.

Hipótesis:

La decisión de un empleado de cambiar de cargo puede ser el resultado de una combinación de factores personales (como el estado civil y la edad), condiciones laborales (como la satisfacción laboral y el salario), y las demandas del trabajo (como los viajes de negocios y las características del departamento).

2. Análisis univariado

  - Realiza un análisis univariado (caracterización) de la información contenida en la base de datos rotacion. Nota: Los indicadores o gráficos se usan dependiendo del tipo de variable (cuantitativas o cualitativas). Incluir interpretaciones de la variable rotacion.
  

2.1. Variables categóricas

Para las variables categóricas (Viaje de Negocios, Departamento, Estado Civil), se presentan tablas de frecuencia y gráficos de barras para visualizar la distribución de las categorías.

# Viaje de Negocios
table(rotacion$`Viaje de Negocios`)
## 
## Frecuentemente       No_Viaja      Raramente 
##            277            150           1043
barplot(table(rotacion$`Viaje de Negocios`), main = "Distribución de Viaje de Negocios", xlab = "Viaje de Negocios", ylab = "Frecuencia")

# Departamento
table(rotacion$Departamento)
## 
##    IyD     RH Ventas 
##    961     63    446
barplot(table(rotacion$Departamento), main = "Distribución por Departamento", xlab = "Departamento", ylab = "Frecuencia")

# Estado Civil
table(rotacion$Estado_Civil)
## 
##     Casado Divorciado    Soltero 
##        673        327        470
barplot(table(rotacion$Estado_Civil), main = "Distribución del Estado Civil", xlab = "Estado Civil", ylab = "Frecuencia")

Interpretación:

  • Viaje de Negocios: La distribución de esta variable permite entender cómo los viajes de negocios afectan potencialmente a la plantilla laboral. Si una gran proporción de empleados viaja frecuentemente, esto podría indicar una mayor susceptibilidad a la rotación debido al estrés relacionado con el viaje. En este caso, Hay 3 categorías, con la mayoría de los empleados (1043 de 1470) viajando raramente.

  • Departamento: Esta distribución muestra cómo están distribuidos los empleados entre los diferentes departamentos. Un departamento con una alta tasa de rotación podría indicar problemas específicos de ese departamento que necesitan ser abordados. En este caso, hay 3 departamentos, siendo el departamento de Investigación y Desarrollo (IyD) el más común con 961 de 1470 empleados.

  • Estado Civil: En términos de estado civil, es útil comprender si la rotación afecta de manera desproporcionada a ciertos grupos. En este caso, hay 3 estados civiles, con “Casado” siendo el más frecuente (673 de 1470).

2.2. Variables cuantitativas

Para las variables cuantitativas (Edad, Ingreso Mensual, Satisfacción Laboral), se presentará el resultado de la estadística descriptiva, así como histogramas o diagramas de caja para visualizar su distribución.

# Edad
summary(rotacion$Edad)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   18.00   30.00   36.00   36.92   43.00   60.00
hist(datos$Edad, main = "Distribución de la Edad", xlab = "Edad")

# Ingreso Mensual
summary(rotacion$Ingreso_Mensual)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    1009    2911    4919    6503    8379   19999
boxplot(rotacion$Ingreso_Mensual, main = "Distribución del Ingreso Mensual", ylab = "Ingreso Mensual")

# Satisfacción Laboral
summary(rotacion$Satisfación_Laboral)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.000   2.000   3.000   2.729   4.000   4.000
boxplot(rotacion$Satisfación_Laboral, main = "Distribución de la Satisfacción Laboral", ylab = "Satisfación Laboral")

Interpretación:

  • Edad: La distribución de la edad permite comprender si ciertos grupos de edad son más propensos a la rotación. Por ejemplo, una distribución sesgada hacia empleados más jóvenes podría indicar una mayor tendencia a explorar nuevas oportunidades. En este caso, la edad de los empleados varía entre 18 y 60 años, con una media de aproximadamente 37 años.

  • Ingreso Mensual: Este análisis permite evaluar si los niveles de ingreso están relacionados con la rotación. Una amplia variabilidad en los ingresos, junto con una correlación entre ingresos más bajos y mayor rotación, podría indicar la necesidad de revisar la estructura salarial. En este caso, el ingreso mensual varía entre $1009 y $19999, con una media de aproximadamente $6503

  • Satisfacción Laboral: La distribución de esta variable es importante para entender la correlación entre la satisfacción laboral y la rotación. Niveles bajos de satisfacción podrían ser un indicador clave de problemas internos que conducen a una mayor rotación. En este caso, la satisfacción laboral se mide en una escala de 1 a 4, con una media de aproximadamente 2.73, indicando un nivel de satisfacción moderado en promedio

2.3. Variable rotación

La variable “Rotación”, será convertida a numérica (1 para “Si”, 0 para “No”) para facilitar el análisis:

# Convertir la variable Rotación a numérica
rotacion$Rotación <- ifelse(rotacion$Rotación == "Si", 1, 0)
rotacion2<-rotacion
# Rotación
table(rotacion2$Rotación)
## 
##    0    1 
## 1233  237
barplot(table(rotacion2$Rotación), main = "Distribución de Rotación", xlab = "Rotación", ylab = "Frecuencia")

Esta variable, proporciona una vista directa de la tasa de rotación dentro de la organización. Una alta frecuencia de rotación podría indicar problemas en la gestión de recursos humanos, la cultura laboral o la satisfacción general del empleado. En este caso, se registra un total de 237 registros con Rotación y 1233 con no Rotación.

3. Análisis bivariado

  - Realiza un análisis de bivariado en donde la variable respuesta sea rotacion codificada de la siguiente manera (y=1 es si rotación, y=0 es no rotación). Con base en estos resultados identifique cuales son las variables determinantes de la rotación e interpretar el signo del coeficiente estimado. Compare estos resultados con la hipotesis planteada en el punto 2.

Nota: En la sección anterior se hizo la conversión de la variable rotación a la codificación 1 y 0.

  • Hipótesis:

La decisión de un empleado de cambiar de cargo puede ser el resultado de una combinación de factores personales (como el estado civil y la edad), condiciones laborales (como la satisfacción laboral y el salario), y las demandas del trabajo (como los viajes de negocios y las características del departamento).

3.1. Variables categóricas

Para las variables categóricas (Viaje de Negocios, Departamento, Estado Civil), se hace uso de tablas de contingencia y el test de Chi-cuadrado para evaluar si hay una relación significativa entre estas variables y la rotación.

# Cargar la librería necesaria
library(ggplot2)

# Test de Chi-cuadrado para Viaje de Negocios y Rotación
tabla_viaje_negocios <- table(rotacion2$`Viaje de Negocios`, rotacion2$Rotación)
chisq.test(tabla_viaje_negocios)
## 
##  Pearson's Chi-squared test
## 
## data:  tabla_viaje_negocios
## X-squared = 24.182, df = 2, p-value = 5.609e-06
# Test de Chi-cuadrado para Departamento y Rotación
tabla_departamento <- table(rotacion2$Departamento, rotacion2$Rotación)
chisq.test(tabla_departamento)
## 
##  Pearson's Chi-squared test
## 
## data:  tabla_departamento
## X-squared = 10.796, df = 2, p-value = 0.004526
# Test de Chi-cuadrado para Estado Civil y Rotación
tabla_estado_civil <- table(rotacion2$Estado_Civil, rotacion2$Rotación)
chisq.test(tabla_estado_civil)
## 
##  Pearson's Chi-squared test
## 
## data:  tabla_estado_civil
## X-squared = 46.164, df = 2, p-value = 9.456e-11

Intepretación

  • Viaje de Negocios y Rotación P-valor: 5.609e-06 Bastante bajo, lo que sugiere que existe una fuerte relación estadística entre los viajes de negocios y la rotación de empleados. Por lo tanto, los empleados que viajan con diferentes frecuencias (nunca, raramente, frecuentemente) tienen probabilidades significativamente distintas de rotar, lo cual respalda la hipótesis de que los viajes de negocios pueden influir en la decisión de un empleado de cambiar de trabajo.

  • Departamento y Rotación P-valor: 0.004526 Este resultado también es estadísticamente significativo y muestra que la pertenencia a un determinado departamento afecta la probabilidad de rotación de un empleado. Podría interpretarse que las diferencias en el ambiente laboral o satisfacción laboral entre los departamentos contribuyen a las tasas de rotación. Los empleados de ciertos departamentos pueden estar más inclinados a buscar nuevas oportunidades fuera de la empresa. Esto, respalda la hipótesis inicial.

  • Estado Civil y Rotación P-valor: 9.456e-11 Tiene un p-valor aún más bajo, por lo tanto, esta variable muestra una asociación muy fuerte con la rotación. El estado civil de un empleado (soltero, casado, divorciado) tiene una relación significativa con la probabilidad de cambiar de empleo. Esto puede reflejar cómo las obligaciones personales o la búsqueda de estabilidad varían según el estado civil, afectando las decisiones laborales. Esto, respalda la hipótesis inicial.

Estos resultados corroboran la hipótesis inicial de que factores personales (como el estado civil), las condiciones laborales (posiblemente reflejadas en los viajes de negocios y las diferencias entre departamentos), tienen un impacto significativo en la rotación de empleados

3.2. Variables cuantitativas

Para las variables cuantitativas (Edad, Ingreso Mensual, Satisfacción Laboral), se analiza la relación con la rotación mediante la correlación de Pearson y modelos lineales simples.

# Correlación y modelo lineal para Edad y Rotación
cor.test(rotacion2$Edad, rotacion2$Rotación)
## 
##  Pearson's product-moment correlation
## 
## data:  rotacion2$Edad and rotacion2$Rotación
## t = -6.1796, df = 1468, p-value = 8.31e-10
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.2086566 -0.1089876
## sample estimates:
##        cor 
## -0.1592278
modelo_edad <- glm(Rotación ~ Edad, data = rotacion2, family = "binomial")
summary(modelo_edad)
## 
## Call:
## glm(formula = Rotación ~ Edad, family = "binomial", data = rotacion2)
## 
## Coefficients:
##             Estimate Std. Error z value Pr(>|z|)    
## (Intercept)  0.20637    0.30597   0.674      0.5    
## Edad        -0.05225    0.00870  -6.006  1.9e-09 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 1298.6  on 1469  degrees of freedom
## Residual deviance: 1259.1  on 1468  degrees of freedom
## AIC: 1263.1
## 
## Number of Fisher Scoring iterations: 4
# Correlación y modelo lineal para Ingreso Mensual y Rotación
cor.test(rotacion2$Ingreso_Mensual, rotacion2$Rotación)
## 
##  Pearson's product-moment correlation
## 
## data:  rotacion2$Ingreso_Mensual and rotacion2$Rotación
## t = -6.2039, df = 1468, p-value = 7.147e-10
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.2092570 -0.1096079
## sample estimates:
##        cor 
## -0.1598396
modelo_ingreso <- glm(Rotación ~ Ingreso_Mensual, data = rotacion2, family = "binomial")
summary(modelo_ingreso)
## 
## Call:
## glm(formula = Rotación ~ Ingreso_Mensual, family = "binomial", 
##     data = rotacion2)
## 
## Coefficients:
##                   Estimate Std. Error z value Pr(>|z|)    
## (Intercept)     -9.291e-01  1.292e-01  -7.191 6.43e-13 ***
## Ingreso_Mensual -1.271e-04  2.162e-05  -5.879 4.12e-09 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 1298.6  on 1469  degrees of freedom
## Residual deviance: 1253.1  on 1468  degrees of freedom
## AIC: 1257.1
## 
## Number of Fisher Scoring iterations: 5
# Correlación y modelo lineal para Satisfacción Laboral y Rotación
cor.test(rotacion2$Satisfación_Laboral, rotacion2$Rotación)
## 
##  Pearson's product-moment correlation
## 
## data:  rotacion2$Satisfación_Laboral and rotacion2$Rotación
## t = -3.9862, df = 1468, p-value = 7.043e-05
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.15379490 -0.05263213
## sample estimates:
##        cor 
## -0.1034811
modelo_satisfaccion <- glm(Rotación ~ Satisfación_Laboral, data = rotacion2, family = "binomial")
summary(modelo_satisfaccion)
## 
## Call:
## glm(formula = Rotación ~ Satisfación_Laboral, family = "binomial", 
##     data = rotacion2)
## 
## Coefficients:
##                     Estimate Std. Error z value Pr(>|z|)    
## (Intercept)          -0.9903     0.1757  -5.635 1.75e-08 ***
## Satisfación_Laboral  -0.2510     0.0637  -3.940 8.16e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 1298.6  on 1469  degrees of freedom
## Residual deviance: 1283.1  on 1468  degrees of freedom
## AIC: 1287.1
## 
## Number of Fisher Scoring iterations: 4

Intepretación

  • Edad y Rotación

Correlación: -0.1592, p-valor = 8.31e-10

Modelo de Regresión Logística: Coeficiente para Edad = -0.05225, p-valor < 0.001

La correlación negativa y el coeficiente negativo en el modelo logístico indican que a medida que la edad de los empleados aumenta, la probabilidad de rotación disminuye. Esto es acorde con la hipótesis inicial, dado que factores personales como la edad pueden influir en la decisión de cambiar de empleo, sugiriendo que los empleados más jóvenes son más propensos a buscar nuevas oportunidades.

  • Ingreso Mensual y Rotación

Correlación: -0.1598, p-valor = 7.147e-10

Modelo de Regresión Logística: Coeficiente para Ingreso Mensual = -1.271e-04, p-valor < 0.001

Similar a la edad, existe una correlación negativa entre el ingreso mensual y la rotación, y el modelo logístico confirma esta relación negativa. Esto implica que los empleados con ingresos más altos tienen una menor probabilidad de rotación, lo que apoya la idea de que las condiciones laborales, como el salario, juegan un papel crucial en la retención de empleados.

  • Satisfacción Laboral y Rotación

Correlación: -0.1035, p-valor = 7.043e-05

Modelo de Regresión Logística: Coeficiente para Satisfacción Laboral = -0.2510, p-valor < 0.001

La correlación negativa y el coeficiente negativo en el modelo indican que una mayor satisfacción laboral está asociada con una menor probabilidad de rotación. Este resultado valida la parte de la hipótesis que sugiere que la satisfacción laboral es un determinante clave en la decisión de un empleado de permanecer en la empresa o buscar otro empleo.

En general, los resultados confirman la hipótesis inicial de que la rotación de empleados es influenciada por una combinación de factores personales (edad), condiciones laborales (ingreso mensual) y la satisfacción laboral.

4. Estimación del modelo

  - Realiza la estimación de un modelo de regresión logístico en el cual la variable respuesta es rotacion (y=1 es si rotación, y=0 es no rotación) y las covariables las 6 seleccionadas en el punto 1. Interprete los coeficientes del modelo y la significancia de los parámetros

Para realizar el modelo de regresión logística que incluya la variable de respuesta Rotación y las seis covariables seleccionadas anteriormente (tres categóricas: Viaje de Negocios, Departamento, Estado Civil; y tres cuantitativas: Edad, Ingreso Mensual, Satisfacción Laboral), primero, se ajusta el modelo de regresión logística usando la función glm() con la familia binomial, dada la respuesta binaria en la variable rotación (y = 1 para rotación, y = 0 para no rotación).

# Ajustar el modelo de regresión logística
modelo <- glm(Rotación ~ `Viaje de Negocios` + Departamento + `Estado_Civil` + Edad + `Ingreso_Mensual` + `Satisfación_Laboral`, 
              data = rotacion2, family = binomial)

# Resumen del modelo para obtener los coeficientes y su significancia
summary(modelo)
## 
## Call:
## glm(formula = Rotación ~ `Viaje de Negocios` + Departamento + 
##     Estado_Civil + Edad + Ingreso_Mensual + Satisfación_Laboral, 
##     family = binomial, data = rotacion2)
## 
## Coefficients:
##                                Estimate Std. Error z value Pr(>|z|)    
## (Intercept)                   6.938e-01  4.113e-01   1.687 0.091659 .  
## `Viaje de Negocios`No_Viaja  -1.368e+00  3.416e-01  -4.006 6.18e-05 ***
## `Viaje de Negocios`Raramente -6.588e-01  1.740e-01  -3.787 0.000153 ***
## DepartamentoRH                5.416e-01  3.510e-01   1.543 0.122802    
## DepartamentoVentas            5.938e-01  1.615e-01   3.678 0.000235 ***
## Estado_CivilDivorciado       -2.201e-01  2.238e-01  -0.984 0.325316    
## Estado_CivilSoltero           8.065e-01  1.655e-01   4.872 1.10e-06 ***
## Edad                         -2.524e-02  9.828e-03  -2.568 0.010219 *  
## Ingreso_Mensual              -1.077e-04  2.543e-05  -4.235 2.29e-05 ***
## Satisfación_Laboral          -2.942e-01  6.729e-02  -4.373 1.23e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 1298.6  on 1469  degrees of freedom
## Residual deviance: 1151.8  on 1460  degrees of freedom
## AIC: 1171.8
## 
## Number of Fisher Scoring iterations: 5

Intepretación

  • Intercepto

Estimación: 0.6938. Representa las log-odds de rotación cuando todas las variables predictoras son 0. En el contexto de variables categóricas, se refiere al escenario de la categoría de referencia.

  • Viaje de Negocios

    No Viaja: El coeficiente de -1.368 indica que los empleados que no viajan tienen log-odds de rotación significativamente más bajos en comparación con la categoría base (“Frecuentemente”), lo que sugiere que los empleados que no requieren viajar tienen menos probabilidad de rotar.

    Raramente: Un coeficiente de -0.6588 sugiere que los empleados que viajan raramente también tienen menos probabilidad de rotar en comparación con los que viajan frecuentemente.

  • Departamento

    RH: Con un coeficiente de 0.5416, este resultado no es estadísticamente significativo (p > 0.05), indicando que no hay suficiente evidencia para afirmar que el departamento de RH tiene diferencias en la probabilidad de rotación en comparación con la categoría de referencia (IyD)

    Ventas: Un coeficiente de 0.5938 indica que los empleados del departamento de ventas tienen mayores log-odds de rotar en comparación con la categoría de referencia, sugiriendo una mayor probabilidad de rotación en ventas.

  • Estado Civil

    Divorciado: El coeficiente de -0.2201 no es significativo, lo que indica que no hay suficiente evidencia para diferenciar entre divorciados y la categoría de referencia en términos de rotación.

    Soltero: Un coeficiente de 0.8065 sugiere que los empleados solteros tienen mayores log-odds de rotar en comparación con la categoría base, indicando una mayor probabilidad de rotación entre los solteros.

  • Edad

    Coeficiente: -0.02524. Este valor negativo y significativo (p < 0.05) indica que a medida que la edad aumenta, la probabilidad de rotación disminuye.

  • Ingreso Mensual

    Coeficiente: -0.0001077. Un valor negativo y significativo indica que un aumento en el ingreso mensual está asociado con una disminución en la probabilidad de rotación.

  • Satisfacción Laboral

    Coeficiente: -0.2942. Este coeficiente negativo y significativo sugiere que una mayor satisfacción laboral reduce la probabilidad de rotación.

En general, los resultados del modelo sugieren que factores como viajar menos frecuentemente o no viajar, estar en el departamento de ventas, ser soltero, tener una mayor edad, un mayor ingreso mensual, y una mayor satisfacción laboral están todos significativamente relacionados con la probabilidad de rotación de los empleados.

5. Evaluación

  - Evaluar el poder predictivo del modelo con base en la curva ROC y el AUC.

El uso de la curva ROC (Receiver Operating Characteristic) y el área bajo la curva (AUC - Area Under the Curve), proporcionan una medida cuantitativa de la capacidad del modelo para distinguir entre las clases objetivo (en este caso, rotación y no rotación).

# Cargar las librerías necesarias
suppressMessages(library(pROC))

# Predecir las probabilidades
probabilidades <- predict(modelo, type = "response")

# Calcular la curva ROC y el AUC
roc_resultado <- roc(rotacion2$Rotación, probabilidades)
## Setting levels: control = 0, case = 1
## Setting direction: controls < cases
auc(roc_resultado)
## Area under the curve: 0.73
# Graficar la curva ROC
plot(roc_resultado, main = "Curva ROC del Modelo de Rotación")
abline(a = 0, b = 1, lty = 2) # Línea diagonal para referencia

Intepretación

La curva ROC mostrada ilustra la capacidad del modelo de regresión logística para distinguir entre los empleados que rotarán (casos positivos) y aquellos que no (casos negativos), basándose en las probabilidades pronosticadas de rotación. El AUC (área bajo la curva ROC) proporciona un resumen numérico único de la información contenida en la curva ROC.

  • Análisis de la Curva ROC

Curva por encima de la línea diagonal: La curva ROC se eleva rápidamente hacia la parte superior izquierda del gráfico, lo que indica una buena medida de separabilidad. Se encuentra por encima de la línea diagonal, lo que sugiere que el modelo tiene una capacidad de discriminación útil.

Tasa de Verdaderos Positivos (Sensibilidad): La curva indica que el modelo tiene una sensibilidad razonablemente alta, es decir, tiene una buena capacidad para detectar verdaderos positivos o casos de rotación efectiva.

Tasa de Falsos Positivos (1 - Especificidad): Al inicio, el modelo tiene una baja tasa de falsos positivos, lo que es favorable.

  • Análisis del AUC

Valor de AUC: 0.73. Este valor indica que hay un 73% de probabilidad de que el modelo pueda diferenciar entre un empleado que rotará y uno que no lo hará. Un AUC de 0.73 es considerado aceptable, aunque no excelente. Por lo tanto, se puede considerar como un modelo que tiene un buen poder predictivo, pero se puede mejorar.

  • Conclusión

El modelo tiene una buena capacidad para clasificar correctamente a los empleados en términos de rotación, pero aún hay un margen significativo de falsos positivos y falsos negativos. Es decir, el modelo puede ser útil para predecir la rotación de empleados y ayudar en la toma de decisiones en la gestión de recursos humanos, pero se debe evaluar la revisión a fondo del modelo para obtener uno con mayor nivel de precisión. Por ejemplo, por medio de la inclusión de más variables predictivas que permitan reflejar un AUC más alto.

6. Predicciones

  - Realiza una predicción la probabilidad de que un individuo (hipotético) rote y defina un corte para decidir si se debe intervenir a este empleado o no (posible estrategia para motivar al empleado).
  

Para realizar una predicción sobre la probabilidad de que un empleado hipotético rote, se define primero las características específicas de ese empleado en términos de las variables utilizadas en el modelo:

  • Empleado hipotético

Viaje de Negocios: Raramente

Departamento: Ventas

Estado Civil: Casado

Edad: 33 años

Ingreso Mensual: $4500

Satisfacción Laboral: Nivel 3

rotacion2$`Viaje de Negocios` <- factor(rotacion2$`Viaje de Negocios`)
rotacion2$Departamento <- factor(rotacion2$Departamento)
rotacion2$Estado_Civil <- factor(rotacion2$Estado_Civil)

# Crear el data frame empleado_hipotetico con el nombre de columna correcto
empleado_hipotetico <- setNames(data.frame(
  factor("Raramente", levels = c("Nunca", "Raramente", "Frecuentemente")),
  factor("Ventas", levels = c("RH", "Ventas", "IT")),
  factor("Casado", levels = c("Casado", "Soltero", "Divorciado")),
  33,
  4500,
  3
), c("Viaje de Negocios", "Departamento", "Estado_Civil", "Edad", "Ingreso_Mensual", "Satisfación_Laboral"))

# Verificar los nombres de las columnas
print(empleado_hipotetico)
##   Viaje de Negocios Departamento Estado_Civil Edad Ingreso_Mensual
## 1         Raramente       Ventas       Casado   33            4500
##   Satisfación_Laboral
## 1                   3
# Realizar la predicción con el data frame corregido
probabilidad_rotacion <- predict(modelo, newdata = empleado_hipotetico, type = "response")

print(probabilidad_rotacion)
##         1 
## 0.1720031

La predicción realizada para el empleado hipotético da una probabilidad de rotación de aproximadamente 0.172 o 17.2%. Esto significa que, según el modelo de regresión logística ajustado con las variables seleccionadas (Viaje de Negocios, Departamento, Estado_Civil, Edad, Ingreso Mensual, y Satisfación Laboral), este empleado hipotético tiene una probabilidad del 17.2% de dejar la empresa

  • Definición del Punto de Corte

El punto de corte se define en función de la estrategia y posible política de la empresa. Para este caso, se considera que el costo de reemplazar un empleado es alto, por lo tanto, la empresa está dispuesta a intervenir en casos donde la probabilidad de rotación es del 30%.

# Definir un punto de corte
punto_de_corte <- 0.30 

# Decidir si intervenir o no basado en el punto de corte
intervenir <- ifelse(probabilidad_rotacion > punto_de_corte, "Intervenir", "No intervenir")

print(intervenir)
##               1 
## "No intervenir"

En este caso, teniendo en cuenta que la probabilidad de rotación del empleado hipótetico (0.17) está por debajo del corte establecido (0.3), no es necesaria una intervención por parte de la empresa para implementar acciones o estrategias de de motivación al empleado.

7. Conclusiones

  - En las conclusiones adicione una discución sobre cuál sería la estrategia para disminuir la rotación en la empresa (con base en las variables que resultaron significativas en el punto 3).

A continuación, se lista una serie de posibles estrategias para disminuir la rotación en la empresa, teniendo en cuenta las variables significativas seleccionadas:

  • Revisiones de Desempeño: Asegurarse de que el empleado reciba retroalimentación regular.

  • Mejoras en la Compensación: Si el salario es un factor, considerar ajustes salariales o incentivos adicionales.

  • Mejoras en el Equilibrio Vida/Trabajo: Ofrecer flexibilidad laboral o apoyo para gestionar la carga de trabajo y viajes de negocios. Posibilidad de trabajo híbrido (Virtual y presencial).

  • Programas de Reconocimiento: Implementar reconocimientos y premios para aumentar la satisfacción y la lealtad de los empleados.

  • Oportunidades de Desarrollo Profesional: Planes de formación, capacitación y acceso a estudios académicos financiados por la empresa, que permitan a los empleados mejorar su perfil profesional.