Este informe presenta un análisis exhaustivo de las ventas de cartón
y retornables mediante técnicas avanzadas de machine learning,
incluyendo Redes Neuronales Recurrentes (RNN) y XGBoost, así como un
modelo de Random Forest para evaluar la disimilaridad entre series
temporales. Además, se analiza la rotación de empleados utilizando
modelos de Naive Bayes y Árboles de Decisión para identificar los
factores que influyen en la alta rotación de personal en la empresa
FORM. A través de este estudio, se busca proporcionar una base sólida
para la toma de decisiones estratégicas en la gestión de inventarios y
recursos humanos, destacando la importancia de técnicas predictivas en
la mejora de la planificación y eficiencia operativa.
Recursos Humanos
##
Modelos
Naive Bayes
## Confusion Matrix and Statistics
##
## Reference
## Prediction 0 1
## 0 31 0
## 1 0 121
##
## Accuracy : 1
## 95% CI : (0.976, 1)
## No Information Rate : 0.7961
## P-Value [Acc > NIR] : 0.0000000000000008773
##
## Kappa : 1
##
## Mcnemar's Test P-Value : NA
##
## Sensitivity : 1.0000
## Specificity : 1.0000
## Pos Pred Value : 1.0000
## Neg Pred Value : 1.0000
## Prevalence : 0.2039
## Detection Rate : 0.2039
## Detection Prevalence : 0.2039
## Balanced Accuracy : 1.0000
##
## 'Positive' Class : 0
##
Conclusión El modelo tiene un rendimiento perfecto en el
conjunto de datos de prueba, con una exactitud, sensibilidad y
especificidad del 100%. Sin embargo, resultados tan perfectos pueden
indicar que el modelo está sobreajustado al conjunto de datos de
entrenamiento, puede ser debido a que los datos están desbalanceadas.
Mas especifico para entender que nos dice la matriz de confusión podemos
ver lo siguiente:
El intervalo de confianza del 95% para la exactitud está entre 0.976
y 1. Esto indica que estamos muy seguros de que la exactitud real del
modelo está en este rango.
El NIR es 0.7961, que representa la proporción de la clase más
prevalente en el conjunto de prueba. En este caso, es la clase “1” o los
“Baja” (121 casos de un total de 152).
El p-valor es extremadamente bajo (8.773e-16), esto sugiere que el
modelo es efectivo para predecir las bajas de empleados.
El valor de Kappa es 1, lo que indica un acuerdo perfecto entre las
predicciones del modelo y las clasificaciones reales. Este es un fuerte
indicador de la calidad del modelo.
Prevalencia: 0.2039 - Esto indica que aproximadamente el 20.39% de
los empleados en el conjunto de datos de prueba no se dieron de
baja.
Tasa de Detección: 0.2039 - Esto muestra que el modelo detectó
correctamente el 20.39% de los empleados que no se dieron de baja.
Tasa de Prevalencia de Detección: 0.2039 - La proporción de empleados
predichos como no dados de baja es del 20.39%.
Uso en Predicciones Futuras El modelo puede ser utilizado
para predecir futuras bajas de empleados. Implementar el modelo en un
entorno de producción permitirá monitorear y ajustar el modelo según sea
necesario con datos en tiempo real.
Limpieza de la base de RH
La limpieza de la base de RH se realizó en Excel para hacer el
proceso más rápido y eficiente, ya que en la entrega pasada, la limpieza
se llevó a cabo en R y esta tomó la mayor parte del tiempo que podía
estar destinado a otros análisis.
Se juntaron las bases de datos “Datos_FORM_RH_FJ2024”, la cual
contiene las bajas que ha tenido FORM, y la base de datos “BDD FORM 2022
(EMPLEADOS)”, que contiene a las personas que siguen trabajando en la
empresa. La información se unificó manualmente, colocando las columnas
que ambas bases tienen en común.
Se añadió una columna para facilitar las salidas de los modelos. La
columna “Estatus” se conforma de los empleados que siguen trabajando
(Empleado) o ya fueron dados de baja (Baja), tomando como referencia la
columna “Fecha_Baja” para hacer esta distinción. Aquellos empleados con
fecha de baja son catalogados como “Baja”, y los que no tienen fecha de
baja se infiere que siguen siendo empleados en FORM, por lo que son
catalogados como “Empleado”.
Se crearon otras dos columnas donde se extrajo el mes
(“Mes_Fecha_Alta”) y el año (“Año_Fecha_Alta”) de la columna
“Fecha_Alta” para convertir la fecha en la que los trabajadores se
dieron de alta en variables más específicas para los modelos.
Para los nombres de las columnas, se unieron con un guion bajo los
que estaban conformados por varias palabras, para evitar problemas al
analizar las variables y hacer los modelos.
Se homologaron aquellas palabras que eran iguales pero estaban
escritas ya sea con mayúscula o minúscula, tenían algún error
ortográfico, tenían tildes, estaban en masculino o femenino, etc. Por
ejemplo: en la columna “Estado”, “Nuevo León” se homologó con “Nuevo
Leon” para que fuera una misma opción. En la columna “Estado_Civil”,
“CASADA” se unió con “Casado”, “Divorciada” con “Divorciado”, “Separada”
se cambió a “Separado”, etc.
Se reemplazaron las “ñ” por “n” para que esta letra pueda ser leída
en R Studio.
Se reemplazó la fecha de nacimiento de una colaboradora de 31/10/2022
a 31/10/2002, al inferir que hubo un error de dedo al momento de
escribir el año.
Se eliminaron columnas innecesarias o que fueran demasiado
específicas y pudieran crear algún sesgo en los modelos. De las columnas
originales se dejaron las siguientes: “Apellido”, “Nombre”,
“Fecha_Nacimiento”, “Género”, “Fecha_Alta”, “Puesto”, “Dpto”,
“Lugar_Nacimiento”, “Municipio”, “Estado”, “CP”, “Estado_Civil”,
“Banco”.
Se reemplazaron los espacios en blanco con “No especifico” para no
hacer asunciones incorrectas que pudieran crear sesgos en las columnas:
“Dpto”, “Lugar_Nacimiento”, “Banco”.
Se creó la columna “Edad” para visualizar la edad de los empleados
actuales y los que se han dado de baja, tomando como referencia las
fechas de nacimiento en la columna “Fecha_Nacimiento” y utilizando la
fórmula “=(AÑO(AHORA())-AÑO([@[Fecha_Nacimiento]]))”.
Por último, siguiendo la recomendación del profesor Eric, se creó
otra columna “Puesto_Grupos”, donde se segmentaron algunos puestos en
grupos más generales para que el modelo de Árbol de Decisión se vea más
limpio. Con la variable “Puesto”, la visualización del modelo se
presentaba de manera aglomerada. Los ayudantes de distintas áreas y el
auxiliar de embarques se juntaron en el grupo “Ayudante”, los
inspectores y colaboradores de calidad se unieron en el grupo “Calidad”,
los choferes de diversas áreas se agruparon en el grupo “Chofer”, los
residentes de diversas áreas se colocaron en el grupo “Residente”, y los
supervisores de varias áreas se unieron en el grupo “Supervisor”.
Finalmente, el grupo conformado por más puestos es el de “Producción y
Logística”; en este grupo se consideraron los puestos más involucrados
en las operaciones de producción y logística de FORM (Almacenista,
Gestor, Marcadora, Materialista, Montacarguista, Mozo, Operador, Pintor
y Soldador).
Árbol de Decisión

Los empleados dados de alta antes del año 2024, tienen un 83% de
probabilidad de darse de baja, mientras que aquellos dados de alta
después del 2024 tienen un 17% de seguir siendo empleados.
Los empleados dados de alta en el 2022 o después y que pertenezcan a
puestos que esten dentro de los grupos de “Ayudante”, “Chofer”, “Lider”,
“Limpieza” y “Producción y Logística”, tienen un 76% de probabilidad de
darse de baja. Los empleados dados de alta antes del 2022 tienen un 6%
de probabilidad de seguir trabajando en FORM, y si tienen menos de 56
años la probabilidad de seguir siendo empleados es del 5%.
Los empleados dados de alta antes del 2022, con menos de 56 años y
que pertenezcan a puestos que esten dentro de los grupos de “Ayudante”,
“Chofer”, “Lider”, “Limpieza” y “Producción y Logística”, tienen un 1%
de probabilidad de seguir trabajando en FORM y 4% de probabilidad de
darse de baja. Esta combinación aunada a la variable de haber sido dado
de alta en mayo o después da un 2% de probabilidad de ser una baja y un
2% de ser empleado.
Los empleados dados de alta después del 2024 tienen un 17% de
probabilidad de seguir trabajando en FORM. Los empleados dados de alta
después del 2024 y antes de marzo tienen un 8% de probabilidad de darse
de baja y un 10% de probabilidad de seguir siendo empleados. Los
empleados dados de alta después del 2024, antes de marzo y que tengan
puestos que pertenezcan a los grupos de “Calidad” y “Costurero” tienen
un 1% de probabilidad de darse de baja. Los empleados dados de alta
después del 2024, que tengan puestos que pertenezcan a los grupos de
“Calidad” y “Costurero” y hayan sido dados de alta antes de febrero
tienen un 4% de probabilidad de darse de baja y un 3% de seguir siendo
empleados.
Los empleados que pertenecen al grupo “Producción y Logística” son
aquellos que tienen los puestos de: Almacenista, Gestor, Marcadora,
Materialista, Montacarguista, Mozo, Operador, Pintor y Soldador. Los
empleados que pertenecen al grupo “Ayudante” tienen los puestos de:
Auxiliar de Embarques, Ayudante, Ayudante de Mantenimiento, Ayudante de
Soldador, Ayudante General y Ayudante general CEDIS. Mientras que los
empleados del grupo “Chofer” tienen los puestos de: Chofer, Chofer CEDIS
y Chofer Gestor. Finalmente, los empleados del grupo “Calidad” tienen
los puestos de: Inspector de calidad y Calidad.
A pesar de que la probabilidad más alta de darse de baja (83%) sea
tener una fecha de alta antes del 2024. Solo se esta considerando una
variable que puede llegar a ser ambigua y difícil de analizar. Es por
eso que la combinación de las variables: Fecha de alta en el 2022 o
después y que tengan puestos que esten dentro de los grupos de
“Ayudante”, “Chofer”, “Lider”, “Limpieza” y “Producción y Logística” que
da un 76% de probabilidad de ser baja es más útil para identificar los
factores que influyen de manera más significativa en la alta rotación
que tiene FORM.
Métricas
## Confusion Matrix and Statistics
##
## Reference
## Prediction Baja Empleado
## Baja 118 11
## Empleado 7 19
##
## Accuracy : 0.8839
## 95% CI : (0.8227, 0.9297)
## No Information Rate : 0.8065
## P-Value [Acc > NIR] : 0.007058
##
## Kappa : 0.6081
##
## Mcnemar's Test P-Value : 0.479500
##
## Sensitivity : 0.9440
## Specificity : 0.6333
## Pos Pred Value : 0.9147
## Neg Pred Value : 0.7308
## Prevalence : 0.8065
## Detection Rate : 0.7613
## Detection Prevalence : 0.8323
## Balanced Accuracy : 0.7887
##
## 'Positive' Class : Baja
##
Conclusión
Considerando que el objetivo es identificar los factores que hacen
que los empleados se den de baja en FORM, el modelo de Árbol de Decisión
es un buen modelo. La sensibilidad del 0.9440 indica que el modelo tiene
una capacidad alta para identificar correctamente a los empleados que se
dan de baja. Esto es crucial ya que el objetivo es entender por qué los
empleados se van de la empresa.
Aunque la especificidad es algo baja (0.6333), lo que indica que el
modelo tiene dificultades para identificar correctamente a los empleados
que permanecen en la empresa, esto no afecta significativamente, ya que,
el objetivo principal es detectar los factores de baja.
Además, el modelo cuenta con una buena precisión (0.8839), lo que
indica que cuando predice que un empleado se da de baja, en el 88.39% de
los casos, esta predicción es correcta. Esto sugiere que las decisiones
tomadas basadas en estas predicciones serán, en su mayoría,
acertadas.
Selección de modelo RRHH
Decidimos que para el caso de RRHH el modelo de Árbol de Decisión
pueda ser el más apropiado para nuestro cliente. Principalmente porque
tiene una gran capacidad de capturar interacciones. Los Árboles de
Decisión pueden capturar interacciones complejas entre variables. En el
contexto de la rotación de empleados, es probable que factores como la
antigüedad y el puesto interactúen de maneras no obvias que el modelo
puede detectar. Tembién queremos que los modelos tengan una mayor
interpretabilidad visual. Los Árboles de Decisión son fácilmente
interpretables y visualizables. Esto permite a los responsables de
recursos humanos entender claramente qué factores están contribuyendo a
la rotación y cómo.
