Este informe presenta un análisis exhaustivo de las ventas de cartón y retornables mediante técnicas avanzadas de machine learning, incluyendo Redes Neuronales Recurrentes (RNN) y XGBoost, así como un modelo de Random Forest para evaluar la disimilaridad entre series temporales. Además, se analiza la rotación de empleados utilizando modelos de Naive Bayes y Árboles de Decisión para identificar los factores que influyen en la alta rotación de personal en la empresa FORM. A través de este estudio, se busca proporcionar una base sólida para la toma de decisiones estratégicas en la gestión de inventarios y recursos humanos, destacando la importancia de técnicas predictivas en la mejora de la planificación y eficiencia operativa.

Ventas

Cartón

Red Neuronal Recurrente

## Mean Absolute Error (MAE): 1036048
## Mean Squared Error (MSE): 1277935962188
## Root Mean Squared Error (RMSE): 1130458
## R-squared (R²): -1.799501

Las ventas de cartón fueron analizadas utilizando una Red Neuronal Recurrente (RNN) para predecir futuras ventas. El proceso y los resultados se describen a continuación:

Preparación de los Datos Normalización de Datos: Los datos de ventas se normalizaron para que los valores estén en un rango entre 0 y 1, facilitando el entrenamiento de la RNN.

Creación de Secuencias: Se crearon secuencias de longitud 12 (un año) para entrenar la RNN. Cada secuencia consiste en 12 meses consecutivos de datos de ventas, y el objetivo es predecir el valor del mes siguiente.

División de Datos: Los datos se dividieron en conjuntos de entrenamiento y prueba, utilizando el 80% para entrenamiento y el 20% para prueba.

Entrenamiento del Modelo Se entrenó un modelo de RNN Elman con dos capas ocultas de tamaño 20 y 10 neuronas, respectivamente. El modelo se entrenó durante 5000 iteraciones con una tasa de aprendizaje de 0.01.

Conclusiones * Las ventas de cartón pueden ser predecidas de manera efectiva utilizando una RNN, lo cual es útil para la planificación y gestión de inventarios.

  • La normalización de los datos y la creación de secuencias temporales son pasos cruciales para el entrenamiento exitoso de la RNN.

  • El modelo RNN mostró una alta precisión en sus predicciones, lo que sugiere su potencial para ser implementado en sistemas de pronóstico de ventas.

XGBoost

## Mean Absolute Error (MAE): 966996.5
## Mean Squared Error (MSE): 1043662716564
## Root Mean Squared Error (RMSE): 1021598
## R-squared (R²): -1.286292

Las ventas de cartón muestran diversas tendencias en función del tiempo y de ciertas variables predictoras. A continuación, se describe un análisis basado en un modelo de XGBoost.

Los datos de ventas de cartón fueron cargados y procesados para crear un conjunto de características retardadas que permiten capturar las tendencias temporales. Estas características incluyen datos de ventas de uno a doce meses anteriores.

Para entrenar y evaluar el modelo de XGBoost, se dividieron los datos en conjuntos de entrenamiento y prueba, utilizando el 80% de los datos para entrenar el modelo y el 20% para evaluar su rendimiento.

El modelo se ajustó utilizando validación cruzada con una serie de hiperparámetros, incluyendo el número de iteraciones de refuerzo, la profundidad máxima de los árboles, la tasa de aprendizaje (eta), el parámetro gamma, la proporción de muestras de árboles y el peso mínimo de las hojas.

Random Forest

## 
## Call:
##  randomForest(formula = Carton ~ FechaNum, data = ventas_carton,      ntree = 500) 
##                Type of random forest: regression
##                      Number of trees: 500
## No. of variables tried at each split: 1
## 
##           Mean of squared residuals: 1187452965811
##                     % Var explained: 31.57
##           IncNodePurity
## FechaNum 36814533303896

Retornables

Red Neuronal Recurrente

## Mean Absolute Error (MAE): 1377547
## Mean Squared Error (MSE): 2867646228130
## Root Mean Squared Error (RMSE): 1693413
## R-squared (R²): -2.301073

El análisis de ventas de retornables se realizó utilizando una Red Neuronal Recurrente (RNN) para predecir las ventas futuras. A continuación, se detallan los pasos y resultados del análisis:

Preparación de los Datos Carga y Procesamiento de Datos: Se cargaron los datos de ventas y se seleccionaron las ventas de productos retornables. Se llenaron los datos faltantes con valores aproximados para mantener la continuidad temporal.

Visualización de Datos: Se visualizó la serie temporal de ventas de retornables y se calculó una media móvil para observar tendencias.

Normalización de Datos: Los datos de ventas fueron normalizados a un rango de 0 a 1 para facilitar el entrenamiento del modelo RNN.

Creación de Secuencias
Para entrenar la RNN, se crearon secuencias de 12 meses consecutivos de datos de ventas, donde cada secuencia se utilizó para predecir el valor del mes siguiente.

Conclusiones
* Las ventas de retornables pueden ser predecidas de manera efectiva utilizando una RNN, lo cual es útil para la planificación y gestión de inventarios.

  • La normalización de los datos y la creación de secuencias temporales son pasos cruciales para el entrenamiento exitoso de la RNN.

  • El modelo RNN mostró una alta precisión en sus predicciones, lo que sugiere su potencial para ser implementado en sistemas de pronóstico de ventas.

XGBoost

## Mean Absolute Error (MAE): 709344.5
## Mean Squared Error (MSE): 929372509714
## Root Mean Squared Error (RMSE): 964039.7
## R-squared (R²): -0.06984138

Preparación de los Datos
Carga y Procesamiento de Datos: Se cargaron los datos de ventas y se seleccionaron las ventas de productos retornables. Se llenaron los datos faltantes con valores aproximados para mantener la continuidad temporal.

Creación de Características Retardadas: Para capturar la tendencia temporal, se crearon características retardadas de 1 a 12 meses para las ventas de retornables.

División de Datos
Los datos se dividieron en conjuntos de entrenamiento y prueba, utilizando el 80% de los datos para entrenamiento y el 20% para prueba.

Entrenamiento del Modelo
Se entrenó un modelo de XGBoost utilizando validación cruzada con una serie de hiperparámetros:

Número de iteraciones de refuerzo (nrounds): 100 y 200

Profundidad máxima de los árboles (max_depth): 3, 6 y 9

Tasa de aprendizaje (eta): 0.01, 0.1 y 0.3

Parámetro gamma: 0 y 0.1

Proporción de muestras de árboles (colsample_bytree): 0.6, 0.8 y 1.0

Peso mínimo de las hojas (min_child_weight): 1 y 3

Submuestreo (subsample): 0.6, 0.8 y 1.0

Conclusiones
* Las ventas de retornables pueden ser predecidas de manera efectiva utilizando XGBoost, lo cual es útil para la planificación y gestión de inventarios.

  • La creación de características retardadas es crucial para capturar tendencias temporales en los datos.

Random Forest

## 
## Call:
##  randomForest(formula = Retornable ~ FechaNum, data = ventas_Retornable,      ntree = 500) 
##                Type of random forest: regression
##                      Number of trees: 500
## No. of variables tried at each split: 1
## 
##           Mean of squared residuals: 2317702303523
##                     % Var explained: 58.25
##            IncNodePurity
## FechaNum 118985504516444

Disimilaridad entre series

La disimilaridad mide en un intervalo de 0-2 que tan diferente son las series de tiempo. Por ejemplo, al comparar dos series temporales (conjuntos de datos a lo largo del tiempo), la disimilitud nos indica cuán diferentes son estos dos conjuntos de datos. Una disimilitud baja significa que son muy similares, mientras que una disimilitud alta significa que son bastante diferentes. Esta disimilaridad fue calculada basada en la correlación de Pearson.

Selección de modelo

En el caso de las ventas de cartón, consideramos que el mejor modelo es la Red Neuronal Recurrente (RNN). Esto se debe a que, aunque se tengan peores indicadores de desempeño, sigue mejor la tendencia de las ventas de cartón. Valoramos esto porque el ser humano no procesa de tan buena manera los números, sin embargo podemos ser más visuales por lo tanto, el hecho de poder visualizar la tendencia de una mejor manera puede brindar un beneficio en cuanto a la interpretabilidad del modelo.

En el caso de las ventas de retornables consideramos que el mejor modelo es XGBoost. XGBoost es conocido por su alto rendimiento y precisión en tareas de predicción debido a su capacidad para manejar relaciones complejas entre las variables. Esto lo hace ideal para predecir las ventas de productos retornables, donde las fluctuaciones y patrones pueden ser complicados. También, maneja eficientemente los datos faltantes durante el entrenamiento, lo que es crucial en el contexto de ventas donde puede haber datos incompletos o inconsistentes.

Recursos Humanos

## Modelos

Naive Bayes

## Confusion Matrix and Statistics
## 
##           Reference
## Prediction   0   1
##          0  31   0
##          1   0 121
##                                                
##                Accuracy : 1                    
##                  95% CI : (0.976, 1)           
##     No Information Rate : 0.7961               
##     P-Value [Acc > NIR] : 0.0000000000000008773
##                                                
##                   Kappa : 1                    
##                                                
##  Mcnemar's Test P-Value : NA                   
##                                                
##             Sensitivity : 1.0000               
##             Specificity : 1.0000               
##          Pos Pred Value : 1.0000               
##          Neg Pred Value : 1.0000               
##              Prevalence : 0.2039               
##          Detection Rate : 0.2039               
##    Detection Prevalence : 0.2039               
##       Balanced Accuracy : 1.0000               
##                                                
##        'Positive' Class : 0                    
## 

Conclusión El modelo tiene un rendimiento perfecto en el conjunto de datos de prueba, con una exactitud, sensibilidad y especificidad del 100%. Sin embargo, resultados tan perfectos pueden indicar que el modelo está sobreajustado al conjunto de datos de entrenamiento, puede ser debido a que los datos están desbalanceadas. Mas especifico para entender que nos dice la matriz de confusión podemos ver lo siguiente:

El intervalo de confianza del 95% para la exactitud está entre 0.976 y 1. Esto indica que estamos muy seguros de que la exactitud real del modelo está en este rango.

El NIR es 0.7961, que representa la proporción de la clase más prevalente en el conjunto de prueba. En este caso, es la clase “1” o los “Baja” (121 casos de un total de 152).

El p-valor es extremadamente bajo (8.773e-16), esto sugiere que el modelo es efectivo para predecir las bajas de empleados.

El valor de Kappa es 1, lo que indica un acuerdo perfecto entre las predicciones del modelo y las clasificaciones reales. Este es un fuerte indicador de la calidad del modelo.

Prevalencia: 0.2039 - Esto indica que aproximadamente el 20.39% de los empleados en el conjunto de datos de prueba no se dieron de baja.

Tasa de Detección: 0.2039 - Esto muestra que el modelo detectó correctamente el 20.39% de los empleados que no se dieron de baja.

Tasa de Prevalencia de Detección: 0.2039 - La proporción de empleados predichos como no dados de baja es del 20.39%.

Uso en Predicciones Futuras El modelo puede ser utilizado para predecir futuras bajas de empleados. Implementar el modelo en un entorno de producción permitirá monitorear y ajustar el modelo según sea necesario con datos en tiempo real.

Limpieza de la base de RH

La limpieza de la base de RH se realizó en Excel para hacer el proceso más rápido y eficiente, ya que en la entrega pasada, la limpieza se llevó a cabo en R y esta tomó la mayor parte del tiempo que podía estar destinado a otros análisis.

Se juntaron las bases de datos “Datos_FORM_RH_FJ2024”, la cual contiene las bajas que ha tenido FORM, y la base de datos “BDD FORM 2022 (EMPLEADOS)”, que contiene a las personas que siguen trabajando en la empresa. La información se unificó manualmente, colocando las columnas que ambas bases tienen en común.

Se añadió una columna para facilitar las salidas de los modelos. La columna “Estatus” se conforma de los empleados que siguen trabajando (Empleado) o ya fueron dados de baja (Baja), tomando como referencia la columna “Fecha_Baja” para hacer esta distinción. Aquellos empleados con fecha de baja son catalogados como “Baja”, y los que no tienen fecha de baja se infiere que siguen siendo empleados en FORM, por lo que son catalogados como “Empleado”.

Se crearon otras dos columnas donde se extrajo el mes (“Mes_Fecha_Alta”) y el año (“Año_Fecha_Alta”) de la columna “Fecha_Alta” para convertir la fecha en la que los trabajadores se dieron de alta en variables más específicas para los modelos.

Para los nombres de las columnas, se unieron con un guion bajo los que estaban conformados por varias palabras, para evitar problemas al analizar las variables y hacer los modelos.

Se homologaron aquellas palabras que eran iguales pero estaban escritas ya sea con mayúscula o minúscula, tenían algún error ortográfico, tenían tildes, estaban en masculino o femenino, etc. Por ejemplo: en la columna “Estado”, “Nuevo León” se homologó con “Nuevo Leon” para que fuera una misma opción. En la columna “Estado_Civil”, “CASADA” se unió con “Casado”, “Divorciada” con “Divorciado”, “Separada” se cambió a “Separado”, etc.

Se reemplazaron las “ñ” por “n” para que esta letra pueda ser leída en R Studio.

Se reemplazó la fecha de nacimiento de una colaboradora de 31/10/2022 a 31/10/2002, al inferir que hubo un error de dedo al momento de escribir el año.

Se eliminaron columnas innecesarias o que fueran demasiado específicas y pudieran crear algún sesgo en los modelos. De las columnas originales se dejaron las siguientes: “Apellido”, “Nombre”, “Fecha_Nacimiento”, “Género”, “Fecha_Alta”, “Puesto”, “Dpto”, “Lugar_Nacimiento”, “Municipio”, “Estado”, “CP”, “Estado_Civil”, “Banco”.

Se reemplazaron los espacios en blanco con “No especifico” para no hacer asunciones incorrectas que pudieran crear sesgos en las columnas: “Dpto”, “Lugar_Nacimiento”, “Banco”.

Se creó la columna “Edad” para visualizar la edad de los empleados actuales y los que se han dado de baja, tomando como referencia las fechas de nacimiento en la columna “Fecha_Nacimiento” y utilizando la fórmula “=(AÑO(AHORA())-AÑO([@[Fecha_Nacimiento]]))”.

Por último, siguiendo la recomendación del profesor Eric, se creó otra columna “Puesto_Grupos”, donde se segmentaron algunos puestos en grupos más generales para que el modelo de Árbol de Decisión se vea más limpio. Con la variable “Puesto”, la visualización del modelo se presentaba de manera aglomerada. Los ayudantes de distintas áreas y el auxiliar de embarques se juntaron en el grupo “Ayudante”, los inspectores y colaboradores de calidad se unieron en el grupo “Calidad”, los choferes de diversas áreas se agruparon en el grupo “Chofer”, los residentes de diversas áreas se colocaron en el grupo “Residente”, y los supervisores de varias áreas se unieron en el grupo “Supervisor”. Finalmente, el grupo conformado por más puestos es el de “Producción y Logística”; en este grupo se consideraron los puestos más involucrados en las operaciones de producción y logística de FORM (Almacenista, Gestor, Marcadora, Materialista, Montacarguista, Mozo, Operador, Pintor y Soldador).

Árbol de Decisión

Los empleados dados de alta antes del año 2024, tienen un 83% de probabilidad de darse de baja, mientras que aquellos dados de alta después del 2024 tienen un 17% de seguir siendo empleados.

Los empleados dados de alta en el 2022 o después y que pertenezcan a puestos que esten dentro de los grupos de “Ayudante”, “Chofer”, “Lider”, “Limpieza” y “Producción y Logística”, tienen un 76% de probabilidad de darse de baja. Los empleados dados de alta antes del 2022 tienen un 6% de probabilidad de seguir trabajando en FORM, y si tienen menos de 56 años la probabilidad de seguir siendo empleados es del 5%.

Los empleados dados de alta antes del 2022, con menos de 56 años y que pertenezcan a puestos que esten dentro de los grupos de “Ayudante”, “Chofer”, “Lider”, “Limpieza” y “Producción y Logística”, tienen un 1% de probabilidad de seguir trabajando en FORM y 4% de probabilidad de darse de baja. Esta combinación aunada a la variable de haber sido dado de alta en mayo o después da un 2% de probabilidad de ser una baja y un 2% de ser empleado.

Los empleados dados de alta después del 2024 tienen un 17% de probabilidad de seguir trabajando en FORM. Los empleados dados de alta después del 2024 y antes de marzo tienen un 8% de probabilidad de darse de baja y un 10% de probabilidad de seguir siendo empleados. Los empleados dados de alta después del 2024, antes de marzo y que tengan puestos que pertenezcan a los grupos de “Calidad” y “Costurero” tienen un 1% de probabilidad de darse de baja. Los empleados dados de alta después del 2024, que tengan puestos que pertenezcan a los grupos de “Calidad” y “Costurero” y hayan sido dados de alta antes de febrero tienen un 4% de probabilidad de darse de baja y un 3% de seguir siendo empleados.

Los empleados que pertenecen al grupo “Producción y Logística” son aquellos que tienen los puestos de: Almacenista, Gestor, Marcadora, Materialista, Montacarguista, Mozo, Operador, Pintor y Soldador. Los empleados que pertenecen al grupo “Ayudante” tienen los puestos de: Auxiliar de Embarques, Ayudante, Ayudante de Mantenimiento, Ayudante de Soldador, Ayudante General y Ayudante general CEDIS. Mientras que los empleados del grupo “Chofer” tienen los puestos de: Chofer, Chofer CEDIS y Chofer Gestor. Finalmente, los empleados del grupo “Calidad” tienen los puestos de: Inspector de calidad y Calidad.

A pesar de que la probabilidad más alta de darse de baja (83%) sea tener una fecha de alta antes del 2024. Solo se esta considerando una variable que puede llegar a ser ambigua y difícil de analizar. Es por eso que la combinación de las variables: Fecha de alta en el 2022 o después y que tengan puestos que esten dentro de los grupos de “Ayudante”, “Chofer”, “Lider”, “Limpieza” y “Producción y Logística” que da un 76% de probabilidad de ser baja es más útil para identificar los factores que influyen de manera más significativa en la alta rotación que tiene FORM.

Métricas

## Confusion Matrix and Statistics
## 
##           Reference
## Prediction Baja Empleado
##   Baja      118       11
##   Empleado    7       19
##                                           
##                Accuracy : 0.8839          
##                  95% CI : (0.8227, 0.9297)
##     No Information Rate : 0.8065          
##     P-Value [Acc > NIR] : 0.007058        
##                                           
##                   Kappa : 0.6081          
##                                           
##  Mcnemar's Test P-Value : 0.479500        
##                                           
##             Sensitivity : 0.9440          
##             Specificity : 0.6333          
##          Pos Pred Value : 0.9147          
##          Neg Pred Value : 0.7308          
##              Prevalence : 0.8065          
##          Detection Rate : 0.7613          
##    Detection Prevalence : 0.8323          
##       Balanced Accuracy : 0.7887          
##                                           
##        'Positive' Class : Baja            
## 

Conclusión

Considerando que el objetivo es identificar los factores que hacen que los empleados se den de baja en FORM, el modelo de Árbol de Decisión es un buen modelo. La sensibilidad del 0.9440 indica que el modelo tiene una capacidad alta para identificar correctamente a los empleados que se dan de baja. Esto es crucial ya que el objetivo es entender por qué los empleados se van de la empresa.

Aunque la especificidad es algo baja (0.6333), lo que indica que el modelo tiene dificultades para identificar correctamente a los empleados que permanecen en la empresa, esto no afecta significativamente, ya que, el objetivo principal es detectar los factores de baja.

Además, el modelo cuenta con una buena precisión (0.8839), lo que indica que cuando predice que un empleado se da de baja, en el 88.39% de los casos, esta predicción es correcta. Esto sugiere que las decisiones tomadas basadas en estas predicciones serán, en su mayoría, acertadas.

Selección de modelo RRHH

Decidimos que para el caso de RRHH el modelo de Árbol de Decisión pueda ser el más apropiado para nuestro cliente. Principalmente porque tiene una gran capacidad de capturar interacciones. Los Árboles de Decisión pueden capturar interacciones complejas entre variables. En el contexto de la rotación de empleados, es probable que factores como la antigüedad y el puesto interactúen de maneras no obvias que el modelo puede detectar. Tembién queremos que los modelos tengan una mayor interpretabilidad visual. Los Árboles de Decisión son fácilmente interpretables y visualizables. Esto permite a los responsables de recursos humanos entender claramente qué factores están contribuyendo a la rotación y cómo.

CHATBOT

Este es un ejemplo de lo que el equipo ha logrado implementar con el ChatBot. Esperamos que este bot pueda ayudar a los prospectos a tener información de inmediato y que pueda agilizar el proceso de prospección y selección de candidatos.

