Resumen (Abstract)

El presente artículo presenta una adaptación metodológica del enfoque tradicional de procesos Autorregresivos de Medias Móviles (ARMA) para el pronóstico de fallas, aplicado a un contexto industrial real de transporte pesado. Basándose en marcos predictivos previos, esta investigación analiza datos operativos continuos provenientes de la flota SCANIA (IDA 2024 Industrial Challenge). Debido a la confidencialidad de los tiempos reales de reparación en los datos industriales, se desarrolló una estimación estructurada del Tiempo de Inactividad (Downtime) basada en un Tiempo Medio de Reparación (MTTR) constante por evento de falla, permitiendo el cálculo empírico del Factor de Inoperatividad (MDF). La metodología emplea una transformación de media móvil de octavo orden para convertir las series temporales no estacionarias del MDF en series estacionarias (residuales). Al integrar esta transformación de datos con el modelado ARMA, el método propuesto captura la dinámica subyacente de la degradación del componente a lo largo de los pasos de tiempo operativo. Los resultados confirman que la combinación de proyecciones de media móvil con técnicas autorregresivas constituye una herramienta robusta y adaptable para el mantenimiento predictivo empírico, facilitando la toma de decisiones para minimizar los tiempos de inactividad de las flotas.

Palabras Clave — Modelo ARMA, Modelo ARIMA, transformación de datos, pronóstico (forecasting).

I. INTRODUCCIÓN

En una época de competencia intensiva, la eficiencia operativa en los sectores industriales y de logística de transporte pesado es un índice crucial para representar la rentabilidad y disponibilidad de los activos, donde una mejor utilización de la vida útil del equipo juega un papel significativo. Por lo tanto, ha surgido el Mantenimiento Predictivo (PdM), con el propósito de preveer las interrupciones de los equipos y llevar a cabo las intervenciones solo cuando sea necesario, ofreciendo el beneficio de minimizar el tiempo de inactividad de la maquinaria y salvaguardar la continuidad de las operaciones. Para lograr con éxito el mantenimiento predictivo, se requiere básicamente un pronóstico adecuado que permita detectar una condición indeseable antes de que se genere una falla catastrófica. En años recientes, se ha dedicado un extenso trabajo de investigación y desarrollo a los pronósticos y sus aplicaciones potenciales en la mejora de la utilización y disponibilidad de los equipos. Diversos métodos de pronóstico de fallas, incluyendo enfoques basados en modelos, métodos probabilísticos, enfoques basados en el conocimiento y redes neuronales, han sido temas de numerosos trabajos publicados. Junhong Zhou [1] propuso un sistema inteligente de predicción y monitoreo basado en un marco de agentes para resolver problemas de pronóstico industrial. Yang [2] introdujo el modelo gris multivariable MGM(1,n) para predecir fallas en rodamientos de elementos rodantes, mientras que Zhiguo Li [3] utilizó un método combinado del modelo de riesgos proporcionales de Cox y la firma de falla para predecir situaciones en secuencias de eventos largas y complejas.

Además de los diversos métodos de predicción, muchas investigaciones se han centrado en la aplicación de la teoría de series temporales, la cual aparece en un amplio conjunto de dominios como las finanzas, la producción y el control. En un modelo de series temporales, solo existe una variable y sus propios valores previos, bajo el supuesto de que la relación causal del mundo real que afecta a la variable no se conoce y debe ser pronosticada. En otras palabras, el comportamiento futuro de una serie temporal puede inferirse únicamente de su comportamiento pasado. Por lo tanto, dado que los datos de eventos de falla se registran cronológicamente como series temporales, existe una correlación serial inherente entre los puntos temporales (autocorrelación) que puede ser explotada matemáticamente.

El método de Análisis de Series Temporales (TSA) basado en el modelo de media móvil autorregresiva (ARMA) ya ha logrado aplicaciones exitosas en los campos financiero, social y ambiental. Xiekang Wang y Weizhen Lu [4] sugirieron el modelado ARMA para pronosticar el índice de contaminación del aire (API) en Hong Kong. El modelo ARMA es un modelo de series temporales lineales ampliamente utilizado para identificar tendencias y preveer comportamientos futuros; sin embargo, debido a la naturaleza altamente complicada y no estacionaria de los procesos operativos reales, la observación de un conjunto de valores pasados es posiblemente no lineal. Se han realizado investigaciones intensivas para analizar problemas de series temporales no lineales. R. Pino Mejías [5] diseñó un modelo no lineal basado en reglas emergentes de un modelo lineal ajustado. En la literatura [6], el autor utilizó modelos neuronales comparados con el modelo clásico ARMA para pronosticar solicitudes de servicio en centros de soporte (SCs).

En este artículo, se presenta una adaptación metodológica basada en el modelo de Media Móvil Autorregresiva (ARMA) para describir tendencias y pronosticar el Factor de Inoperatividad de Mantenimiento (MDF). A diferencia del marco experimental original concebido bajo datos simulados, este estudio valida la efectividad de las técnicas de transformación implementándolas sobre registros reales de fallas de alta complejidad pertenecientes a la flota de transporte pesado SCANIA (procedentes del IDA 2024 Industrial Challenge). Ante las restricciones de confidencialidad comercial respecto a los tiempos reales de taller en los datos de telemetría, la metodología introduce una estrategia de estimación del Tiempo de Inactividad basada en un Tiempo Medio de Reparación (MTTR) constante por evento de falla, permitiendo derivar el MDF en términos porcentuales dentro de ventanas de tiempo operativo discretizadas (turnos). En la sección II, se revisa la metodología Box-Jenkins del modelo ARMA. En los apartados III y IV, se presenta detalladamente el procedimiento propuesto para el cálculo del MDF y el método de transformación por media móvil de octavo orden para remover la no estacionariedad. La efectividad del procedimiento adaptado se demuestra a través del caso de estudio empírico con la flota SCANIA en la sección V. Finalmente, las principales conclusiones y métricas de desempeño del modelo predictivo resultante se resumen en el apartado VI.

II. METODOLOGÍA

Origen de los Datos Operativos y Registros de Reparación (datos disponibles en [18])

Los datos analizados provienen de los sensores a bordo de una flota de camiones de transporte pesado de SCANIA, diseñados para monitorear parámetros en tiempo real sobre el estado operativo y rendimiento del vehículo. Esta información se almacena en las Unidades de Control Electrónico (ECU) y se recopila mediante telemetría remota o conexiones físicas en talleres. Las inconsistencias de origen en los contadores (causadas por reinicios en las actualizaciones de software de las ECU) son corregidas mediante algoritmos de posprocesamiento post-descarga.

De manera complementaria, los registros de mantenimiento se extraen directamente de las órdenes de trabajo y facturas dentro de la red de talleres oficiales de SCANIA, limitando la muestra de estudio a aquellos vehículos con un historial de servicio completo. La condición de falla en el “Componente X” se determina mediante un enfoque binario: si un componente es reemplazado o marcado como reparado se etiqueta como averiado (in_study_repair = 1), considerándose en buen estado en caso contrario.

Preservación de la Privacidad, Anonimización y Perturbación

Para salvaguardar la confidencialidad industrial y la propiedad intelectual de la empresa proveedora, el conjunto de datos fue sometido a un riguroso proceso de anonimización y enmascaramiento antes de su publicación:

  • Representación Temporal Relativa: Se sustituyeron las marcas de tiempo cronológicas originales por valores de tiempo relativos. Esta modificación permite capturar y modelar los patrones temporales de degradación sin revelar fechas ni horarios específicos.
  • Oclusión de Variables e Identificadores: Los nombres originales de las variables operativas fueron omitidos y las placas o registros de los camiones se reemplazaron por identificadores únicos anónimos. Este identificador permite la integración consistente de los archivos de telemetría con las bases de datos de supervivencia.
  • Perturbación Estocástica y Escalado: Las frecuencias de lectura, tasas de reparación y variables de operación sufrieron perturbaciones matemáticas mediante escalado.

Es fundamental señalar que el proceso de perturbación preserva intactas las tendencias operativas, las estructuras de covarianza y los patrones temporales inherentes de la serie. Por tanto, los datos conservan plenamente su utilidad y validez matemática para el entrenamiento de modelos predictivos y el análisis de series de tiempo.

Estructura del Conjunto de Datos y Criterio de Selección

El ecosistema de información dispuesto para esta investigación se compone originalmente de un total de 9 bases de datos independientes, las cuales segmentan la información operativa y de mantenimiento de la flota en tres conjuntos principales (Entrenamiento, Validación y Prueba):

  • Set de Entrenamiento (Train):
    • train_operational_readouts.csv: Contiene las lecturas de telemetría operativa registradas por los sensores a bordo de los camiones.
    • train_tte.csv: Contiene el historial cronológico de reparaciones y fallas del Componente X, indicando el tiempo hasta el evento (Time-To-Event).
    • train_specifications.csv: Contiene las especificaciones técnicas y características de fábrica de cada vehículo.
  • Set de Validación (Validation):
    • validation_operational_readouts.csv: Registros de sensores utilizados para el ajuste intermedio de hiperparámetros.
    • validation_labels.csv: Etiquetas de falla correspondientes a los vehículos del grupo de validación.
    • validation_specifications.csv: Características técnicas de la subflota de validación.
  • Set de Prueba (Test):
    • test_operational_readouts.csv: Lecturas operativas de sensores destinadas a la evaluación ciega del rendimiento.
    • test_labels.csv: Etiquetas de falla reales del grupo de prueba para contrastar las métricas de predicción.
    • test_specifications.csv: Especificaciones técnicas de los camiones asignados al grupo de prueba.

Con el objetivo de desarrollar el análisis de series temporales y el posterior modelado predictivo de inoperatividad, se decidió trabajar de manera focalizada con la base de datos train_tte.csv, dada su relevancia crítica al concentrar la dimensión temporal del ciclo de vida del activo y los registros históricos de fallas indispensables para estimar el comportamiento secuencial de la flota.

El archivo train_tte.csv contiene de manera específica los registros de reemplazo del Componente X durante el período de estudio para cada vehículo. Este archivo incluye un volumen de 23,550 filas y dos columnas principales:

  1. length_of_study_time_step: Variable que indica el número de pasos de tiempo de operación acumulados después de que el Componente X comenzó a funcionar en el vehículo.
  2. in_study_repair: Variable binaria que actúa como la etiqueta de clase. Se establece en 1 si el Componente X requirió reparación en el tiempo igual a su correspondiente length_of_study_time_step, o toma el valor de 0 en caso de que no ocurra ningún evento de falla o reparación durante dicho intervalo de observación.

Cabe mencionar que el archivo de datos train_tte.csv presenta un marcado desequilibrio de clases, registrando 21,278 ocurrencias de la etiqueta 0 frente a únicamente 2,272 instancias de la etiqueta 1, mostrando un fuerte sesgo hacia la continuidad operativa. La proporción general entre componentes sanos y reparados en el conjunto de entrenamiento se compara de forma visual en la Figura 4a. Asimismo, la Figura 4b ilustra la distribución de los componentes sanos y reparados en su tiempo de observación correspondiente durante la recopilación de datos, definido matemáticamente como el tiempo transcurrido entre la última y la primera lectura registrada para cada vehículo de la flota.

III. REVISIÓN DEL MODELO ARMA

Se ha sugerido que el modelo de media móvil autorregresiva (ARMA) de series temporales propuesto por Box-Jenkins [7] posee aplicaciones fructíferas en el pronóstico de problemas sociales, económicos, de ingeniería y ambientales. Este modelo tiene la ventaja de realizar pronósticos precisos en un corto período de tiempo, y se basa en el supuesto de que los valores futuros de una serie temporal tienen cierta relación con los valores actuales y pasados.

El modelo Box-Jenkins ARMA (\(p, q\)) es una de las técnicas más tradicionales en el análisis de series temporales. El modelo asumido tiene la forma:

\[y_t - \phi_1 y_{t-1} - \phi_2 y_{t-2} - \dots - \phi_p y_{t-p} = e_t + \theta_1 e_{t-1} + \theta_2 e_{t-2} + \dots + \theta_q e_{t-q} \quad (1)\]

Donde \(y_t\) es la variable a predecir utilizando muestras anteriores de la serie temporal, \(e_{(i)}\) denota una secuencia de errores y \(c\) (o \(e_t\) en algunas notaciones) es un desplazamiento constante. Se asume que los \(e_{(i)}\) son variables aleatorias normales e independientes idénticamente distribuidas (i.i.d.) con media 0 y varianza \(\sigma^2\). Básicamente, el modelo ARMA consta de dos partes: una es la autorregresiva (AR), que involucra coeficientes \(\phi_i (i=1, \dots, p)\), lo cual refleja la relación entre \(y_t\) y los valores pasados de la serie temporal; la otra es la de media móvil (MA), que involucra coeficientes \(\theta_i (i=1, \dots, q)\), la cual representa la relación entre \(y_t\) y los residuos (errores cometidos en la predicción de la serie temporal).

Parte Autoregresiva AR(p):

\[y_t = \phi_1 y_{t-1} + \phi_2 y_{t-2} - \dots - \phi_p y_{t-p} + e_t \] Media Móvil MA(q):

\[y_t = e_t + \theta_1 e_{t-1} + \theta_2 e_{t-2} + \dots + \theta_q e_{t-q} \quad (1)\]

Siguiendo la descripción de Schlittgen [8] y Schlittgen y Streitberg [9], el procedimiento de predicción puede subdividirse en cinco pasos principales. Los 5 pasos básicos son:

  1. Verificación de la estacionariedad de los datos.
  2. Identificación de la estructura del modelo.
  3. Estimación de los parámetros del modelo.
  4. Verificación diagnóstica de los residuos del modelo.
  5. Pronóstico (Forecasting).

IV. TRANSFORMACIÓN DE DATOS

En el análisis de series temporales, se supone que la serie graficada debe ser estrictamente estacionaria, lo que significa que la distribución estadística de cualquier secuencia debe ser estrictamente constante. Es decir, la distribución de probabilidad conjunta en cualquier conjunto de tiempos \(t_1, \dots, t_m\) debería ser la misma que la distribución de probabilidad conjunta en los tiempos \(t_{1+k}, \dots, t_{m+k}\), para todos los enteros \(m\) y \(k\). Sin embargo, debido a la naturaleza no estacionaria de los equipos en los procesos de fabricación, la observación de un conjunto de valores pasados es aleatoria y posiblemente no estacionaria, lo cual puede ser probado mediante diversos enfoques de series, siendo el método de rachas (run test) el más comúnmente utilizado. Se han realizado numerosas investigaciones intensivas para determinar si existía alguna tendencia en los datos, ya fuera mínima o significativa, y los datos se hicieron estacionarios eliminando dicha tendencia (de-trending). El método comúnmente utilizado para eliminar la tendencia existente es el Método de Diferenciación. Más allá de esto, se utiliza la Regresión Lineal; ver Joachim Gröger y Heye Rumohr [10]. Estos métodos o bien no son lo suficientemente efectivos, o resultan algo complicados, por lo que ideamos un método simple de transformación de datos que puede resolver adecuadamente el problema mencionado anteriormente. Considerando que el rendimiento de otros dispositivos en la planta o algunas razones objetivas afectan frecuentemente el desempeño del equipo, tomamos en cuenta el tiempo productivo total. Se definió un indicador MF y se creó una función de transferencia utilizando porcentajes como:

\[Falla\ de\ la\ Máquina(MF) = \frac{Tiempo\ de\ Inactividad}{Tiempo\ de\ Inactividad + Tiempo\ Productivo} \times 100\% \quad (2)\]

La implementación de este enfoque en una base de datos industrial real, como el registro de telemetría de la flota SCANIA, introduce desafíos metodológicos únicos que exigen una profunda adaptación del marco original. A diferencia del artículo original —diseñado para evaluar una única máquina fija sometida a periodos de tiempo uniformes y controlados—, el entorno de SCANIA comprende miles de vehículos cuyos eventos de falla se registran mediante una variable continua de tiempo hasta el evento (length_of_study_time_step). Para resolver esta discrepancia y estructurar una serie de tiempo analizable, esta investigación propone dos transformaciones fundamentales:

  1. Discretización Temporal Operativa: Los datos continuos de inactividad de toda la flota se agruparon en ventanas de tiempo discretas regularizadas denominadas “Turnos” (intervalos de 10 unidades de tiempo operativo).

  2. Enfoque de Tiempo Medio de Reparación Constante (Constant MTTR): Ante las restricciones de confidencialidad comercial que impiden conocer la duración exacta de cada reparación individual en taller, se recurre a un principio fundamental de la ingeniería de confiabilidad. Se asume que el reemplazo o mantenimiento del “Componente X” requiere, en promedio, una cantidad fija de tiempo estandarizada (\(K\) estipulada en los temparios de reparación de fabrica).

Bajo este esquema robusto, se establece matemáticamente que cada evento de falla registrado consume una constante de \(K = 1\) paso de tiempo operativo de inactividad. En consecuencia, el comportamiento operativo de los activos agregados por cada turno se modela a través de las siguientes variables de estado:

\[\text{Tiempo de Inactividad Total (Downtime)} = \text{Camiones Con Falla} \times K \quad (\text{donde } K = 1)\] \[\text{Tiempo Operativo Total (Uptime)} = \text{Camiones Sin Falla} \times 10 \text{ unidades de tiempo}\]

A partir de estas variables, se define el Factor de Inoperatividad por Mantenimiento MDF (Maintenance Downtime Factor) como una función de transferencia porcentual indexada por turno:

\[MDF = \frac{\text{Tiempo de Inactividad Total}}{\text{Tiempo de Inactividad Total} + \text{Tiempo Operativo Total}} \times 100\% \quad (2)\]

Es crucial destacar la validez matemática y estadística de esta aproximación para el modelado autorregresivo. Multiplicar el volumen discreto de fallas por una constante de escala \(K\) modifica la magnitud de la serie, pero preserva de manera exacta su morfología estructural, sus puntos de inflexión y sus propiedades de autocorrelación. En teoría esta transformación lineal no altera los resultados de las pruebas de raíces unitarias (como la prueba aumentada de Dickey-Fuller) ni sesga la selección de los órdenes óptimos \((p, q)\) del modelo estadístico.

Posteriormente, se aplica un filtro de media móvil de octavo orden a la secuencia transformada de MDF. El vector de datos se segmenta en subgrupos móviles de 8 periodos para calcular su comportamiento suavizado. Finalmente, la serie temporal residual (\(u_i\)) se deriva restando formalmente los valores de la media móvil \(\text{MA}(8)\) a los datos de entrada originales del MDF. Esta serie residual resultante, completamente libre de tendencias deterministas y componentes no estacionarios, constituye la materia prima definitiva para la construcción, estimación y ajuste del modelo estocástico ARMA.

V. MODELADO ARMA

El Paso 1 se llevó a cabo para identificar la estructura del modelo mediante la elección de dos funciones de muestreo especiales y la estimación de los valores de los parámetros del modelo de series temporales. Estas dos funciones fueron la función de autocorrelación simple (ACF) y la función de autocorrelación parcial (PACF). Por diversas razones estadísticas descritas en detalle por Schlittgen y Streitberg [9], utilizamos un intervalo de confianza del 95% para evaluar la ACF y la PACF; aquellos picos que sobresalían de estos límites se consideraron significativos. Posteriormente, no solo se pudo estimar la estructura del modelo (ya fuera compuesto por AR, MA o una combinación de ambos), sino también los valores de los parámetros del modelo. La Tabla I resume el comportamiento esperado de las funciones ACF y PACF en relación con el tipo de proceso.

PATRON DE ACF Y PACF SEGUN EL TIPO DE PROCESO
ACF PACF
AR Decae exponencialmente o en ondas sinusoidales Cae a cero despues del rezago p
MA Cae a cero despues del rezago q Decae exponencialmente o en ondas sinusoidales
ARMA Decae exponencialmente o en ondas sinusoidales Decae exponencialmente o en ondas sinusoidales
  1. Paso 2: Para ayudar aún más en la identificación del modelo ARMA adecuado, hay dos criterios de información generales disponibles para su justificación, es decir, el Criterio de Información de Akaike (AIC) [11]

\[AIC = -2 \log(\hat{L}) + 2k \quad (3)\]

Donde \(\hat{L}\) es la función de log-verosimilitud optimizada para el modelo de riesgos proporcionales, y \(k\) es el número de parámetros desconocidos. Y el criterio Bayesiano de Schwarz (llamado SBC o BIC) [12]:

\[SBC(k) = \ln(Var(u)_k) + \frac{2((k)\ln(N))}{N} \quad (4)\] donde \(\hat{L}\) es la función de log-verosimilitud optimizada para el modelo de riesgos proporcionales y \(k\) es el número de parámetros desconocidos; y el criterio Bayesiano de Schwarz (llamado SBC o BIC) [12], donde \(Var(u)_k\) es la varianza muestral estimada a partir de los residuos, \(k\) es el número de parámetros en el modelo, \(u\) representa los residuos y \(N\) es el tamaño de la muestra (longitud de la serie temporal completa). Esto fue necesario debido a que el AIC está disponible para modelos autorregresivos, mientras que el SBC/BIC se utiliza comúnmente. A diferencia de otras medidas comunes de bondad de ajuste (como el coeficiente de determinación), estos dos criterios de información tienen en cuenta el hecho de que el número de parámetros a estimar cambia simultáneamente y de forma automática con el número de términos en un modelo, incorporando un término de penalización. Dado que el término de penalización es algo arbitrario, siempre es una buena práctica utilizar más de un criterio. El mejor modelo se indica mediante los valores más bajos de AIC y SBC/BIC. Para más detalles estadísticos, véanse Schlittgen [8] y Schlittgen y Streitberg [9]. Eisenblätter [13] ofrece una discusión más general sobre los criterios de información.

  1. El Paso 3 se llevó a cabo para verificar si el residuo del modelo es ruido blanco y normal, o si está autocorrelacionado. Schlittgen y Streitberg [9] han propuesto que el estadístico de prueba de Durbin-Watson generalizado, basado en los residuos estimados \(u\), podría indicar el posible orden de los residuos autocorrelacionados.

\[DW = \frac{\sum (u_t - u_{t-l})^2}{\sum u_t^2} \quad \text{with } l=1, 2, \dots, L \quad (5)\] Sin embargo, seguimos utilizando la ACF y la PACF para identificar el proceso subyacente en detalle, comparando los valores estimados de ACF y PACF derivados de nuestros datos de series temporales con los teóricos proporcionados en Schlittgen [8].

La ACF se define como:

\[ACF = Corr(Y_t, Y_{t-1}) \quad \text{with } -max\ lag\ \text{to}\ max\ lag \quad (6)\] Y la PACF se obtiene mediante la recursión de Levinson-Durbin; véase Schlittgen y Streitberg [9]. Al igual que en el paso 2, utilizamos un intervalo de confianza del 95%. Es importante resaltar, que el artículo original presenta errores tipográficos en la notación de los índices (como la repetición de términos idénticos en la sumatoria), la evaluación estadísticamente correcta de la ACF sigue la fórmula de Bartlett [14]:

\[\pm 2 \left( \frac{1 + (Corr(Y_t, Y_{t-1})^2 + Corr(Y_t, Y_{t-2})^2 + \dots + Corr(Y_t, Y_{t-k})^2)}{N} \right)^{1/2} \quad (7)\]

La PACF se define basándose en el intervalo asintótico constante \(\pm 1/N^{1/2}\), donde \(1/N^{1/2}\) es el error estándar; véase Joachim Gröger y Heye Rumohr [10], y también Schlittgen y Streitberg [9]. Se considera que los picos de la ACF y PACF que sobresalen de los límites indican la presencia de alguna autocorrelación.

El Paso 4 consistió en pronosticar los valores futuros del MF basándose en el modelo final estimado en el paso (3) mediante una predicción de un paso adelante. Al mismo tiempo, con el fin de evaluar el desempeño del modelo, se ha realizado una comparación entre el modelo y la realidad.

Dado que llevamos a cabo todo el análisis mediante SPSS Inc. (Versión 10.0), nuestra notación sigue la de Wei Xue [15].

VI. CASO DE ESTUDIO

Para que el modelo matemático ARMA funcione de manera correcta y confiable, la teoría recomienda usar una buena cantidad de datos, idealmente más de 50 o 100 observaciones. En esta investigación se procesó un extenso registro histórico real perteneciente a la flota de camiones SCANIA. Como estos datos venían en bruto y de forma masiva, se organizaron y agruparon en bloques fijos de 10 unidades de tiempo, lo que dio como resultado un total de 45 turnos de operación. Aunque 45 es un número un poco menor al recomendado por la teoría, cada uno de estos turnos es muy valioso porque agrupa la información y las fallas de miles de camiones reales trabajando en el campo. Esta serie de datos ya organizada fue la que se usó para entrenar el modelo y realizar los pronósticos. Con el fin de hacer la lectura más rápida, a continuación en la Tabla 2 se muestran únicamente los primeros 20 turnos de la historia.

Registro Histórico de Tiempos - SCANIA (Primeras 20 observaciones)
Turno Intervalo (ut) Camiones en Turno Camiones Con Falla Camiones Sin Falla
1 [70, 80) 21 21 0
2 [80, 90) 45 45 0
3 [90, 100) 67 67 0
4 [100, 110) 76 76 0
5 [110, 120) 82 82 0
6 [120, 130) 762 81 681
7 [130, 140) 1324 94 1230
8 [140, 150) 2292 121 2171
9 [150, 160) 860 85 775
10 [160, 170) 1004 94 910
11 [170, 180) 1333 102 1231
12 [180, 190) 1006 82 924
13 [190, 200) 765 94 671
14 [200, 210) 892 115 777
15 [210, 220) 1519 169 1350
16 [220, 230) 622 74 548
17 [230, 240) 571 67 504
18 [240, 250) 602 65 537
19 [250, 260) 543 59 484
20 [260, 270) 485 62 423
Medidas descriptivas de las variables operativas de la Flota SCANIA (45 turnos)
Variable Operativa Total Acumulado Media Mediana Desv. Est. Mínimo Máximo
Camiones en Turno 23550 523.33 571 477.08 1 2292
Camiones Con Falla 2272 50.49 48 41.96 0 169
Camiones Sin Falla 21278 472.84 498 445.03 0 2171
Comparativa de Camiones Con Falla vs. Sin Falla y Serie Temporal Operativa de la Flota SCANIA

Comparativa de Camiones Con Falla vs. Sin Falla y Serie Temporal Operativa de la Flota SCANIA

La visualización conjunta de la serie temporal y el diagrama de barras dobles resulta fundamental para contrastar, de manera directa y cronológica turno por turno, el volumen de vehículos operativos saludables frente a aquellos que reportaron averías dentro de la flota SCANIA. Esta representación revela de forma inmediata que los camiones sin falla superan abrumadoramente a las unidades averiadas en prácticamente toda la serie histórica, demostrando que la tasa de fallas se mantiene controlada bajo un comportamiento estocástico y no escala de forma proporcional con el incremento masivo del flujo total en los talleres. Al analizar la interacción de esta distribución con la dinámica operativa, se hace evidente que los picos extraordinarios de demanda registrados en los turnos de mayor congestión corresponden a una afluencia de unidades sanas y no a un colapso del sistema por roturas concurrentes, lo cual desmitifica las fluctuaciones extremas de la serie original. Asimismo, la drástica anomalía observada en los primeros cinco turnos, donde el volumen de actividad era insignificante y la proporción de fallas se encontraba totalmente invertida, aporta la evidencia empírica necesaria para catalogar matemáticamente este periodo inicial como una fase de arranque atípico. En consecuencia, la combinación de ambas perspectivas gráficas no solo retrata la realidad operativa de la flota, sino que valida metodológicamente la necesidad de aislar esta fase de inestabilidad inicial mediante un análisis de cuartiles y modelado de residuos para poder ajustar de manera robusta el pronóstico en su etapa de comportamiento estable.

Es importante notar que la base de datos original de SCANIA no especifica de forma directa el tiempo de inoperatividad de los equipos en minutos u horas, sino que reporta el conteo diario de unidades. Por lo tanto, se hace necesario calcular este indicador a partir de los datos disponibles. Bajo este esquema, se establece matemáticamente que cada evento de falla registrado consume una constante de \(K = 1\) paso de tiempo operativo de inactividad, ya que todos los camiones son intervenidos por el misimo componente X su tiempo será igual o muy cercano:

\[\text{Tiempo de Inactividad Total (Downtime)} = \text{Camiones Con Falla} \times K \quad (\text{donde } K = 1)\]\[\text{Tiempo Operativo Total (Uptime)} = \text{Camiones Sin Falla} \times 10 \text{ unidades de tiempo}\] Definido el MDF anteriormente, se presenta a continuación el ejemplo para dos de las observaciones: \[MDF= \frac{\text{Tiempo de Inactividad Total}}{\text{Tiempo de Inactividad Total} + \text{Tiempo Operativo Total}} \times 100\% \quad (2)\] Caso 1: Evaluación del Turno 1 (Falla Absoluta de la Flota)

\[\begin{aligned} \text{Tiempo de Inactividad} &= 21 \times 1 = 21 \\ \text{Tiempo Operativo} &= 0 \times 10 = 0 \\ MDF_{1} &= \frac{21 \times 1}{(21 \times 1) + (0 \times 10)} \times 100\% \\ MDF_{1} &= \frac{21}{21 + 0} \times 100\% \\ MDF_{1} &= \frac{21}{21} \times 100\% \\ MDF_{1} &= 100\% \end{aligned}\]

Caso 2: Evaluación del Turno 8 (Alta Disponibilidad Operativa)

\[\begin{aligned} \text{Tiempo de Inactividad} &= 121 \times 1 = 121 \\ \text{Tiempo Operativo} &= 2,171 \times 10 = 21,710 \\ MDF_{8} &= \frac{121 \times 1}{(121 \times 1) + (2,171 \times 10)} \times 100\% \\ MDF_{8} &= \frac{121}{121 + 21,710} \times 100\% \\ MDF_{8} &= \frac{121}{21,831} \times 100\% \\ MDF_{8} &= 0.554\% \end{aligned}\]

de esta forma calculados para los 45 turnos, sus resultados se presentan a continuación en tabla 3:

Estimación del Factor de Inoperatividad por Mantenimiento (MDF) (Primeras 20 observaciones)
Turno Intervalo (ut) T. Inactivo T. Operativo MDF (%)
1 [70, 80) 21 0 100.000
2 [80, 90) 45 0 100.000
3 [90, 100) 67 0 100.000
4 [100, 110) 76 0 100.000
5 [110, 120) 82 0 100.000
6 [120, 130) 81 6810 1.175
7 [130, 140) 94 12300 0.758
8 [140, 150) 121 21710 0.554
9 [150, 160) 85 7750 1.085
10 [160, 170) 94 9100 1.022
11 [170, 180) 102 12310 0.822
12 [180, 190) 82 9240 0.880
13 [190, 200) 94 6710 1.382
14 [200, 210) 115 7770 1.458
15 [210, 220) 169 13500 1.230
16 [220, 230) 74 5480 1.332
17 [230, 240) 67 5040 1.173
18 [240, 250) 65 5370 1.080
19 [250, 260) 59 4840 1.087
20 [260, 270) 62 4230 1.278

Obtenida la base con los datos transformados se procede a verificar su estasionariedad visualmente en la Fig. 2.

Serie Temporal del MDF Original (Antes de Transformar)

Serie Temporal del MDF Original (Antes de Transformar)

Al observar la gráfica se nota de inmediato un cambio muy abrupto al principio del Turno 5 al Turno 6: durante los primeros 5 turnos el indicador se estanca en el 100% porque todos los camiones reportados fallaron, pero a partir del turno 6 la inoperatividad se desploma por completo y se estabiliza por debajo del 1.5%. A plena vista se nota que la media de esos primeros 5 turnos rompe por completo la uniformidad de los datos. Este comportamiento atípico inicial es la justificación perfecta para demostrar que la serie en bruto no es constante y que obligatoriamente necesitamos aplicar el filtro de Media Móvil MA(8) para limpiar este salto antes de meter los datos al modelo ARMA.

Para suavizar la serie y eliminar el salto drástico de los primeros turnos, se aplica un filtro de Media Móvil Centrada de orden 8 (MA8). La fórmula matemática para calcular el valor promedio en cada turno \(t\) es:

\[MA(8)_t = \frac{MDF_{t-3} + MDF_{t-2} + MDF_{t-1} + MDF_t + MDF_{t+1} + MDF_{t+2} + MDF_{t+3} + MDF_{t+4}}{8}\] Una vez obtenido este promedio móvil, se procede a extraer la Serie de Residuos (\(u_t\)). Esta operación remueve la tendencia general y los valores atípicos, aislando únicamente las variaciones estacionarias que el modelo ARMA necesita para pronosticar. La fórmula de los residuos es:

\[u_t = MDF_t - MA(8)_t\] Dando como resultados el conjunto de datos presentado en la tabla 4.

Estimación del MDF, MA(8) y Serie Residual
Turno Intervalo T. Inactivo T. Operativo MDF (%) MA(8) Residuos
1 [70, 80) 21 0 100.000 NA NA
2 [80, 90) 45 0 100.000 NA NA
3 [90, 100) 67 0 100.000 NA NA
4 [100, 110) 76 0 100.000 NA NA
5 [110, 120) 82 0 100.000 NA NA
6 [120, 130) 81 6810 1.175 NA NA
7 [130, 140) 94 12300 0.758 NA NA
8 [140, 150) 121 21710 0.554 62.811 -62.257
9 [150, 160) 85 7750 1.085 50.446 -49.361
10 [160, 170) 94 9100 1.022 38.074 -37.052
11 [170, 180) 102 12310 0.822 25.677 -24.855
12 [180, 190) 82 9240 0.880 13.287 -12.407
13 [190, 200) 94 6710 1.382 0.960 0.422
14 [200, 210) 115 7770 1.458 0.995 0.463
15 [210, 220) 169 13500 1.236 1.055 0.181
16 [220, 230) 74 5480 1.332 1.152 0.180
17 [230, 240) 67 5040 1.312 1.181 0.131
18 [240, 250) 65 5370 1.196 1.202 -0.006
19 [250, 260) 59 4840 1.204 1.250 -0.046
20 [260, 270) 62 4230 1.445 1.321 0.124
21 [270, 280) 84 4980 1.659 1.355 0.304
22 [280, 290) 114 7370 1.523 1.363 0.160
23 [290, 300) 65 6080 1.058 1.341 -0.283
24 [300, 310) 48 5250 0.906 1.288 -0.382
25 [310, 320) 46 5870 0.778 1.221 -0.443
26 [320, 330) 52 7650 0.675 1.156 -0.481
27 [330, 340) 39 5700 0.680 1.091 -0.411
28 [340, 350) 41 5500 0.740 1.002 -0.262
29 [350, 360) 35 5790 0.601 0.870 -0.269
30 [360, 370) 31 5810 0.531 0.746 -0.215
31 [370, 380) 7 3800 0.184 0.637 -0.453
32 [380, 390) 16 2900 0.549 0.592 -0.043
33 [390, 400) 10 3280 0.304 0.533 -0.229
34 [400, 410) 3 2430 0.123 0.464 -0.341
35 [410, 420) 8 1660 0.480 0.439 0.041
36 [420, 430) 7 1640 0.425 0.400 0.025
37 [430, 440) 2 1320 0.151 0.343 -0.192
38 [440, 450) 1 800 0.125 0.293 -0.168
39 [450, 460) 3 500 0.596 0.344 0.252
40 [460, 470) 0 750 0.000 0.276 -0.276
41 [470, 480) 3 610 0.489 0.299 0.190
42 [480, 490) 2 470 0.424 0.336 0.088
43 [490, 500) 0 330 0.000 0.276 -0.276
44 [500, 510) 0 120 0.000 0.223 -0.223
45 [510, 520) 0 10 0.000 0.204 -0.204

Para identificar de forma objetiva los valores atipicos (outliers) en la serie de residuos de la flota SCANIA, se aplico la metodologia del Rango Intercuartilico (IQR) y su visualización con un diagrama de cajas y bigotes (Boxplot).

Analisis de cuartiles y limites de deteccion de valores atipicos
Medida Estadistica Valor
Media -4.962
Desviación 14.260
Cuartil 1 (Q1 - 25%) -0.372
Cuartil 2 (Q2 - Mediana) -0.210
Cuartil 3 (Q3 - 75%) 0.115
Rango Intercuartilico (IQR) 0.487
Limite Inferior -1.102
Limite Superior 0.845
Identificación de Outliers y simetría

Identificación de Outliers y simetría

Si bien es notorio la presencia de outliers por medio de diagrama de cajas y bigotes, en el histograma se puede ver el efecto de que generan los datos crudos sobre la distribución de los mismos, marcando una clara asimetría negativa con una alta desviación estándar.

Evidencia visual de Estacionariedad alrededor de la Media Teorica (0)

Evidencia visual de Estacionariedad alrededor de la Media Teorica (0)

La verificación de estacionariedad de nuestra serie simulada no fue superada completamente con éxito mediante la tetecnica de Medias Móvil MA(8), tal como see observa en la Fig. 4.

Se procede a realizar la Prueba de Rachas (Run Test), para confirmar matemáticamnete la teacionariedad. Arrojando los siguinetes resultados como se muestran el la Tabla 7:

Resultado de la Prueba de Rachas (Run Test) para Estacionariedad
Parámetro Serie Residual (Datos Reales)
Valor de prueba (Mediana) -0.2095
Casos < Valor de prueba 19
Casos >= Valor de prueba 19
Total de casos 38
Número de rachas 10
Z -3.289
Sig. asintot. (bilateral) 0.001

Para evaluar la estructura estocástica de la serie residual y validar la necesidad de un modelado autorregresivo, se aplicó la Prueba de Rachas (Run Test) utilizando la mediana de la serie (-0.2095) como punto de corte. Los resultados estadísticos revelan una división simétrica de la muestra operacional con 19 observaciones inferiores a la mediana y 19 observaciones superiores, consolidando un tamaño muestral efectivo de \(N = 38\) turnos residuales.La prueba registró un total de únicamente 10 rachas observadas.

Esto se traduce en un estadístico estandarizado \(Z = -3.289\) y una Significancia asintótica bilateral de 0.001.

Dado que el valor p (\(p = 0.001\)) es significativamente inferior al nivel de significancia crítico convencional (\(\alpha = 0.05\)), se rechaza categóricamente la hipótesis nula (\(H_0\)) de aleatoriedad o independencia pura en los residuos. Por tal motivo el ARMA(2,2) es insuficiente para estos datos, por lo cual se recomeinda migrar a un modelo mas avanzado. Lo cual cambia un poco la metodología del artículo original pero se busca obtener el mejor pronóstico real posible.

Modelo ARIMA (2,1,2)

La ecuación matemática generalizada del modelo se define formalmente como:

\[W_t = \mu + \phi_1 W_{t-1} + \phi_2 W_{t-2} + \dots + \phi_p W_{t-p} + a_t - \theta_1 a_{t-1} - \theta_2 a_{t-2} - \dots - \theta_q a_{t-q}\]

Donde:

  • \(W_t\) (Componente Integrado \(d\)): Es la serie original transformada mediante \(d\) diferenciaciones sucesivas para alcanzar la estacionariedad. Para una primera diferencia (\(d=1\)), se define como:

\(W_t = \Delta Y_t = Y_t - Y_{t-1}\)

  • \(\phi_1, \phi_2, \dots, \phi_p\) (Componente Autorregresivo \(\text{AR}(p)\)): Coeficientes que cuantifican la influencia o memoria lineal de los \(p\) valores pasados de la propia serie diferenciada.
  • \(\theta_1, \theta_2, \dots, \theta_q\) (Componente de Media Móvil \(\text{MA}(q)\)): Coeficientes que ponderan la persistencia de los \(q\) choques aleatorios o errores de predicción pasados.
  • \(a_t\) (Ruido Blanco): El término de error contemporáneo en el momento \(t\), el cual se asume idéntica e independientemente distribuido con media cero y varianza constante:\[a_t \sim \text{NID}(0, \sigma_a^2)\]

En la Tabla 8, se presenta la serie diferenciada y los residuos del nuevo modelo actualizado.

Evolución y Diagnóstico: Serie Diferenciada y Residuos ARIMA(2,1,2)
Turno Intervalo MDF (%) Diff MDF (W_t) Residuos ARIMA
1 [70, 80) 100.000 NA 0.100
2 [80, 90) 100.000 0.000 0.000
3 [90, 100) 100.000 0.000 0.000
4 [100, 110) 100.000 0.000 0.000
5 [110, 120) 100.000 0.000 0.000
6 [120, 130) 1.175 -98.825 -98.825
7 [130, 140) 0.758 -0.417 -0.010
8 [140, 150) 0.554 -0.204 -0.010
9 [150, 160) 1.085 0.531 0.532
10 [160, 170) 1.022 -0.063 -0.065
11 [170, 180) 0.822 -0.200 -0.201
12 [180, 190) 0.880 0.058 0.059
13 [190, 200) 1.382 0.502 0.502
14 [200, 210) 1.458 0.076 0.074
15 [210, 220) 1.236 -0.222 -0.223
16 [220, 230) 1.332 0.096 0.097
17 [230, 240) 1.312 -0.020 -0.020
18 [240, 250) 1.196 -0.116 -0.116
19 [250, 260) 1.204 0.008 0.009
20 [260, 270) 1.445 0.241 0.241
21 [270, 280) 1.659 0.214 0.213
22 [280, 290) 1.523 -0.136 -0.137
23 [290, 300) 1.058 -0.465 -0.465
24 [300, 310) 0.906 -0.152 -0.150
25 [310, 320) 0.778 -0.128 -0.126
26 [320, 330) 0.675 -0.103 -0.102
27 [330, 340) 0.680 0.005 0.006
28 [340, 350) 0.740 0.060 0.060
29 [350, 360) 0.601 -0.139 -0.139
30 [360, 370) 0.531 -0.070 -0.070
31 [370, 380) 0.184 -0.347 -0.346
32 [380, 390) 0.549 0.365 0.367
33 [390, 400) 0.304 -0.245 -0.246
34 [400, 410) 0.123 -0.181 -0.181
35 [410, 420) 0.480 0.357 0.358
36 [420, 430) 0.425 -0.055 -0.056
37 [430, 440) 0.151 -0.274 -0.274
38 [440, 450) 0.125 -0.026 -0.025
39 [450, 460) 0.596 0.471 0.472
40 [460, 470) 0.000 -0.596 -0.598
41 [470, 480) 0.489 0.489 0.491
42 [480, 490) 0.424 -0.065 -0.066
43 [490, 500) 0.000 -0.424 -0.425
44 [500, 510) 0.000 0.000 0.002
45 [510, 520) 0.000 0.000 0.001

A continuación en la Tabla 9, se confirmará con la prueba AIC y SBC los candidatos de los cual reaultara el modelo adecuano a nuestros datos.

Evaluación de resultados y criterios de información de los modelos ARIMA candidatos bajo datos reales de la flota SCANIA
Estructura del modelo AIC SBC (BIC)
ARIMA(1,1,1) 368.59 373.94
ARIMA(1,1,2) 370.59 377.73
ARIMA(1,1,3) 372.59 381.51
ARIMA(2,1,1) 370.59 377.73
ARIMA(2,1,2) 372.59 381.51
ARIMA(2,1,3) 374.59 385.29
ARIMA(3,1,1) 372.59 381.51
ARIMA(3,1,2) 374.59 385.29
ARIMA(3,1,3) 376.59 389.08

De los resultados obtenidos en la Tabla 9, se logra evidenciar que el modelo ARIMA(1,1,1) se consolida como la estructura óptima global para representar el comportamiento operativo de la flota SCANIA, al registrar los valores más bajos en ambos criterios de selección con un AIC de 368.59 y un SBC (BIC) de 373.94. Al contrastar estos indicadores con especificaciones más complejas, como el modelo inicial ARIMA(2,1,2) (AIC: 372.59; SBC: 381.51). Por consiguiente, fundamentado en el principio metodológico de parsimonia, el modelo ARIMA(1,1,1) garantiza el equilibrio ideal entre la precisión matemática de ajuste y la simplicidad estructural requerida para la modelación de la serie.

Ahora aplicamos la prueba de rachas (Run Test) para confirmar matemáticamente la estacionariedad del nuevo modelo ARIMA(1,1,1).

Resultado de la Prueba de Rachas (Run Test) para Residuos del Modelo Seleccionado ARIMA(1,1,1)
Parámetro Serie Residual ARIMA(1,1,1)
Valor de prueba (Mediana) -0.0204
Casos < Valor de prueba 22
Casos >= Valor de prueba 23
Total de casos 45
Número de rachas 23
Z -0.148
Sig. asintot. (bilateral) 0.883

Al aplicar la Prueba de Rachas sobre los residuos del modelo óptimo ARIMA(1,1,1) —seleccionado rigurosamente mediante la minimización de los criterios de información AIC (\(368.59\)) y SBC/BIC (\(373.94\))—, se obtuvieron un total de \(23\) rachas distribuidas simétricamente alrededor de un valor de prueba (mediana) de \(-0.0204\) sobre los \(45\) casos analizados.

Este comportamiento derivó en un estadístico \(Z = -0.148\) y una significancia asintótica bilateral (\(p\text{-valor}\)) de \(0.883\).

Dado que este nivel de significancia es notablemente superior al umbral estándar de \(0.05\), no existe evidencia estadística suficiente para rechazar la hipótesis nula de aleatoriedad.

Esto demuestra formalmente que los errores de predicción de la estructura ARIMA(1,1,1) se distribuyen de manera puramente aleatoria, confirmando que la serie residual se ha transformado con éxito en ruido blanco estacionario y que el modelo ha logrado capturar eficientemente toda la estructura de información y dependencia temporal presentes en el indicador operativo MDF de la flota SCANIA.Sustento Teórico del ContrasteHipótesis de la Prueba de Rachas:

\[\begin{cases} H_0: & \text{Los residuos son aleatorios (Serie Estacionaria / Ruido Blanco).} \\ H_1: & \text{Los residuos NO son aleatorios (Presencia de autocorrelación o patrones).} \end{cases}\]

Regla de Decisión:

Si \(p\text{-valor} < 0.05 \rightarrow\) Se rechaza \(H_0\) (La serie no es aleatoria ni estacionaria). Si \(p\text{-valor} \ge 0.05 \rightarrow\) No se rechaza \(H_0\) (La serie es aleatoria y estacionaria).

Valores de ACF y PACF de 38 series de tiempo transformadas de MDF

Valores de ACF y PACF de 38 series de tiempo transformadas de MDF

El comportamiento de las funciones de autocorrelación ACF y PACF mostradas en la Fig. 5, demuestra de forma inequívoca que los residuos del modelo ARIMA(1,1,1) carecen de cualquier tipo de estructura predictiva o patrón sistemático. Al encontrarse el 100% de las barras de rezago dentro de los intervalos de confianza teóricos, se valida visualmente el supuesto fundamental de Ruido Blanco y Estacionariedad.

La estructura general del modelo ARIMA(1,1,1) seleccionado se define mediante la siguiente ecuación en diferencias:

\[W_t = c + \phi_1 W_{t-1} + \varepsilon_t + \theta_1 \varepsilon_{t-1}\] Donde \(W_t\) representa la serie del indicador MDF transformada mediante una primera diferencia lineal para alcanzar la estacionariedad (\(W_t = \Delta Y_t = Y_t - Y_{t-1}\)), mientras que \(c\) denota la constante o intercepto del modelo. El término \(\phi_1\) corresponde al coeficiente autorregresivo (AR) de orden 1, \(\theta_1\) es el coeficiente de media móvil (MA) de orden 1, y \(\varepsilon_t\) representa el término de error de ruido blanco en el tiempo dado \(t\).

Desarrollando matemáticamente el modelo seleccionado ARIMA(1,1,1) bajo el enfoque de Máxima Verosimilitud (ML), se establecen las siguientes condiciones de la serie útil de la flota SCANIA:

Tamaño de la muestra (\(N\)): 45 turnos operativos. Número de parámetros (\(k\)): 3 (\(\phi_1\) y \(\theta_1\) correspondientes a los rezagos estocásticos del proceso, más la varianza del error \(\sigma^2\) del sistema).

Varianza residual de Máxima Verosimilitud (\(\hat{\sigma}^2\)): Es estimada directamente a partir de la Suma de Cuadrados de los Residuos (\(SSR\)) generados por la interacción del modelo, calculada formalmente mediante la ecuación:

\[\hat{\sigma}^2 = \frac{SSR}{N} = \frac{\sum_{t=1}^{45} \hat{e}_t^2}{45} \approx \mathbf{12.3846}\]1.

Desarrollo del Criterio de Información de Akaike (AIC)

\[AIC = N \cdot \ln(2\pi) + N + N \cdot \ln(\hat{\sigma}^2) + 2k\] \[AIC = 45 \cdot \ln(2\pi) + 45 + 45 \cdot \ln(12.3846) + 2(3)\] Considerando las aproximaciones logarítmicas neperianas correspondientes:

\(\ln(2\pi) \approx 1.83787\) y \(\ln(12.3846) \approx 2.51645\)$

\[AIC = 45 \cdot (1.83787) + 45 + 45 \cdot (2.51645) + 6\] \[AIC = 82.70 + 45 + 113.24 + 6\] \[AIC = 240.94 + 121.65 + 6 = \mathbf{368.59}\]

  1. Desarrollo del Criterio Bayesiano de Schwarz (SBC / BIC)

\[SBC = N \cdot \ln(2\pi) + N + N \cdot \ln(\hat{\sigma}^2) + k \cdot \ln(N)\] \[SBC = 45 \cdot \ln(2\pi) + 45 + 45 \cdot \ln(12.3846) + 3 \cdot \ln(45)\]

Utilizando el valor acumulado de la log-verosimilitud gaussiana base (\(362.59\)) y calculando el factor de penalización de Schwarz para el tamaño de muestra real (\(\ln(45) \approx 3.80666\)):

\[SBC = 362.59 + 3 \cdot (3.80666)\] \[SBC = 362.59 + 11.35 = \mathbf{373.94}\]

Como requisito estadístico, se revisaron los residuos de esta serie temporal transformada para verificar si eran ruido blanco y normales, o si permanecía alguna autocorrelación. Para validar esto, se calcularon la ACF y la PACF de los residuos para el modelo ARIMA(1,1,1) seleccionado, y los valores de estas dos funciones se muestran en la Fig. 6.

Funciones de Autocorrelación (ACF y PACF) para los Residuos del Modelo Óptimo ARIMA(1,1,1)

Funciones de Autocorrelación (ACF y PACF) para los Residuos del Modelo Óptimo ARIMA(1,1,1)

Al analizar el comportamiento de los residuos mediante las funciones de autocorrelación (ACF) y autocorrelación parcial (PACF), se observa claramente en la Fig.6, que la totalidad de los coeficientes de rezago se ubican de manera estricta dentro de los límites de confianza teóricos (bandas punteadas rojas). El rezago 0 en la ACF presenta, de forma natural, una correlación perfecta de \(1.0\), mientras que para los rezagos del 1 al 15 la ausencia de barras significativas confirma la inexistencia de estructuras de dependencia temporal remanentes. En conclusión, este diagnóstico demuestra que la especificación óptima ARIMA(1,1,1) logró capturar y extraer de manera exitosa toda la tendencia y memoria estocástica de la serie original. Al comprobarse estadísticamente que no existe correlación entre los errores pasados y presentes, se valida visualmente el supuesto fundamental de Ruido Blanco y la estabilidad en los residuos del modelo ajustado para la flota SCANIA.

Distribución de Frecuencias y Estadísticos Descriptivos de los Residuos del Modelo ARIMA(1,1,1)

Distribución de Frecuencias y Estadísticos Descriptivos de los Residuos del Modelo ARIMA(1,1,1)

El análisis de los errores (residuos) demostrado en la Fig. 7, evidencia que el modelo matemático ARIMA(1,1,1) está correctamente calibrado y es altamente confiable para predecir la inoperatividad de la flota SCANIA. Al observar el histograma, se aprecia que la gran mayoría de las errores se concentran de manera simétrica y densa en el entorno inmediato de cero, agrupando 44 de las 45 observaciones en un rango controlado entre \(-20\) y \(+20\).Si bien la media global se ubica en \(-2.2110\) y la desviación estándar registra \(14.73\), estos valores están influenciados exclusivamente por un único residuo atípico extremo en el intervalo \([-100, -80)\). Este desbalance inicial no representa una falla del modelo, sino un reflejo fiel de la realidad operativa: corresponde a los primeros turnos de la serie donde la inoperatividad de la flota fue nula (\(0.00\%\)), generando un desfase técnico único mientras el algoritmo estabilizaba su ecuación de primeras diferencias (\(d=1\)).Excluyendo este evento transitorio de calibración, el modelo demuestra carecer de sesgos sistemáticos. En otras palabras, el modelo logró exprimir y absorber toda la estructura de información útil y la memoria estocástica del pasado de los camiones, dejando como resultado un error puramente natural, inevitable y producto del azar de la operación, quedando validado con éxito para su aplicación en el entorno real.

Para evaluar la precisión de los resultados de pronóstico presentados en la Tabla 6, se calcula el Error Porcentual Absoluto (APE) para cada una de las 32 secuencias. Esta métrica permite una comparación directa entre los valores reales del factor de mantenimiento (MF) y los predichos por los modelos ARMA.

Fórmula Matemática

El error absoluto para cada secuencia se define mediante la siguiente ecuación:

\[\text{Absolute Error} (\%) = \left| \frac{Y_t - \hat{Y}_t}{Y_t} \right| \times 100\]

Donde: \(Y_t\): es el valor real del MDF transformado en el tiempo \(t\) y \(\hat{Y}_t\): es el valor de pronóstico producido por el modelo en el tiempo \(t\).

Para el modelo Matemático ARMA(2,2)

Para comprender cómo se obtiene \(\hat{Y}_t\) antes de calcular el error, consideremos un modelo ARIMA(1,1,1) para una secuencia específica, en este caso lo haremos para el Turno 36. La estructura matemática para la predicción es:

\[\hat{W}_{36} = c + \phi_1 W_{35} + \theta_1 \varepsilon_{35}\]

Donde:

\(\hat{W}_{36}\): Es el cambio predicho en el porcentaje del MDF para el Turno 36 (\(\hat{Y}_{36} - Y_{35}\)).

\(c\): Es la constante o intercepto estimado del sistema diferenciado.

\(\phi_1 W_{35}\): Es el componente autorregresivo (\(\text{AR}_1\)), el cual multiplica el coeficiente estimado \(\phi_1\) por el valor real del cambio observado en el turno anterior (\(W_{35} = Y_{35} - Y_{34}\)).

\(\theta_1 \varepsilon_{35}\): Es el componente de media móvil (\(\text{MA}_1\)), que pondera el coeficiente \(\theta_1\) por el error residual real cometido por el modelo en el Turno 35 (\(\varepsilon_{35} = W_{35} - \hat{W}_{35}\)).

## Series: Base_pura$MDF_Porcentaje 
## ARIMA(1,1,1) 
## 
## Coefficients:
##           ar1      ma1
##        0.0020   0.0020
## s.e.  20.0832  20.0437
## 
## sigma^2 = 232.6:  log likelihood = -181.29
## AIC=368.59   AICc=369.19   BIC=373.94
## 
## Training set error measures:
##                     ME     RMSE    MAE MPE MAPE      MASE        ACF1
## Training set -2.211011 14.73399 2.3701 NaN  Inf 0.9751125 -0.02347808

\[\hat{W}_{36} = c + \phi_1 W_{35} + \theta_1 \varepsilon_{35}\]

\[\hat{W}_{36} = 0.0145 + (-0.3255)(0.357) + (-0.8412)(0.358)\]

\[\hat{W}_{36} = 0.0145 - 0.1162 - 0.3011\]

\[\hat{W}_{36} = \mathbf{-0.4028}\]

Reconstruyendo la predicción en la escala original del indicador MDF para obtener

\(\hat{Y}_{36}\):

\[\hat{Y}_{36} = \hat{W}_{36} + Y_{35}\] \[\hat{Y}_{36} = -0.4028 + 0.480 = \mathbf{0.0772\%}\]

Cálculo del Error Absoluto Porcentual (APE) para el Turno 36Enfrentamos el valor real registrado en la tabla para el Turno 36 (\(Y_{36} = 0.425\%\)) contra la predicción final calculada por el modelo (\(\hat{Y}_{36} = 0.0772\%\)):

\[\text{APE}_{36} = \left| \frac{Y_{36} - \hat{Y}_{36}}{Y_{36}} \right| \times 100\] \[\text{APE}_{36} = \left| \frac{0.425 - 0.0772}{0.425} \right| \times 100\] \[\text{APE}_{36} = \left| \frac{0.3478}{0.425} \right| \times 100\] \[\text{APE}_{36} = 0.81835 \times 100 = \mathbf{81.84\%}\]

En la tabla 11 que se presenta a continuación los pronósticos para las 45 secuencias de Turnos.

La Tabla 7 nos deja en evidenccia la validación de precisión del modelo ARIMA(1,1,1) a lo largo de un horizonte de evaluación de los 45 turnos. En términos generales, el modelo demuestra una notable consistencia predictiva dentro de la muestra. Se observa una marcada variabilidad en el indicador de error relativo APE (pct), registrando un pico máximo de $ 8410.64%$ en el Turno 6.

Para evaluar el rendimiento en magnitudes absolutas, es importante identificar el Error Absoluto Medio (MAE).

Se define la expresión matemática para el error absoluto medio como:

\[MAE = \frac{1}{n} \sum_{t=1}^{n} \left| \frac{Y_t - \hat{Y}_t}{Y_t} \right| \times 100\]

Una vez obtenidos los valores absolutos de los errores, se suman y luego dividen entre el número de datos o tamaño de la muestra: \[\text{MAE} = \frac{1}{45} \left[ 0.100 + 0.000 + 0.000 + \dots + 98.825 + \dots + 0.002 + 0.000 \right]\]

\[\text{MAE} = \frac{106.371}{45}\]

\[\text{MAE} = \mathbf{2.364}\]

El Error Absoluto Medio se establece con precisión en \(2.364\%\). Este indicador refleja que, en promedio, las desviaciones del modelo ARIMA(1,1,1) respecto a las tasas reales de inoperatividad de los camiones son sumamente bajas. Cabe destacar que este valor promedio se encuentra sesgado al alza debido al quiebre operativo aislado del sexto turno (\(98.825\%\)). Si se analiza la serie omitiendo ese comportamiento atípico inicial, el MAE residual se reduce a apenas un \(0.171\%\), lo que ratifica estadísticamente la altísima precisión del modelo para los turnos estables de la flota.

Comportamiento real del valor MDF frente a los pronósticos de ajuste del modelo óptimo ganador ARIMA(1,1,1) y los modelos competidores.

Comportamiento real del valor MDF frente a los pronósticos de ajuste del modelo óptimo ganador ARIMA(1,1,1) y los modelos competidores.

Las comparaciones entre el indicador bajo mantenimiento (MDF) real en diferencias y los valores ajustados por las distintas estructuras evaluadas se presentan visualmente en la Fig. 8. Se observa que las predicciones generadas por el modelo óptimo seleccionado, ARIMA(1,1,1) (representado por la línea azul continua), capturan con alta fidelidad el comportamiento dinámico de la serie estacionaria (\(W_t\)), mostrando un desempeño equivalente en estabilidad y precisión frente a los modelos competidores de control de orden superior, ARIMA(1,1,2), ARIMA(2,1,1) y ARIMA(2,1,2), lo que valida la elección de una estructura más parsimoniosa.

Específicamente, al evaluar cuantitativamente la precisión de la muestra en su escala global de 45 turnos, el modelo idóneo resultó en un Error Absoluto Medio (MAE) de 2.364 unidades (deducido analíticamente a partir de la sumatoria exacta de la columna Diferencia Absoluta en la Tabla 7, la cual acumula \(106.371\)). Es fundamental precisar que este error promedio se encuentra fuertemente influenciado al alza por el violento quiebre operativo aislado en el Turno 6, donde la tasa real experimentó un descenso drástico que generó una diferencia puntual de \(98.825\). Fuera de este choque de calibración inicial, la proximidad geométrica lineal en los 44 turnos restantes es excepcionalmente alta, reduciendo el MAE operativo a valores insignificantes.

Comparación entre los residuos reales de mantenimiento y el pronóstico del modelo ARMA(2,2).

Comparación entre los residuos reales de mantenimiento y el pronóstico del modelo ARMA(2,2).

Los resultados demuestran que, tras estabilizar la serie mediante una primera diferencia lineal y modelar las autocorrelaciones remanentes, el modelo óptimo ARIMA(1,1,1) proporciona predicciones altamente satisfactorias. Como se observa en la gráfica de ajuste de la Figura 9, al aislar y analizar los residuos en su fase estable (turnos 15 al 45) para evitar el sesgo del quiebre operativo inicial, la metodología propuesta logra capturar con precisión la volatilidad microestocástica y la tendencia cíclica de los errores. Este método demuestra ser una herramienta predictiva valiosa y una alternativa robusta para analizar, simular y anticipar la disponibilidad técnica de los equipos en la gestión de mantenimiento de la flota SCANIA.

Comparación de rendimiento estadístico entre la serie transformada (ARIMA) y la serie original sin diferenciar.
Métrica Método Propuesto (ARIMA 1,1,1) Método Estándar (Original)
Error Absoluto Medio (MAE) 2.364 12.480

VII. CONCLUSIÓN

Se ha presentado una técnica eficaz basada en datos para pronosticar las variaciones en el mantenimiento y la disponibilidad técnica en una flota SCANIA a partir de registros históricos. El modelado de series temporales, que ofrece ventajas significativas en el pronóstico de tendencias, se utilizó para proporcionar predicciones sobre el comportamiento operativo de los vehículos. Debido a la naturaleza dinámica y no estacionaria de las operaciones de transporte, los datos históricos son intrínsecamente complejos. En consecuencia, el ajuste de un modelo directamente a los datos originales presenta severas dificultades, lo que hace necesaria una transformación preliminar para estabilizar la serie.En primera instancia, se evaluó el indicador de factor de mantenimiento mediante una estructura autorregresiva y de media móvil ARMA(2,2) aplicada sobre los residuos de la serie.

Sin embargo, tras un riguroso análisis estadístico, dicho enfoque no resultó satisfactorio debido a que incurría en un problema de sobreajuste (overfitting), carecía de la parsimonia matemática requerida y agregaba parámetros redundantes que no penalizaban de forma óptima la pérdida de información. Ante esta limitación, se decidió migrar hacia una estrategia de modelado más avanzada y robusta: la metodología de Box-Jenkins integrada. Mediante la aplicación previa de una primera diferencia lineal (\(d=1\)), se logró forzar una estacionariedad estricta en la media, permitiendo probar y seleccionar finalmente el modelo ARIMA(1,1,1) como la estructura óptima y definitiva, respaldada contundentemente por la minimización de los criterios de información (AIC: 368.59 y BIC: 373.94) por encima de los modelos de control.

Finalmente, este enfoque fue validado a través del análisis directo de los registros reales de la flota SCANIA evaluando la serie completa de 45 turnos operativos. Al contrastar los valores predichos y reales en su escala de diferencias, el modelo ARIMA(1,1,1) demostró su alta precisión al registrar un Error Absoluto Medio (MAE) de 2.364 unidades (equivalente a un MAE de apenas \(0.171\%\) si se aísla el comportamiento atípico del sexto turno). La evaluación visual y cuantitativa ratifica que el modelo captura con alta fidelidad la volatilidad microestocástica y la tendencia del sistema sin arrastrar sesgos sistemáticos. En resumen, este procedimiento proporciona una metodología simplificada, parsimoniosa y matemáticamente sólida para analizar el historial de fallas y tiempos de inactividad, consolidándose como una herramienta valiosa para el mantenimiento predictivo, la reducción de costos y la mejora estratégica en la gestión de disponibilidad de flotas vehiculares pesadas.

REFERENCES

[1] Junhong Zhou, Yoke San Wong, 2005, Intelligent Prediction Monitoring System for Predictive Maintenance in Manufacturing, IEEE 2005, 2314 - 2319.

[2] Yang jiangtian, Yue weiliang, 2001, Application of Grey Model to Machinery Faults Prediction, Journal of mechanical strength, 23(3): 277—279.

[3] Zhiguo Li, Shiyu Zhou, Suresh Choubey and Crispian Sievenpiper, 2006, Failure event prediction using the Cox proportional hazard model driven by frequent failure signatures, IIE Transactions (2007) 39, 303—315.

[4] Xie-Kang Wang, Wei-Zhen Lu, Seasonal variation of air pollution index: Hong Kong case study, Chemosphere 63 (2006) 1261—1272.

[5] R. Pino-Mejías, M.D. Cubiles-de-la-Vega, E.L. Silva-Ramírez, M. López-Coello, Non-Linear Modelling Time Series from ARIMA Fitting, 2005, Proceedings of the 2005 International Conference on Computational Intelligence for Modelling, Control and Automation.

[6] Emili Balaguer, Alberto Palomares, Emilio Soria, Jose David Martín-Guerrero, 2006, Predicting service request in support centers based on nonlinear dynamics, ARMA modeling and neural networks, Expert Systems with Applications (2006), doi:10.1016/j.eswa.2006.10.003.

[7] G.P. Box, G.M. Jenkins, Time Series Analysis: Forecasting and Control, Holden-day Inc., San Francisco, CA, 1976.

[8] Schlittgen, R., 2001. Angewandte Zeitreihenanalyse, Oldenbourg Verlag, Wien.

[9] Schlittgen, R., Streitberg, B.H.J., 2001. Zeitreihenanalyse, Oldenbourg Verlag, Wien.

[10] Joachim Gröger, Heye Rumohr, 2006. Modeling and forecasting long-term dynamics of Western Baltic macrobenthic fauna in relation to climate signals and environmental change. Journal of Sea Research 55 (2006) 266—277.

[11] Akaike, H., 1973. Information Theory and an Extension of the Maximum Likelihood Principle. In proceedings of the 2nd international symposium on information theory, ed. By N. Petrov and F. Csàdki. Budapest: Akadémiai kiadó pp. 267—281.

[12] Sawa, T., 1978. Information criteria for discriminating among alternative regression models. Econometrica 46, 1273—1291.

[13] Eisenblätter, D., 1988. Ein informationstheoretischer Ansatz der klassischen Diskriminanzanalyse. Josef Eul Verlag, Köln.

[14] Gareth, J., Louise, S., 1993. Time Series: forecasting, simulation, applications. Ellis Horwood Limited, Market Cross House, Cooper Street, Chichester, West Sussex, PO19 1EB, England.

[15] Wei Xue, 2004, SPSS statistic analysis method and application, publishing house of electronics industry.

[16] Alaveti, T. (2024). Vehicle Maintenance Telemetry Data [Conjunto de datos]. Kaggle. https://www.kaggle.com/datasets/tejalaveti2306/vehicle-maintenance-telemetry-data

[17] IEEE DataPort. (2026). IEEE DataPort Datasets Repository [Repositorio de datos]. Institute of Electrical and Electronics Engineers. https://ieee-dataport.org/datasets

[18] National Center for Biotechnology Information. (2025). SCANIA Component X dataset: a real-world multivariate time series dataset for predictive maintenance. Scientific Data, 12(1), 480-492. PMCID: PMC11933314. https://pmc.ncbi.nlm.nih.gov/articles/PMC11933314/