Enfoque de modelado SARIMA para la previsión de accidentes de tráfico en la República de Serbia.

Carlos Alberto Lopez Cotes

Universidad Nacional de Colombia
📧 carloslopez@unal.edu.co

Asignatura: Series de tiempo

Fecha: 06 de mayo de 2026

*Nemanja Deretić^1,, Dragan Stanimirović², Mohammed Al Awadh³, Nikola Vujanović¹ y Aleksandar Djukić⁴**

¹Belgrade Business and Arts Academy of Applied Studies, Kraljice Marije 73, 11000 Belgrade, Serbia; nikola.vujanovic@bpa.edu.rs
²Ministry of Transport and Communications of Republic of Srpska, Trg Republike Srpske 1, 78000 Banja Luka, Bosnia and Herzegovina; d.stanimirovic@msv.vladars.net
³Department of Industrial Engineering, College of Engineering, King Khalid University, P.O. Box 394, Abha 61411, Saudi Arabia; mohalawadh@kku.edu.sa
⁴Republic Administration for Inspection Affairs of the Republic of Srpska, Trg Republike Srpske 8, 78000 Banja Luka, Bosnia and Herzegovina; a.djukic@inspektorat.vladars.net

Corresponding author: nemanja.deretic@bpa.edu.rs

Received November 04, 2022; Revised December 07, 2022; Accepted December 18, 2022

Abstract

To promote a more sustainable traffic system, the evolution of road traffic accidents was examined. Injuries caused by traffic accidents are among the main sources of human suffering worldwide, and they are expected to become the third leading cause of death globally. Over the past decade, many countries have experienced a decline in road traffic accidents, largely due to the implementation of the Decade of Action for Road Safety 2011–2020. This reduction can be attributed to several factors, including advancements in vehicle and road design, improved driver training and education, as well as progress in medical technology and healthcare services.

The main aim of this study is to analyze the time series pattern of traffic accidents in the city of Belgrade. The analysis was conducted using exploratory data analysis to better understand and describe the data, along with regression techniques and the Box–Jenkins Seasonal Autoregressive Integrated Moving Average (SARIMA) model. The findings indicate that the time series exhibits a strong seasonal pattern. The proposed model achieved a mean absolute percentage error (MAPE) of 5.22%, suggesting that its forecasts are reasonably accurate. Predicting the number of traffic accidents can serve as a useful tool for supporting traffic safety campaigns, developing safety strategies, and implementing action plans aligned with established traffic safety objectives.

Resumen

Para promover un sistema de tráfico más sostenible, se examinó la evolución de los accidentes de tráfico. Las lesiones causadas por accidentes de tráfico se encuentran entre las principales causas de sufrimiento humano a nivel mundial y se prevé que se conviertan en la tercera causa principal de muerte a nivel global. Durante la última década, muchos países han experimentado una disminución en los accidentes de tráfico, en gran medida debido a la implementación del Decenio de Acción para la Seguridad Vial 2011-2020. Esta reducción puede atribuirse a varios factores, incluidos los avances en el diseño de vehículos y carreteras, la mejora de la formación y educación de los conductores, así como el progreso en la tecnología médica y los servicios de salud.

El objetivo principal de este estudio es analizar el patrón de series temporales de accidentes de tráfico en la ciudad de Belgrado. El análisis se realizó mediante análisis exploratorio de datos para comprender y describir mejor los datos, junto con técnicas de regresión y el modelo SARIMA (Media Móvil Integrada Autorregresiva Estacional) de Box-Jenkins. Los resultados indican que la serie temporal presenta un marcado patrón estacional. El modelo propuesto alcanzó un error porcentual absoluto medio (MAPE) del 5,22 %, lo que sugiere que sus pronósticos son razonablemente precisos. Prever el número de accidentes de tráfico puede ser una herramienta útil para apoyar las campañas de seguridad vial, desarrollar estrategias de seguridad e implementar planes de acción alineados con los objetivos de seguridad vial establecidos.

Introducción

El transporte por carretera es una opción preferida debido a su bajo costo y tiempo de entrega. Las regulaciones generales de transporte y licencias pueden variar en cada nación. El transporte sigue siendo un factor clave para el desarrollo en todos los países.

El transporte es una de las cuatro funciones esenciales de cada espacio habitado (trabajo, vivienda, recreación y transporte), cuyo propósito es integrar las demás funciones, minimizando los efectos negativos en la medida de lo posible. Las principales consecuencias adversas del transporte en la actualidad son: la reducción de recursos naturales; la contaminación ambiental causada por el ruido, los gases de escape y los desechos; los accidentes de tráfico (lesiones leves y graves, así como muertes); daños materiales; pérdidas; y gastos. La seguridad vial activa se refiere a la prevención de accidentes en las carreteras, es decir, a disminuir la probabilidad de que ocurran. Las medidas de seguridad vial activa disminuyen la cantidad de accidentes viales. La seguridad vial pasiva se enfoca en mitigar las consecuencias perjudiciales de los accidentes de tráfico que ya han sucedido. La sociedad no siempre ha enfrentado los mismos problemas de seguridad vial (en cuanto a tipo y magnitud). Estas cuestiones no tenían la misma relevancia, no se abordaron de igual manera y tampoco se resolvieron de forma similar.

La seguridad vial es una prioridad en la política de transporte (y más allá). Se reconoce que los problemas de seguridad vial pueden prevenirse en lugar de simplemente describirse e interpretarse posteriormente. La seguridad vial ha sido incorporada en los planes de todo el sistema de transporte, junto con los planes urbanos, económicos y otros. Como resultado de este nuevo enfoque al problema de la seguridad vial, se están logrando resultados importantes, relacionados con el desarrollo continuo del tráfico y la reducción constante del número y las consecuencias de los accidentes de tránsito.

La Estrategia de Seguridad Vial de la República de Serbia para el período 2015–2020 ha definido tres elementos iniciales para las estrategias locales de seguridad vial, a saber:

Ambición: Reducir la mortalidad y el riesgo de lesiones graves al nivel de los países más exitosos de la Unión Europea.
Misión: Un sistema de seguridad vial estable y eficaz.
Visión: Un transporte por carretera sin víctimas mortales, con una reducción significativa del número de lesionados y de los costos asociados a los accidentes de tránsito.

Aceptando las recomendaciones de las Naciones Unidas expresadas en el documento “Plan Global para el Decenio de Acción para la Seguridad Vial 2011–2020”, preparado por la Organización Mundial de la Salud en diferentes partes del mundo, la estrategia identifica cinco áreas clave de trabajo (cinco pilares) para alcanzar el estado deseado de seguridad vial:

Primer pilar: Gestión más eficaz de la seguridad vial.
Segundo pilar: Carreteras más seguras.
Tercer pilar: Vehículos más seguros.
Cuarto pilar: Usuarios de la vía más seguros.
Quinto pilar: Medidas posteriores al accidente.

En caso de un accidente de tránsito que cause daños materiales o lesiones a personas, el conductor debe detenerse e informar a la autoridad competente para que se puedan tomar las medidas necesarias para atender a los lesionados. Para gestionar la seguridad vial de manera adecuada, se necesitan datos relevantes y una base de datos bien desarrollada sobre los indicadores de seguridad vial. La Agencia de Seguridad Vial de la República de Serbia, como una de las instituciones más importantes en este campo, ha desarrollado una base de datos integrada sobre las características de la seguridad vial. Además de esta base de datos integrada, todos los interesados en este ámbito en la República de Serbia tienen acceso al portal de datos públicos.

Los datos se utilizarán para entrenar modelos de predicción de accidentes de tránsito con el fin de estimar el número de accidentes de manera mensual. El objetivo del estudio es permitir el desarrollo de una herramienta de software que ayude a los servicios municipales de la ciudad de Belgrado a tomar medidas preventivas.

Medidas preventivas ante la aparición de problemas graves. El artículo utiliza datos históricos de la Agencia de Seguridad Vial y del Ministerio del Interior de la República de Serbia para predecir el número futuro de accidentes de tráfico mensualmente. Según el Decenio de Acción para la Seguridad Vial 2011-2020, se esperaba una disminución en el número de accidentes de tráfico. La principal contribución del estudio es mostrar el aumento de accidentes de tráfico en la ciudad de Belgrado durante el periodo 2016-2019. Cada municipio de la República de Serbia destina fondos presupuestarios específicos para documentos estratégicos como la Estrategia de Seguridad Vial y el Plan de Acción, con una vigencia de cinco años. El Plan de Acción es un documento especialmente importante, ya que especifica, para cada pilar de la seguridad vial, no solo los fondos, sino también el periodo del año y las partes interesadas que deben implementar cada medida. Una contribución importante del estudio es la referencia al último trimestre del año, cuando se producen la mayoría de los accidentes de tráfico en Belgrado. El principal objetivo de la investigación es analizar la posibilidad de aplicar uno de los modelos de predicción a una serie temporal de accidentes de tráfico en una de las ciudades más grandes de los Balcanes Occidentales, como Belgrado. Un objetivo particularmente importante fue investigar si existe un período del año estadísticamente significativo en el que la policía de tráfico y todas las partes interesadas deban realizar actividades coordinadas para reducir el número de accidentes de tráfico.

La novedad del estudio radica en que, durante el último cuarto trimestre del año (octubre, noviembre y diciembre), la mayoría de los accidentes de tráfico se produjeron en la capital de la República de Serbia.

El artículo consta de siete secciones. La sección introductoria se centra en la importancia del tema y justifica su elección. A continuación, la Sección 2 presenta una revisión de la literatura. La Sección 3 contiene los materiales que conforman la muestra de datos utilizada en el estudio. La Sección 4 describe el método de preparación de datos y el análisis de series temporales, y presenta el procedimiento de análisis. La Sección 5 describe los resultados del modelo obtenido. La Sección 6 presenta y analiza los hallazgos de la investigación, mientras que la Sección 7 presenta las conclusiones y las directrices para futuras investigaciones.

2. Revisión de la literatura

Las series temporales describen la variación estadística de muchos fenómenos a lo largo del tiempo.

Los niveles de las series temporales se forman bajo la influencia de diversos factores a largo y corto plazo, así como de diversas influencias aleatorias. Debido a los cambios en estas influencias, también se producen fluctuaciones en los niveles de las series temporales, que indican variaciones en los eventos a lo largo del tiempo. El número anual de personas fallecidas y heridas en accidentes de tráfico es de gran interés en la mayoría de los países. La detección de accidentes de tráfico en tiempo real es fundamental para conductores y pasajeros, así como para los servicios municipales que gestionan el tráfico. Las redes sociales desempeñan un papel importante en la detección de accidentes de tráfico y pueden ser útiles para su análisis [9]. En el Reino Unido, Scott [10] analizó las series temporales de datos mensuales de accidentes de tráfico para el periodo 1970-1978, y Broughton [11] analizó las muertes por accidentes de tráfico para el periodo 1949-1989. Además, Quddus [12] estudió las muertes anuales por accidentes de tráfico en el Reino Unido entre 1950 y 2005. En Suecia, Brüde [13] abordó el problema de predecir el número de muertes por accidentes de tráfico basándose en datos del periodo 1977-1991. Dadashova et al. [14] utilizaron datos mensuales sobre el número de accidentes mortales en España durante el periodo 2000-2011.

Existen diversos modelos estadísticos empleados en el análisis de series temporales de datos de tráfico rodado. En el ámbito del transporte y el tráfico, existen dos categorías de enfoques de predicción: paramétricos y no paramétricos. La principal diferencia radica en la dependencia funcional entre las variables independientes y la variable dependiente [15]. Se han utilizado diferentes enfoques para predecir cambios en los accidentes de tráfico: técnicas de regresión lineal normal [11], técnicas de regresión exponencial [11], modelos de Box-Jenkins y modelos autorregresivos integrados de media móvil (ARIMA) [10,12,14]. Según Lavrenz et al. [16], el modelo ARIMA se ha utilizado en numerosos trabajos que modelan series temporales en la investigación sobre seguridad vial durante la última década [17-21].

Además del modelo ARIMA, Ihueze y Onwurah [22] utilizaron el modelo autorregresivo integrado de media móvil con variables explicativas (ARIMAX). El estudio de San-gare et al. [23] muestra un enfoque para predecir accidentes de tráfico utilizando medidas analíticas y aprendizaje automático híbrido. Almeida et al. [24] proponen el modelo autorregresivo estacional integrado de media móvil (SARIMA) en su estudio de las características del flujo de tráfico. También se han propuesto algoritmos de redes neuronales artificiales en las referencias [22–28] para la predicción. Los algoritmos más utilizados son la red neuronal de alimentación directa (FFNN), la memoria a largo y corto plazo (LSTM), la red neuronal convolucional (CNN) y una LSTM-CNN híbrida. Naqvi et al. [29] proponen SARIMA en su estudio sobre la relación entre el aumento de los precios del combustible y los accidentes de tráfico. Katrakazas et al. [32] utilizan SARIMA para investigar el impacto de la COVID-19 en colisiones, mortalidades y lesiones en Grecia. Las tendencias de series temporales de los efectos de seguridad del reasfaltado con SARIMA se muestran en el estudio de Park et al. [33]. El análisis de la mortalidad por accidentes de tráfico en función del momento de ocurrencia también se realiza con SARIMA en el trabajo de Vipin y Rahul [34]. Roland et al. [35] utilizaron un modelo de red neuronal perceptrón multicapa (MLP) para predecir dónde y cuándo ocurrirán accidentes en un día y hora determinados en el área de estudio. Shannon y Fountas [34] extienden el modelo de Heston para predecir la tasa de colisiones de vehículos de motor.

El análisis de Regresión de Series de Tiempo (TSR) y el modelo SARIMA han sido aplicados para evaluar la relación entre la variable de resultado, el número de personas fallecidas debido a accidentes de tránsito, y las variables que cuantifican la tendencia y los efectos estacionales.

Los modelos de series de tiempo incluyen el modelo autorregresivo integrado de media móvil (ARIMA), ARIMA con factores estacionales (SARIMA), SARIMA con variables explicativas exógenas (SARIMAX) y la regresión autorregresiva no lineal con variables exógenas (NARX).

Los modelos SARIMA han sido capaces de adaptarse y realizar buenas predicciones incluso en presencia de anomalías. El modelo SARIMAX se basa en el modelo ARIMA, pero con la capacidad adicional de incluir estacionalidad y parámetros exógenos.

En la Ref. [40], varios modelos SARIMAX fueron utilizados para analizar las tendencias en series de tiempo de residuos y reciclaje, así como su relación con variables explicativas exógenas relacionadas con la producción de residuos. En la Ref. [41], los modelos ARIMA, βARMA y KARMA fueron comparados para pronosticar las tasas de mortalidad relacionadas con accidentes laborales en la región sur de Brasil. En la Ref. [42], se propuso un modelo ARFIMA-GARCH para analizar la propiedad de memoria larga en el riesgo de accidentes.

El modelo ARIMA es uno de los métodos de pronóstico más utilizados para series de tiempo univariadas. Una extensión de ARIMA que permite el modelado directo del componente estacional de la serie se denomina ARIMA estacional. En este trabajo, el modelo SARIMA se utiliza para realizar pronósticos a corto plazo.

Al examinar los datos sobre el número de accidentes de tránsito en la ciudad de Belgrado, se encontró que existe una marcada irregularidad estacional, por lo cual se seleccionó el modelo SARIMA.

Las principales ventajas de SARIMA son:

El modelo es determinista y computacionalmente sencillo.
Tiene la ventaja de requerir múltiples parámetros para describir series de tiempo que presentan no estacionariedad tanto dentro como entre estaciones.
El modelo ARIMA convencional no puede capturar la estacionalidad y la tendencia en los conjuntos de datos.

Las principales desventajas de SARIMA son:

El modelo solo puede predecir periodos cortos de tiempo.
El modelo únicamente puede extraer relaciones lineales dentro de los datos de series de tiempo.

3. Materiales

Las iniciativas de datos abiertos gubernamentales están en auge en muchos países. Los principales objetivos del acceso abierto a los datos son democratizar el acceso a los datos y la producción de conocimiento [43]. Los datos abiertos desempeñan un papel importante en numerosas aplicaciones y servicios, como la innovación social, la formulación de políticas, la investigación de la opinión pública y el crecimiento económico [44]. El artículo de deSouza et al. [45] destaca los beneficios clave del Gobierno Abierto, como la transparencia, la participación y la cooperación, y utiliza el término Gobierno 2.0. La base de datos de datos de código abierto es mantenida por agencias gubernamentales [46]. Según las referencias [46,47], los datos abiertos pueden definirse como datos producidos y financiados con fondos públicos y puestos a disposición del público sin restricciones. Los datos deben cumplir con todas las leyes de privacidad y confidencialidad. Para la investigación, se adoptaron conjuntos de datos de código abierto de la República de Serbia [48,49]. Según la Ley de Gobierno Electrónico [50], los datos abiertos son datos disponibles para su reutilización junto con metadatos en un formato legible por máquina y abierto.

Según la referencia [50], los datos pueden ser reutilizados por personas físicas o jurídicas para fines comerciales y no comerciales distintos del propósito original para el que fueron creados. En la dirección web data.gov.rs se encuentra el Portal de Datos Abiertos, donde se publican conjuntos de datos abiertos de las agencias estatales de la República de Serbia. En estos conjuntos de datos, hay varios relacionados con accidentes de tráfico en el ámbito de la seguridad pública. Entre los casos de uso se menciona la investigación de la organización Data Science Serbia, que se llevó a cabo con el conjunto de datos sobre accidentes de tráfico en la ciudad de Belgrado durante un año (2015).

Al buscar los conjuntos de datos sobre accidentes de tránsito en el tráfico vial, se pueden identificar dos tipos de bases de datos:

Datos sobre accidentes de tránsito para el área de la ciudad de Belgrado.
Datos sobre accidentes de tránsito por administración policial y municipio.

Para estos conjuntos de datos ya existe información previa sobre accidentes de tránsito. El primer conjunto de datos está disponible en archivos con extensión .ods (OpenDocument Spreadsheet) para el período de 2015 a 2019 (28 de febrero de 2019).

En el conjunto de datos de 2015, la información completa está disponible solo para los primeros 11 meses, y existe información únicamente de un accidente para diciembre. Debido a que los datos de 2015 no están completos, no fueron considerados en el análisis.

Cuando se analizaron los datos de 2019, solo los dos primeros meses estaban disponibles (enero y febrero). En cambio, los datos correspondientes al período 2016–2018 están completos.

Por ejemplo, las columnas del primer conjunto de datos para el año 2016 son:

Columna A: Número único de identificación del accidente de tránsito.
Columna B: Fecha y hora en que ocurrió el accidente.
Columna C: Longitud del lugar donde ocurrió el accidente.
Columna D: Latitud del lugar donde ocurrió el accidente.
Columna E: Tipo de accidente de tránsito: accidente con daños materiales, accidente con personas lesionadas y accidente con víctimas mortales.
Columna F: Nombre del tipo de accidente: accidente con un vehículo, accidente con al menos dos vehículos sin giro, accidente con al menos dos vehículos con giro o cruce, accidente con vehículos estacionados, accidente con peatones.
Columna G: Descripción detallada del accidente de tránsito: accidente con un vehículo (11 tipos de casos), accidente con al menos dos vehículos sin giro (9 tipos de casos), accidente con al menos dos vehículos con giro o cruce (18 tipos de casos), accidente con vehículos estacionados (5 tipos de casos) y accidentes con peatones (25 tipos de casos).

El segundo conjunto de datos está disponible en archivos con extensión .xlsx para el período 2015–2020. La extensión .xlsx corresponde a Microsoft Excel, que ha sido utilizado en este programa desde 2007.

El conjunto de datos correspondiente al año 2015 no está completo en ninguna de las dos fuentes [46,47], por lo que no fue utilizado en el estudio.

Por ejemplo, las columnas del segundo conjunto de datos para el año 2016 [49] son:

Columna A: Número único de identificación del accidente de tránsito.
Columna B: Administración policial.
Columna C: Municipio.
Columna D: Fecha y hora en que ocurrió el accidente.
Columna E: Longitud del lugar donde ocurrió el accidente de tránsito.
Columna F: Latitud del lugar donde ocurrió el accidente de tránsito.
Columna G: Tipo de accidente de tránsito: accidente con daños materiales, accidente con personas lesionadas o accidente con víctimas mortales.
Columna H: Nombre o tipo de accidente de tránsito: accidente con un vehículo, accidente con al menos dos vehículos sin giro, accidente con al menos dos vehículos con giro o cruce, accidente con vehículos estacionados o accidente con peatones.
Columna I: Descripción detallada del accidente de tránsito: accidente con un vehículo (11 tipos de casos), accidente con al menos dos vehículos sin giro (9 tipos de casos), accidente con al menos dos vehículos con giro o cruce (18 tipos de casos), accidente con vehículos estacionados (5 tipos de casos) y accidentes con peatones (25 tipos de casos).

El primer conjunto de datos [48] y el segundo conjunto de datos [49] tienen las mismas columnas; sin embargo, el segundo conjunto incluye dos columnas adicionales (administración policial y municipio).

El número de tipos de casos (columna G en [48] y columna I en [49]) puede variar según el conjunto de datos correspondiente al año analizado.

El área de estudio corresponde a la ciudad de Belgrado, capital de la República de Serbia. El periodo de análisis comprende desde el 1 de enero de 2016 hasta el 31 de diciembre de 2019.

Para el problema abordado en este trabajo se utilizó el modelo SARIMA. En esta parte del documento se presentan los supuestos teóricos básicos de dicho modelo.

Para el estudio se empleó el segundo conjunto de datos [49], correspondiente al periodo 2016–2019, el cual contiene información disponible para todos los meses del año (Tabla 1).

En la investigación se utilizaron datos abiertos, lo que representa el esfuerzo de la República de Serbia, en asociación con el Programa de las Naciones Unidas para el Desarrollo, por generar nuevo conocimiento a través de proyectos de investigación.

Tabla 1. Número de accidentes de tránsito por mes en la ciudad de Belgrado (2016–2019).

## Excel guardado en:
##  C:/Users/carlos/Documents/universidad/Series de tiempo/accidentes_serbia/belgrade_monthly_accidents_2016_2019.xlsx

Tabla 1. Número de accidentes de tráfico por mes en la ciudad de Belgrado (2016-2019).Fuente: sacado de [49]
year	Jan	Feb	Mar	Apr	May	Jun	Jul	Aug	Sep	Oct	Nov	Dec
2016	1282	1220	1496	1471	1446	1429	1255	1290	1499	1640	1533	1727
2017	1380	1129	1480	1472	1516	1543	1334	1304	1591	1726	1723	1776
2018	1410	1332	1618	1540	1542	1415	1400	1399	1487	1733	1495	1705
2019	1529	1310	1529	1426	1500	1451	1414	1299	1408	1627	1565	1659

Los datos sobre el número de accidentes de tránsito por mes desde 2016 hasta 2018 (36 meses) se utilizaron para construir el modelo, mientras que los datos correspondientes al año 2019 (12 meses) se emplearon para evaluar la precisión del modelo.

Los datos sobre el número de accidentes de tránsito por mes del año 2020 no se utilizaron debido a las circunstancias ocasionadas por la pandemia de COVID-19.

Limitaciones del estudio

El análisis de los accidentes de tránsito incluyó únicamente las columnas con latitud y longitud de los conjuntos de datos.
La serie de tiempo se examinó solo con periodicidad mensual.
Se utilizaron únicamente los años con información completa.
El año 2020 no fue incluido en el análisis debido a las condiciones generadas por la pandemia de COVID-19.
Se dispuso de datos para 48 meses, desarrollándose el modelo con base en 36 meses y validándose con 12 meses (2019).
Los datos están limitados por restricciones de uso público, por lo que no se dispone de información sobre sexo, edad, años de experiencia de conducción u otras características del conductor, ni sobre los vehículos involucrados en el accidente.

4. Metodología

Las ventajas del modelo SARIMA radican en sus conocidas propiedades estadísticas y en su eficaz proceso de modelación. Este modelo es uno de los métodos más eficientes para el pronóstico de series de tiempo estacionales.

Aunque SARIMA no es un método nuevo, en este trabajo se aplicó de manera innovadora, lo que implica su uso bajo nuevas condiciones. En este estudio, SARIMA se implementó utilizando software estadístico común, como el lenguaje de programación R y RStudio.

La principal ventaja de los procesos SARIMA es su capacidad para modelar series de tiempo con tendencias, patrones estacionales y correlación de corto plazo, incluso cuando se dispone de conjuntos de datos pequeños.

Los siguientes pasos se siguieron en la aplicación del análisis de series de tiempo con SARIMA:

Descomposición de la serie de tiempo,
Autocorrelación y autocorrelación parcial,
Prueba de estacionariedad,
Modelación SARIMA,
Prueba de residuos y error en el conjunto de prueba,
Predicción.

Box et al. introdujeron el modelo ARIMA. Dado que la diferenciación estacional era necesaria para hacer estacionarias las series de tiempo estacionales, se introdujo el modelo SARIMA.

El modelo SARIMA tiene cuatro componentes [21,52]:

En modelos de series de tiempo con estacionalidad, como los SARIMA (Seasonal ARIMA), la notación distingue entre componentes no estacionales y estacionales. Ahí es donde aparecen \(p\) y \(P\) .

Es el orden autorregresivo no estacional. Indica cuántos rezagos inmediatos de la serie \(X_t\) influyen en el valor actual. Ejemplo: \[ X_{t-1}, X_{t-2}, \dots, X_{t-p} \]

Es el orden autorregresivo estacional. Indica cuántos rezagos separados por el período estacional \(s\) influyen. Ejemplo: \[ X_{t-s}, X_{t-2s}, \dots, X_{t-Ps} \]

El término polinomial Autorregresivo (AR) no estacional y estacional de orden \(p\) y \(P\), Ecuaciones (1) y (2):

\[ \phi_p(B) = 1 - \phi_1 B - \phi_2 B^2 - \cdots - \phi_p B^p \tag{1} \]

\[ \Phi_P(B^s) = 1 - \Phi_1 B^s - \Phi_2 B^{2s} - \cdots - \Phi_P B^{Ps} \tag{2} \]

La parte Media Móvil (MA) no estacional y estacional de orden \(q\) y \(Q\), Ecuaciones (3) y (4):

\[ \theta_q(B) = 1 + \theta_1 B + \theta_2 B^2 + \cdots + \theta_q B^q \tag{3} \]

\[ \Theta_Q(B^s) = 1 + \Theta_1 B^s + \Theta_2 B^{2s} + \cdots + \Theta_Q B^{Qs} \tag{4} \]

El operador de diferenciación no estacional es de orden \(d\) y se utiliza para eliminar tendencias polinomiales, Ecuación (5):

\[ (1 - B)^d \tag{5} \]

El operador de diferenciación estacional es de orden \(D\) y se utiliza para eliminar patrones estacionales, Ecuación (6):

\[ (1 - B^s)^D \tag{6} \]

Los parámetros \(\phi\) y \(\theta\) son los coeficientes ordinarios del modelo ARMA, mientras que \(\Phi\) y \(\Theta\) son los coeficientes estacionales. \(B\) es el operador de rezago, cuyo efecto sobre una serie de tiempo \(Y_t\) puede resumirse como:

\[ B^d Y_t = Y_{t-d} \tag{7} \]

Por lo tanto, la forma general del modelo

\[ SARIMA(p,d,q)\times(P,D,Q)_s \]

para una serie \(Y_t\) puede escribirse como:

\[ \phi_p(B)\Phi_P(B^s)(1-B)^d(1-B^s)^D Y_t = \theta_q(B)\Theta_Q(B^s)\varepsilon_t \tag{8} \]

donde \(s\) es la longitud de la periodicidad (estacionalidad) y \(\varepsilon_t\) es una secuencia de ruido blanco.

Las siguientes notaciones se utilizaron en las fórmulas para obtener los errores de pronóstico:

\(y_t\): valores reales
\(f_t\): valores pronosticados
\(e_t = y_t - f_t\): error de pronóstico

La precisión del modelo se calculó mediante tres medidas:

Error Absoluto Medio (MAE) o Desviación Absoluta Media (MAD), Ecuación (9):

\[ MAE(MAD) = \frac{1}{n}\sum_{t=1}^{n} |e_t| \tag{9} \]

Error Porcentual Absoluto Medio (MAPE), Ecuación (10):

\[ MAPE = \frac{1}{n}\sum_{t=1}^{n} \left|\frac{e_t}{y_t}\right|\times 100 \tag{10} \]

Estadístico U1 de Theil, que es una medida de precisión del pronóstico \((0 \leq U \leq 1;\, U = 0 \text{ indica ajuste perfecto})\), Ecuación (11):

Estadístico U de Theil

\[ U = \sqrt{ \frac{\frac{1}{n}\sum_{t=1}^{n} e_t^{2}} {\sqrt{\frac{1}{n}\sum_{t=1}^{n} y_t^{2}} + \sqrt{\frac{1}{n}\sum_{t=1}^{n} f_t^{2}}} } \]

5. Resultados

En esta sección se presentan los resultados de la predicción utilizando el método SARIMA.
Para el análisis se utilizó el lenguaje de programación R, el cual constituye un entorno moderno y potente para la manipulación de datos, cálculos estadísticos y visualización.

5.1 Datos básicos de la serie de tiempo

La Figura 1 muestra la serie de tiempo utilizada en el estudio. Se observa que el número de accidentes de tránsito presenta una ligera tendencia creciente positiva.

El número promedio de accidentes de tránsito por año fue:

1441 en 2016
1498 en 2017
1506 en 2018
1476 en 2019

Figura 1.Serie de tiempo con datos sobre accidentes de tránsito por meses (2016–2019). Fuente: elaboración propia

Tomando el año 2016 como base, se puede observar que el número promedio de accidentes de tránsito aumentó en:

3.97% en 2017,
4.56% en 2018,
2.48% en 2019.

Los datos descriptivos básicos de la serie de tiempo pueden observarse en el diagrama de caja (boxplot) presentado en la Figura 2.

Figura 2. Diagrama de caja de los accidentes de tránsito por meses (2016–2019). Fuente: elaboración propia

El primer y tercer cuartil corresponden aproximadamente a 1393 y 1390 accidentes de tránsito mensuales, respectivamente. El período del año más peligroso para conductores, pasajeros, peatones y otros usuarios de la vía es el cuarto trimestre, cuando ocurre un promedio de 1659 accidentes de tránsito por mes.

El mes más inseguro del año es diciembre, el cual pertenece lógicamente al cuarto trimestre, registrándose en promedio 1717 accidentes de tránsito. La relación entre el valor promedio máximo mensual (diciembre) y el valor promedio mínimo mensual (febrero) es 37.59%.

Las desviaciones estándar del número mensual de accidentes de tránsito por año son:

150 en 2016
184 en 2017
121 en 2018
108 en 2019

Si se observan los trimestres del año, las desviaciones estándar del número mensual de accidentes de tránsito son:

74 (primer trimestre)
42 (segundo trimestre)
57 (tercer trimestre)
59 (cuarto trimestre)

5.2 Desarrollo del modelo SARIMA

Para utilizar el modelo SARIMA, se requiere una organización específica de los datos.
Los datos correspondientes al período 2016–2018 se utilizaron para construir el modelo, mientras que los datos de 2019 se emplearon para su validación.

La figura siguiente muestra los valores logarítmicos del número de accidentes de tránsito por mes (Figura 3), y la figura posterior muestra la primera diferencia de los valores logarítmicos (Figura 4).

Para el análisis de los datos se utilizaron las siguientes librerías del lenguaje R:

MASS
tseries
forecast
astsa

Figura 3.Valores logarítmicos del número de accidentes de tránsito por meses (2016–2018). Fuente: elaboración propia

Figura 4. Diferencia (en escala logarítmica) de los valores del número de accidentes de tráfico por mes (2016-2018). Fuente: elaboración propia

El análisis y la modelación del modelo SARIMA se basan en el método de Box–Jenkins,
el cual comprende tres etapas:

Identificación del modelo
Estimación del modelo
Validación del modelo

De acuerdo con la Ref. [58], muchas variables se utilizan en forma logarítmica (logs) para realizar pronósticos y análisis económicos. En el análisis de series de tiempo, esta transformación se emplea con frecuencia para estabilizar la varianza de la serie.

La aplicación de la función auto.arima con influencia estacional en el lenguaje de programación R (Tabla 2) mostró que el mejor modelo es ARIMA (0,1,2) × (1,1,0)_{12}.

En la Tabla 2 se presentan criterios de información como:

Criterio de Información de Akaike (AIC)
Criterio de Información de Akaike corregido para muestras pequeñas (AICc)
Criterio de Información Bayesiano (BIC)

Tabla 2. Resultados de la función auto.arima.

Series: log(accidents)
ARIMA (0,1,2) × (1,1,0)[12] (2016–2018)
Coefficients:
	ma1	ma2	sar1
	-0.7383	0.1002	-0.7593
s.e.	0.2315	0.2232	0.1257
\(\sigma^2\) estimated as 0.002289		log likelihood = 33.6
AIC = -59.19	AICc = -56.97	BIC = -54.65
Fuente: Elaboración propia

En estadística, el criterio de información de Akaike (AIC) se utiliza para comparar diferentes modelos posibles y determinar cuál se ajusta mejor a los datos. Los principios básicos para el uso del AIC son:

Un valor menor indica un modelo más simple en comparación con un modelo con un AIC mayor.
Es una medida relativa de parsimonia del modelo, es decir, solo es significativa cuando se comparan valores de AIC entre hipótesis alternativas (diferentes modelos de los datos).

La información sobre el valor AICc del modelo (la letra minúscula “c” indica que el valor fue calculado a partir de la prueba AIC corregida para tamaños de muestra pequeños). Cuanto menor sea el valor de AIC, mejor será el ajuste del modelo.

El criterio de información bayesiano (BIC) es otro criterio para la selección de modelos a partir de un conjunto finito de alternativas. Se basa en la función de verosimilitud y está estrechamente relacionado con el AIC.

A medida que aumenta la complejidad del modelo, el valor de BIC aumenta; mientras que, a medida que aumenta la verosimilitud, el valor de BIC disminuye (un valor menor es preferible).

Los resultados de prueba del modelo SARIMA pueden encontrarse en la Tabla 3, basados en los valores reales y los valores pronosticados para el año 2019.

Con base en las Ecuaciones (9)–(11), los indicadores de error de predicción se calculan y se presentan en la Tabla 4.

El error absoluto medio (MAE = 77) corresponde a la diferencia absoluta promedio entre los valores reales y los valores pronosticados para 2019. El error porcentual absoluto medio (MAPE) representa el promedio de los errores porcentuales absolutos de los pronósticos.

El MAPE es una medida relativa que expresa los errores como un porcentaje de los datos reales. Su mayor ventaja es que proporciona una forma simple e intuitiva de evaluar la magnitud o importancia de los errores.

Theil introdujo dos estadísticas ampliamente utilizadas en el análisis de pronósticos financieros. La primera, \(U_1\), se emplea como un indicador de la precisión predictiva, permitiendo evaluar qué tan cercanos son los valores estimados a los observados. Por otro lado, la segunda, \(U_2\), se interpreta como una medida de la calidad del pronóstico, ya que compara el desempeño del modelo frente a un enfoque de referencia, generalmente un modelo ingenuo [2].

El estadístico U1 de Theil toma valores entre 0 y 1, donde valores más cercanos a 0 indican mayor precisión predictiva.

La interpretación de los valores típicos de MAPE se presenta en la Tabla 5, según la Ref. [57].

Figura 5. Valores observados vs. pronosticados del número de accidentes de tráfico mediante el modelo SARIMA.

El modelo SARIMA logró captar la tendencia general (es decir, sabe en qué meses los accidentes van a aumentar o disminuir) pero falló en términos de precisión. Al comienzo del año, el modelo sobredimensionó la disminución de accidentes y, a finales de 2019, predecía de manera constante más incidentes de los que pasaron en realidad.

Detrás de esos números hay personas. El aumento drástico de accidentes en la segunda mitad del año refleja el peligro de los días más cortos y el clima invernal serbio. Sin embargo, el “error” estadístico al final de la gráfica es una victoria humana: que la línea real quede por debajo del pronóstico significa que hubo entre 50 y 100 accidentes menos al mes de los que dictaba la historia. Son decenas de tragedias que se evitaron, probablemente gracias a campañas de prevención vial o un invierno menos severo de lo habitual.

El modelo ajustado es un SARIMA\((0,1,2)\times(1,1,0)_{12}\), el cual se compone de una parte no estacional y una parte estacional.

La frecuencia del modelo es \(s = 12\), lo que indica que los datos son mensuales y presentan un patrón estacional anual.

El modelo completo puede expresarse como:

\[ (1 - \Phi_1 B^{12})(1 - B^{12})(1 - B)Y_t = (1 + \theta_1 B + \theta_2 B^2)\varepsilon_t \]

El modelo indica que, una vez eliminadas la tendencia y la estacionalidad, la serie se explica por choques recientes (componente MA(2)) y por la relación con el mismo periodo del año anterior (componente AR estacional).

Tabla 3. Resultados de estimación de error
Month.Year	yt	ft	yt2	ft2	et	et2	abs_et	abs_et_yt
1.2019	1529	1379.152	2337841	1902060	149.8481	22454.4384	149.8481	0.0980
2.2019	1310	1164.512	1716100	1356088	145.4881	21166.7827	145.4881	0.1111
3.2019	1529	1498.804	2337841	2246414	30.1958	911.7889	30.1958	0.0197
4.2019	1426	1475.000	2033476	2175625	-48.9998	2400.9842	48.9998	0.0344
5.2019	1500	1508.828	2250000	2276562	-8.8279	77.9312	8.8279	0.0059
6.2019	1451	1497.871	2105401	2243619	-46.8715	2196.9345	46.8715	0.0323
7.2019	1414	1337.726	1999396	1789511	76.2738	5817.6964	76.2738	0.0539
8.2019	1299	1314.596	1687401	1728163	-15.5961	243.2381	15.5961	0.0120
9.2019	1408	1551.547	1982464	2407298	-143.5470	20605.7528	143.5470	0.1020
10.2019	1627	1712.484	2647129	2932602	-85.4842	7307.5421	85.4842	0.0525
11.2019	1565	1650.471	2449225	2724054	-85.4710	7305.2839	85.4710	0.0546
12.2019	1659	1743.171	2752281	3038646	-84.1713	7084.8021	84.1713	0.0507
Total	17717	17834.163	26298555	26820642	-117.1629	97573.1753	920.7745	0.6272
Fuente: Elaboración propia

Tabla 4. Indicadores de error
Model	MAE_MAD	MAPE	Theils_U1
SARIMA(0,1,2)x(1,1,0)[12]	77	5.23%	0.0303
Fuente: Elaboración propia

Interpretación del MAPE
MAPE	Interpretation
<10	Highly accurate forecasting
10-20	Good forecasting
20-50	Reasonable forecasting
>50	Inaccurate forecasting
Tabla 5. Interpretación del MAPE
Fuente: Elaboración propia

El MAPE se usa comúnmente porque es fácil de interpretar y explicar. Por ejemplo, un valor de MAPE del 5,22 % significa que la diferencia promedio entre el valor pronosticado y el valor real es del 5,22 %. Mide esta precisión como un porcentaje que se puede calcular como el error porcentual absoluto promedio para cada período menos los valores reales, dividido por los valores reales.

Los valores logarítmicos para la predicción del número de accidentes de tráfico por mes, con intervalos de confianza del 80 % y del 95 %, se muestran en la Figura 5.

## 
## ================ STATIONARITY TEST =================

## 
##  Augmented Dickey-Fuller Test
## 
## data:  y_diff
## Dickey-Fuller = -7.3227, Lag order = 3, p-value = 0.01
## alternative hypothesis: stationary

## 
##  Augmented Dickey-Fuller Test
## 
## data:  y_seasonal_diff
## Dickey-Fuller = -3.37, Lag order = 3, p-value = 0.07761
## alternative hypothesis: stationary

Figura 6.Registro de valores de pronóstico e intervalos de confianza para 2019. Fuente: Elaboración propia.

La transformación logarítmica es una de las técnicas de transformación de datos más populares. Se utiliza principalmente para transformar una distribución asimétrica en una distribución normal o menos asimétrica.

En otras palabras, la transformación logarítmica reduce o elimina la asimetría de nuestros datos originales.

Los valores de la previsión del número de accidentes de tráfico por mes para 2019 (línea discontinua) se muestran en la Figura 6.

Figura 7. Gráfico base: Línea continua para los datos de entrenamiento (2016-2018). Fuente: Elaboración propia.

La Figura 6 muestra el patrón de accidentes de tráfico, que se repite año tras año con pequeñas variaciones. Se observa que, tras un menor número de accidentes en el primer trimestre, el número de accidentes aumenta en el segundo trimestre. Debido a la temporada de vacaciones, el número de accidentes de tráfico disminuyó en el tercer trimestre. En el periodo estudiado (2016-2019), la mayoría de los accidentes de tráfico se produjeron en el último mes del tercer trimestre (septiembre, inicio del curso escolar para las escuelas primarias y secundarias) y en el último trimestre.

Table 6. Choice of best SARIMA model—Data (2016–2018).
SARIMA	AIC
SARIMA (2,1,2) \(\times\) (1,1,1)\(^{12}\)	-56.10450
SARIMA (0,1,0) \(\times\) (0,1,0)\(^{12}\)	-46.66586
SARIMA (1,1,0) \(\times\) (1,1,0)\(^{12}\)	-58.06021
SARIMA (0,1,1) \(\times\) (0,1,1)\(^{12}\)	-58.93236
SARIMA (0,1,0) \(\times\) (1,1,0)\(^{12}\)	-53.76891
SARIMA (0,1,0) \(\times\) (0,1,1)\(^{12}\)	-52.02005
SARIMA (0,1,0) \(\times\) (1,1,1)\(^{12}\)	-51.76747
SARIMA (1,1,0) \(\times\) (0,1,0)\(^{12}\)	-50.33068
SARIMA (1,1,0) \(\times\) (0,1,1)\(^{12}\)	-55.87773
SARIMA (1,1,0) \(\times\) (1,1,1)\(^{12}\)	-56.15107
SARIMA (2,1,0) \(\times\) (0,1,0)\(^{12}\)	-49.97647
SARIMA (1,1,1) \(\times\) (0,1,0)\(^{12}\)	-51.32873
SARIMA (1,1,1) \(\times\) (1,1,0)\(^{12}\)	-59.13540
SARIMA (1,1,1) \(\times\) (1,1,1)\(^{12}\)	-57.15854
SARIMA (1,1,1) \(\times\) (0,1,1)\(^{12}\)	-56.97414
SARIMA (0,1,1) \(\times\) (1,1,0)\(^{12}\)	-60.98943
SARIMA (2,1,1) \(\times\) (1,1,0)\(^{12}\)	-57.37561
SARIMA (1,1,2) \(\times\) (1,1,0)\(^{12}\)	-59.58830
SARIMA (0,1,2) \(\times\) (1,1,0)\(^{12}\)	-59.19096
SARIMA (0,1,2) \(\times\) (0,1,0)\(^{12}\)	-51.33233
SARIMA (0,1,2) \(\times\) (1,1,1)\(^{12}\)	-57.24781
SARIMA (0,1,2) \(\times\) (0,1,1)\(^{12}\)	-56.98444
SARIMA (0,1,3) \(\times\) (1,1,0)\(^{12}\)	-57.33942
SARIMA (1,1,3) \(\times\) (1,1,0)\(^{12}\)	-57.77039
Fuente: Elaboración propia
Best model: SARIMA (0,1,2)(1,1,0) [12]

Table 7. Choice of best SARIMA model—Data (2016–2018).
SARIMA	AIC
SARIMA (2,1,2) \(\times\) (1,1,1)\(^{12}\)	Inf
SARIMA (0,1,0) \(\times\) (0,1,0)\(^{12}\)	-46.66586
SARIMA (1,1,0) \(\times\) (1,1,0)\(^{12}\)	Inf
SARIMA (0,1,1) \(\times\) (0,1,1)\(^{12}\)	Inf
SARIMA (0,1,0) \(\times\) (1,1,0)\(^{12}\)	Inf
SARIMA (0,1,0) \(\times\) (0,1,1)\(^{12}\)	Inf
SARIMA (0,1,0) \(\times\) (1,1,1)\(^{12}\)	Inf
SARIMA (1,1,0) \(\times\) (0,1,0)\(^{12}\)	-50.33068
SARIMA (1,1,0) \(\times\) (0,1,1)\(^{12}\)	Inf
SARIMA (1,1,0) \(\times\) (1,1,1)\(^{12}\)	Inf
SARIMA (2,1,0) \(\times\) (0,1,0)\(^{12}\)	-49.97647
SARIMA (1,1,1) \(\times\) (0,1,0)\(^{12}\)	-51.32873
SARIMA (1,1,1) \(\times\) (1,1,0)\(^{12}\)	-59.1354
SARIMA (1,1,1) \(\times\) (1,1,1)\(^{12}\)	Inf
SARIMA (1,1,1) \(\times\) (0,1,1)\(^{12}\)	Inf
SARIMA (0,1,1) \(\times\) (1,1,0)\(^{12}\)	Inf
SARIMA (2,1,1) \(\times\) (1,1,0)\(^{12}\)	-57.37561
SARIMA (1,1,2) \(\times\) (1,1,0)\(^{12}\)	Inf
SARIMA (0,1,2) \(\times\) (1,1,0)\(^{12}\)	-59.19096
SARIMA (0,1,2) \(\times\) (0,1,0)\(^{12}\)	-51.33234
SARIMA (0,1,2) \(\times\) (1,1,1)\(^{12}\)	Inf
SARIMA (0,1,2) \(\times\) (0,1,1)\(^{12}\)	Inf
SARIMA (0,1,3) \(\times\) (1,1,0)\(^{12}\)	-57.33942
SARIMA (1,1,3) \(\times\) (1,1,0)\(^{12}\)	Inf
Fuente: Elaboración propia basado de [1]
Best model: SARIMA (0,1,2)(1,1,0) [12]

Dado que un valor bajo de AIC indica un modelo más simple en comparación con un modelo con un valor más alto, se seleccionó SARIMA (0,1,1) × (1,1,0)12 como el modelo que mejor se ajustaba a los datos. La identificación del modelo se basa en la comparación de las funciones de autocorrelación (FAC) de la autocorrelación parcial (FACP) con los perfiles teóricos de estas funciones. La identificación del modelo se caracteriza por una considerable subjetividad. Para minimizar la subjetividad y mejorar el proceso de determinación de la clasificación del proceso ARIMA, se utilizan algunos criterios de selección de modelos. Los más conocidos son los criterios de información, como el Criterio de Información de Akaike (AIC) o el Criterio de Información Bayesiano (BIC) y su versión normalizada. Todos los criterios se basan en la evaluación del ajuste de modelos no lineales, teniendo en cuenta el número de parámetros del modelo. Consisten en el logaritmo natural del error cuadrático mínimo y la penalización por el número de parámetros estimados [60,61], ecuaciones (12)–(14).

\[ AIC = T\ln(MSE) + 2k \tag{12} \]

\[ BIC = T\ln(MSE) + k\ln(T) \tag{13} \]

\[ \text{Normalized } BIC = \ln(MSE) + k\dfrac{\ln(T)}{T} \tag{14} \]

En las Ecuaciones (12)–(14), \(T\) representa el número de observaciones y \(k\) el número de parámetros del modelo (\(k = p + q + P + Q + 1\)). El número \(MSE\) es el error cuadrático medio. El resultado de los pasos de identificación se representa mediante la estructura del modelo correspondiente \((p,d,q) \times (P,D,Q)^S\). La estimación del modelo se basa en ajustar el modelo seleccionado en el paso anterior y determinar los parámetros del modelo. Este paso se basa en los métodos de mínimos cuadrados no lineales y máxima verosimilitud.

La validación del modelo, el paso final del método de Box–Jenkins, implica analizar la estacionariedad, invertibilidad y redundancia de los parámetros del modelo [@Box2015]. Si los residuales, es decir, la diferencia entre los valores reales y los valores estimados por el modelo, son aleatorios, el modelo es satisfactorio. De lo contrario, es necesario repetir el proceso de identificación y estimación del modelo para encontrar un modelo mejor.

Las siguientes figuras (Figuras 7 y 8) muestran el gráfico de la función de autocorrelación (ACF) y la ACF parcial (PACF).

Nuestro objetivo es encontrar un modelo SARIMA adecuado basado en la ACF y la PACF mostradas en las Figuras 7 y 8 para los datos de 2016–2018, con el fin de probarlo con los datos de 2019. Las oscilaciones significativas en los rezagos 1, 7 y 13 en la ACF indican una componente MA(1) no estacional, y las oscilaciones significativas en los rezagos 5 y 9 en la ACF indican una componente MA(1) estacional.

Figura 8. Función de autocorrelación (ACF) de la serie original de accidentes de tráfico.

El ACF de la serie original (Figura 7) muestra una autocorrelación significativa en el rezago 12 (lag = 1.0), lo que confirma la presencia de un patrón estacional anual. Esto justifica la aplicación de una diferenciación estacional \((1-B^{12})\) y una transformación logarítmica antes de ajustar el modelo SARIMA.

Figura 9. Diagrama ACF (2016–2018). Fuente: elaboración propia.

El ACF de \(\text{diff}(\log(\text{accidents}))\) (Figura 7) muestra que, tras aplicar la transformación logarítmica y la diferenciación, la serie es estacionaria. Los picos significativos en los rezagos 1 y 12 indican una componente MA no estacional y una estructura estacional anual, lo que es consistente con el modelo seleccionado SARIMA\((0,1,2)\times(1,1,0)_{12}\).

Figura 10. Diagrama PACF (2016–2018). Fuente: elaboración propia.

La función de autocorrelación parcial (PACF) muestra oscilaciones significativas en los retardos (lags) 4 y 8, lo que sugiere que es necesario incluir algunos términos adicionales no estacionales en el modelo. También probamos otros modelos con términos AR (autorregresivos), pero ninguno dio como resultado un valor de AICc menor. Por lo tanto, decidimos utilizar el modelo SARIMA \((0,1,2) \times (1,1,0)^{12}\).

Cuando se utilizaron todos los datos (2016–2019) para construir el modelo, la aplicación de la función auto.arima dio como resultado el siguiente modelo: SARIMA \((0,1,1) \times (1,1,0)^{12}\). Los resultados del análisis de residuos se muestran en la Figura 9. Casi todos los picos se encuentran ahora dentro de los límites de significancia en el diagrama ACF.

## [[1]]
## NULL
## 
## [[2]]
## NULL

Figura 11. Análisis diagnóstico de residuos del modelo SARIMA (0,1,1)×(1,1,0)[12]: serie de residuos, ACF, gráfico Q–Q y prueba de Ljung–Box. Fuente elaboración propia

El residuo estandarizado se determina dividiendo la diferencia entre los valores observados y esperados por la raíz cuadrada del valor esperado. Un tipo de residuo que a menudo utilizamos para identificar valores atípicos en un modelo es el residuo estandarizado.

A partir de las figuras de los residuos estandarizados y la función de autocorrelación (ACF) de los residuos, podemos observar que existen las siguientes condiciones:No hay valores atípicos excesivamente grandes; la mayoría de los residuos estandarizados se sitúan en el rango de \([-2, 2]\), con una sola fluctuación que alcanza el valor de \(-3\) a principios de 2017, la cual se estabiliza rápidamente. La figura del gráfico Q-Q normal de los residuos estándar muestra que la gran mayoría de los datos siguen la línea de normalidad, con apenas unos pocos valores en los extremos que se sitúan ligeramente fuera del intervalo de confianza, lo que valida la distribución de los errores.En cuanto a la Función de Autocorrelación (ACF), todos los picos se encuentran dentro de los límites de significancia, lo que indica que los residuos se comportan como ruido blanco. Un valor p significativo en la prueba estadística de Ljung-Box rechazaría la hipótesis nula de que la serie temporal está autocorrelacionada; sin embargo, la figura de los valores p para la estadística de Ljung-Box muestra que todos los puntos están significativamente por encima del umbral de \(0,05\). Por lo tanto, no hay base para rechazar la hipótesis nula, confirmando que el modelo ha capturado adecuadamente la estructura de los datos.Para demostrar la robustez del modelo propuesto, se realiza una comparación con otros métodos conocidos de la Ref. [63]. El conjunto de datos de la Ref. [63] corresponde a la producción mensual de equipos eléctricos (computadoras, productos electrónicos y ópticos) en la Eurozona (17 países) en el período de enero de 1996 a marzo de 2012. En el estudio de la Ref. [63], se observa que el método SARIMA ocupa el tercer lugar entre los diez métodos seleccionados (con el valor más bajo) y el valor MAPE es un \(0,09\%\) superior al de los dos primeros métodos. Los diez métodos seleccionados fueron (en orden descendente según el valor MAPE): Naïve, Prophet, Naïve estacional, NNETAR, Suavizado exponencial, ARIMA + Descomposición, Suavizado exponencial + Descomposición, SARIMA, GARCH + Descomposición y TBATS [63].

7. Conclusión

Al igual que en otros estudios [64-66], el número de accidentes de tráfico se consideró de forma mensual. El estudio de la correlación espaciotemporal de los accidentes de tráfico se aborda en los trabajos [65,66], que no están incluidos en este artículo y representan una de las líneas para futuras investigaciones. La principal diferencia con los trabajos estudiados es que este trabajo indica claramente que la mayoría de los accidentes de tráfico ocurren en el último trimestre del año. Si la correlación espaciotemporal se llevara a cabo sobre la base de zonas individuales y diferentes años, se podrían observar los resultados del trabajo en materia de prevención de seguridad vial.

Este artículo presenta un análisis de series de tiempo que ofreció una imagen clara de la existencia de un patrón en el número de accidentes de tráfico mensualmente para el período 2016–2019. La predicción del número de accidentes de tráfico durante ciertos períodos del año es una parte importante de la gestión del tráfico en un área determinada. Informar a los ciudadanos sobre el estado de la seguridad vial contribuye significativamente a la comprensión del problema, mejora las actitudes de los ciudadanos hacia la seguridad vial y perfecciona el comportamiento en el tráfico.

El apoyo y la asistencia a otros sectores de la seguridad vial deben contribuir a su labor y a la mejora de determinados aspectos de la seguridad vial. Mejorar el pronóstico mensual del número de accidentes de tráfico puede tener varios efectos positivos para la ciudad y sus ciudadanos. Por ejemplo, identificar los meses problemáticos del año puede llevar a las autoridades competentes a tomar medidas para combatir los problemas mediante cambios en la estrategia de seguridad vial.

Los resultados del análisis de las series de tiempo y del método SARIMA muestran que durante cuatro años consecutivos, la mayoría de los accidentes de tráfico ocurrieron en el cuarto trimestre. La campaña de seguridad vial es un sistema de actividades cuyo objetivo general es promover un uso más seguro de las vías. Los objetivos específicos de las campañas de seguridad vial se relacionan con el cambio de conocimientos, actitudes, habilidades y comportamientos viales, todo ello con el fin de mejorar la seguridad vial.

En este artículo se propuso un modelo matemático para la predicción de accidentes de tráfico para el caso de la ciudad de Belgrado. Los resultados del modelo deben tomarse con cautela, ya que no todos los accidentes de tráfico son reportados a la policía, especialmente aquellos que involucran daños materiales menores. Los resultados de la aplicación de las librerías del lenguaje de programación R muestran que el modelo SARIMA \((0,1,2)\times(1,1,0)_{12}\) es el más adecuado para el modelado según los datos abiertos de 2016 a 2018. Si se utilizaran datos abiertos de 2016 a 2019 para construir el modelo, el mejor modelo sería SARIMA \((0,1,1)\times(1,1,0)_{12}\).

Las investigaciones futuras se centrarán en el desarrollo de modelos de pronóstico para otros municipios de la República de Serbia, así como para otros países. El estudio de la predicción del número de accidentes de tráfico de forma mensual aún no ha sido explorado en su totalidad. En el futuro, se planea probar nuevos algoritmos para detectar anomalías (días festivos, rutas específicas, etc.). Esta investigación puede llevarse a cabo mediante un método híbrido compuesto por enfoques estadísticos y de redes neuronales presentados en numerosas referencias de la literatura.

El modelado y la predicción pueden mejorarse aún más para extraer datos más relevantes sobre accidentes de tráfico y reducir su complejidad. A medida que aumenta la motorización, también lo hace el número de accidentes de tráfico y todas las consecuencias negativas asociadas. Por lo tanto, es necesario un análisis y una evaluación constantes de la situación actual. Estadísticamente, por cada accidente con víctimas mortales, se producen aproximadamente 47 accidentes de tráfico con heridos y unos 130 accidentes con daños materiales. Según los datos disponibles de 2016, este trabajo ha demostrado que se pueden obtener resultados y conclusiones relevantes a partir de los datos abiertos de la base de datos de accidentes de tráfico. Estos resultados y conclusiones pueden utilizarse para determinar medidas preventivas y campañas de seguridad vial en la ciudad de Belgrado. Una posible medida para mejorar la gestión de los datos abiertos sobre accidentes de tráfico sería aumentar la cantidad de información publicada en el portal de datos abiertos. Por supuesto, se debe tener cuidado de proteger los datos personales de las personas involucradas en accidentes de tráfico. Algunos datos generales pueden publicarse en la sección de datos abiertos de la documentación de la investigación, como las condiciones meteorológicas vigentes en el momento del accidente o datos sobre la visibilidad general. Entre otras cosas, es necesario proporcionar información sobre el estado general del vehículo cuando este se somete a una investigación técnica (por ejemplo, el estado del sistema de frenos). Una categoría especial podría referirse al conductor e incluir información general sobre él (por ejemplo, edad, profesión, años de experiencia al volante, si conduce ocasionalmente, si estaba bajo los efectos del alcohol o de opiáceos). Finalmente, podría añadirse una columna a la nota con información que los organismos de investigación consideren importante, sin que esté incluida en ninguna de las columnas anteriores.

8. Referencias

Deretić, N., Stanimirović, D., Awadh, M. A., Vujanović, N., & Djukić, A. (2022). SARIMA modelling approach for forecasting of traffic accidents. Sustainability, 14(8), 4403. https://doi.org/10.3390/su14084403

2 . Statistics How To. (s.f.). U Statistic: Definition, Different Types; Theil’s U. Recuperado el 1 de mayo de 2026, de https://www.statisticshowto.com/u-statistic-theils/

Memiš, S.; Demir, E.; Karamaša, Ç.; Korucuk, S. Prioritization of road transportation risks: An application in Giresun province. Oper. Res. Eng. Sci. Theory Appl. 2020, 3, 111–126. [CrossRef]
Sénquiz-Díaz, C. Transport infrastructure quality and logistics performance in exports. ECONOMICS-Innov. Econ. Res. 2021, 9, 107–124. [CrossRef]
Pešić, D.; Pešić, A. Monitoring of Road Safety Performance Indicators–Current Situation and Trends in The Republic of Serbia. Transp. Res. Procedia 2020, 45, 70–77. [CrossRef]
Pérez-Núñez, R.; Hidalgo-Solórzano, E.; Híjar, M. Impact of Mexican Road Safety Strategies implemented in the context of the UN’s Decade of Action. Accid. Anal. Prev. 2021, 159, 106227. [CrossRef]
Bliss, T.; Breen, J. Meeting the management challenges of the Decade of Action for Road Safety. IATSS Res. 2012, 35, 48–55. [CrossRef]
Morimoto, A.; Wang, A.; Kitano, N. A conceptual framework for road traffic safety considering differences in traffic culture through international comparison. IATSS Res. 2021, 46, 3–13. [CrossRef]
Ali, F.; Ali, A.; Imran, M.; Naqvi, R.A.; Siddiqi, M.H.; Kwak, K.S. Traffic accident detection and condition analysis based on social networking data. Accid. Anal. Prev. 2021, 151, 105973. [CrossRef]
Scott, P.P. Modelling time–series of British road accident data. Accid. Anal. Prev. 1986, 18, 109–117. [CrossRef]
Broughton, J. Forecasting road accident casualties in Great Britain. Accid. Anal. Prev. 1991, 23, 353–362. [CrossRef]
Quddus, M.A. Time series count data models: An empirical application to traffic accidents. Accid. Anal. Prev. 2008, 40, 1732–1741. [CrossRef]
Brüde, U. What is happening to the number of fatalities in road accidents? A model for forecasts and continuous monitoring of development up to the year 2000. Accid. Anal. Prev. 1995, 27, 405–410. [CrossRef]
Dadashova, B.; Arenas–Ramírez, B.; Mira–McWilliams, J.; Aparicio–Izquierdo, F. Methodological development for selection of significant predictors explaining fatal road accidents. Accid. Anal. Prev. 2016, 90, 82–94. [CrossRef]
Milenković, M.; Švadlenka, L.; Melichar, V.; Bojović, N.; Avramović, Z. SARIMA modelling approach for railway passenger flow forecasting. Transport 2018, 33, 1113–1120. [CrossRef]
Lavrenz, S.M.; Vlahogianni, E.I.; Gkritza, K.; Ke, Y. Time series modeling in traffic safety research. Accid. Anal. Prev. 2018, 117, 368–380. [CrossRef]
Carnis, L.; Blais, E. An assessment of the safety effects of the French speed camera program. Accid. Anal. Prev. 2013, 51, 301–309. [CrossRef]
Commandeur, J.J.; Bijleveld, F.D.; Bergel-Hayat, R.; Antoniou, C.; Yannis, G.; Papadimitriou, E. On statistical inference in time series analysis of the evolution of road safety. Accid. Anal. Prev. 2013, 60, 424–434. [CrossRef]
Quddus, M.A. Non–Gaussian interrupted time series regression analysis for evaluating the effect of smart motorways on road traffic accidents. Proceedings of the TRB Annual Meeting, Washington, DC, USA, 2016.
Sebego, M.; Naumann, R.B.; Rudd, R.A.; Voetsch, K.; Dellinger, A.M.; Ndlovu, C. The impact of alcohol and road traffic policies on crash rates in Botswana, 2004–2011. Accid. Anal. Prev. 2014, 70, 33–39. [CrossRef]
Vanlaar, W.; Robertson, R.; Marcoux, K. An evaluation of Winnipeg’s photo enforcement safety program. Accid. Anal. Prev. 2014, 62, 238–247. [CrossRef]
Ihueze, C.C.; Onwurah, U.O. Road traffic accidents prediction modelling: An analysis of Anambra State, Nigeria. Accid. Anal. Prev. 2018, 112, 21–29. [CrossRef]
Sangare, M.; Gupta, S.; Bouzefrane, S.; Banerjee, S.; Muhlethaler, P. Exploring the forecasting approach for road accidents: Analytical measures with hybrid machine learning. Expert Syst. Appl. 2020, 167, 113855. [CrossRef]
Almeida, A.; Brás, S.; Oliveira, I.; Sargento, S. Vehicular traffic flow prediction using deployed traffic counters in a city. Future Gener. Comput. Syst. 2022, 128, 429–442. [CrossRef]
Olayode, I.O.; Tartibu, L.K.; Okwu, M.O. Prediction and modeling of traffic flow of human–driven vehicles at a signalized road intersection. Transp. Eng. 2021, 6, 100095. [CrossRef]
Qian, Y.; Zhang, X.; Fei, G.; Sun, Q.; Li, X.; Stallones, L.; Xiang, H. Forecasting deaths of road traffic injuries in China using an artificial neural network. Traffic Inj. Prev. 2020, 21, 407–412. [CrossRef]
Rahim, M.A.; Hassan, H.M. A deep learning based traffic crash severity prediction framework. Accid. Anal. Prev. 2021, 154, 106090. [CrossRef]
Fu, X.; Liu, J.; Jones, S.; Barnett, T.; Khattak, A. From the past to the future: Modeling the temporal instability of safety performance functions. Accid. Anal. Prev. 2022, 167, 106592. [CrossRef]
Afrin, T.; Yodo, N. A Long Short–Term Memory–based correlated traffic data prediction framework. Knowl.-Based Syst. 2022, 237, 107755. [CrossRef]
Slimani, N.; Slimani, I.; Amghar, M.; Sbiti, N. Road traffic forecasting using a real data set in Morocco. Procedia Comput. Sci. 2020, 177, 128–135. [CrossRef]
Naqvi, N.K.; Quddus, M.A.; Enoch, M.P. Do higher fuel prices help reduce road traffic accidents? Accid. Anal. Prev. 2020, 135, 105353. [CrossRef]
Katrakazas, C.; Michelaraki, E.; Sekadakis, M.; Ziakopoulos, A.; Kontaxi, A.; Yannis, G. Impact of the COVID–19 pandemic on driving behavior using time series forecasting. J. Saf. Res. 2021, 78, 189–202. [CrossRef]
Park, J.; Abdel-Aty, M.; Wang, J.H. Time series trends of the safety effects of pavement resurfacing. Accid. Anal. Prev. 2017, 101, 78–86. [CrossRef]
Vipin, N.; Rahul, T. Road traffic accident mortality analysis based on time of occurrence: Evidence from Kerala, India. Clin. Epidemiol. Glob. Health 2021, 11, 100745.
Roland, J.; Way, P.D.; Firat, C.; Doan, T.N.; Sartipi, M. Modeling and predicting vehicle accident occurrence in Chattanooga, Tennessee. Accid. Anal. Prev. 2021, 149, 105860. [CrossRef]
Shannon, D.; Fountas, G. Extending the Heston model to forecast motor vehicle collision rates. Accid. Anal. Prev. 2021, 159, 106250. [CrossRef]
Al-Hasani, G.; Khan, A.M.; Al-Reesi, H.; Al-Maniri, A. Diagnostic time series models for road traffic accidents data. Int. J. Appl. Stat. Econom. 2019, 2, 26.
Rashidi, M.H.; Keshavarz, S.; Pazari, P.; Safahieh, N.; Samimi, A. Modeling the accuracy of traffic crash prediction models. IATSS Res. 2022, in press. [CrossRef]
Lunacek, M.; Williams, L.; Severino, J.; Ficenec, K.; Ugirumurera, J.; Eash, M.; Ge, Y.; Phillips, C. A data-driven operational model for traffic at the Dallas Fort Worth International Airport. J. Air Transp. Manag. 2021, 94, 102061. [CrossRef]
Sarmento, P.; Motta, M.; Scott, I.J.; Pinheiro, F.L.; de Castro Neto, M. Impact of COVID-19 lockdown measures on waste production behavior in Lisbon. Waste Manag. 2022, 138, 189–198. [CrossRef]
Melchior, C.; Zanini, R.R.; Guerra, R.R.; Rockenbach, D.A. Forecasting Brazilian mortality rates due to occupational accidents using autoregressive moving average approaches. Int. J. Forecast. 2021, 37, 825–837. [CrossRef]
Chang, F.; Huang, H.; Chan, A.H.; Man, S.S.; Gong, Y.; Zhou, H. Capturing long-memory properties in road fatality rate series by an ARFIMA-GARCH model. J. Saf. Res. 2022, in press. [CrossRef]
Barcellos, R.; Bernardini, F.; Viterbo, J. Towards defining data interpretability in open data portals. Inf. Syst. 2022, 106, 101961. [CrossRef]
Feng, Y.; Shah, C. Unifying telescope and microscope: A multi–lens framework with open data for modelling emerging events. Inf. Processing Manag. 2022, 59, 102811. [CrossRef]
De Souza, A.A.C.; d’Angelo, M.J.; Lima Filho, R.N. Effects of Predictors of Citizens’ Attitudes and Intention to Use Open Government Data. Gov. Inf. Q. 2022, 39, 101663. [CrossRef]
Gutierrez–Osorio, C.; Pedraza, C. Modern data sources and techniques for analysis and forecast of road accidents: A review. J. Traffic Transp. Eng. 2020, 7, 432–446. [CrossRef]
Veljković, N.; Bogdanović–Dinić, S.; Stoimenov, L. Benchmarking open government: An open data perspective. Gov. Inf. Q. 2014, 31, 278–290. [CrossRef]
Portal Otvorenih Podataka. Podaci o Saobraćajnim Nezgodama za Teritoriju Grada Beograda. data.gov.rs (accessed on 15 Dec 2021).
Portal Otvorenih Podataka. Podaci o Saobraćajnim Nezgodama po Policijskim Upravama i Opštinama. data.gov.rs (accessed on 15 Dec 2021).
Pravno Informacioni System. Zakon o Elektronskoj Upravi. Službeni Glasnik 27. 2018. Link (accessed on 15 Dec 2021).
Sekadakis, M.; Katrakazas, C.; Michelaraki, E.; Kehagia, F.; Yannis, G. Impact of COVID–19 on collisions, fatalities and injuries in Greece. Accid. Anal. Prev. 2021, 162, 106391. [CrossRef]
Box, G.E.; Jenkins, G.M.; Reinsel, G.C. Time Series Analysis: Forecasting and Control; John Wiley & Sons: Hoboken, NJ, USA, 2013.
Sun, J.; Tang, M. The Programming Languages: Introduction of R. Syst. Med. Integr. Qual. Comput. Approaches 2021, 1, 1–8.
Venables, W.N.; Ripley, B.D. Modern Applied Statistics with S, 4th ed.; Springer: New York, NY, USA, 2002.
Trapletti, A.; Hornik, K. Tseries: Time Series Analysis and Computational Finance. R Package Version 0.10–50. 2021.
Hyndman, R.J.; Athanasopoulos, G. Forecast: Forecasting functions for time series and linear models. R Package Version 8.13. 2020.
Stoffer, D. Astsa: Applied Statistical Time Series Analysis. R Package Version 1.12. 2021.
Lütkepohl, H.; Xu, F. The role of the log transformation in forecasting economic variables. Empir. Econ. 2012, 42, 619–638. [CrossRef]
Lewis, C.D. Industrial and Business Forecasting Models; Butterworths: London, UK, 1982.
Yaffee, R.A.; McGee, M. Introduction to Time Series Analysis and Forecasting; Academic Press Inc.: Orlando, FL, USA, 2000.
Knežević, N.; Glišović, N.; et al. Prognoziranje prihoda od poštanskih usluga korišćenjem neuronskih mreža. PosTel 2018, Beograd, Serbia, 2018.
Milenković, M.; Bojović, N. Handbook of Research on Emerging Innovations in Rail Transportation Engineering; IGI Global: Hershey, PA, USA, 2016.
Towards Data Science. An Overview of Time Series Forecasting Models. [Online] (accessed on 23 March 2022).
García-Ferrer, A.; Bujosa, M.; et al. Revisiting the relationship between traffic accidents, real economic activity and other factors in Spain. Accid. Anal. Prev. 2020, 144, 105549. [CrossRef]
Ramírez, A.F.; Valencia, C. Spatiotemporal correlation study of traffic accidents with fatalities and injuries in Bogota. Accid. Anal. Prev. 2021, 149, 105848. [CrossRef]
Comi, A.; Polimeni, A.; Balsamo, C. Road Accident Analysis with Data Mining Approach: Evidence from Rome. Transp. Res. Procedia 2022, 62, 798–805. [CrossRef]
Box, G. E. P., Jenkins, G. M., Reinsel, G. C., & Ljung, G. M. (2008). Time Series Analysis: Forecasting and Control (4th ed.). Wiley. Capítulo 9.