Introducción

El presente estudio se centra en el análisis y predicción de las primeras matriculaciones de vehículos nuevos en el Reino Unido, un indicador para comprender la dinámica del sector automotriz. La serie temporal, recopilada de la Organización para la Cooperación y el Desarrollo Económicos (OCDE), abarca un periodo de una década (2014-2020), ofreciendo una serie que permite identificar tendencias estructurales.

La relevancia de esta investigación radica en su capacidad para proporcionar predicciones estratégicas en un sector caracterizado por su complejidad y sensibilidad a factores económicos, sociales y, como se ha evidenciado recientemente, sanitarios. La irrupción de la pandemia de COVID-19 en 2020 representó un punto de inflexión que alteró significativamente los patrones de matriculación, subrayando la importancia de modelos predictivos robustos capaces de adaptarse a escenarios de alta incertidumbre.

El objetivo principal del estudio es desarrollar un modelo predictivo que capture tanto la estacionalidad inherente al mercado automotriz como su capacidad de adaptación a perturbaciones exógenas. Para ello, se implementará el modelo SARIMA (Seasonal Autoregressive Integrated Moving Average), una metodología ampliamente reconocida en el campo de las series temporales económicas por su capacidad de modelar componentes tanto estacionales como no estacionales.

Metodología

La metodología de investigación se fundamenta en un enfoque sistemático de análisis de series temporales, utilizando el modelo SARIMA para predecir las matriculaciones de vehículos nuevos en el Reino Unido. El proceso se inició con la preparación y exploración de los datos mensuales de matriculaciones comprendidos entre 2014 y 2020, recopilados de la OCDE, dividiendo la serie temporal en dos conjuntos: 74 observaciones para entrenamiento y 10 para validación. Se aplicaron técnicas de diagnóstico de estacionariedad mediante el Test de Dickey-Fuller, realizando diferenciaciones regulares y estacionales hasta lograr una serie estable, verificando mediante análisis de autocorrelogramas.

La construcción del modelo SARIMA implicó una selección rigurosa de parámetros, utilizando criterios como el AICc para identificar la configuración óptima que capturara tanto los componentes estacionales como los no estacionales de la serie. Una vez seleccionado el modelo, se procedió a su validación mediante análisis de residuos, empleando el test de Ljung-Box para verificar la ausencia de autocorrelación, y métricas de precisión como el MAPE y MASE. Finalmente, se generaron las predicciones utilizando los 74 datos de entrenamiento y se contrastaron con los 10 datos reales, lo que permitió evaluar la capacidad predictiva del modelo y su comportamiento bajo condiciones de incertidumbre, especialmente considerando el impacto de la pandemia de COVID-19 en el sector automotriz.

Datos de las primeras matriculación de vehículos nuevos en Reino Unido

Al examinar la serie temporal, se evidencia un marcado patrón estacional en las matrículas de vehículos nuevos. Los datos muestran una clara repetición de picos y valles a lo largo de los años, con los valores más altos concentrados en períodos específicos del año.

Específicamente, se observa una disminución notable en los meses de febrero a agosto, donde los niveles de matrículas tienden a ser más bajos. Por el contrario, se registran alzas elevadas en los meses de marzo y septiembre. Adicionalmente, se aprecia un pequeño aumento en las matrículas durante el mes de junio. Este comportamiento cíclico se debe, en gran medida, a factores inherentes al mercado automotriz. La planificación de los fabricantes y distribuidores, con lanzamientos de nuevos modelos en determinados meses, así como las prácticas de compra de los consumidores, especialmente durante las temporadas festivas y vacacionales, son algunos de los principales impulsores de esta estacionalidad.

La irrupción de la pandemia de COVID-19 en 2020 supuso una disrupción significativa en la serie temporal, con un marcado descenso en los niveles de matrículas de vehículos nuevos durante ese año, especialmente en los primeros meses. La incertidumbre económica, las interrupciones en la cadena de suministro y el debilitamiento de la confianza del consumidor fueron algunos de los principales factores que contribuyeron a esta caída en la demanda. No obstante, a medida que las economías comenzaron a recuperarse y las restricciones se fueron relajando, se observó una gradual recuperación de los niveles de matrículas durante la segunda mitad del año 2020.

Es importante destacar que, si bien la pandemia representó una disrupción significativa, los patrones estacionales subyacentes aún se mantuvieron visibles, aunque con una magnitud y amplitud atenuadas en comparación con los años previos.

ACF de la serie original:

Tras realizar el correlograma o la función de autocorrelación de la serie, todavía sin diferenciar se obtuvo lo siguiente:

El análisis del autocorrelograma de la serie original revela patrones interesantes que respaldan las observaciones previas sobre la estacionalidad de los datos de matrículas de vehículos nuevos en el Reino Unido. En primer lugar, se observan picos prominentes en los retardos 6, 12, 18, 24 y 30, lo que sugiere una fuerte componente estacional con un período de aproximadamente 6 meses. Esta periodicidad semestral podría estar relacionada con ciclos de lanzamientos de nuevos modelos o patrones de compra de los consumidores.

Sin embargo, al probar modelos SARIMA con un componente estacional de 6 meses, los resultados no fueron tan satisfactorios como cuando se utilizó una estacionalidad de 12 meses. Los valores de AICc (Criterio de Información de Akaike corregido, en lo cuál profundizaremos más adelante) fueron mayores en los modelos con estacionalidad semestral, lo que indica un peor ajuste a los datos. Esto podría indicar que, si bien existe una señal estacional a 6 meses, el patrón más dominante y robusto en la serie temporal es el de periodicidad anual (12 meses). Es posible que la estacionalidad semestral, aunque presente, no sea tan fuerte o consistente como la anual. Por lo tanto, el enfoque más adecuado sería modelar la serie con un componente estacional de 12 meses, lo cual parece capturar de manera más efectiva la dinámica subyacente de los datos.

Test de Dickey-Fuller de la serie original:

Cuando se realiza el test de Dickey-Fuller, se obtiene un valor de “P” igual a 0.5178

## 
##  Augmented Dickey-Fuller Test
## 
## data:  Datos_train
## Dickey-Fuller = -2.1413, Lag order = 12, p-value = 0.5178
## alternative hypothesis: stationary
  • La hipótesis nula (H₀ dice que la serie tiene una raíz unitaria (no es estacionaria).
  • La hipótesis alternativa (H1) dice que la serie no tiene una raíz unitaria (es estacionaria)

Como en el resultado obtenido el valor de P es superior a 0.05 se acepta H₀, lo que indica que la serie no es estacionaria , probablemente debido a la presencia de tendencias o fluctuaciones no estacionarias a nivel general o estacional. lo que quiere decir que en definitiva la serie es estacional.

En el contexto del modelo SARIMA (Seasonal ARIMA), es fundamental que la serie sea estacionaria no solo a nivel general, sino también respecto a sus patrones estacionales. Esto significa que tanto las tendencias de largo plazo como las fluctuaciones estacionales deben ser eliminadas antes de ajustar el modelo.

En este caso, el análisis de los datos de matriculación de automóviles en el Reino Unido desde 2014 hasta 2020 muestra que los picos ocurren regularmente en intervalos de 6 meses y que se repiten ciclicamente de manera anual. Este comportamiento refleja una estacionalidad significativa con una periodicidad bastante marcada. Por lo tanto, para estabilizar la varianza y eliminar las correlaciones estacionales persistentes, es necesario aplicar una diferenciación estacional (D=1), permitiendo que el modelo SARIMA cumpla con los supuestos de estacionariedad y pueda realizar predicciones más precisas basadas en los patrones históricos de la serie.

Ajuste de la serie para el modelo SARIMA

Serie diferenciada estacionalmente:

Una vez diferenciada la serie de manera estacional, se obtuvo:

La serie de tiempo diferenciada estacionalmente, presenta una evolución más suavizada y estable en comparación con la serie original. Se observa una menor variabilidad y la ausencia de los picos pronunciados que caracterizaban a la serie sin diferenciar. Sin embargo, a pesar de estas mejoras, no podemos concluir que la serie esté libre de tendencia únicamente con base en esta representación gráfica. Será necesario analizar el autocorrelograma y los resultados del test de Dickey-Fuller para determinar si la serie ha alcanzado la estacionariedad.

ACF de la serie diferenciada estacionalmente:

El autocorrelograma (ACF) de la serie diferenciada estacionalmente, muestra un patrón más complejo que el de la primera diferenciación. Si bien se observa una disminución gradual de los coeficientes de autocorrelación, aún se aprecian algunos rezagos significativos, lo que sugiere que la serie podría no ser completamente estacionaria.

Test de Dickey-Fuller de la serie diferenciada estacionalmente:

## 
##  Augmented Dickey-Fuller Test
## 
## data:  serie_DE
## Dickey-Fuller = -2.921, Lag order = 3, p-value = 0.2021
## alternative hypothesis: stationary

El resultado del test de Dickey-Fuller muestra un p-value = 0.2021, el cual es mayor al nivel de significancia de 0.05. Esto implica que no podemos rechazar la hipótesis nula (H₀). Lo anterior sugiere que, a pesar de aplicar una diferenciación, aún persisten tendencias o patrones estacionales que deben ser tratados antes de ajustar un modelo SARIMA. Aunque no necesariamente por esto es estacional, ya que lo que el test indica es que es no estacionaria, que no es lo mismo Una posible solución podría ser evaluar una diferenciación adicional, ya sea regular o estacional, para eliminar completamente la no estacionaridad.

Por las observaciones realizadas en el autocorrelograma y los resultados obtenidos del test de Dickey-Fuller, se aplicó una diferenciación adicional de segundo orden para tratar de reducir las posibles tendencias residuales y lograr una mayor estacionariedad en la serie. Este procedimiento permitirá evaluar si con esta transformación la serie cumple con los requisitos necesarios para el ajuste de un modelo SARIMA, como se presenta a continuación.

Serie con segunda diferenciación:

El gráfico de la serie de tiempo tras aplicar una segunda diferenciación regular (no estacional) refleja una notable reducción en la variabilidad y las fluctuaciones presentes en los datos originales. Este tratamiento parece haber mitigado de manera significativa tanto la tendencia como la no estacionariedad, proporcionando una representación más consistente y adecuada para su análisis.

ACF de la serie con segunda diferenciación:

El autocorrelograma de la serie diferenciada de segundo orden revela una disminución progresiva de los coeficientes de autocorrelación con el aumento en los rezagos. Aunque persisten algunos rezagos con valores significativos, estos son considerablemente menos pronunciados en comparación con los resultados tras la primera diferenciación. Este comportamiento sugiere que el proceso de diferenciación adicional ha contribuido significativamente a reducir la no estacionariedad de la serie.

Test de Dickey-Fuller de la serie con segunda diferenciación:

## 
##  Augmented Dickey-Fuller Test
## 
## data:  serie_dif
## Dickey-Fuller = -4.954, Lag order = 3, p-value = 0.01
## alternative hypothesis: stationary

Aplicado a la serie diferenciada de segundo orden, se obtuvo un p-valor de 0.01. Dado que este valor es inferior al nivel de significancia de 0.05, se puede rechazar la hipótesis nula de no estacionariedad. Por lo tanto, se concluye que la serie diferenciada de segundo orden es efectivamente estacionaria, cumpliendo así con uno de los requisitos fundamentales para el ajuste de un modelo SARIMA.

Modelo SARIMA

Determinación de Parámetros para el Modelo SARIMA:

Una vez confirmada la estacionariedad de la serie, se procedió a analizar nuevamente el ACF, observándose un comportamiento oscilatorio o sinusoidal en los rezagos. Este patrón es indicativo de una posible estructura autorregresiva y de media móvil en los datos. Para determinar los órdenes 𝑝 y 𝑞 del modelo ARIMA, así como los componentes estacionales 𝑃 y 𝑄 del modelo SARIMA, se evaluará el correlograma parcial (PACF).

Partiendo del análisis de los correlogramas ACF y PACF, se determinaron los posibles parámetros para el modelo SARIMA. Los rezagos significativos observados en el PACF en los lags 1, 2 y 5 sugieren que los posibles valores para el parámetro autorregresivo 𝑝 son estos, mientras que los rezagos significativos en el ACF en 1, 6 y 7 fueron considerados para el parámetro de media móvil 𝑞. El orden de diferenciación 𝑑 se estableció en 1, ya que se aplicó una diferenciación de segundo orden para lograr la estacionariedad de la serie. En cuanto al componente estacional, al no observarse rezagos significativos en los múltiplos de 12, correspondientes al período estacional mensual (𝑠 = 12), se definieron los parámetros autorregresivo estacional 𝑃 y de media móvil estacional 𝑄 como 0. Finalmente, el orden de diferenciación estacional 𝐷 se estableció en 1, al haber sido la primera diferenciación de la serie original.

Se plantearon siete combinaciones de los parámetros 𝑝 y 𝑞 para el modelo SARIMA, manteniendo constantes los valores del componente estacional y una estacionalidad de 12. Para evaluar el desempeño y seleccionar el modelo más adecuado, se consideraron tres posibles medidas de error: AIC (Criterio de Información de Akaike), BIC (Criterio de Información Bayesiano) y AICc (Akaike corregido para muestras pequeñas). Finalmente, se optó por utilizar el AICc como criterio principal para la selección, escogiendo el modelo que arrojó el menor valor.

##                     Modelo     AICc
##  SARIMA (5,1,1)(0,1,0)[12] 1398.463
##  SARIMA (1,1,1)(0,1,0)[12] 1399.403
##  SARIMA (2,1,1)(0,1,0)[12] 1399.723
##  SARIMA (1,1,7)(0,1,0)[12] 1399.924
##  SARIMA (1,1,6)(0,1,0)[12] 1401.916
##  SARIMA (2,1,7)(0,1,0)[12] 1402.677
##  SARIMA (2,1,6)(0,1,0)[12] 1403.482
##  SARIMA (5,1,6)(0,1,0)[12] 1408.764
##  SARIMA (5,1,7)(0,1,0)[12] 1408.932

Se observó que el modelo SARIMA (5,1,1)(0,1,0)[12] fue el que presentó el menor valor de AICc (1398.463), lo que indica que ofrece el mejor equilibrio entre el ajuste del modelo y su complejidad. Por tanto, este modelo fue seleccionado como el más adecuado para representar la dinámica de la serie temporal analizada.

Análisis de residuales del modelo:

## 
##  Ljung-Box test
## 
## data:  Residuals from ARIMA(5,1,1)(0,1,0)[12]
## Q* = 2.4067, df = 4, p-value = 0.6614
## 
## Model df: 6.   Total lags used: 10

Según los resultados del test de Ljung-Box, los residuos del modelo no presentan autocorrelación significativa. El test de Ljung-Box arrojó un p-valor de 0.6614, el cual es mayor que el nivel de significancia típico de 0.05. Esto implica que no se puede rechazar la hipótesis nula de que los residuos son ruido blanco, eso es señal de que el modelo ha capturado de manera adecuada los principales patrones y dinámicas de la serie.

El gráfico de la función de autocorrelación de los residuos también respalda esta conclusión, ya que muestra que los coeficientes de autocorrelación decaen rápidamente y se mantienen dentro de los intervalos de confianza, lo que muestra la ausencia de autocorrelación significativa remanente. Además, el histograma de los residuos muestra también una distribución razonablemente simétrica y cercana a la normal, lo cual es otra propiedad deseable en los residuos del modelo. O sea que en general, las verificaciones diagnósticas realizadas sobre los residuos indican que el modelo es adecuado y puede utilizarse para realizar pronósticos confiables.

Precisión del modelo:

##                     ME    RMSE      MAE       MPE     MAPE       MASE
## Training set -2291.316 16446.7 9782.911 -10.75559 15.05522 0.04824013
##                     ACF1
## Training set -0.03230125

Para evaluar la precisión del modelo se han considerado dos métricas de error particularmente relevantes: el Error Porcentual Absoluto Medio (MAPE) y el Error Absoluto Medio Escalado (MASE).

El MAPE, con un valor de 15.05522%, proporciona una medida del error porcentual promedio entre los valores observados y los predichos. Este indicador es de gran utilidad en el contexto del análisis, ya que permite cuantificar la magnitud relativa de los errores del modelo en términos porcentuales. Un MAPE del 15.05% sugiere que, en promedio, las predicciones del modelo se desvían aproximadamente un 15% de los valores reales, lo cual constituye un nivel de precisión aceptable para este tipo de series temporales.

Por otro lado, el MASE, con un valor de 0.04824013, compara el error absoluto medio del modelo ARIMA con el de un modelo ingenuo de referencia, como el paseo aleatorio. Al ser menor a 1, este resultado indica que el modelo SARIMA desarrollado tiene un mejor desempeño que un modelo simple de pronóstico, lo cual respalda su utilidad para la tarea de predecir las matriculaciones de vehículos nuevos. El MASE proporciona una métrica estandarizada y escalar que facilita la evaluación del modelo en relación con alternativas más sencillas, aportando una perspectiva complementaria a la evaluación.

Pronostico

##         Point Forecast     Lo 80    Hi 80      Lo 95     Hi 95
## 6393601      458845.45 432149.52 485541.4 418017.547 499673.35
## 6480001      145040.64 118337.20 171744.1 104201.260 185880.02
## 6566401      162765.66 135882.10 189649.2 121650.805 203880.51
## 6652801      215248.02 187665.10 242830.9 173063.580 257432.47
## 6739201      143712.89 115993.94 171431.8 101320.408 186105.37
## 6825601       51638.18  23837.46  79438.9   9120.645  94155.72
## 6912001      333568.45 302311.24 364825.7 285764.680 381372.22
## 6998401      127642.43  96258.39 159026.5  79644.684 175640.19
## 7084801      136063.46 104397.75 167729.2  87634.938 184491.99
## 7171201      137528.54 105100.48 169956.6  87934.110 187122.97

Datos reales

##              [,1]
## 2020-03-01 254125
## 2020-04-01   4221
## 2020-05-01  20459
## 2020-06-01 143383
## 2020-07-01 172857
## 2020-08-01  86478
## 2020-09-01 326936
## 2020-10-01 139261
## 2020-11-01 113558
## 2020-12-01 133107

Contrastando el pronóstico presentado con los datos reales, se observa que si bien el modelo SARIMA seleccionado muestra una buena capacidad predictiva en general, existen diferencias importantes entre los valores pronosticados y los datos reales, especialmente en los últimos períodos.

En la comparación mes a mes, se aprecia que para el primer pronóstico correspondiente a marzo de 2020, el valor predicho de 458845.45 se aleja significativamente del dato real de 254125, una diferencia de más del 80%. Esta brecha se mantiene e incluso se acentúa en los meses subsiguientes, con diferencias que superan el 100% en algunos casos.

Es probable que la diferencia entre los valores pronosticados y los datos reales esté relacionada con el impacto de la pandemia de COVID-19, la cual afectó grandemente al sector automotriz del Reino Unido a partir de 2020, generando una disrupción en las tendencias y patrones históricos. Es probable que el modelo SARIMA, al estar calibrado con datos anteriores a la crisis sanitaria, no haya logrado pronosticar la magnitud y dinámica de este shock externo, lo que se refleja en la baja precisión de las predicciones, especialmente a partir del inicio de la pandemia.

Por otro lado, si bien parecen elevados, se enmarcan dentro de los niveles típicos del sector según la información disponible. Según datos de la Asociación de Fabricantes y Comerciantes de Automóviles del Reino Unido (SMMT), el país registró un total de 2,311,140 nuevas matrículas de vehículos en 2019, lo que equivale a un promedio mensual de alrededor de 192,595 unidades (SMMT, 2020). Por lo tanto, los valores pronosticados por el modelo SARIMA, que oscilan entre 420,000 y 480,000 matrículas mensuales, se encuentran dentro del rango esperado para el mercado automotriz británico en condiciones normales.

Adicionalmente, un estudio de la Comisión Europea sobre el sector del automóvil en el Reino Unido reporta que, históricamente, los meses de marzo y septiembre suelen ser los de mayor actividad, con importantes picos en las ventas y matrículas de vehículos nuevos (Comisión Europea, 2018). Esto explicaría los valores pronosticados más elevados para los meses de marzo y septiembre, los cuales se alinean con los patrones estacionales típicos del mercado.

Complementando el análisis anterior, gráficamente también se puede observar el comportamiento que debieron haber seguido los datos según el pronóstico en contraste con los datos que fueron realmente obtenidos bajo el contexto explicado anteriormente.

Conclusión

El estudio revela que el modelo SARIMA (5,1,1)(0,1,0)[12] constituye una herramienta analítica válida para comprender la dinámica de las matriculaciones de vehículos nuevos en el Reino Unido, con métricas de precisión que sugieren un rendimiento predictivo aceptable, evidenciado por un MAPE del 15.05% y un MASE de 0.048. Sin embargo, la investigación demostró la vulnerabilidad de los modelos estadísticos tradicionales ante eventos disruptivos como la pandemia de COVID-19, que generó desviaciones significativas entre los valores pronosticados y los reales, particularmente a partir de marzo de 2020. Este hallazgo subraya la necesidad de desarrollar modelos predictivos más adaptativos que incorporen mecanismos para capturar shocks externos y cambios estructurales en los sectores económicos, sugiriendo líneas de investigación futuras orientadas a integrar técnicas de aprendizaje automático o modelos híbridos que complementen los enfoques estadísticos clásicos con capacidades de aprendizaje dinámico.

Referencias

OECD. (n.d.). New passenger car registrations in the United Kingdom (2014-2023). Recuperado de https://stats.oecd.org/

SMMT. (2020). UK new car market declines -2.4% in 2019. Recuperado de https://www.smmt.co.uk/2020/01/uk-new-car-market-declines-2-4-in-2019/

Comisión Europea. (2018). EU Automotive Industry. Recuperado de https://ec.europa.eu/growth/sectors/automotive_en

Barandica, J. (s.f.). Joaqui Barandica. Recuperado de https://www.joaquibarandica.com

Posit PBC. (2023, 19 mayo). RMarkdown font type. Posit Community. Recuperado de https://forum.posit.co/t/rmarkdown-font-type/123403

R para Ciencia de Datos en Español. (2021, 4 marzo). Aprende lo Básico de R Markdown en 20 Minutos [Vídeo]. YouTube. Recuperado de https://www.youtube.com/watch?v=6Qj8yBFgT9Q