INTRODUCCIÓN

En la actualidad, las economías del mundo utilizan el papel moneda para comprar o vender bienes y servicios, fijar precios y reservar valor. Una divisa es aquella moneda que se utiliza significativamente en los flujos de comercio internacional, como el dólar, euro, yuan, entre otros. La sociedad confía en que su dinero será aceptado y mantendrá su poder adquisitivo a lo largo del tiempo. Para lograr esto, los gobiernos utilizan un conjunto de acciones que regulan la relación entre la moneda nacional y las extranjeras mediante la política cambiaria.

La predicción del tipo de cambio del dólar se vuelve relevante en este contexto, ya que permite anticipar y evaluar los posibles movimientos futuros del valor de la moneda. Esta información es útil tanto para individuos como para empresas y gobiernos, ya que les permite tomar decisiones informadas sobre la gestión de sus transacciones internacionales, inversiones y políticas económicas.

CONSIDERACIONES

A lo largo de su historia, el Banco Central de Costa Rica (BCCR) ha realizado 3 ajustes al régimen cambiario. En 1983, implementó el esquema de paridad ajustada o minidevaluaciones para posicionar la economía nacional en los mercados internacionales. En 2006, con el propósito de eliminar las persistentes intervenciones, incorporó las bandas cambiarias para reducir los costos financieros y el impacto monetario en la inflación y, por ende, en la economía. Finalmente, en 2015, instauró la flotación administrada, que se mantiene hasta la fecha, ya que garantiza una variación congruente con el comportamiento a mediano y largo plazo en el precio del dólar en colones.

El BCCR interviene en el mercado del dólar de dos maneras. Primero, a través de la emisión de normas que limitan y regulan la compra y venta de dólares. Todas las entidades autorizadas deben cumplir con lo estipulado en el “Reglamento de Operaciones Cambiarias de Contado”. Segundo, en casos discrecionales, con el fin de moderar fluctuaciones abruptas en el precio del dólar, utiliza las reservas internacionales netas (RIN) para comprar o vender dólares en el Mercado de Monedas Extranjeras (MONEX), en las denominadas intervenciones. Esto evita desvíos incongruentes con la tendencia en el precio del dólar en colones.

Los operadores de divisas del país están obligados a indicarle al público el tipo de cambio al que compran y venden dólares. El tipo de cambio que ofrecen para la venta de dólares suele ser mayor debido al beneficio de la intermediación cambiaria. En la Figura 1 se presentan los datos observados diarios de los tipos de cambio de referencia del dólar, desde el 18 de mayo de 2010 hasta el 14 de junio de 2023. Estas series corresponden a los promedios de los tipos de cambio de referencia diarios que publican todas las entidades autorizadas para comerciar dólares en el mercado cambiario.

La presente investigación tiene como objetivo estimar el mejor modelo de pronóstico del precio de referencia de venta diario en Costa Rica para lo que resta del 2023, con el fin de poner a prueba la efectividad de los modelos de aprendizaje supervisado para predecir valores esperados futuros.

METODOLOGÍA

La fuente de información de los datos es la página oficial del Banco Central de Costa Rica, en la sección de tipo de cambio de compra y venta del dólar de los Estados Unidos de América. Los valores registrados son diarios, por lo que es posible calcular promedios semanales, mensuales, trimestrales, cuatrimestrales o anuales.

El análisis de la investigación comprende tres etapas. Primero, desde el 18 de mayo de 2010 hasta el 14 de junio de 2023, se detalló la evolución histórica y el comportamiento del precio del dólar en colones. Segundo, antes del pronóstico, se separó el conjunto de datos en dos subconjuntos: uno con el propósito de entrenar los modelos de estimación y otro para comparar el desempeño de los modelos de estimación con los valores reales. Tercero, una vez que los modelos de estimación fueron calibrados mediante las reglas de validación, se estimaron los valores esperados futuros.

El diseño de estimación comprendió dos fases, en la primera confeccioné una serie de modelos de aprendizaje supervisado y en la segunda fase, con el fin de mejorar el desempeño y la calidad de las estimaciones generadas en la primera fase, implementé la agregación de bootstrap (ensamble) que combina las predicciones de los modelos en una predicción final. En total, fueron estimados 13 modelos de aprendizaje supervisado y 3 variantes de la agregación de bootstrap.

Estos modelos cuentan con una gran capacidad predictiva, ya que utilizan características para pronosticar los valores futuros de las series temporales, como valores pasados, tendencias, estacionalidad y patrones no lineales.

Para la construcción de modelos de aprendizaje supervisado, lo típico es dividir el conjunto de datos en dos conjuntos, entrenamiento y validación. El conjunto de entrenamiento representa el 80% de los datos para estimar los parámetros del modelo, y el conjunto de validación es el 20% restante de los datos para evaluar el rendimiento del modelo y calibrarlo adecuadamente. Esta separación permite ajustar el modelo en datos que no ha visto durante el proceso de entrenamiento.

RStudio fue la herramienta implementada para procesar los datos a través de las librerías dplyr (Wickham et al., 2023), ggplot2 (Wickham, 2016), lubridate (Grolemund, Wickham, 2011), tidymodels (Kuhn, Wickham, 2020), modeltime (Dancho, 2023), timetk (Dancho, 2023), rlang (Henry, Wickham, 2023), tidyverse (Wickham et al., 2019), modeltime.ensemble (Dancho, 2021) y prophet (Taylor, 2022).

Consulte el detalle en el Anexo 1 sobre el diseño de estimación de cada una de las 13 técnicas de aprendizaje supervisado. El Anexo 2 aclara los aspectos técnicos sobre los modelos de agregación de bootstrap implementados.

ANÁLISIS HISTÓRICO

Desde el 18 de mayo 2010 al 14 de junio 2023, un periodo de 13 años, el promedio del tipo de cambio de venta observado se ubicó entre los ₡ 560.43 y ₡ 562.97 por dólar, el valor mínimo registrado fue de ₡ 502.6 (7 de febrero 2013), el valor máximo fue de ₡ 698.4, rozando los ₡ 700 por dólar (23 de junio 2022). Es interesante que a partir del valor máximo alcanzado, el precio de venta de referencia promedio del dólar en colones ha tendido a la baja, lo cual claramente está asociado a una apreciación del colón, es decir que se ha venido fortaleciendo la moneda nacional respecto del dólar, lo cual se podría explicar por una serie de razones exógenas al objeto de este estudio, que además, implican el uso de múltiples variables para generar evidencias que sustenten los argumentos planteados, y no meras especulaciones. En el Cuadro 1 están resumidas las principales medidas de tendencia central y variabilidad de la serie de tiempo.

Cuadro 1. Estadísticos descriptivos, precio de referencia diario venta del dólar en colones, Costa Rica 2010-2023 (n=4776)
Valor Colones
Máximo ₡ 698.4
3er Cuantil ₡ 586.2
Media ₡ 561.7
Mediana ₡ 558.8
1er Cuantil ₡ 518.1
Mínimo ₡ 502.6
Desviación estándar ₡ 44.9
Variancia 2012.3

Para profundizar en los patrones que presenta el conjunto de datos, realicé una descomposición estacional múltiple, ‘MSTL’ por sus siglas en inglés, con el objetivo de separar cada componente de la serie completa como se plantea en la siguiente ecuación.

\[ Y=Tendencia+Estacionalidad+Error \]

Los resultados de la Figura 2 sugieren que el componente Tendencia es el que principalmente ha determinado el nivel y comportamiento del precio de venta del dólar en colones observado a lo largo de periodo en estudio. Adicionalmente, fue detectado un patrón estacional diario el cual será estudiado con mayor detalle seguidamente agrupando por mes y por año.

Es evidente que el precio está principalmente determinado por el componente Tendencia ya que sus niveles son practicamente idénticos, como asimismo sugiere el recurso gráfico anterior. Al descomponer el promedio del precio de referencia de venta del dólar durante el periodo de estudio, los valores correspondientes a sus componentes fueron los siguientes.

\[ ₡\ 561.6944=₡\ 561.6290+₡\ 0.8544-₡\ 0.7890 \]

La Figura 3 muestra el comportamiento de la Estacionalidad mensual para el periodo en estudio. Se observa que el precio máximo promedio suele incrementarse durante los primeros 6 meses y, a partir del mes de julio hasta octubre, este valor máximo tiende a reducirse. Sin embargo, durante noviembre y diciembre se evidencia un leve incremento con respecto al mes de octubre. El promedio estacional mensual se representa con una línea azul, y los resultados indican que en el mes de junio se registraron, en promedio, los valores más altos para el precio de referencia del tipo de cambio de venta del dólar en colones, mientras que en octubre se registraron los valores más bajos.

En cuanto a la estacionalidad anual del precio de venta del dólar en colones, la Figura 4 proporciona más evidencia sobre el comportamiento histórico de la serie. El promedio estacional alcanzó los ₡ 523.5 durante los 7 meses registrados del 2010. No fue hasta el año 2016 que se empezaron a registrar valores promedios superiores a los ₡ 550. La serie alcanzó los ₡ 624.10 en 2021 y ₡ 650.75 en 2022, siendo los únicos dos años con valores superiores a ₡ 600. El 23 de junio de 2022 se registró el valor máximo de la distribución (₡698.4 por dólar), lo cual se refleja en las curvas. Los registros de 2023 hasta el 14 de junio evidenciaron un promedio estacional de ₡ 555.79 (Ver Cuadro 2).

Cuadro 2. Promedios estacionales del precio de referencia diario venta del dólar en colones según el año, Costa Rica 2010-2023 (n=4776)
Año Valor
2010 ₡ 523.50
2011 ₡ 511.05
2012 ₡ 508.38
2013 ₡ 505.54
2014 ₡ 544.65
2015 ₡ 540.69
2016 ₡ 551.05
2017 ₡ 572.18
2018 ₡ 580.15
2019 ₡ 591.00
2020 ₡ 588.29
2021 ₡ 624.10
2022 ₡ 650.75
2023 ₡ 555.79

PROYECCIONES

La Figura 5 muestra los conjuntos de datos para entrenamiento y validación de los modelos con el fin de pronosticar el precio del tipo de cambio de referencia diario de venta para lo que resta del 2023. La regla comúnmente utilizada consiste en separar el 80% de los datos disponibles para entrenar los algoritmos, y el 20% restante es para validar el desempeño de los modelos, calibrarlos y pronosticar el periodo deseado. El primer conjunto de datos toma en cuenta los datos diarios desde el 12 de marzo de 2021 hasta el 31 de diciembre de 2022, mientras que el segundo conjunto a partir del 1 de enero de 2023 al 14 de junio del mismo año.

Modelos de aprendizaje supervisado

Los resultados de los 13 modelos de aprendizaje supervisado son interesantes (Ver Figura 6), y sus indicadores de desempeño están en el Cuadro 3. Por un lado, el entrenamiento de los modelos indicó que cinco de los trece (1, mod 5, mod 6, mod 7 y mod 10), ajustaron principalmente en función de la tendencia de los valores reales, y por otro lado, los restantes ocho (mod 2,mod 3, mod 4, mod 8, mod 9, mod 11, mod 12 y mod 13) capturaron patrones que no reflejan un ajuste adecuado con el comportamiento a corto, mediano y largo plazo, que presenta la serie de tiempo.

Cuadro 3. Medidas de precisión conjuntos de entrenamiento y validación, precio de referencia venta de dólares en colones, 01-01-2023 al 06-14-2023
Modelo (n=134) MAE MAPE RMSE Rsq Var
ARIMA(2,2,2)(0,0,2)[7] (mod 1) 14.01 2.53 16.43 0.71 282.32
ARIMA(4,1,3)(2,0,2)[7] (mod 2) 42.38 7.71 45.50 0.00 0.82
ETS(A,AD,N) (mod 3) 52.13 9.46 54.81 0.34 0.49
Regresión lineal (mod 4) 100.92 18.24 102.56 0.70 4.18
Prophet (mod 5) 12.91 2.34 17.71 0.70 629.85
Modelo Prophet con regresores (mod 6) 19.23 3.49 24.48 0.69 741.57
Regresión Adaptativa bisagras (mod 7) 23.32 4.23 28.42 0.71 850.90
Regresión elástica (mod 8) 120.79 21.84 122.96 0.41 74.43
Bosques aleatorios (mod 9) 93.73 16.97 96.70 0.39 93.12
XGBoost residuos Prophet (mod 10) 14.27 2.58 18.79 0.64 684.31
XGBoost (mod 11) 39.79 7.24 43.85 0.07 41.33
NNAR(3,3,10)[7] (mod 12) 65.25 11.78 66.58 0.37 134.77
Reforzamiento XGBoost lijero (mod 13) 89.61 16.22 92.32 0.37 63.22

Todos los modelos fueron calibrados y ajustados previo a la estimación de las proyecciones de los valores esperados futuros (06-15-2023 al 31-12-2023, equivalente a 200 días) y cuyos resultados están en la Figura 7. De los 13 escenarios generados hubo algunos que pronosticaron valores que no son coherentes con el comportamiento que presenta la serie original hasta el 06-14-2023.

Solo 5 de los 13 modelos (mod 1, mod 6, mod 10, mod 11 y mod 12) fueron seleccionados con el objetivo de estimar una serie de modelos ensamblados utilizando agregación de bootstrap para obtener resultados con mayor grado de precisión, exactitud y eficiencia estadística.

Ensamble de modelos

Estimé tres variantes de agregación de bootstrap (media, mediana y ponderado) a partir de los modelos de aprendizaje supervisado seleccionados por su desempeño; las predicciones de estos modelos fueron combinadas para generar nuevos modelos de estimación, reduciendo el impacto de los valores extremos y el aprendizaje excesivo al conjunto de entrenamiento por parte de los modelos individuales.

Los resultados de los 3 métodos de agregación de bootstrap se presentan en la Figura 8, y los indicadores de desempeño de estos ensambles se ubican en el Cuadro 4.

Cuadro 4. Medidas de precisión conjuntos de entrenamiento y validación, precio de referencia venta de dólares en colones, 01-01-2023 al 06-14-2023
Modelo (n=165) MAE MAPE RMSE Rsq Var
Ensamble media 18.17 3.29 20.27 0.70 228.11
Ensamble mediana 14.00 2.53 16.39 0.68 266.91
Ensamble ponderado 11.99 2.16 14.35 0.70 298.20

La calibración, validación y proyección de los modelos de ensamble se encuentran en la Figura 9, donde las tres variantes coincidieron tanto en el comportamiento de la tendencia en las estimaciones puntuales como de intervalo, sin embargo, los indicadores de desempeño de los ensambles mediana y el ponderado obtuvieron mejores niveles de precisión (MAE, MAPE, RMSE) que el ensamble media, pero no eficiencia (Var).

CONCLUSIONES

Las proyecciones de los escenarios sobre el valor esperado futuro del precio de venta del dólar en colones para lo que resta del 2023 sugieren una tendencia decreciente a corto y mediano plazo. Lo anterior augura un lento pero seguro fortalecimiento del colón frente al dólar (o sea que seguirá abaratándose el costo para adquirir dólares, en apariencia un exceso de dólares en el local mercado), lo cual afecta al sector exportador ya que sus precios internacionales en términos relativos serán más costosos, al mismo tiempo que los precios relativos de importación caerán en alguna medida, afectando asi al sector nacional que produce para consumo local.

Aunque los modelos de aprendizaje supervisado presentaron niveles de desempeños variables, en su mayoría lograron capturar y replicar el comportamiento esperado. Sin embargo, los modelos de ensamble superaron ampliamente estas resultados al combinar información de los mejores cinco escenarios estimados en un único resultado. Por lo tanto, el modelo ganador para pronosticar el precio de referencia de venta del dólar en Costa Rica para lo que restaba del 2023 fue el ensamble promedio de los siguientes modelos: ARIMA, modelo Prophet con regresores, regresión XGBoost de los residuos de Prophet, XGBoost y NNAR.

De acuerdo con los resultados del modelo ganador, el precio de referencia diario de venta del dólar para lo que resta del 2023 se ubicará en un rango promedio de valores entre ₡ 494 y ₡ 585. El promedio pronosticado para los 200 días (desde el 15 de junio hasta el 31 de diciembre 2023) fue ₡ 540. Con respecto al corte del 15-06-2023 al 30-06-2023 el valor pronósticado fue ₡ 546.61, y el valor real promedio observado fue ₡ 546.98. Para el periodo que comprende del 01-07-2023 al 17-07-2023 el valor proyectado fue ₡ 547.32, y el valor real promedio observado fue ₡ 550.45.

Estos valores indican que la apreciación del colón y la tendencia decreciente se mantendrán durante lo que resta de 2023. Es importante tener en cuenta que estos resultados no consideran las intervenciones del Banco Central de Costa Rica, ni relaciones con otras variables económicas para explicar y sustentar el comportamiento del precio de referencia de venta de dólares en colones.

ANEXOS

Anexo 1

1. El ARIMA (modelo autoregresivo integrado de media móvil) es un modelo estadístico utilizado para analizar, predecir series de tiempo, comprender patrones y tendencias en los datos a lo largo del tiempo. Suele describir 3 componentes principales; componente autoregresivo, que tiliza las observaciones pasadas de la serie de tiempo para predecir su valor futuro; componente de media móvil, considera los errores pasados de la serie de tiempo para pronosticar sus futuros valores; y componente de integración que se refiere a la diferenciación de la serie de tiempo para hacerla estacionaria (media y varianza constante a lo largo del tiempo).
2. Un ARIMA potenciado es una extensión del modelo ARIMA que incluye variables exógenas y utiliza técnicas de refuerzo para mejorar la capacidad de predicción de la serie de tiempo.
3. El modelo ETS (error, tendencia, estacionalidad) es un método que descompone una serie temporal en tres componentes principales: error, tendencia y estacionalidad. El componente de error representa la variación aleatoria o no sistemática en los datos. La tendencia muestra la dirección general de los datos a lo largo del tiempo. La estacionalidad captura patrones repetitivos o cíclicos que ocurren en intervalos regulares.
4. La regresión lineal simple en una serie de tiempo univariada se basa en la suposición de que la variable dependiente es una combinación lineal de la tendencia temporal y un término de error aleatorio. El término de error captura las fluctuaciones o variaciones no explicadas por la tendencia lineal. El modelo busca encontrar la línea recta que mejor se ajuste a los datos observados a lo largo del tiempo.
5. El modelo Prophet se basa en un enfoque aditivo, que descompone la serie temporal en componentes fundamentales, como la tendencia, la estacionalidad y los efectos de vacaciones. Luego, utiliza un modelo de regresión para estimar y predecir el valor futuro de la serie temporal.
6. Una característica del modelo Prophet es su capacidad para incorporar regresores en el análisis de series temporales. Los regresores son variables adicionales que tienen una relación con la variable objetivo que se está pronosticando. Pueden ser variables como datos demográficos, eventos importantes, días festivos, efectos estacionales, entre otros. El modelo asume una tendencia no lineal que cambia con el tiempo y busca capturar las componentes estacionales y las variaciones a corto plazo de los datos. Luego, los regresores se utilizan para modelar las influencias adicionales en la variable objetivo.
7. La regresión multivariada adaptativa bisagra utiliza la función de pérdida bisagra para minimizar los errores de predicción, y se adapta al umbral de la función bisagra según la distribución de los errores. Esto puede conducir a mejores resultados en situaciones donde existen valores atípicos o datos ruidosos.
8. La regresión elástica es una extensión de la regresión lineal que agrega dos componentes adicionales a la función utilizada para ajustar el modelo. El primer componente es la penalización de Ridge, que impone una restricción en los coeficientes del modelo, evitando que sean demasiado grandes. Esto ayuda a controlar la complejidad del modelo y a evitar problemas de sobreajuste. El segundo componente es la penalización de Lasso, que introduce una selección automática de variables de rezagi al penalizar algunos coeficientes hasta hacerlos igual a cero. Esto permite identificar las variables de rezago más relevantes y descartar las menos importantes en el modelo.
9. El enfoque básico de los bosques aleatorios implica la construcción de múltiples árboles de decisión y combinar sus resultados para obtener una predicción final. En el caso de series de tiempo, los bosques aleatorios se pueden utilizar para predecir valores futuros en función de los datos históricos. Tienen la capacidad para manejar características no lineales y capturar relaciones complejas entre variables.
10. La combinación del modelo Prophet y XGBoost aprovecha las fortalezas de ambos algoritmos. Prophet se encarga de capturar las tendencias y patrones temporales, mientras que XGBoost se utiliza para mejorar aún más la precisión del modelo y ajustar los detalles finos de las predicciones.
11. XGBoost se basa en el método de refuerzo de gradientes, que es una técnica que combina múltiples modelos de aprendizaje débil (generalmente árboles de decisión) para formar un modelo de aprendizaje fuerte. El algoritmo utiliza una función de pérdida diferenciable y utiliza el descenso de gradiente para minimizar la función de pérdida durante el proceso de entrenamiento. Además, utiliza técnicas de regularización para prevenir el sobreajuste del modelo, como la regularización L1 y L2, y permite la especificación de pesos para los puntos de datos y las características.
12. Los modelos NNAR (red neuronal autoregresiva) se basan en la información de los valores anteriores de la serie temporal para predecir el siguiente valor. Se trata de un enfoque autoregresivo, donde la predicción en cada paso de tiempo depende de las observaciones previas, utilizando capas ocultas en la red neuronal para capturar las relaciones complejas y no lineales en los datos. Estas capas ocultas permiten al modelo aprender representaciones más abstractas y sofisticadas de los datos.
13. El algoritmo reforzamiento XGBoost lijero usa un enfoque de construcción de árboles llamado “aprendizaje basado en hojas”, en lugar de construir los árboles de manera secuencial, realiza una división de los datos por hojas y luego crece el árbol hacia arriba. También utiliza la técnica de refuerzo de gradiente, que implica entrenar árboles de decisión en iteraciones sucesivas, donde cada árbol se enfoca en corregir los errores cometidos por los árboles anteriores, mejorando gradualmente la precisión del modelo.

Anexo 2

El proceso de agregación de bootstrap ensambla múltiples modelos base entrenados en cada una de las muestras de bootstrap. Cada modelo base se entrena independientemente en su correspondiente muestra y luego se combinan sus predicciones mediante un promedio simple, ponderado o la mediana para obtener la predicción final del modelo ensamblado. La ventaja es que reduce la varianza de los modelos individuales, lo que puede conducir a una mejora en la precisión general del modelo ensamblado.

RECURSOS BIBLIOGRÁFICOS

Dancho M (2021). modeltime.ensemble: Ensemble Algorithms for Time Series Forecasting with Modeltime. R package version 1.0.0, https://github.com/business-science/modeltime.ensemble

Dancho M (2023). modeltime: The Tidymodels Extension for Time Series Modeling. https://github.com/business-science/modeltime, https://business-science.github.io/modeltime/

Dancho M, Vaughan D (2023). timetk: A Tool Kit for Working with Time Series. https://github.com/business-science/timetk, https://business-science.github.io/timetk/

Kuhn M, Wickham H (2020). Tidymodels: a collection of packages for modeling and machine learning using tidyverse principles.. https://www.tidymodels.org

Henry L, Wickham H (2023). rlang: Functions for Base Types and Core R and ‘Tidyverse’ Features. https://rlang.r-lib.org, https://github.com/r-lib/rlang

Taylor S, Letham B, (2022). Package prophet: automatic forecasting procedure. https://github.com/facebook/prophet

Wickham, H., Averick, M., Bryan, J., Chang, W., McGowan, L., François, R., Grolemund, G., Hayes, A., Henry, L., Hester, J., Kuhn, M., Pedersen, T., Miller, E., Bache, S., Müller, K., Ooms, J., Robinson, D., Seidel, D., Spinu, V., … Yutani, H. (2019). Welcome to the tidyverse. Journal of Open Source Software, 4(43), 1686

Wickham H, François R, Henry L, Müller K, Vaughan D (2023). dplyr: A Grammar of Data Manipulation. https://dplyr.tidyverse.org, https://github.com/tidyverse/dplyr

Wickham, H. (2016). Ggplot2: Elegant graphics for data analysis (2nd ed.) [PDF]. Springer International Publishing. Grolemund G, Wickham H (2011). “Dates and Times Made Easy with lubridate.” Journal of Statistical Software, 40(3), 1–25. https://www.jstatsoft.org/v40/i03/