Introducción

La tasa de desempleo mensual en Colombia es un indicador crucial tanto en el ámbito nacional como en el global, ya que refleja el estado del mercado laboral y evidencia cómo se están desempeñando diferentes sectores económicos. Este dato permite identificar tendencias y ciclos económicos que afectan directamente a la población y a la competitividad del país.

En el contexto nacional, el análisis de la tasa de desempleo proporciona información clave para diseñar políticas públicas orientadas a la generación de empleo, reducción de desigualdades y estabilización económica. Por ejemplo, un aumento sostenido del desempleo puede alertar a los responsables de formular políticas sobre la necesidad de estimular sectores estratégicos mediante incentivos fiscales o programas de inversión pública. Además, ofrece una visión de las dinámicas regionales, revelando disparidades geográficas que podrían requerir intervenciones específicas, como fomentar industrias en regiones con altas tasas de desempleo.

En un marco global, estos datos permiten comparar el desempeño de Colombia con otras economías, facilitando la evaluación de su competitividad y capacidad para atraer inversión extranjera. Además, el desempleo está vinculado a fenómenos internacionales como crisis económicas, fluctuaciones en los mercados de exportación o cambios en las cadenas globales de suministro. Estas comparaciones ayudan a definir estrategias de inserción en el comercio mundial y a entender cómo la economía colombiana responde a choques externos, como los generados por la pandemia o las recesiones globales. El análisis de series temporales resulta fundamental para extraer patrones significativos de la tasa de desempleo mensual y “predecir” su comportamiento futuro. Esta técnica permite identificar componentes cíclicos, estacionales o tendencias a largo plazo, que son esenciales para la toma de decisiones estratégicas en distintos niveles.

Además, el análisis predictivo basado en series temporales permite anticiparse a eventos adversos, como aumentos inesperados en el desempleo, lo que da margen para implementar medidas correctivas oportunas. Como bien sabemos, el mundo es dinámico y está en constante transformación, lo que hace que predecir su comportamiento sea una tarea compleja y, en muchos casos, incierta. A pesar de los avances en herramientas analíticas y modelos de predicción, la realidad está influenciada por innumerables variables interconectadas que pueden cambiar de forma inesperada, desde eventos económicos y políticos hasta desastres naturales o innovaciones tecnológicas. Por ello, las predicciones no siempre pueden garantizarse con total certeza.

No obstante, el valor de las predicciones radica en su capacidad para guiar la planificación estratégica y la toma de decisiones informadas. Aunque no sean infalibles, ayudan a identificar riesgos, anticipar oportunidades y establecer márgenes de acción frente a la incertidumbre. Por ejemplo, en el ámbito económico, prever tendencias como el desempleo o el crecimiento del PIB permite a los gobiernos y empresas desarrollar planes de contingencia, ajustarse a posibles crisis y optimizar recursos en función de escenarios futuros.

Metodología

Para el desarrollo de este informe, es importante conocer algunos conceptos básicos acerca del modelo de predicción utilizado y el contexto de una serie de tiempo desde el concepto.

Serie de tiempo

Una serie de tiempo se define como un conjunto de observaciones de una variable registradas en secuencia temporal, generalmente a intervalos regulares. Estas observaciones permiten identificar patrones como tendencias, estacionalidad, ciclos y fluctuaciones irregulares, lo que facilita el análisis del comportamiento pasado y la predicción de futuros valores. Según Box, Jenkins y Reinsel (2016), el análisis de series de tiempo es fundamental para comprender la dinámica de procesos económicos, financieros y de otros sistemas complejos, proporcionando herramientas para modelar y prever comportamientos en diversas áreas.

Ejemplos de algunas aplicaciones de datos para series temporales ;

  1. Anual —– PIB per cápita

  2. Trimestral —– Ingresos de una empresa

  3. Mensual——— Ventas, Gastos

  4. Semanal ——- Demanda , precio de diesel

  5. Diaria —— Precio de acciones , precio del café

  6. Por hora — Contagios por pandemia

Modelo ARIMA

Autoregressive Integrated Moving Average (ARIMA), es un modelo que se utiliza para predecir tendencias futuras en una serie de datos de tiempo, es un modelo que forma de análisis de regresión, este modelo está compuesto por 3 términos:

  • AR (Autoregresión): Modelo que muestra una variable cambiante que retrocede sobres sus propios valores anteriores.
  • I (Integrado) : Diferenciación de observaciones sin procesar para permitir que la serie temporal se vuelva estacionaria
  • MA (Promedio móvil): Dependencia entre una observación y un error residual de un modelo promedio móvil.

Este modelo se aplica cuando la serie de tiempo no es estacionaria, la serie no estacionaria se le aplica una transformación matemática para hacerla estacionaria y a esos valores transformados se le ajusta un modelo ARMA (p,q).

Para los modelos ARIMA, una notación estándar sería ARIMA con p,d y q, donde los valores enteros sustituyen a los parámetros para indicar el tipo de modelo ARIMA utilizado:

P : el número de observaciones de retraso en el modelo también conocido como el orden de retardo.

d : el número de veces que se diferencian las observaciones sin procesar, también conocido como el grado de diferenciación.

q: el tamaño de la ventana de promedio móvil , también conocido como el orden de la media móvil.

Estacionariedad

¿Qué es la estacionariedad?

Es una propiedad fundamental en el análisis de series de tiempo que indica que las características estadísticas de la serie no cambian con el tiempo. En otras palabras, una serie estacionaria tiene una estructura constante y predecible que facilita el modelado y la predicción.

  • Media constante: La media de la serie no varía con el tiempo.

  • Varianza constante: Las fluctuaciones alrededor de la media tienen la misma amplitud a lo largo del tiempo.

  • Autocorrelación constante: La dependencia entre valores pasados y futuros (autocorrelación) depende únicamente de la distancia temporal entre ellos (lag), y no del momento en que se midieron.

¿Se puede saber al ojo si una serie es estacionaria?

Aunque la inspección visual puede proporcionar algunas pistas, no siempre es suficiente para determinar si una serie es realmente estacionaria o no, ya que algunos patrones sutiles pueden ser difíciles de detectar a simple vista, como la tendencia en la media, cambios en la varianza y patrones estacionales, por lo tanto, siempre es recomendable complementar la observación visual con pruebas estadísticas, como la prueba de Dickey-Fuller aumentada (ADF).

La prueba de Dickey-Fuller aumentada (ADF) es una herramienta estadística utilizada para verificar si una serie temporal es estacionaria o si tiene una raíz unitaria, lo que indica que la serie no es estacionaria.

¿Qué es una raíz unitaria?

Una raíz unitaria significa que la serie temporal tiene una tendencia persistente, es decir, que los cambios a lo largo del tiempo son sistemáticos y no regresan a una media constante. Esto implica que la serie no es estacionaria y, generalmente, hay que transformarla (por ejemplo, mediante diferenciación) para hacerla estacionaria.

Como todo test debemos tener una hipótesis para rechazar y un supuesto así que :

Hipótesis de la prueba ADF:

  • Hipótesis nula (H₀): La serie tiene una raíz unitaria, es decir, no es estacionaria.
  • Hipótesis alternativa (H₁: La serie no tiene una raíz unitaria, es decir, es estacionaria.

¿Cómo interpretar los resultados?

Si el valor p es bajo (generalmente menor que 0.05), se rechaza la hipótesis nula y se concluye que la serie es estacionaria.

Si el valor p es alto (mayor que 0.05), no se puede rechazar la hipótesis nula, lo que indica que la serie tiene una raíz unitaria y no es estacionaria.

Supuestos del modelo ARIMA

  1. La serie debe ser estacionaria después de aplicar el proceso de diferenciación, si es necesario.

  2. Los residuos del modelo deben ser ruido blanco (es decir, no deben mostrar patrones sistemáticos).

  3. No debe haber correlación significativa en los residuos.

Pasos para implementar el modelo ARIMA

  1. Análisis exploratorio de la serie: Visualizar la serie para identificar tendencias, estacionalidad o patrones irregulares. Verificar la estacionariedad utilizando pruebas estadísticas como la prueba de Dickey-Fuller aumentada (ADF).

  2. Diferenciación: Si la serie no es estacionaria, aplicar diferenciación hasta estabilizar la media.

  3. Identificación de parámetros (p,d,q): Utilizar la función de autocorrelación (ACF) y la función de autocorrelación parcial (PACF) para estimar.

  4. Ajuste del modelo: Seleccionar el modelo ARIMA con los valores óptimos de p,d,q , ajustarlo a los datos.

  5. Validación del modelo: Revisar los residuos para asegurarse de que sean ruido blanco mediante gráficos y pruebas estadísticas.

  6. Predicción: Generar pronósticos futuros basados en el modelo ajustado.

La importancia de usar un modelo ARIMA, radica en comprender ciertas tendencias en función del tiempo, análisis de patrones que se pueden estar presentando, desglosar un gráfico e interpretar es una medida fuerte de análisis, reconocer que no todo es cien por ciento predecible, si realmente todo se basará en predicciones , realmente todos serían ricos, pero esta herramienta verdaderamente puede prevenir en múltiples ocasiones riesgos principalmente para factores económicos grandes como es la macroeconomía, también suele ser una herramienta para aprovechar oportunidades de inversión.

Descripción de la serie temporal

EL CONTEXTO HISTÓRICO DEL DESEMPLEO EN COLOMBIA

El desempleo en Colombia ha tenido una evolución significativa a lo largo de las últimas décadas. Durante los años noventa, las tasas de desempleo aumentaron considerablemente debido a diversos factores, como la crisis económica, la desindustrialización y el desplazamiento de la población hacia zonas urbanas en busca de empleo. Desde principios de los 2000, el país experimentó un ligero descenso en la tasa de desempleo, impulsado por la expansión del sector de los servicios y la mejora de la estabilidad macroeconómica. Sin embargo, las tasas de desempleo se mantuvieron altas en comparación con otras naciones de la región, reflejando la estructura laboral fragmentada y los problemas en la generación de empleo formal.

Entre 2016 y 2019, la tasa de desempleo experimentó fluctuaciones, alcanzando picos en períodos de bajo crecimiento económico, pero con señales de recuperación en áreas metropolitanas como Bogotá y Medellín. En estos años, la tasa de ocupación también mostró caídas y aumentos, reflejando la compleja dinámica de la oferta y demanda laboral en el país. Las zonas rurales fueron especialmente afectadas por la reducción de la demanda laboral, con sectores como la agricultura mostrando caídas importantes en el número de ocupados, mientras que sectores como la construcción y servicios experimentaron un mejor desempeño.

El contexto histórico del desempleo en Colombia está marcado por la transición de una economía principalmente agraria a una más industrializada y tercerizada, pero con serias dificultades para generar empleo de calidad, lo que ha afectado directamente la tasa de desempleo y el nivel de participación en la fuerza laboral (Fedesarrollo, 2019; Banco de la República, 2020).

Estadísticas descriptivas de la serie

El pico más alto de desempleo en Colombia corresponde al nivel de desempleo del año 2020 - 2021. Este nivel de desempleo se genera de manera lógica debido a las afectaciones que ocasionó la pandemia del COVID-19 a la economía del país, ya que, en este año muchos sectores económicos tuvieron que cerrar con el objetivo de cumplir con el confinamiento y las diferentes medidas de salubridad de manera adecuada, con ello muchas personas perdieron su trabajo.

Esto se observa mejor en el siguiente diagrama de cajas:

Los datos atípicos que se muestran fuera de los boxplot son datos pertenecientes al año 2020 donde el desempleo se ve fuertemente afectado por la pandemia(COVID-19).

Por otro lado, la mayor cifra de desempleo previamente registrada al valor generado en la pandemia ocurrió en el año 2009. En este año (2009) el desempleo en Colombia incremento en valores cercanos al 2% de los valores registrados en el año 2008, lo que puede deberse a la crisis financiera global del 2008 que generó grandes impactos en la economía colombiana, ocasionando aumento de la deuda externa, disminución en el nivel de exportaciones, etc. La disminución en exportaciones implica una disminución en el nivel de producción dentro del país, provocando índices elevados de desempleo.

Por último, en el año 2015 se presentaron los niveles de desempleo más bajos en el país, debido a que se impulsaron sectores económicos como el comercio, sector agropecuario, actividades inmobiliarias, etc.

Observemos los máximos y mínimos de cada mes durante estos 17 años.

En 2020, los meses de mayo y junio experimentaron los máximos más altos de la serie histórica, con tasas de desempleo alcanzando 19.9% y 19.3%, respectivamente. Estos picos reflejan los profundos efectos económicos de la pandemia de COVID-19, que afectó gravemente el empleo en Colombia y en muchas otras partes del mundo. Durante estos meses, las medidas de confinamiento, la parálisis de sectores clave de la economía y la reducción de actividades laborales provocaron una subida significativa en las tasas de desempleo. En contraste, los meses de diciembre y febrero se destacaron como los más estables, con tasas máximas que no superaron el 14.5%. Estos meses presentan una menor variabilidad en las cifras de desempleo. Diciembre, en particular, es un mes destacado por la buena circulación económica en el país, impulsada por las festividades de fin de año y el aumento de la demanda en sectores como el comercio y los servicios. La contratación temporal de trabajadores durante esta temporada, junto con los ingresos derivados de las ventas de Navidad y el Año Nuevo, contribuyen a una reducción temporal de las tasas de desempleo.

Teniendo en cuenta esto, se hará uso del test de Dickey-Fuller (ADF) para verificar que la serie sea estacionaria, esto es necesario ya que facilita el modelado y la predicción.

Tabla
Tabla

El resultado obtenido no es nada favorable, puesto que el p-valor es mayor a 0.05 por lo cual se rechaza la hipótesis nula siendo la serie no estacionaria. Además, observemos la autocorrelation function(ACF). Esta función muestra la fuerza y dirección de las correlaciones entre los valores actuales y los valores de la serie en lags anteriores. Se utiliza con el objetivo de identificar si hay autocorrelaciones significativas que puedan modelarse.

Existe una alta correlación, esto se evidencia en las barras que están fuera de los intervalos de confianza, se observa un patrón decreciente lento y esto indica no estacionariedad.

Esta alta correlación significa que el modelo ARIMA actual no explica toda la dependencia temporal en los datos, un modelo con alta correlación genera predicciones que podrían ser sesgadas o imprecisas, ya que no se ha capturado toda la información.

Debido a los resultados del ACF y ADF se diferenciara la serie, con el fin de estabilizar la media, obtener un p-valor menor en el ADF y obtener menor autocorrelación en el ACF.

La serie diferenciada se muestra a continuación:

A simple vista podemos observar que la serie tiene una media alrededor del 0, observemos el resultado al aplicar el test de Dickey-fuller.

Tabla
Tabla

Como se observa en la tabla anterior, el p-valor es menor a 0.05 por lo cual se rechaza la hipótesis nula y por ende se puede afirmar que nuestra serie diferenciada es estacionaria.

Observe que el ACF tiene cierto sentido senosoidal y esto es importante, ademas, la autocorrelacion se ha visto fuertemente disminuida y este resultado es muy favorable para nuestro modelado, una observación a tener en cuenta es que en el lag 4 tenemos una alta correlación, esto será importante para el modelo ARIMA(p, d ,q), en este caso el parámetro “q” puede ser 0 o 4, esto se decidirá más adelante con otros criterios.

Para hallar el parámetro “p” de nuestro modelo ARIMA se utilizara el PACF:

La barra que sale de las bandas de confianza se encuentra en el lag 4, es por esto que nuestro parámetro “p” que utilizaremos en nuestro modelo puede ser p = 4 o p = 0.

Una vez claro que tenemos los posibles valores para nuestro modelo ARIMA, separaremos nuestro conjunto de datos en dos partes, cabe recordar que nuestro conjunto de datos sobre la tasa de desempleo en Colombia inicia en enero de 2007 hasta septiembre de 2024. En primer lugar haremos un corte en noviembre de 2023, los datos desde enero de 2007 hasta noviembre de 2023 serán utilizados para el modelo y los datos de diciembre 2023 hasta septiembre de 2024 serán utilizados para comprar y ver si nuestros datos se encuentran dentro del intervalo de predicción del modelo.

Debido a los posibles valores de “p” y “q” se tienen 4 posibles modelos ARIMA, los cuales son:

ARIMA(4,1,4)

ARIMA(0,1,4)

ARIMA(4,1,0)

ARIMA(0,1,0)

Para elegir el modelo más adecuado para las predicciones, el grupo de trabajo decidió basarse en el criterio de información de Akaike (AIC) ya que este indicador permite evaluar el equilibrio entre el ajuste del modelo y su complejidad, favoreciendo aquellos que explican bien los datos sin caer en el sobreajuste. Sin embargo también se tendrá en cuenta los siguientes criterios:

Media de Error Absoluto (MAE):Se utilizará para medir el promedio de los errores absolutos entre los valores observados y las predicciones del modelo, lo que proporciona una visión clara de la precisión general del mismo.

Análisis del valor P en los residuos:Este análisis tiene como objetivo verificar que los residuos del modelo se comportan como ruido blanco, lo que indicaría que no hay patrones no modelados en los datos y que el modelo es adecuado.

Tabla
Tabla

De la siguiente tabla se puede observar que el modelo con menor AIC es el modelo 2 (0,1,4), lo que indica que dicho modelo es el más eficiente en términos de capturar la información relevante sin agregar parámetros innecesarios, además al analizar el MAE se encuentra que es un valor pequeño de error en comparación de la escala de los datos y en el caso del valor p (0,63) un valor mayor al 0,05 indica que los residuos son aleatorios y no presentan problemas de autocorrelación además que se comportan como ruido blanco, recordemos que en el caso del test de residuos la hipótesis nula dice que Los residuos del modelo son independientes y se comportan como ruido blanco, y la hipótesis alternativa dice que los residuos presentan autocorrelación.

## 
##  Ljung-Box test
## 
## data:  Residuals from ARIMA(0,1,4)
## Q* = 17.216, df = 20, p-value = 0.6389
## 
## Model df: 4.   Total lags used: 24

Como podemos observar en el gráfico anterior, los residuos se comportan como ruido blanco. Teniendo en cuenta esto el grupo de trabajo procedió a realizar una prueba de la predicción del modelo seleccionado, para esto se hace uso del conjunto de pruebas que recoge los datos de la tasa de desempleo desde diciembre de 2023 hasta septiembre de 2024.

Al realizar el gráfico de predicción se obtuvo lo siguiente.

De este gráfico podemos observar que la predicción que dará el modelo estará en torno al 10% de la tasa de desempleo.

Con el objetivo de analizar qué tan exacta fue la predicción, se realizó una comparación entre el valor predicho y el valor real, como se puede observar en la siguiente tabla.

De la comparación podemos concluir que el modelo no predice con exactitud el valor de la tasa de desempleo. Sin embargo, el intervalo de predicción generado por el modelo incluye el valor real en todos los casos, lo que indica que las predicciones son consistentes dentro de los límites establecidos.

En vista de que el modelo ARIMA demuestra ser confiable al acertar dentro de los intervalos pronosticados, se realiza una predicción de la tasa de desempleo para los meses de octubre, noviembre y diciembre de 2024.

Es importante aclarar que, para un mayor nivel de exactitud, el modelo fue entrenado con la totalidad de la base de datos, destacando que los resultados del modelo (0,1,4) con la base completa son relativamente iguales al modelo que se manejó antes.

Observe que en el gráfico se puede apreciar que la tasa de desempleo va a aumentar en los próximos meses, el pronóstico puntual se observa en la siguiente tabla:

En el pronóstico se estima que la tasa de desempleo bajará en octubre y luego en noviembre y diciembre volverá a aumentar.

Es importante destacar que, aunque el modelo sugiere una tendencia, la predicción puede variar debido a múltiples variables externas no contempladas explícitamente en los datos utilizados para entrenar el modelo. Entre estas variables podrían estar cambios en las políticas económicas, fluctuaciones en la inflación, shocks externos, o eventos imprevisibles como desastres naturales o crisis políticas. Sin embargo, el modelo proporciona un nivel de confianza del 95%, lo que significa que, bajo las condiciones actuales, podemos afirmar que el valor de la tasa de desempleo estará dentro de los intervalos pronosticados.

Por último se realiza la respectiva inspección sobre el ruido blanco en el modelo y gracias al p-valor que es de 0.6604, observamos que efectivamente el modelo es ruido blanco lo que quiere decir que los residuos son independientes y no están correlacionados, es decir que el modelo ha capturado correctamente todas las dependencias presentes en los datos.

Conclusiones

Conclusión de la serie

Las tasas de desempleo en Colombia han sido estudiadas en el documento desde 2007 hasta septiembre de 2024 y las tendencias entre 2009 y 2015 se caracterizaron por un movimiento descendente muy leve en la tasa de desempleo. A partir de 2015, esta tasa comenzó a aumentar ligeramente debido a algunos factores políticos, económicos y culturales.

La crisis causada por la pandemia global de COVID-19 se debió no solo a la pérdida de vidas, sino también a la destrucción de la economía colombiana. Aquí, el desempleo alcanzó su punto más alto en 2020 con una tasa del 19.9 por ciento debido al confinamiento, así como a las medidas que paralizaron sectores económicos clave.

Con el final de la pandemia y el levantamiento de las medidas restrictivas, la tasa de desempleo experimentó una fuerte caída con la recuperación gradual del mercado laboral.

Según las predicciones del modelo ARIMA propuesto por el grupo de trabajo, se estima que la tasa de desempleo para finales del año 2024 se mantendrá en torno al 9.7%, con una ligera tendencia al alza. Sin embargo, no se espera que supere el 9.8%.

Conclusión del modelo

En los modelos ARIMA es muy importante elegir los parámetros (p,d,q) correctamente. Para ello, el grupo de trabajo realizó varios enfrentamientos, y la decisión no fue fácil porque las cifras del AIC variaron resultando en algunas diferencias, haciéndolas infinitesimales. Por esa razón, se consideró necesario complementar estas métricas con otras como el error absoluto medio (MAE) y el valor p para evaluar el ruido blanco en los residuos.También es necesario notar que la previsión con estos modelos es más confiable para períodos cortos. Cuando estos modelos se extienden a horizontes más largos, el intervalo predictivo comienza a ampliarse, lo que reduce la utilidad de proporcionar un intervalo que es demasiado amplio. En este contexto, el grupo decidió realizar una previsión con 35 predicciones y notó que la previsión puntual efectivamente se asienta en la media, pero el intervalo predictivo, sin embargo, se hace más grande y lo convierte en bastante ineficiente para informar sobre intervenciones prácticas.

Referencias

  1. Box, G. E. P., Jenkins, G. M., & Reinsel, G. C. (2016). Time Series Analysis: Forecasting and Control (5th ed.). Wiley.

  2. Hamilton, J. D. (1994).Time series analysis (Vol. 2). Princeton University Press.

  3. Utopicode. (2022, abril 8). Pronóstico de series de tiempo con modelo ARIMA, Random Forest, LSTM y Facebook Prophet [Video]. YouTube. https://www.youtube.com/watch?v=b8-_Iskq-J0

  4. Barandica, J. (2020, noviembre 24). Datavizr [Entrada de blog]. Joaquín Barandica. https://www.joaquibarandica.com/post/datavizr/

  5. Organisation for Economic Co-operation and Development (OECD). (2024). Monthly unemployment rate: Colombia [Data set]. OECD Economic Data. https://data-explorer.oecd.org/

  6. Fedesarrollo. (2019). Evolución reciente del mercado laboral en Colombia. Recuperado de https://www.repository.fedesarrollo.org.co

  7. Banco de la República. (2020). Informe sobre el desempleo en Colombia. Recuperado de https://www.banrep.gov.co