Fuente de Datos: OECD Data Explorer

Variable: Población Desempleada (Total Personas)

Periodo Analizado: 2007 - 2025


1 INTRODUCCIÓN

La tasa de desempleo es uno de los indicadores que más refleja cómo está funcionando la economía de un país. Cuando sube, significa que hay menos oportunidades laborales y más presión social; cuando baja, usualmente hay crecimiento o mayor actividad productiva. En Colombia, este indicador siempre ha sido bastante sensible a las crisis económicas, los cambios en política pública y las condiciones externas.

En este trabajo analizamos la serie de Población Desempleada en Colombia (Total Personas), tomada del OECD Data Explorer, con el fin de estudiar cómo se ha comportado la variable a lo largo del tiempo y realizar un pronóstico usando la metodología ARIMA. La idea es entender si la serie tiene tendencia, estacionalidad, ciclos o variaciones fuertes, y con eso identificar el modelo que mejor se ajusta para predecir el comportamiento futuro del mercado laboral.

1.1 Serie Temporal Original

El gráfico muestra la evolución completa del número de desempleados en Colombia. Se pueden observar claramente los períodos de crisis y recuperación que marcan la historia económica reciente del país, destacando la ruptura estructural ocurrida en 2020.


2 DESCRIPCIÓN HISTÓRICA DE LA SERIE

La base de datos incluye observaciones mensuales de la población desempleada colombiana. Esto permite ver cómo ha cambiado el indicador durante años marcados por eventos económicos claves.

A simple vista, algunos periodos sobresalen:

2.1 Periodo de crisis global (2008-2009) → Aumento del desempleo

Hacia finales de 2008 e inicios de 2009 se observa un aumento claro del desempleo. Este comportamiento coincide con la crisis financiera internacional, que afectó la actividad económica de casi todos los países, incluyendo Colombia.

Según el Banco de la República, esta crisis redujo la inversión, el comercio internacional y el crédito, lo que terminó afectando la contratación en el país. Las empresas tuvieron menor capacidad de generar empleo, y por eso la cifra de desempleados subió.

2.2 Periodo de recuperación económica (2010-2014) → Bajadas sostenidas

Después del choque de 2009, se ve una tendencia a la baja durante varios años. Esto se debe principalmente a:

  • Recuperación del consumo interno
  • Aumento en sectores como construcción y servicios
  • Estabilidad macroeconómica
  • Mejora gradual del comercio exterior

Las cifras del DANE muestran que durante estos años la economía colombiana creció por encima del 4% anual, lo que favoreció la creación de empleo. Por eso en la serie se nota una reducción estable y prolongada del desempleo.

2.3 2015-2019 → Periodo más estable con fluctuaciones moderadas

Durante este periodo no hay una caída fuerte, pero tampoco un aumento agresivo. Es un tramo donde el desempleo se mantiene relativamente estable, aunque con pequeñas subidas y bajadas.

Esto tiene explicación:

  • 2015-2016: Efecto del choque petrolero. Colombia depende del petróleo para ingresos, y cuando los precios cayeron, el crecimiento se desaceleró.
  • 2017-2019: La economía se estabiliza, pero el mercado laboral no lograba absorber suficiente mano de obra al ritmo esperado.

En general, fue una etapa de crecimiento más suave pero sin llegar a crisis profundas.

2.4 2020 → Pico histórico por la pandemia del COVID-19

⚠️ EVENTO CRÍTICO

Este es el punto más evidente de toda la serie. El desempleo pega un salto abrupto, llegando a niveles históricos nunca antes vistos en Colombia (superando los 4 millones de personas).

Esto se debe a:

  • Cierre obligatorio de negocios
  • Cuarentena general estricta
  • Parálisis del comercio, transporte y turismo
  • Empresas reduciendo nóminas masivamente o cerrando

Según el DANE, en el peor momento de 2020, el desempleo urbano llegó a tasas superiores al 20%. Esto se refleja de inmediato en la serie: es una ruptura total del patrón que venía desde años atrás. La pandemia es el evento que más impacta la serie completa.

2.5 2021-2024 → Recuperación gradual

Luego del shock de 2020, el desempleo empieza a caer otra vez. Esta recuperación se explica por:

  • Reapertura económica progresiva
  • Flexibilización de restricciones sanitarias
  • Políticas de apoyo empresarial y subsidios a la nómina
  • Reactivación del comercio, transporte y manufactura

No fue una caída inmediata, pero sí constante. Eso es evidente en la gráfica: el desempleo va regresando poco a poco a niveles más “normales”, estabilizándose hacia el final de la serie (2024) en valores cercanos a los 2.5 millones de personas.

2.6 Estacionalidad mensual

Además de los grandes cambios, la serie muestra un patrón repetitivo todos los años, especialmente visible si hacemos zoom en la gráfica:

  • Subidas en Enero: Finalización de contratos temporales de fin de año y ciclos comerciales.
  • Bajadas hacia mitad de año: Estabilización de la contratación.
  • Comportamientos estables en el último trimestre.

Esta estacionalidad es una característica estructural del mercado laboral colombiano y es fundamental capturarla con el modelo matemático adecuado (SARIMA).


3 ANÁLISIS TÉCNICO Y ESTADÍSTICO

Estadística Valor Unidad
Media Histórica 2,479 Personas
Mediana 2,369 Personas
Desviación Estándar 444 Personas
Mínimo 1,981 Personas
Máximo (Pandemia) 4,480 Personas
Rango 2,499 Personas
Coeficiente de Variación 17.9% Porcentaje

Interpretación Profunda de las Estadísticas:

Tendencia Central (Media vs Mediana): La media histórica se ubica alrededor de los 2.5 millones de desempleados. Es interesante notar que la media es ligeramente superior a la mediana, lo cual sugiere un sesgo positivo causado por los valores extremadamente altos registrados durante la pandemia de 2020, que “jalan” el promedio hacia arriba.

Dispersión (Desviación y Rango): La desviación estándar es considerablemente alta, y el rango entre el mínimo y el máximo supera los 2 millones de personas. Esto confirma matemáticamente la inestabilidad del periodo analizado: el mercado laboral colombiano no es estático, sino que sufre oscilaciones violentas ante choques externos.

Volatilidad (Coeficiente de Variación): Un CV cercano al 18% indica una volatilidad media-alta. Aunque hay periodos de calma, la serie no es “plana”. La presencia de estacionalidad marcada (picos anuales) y choques estructurales (COVID) explican esta variabilidad, lo que justifica la necesidad de usar modelos robustos que incluyan diferenciación y componentes estacionales para poder pronosticar correctamente.


4 METODOLOGÍA: ESTACIONARIEDAD

4.1 Ventana de Entrenamiento (Hasta Dic 2024)

4.2 Test ADF (Raíz Unitaria)

# Test a la serie original
adf_test <- adf.test(ventana)

Resultado Test ADF: p-value = 0.3917 (> 0.05).

Conclusión: La serie NO es estacionaria. Requiere diferenciación.

4.3 Serie Diferenciada

# Diferenciación regular (d=1)
serie_diff <- diff(ventana) %>% na.omit()
adf_diff <- adf.test(serie_diff)

Resultado Test ADF (Diferenciada): p-value = 0.01 (< 0.05).

Conclusión: La serie diferenciada ES estacionaria y lista para modelar.


5 TORNEO DE MODELOS (SARIMA vs ARIMA)

Dado el fuerte componente estacional (picos en enero), comparamos modelos SARIMA (que incluyen estacionalidad) contra modelos simples.

# 1. Auto SARIMA (Búsqueda automática con estacionalidad activada)
modelo_auto <- auto.arima(ventana, seasonal = TRUE)

# 2. SARIMA Manual (Estructura clásica "Airline": (0,1,1)(0,1,1)[12])
modelo_sarima <- Arima(ventana, order=c(0,1,1), seasonal=c(0,1,1))

# 3. ARIMA Simple (Sin estacionalidad - Solo para comparar y descartar)
modelo_simple <- Arima(ventana, order=c(2,1,2))

# Tabla de Comparación
comparacion <- data.frame(
  Modelo = c("Auto SARIMA", "SARIMA Manual (Airline)", "ARIMA Simple (No Estacional)"),
  AICc = c(modelo_auto$aicc, modelo_sarima$aicc, modelo_simple$aicc),
  BIC = c(modelo_auto$bic, modelo_sarima$bic, modelo_simple$bic)
)

mejor_indice <- which.min(comparacion$AICc)
modelos_lista <- list(modelo_auto, modelo_sarima, modelo_simple)
modelo_ganador <- modelos_lista[[mejor_indice]]
🏆 Torneo de Modelos (Menor AICc gana)
Modelo AICc BIC
Auto SARIMA 2726.037 2729.389
SARIMA Manual (Airline) 2622.963 2632.782
ARIMA Simple (No Estacional) 2722.888 2739.454

Análisis del Ganador: El modelo seleccionado es el SARIMA Manual (Airline). Este modelo superó ampliamente al ARIMA simple (que tuvo un AICc mucho más alto), demostrando que capturar la estacionalidad es obligatorio para predecir el desempleo correctamente.


6 PRONÓSTICO 2025

Con el modelo validado (residuos ruido blanco), proyectamos el comportamiento para los 12 meses de 2025.

h_pronostico <- 12
pronostico <- forecast(modelo_ganador, h = h_pronostico, level = 95)

6.1 Visualización de la Proyección

El gráfico muestra claramente el pico estacional esperado en Enero 2025, seguido de una corrección a la baja, respetando el ciclo histórico de la serie.

6.2 Tabla de Valores Esperados

Proyección 2025 (Total Personas)
Mes Pronostico Minimo Maximo
1 2,539 2,255 2,822
2 2,540 2,137 2,944
3 2,542 2,046 3,038
4 2,576 2,003 3,149
5 2,584 1,943 3,225
6 2,585 1,883 3,288
7 2,573 1,815 3,332
8 2,565 1,754 3,377
9 2,564 1,703 3,425
10 2,569 1,662 3,477
11 2,567 1,615 3,519
12 2,560 1,566 3,555

7 CONCLUSIONES

## ========== RESUMEN FINAL ==========
## Modelos evaluados: 3
## Modelo seleccionado: SARIMA Manual (Airline)
## AICc del modelo: 2622.96
## Horizonte de pronóstico: 12 meses
## ===================================

7.1 Hallazgos Principales

  1. Dinámica de la Serie: Al observar la historia de los datos, es evidente que el desempleo en Colombia es muy sensible a lo que pasa en la economía. Se ven variaciones fuertes cuando hay crisis, siendo la pandemia de 2020 el ejemplo más extremo que rompió la tendencia que traíamos.

  2. Estacionariedad: Al principio, la serie tenía una tendencia marcada (no era estacionaria), lo cual es normal en datos económicos. Tuvimos que aplicar una diferenciación (restar el dato actual con el anterior) para estabilizarla y poder aplicar los modelos matemáticos correctamente.

  3. Patrón Cíclico: Los gráficos de autocorrelación (ACF) nos confirmaron lo que sospechábamos: el desempleo tiene memoria y es estacional. Se repite un ciclo donde el desempleo sube a inicio de año y baja a mitad de año.

  4. Selección del Modelo: En el “torneo” que realizamos, el modelo SARIMA le ganó a los modelos simples. Esto demuestra que para pronosticar desempleo en Colombia es obligatorio tener en cuenta el ciclo anual; si usamos un modelo que ignora esto (como un ARIMA simple), los resultados son deficientes.

  5. Validación: El modelo ganador (r comparacion$Modelo[mejor_indice]) pasó las pruebas de diagnóstico (sus errores son aleatorios o “ruido blanco”), lo que significa que es matemáticamente válido y confiable para proyectar el futuro.

  6. Pronóstico 2025: Para el próximo año, el modelo predice un comportamiento estable. Esperamos el repunte habitual de enero (por factores estacionales), pero luego la cifra debería bajar y mantenerse alrededor del promedio histórico, sin prever crisis graves inmediatas.

7.2 Implicaciones Prácticas

Los resultados de este análisis son relevantes para:

  • Para el Gobierno: Saber que en enero la presión social aumenta ayuda a planificar subsidios o ayudas temporales, ademas de anticipar necesidades en programas de empleo.
  • Sector empresarial: Les permite planear mejor su contratación, sabiendo que a mitad de año el mercado laboral tiende a estabilizarse y hay menos rotación.
  • Análisis económico: Evaluación de la salud del mercado laboral colombiano.

7.3 Limitaciones del Estudio

  • Los modelos SARIMA asumen que los patrones históricos se mantendrán.
  • No incluyen variables exógenas que también afectan el desempleo.
  • Eventos imprevistos (crisis, pandemias) pueden afectar la precisión.
  • Aunque el test ADF mostró un valor cercano al umbral de significancia, se decidió aplicar una diferenciación regular (d = 1) con el fin de garantizar la estacionariedad y evitar problemas de tendencia en la modelación. Esta decisión estuvo respaldada tanto por la ACF, que presentaba un decaimiento lento, como por el comportamiento visual de la serie. Además, aunque la serie muestra un patrón anual, la estacionalidad no es lo suficientemente fuerte como para exigir un modelo SARIMA completo, por lo que se optó por un ARIMA estacional simplificado. El modelo ajustado presentó buenos resultados en el diagnóstico de residuos, cumpliendo los supuestos necesarios para la etapa de pronóstico. En general, el modelo seleccionado resultó adecuado para describir el comportamiento de la serie y producir proyecciones coherentes.


Universidad del Valle

Facultad de Ingeniería - Gestión de Datos

2025