INTRODUCCIÓN

El análisis de series temporales es una herramienta fundamental para comprender y predecir el comportamiento de fenómenos económicos y sociales a lo largo del tiempo. El modelo ARIMA ha demostrado ser efectivo para identificar patrones históricos y realizar pronósticos confiables, especialmente en escenarios donde las tendencias y fluctuaciones tienen un impacto significativo en la toma de decisiones.

En este trabajo hemos decidido aplicar este modelo a un tema relevante para nuestro país el cual es la tasa de desempleo, el desempleo no solo refleja la dinámica del mercado laboral, sino que también afecta de manera directa la economía y el bienestar social del país. Para este análisis, seleccionamos una base de datos sobre el desempleo en Colombia, obtenida de la Organización para la Cooperación y el Desarrollo Económicos (OCDE), que abarca el período comprendido entre 2008 y 2024.

Nuestro objetivo principal es analizar las tendencias del desempleo en Colombia y realizar pronósticos a corto plazo, que puedan ofrecer información útil para la planificación y el diseño de políticas públicas. El estudio comenzará con un análisis exploratorio de los datos para evaluar el comportamiento de la serie y determinar los parámetros clave que requiere el modelo, como la estacionalidad y la necesidad de diferenciaciones. Posteriormente, el modelo ARIMA será implementado para proyectar posibles escenarios futuros.

Con este enfoque, esperamos no solo proporcionar un análisis del desempleo en Colombia, sino también contribuir al entendimiento de las dinámicas laborales del país y generar herramientas predictivas que apoyen el diseño de estrategias económicas y sociales efectivas.

METODOLOGÍA

Para llevar a cabo este proyecto y poder predecir los resultados que se obtendrán a futuro se hará uso del modelo ARIMA usado para estimar el comportamiento de las series de tiempo en este caso se realizará un análisis que permitirá saber el comportamiento de la tasa de desempleo.ARIMA significa media móvil integrada autorregresiva y es una técnica para el análisis de series temporales y para pronosticar posibles valores futuros de una serie temporal.

SELECCIÓN Y PREPARACIÓN DE LOS DATOS

Se inició seleccionando la base de datos de la OECD, donde el tema a trabajar fue el DESEMPLEO en Colombia desde febrero de 2008 hasta septiembre de 2024. Se descargó la base de datos en formato de Excel que contenía información sobre la población desempleada en Colombia.

MODELO

Una vez preparados los datos, se procedió con una exploración inicial de la serie temporal. Se construyó la serie utilizando los datos de desempleo, con una frecuencia mensual ( este decidimos trabajarlo ), comenzando desde el mes de Febrero del año 2008.

Primeramente se generan gráficos descriptivos para observar la evolución de la tasa de desempleo a lo largo del tiempo, con el objetivo de identificar tendencias y patrones. Este paso es fundamental para comprender el comportamiento general de los datos y detectar cualquier anomalía o estacionalidad presente.

A continuación, se procedió a dividir la serie temporal en cuatro ventanas. Las dos primeras se crearon con el objetivo de generar pronósticos y comparar los valores obtenidos con los reales,esta acción nos permitirá conocer si los resultados tienen similitud o no con el pronóstico generado.

Para realizar un análisis más detallado. La ventana abarca los datos hasta septiembre de 2024 y fue utilizada para la construcción del modelo. La ventana dos se centró en los primeros meses del año 2024, desde Enero hasta Septiembre, y se empleó para validar los resultados y evaluar la precisión de los pronósticos generados por el modelo. Este enfoque permite observar la capacidad predictiva del modelo en un contexto temporal más reciente, el propósito de las ventanas básicamente capta un breve periodo de la serie de tiempo ( un subconjunto de esta misma ) con el fin de poder mover esta a lo largo de la serie para poder relacionar datos.

El siguiente paso será analizar la estacionariedad de la serie temporal. Se realizaron pruebas de raíz unitaria, junto con gráficos de autocorrelación (ACF), para determinar si la serie era estacionaria o si requería transformaciones. En caso de no serlo es necesario aplicar diferencias a la serie hasta alcanzar la estacionariedad. Además, se generaron gráficos de autocorrelación parcial (PACF) para examinar la estructura de las relaciones temporales en los datos, lo que permitió identificar los parámetros iniciales necesarios para la construcción del modelo ARIMA.

El modelo ARIMA (AutoRegressive Integrated Moving Average) está compuesto por tres componentes:

• AR (AutoRegresivo): Utiliza valores pasados de la serie para predecir futuros. Mide cómo las observaciones anteriores influyen en los valores actuales.

• I (Integrado): Indica cuántas diferencias se aplican para convertir la serie en estacionaria (sin tendencia ni estacionalidad).

• MA (Media Móvil): Considera la relación entre el valor actual y los errores residuales previos, ayudando a corregir fluctuaciones aleatorias.

Una vez con los valores del gráfico de autocorrelación (ACF) y autocorrelación parcial (PACF) se logra identificar los valores Q y P para poder formar nuestros valores del modelo. En cuanto a la selección del modelo ARIMA, se emplea una combinación de enfoques. Primeramente, se utilizará el método autoarima para identificar automáticamente los mejores valores para los parámetros P, D y Q, basándose en criterios como el AICc. Para validar estos resultados, se ajustaron modelos manuales con diferentes combinaciones de parámetros y se compararon en función del AICc y el análisis de los residuos. Esto permitirá seleccionar el modelo que mejor se ajuste a los datos que se obtendrán.

Para validar la efectividad del modelo, se evaluarán los residuos generados por cada uno de los modelos ajustados. Se debe determinar que no exista autocorrelación significativa en los residuos, lo que indica que el modelo está capturado correctamente la estructura de los datos. Asimismo, se calcularon métricas de precisión para comparar el rendimiento de los modelos y determinar cuál ofrece la mejor capacidad predictiva.

Finalmente, se usarán los modelos ajustados para generar pronósticos a corto plazo, específicamente para los próximos cuatro meses. Los intervalos de confianza fueron establecidos en un 95%, lo que proporcionó un rango de incertidumbre alrededor de las predicciones. Estos pronósticos fueron comparados con los valores reales de la serie temporal para evaluar la precisión del modelo. Además, se presentará un gráfico que muestra tanto los datos históricos como los pronósticos, lo que facilitará la interpretación visual de la capacidad del modelo para capturar la tendencia del desempleo.

DESCRIPCIÓN DE LA SERIE

• Contexto histórico de la serie de tiempo.

• Estadísticas descriptivas de la serie (media, desviación estándar, tendencia, estacionalidad, etc.).

El análisis del desempleo en Colombia ha sido un tema importante debido a su situación en el mercado laboral y su efecto en la economía. En este proyecto se empleara una base de datos sobre el desempleo en Colombia la cual fue adquirida de la OECD la cual tiene un rango de tiempo que inicia en el año 2008 hasta el presente año (2024); Esta base de datos fue seleccionada dada su relevancia en el contexto nacional y a la familiaridad sobre las particularidades económicas y sociales del país seleccionado.

En el presente proyecto se tiene como objetivo principal analizar las tendencias del desempleo en el país, esto se hará mediante la aplicación del modelo ARIMA, para realizar pronósticos a corto plazo del desempleo en Colombia; Este modelo permitirá no solo conocer los patrones que se han evidenciado históricamente sino que también ayudar a pronosticar futuros cambios.

A continuación, se definirá la variable a trabajar:

• Desempleo: Representa la tasa de desempleo en un país, lo indica que un nivel de desempleo alto puede reflejar problemas económicos y sociales, afectando el desarrollo general de un país.

De igual forma, es importante recalcar que modelo ARIMA está conformado por tres factores:

AR (AutoRegresivo): Representa el número de rezagos a utilizar en el modelo.

I (Integrado): Hace referencia a la cantidad de diferenciaciones aplicadas.

MA (Media Móvil): Se refiere a la dependencia entre una observación y el error residual anterior.

En este gráfico se pueden observar un crecimiento inicial de 2008 a 2010,este es debido principalmente a la crisis financiera, la cual fue originada en Estados Unidos pero generó una impacto a nivel mundial por lo que Colombia se vio afectada, además, en estos años también contribuyo al desempleo el hecho de que se vivió una alta migración hacia las ciudades.

Luego podemos observar una estabilización y fluctuaciones moderadas entre los años 2010 y 2016 ya que la serie presenta variaciones relativamente similares con valores que se mantienen entre 2500 y 3000, en este periodo no podemos evidenciar tendencias marcadas de crecimiento o decrecimiento pero si una estabilización en comparación al intervalo de 2008 a 2010, se pueden relacionar algunos menores altibajos con sucesos de carácter local, como cambios en las políticas públicas o variaciones de precios del petróleo,durante este período, Colombia experimentó crecimiento económico sostenido (alrededor del 4% anual en promedio), impulsado por la minería, el petróleo y las exportaciones, sin embargo, este crecimiento no siempre se tradujo en mejoras significativas en el empleo, dado el alto nivel de informalidad y desigualdad en el mercado laboral.

Adicionalmente, del año 2017 al año 2019 se evidenció una leve tasa de crecimiento, uno de los factores principales que influenció a esta tasa es la migración venezolana al país dado que los empleos generados no fueron suficientes para satisfacer la demanda laboral de una población creciente.

En el año 2020 se refleja un crecimiento acelerado sobre el desempleo en Colombia, esto es debido a la pandemia de Covid-19 en la cual se implementaron muchas restricciones lo que ocasionó la caída de la actividad económica, y el cierre de muchas empresas. En los años 2022 y 2023 se evidencia una disminución en el desempleo, esta caída es atribuida a la recuperación económica en la cual se han recuperado más del 50% de los puestos perdidos durante el año 2020 que es el que conserva la tasa de desempleo más alta.

El análisis descriptivo del desempleo durante el periodo de estudio, evidencia los siguientes resultados:

Time Period DESEMPLEO
Length: 200 Min: 1981
Class: character 1st Qu.: 2224
Mode: character Median: 2389
Mean: 2508
3rd Qu.: 2635
Max: 4480

Estos valores reflejan una distribución la cual está ligeramente sesgada hacia valores mayores que la mediana, esto indica que hay una tendencia ascendente en los niveles del desempleo. Así mismo, se ve evidenciado el hecho de que la media es mayor a la mediana lo cual puede dar indicios de que existe la presencia de valores extremos altos.

RESULTADOS DEL MODELO ARIMA

Para el desarrollo del modelo se planteó primeramente analizar el comportamiento de la base de datos con el fin de determinar si la serie tiene estacionalidad o no, esto será clave para determinar el valor del parámetro de diferenciaciones que se le realizará a nuestra serie ( “d” ) .

Este gráfico nos muestra que la serie cuenta con comportamientos crecientes y decrecientes, no obstante, se refleja que estos periodos no son repetitivos por lo que se puede concluir que la base de datos que se está manejando NO presenta estacionalidad, En cuanto a la Estacionariedad de la serie nos deja como conclusión que nuestro modelo no es estacionario y esto se puede comprobar debido a que el comportamiento de la media y varianza NO es constante.

Debido a que nuestro modelo no es estacionario y a su vez no presenta estacionalidad no tendrá la capacidad de predecir o explicar pronósticos, es por elo que es necesario buscar medidas que permitan poder poder mejorar el rendimiento de nuestro modelo.

Después, será necesario crear ventanas (3 y 4) a partir de nuestra serie original, con el fin de aplicar las medias móviles y determinar el comportamiento de nuestro modelo. Además, es fundamental comparar los valores reales con los pronósticos generados para evaluar la efectividad del modelo. Para ello, tomaremos los datos correspondientes desde enero hasta septiembre de 2024, obteniendo el siguiente resultado, el cual nos permite observar los comportamientos más recientes presentados.

Ahora se realizará el análisis del gráfico de autocorrelación (ACF) con el fin de determinar el número de rezagos que tienen mayor significancia para el modelo. Sin embargo, antes de esto, es necesario identificar la forma de la gráfica, ya que si presenta un comportamiento exponencialmente decreciente o sinusoidal, esto indicaría que nuestro modelo no sigue el comportamiento de una serie estacionaria. En ese caso, será necesario aplicar la diferenciación.

Los resultados obtenidos muestran una tendencia decreciente en nuestro modelo indicando que la serie no tiene valores constantes en su media y varianza, además su auto-correlación es fuerte lo que indica que la serie presenta valores muy asociados por tenencias, esto refuerza la la idea de diferenciar la serie para obtener mejores resultados de nuestro modelo.

Pero antes es necesario poder comprobar si realmente nuestra serie NO es estacionaria mediante la prueba de Dickey Fuller, donde plantea la siguiente hipótesis :

•H0: La serie tiene una raíz unitaria ( “No es estacionaria“)

•H1: La serie no tiene raíz unitaria (“Estacionaria”)

En este caso a la hora de realizar la prueba buscamos que nuestro valor-P sea significante, es decir menor a 0.05 para rechazar H0 y aceptar nuestro H1 dandonos garantía de que la serie es estacionaria.

En nuestro caso realizamos la prueba y obtenemos los siguientes valores

## 
##  Augmented Dickey-Fuller Test
## 
## data:  ventan
## Dickey-Fuller = -2.3244, Lag order = 5, p-value = 0.4402
## alternative hypothesis: stationary

Claramente se puede observar que nuestro valor P en la serie de Dickery Fuller es mayor a 0.05 donde rechazamos H1 y adoptamos H0, ahora lo que haremos será aplicar la diferenciación con el fin de poder mejorar el rendimiento del modelo.

Una vez ya realizada la diferenciación podemos ver que su comportamiento tanto de la media como la varianza se mantiene constantes largo de nuestra serie, ya con esto podemos determinar que el numero del parametro ( “D” ) va a ser igual a uno, ya que es el número que veces que se aplicó la diferenciación de la serie de tiempo.

Ya con nuestra serie diferenciada volvemos a analizar si realmente esta lo es, para ello volvemos a usa el gráfico de autocorrelación (ACF) para analizar si nuestra serie presenta un comportamien exponencialmente decreciente o sinusoidal, en ese caso se aplicaría una segunda diferenciación de lo contrario podremos ver algunos rezagos significativos y un comportamiento de la gráfico con “RUIDO BLANCO”:

A partir de los resultados obtenidos, podemos observar que la serie ya no presenta un comportamiento de una serie no estacionaria. Además, se verifica que los rezagos no siguen un patrón cíclico, lo que podría indicar la necesidad de aplicar una diferenciación adicional.

Tras analizar los resultados, no se observa un comportamiento repetitivo. Por lo tanto, se puede concluir que el valor de “Q” será igual a 4, ya que es el valor más significativo y no excesivamente elevado para nuestro modelo. Sin embargo, también podemos considerar otros valores menores con el fin de evaluar el rendimiento de diferentes modelos.

A continuación, se realizará nuevamente la prueba de Dickey-Fuller para confirmar que la información proporcionada por el gráfico de autocorrelación es válida.

## 
##  Augmented Dickey-Fuller Test
## 
## data:  DBD
## Dickey-Fuller = -6.281, Lag order = 5, p-value = 0.01
## alternative hypothesis: stationary

En este caso el valor-P: es de 0.01 lo cual nos indica que al rechazar la hipótesis nula nuestra serie es estacionaria, además el valor de Dickey-Fuller, .nos muestra valor negativo que simplemente respalda que la serie no tenga una raíz unitaria,es decir que sea estacionaria.

Ahora será importante determinar que valor de (“P”) que son el número de Errores se va a usar para poder empezar estimaciones de nuestro modelo, para ello realizaremos la gráfica de la autocorrelación parcial (PACF), obteniendo los siguientes resultados:

En nuestro caso obtuvimos los siguientes resultados donde se puede evidenciar que el rezago que tiene mayor significancia es el número 4, ya que supera las bandas de confianza. Por otro lado los demas rezagos no superan las bandas de confianza lo que quiere decir que no aportan información importante sobre el modelo, más sin embargo podemos considerar valores menores al 4 con el fin de buscar otros resultados.

También se realizó la siguiente gráfica para hacer la comparación entre los dos modelos y por coincidencia de la base de datos los valores para P y Q son de 4.

Ya con los valores del modelo, se corrió la función autoplot que se utiliza para visualizar el pronóstico realizado por un modelo ARIMA, incluyendo los valores históricos y los intervalos de confianza de las predicciones a futuro. Esto te ayuda a ver cómo se ajusta el modelo a los datos previos y cómo proyecta los valores futuros.

MODELO 1

## Series: ventan 
## ARIMA(0,1,0) 
## 
## sigma^2 = 19208:  log likelihood = -1263.74
## AIC=2529.49   AICc=2529.51   BIC=2532.78

Para determinar el mejor modelo ARIMA, se utilizó la función la cual recomendó un modelo ARIMA(0,1,0) basado en los criterios de ajuste obtenidos. Los valores resultantes fueron los siguientes: AIC = 2529.49, AICc = 2529.51, y BIC = 2532.78. El AICc, que es una versión corregida del AIC para muestras pequeñas, es particularmente importante en este contexto, ya que penaliza modelos más complejos y ayuda a evitar el sobreajuste. El valor de AICc = 2529.51 sugiere que el modelo ARIMA(0,1,0) es adecuado para los datos, ya que logra un buen equilibrio entre ajuste y simplicidad, sin sobreajustar la serie temporal.

Aunque esto es contradictorio con los resultados obtenidos de la gráfica de nuestro (ACF) y (PACF), ya que 4 es el valor tanto para P y Q, es por ello que se decidió realizar comparaciones con modelos que son creados a partir de estos valores, y se escogerá el modelo que presente un mejor rendimiento para nuestro caso tenemos los siguientes :

• Modelo 1: ARIMA(0,1,0), basado en un modelo simple de diferenciación.

• Modelo 2: ARIMA(4,1,4), incorporando componentes autorregresivos y de promedios móviles.

• Modelo 3: ARIMA(3,1,3), modelo que surge tras diferentes combinaciones de los valores P y Q.

Antes de continuar con el análisis de los residuos, es importante realizar la prueba de Ljung-Box para verificar si existe autocorrelación significativa en los mismos. Esta prueba evalúa si los residuos del modelo están correlacionados en el tiempo, lo que podría indicar que el modelo no ha capturado correctamente la estructura temporal de los datos. La hipótesis de la prueba es la siguiente:

H0: Los residuos no presentan autocorrelación (el modelo ha capturado toda la estructura temporal).

H1: Los residuos presentan autocorrelación (el modelo no ha capturado toda la estructura temporal).

El objetivo es obtener un valor p mayor a 0.05, lo que indicaría que no se rechaza la hipótesis nula y que los residuos no presentan autocorrelación significativa. Si el valor p es bajo (menor a 0.05), se rechazaría la hipótesis nula, sugiriendo que el modelo no es adecuado y que los residuos contienen patrones no capturados.

ya con esto explicado se realizar la prueba obteniendo los siguientes resultados :

## 
##  Ljung-Box test
## 
## data:  Residuals from ARIMA(0,1,0)
## Q* = 18.986, df = 24, p-value = 0.7527
## 
## Model df: 0.   Total lags used: 24

Se realizó la prueba de Ljung-Box sobre los residuos del modelo ARIMA(0,1,0) para evaluar la presencia de autocorrelación significativa en los mismos. El resultado obtenido mostró un valor Q de 18.986* con 24 grados de libertad y un valor p de 0.7527. Dado que el valor p es mayor a 0.05, no se rechaza la hipótesis nula de que los residuos son independientes y no correlacionados. Esto sugiere que el modelo ARIMA(0,1,0) ha capturado adecuadamente la estructura temporal de los datos, ya que no se observan patrones significativos en los residuos.

Los residuos parecen oscilar alrededor de cero, lo que es un buen indicador de que el modelo no deja tendencias significativas sin capturar. Sin embargo, hay algunos picos notables, lo que podría reflejar eventos atípicos en los datos. La mayoría de los valores de las autocorrelaciones no sobrepasan las bandas de confianza, lo cual indica que no hay una estructura significativa de correlación en los residuos, esto sugiere que el modelo ARIMA ha capturado adecuadamente la dependencia temporal en los datos. El histograma muestra una distribución aproximadamente simétrica y centrada en cero, lo cual es consistente con la suposición de normalidad indicando que los residuos siguen una distribución aproximadamente normal.

Ahora realizamos lo mismo para el modelo 2:

## 
##  Ljung-Box test
## 
## data:  Residuals from ARIMA(4,1,4)
## Q* = 11.483, df = 16, p-value = 0.7787
## 
## Model df: 8.   Total lags used: 24

Sobre los residuos del modelo ARIMA(4,1,4) para evaluar la presencia de autocorrelación significativa. El resultado de la prueba mostró un valor Q de 11.483* con 16 grados de libertad y un valor p de 0.7787. Al igual que con el modelo anterior, el valor p es mayor a 0.05, lo que indica que no se rechaza la hipótesis nula de que los residuos son independientes y no presentan autocorrelación. Esto sugiere que el modelo ARIMA(4,1,4) también ha capturado adecuadamente la estructura temporal de los datos, sin dejar patrones no modelados en los residuos.

Al analizar los residuos del modelo, se observa que la serie es estacionaria, ya que no presentan tendencias ni variaciones sistemáticas. Además, la distribución de los residuos se muestra normal, centrada alrededor de cero, lo cual es un buen indicador de que el modelo ha capturado adecuadamente la estructura de los datos.

En cuanto al gráfico de autocorrelación (ACF), se observa que todos los valores de la función de autocorrelación se encuentran dentro de la banda de confianza, lo que indica que no existe autocorrelación significativa en los residuos. Esto sugiere que los residuos son independientes, lo cual refuerza la idea de que el modelo ha sido adecuado y ha explicado correctamente la dinámica de la serie temporal.

Ahora realizamos lo mismo para el modelo 3:

## 
##  Ljung-Box test
## 
## data:  Residuals from ARIMA(3,1,3)
## Q* = 12.718, df = 18, p-value = 0.8081
## 
## Model df: 6.   Total lags used: 24

Sobre los residuos del modelo ARIMA(3,1,3) para evaluar la presencia de autocorrelación significativa. El resultado de la prueba mostró un valor Q de 12.718* con 18 grados de libertad y un valor p de 0.8081. Al igual que los modelos anteriores, el valor p es mayor a 0.05, lo que indica que no se rechaza la hipótesis nula de que los residuos son independientes y no presentan autocorrelación.

Dadas las descripciones de la gráficas se puede ver que el modelo maneja una media y varianza constante, en su ACF no tiene valores significativos y lleva consigo una distribución normal alrededor del 0, estas tres pruebas indican que la Serie presenta RUIDO BLANCO.

En cuanto al ajuste, ambos modelos pasaron la prueba de Ljung-Box para los residuos, lo que sugiere que no existe autocorrelación significativa y que ambos modelos capturan adecuadamente la dinámica de la serie. Sin embargo, dado que la elección de p=4 y q=4 está respaldada por las gráficas ACF y PACF, el modelo ARIMA(4,1,4) se considera el más óptimo para este caso, ya que ajusta mejor los rezagos de la serie temporal, más sin embargo es necesario realizar más pruebas que me indiquen que modelo es el más óptimo para poder trabajar.

##                   ME     RMSE      MAE         MPE     MAPE     MASE       ACF1
## Training set 1.78539 138.2452 95.52257 -0.04337743 3.730541 0.350853 0.03643692
##                    ME     RMSE     MAE       MPE    MAPE      MASE         ACF1
## Training set 8.677037 131.5098 89.6311 0.1726498 3.53251 0.3292137 -0.007867445
##                    ME     RMSE      MAE         MPE     MAPE      MASE
## Training set 1.484468 133.1435 93.17689 -0.04139727 3.648002 0.3422373
##                     ACF1
## Training set -0.01634828

ME (Error Medio): El Modelo 3 tiene el menor ME (1.48), lo que indica un sesgo más bajo y mejores predicciones en promedio. Le sigue el Modelo 1 (1.79), mientras que el Modelo 2 presenta un sesgo significativamente mayor (8.68).

RMSE (Raíz del Error Cuadrático Medio): El Modelo 2 presenta el menor RMSE (131.51), reflejando una menor magnitud de error global. En segundo lugar está el Modelo 3 (133.14), y finalmente el Modelo 1 (138.24), que muestra el mayor error global.

MAE (Error Absoluto Medio) El Modelo 2 también tiene el menor MAE (89.63), lo que muestra un error promedio más bajo en las predicciones. El Modelo 3 está en segundo lugar (93.18), mientras que el Modelo 1 tiene el mayor MAE (95.52).

MAPE (Error Porcentual Absoluto Medio): En términos relativos, el Modelo 2 presenta el menor MAPE (3.53%), lo que sugiere mayor precisión en relación con los valores reales. Le sigue el Modelo 3 (3.65%) y, por último, el Modelo 1 (3.73%).

ACF1 (Autocorrelación del Primer Rezago): El Modelo 3 tiene la menor autocorrelación en los residuos (-0.016), indicando mayor independencia de los errores. El Modelo 2 presenta una autocorrelación ligeramente superior (-0.0078), mientras que el Modelo 1 tiene un valor positivo (0.036), lo que podría señalar cierta dependencia en los residuos.

Para lograr estos resultados también decidimos comparar los valores del AIC, AICc y BIC para poder tomar una decisión en conjunto y decidir a nuestra conveniencia cual de los modelos tiene un mejor rendimiento con ello obtuvimos lo siguiente :

MODELO 1

## Series: ventan 
## ARIMA(0,1,0) 
## 
## sigma^2 = 19208:  log likelihood = -1263.74
## AIC=2529.49   AICc=2529.51   BIC=2532.78

MODELO 2

## Series: ventan 
## ARIMA(4,1,4) 
## 
## Coefficients:
##          ar1      ar2     ar3     ar4      ma1     ma2      ma3      ma4
##       0.0735  -0.1105  0.2472  0.6297  -0.0444  0.1376  -0.2478  -0.8454
## s.e.  0.1799   0.1573  0.1546  0.1643   0.1572  0.1495   0.1468   0.1615
## 
## sigma^2 = 18110:  log likelihood = -1256.82
## AIC=2531.63   AICc=2532.58   BIC=2561.27

MODELO 3

## Series: ventan 
## ARIMA(3,1,3) 
## 
## Coefficients:
##           ar1      ar2      ar3     ma1     ma2     ma3
##       -0.8997  -0.9588  -0.6777  0.9659  1.0945  0.8553
## s.e.   0.1875   0.0601   0.1755  0.1573  0.0568  0.1635
## 
## sigma^2 = 18370:  log likelihood = -1258.38
## AIC=2530.76   AICc=2531.34   BIC=2553.81

AIC, AICc y BIC:

El Modelo 1 tiene los valores más bajos de AIC (2529.49), AICc (2529.51) y BIC (2532.78), lo que refleja una mayor simplicidad y un menor costo de ajuste. Sin embargo, el Modelo 2, aunque más complejo, tiene un AIC relativamente cercano (2531.63), y su estructura más sofisticada puede capturar mejor la dinámica de la serie. El Modelo 3 se encuentra en el medio, con un AIC de 2530.76 y un BIC menor al del Modelo 2, pero mayor al del Modelo 1.

Conclusión

El Modelo 3 (ARIMA(3,1,3)) es la mejor opción, ya que ofrece un buen equilibrio entre precisión y simplicidad. Presenta el menor sesgo (ME), errores relativamente bajos (RMSE y MAE), y residuos más independientes, lo que lo convierte en el modelo más confiable para representar la serie temporal.independientes entre los modelos evaluados, lo que refuerza su confiabilidad. Aunque el Modelo 2 tiene métricas de precisión más bajas en algunos aspectos, su alto ME y mayor complejidad lo hacen menos adecuado. Por lo tanto, el Modelo 5 es la mejor elección para este caso

Antes de continuar con los resultados de nuestro pronostico se decidió hacer uso de la ventana ( 1 y 2 ) para comprobar con los valores del modelo ARIMA(3,1,3) que este tiene resultados precisos, para ellos se decio recortar la base de datos completa asta el año 2023 en el mes de Septiembre, y la ventana de prueba ira desde Enero en la cual se obtuvieron los siguientes resultados:

Modelo (3,1,3)
Mes Intervalo. Valor.Pronosticado Valor.Real
oct 2023 2.328-2.868 2.5980 2.580
nov 2023 2.194-2.991 2.5930 2.623
dic 2023 2.016-3.033 2.5255 2.732
ene 2024 1.924-3.129 2.5260 2.652
feb 2024 1.927-3.255 2.5910 2.704
mar 2024 1.851-3.305 2.5780 2.862

en donde podemos apreciar que nuestras seis predicciones con un nivel de confianza del 95% lograron cumplir con los intervalos establecidos demostrando que nuestro modelo es óptimo para la realización de predicciones.

Ahora con el modelo comprobado podemos realizar la predicción de los siguientes seis meses para poder terminar si la población de desempleo aumenta o disminuye, para ello obtenemos lo siguientes valores que son la predicción:

Modelo (3,1,3)
Mes Intervalo Pronosticado Valor Pronosticado
oct 2024 2.227-2.761 2.494
nov 2024 2.054-2.834 2.444
dic 2024 1.923-2.910 2.417
ene 2025 1.898-3.069 2.483
feb 2025 1.837-3.130 2.483
mar 2025 1.731-3.145 2.438

y estos valores los podemos ver de la siguiente manera en el gráfico de predicción:

##          Point Forecast    Lo 95    Hi 95
## Oct 2024         2485.9 2214.265 2757.535
## Nov 2024         2485.9 2101.749 2870.051
## Dec 2024         2485.9 2015.414 2956.386
## Jan 2025         2485.9 1942.629 3029.171
## [1] 2446.166 2503.946 2580.273 2623.054 2732.386
##  [1] 3475.417 3023.264 3138.443 2986.343 3169.664 3188.313 2911.871 2968.130
##  [9] 2935.332 2979.670 2689.176 2584.510 2817.232 2687.983 2718.094 2857.455
## [17] 2672.251 2697.839 2768.359 2836.371 2589.504 2527.151 2663.355 2583.375
## [25] 2398.286 2431.788 2446.166 2503.946 2580.273 2623.054 2732.386

Conclusiones basadas en el pronóstico ARIMA de la población desempleada en Colombia

El análisis de los datos predichos indica que el fenómeno estudiado parece estabilizarse en torno a un valor central de aproximadamente 2400-2500 en los próximos meses. Según las proyecciones, no se anticipan fluctuaciones extremas a corto plazo, lo que sugiere un comportamiento coherente con los valores históricos recientes. Sin embargo, los intervalos de confianza, que son relativamente estrechos a corto plazo, se amplían considerablemente hacia el futuro, lo que refleja una mayor incertidumbre en las proyecciones a largo plazo.

La comparación con los datos históricos muestra que el modelo captura adecuadamente los patrones generales observados, aunque no considera posibles cambios estructurales o el impacto de factores externos que podrían influir en los resultados. Esto implica que, aunque el modelo es confiable para describir la tendencia inmediata, sus predicciones a más largo plazo deben ser interpretadas con cautela.

En conclusión, el fenómeno muestra una tendencia hacia la estabilización con variaciones limitadas en el corto plazo, pero la creciente incertidumbre en las proyecciones futuras sugiere la necesidad de monitorear los resultados reales y considerar ajustes en el modelo si se presentan cambios significativos en el entorno o en el comportamiento del fenómeno estudiado.

CONCLUSIONES

El análisis realizado sobre la serie temporal permitió identificar que los datos presentaban características no estacionarias, lo que hizo necesaria la diferenciación para estabilizar la varianza y la media. Tras este preprocesamiento, se evaluaron múltiples configuraciones de modelos ARIMA, seleccionando el ARIMA(3,1,3) como el más adecuado. Este modelo se destacó por ofrecer un equilibrio óptimo entre precisión predictiva y simplicidad estructural.

El ARIMA(3,1,3) presentó métricas de error bajas, incluyendo un RMSE aceptable y un MAPE que demuestra una buena capacidad de ajuste. Además, los residuos del modelo no evidenciaron autocorrelaciones significativas, confirmado por la prueba de Ljung-Box, lo que garantiza que el modelo captura adecuadamente los patrones de la serie sin dejar componentes no modelados.

En la validación, las predicciones del modelo coincidieron con los valores reales dentro de los intervalos de confianza del 95%, lo que demuestra su capacidad para generalizar en datos no utilizados en su construcción. Este comportamiento asegura que el modelo es confiable para realizar pronósticos precisos en el corto y mediano plazo.

Comparativamente, el ARIMA(3,1,3) superó a otras configuraciones evaluadas, incluyendo modelos más simples como el ARIMA(0,1,0). Aunque estos modelos simplificados son más fáciles de interpretar, su desempeño predictivo fue inferior, especialmente en términos de capturar la complejidad de la serie temporal analizada.

En síntesis, el modelo ARIMA seleccionado no solo cumple con los criterios de robustez y confiabilidad, sino que también destaca como una herramienta útil para realizar predicciones precisas y soportar la toma de decisiones estratégicas en contextos similares. Este enfoque puede ser replicado para abordar problemáticas en diferentes áreas, asegurando resultados consistentes y validados empíricamente.