SERIES DE TIEMPO Y PRONÓSTICO TASA DE DESEMPLEO EN COLOMBIA 2015-2024

April Gisel Díaz

Luisa María Florez

Lina María Perenguez

Lina Fda García

06/dic./2024

INTRODUCCIÓN

La tasa de desempleo mensual en Colombia es un indicador económico importante que refleja la proporción de la población económicamente activa que no tiene empleo, pero está buscando activamente trabajo. Este indicador tiene un proceso particular en el país, influenciado por factores estructurales, estacionales y temporales. El análisis de series temporales desempeña un papel fundamental en la comprensión y predicción de patrones en datos históricos, el cual permite tomar decisiones estratégicas fundamentadas en tendencias observadas. En el contexto internacional y nacional, las series temporales son herramientas cruciales para analizar estas interacciones en sectores importantes como la economía, el mercado laboral, el comercio, y otros indicadores relevantes, ya que muestran comportamientos históricos y proporcionan proyecciones que contribuyen a la planificación a corto y largo plazo en un país.

En este informe, se utiliza una serie temporal seleccionada del OECD Data Explorer, una página que proporciona datos confiables y actualizados a nivel global, posterior a esto y con la variables ya elegida por el grupo, se realiza un análisis que permite destacar la importancia de trabajar con datos reales en ámbitos académicos y profesionales, pues ayuda a comprender cómo los indicadores seleccionados influyen en decisiones estratégicas dentro de áreas determinantes en la economía de un país específico.

Al emplear el modelo ARIMA (Autoregressive Integrated Moving Average), se busca capturar la dinámica histórica de los datos y proporcionar predicciones de entre 5 y 10 observaciones futuras. Esto es especialmente relevante para evaluar tendencias y cambios que podrían impactar tanto a nivel nacional como internacional. Este informe se enfoca principalmente en una serie temporal con al menos 60 periodos, asegurando un análisis robusto basado en un marco metodológico sólido.

De manera específica, la serie que se seleccionó es “Tasa de desempleo mensual en Colombia” siendo un indicador clave para entender el comportamiento de la economía, ya que manifiesta las variaciones en el mercado laboral, pues este representa un aumento constante de la tasa de desempleo en los primeros meses del año, especialmente en enero, como resultado de una alta demanda de trabajo en la temporada decembrina, lo cual genera un incremento estacional que se suaviza al ser ajustado por efectos de calendario y estacionalidad. Sin embargo, en la pandemia de COVID-19 se tuvo un impacto inesperado elevando la tasa de desempleo, afectando principalmente mujeres y jóvenes, incrementando la informalidad en el país.

Aunque la recuperación económica comenzó a mediados del 2021, los problemas estructurales persistían, con una tasa de desempleo que se estabilizó en los años recientes. Esta tendencia no solo muestra como hay una recuperación gradual, sino que además resalta las desigualdades de género y los desafíos para los grupos más vulnerables. El comportamiento del mercado laboral colombiano está marcado por una compleja interacción de factores estacionales, estructurales y externos, los cuales tienen un impacto directo en la economía afectando tanto el consumo como la estabilidad social. Gracias a la información otorgada sobre el estado de la ocupación y la desocupación en el país, la tasa de desempleo tiene un impacto directo en otros aspectos económicos, como la inflación, el consumo y el poder adquisitivo de los ciudadanos. A través del análisis y pronóstico de esta serie temporal, no solo se puede observar el comportamiento histórico del desempleo en Colombia, sino también identificar patrones y tendencias que permiten prever futuros movimientos en la economía, lo cual es fundamental para la toma de decisiones tanto a nivel gubernamental como empresarial, ya que facilita la elaboración de políticas y estrategias orientadas a mejorar las condiciones laborales y promover un desarrollo económico sostenible.

METODOLOGÍA

Una serie de tiempo es un conjunto de datos que se han recopilado y organizado de manera cronológica, en las cuales cada elemento refleja el valor de una variable en un instante específico en el tiempo. Estas series se utilizan para examinar cómo una variable varía a lo largo del tiempo y para llevar a cabo pronósticos acerca de su comportamiento futuro. Los datos pueden ser obtenidos en distintos intervalos temporales, tal como minutos, horas, días, meses o años, dependiendo del contexto y el objetivo del análisis. El análisis de series temporales es fundamental en estadística y ciencia de datos, con usos prácticos en diversos sectores, tales como economía, meteorología, finanzas, ciencias sociales y tecnología. Su principal objetivo es entender los patrones que existen dentro de los datos y aplicarlos para hacer proyecciones o detectar anomalías. Una serie temporal suele descomponerse en diversos componentes para su análisis: Tendencia (T): Representa el cambio a largo plazo en los datos. Esta indica un crecimiento,decrecimiento o estabilidad general en la variable analizada. Estacionalidad (S): Abarca las oscilaciones periódicas regulares que ocurren en intervalos de tiempo determinados, como los picos de ventas en temporadas festivas o las variaciones climáticas anuales. Ciclos (C): Son fluctuaciones recurrentes que no tienen una periodicidad definida, son frecuentemente relacionadas a factores económicos o sociales. Ruido (R): Se refiere a la variabilidad aleatoria en los datos que no presenta ningún patrón reconocible.

Este tipo de análisis no solo facilita la identificación de estos componentes, sino que también permite eliminarlos o modelarlos, con el fin de centrar el estudio en los aspectos significativos.

El modelo ARIMA (Autoregressive Integrated Moving Average) se considera uno de los métodos más relevantes y comúnmente aplicados en la evaluación de series temporales, particularmente cuando se busca hacer proyecciones basadas en datos del pasado. Este modelo integra tres elementos fundamentales para identificar los patrones y relaciones dentro de los datos:

Autorregresivo (AR): Este elemento explica la relación entre una observación y una cantidad específica de valores anteriores (retrasos o “lags”). Integrado (I): Este término se refiere a la cantidad de diferenciaciones necesarias para convertir una serie no estacionaria en estacionaria. Una serie estacionaria es aquella que presenta un comportamiento consistente a través del tiempo, mostrando una media y varianza constantes. La estacionalidad es un prerrequisito esencial para implementar este tipo de modelos. Media móvil (MA): Este componente aborda la relación entre un dato y los errores pasados, es decir, las diferencias entre los valores reales y los valores calculados por el modelo en puntos anteriores).

Un modelo ARIMA se expresa como ARIMA(p, d, q), en donde: ** p:** Representa el número de términos autorregresivos (AR). d: Indica el número de diferenciaciones requeridas para obtener la estacionalidad. q: Define la cantidad de términos de media móvil (MA). El propósito del modelo ARIMA consiste en adaptar los datos históricos de la serie temporal con el fin de llevar a cabo pronósticos exactos acerca del futuro. Este ajuste implica determinar los valores óptimos de (p), (d) y (q), lo que se realiza comúnmente mediante criterios estadísticos como el AIC (Criterio de Información de Akaike) o el BIC (Criterio de Información Bayesiano). El modelo ARIMA es esencial en el estudio de series temporales por diversas razones 1. Capacidad de modelar series complejas: Tiene la habilidad de manejar tanto series que son estacionarias como aquellas que no lo son. 2. Versatilidad: Gracias a su combinación de componentes AR, I y MA, el modelo puede ajustarse a datos que presentan tendencias, estacionalidad o patrones más intrincados. 3. Precisión en predicciones: Al capturar las dependencias y patrones presentes en los datos históricos, el modelo ARIMA proporciona predicciones confiables a corto y mediano plazo, que son importantes para la planificación y la toma de decisiones.

DESCRIPCIÓN DE LA SERIE DE TIEMPO

Uno de los mayores retos económicos en Colombia ha sido la elevada tasa de desempleo, un problema recurrente que no solo afecta al país, sino que constituye un desafío macroeconómico global. La evolución del desempleo refleja las dinámicas políticas, sociales y económicas que han influido en el mercado laboral a lo largo del tiempo. El desempleo en Colombia ha mostrado una tendencia creciente desde 2015. Según datos del DANE, en octubre de 2019 la tasa de desempleo llegó al 9.8 %, un incremento respecto al 9.1 % registrado en el mismo mes del año anterior. Durante el trimestre agosto-octubre de 2019, esta cifra alcanzó el 10.3 %, lo que representó un aumento de 1.1 puntos porcentuales en comparación con el mismo período de 2018. A pesar de este deterioro en el empleo, la economía mostró un crecimiento del 3.3 % en el tercer trimestre de 2019, superior al 2.6 % del mismo periodo en 2018 (DANE, 2019; Vallejo Zamudio, 2020).

Las políticas laborales implementadas durante los gobiernos han sido determinantes en el comportamiento del desempleo. En la administración del presidente Uribe(2002-2010) se adoptaron medidas orientadas a flexibilizar el mercado laboral, como la eliminación de recargos por horas extras y la ampliación de la jornada laboral, bajo el argumento de fomentar el empleo. Sin embargo, estudios indican que estas iniciativas beneficiaron más a los empleadores que a los trabajadores y no lograron reducir significativamente el desempleo. Durante el gobierno de Santos, (2010-2018) se registraron importantes avances económicos y sociales, pero el impacto en el desempleo tuvo matices que vale la pena analizar. Este periodo estuvo marcado por reformas laborales, programas de inclusión y un enfoque en el crecimiento económico, aunque los resultados en la reducción de la tasa de desempleo fueron moderados debido a desafíos estructurales persistentes.

Posteriormente, durante el gobierno de Duque, se promovió la contratación por horas a través del plan de desarrollo, permitiendo que trabajadores con ingresos inferiores a un salario mínimo accedieran a prestaciones sociales. No obstante, esta medida generó críticas, ya que podría aumentar la precariedad laboral y afectar los ingresos de los trabajadores más vulnerables (Vallejo Zamudio, 2020).

Además de políticas gubernamentales, otros factores estructurales han tenido un impacto significativo, como la alta informalidad laboral, la brecha de género en el empleo, y las limitadas oportunidades para los jóvenes y las zonas rurales.

El análisis de la serie de tiempo que abarca de 2015 a 2024 permite identificar tres períodos clave en la evolución de la tasa de desempleo:

Estabilidad previa a la pandemia (2015-2019)

Durante este período, la tasa de desempleo en Colombia se mantuvo relativamente estable, rondando el 10 %. Sin embargo, este aparente equilibrio enmascaraba desafíos estructurales: Alta informalidad: En 2019, cerca del 46 % de los ocupados trabajaban en condiciones informales, sin acceso a seguridad social ni derechos laborales básicos.

Brecha de género: Las tasas de desempleo femenino superaban sistemáticamente a las masculinas, reflejando desigualdades y barreras para la inclusión de las mujeres en el mercado laboral.

Desafíos rurales: El empleo en las zonas rurales dependía del sector agrario, que enfrentaba problemas como falta de inversión y estrategias para su fortalecimiento.

Impacto de la pandemia de COVID-19 (2020)

La pandemia de COVID-19 desencadenó una crisis laboral sin precedentes. La tasa de desempleo alcanzó un pico cercano al 20 %, afectando desproporcionadamente a ciertos grupos: Mujeres: Por cada hombre que perdió su empleo, 2.2 mujeres también lo hicieron. En noviembre de 2020, la tasa de desempleo femenino alcanzó el 22.8 %, frente al 13.9 % de los hombres. Esto refleja la vulnerabilidad de las mujeres en sectores tradicionalmente feminizados y la dificultad para acceder al mercado laboral en tiempos de crisis.

Jóvenes: El desempleo juvenil llegó al 25.9 % en septiembre de 2020, destacando la precariedad de las oportunidades laborales para este grupo.

Informalidad laboral: La pandemia agravó la informalidad, que representaba el 46.2 % del empleo en junio de 2020. Muchos trabajadores informales vieron sus ingresos reducidos drásticamente.

Sector rural: El empleo rural también se redujo drásticamente, pasando de 4.6 millones de ocupados en mayo de 2019 a 4.1 millones en mayo de 2020.

Recuperación económica (2021-2024) Con la reactivación económica la tasa de desempleo comenzó a disminuir a partir de mediados de 2021. Sin embargo, a pesar de esta recuperación, la tasa se ha estabilizado cerca del 10 %, lo que evidencia que los problemas estructurales persisten: Persistencia de la informalidad: Cerca de la mitad de la población trabajadora continúa en empleos informales.

Desigualdades de género: Aunque la brecha de género ha disminuido ligeramente, las mujeres siguen enfrentando mayores barreras para acceder a empleos formales y bien remunerados.

Desempleo juvenil y rural: Estos problemas siguen siendo desafíos críticos, reflejando la necesidad de políticas más efectivas para incluir a estos grupos en el mercado laboral formal.

Estadísticas descriptivas

Tasa de desempleo

Descriptivas
Descriptivas

Valores descriptivos:

Min. (8.460): El valor más bajo observado en la muestra es 8.46. Esto indica que en algún momento el desempleo fue relativamente bajo.

1 Qu. (9.308): El primer cuartil es 9.308, lo que significa que el 25% de los datos están por debajo de este valor. Es un indicador de los niveles más bajos de desempleo en el rango inferior.

Median (10.013): La mediana es 10.013, lo que indica que la mitad de los datos están por debajo de este valor y la otra mitad por encima. Es una medida central más robusta que el promedio.

Mean (10.874): El promedio es 10.874. Esto indica que, en promedio, la tasa de desempleo se mantiene cerca del 10.87% en el período analizado.

3 Qu. (11.168): El tercer cuartil es 11.168, lo que significa que el 75% de los datos están por debajo de este valor. Esto representa los niveles superiores de desempleo en la mayoría de los años.

Max. (19.872): El valor máximo es 19.872, lo que indica un pico significativo de desempleo, este valor máximo es muy probable que sea influenciado por el evento del año 2020.

Desviación estándar: 2.415178 La desviación nos indica que tiene una baja dispersión, lo cual indica que los datos están más concentrados cerca de la media, mientras que una alta indica una mayor variabilidad. En este caso, una desviación de 2.42 indica una moderada dispersión, es decir, las tasas de desempleo no están extremadamente alejadas del promedio, aunque hay ciertas variaciones significativas, como el pico de 19.872.

Ahora bien, tras analizar el promedio de la tasa de desempleo, se observa que su media general se sitúa en un 10.87% entre el periodo de tiempo 2015 y 2024. Sin embargo, es importante examinar cómo ha evolucionado esta tasa a lo largo de cada año para realizar un análisis más detallado de su comportamiento.

Media Anual de Desempleo (2015-2024)
Año Media.de.Desempleo….
2015 8.94
2016 9.22
2017 9.29
2018 9.52
2019 10.37
2020 15.82
2021 13.80
2022 11.21
2023 10.16
2024 10.27

Con base en las medias anuales de desempleo, podemos afirmar que los eventos ocurridos en el país han influido de manera significativa en la evolución de esta tasa, con períodos de aumento y disminución marcados. Se observa una tendencia ascendente hasta 2020, vinculada a factores como la pandemia de COVID-19 y sus efectos económicos, como anteriormente se mencionó. Posteriormente, la tasa muestra una recuperación gradual, aunque aún se mantiene por encima de los niveles previos a 2019, estabilizándose en un promedio cercano al 10% en los años más recientes. Esto evidencia una recuperación moderada, aunque persistente, del mercado laboral.

Adicionalmente, se observa que a lo largo de la línea de tiempo, se observa una tendencia en la tasa de desempleo, destacando un patrón recurrente en el que enero presenta los niveles más altos. Esto podría estar relacionado con el aumento de la demanda laboral en diciembre debido a la temporada festiva, lo que genera empleos temporales que finalizan al inicio del año. Sin embargo, es importante resaltar que en enero de 2024 se registró una mejora significativa, con una tasa de desempleo más baja en comparación con enero de 2023, que fue del 11.3%. En 2024, esta cifra se redujo en 0.9 puntos porcentuales, lo que sugiere una posible estabilización o recuperación del mercado laboral en ese período.

MODELO ARIMA

Para la creación y el análisis del modelo arima, se crearán 2 ventanas, la primera tendrá los datos desde el enero del 2015 hasta febrero del 2024, y la segunda ventana que corresponde a la de prueba, tendrá los datos desde marzo del 2024 hasta septiembre del mismo año, es decir se usarán 109 meses de entrenamiento y 7 para prueba, esto con el fin de comparar los valores que predice el modelo con los datos reales. Cabe recalcar que tanto el estudio de la estacionalidad como el modelo serán hechos con la serie de entrenamiento.

Serie de entrenamiento.

Posteriormente, se procede a evaluar la estacionalidad de la serie de tiempo, con la ayuda visual de acf de la serie, el cual ayuda a evaluar la estacionariedad de una serie porque en series estacionarias, las correlaciones disminuyen rápidamente a medida que aumenta el lag, acercándose a cero tras unos pocos desfases. En cambio, si las correlaciones permanecen significativas durante muchos lags, indica una posible tendencia o no estacionariedad.

ACF

En el gráfico se puede observar que decrece lentamente lo cual da un indicio de que la serie no es estacionaria, esto se puede apoyar con el test de Dickey-Fuller, esta es una prueba estadística utilizada para determinar si una serie de tiempo es estacionaria o no. En términos simples, verifica si existe una raíz unitaria, lo cual indicaría que la serie no es estacionaria. Este test tiene como hipótesis nula que la serie tiene una raíz unitaria (no estacionaria)., y como hipótesis alternativa que la serie es estacionaria (sin raíz unitaria), para este caso si el valor del resultado es menor a 0.05 se rechaza la hipótesis nula. Para esta serie el resultado fue p-value = 0.6794, por ende no hay suficiente evidencia para rechazar la hipótesis nula y la serie no es estacionaria.

Para hacer que una serie de tiempo sea estacionaria, una técnica común es aplicar la diferenciación. Este proceso consiste en calcular las diferencias entre valores consecutivos de la serie original. En términos simples, la serie diferenciada representa el cambio entre cada observación.La diferenciación ayuda a estabilizar la media de la serie al eliminar tendencias o patrones no estacionarios. Sin embargo, es importante tener en cuenta que este proceso reduce el número de observaciones, ya que no se puede calcular una diferencia para el primer valor de la serie.Por consiguiente se le aplica una diferenciación a la serie de tiempo, el resultado puede observarse en la siguiente gráfica.

SERIE DIFERENCIADA

En la gráfica se puede observar que la serie diferenciada oscila alrededor de cero, lo que indica que la tendencia de la serie original ha sido eliminada y la media se ha estabilizado, sugiriendo que ahora es estacionaria. La varianza parece más constante a lo largo del tiempo, lo que refuerza la idea de que la diferenciación ha reducido la no estacionariedad. Aunque persiste un pico alrededor de 2020,el cual se explica por el contexto histórico de la serie.

Ahora es importante revisar el gráfico acf de la serie diferenciada:

ACF SERIE DIFERENCIADA

En el gráfico se muestra que, después de la diferenciación, la ACF cae rápidamente a 0, lo que sugiere que ahora los datos pueden ser estacionarios. Además, vemos que el rezago número 4 se sale de las bandas de confianza, lo que significa que hay una autocorrelación significativa en ese punto. Esto indica que hay una dependencia estadística entre los valores de la serie a una distancia de 4 períodos.

Para reforzar la idea de que la diferenciación fue suficiente para volver estacionaria la serie, se aplica el test de Dickey-Fuller y el resultado fue p-value = 0.01, que al ser menor a 0.05 se tiene la suficiente evidencia para rechazar la hipótesis nula y concluir que la serie diferenciada es estacionaria.

ELECCIÓN DEL ORDEN DEL MODELO.

Como fue explicado en la metodología un modelo ARIMA se expresa como ARIMA(p, d, q), donde, p: Representa el número de términos autorregresivos (AR), d: Indica el número de diferenciaciones requeridas para obtener la estacionalidad y q: Define la cantidad de términos de media móvil (MA). Anteriormente se identificó que se necesita una diferenciación para obtener la estacionalidad, es decir, ya se identificó d=1, ahora para identificar p y q usaremos las gráficas de acf y pacf. Antes de identificar estos valores se debe asegurar que estos gráficos de la serie diferenciada sigan ciertos patrones. En primer lugar, tanto el ACF (función de autocorrelación) como el PACF (función de autocorrelación parcial) deben mostrar una caída exponencial o un comportamiento sinusoidal. Además, en el PACF debe haber un aumento significativo en el rezago ppp, pero sin que se observen aumentos relevantes más allá de ese rezago. De manera similar, en el ACF debe haber un aumento significativo en el rezago q, sin que se mantengan correlaciones significativas más allá de este retraso. Estos patrones son indicativos de que la serie es estacionaria y que los parámetros p y q pueden ser determinados de manera efectiva para el modelo ARIMA.A continuación de muestra que estos patrones se siguen para este caso.

ACF Y PACF DE LA SERIE DIFERENCIADA.

Ahora se analiza el ACF, el cual sugiere un posible valor de qqq, correspondiente al número del rezago significativo identificado, que en este caso es el rezago 4. De manera similar, el PACF indica un posible valor de ppp, también correspondiente al número del rezago más significativo, que en este caso es el rezago 4. Hasta el momento, los posibles candidatos para el modelo son d=1, p=4 y q=4. Sin embargo, también existe la opción de utilizar la función auto.arima, que selecciona automáticamente el modelo más adecuado en función de criterios estadísticos como AIC, BIC y otros. Para esta serie temporal, el modelo propuesto por auto.arima fue un ARIMA(0,1,0). No obstante, es importante usar esta función con precaución, ya que, aunque facilita la selección automática de parámetros, puede no capturar completamente el contexto de la serie temporal o no considerar ciertos aspectos específicos que podrían mejorar el ajuste del modelo. Por esta razón, se explorarán diferentes configuraciones de modelos de manera manual para comparar y seleccionar el mejor ajuste, evaluando tanto el comportamiento de los residuos como el desempeño en la predicción.

La comparación se realizó principalmente utilizando el AICc, una versión corregida del AIC que ajusta la penalización por complejidad del modelo para muestras pequeñas. Se analizaron los valores del AICc en un total de 16 modelos, identificando los 7 mejores con los valores más bajos. Estos se muestran a continuación:

Modelo ARIMA AICc
4 (0,1,4) 264.69
3 (4,1,0) 266.72
auto.arima (0,1,0) 266.89
6 (0,1,5) 266.80
10 (4,1,3) 270.35
7 (3,1,4) 270.40
2 (4,1,4) 271.92

Cabe recalcar que la elección del modelo ARIMA (0,1,4) no solo fue hecha con respecto a el AICc, si no también a el valor de MAE, la prueba de Ljung-Box y una visualización de las predicciones de los 7 mejores modelos según el AICc. Otra medida que se tomó para la elección del modelo fue la comparación de las predicciones de los modelos con los datos reales de 4 meses para evaluar cuál modelo era más preciso. Se calculó el porcentaje de error para cada modelo en este período de prueba. Es importante mencionar que estos valores son diferentes de los MAE calculados por check residuals, ya que los cálculos manuales solo se realizaron con los datos de prueba, mientras que check residuals los calcula con todas las observaciones. Esto asegura que la evaluación se centre en cómo el modelo predice nuevos datos.

Modelo MAE
Modelo 4 0.4280913
Modelo 3 0.4362662
auto.arima 0.4832862

Evaluación del modelo a través del análisis de residuos (checkresiduals).

RESULTADOS Y CONCLUSIÓN

## 
##  Ljung-Box test
## 
## data:  Residuals from ARIMA(0,1,0)
## Q* = 18.913, df = 22, p-value = 0.6507
## 
## Model df: 0.   Total lags used: 22

En el análisis de los residuos del modelo ARIMA(0,1,4), se pueden observar tres aspectos clave: Media alrededor de cero: La primera gráfica muestra que los residuos oscilan alrededor de una media cercana a cero. Esto es importante porque garantiza que el modelo no tiene un sesgo sistemático, es decir, no está subestimando ni sobreestimando los valores reales de la serie en promedio. Un residuo con media cero indica que el modelo está ajustado correctamente al capturar el componente sistemático de los datos. Autocorrelación (ACF): En la gráfica de la ACF de los residuos, se observa que, en general, los residuos se comportan como ruido blanco, ya que la mayoría de los rezagos están dentro de las bandas de confianza. Sin embargo, existe un rezago significativo que podría atribuirse al gran aumento que se presentó en el 2020, probablemente relacionado con un evento histórico o contextual específico que no fue completamente capturado por el modelo. A pesar de este rezago, el comportamiento general de los residuos es adecuado. Para apoyar esto también proporciona el test de Ljung-Box evalúa si los residuos de un modelo están correlacionados, es decir, si se comportan como ruido blanco. Un p-value = 0.8927 indica que no hay evidencia estadísticamente significativa para rechazar la hipótesis nula de que los residuos son ruido blanco.

Distribución normal: El histograma de los residuos, junto con la curva de densidad superpuesta, muestra que los residuos siguen aproximadamente una distribución normal. Aunque hay algunos valores extremos (outliers), estos pueden deberse a eventos específicos o anomalías en los datos que el modelo no logra capturar completamente. La aproximación a la normalidad es importante, ya que asegura que los supuestos del modelo sobre los errores (como la aplicabilidad de pruebas estadísticas y predicciones) se cumplan en gran medida.

ACCURACY

La función accuracy() en modelos de series temporales proporciona métricas de desempeño para evaluar qué tan bien un modelo ajusta los datos de entrenamiento o predice los valores futuros. Para este análisis solo se tendrá en cuenta el MAE (Mean Absolute Error) que mide el error promedio absoluto entre los valores observados y los valores predichos por el modelo, expresado en las mismas unidades de la variable analizada. En este caso, el MAE del modelo es 0.4715, lo que significa que, en promedio, las predicciones del modelo difieren de los valores reales por aproximadamente 0.4715 unidades. Un valor bajo de MAE, como este, sugiere que el modelo tiene un buen desempeño en términos de precisión.

PREDICCIÓN.

Para la predicción del modelo se optó por utilizar 4 meses, dado que los modelos ARIMA son más adecuados para predicciones a corto plazo debido a su enfoque en capturar patrones recientes en la serie temporal. A continuación, se presentan los resultados de la predicción en comparación con los valores reales correspondientes a esos 4 meses.

Fecha Dato real Predicción
2024-Mar 11.180570 10.72472
2024-Apr 10.268660 10.54981
2024-May 9.984015 10.69734
2024-Jun 10.334030 10.59607

DEMOSTRACIÓN GRAFICA.

ANÁLISIS DE LOS RESULTADOS Y CONCLUSIÓN.

Al comparar los resultados de las predicciones del modelo con los datos reales, se observa que, aunque no son completamente precisos, existen algunas similitudes importantes: Mayo: Las predicciones muestran una gran similitud con el dato real, manteniéndose muy cerca del valor observado. Marzo: El modelo predice este mes como el de mayor tasa de desempleo entre los meses analizados, lo cual coincide con los datos reales. Abril: Se evidencia una concordancia en la disminución de la tasa de desempleo respecto a marzo, alineándose con la tendencia de los datos reales. Mayo: Es el mes con la mayor discrepancia entre la predicción y el valor real. No solo la predicción es más alta que el dato real, sino que además no refleja la disminución observada en la tasa de desempleo entre abril y mayo. Junio: El modelo predice un valor muy cercano al dato real, mostrando consistencia para este mes. En general, las predicciones del modelo reflejan parcialmente las tendencias de los datos reales, aunque presentan ciertas desviaciones. Esto se ve respaldado por el porcentaje de error promedio del 42% al comparar las predicciones con los valores reales. Dado que se trata de predicciones, este nivel de error puede considerarse aceptable dependiendo del contexto y la complejidad de la serie temporal. Sin embargo, también sugiere que el modelo puede requerir ajustes o complementarse con otras técnicas para mejorar su precisión, especialmente en escenarios donde los cambios bruscos son relevantes.

IMPLICACIÓN DE LOS RESULTADOS.

Los resultados del modelo indican una tasa de desempleo del 10.72% para marzo, un valor alto que podría explicarse por ciertos eventos o condiciones específicas ocurridos en ese mes. Este resultado, además de coincidir con el valor real de marzo de 2024, representa un notable aumento en comparación con marzo de 2023, cuando la tasa fue del 9.96%. Para abril, el modelo predice una tasa de desempleo del 10.54%, lo que implica una leve mejora respecto a marzo. Sin embargo, este valor aún refleja un incremento en comparación con abril de 2023, cuando la tasa fue del 10.34%. En mayo, la predicción muestra un ligero aumento con una tasa del 10.69%, mientras que en junio ocurre algo similar, manteniéndose por encima de los valores observados en el mismo periodo del año pasado. En general, el modelo predice un aumento en la tasa de desempleo para todos los meses analizados, lo cual difiere de los datos reales. En la realidad, solo en marzo y junio de 2024 la tasa de desempleo fue mayor en comparación con los mismos meses de 2023, lo que indica que el modelo no logró capturar con precisión las disminuciones registradas en abril y mayo.

El análisis de los resultados revela varias limitaciones en el modelo, ya que, aunque las predicciones muestran cierta similitud con los datos reales, la precisión no es completamente satisfactoria. Este hecho puede explicarse por la complejidad involucrada en seleccionar el modelo más adecuado ya que aunque se busco el mejor entre 16 modelos realizados este aun no cumplia por completo algunos requisitos.Además, factores como los cambios abruptos en la serie temporal, derivados de eventos históricos significativos como el notable aumento del desempleo en 2020, podrían haber dificultado la capacidad del modelo para captar completamente estos picos y otras fluctuaciones inusuales. Esto resalta la necesidad de seguir ajustando el modelo para reflejar de manera más precisa las dinámicas complejas de la serie temporal, lo cual podría hacerse probando nuevas técnicas.

Es importante destacar que la serie temporal utilizada fue descargada de la OCDE y ajustada por efectos de calendario y estacionalidad, lo que tiene un impacto significativo en los resultados. Este ajuste elimina la tendencia de la serie, lo cual es crucial para el modelo ARIMA, ya que este tipo de modelos requieren series sin tendencias. En este contexto, es conocido que la tasa de desempleo experimenta un aumento significativo en los meses de enero debido a la alta demanda de trabajadores temporales en diciembre. Al finalizar la temporada, muchos de estos trabajadores son despedidos, lo que genera el incremento estacional en la tasa de desempleo. Sin embargo, al estar la serie ajustada por calendario y estacionalidad, este patrón se suaviza y se vuelve menos evidente. Este aspecto es relevante, ya que facilita la creación del modelo ARIMA al permitir trabajar con una serie sin tendencia, lo cual favorece la efectividad del modelo en la predicción de la tasa de desempleo.