INTRODUCCIÓN

El presente estudio se centra en el análisis y predicción de la Tasa de Participación de la Fuerza Laboral en el país de Colombia. Este es un subconjunto de la base de datos de estadísticas laborales mensuales sobre la tasa de participación en la fuerza laboral por grupos de edad (15+, 15-24, 25-54, 55-64 y 15-74) y sexo e información metodológica estadística asociada, para los paises miembros de la OCDE y para otras economías asociadas. La serie temporal, recopilada de la Organización para la Cooperación y el Desarrollo Económicos (OCDE), abarca un periodo comprendido entre los años 2016 a 2024, ofreciendo una serie que permite identificar tendencias estructurales.

La relevancia de esta investigación radica en su capacidad para proporcionar predicciones estratégicas en un sector caracterizado por su complejidad y sensibilidad a factores económicos, sociales, estructurales y bunernamentales. La irrupción de la pandemia de COVID-19 en 2020 representó un punto de inflexión que alteró significativamente los patrones de el número de la población activa como porcentaje de la población en edad de trabajar, subrayando la importancia de modelos predictivos robustos capaces de adaptarse a escenarios de alta incertidumbre.

El objetivo principal del estudio es desarrollar un modelo predictivo que capture tanto la estacionalidad inherente a la tasa de fuerza laboral como su capacidad de adaptación a perturbaciones exógenas. Para ello, se implementará el metodo ARIMA (Autoregressive Integrated Moving Average) el cual es un modelo estadístico ampliamente utilizado en el análisis de series temporales para comprender y predecir valores futuros basándose en patrones históricos.

BASE DE DATOS

La base de datos la cual utilizamos es la siguiente:

METODOLOGÍA

OBJETIVO

El objetivo del análisis es generar un modelo de series de tiempo que permite realizar pronósticos,mediante la identificación de un modelo ARIMA adecuado. Este método combina tres componentes principales:

  1. AR (Autoregressive): Componente autorregresivo. Representa la relación entre un valor actual y sus valores pasados. Se mide por un parámetro 𝑝, que indica cuántos valores pasados se usan en la modelización.

  2. I (Integrated): Componente de integración. Se utiliza para hacer que una serie temporal no estacionaria sea estacionaria mediante diferencias sucesivas. El parámetro 𝑑 indica cuántas veces se deben aplicar las diferencias.

  3. MA (Moving Average): Componente de promedio móvil. Captura la relación entre un valor y el error residual de observaciones anteriores. Se mide por un parámetro 𝑞, que define el número de términos de errores considerados.

Para esto se empieza descargando la base de datos de la variable a predecir en formato excel; se seleccionaron las columnas relevantes para el análisis, y posterior a esto se transforman las variables con formatos adecuados, en este caso, fecha y número.

Mediante gráficos se explora la serie original e identificamos patrones o tendencias.

EXPLICACIÓN

En el gráfico se observan picos negativos significativos en 2020 y 2022 probablemente este decaimiento sea debido a problemáticas que afectaron al país colombiano durante esos años. Por ejemplo, el impacto de la pandemia COVID-19 que impuso cierres masivos y confinamiento. Estas restricciones severas resultaron en despidos masivos, cierres temporales o quiebras de negocios y por lo tanto una reducción en la participación laboral.

Otro acontecimiento resaltable fueron las protestas sociales que se realizaron en el país y se prolongaron entre el 2019 y 2020; estas protestas también afectaron la participación laboral en Colombia en dichos años.

Por último se tiene factores como la informalidad y los trabajos temporales; Muchas personas en edad de trabajar tiene empleos temporales que dependen de las fechas, eventos, entre otros. Esto puede contribuir a la no uniformidad de los datos. Por otro lado, la informalidad es un fenómeno que viene afectando a la población más vulnerable del país desde hace años, fuentes como El País, El Tiempo y La República reportan que desde el 2019 hasta el 2023 el porcentaje de informalidad en Colombia se rige entre el 60% y el 57%. Esto es un problema porque no conocemos la definición de empleo que se utilizó a la hora de tomar los datos, y eso pudo contribuir a las inconsistencias que se presentan en el gráfico.

EXPLICACIÓN Y PRESENTACIÓN DE LOS MODELOS

En caso de no ser estacionaria, se calcula la primera diferencia y se repite la evaluación.

Una vez se consigue que los datos sean estacionarios, se procede a la selección del modelo ARIMA, para esto se prueban diversos órdenes para la terna (p,d,q) y asi identificar modelos candidatos, basados en el análisis de las graficas ACF Y PACF.

GRÁFICAS DE ACF Y PACF

Una vez encontrados los candidatos se evalúan las residuales de los modelos:

COMPARACIÓN DE MODELOS

Para poder conocer cual es el modelo mas adecuado se probaron múltiples combinaciones de parámetros (p, d, q) para un total de 14 modelos, finalmente seleccionamos el modelo ARIMA (8,0,10) = modelo 12, ya que este reflejaba el mejor ajuste. Para esto usamos el criterio de AICc.

MODELO 1

## Series: ventana 
## ARIMA(1,0,1) with non-zero mean 
## 
## Coefficients:
##          ar1      ma1       mean
##       0.9392  -0.8987  6871705.2
## s.e.  0.0884   0.1045   237844.7
## 
## sigma^2 = 1.979e+12:  log likelihood = -1322.44
## AIC=2652.88   AICc=2653.38   BIC=2662.65

MODELO 2

## Series: ventana 
## ARIMA(1,0,9) with non-zero mean 
## 
## Coefficients:
##          ar1      ma1      ma2     ma3      ma4      ma5      ma6      ma7
##       0.8614  -0.8308  -0.0269  0.0224  -0.0187  -0.0131  -0.0121  -0.0079
## s.e.  0.1331   0.1713   0.1463  0.1533   0.1525   0.1652   0.1759   0.1500
##           ma8     ma9       mean
##       -0.0267  0.1718  6907541.3
## s.e.   0.1486  0.1273   262951.4
## 
## sigma^2 = 2.074e+12:  log likelihood = -1320.42
## AIC=2664.84   AICc=2669.17   BIC=2694.15

MODELO 3

## Series: ventana 
## ARIMA(1,0,10) with non-zero mean 
## 
## Coefficients:
##          ar1      ma1      ma2     ma3      ma4      ma5      ma6      ma7
##       0.9051  -0.8685  -0.0467  0.0233  -0.0135  -0.0083  -0.0054  -0.0029
## s.e.  0.1136   0.1555   0.1475  0.1475   0.1467   0.1496   0.1651   0.1434
##           ma8     ma9     ma10       mean
##       -0.0113  0.1966  -0.0737  6919943.7
## s.e.   0.1446  0.1309   0.1196   278070.1
## 
## sigma^2 = 2.096e+12:  log likelihood = -1320.25
## AIC=2666.5   AICc=2671.63   BIC=2698.25

MODELO 4

## Series: ventana 
## ARIMA(2,0,9) with non-zero mean 
## 
## Coefficients:
##          ar1     ar2      ma1      ma2      ma3     ma4      ma5     ma6
##       0.1904  0.6345  -0.1466  -0.6485  -0.0261  0.0131  -0.0298  0.0037
## s.e.  0.2542  0.2304   0.2726   0.2343   0.1328  0.1299   0.1295  0.1337
##           ma7     ma8     ma9       mean
##       -0.0330  0.0064  0.2105  6919931.5
## s.e.   0.1338  0.0999  0.1082   276470.1
## 
## sigma^2 = 2.064e+12:  log likelihood = -1319.65
## AIC=2665.3   AICc=2670.42   BIC=2697.05

MODELO 5

## Series: ventana 
## ARIMA(2,0,1) with non-zero mean 
## 
## Coefficients:
##          ar1      ar2      ma1       mean
##       0.9479  -0.0074  -0.9008  6871205.8
## s.e.  0.1507   0.1115   0.1059   237630.1
## 
## sigma^2 = 2.003e+12:  log likelihood = -1322.44
## AIC=2654.87   AICc=2655.63   BIC=2667.09

MODELO 6

## Series: ventana 
## ARIMA(2,0,10) with non-zero mean 
## 
## Coefficients:
##          ar1     ar2      ma1      ma2      ma3     ma4      ma5     ma6
##       0.2082  0.6313  -0.1632  -0.6487  -0.0294  0.0145  -0.0285  0.0081
## s.e.  0.2730  0.2353   0.2897   0.2400   0.1346  0.1317   0.1285  0.1403
##           ma7     ma8     ma9     ma10       mean
##       -0.0341  0.0233  0.2105  -0.0277  6921766.5
## s.e.   0.1326  0.1347  0.1090   0.1459   278951.9
## 
## sigma^2 = 2.092e+12:  log likelihood = -1319.63
## AIC=2667.26   AICc=2673.26   BIC=2701.46

MODELO 7

## Series: ventana 
## ARIMA(3,0,1) with non-zero mean 
## 
## Coefficients:
##          ar1     ar2      ar3      ma1       mean
##       1.0478  0.0015  -0.0600  -1.0000  6834151.3
## s.e.  0.1080  0.1557   0.1072   0.0207   136137.6
## 
## sigma^2 = 2.027e+12:  log likelihood = -1322.6
## AIC=2657.2   AICc=2658.27   BIC=2671.85

MODELO 8

## Series: ventana 
## ARIMA(3,0,9) with non-zero mean 
## 
## Coefficients:
##           ar1     ar2     ar3     ma1      ma2      ma3     ma4      ma5
##       -0.8048  0.7418  0.8128  0.9639  -0.6735  -0.9946  -0.075  -0.0344
## s.e.   0.1462  0.1333  0.1312  0.2113   0.2098   0.2501   0.216   0.1735
##          ma6     ma7     ma8     ma9     mean
##       0.0280  0.1699  0.0873  0.0718  6919773
## s.e.  0.2075  0.2102  0.1470  0.1492   278972
## 
## sigma^2 = 1.88e+12:  log likelihood = -1316.95
## AIC=2661.91   AICc=2667.91   BIC=2696.1

MODELO 9

## Series: ventana 
## ARIMA(3,0,10) with non-zero mean 
## 
## Coefficients:
##           ar1     ar2     ar3     ma1      ma2      ma3      ma4      ma5
##       -0.8891  0.7081  0.8342  1.0662  -0.6316  -1.0176  -0.0353  -0.0034
## s.e.   0.1132  0.1653  0.0995  0.1693   0.2332   0.2107   0.2059   0.2081
##           ma6      ma7      ma8     ma9    ma10       mean
##       -0.0354  -0.0131  -0.0278  0.2580  0.2130  6935068.5
## s.e.   0.1816   0.2275   0.1712  0.1661  0.1305   285245.9
## 
## sigma^2 = 1.828e+12:  log likelihood = -1315.74
## AIC=2661.47   AICc=2668.43   BIC=2698.11

MODELO 10

## Series: ventana 
## ARIMA(8,0,1) with non-zero mean 
## 
## Coefficients:
##          ar1     ar2      ar3      ar4      ar5     ar6     ar7     ar8
##       0.8170  0.0153  -0.0359  -0.0092  -0.0022  0.0027  0.0054  0.0989
## s.e.  0.1908  0.1386   0.1379   0.1365   0.1361  0.1353  0.1345  0.1098
##           ma1       mean
##       -0.7898  6902222.5
## s.e.   0.1639   266685.4
## 
## sigma^2 = 2.104e+12:  log likelihood = -1321.38
## AIC=2664.75   AICc=2668.37   BIC=2691.62

MODELO 11

## Series: ventana 
## ARIMA(8,0,9) with non-zero mean 
## 
## Coefficients:
##           ar1     ar2     ar3      ar4      ar5     ar6     ar7      ar8
##       -0.0557  0.8120  0.2252  -0.6082  -0.2282  0.4059  0.4630  -0.2479
## s.e.   0.4351  0.3331  0.3052   0.3569   0.3508  0.3260  0.2771   0.3845
##          ma1      ma2      ma3     ma4     ma5      ma6      ma7     ma8
##       0.1748  -0.8755  -0.2591  0.8013  0.2536  -0.5127  -0.7671  0.2886
## s.e.  0.4296   0.3592   0.2900  0.3179  0.4235   0.3473   0.3247  0.4313
##          ma9       mean
##       0.4240  6909018.2
## s.e.  0.1463   273187.3
## 
## sigma^2 = 1.758e+12:  log likelihood = -1313.31
## AIC=2664.63   AICc=2676.32   BIC=2711.04

MODELO 12

## Series: ventana 
## ARIMA(8,0,10) with non-zero mean 
## 
## Coefficients:
##          ar1     ar2      ar3      ar4      ar5     ar6     ar7      ar8
##       0.4135  0.9343  -0.0929  -0.7562  -0.0519  0.5621  0.3736  -0.4990
## s.e.  0.6391  0.2792   0.5267   0.3832   0.3134  0.3331  0.2011   0.2771
##           ma1      ma2     ma3     ma4      ma5      ma6      ma7     ma8
##       -0.3042  -1.0504  0.0954  0.9547  -0.0371  -0.6920  -0.6031  0.6989
## s.e.   0.6672   0.2924  0.6053  0.3767   0.4420   0.3749   0.2977  0.5009
##          ma9     ma10       mean
##       0.4025  -0.2207  6915438.2
## s.e.  0.1550   0.3636   268874.4
## 
## sigma^2 = 1.781e+12:  log likelihood = -1313.1
## AIC=2666.21   AICc=2679.33   BIC=2715.06

MODELO 13

## Series: ventana 
## ARIMA(10,0,1) with non-zero mean 
## 
## Coefficients:
##           ar1     ar2     ar3     ar4      ar5      ar6     ar7     ar8     ar9
##       -0.5545  0.0875  0.0403  0.0002  -0.0081  -0.0028  0.0002  0.0066  0.2266
## s.e.   0.2901  0.1205  0.1205  0.1192   0.1179   0.1183  0.1178  0.1173  0.1165
##         ar10     ma1       mean
##       0.0515  0.6395  6857320.7
## s.e.  0.1327  0.2669   202076.8
## 
## sigma^2 = 2.074e+12:  log likelihood = -1319.76
## AIC=2665.52   AICc=2670.65   BIC=2697.28

MODELO 14

## Series: ventana 
## ARIMA(10,0,10) with non-zero mean 
## 
## Coefficients:
## Warning in sqrt(diag(x$var.coef)): NaNs produced
##          ar1     ar2     ar3      ar4      ar5     ar6     ar7      ar8     ar9
##       0.1548  0.8493  -0.255  -1.0254  -0.0136  0.9061  0.2119  -0.7636  0.2176
## s.e.  0.0942  0.2155     NaN   0.0694      NaN     NaN     NaN      NaN  0.1556
##         ar10      ma1      ma2     ma3     ma4     ma5      ma6      ma7
##       0.3937  -0.0426  -0.9026  0.2505  1.2531  0.0156  -0.9758  -0.3646
## s.e.     NaN      NaN   0.2343     NaN     NaN     NaN      NaN      NaN
##          ma8     ma9     ma10       mean
##       0.8871  0.1006  -0.5388  6887476.4
## s.e.     NaN  0.2096   0.1194   252332.1
## 
## sigma^2 = 1.812e+12:  log likelihood = -1312.58
## AIC=2669.16   AICc=2685.48   BIC=2722.9

AICc para el modelo generado por autoarima

## Series: ventana 
## ARIMA(0,1,1) 
## 
## Coefficients:
##           ma1
##       -0.9351
## s.e.   0.0425
## 
## sigma^2 = 1.981e+12:  log likelihood = -1308.94
## AIC=2621.88   AICc=2622.02   BIC=2626.74

RESIDUALES DE LOS MODELOS

Para los residuos se deben cumplir algunas condiciones para garantizar la validez de los modelos; los residuos deben seguir una distribución normal, ademas de seguir una secuencia de ruido blaco e independencia.

RESIDUOS DEL MODELO 1

## 
##  Ljung-Box test
## 
## data:  Residuals from ARIMA(1,0,1) with non-zero mean
## Q* = 5.5382, df = 8, p-value = 0.6988
## 
## Model df: 2.   Total lags used: 10

RESIDUOS DEL MODELO 2

## 
##  Ljung-Box test
## 
## data:  Residuals from ARIMA(1,0,9) with non-zero mean
## Q* = 5.3288, df = 3, p-value = 0.1492
## 
## Model df: 10.   Total lags used: 13

RESIDUOS DEL MODELO 3

## 
##  Ljung-Box test
## 
## data:  Residuals from ARIMA(1,0,10) with non-zero mean
## Q* = 4.8334, df = 3, p-value = 0.1844
## 
## Model df: 11.   Total lags used: 14

RESIDUOS DEL MODELO 4

## 
##  Ljung-Box test
## 
## data:  Residuals from ARIMA(2,0,9) with non-zero mean
## Q* = 3.0765, df = 3, p-value = 0.38
## 
## Model df: 11.   Total lags used: 14

RESIDUOS DEL MODELO 5

## 
##  Ljung-Box test
## 
## data:  Residuals from ARIMA(2,0,1) with non-zero mean
## Q* = 5.5253, df = 7, p-value = 0.5961
## 
## Model df: 3.   Total lags used: 10

RESIDUOS DEL MODELO 6

## 
##  Ljung-Box test
## 
## data:  Residuals from ARIMA(2,0,10) with non-zero mean
## Q* = 3.2984, df = 3, p-value = 0.3479
## 
## Model df: 12.   Total lags used: 15

RESIDUOS DEL MODELO 7

## 
##  Ljung-Box test
## 
## data:  Residuals from ARIMA(3,0,1) with non-zero mean
## Q* = 5.1751, df = 6, p-value = 0.5216
## 
## Model df: 4.   Total lags used: 10

RESIDUOS DEL MODELO 8

## 
##  Ljung-Box test
## 
## data:  Residuals from ARIMA(3,0,9) with non-zero mean
## Q* = 3.8018, df = 3, p-value = 0.2837
## 
## Model df: 12.   Total lags used: 15

RESIDUOS DEL MODELO 9

## 
##  Ljung-Box test
## 
## data:  Residuals from ARIMA(3,0,10) with non-zero mean
## Q* = 3.0667, df = 3, p-value = 0.3815
## 
## Model df: 13.   Total lags used: 16

RESIDUOS DEL MODELO 10

## 
##  Ljung-Box test
## 
## data:  Residuals from ARIMA(8,0,1) with non-zero mean
## Q* = 7.9738, df = 3, p-value = 0.04656
## 
## Model df: 9.   Total lags used: 12

RESIDUOS DEL MODELO 11

## 
##  Ljung-Box test
## 
## data:  Residuals from ARIMA(8,0,9) with non-zero mean
## Q* = 5.6821, df = 3, p-value = 0.1281
## 
## Model df: 17.   Total lags used: 20

RESIDUOS DEL MODELO 12

## 
##  Ljung-Box test
## 
## data:  Residuals from ARIMA(8,0,10) with non-zero mean
## Q* = 5.2015, df = 3, p-value = 0.1576
## 
## Model df: 18.   Total lags used: 21

RESIDUOS DEL MODELO 13

## 
##  Ljung-Box test
## 
## data:  Residuals from ARIMA(10,0,1) with non-zero mean
## Q* = 3.8222, df = 3, p-value = 0.2813
## 
## Model df: 11.   Total lags used: 14

RESIDUOS DEL MODELO 14

## 
##  Ljung-Box test
## 
## data:  Residuals from ARIMA(10,0,10) with non-zero mean
## Q* = 3.5817, df = 3, p-value = 0.3103
## 
## Model df: 20.   Total lags used: 23

RESIDUOS DEL MODELO AUTOARIMA

## 
##  Ljung-Box test
## 
## data:  Residuals from ARIMA(0,1,1)
## Q* = 6.2157, df = 9, p-value = 0.7181
## 
## Model df: 1.   Total lags used: 10

Se comparan los modelos mediante la función accuracy y el criterio AICc

ACCURACY DE MODELO 12

##                     ME    RMSE      MAE       MPE     MAPE      MASE
## Training set -27585.61 1176081 604508.2 -29.31052 37.35201 0.9290725
##                     ACF1
## Training set 0.001642424

Comparando los valores arrojados por las funciones Accuracy, checkresiduals y el AICc, se concluyo que el modelo que mejor se adecua a la serie de datos es el modelo12; por lo tanto se procede a realizar el pronostico con dicho modelo.

RESULTADOS DEL TEST

Para finalizar se realiza un pronostico con datos que ya se conocen para terminar la validación; dada la información anterior se concluyó que el modelo que mas se acerca a los datos es el modelo 12, por lo cual se procedió a hacer el pronostico con dicho modelo.

Inicialmente se tenía una serie de datos no estacionaria, pero a través de la diferenciación se obtuvo una serie adecuada para poder correr el modelo.

El modelo seleccionado presenta un buen ajuste, con residuales distribuidos aleatoriamente y sin autocorrelación significativa.Después de observar el comportamiento de la variable se aplica la prueba ADF (Augmented Dickey-Fuller) para determinar si la serie es estacionaria.

VISUALIZACIÓN DE PRONOSTICO - RESULTADO DE P Y ACTUAL_VALUES

## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
## Warning in geom_line(aes(y = pointForecast), color = "blue", size = 1, linetype
## = "solid", : Ignoring unknown parameters: `name`
## Warning in geom_line(aes(y = actualValue), color = "red", size = 1, linetype =
## "solid", : Ignoring unknown parameters: `name`

Para facilitar la visualización de los datos se crea un gráfico interactivo para comparar los pronósticos con los valores reales, incluyendo los intervalos de confianza.

CONCLUSIONES

Considerando las limitaciones del modelo y la problemática existente en la variabilidad de los datos con los que se trabajaron, el modelo 12 muestra un desempeño considerable.

El estudio revela que el modelo 12 ARIMA(8,0,10) constituye una herramienta analítica válida para comprender la dinámica de la Tasa de Participación de la Fuerza Laboral en el país de Colombia, con métricas de precisión que sugieren un rendimiento predictivo aceptable, en promedio, las predicciones tienen un error del 37.35% con respecto a los valores reales y un MASE de 0,9; Lo cual indica que el modelo tiene un rendimiento ligeramente mejor que el modelo naive.

La función accuracy confirma la calidad del modelo en términos de error promedio y los pronósticos generados por el modelo12 se encuentran dentro de los intervalos de confianza establecidos, comparando con los valores reales, los pronósticos muestran una buena aproximación, con esto se valida el modelo.

BIBLIOGRAFÍA