El presente estudio se centra en el análisis y predicción de la Tasa de Participación de la Fuerza Laboral en el país de Colombia. Este es un subconjunto de la base de datos de estadísticas laborales mensuales sobre la tasa de participación en la fuerza laboral por grupos de edad (15+, 15-24, 25-54, 55-64 y 15-74) y sexo e información metodológica estadística asociada, para los paises miembros de la OCDE y para otras economías asociadas. La serie temporal, recopilada de la Organización para la Cooperación y el Desarrollo Económicos (OCDE), abarca un periodo comprendido entre los años 2016 a 2024, ofreciendo una serie que permite identificar tendencias estructurales.
La relevancia de esta investigación radica en su capacidad para proporcionar predicciones estratégicas en un sector caracterizado por su complejidad y sensibilidad a factores económicos, sociales, estructurales y bunernamentales. La irrupción de la pandemia de COVID-19 en 2020 representó un punto de inflexión que alteró significativamente los patrones de el número de la población activa como porcentaje de la población en edad de trabajar, subrayando la importancia de modelos predictivos robustos capaces de adaptarse a escenarios de alta incertidumbre.
El objetivo principal del estudio es desarrollar un modelo predictivo que capture tanto la estacionalidad inherente a la tasa de fuerza laboral como su capacidad de adaptación a perturbaciones exógenas. Para ello, se implementará el metodo ARIMA (Autoregressive Integrated Moving Average) el cual es un modelo estadístico ampliamente utilizado en el análisis de series temporales para comprender y predecir valores futuros basándose en patrones históricos.
La base de datos la cual utilizamos es la siguiente:
El objetivo del análisis es generar un modelo de series de tiempo que permite realizar pronósticos,mediante la identificación de un modelo ARIMA adecuado. Este método combina tres componentes principales:
AR (Autoregressive): Componente autorregresivo. Representa la relación entre un valor actual y sus valores pasados. Se mide por un parámetro 𝑝, que indica cuántos valores pasados se usan en la modelización.
I (Integrated): Componente de integración. Se utiliza para hacer que una serie temporal no estacionaria sea estacionaria mediante diferencias sucesivas. El parámetro 𝑑 indica cuántas veces se deben aplicar las diferencias.
MA (Moving Average): Componente de promedio móvil. Captura la relación entre un valor y el error residual de observaciones anteriores. Se mide por un parámetro 𝑞, que define el número de términos de errores considerados.
Para esto se empieza descargando la base de datos de la variable a predecir en formato excel; se seleccionaron las columnas relevantes para el análisis, y posterior a esto se transforman las variables con formatos adecuados, en este caso, fecha y número.
Mediante gráficos se explora la serie original e identificamos patrones o tendencias.
En el gráfico se observan picos negativos significativos en 2020 y 2022 probablemente este decaimiento sea debido a problemáticas que afectaron al país colombiano durante esos años. Por ejemplo, el impacto de la pandemia COVID-19 que impuso cierres masivos y confinamiento. Estas restricciones severas resultaron en despidos masivos, cierres temporales o quiebras de negocios y por lo tanto una reducción en la participación laboral.
Otro acontecimiento resaltable fueron las protestas sociales que se realizaron en el país y se prolongaron entre el 2019 y 2020; estas protestas también afectaron la participación laboral en Colombia en dichos años.
Por último se tiene factores como la informalidad y los trabajos temporales; Muchas personas en edad de trabajar tiene empleos temporales que dependen de las fechas, eventos, entre otros. Esto puede contribuir a la no uniformidad de los datos. Por otro lado, la informalidad es un fenómeno que viene afectando a la población más vulnerable del país desde hace años, fuentes como El País, El Tiempo y La República reportan que desde el 2019 hasta el 2023 el porcentaje de informalidad en Colombia se rige entre el 60% y el 57%. Esto es un problema porque no conocemos la definición de empleo que se utilizó a la hora de tomar los datos, y eso pudo contribuir a las inconsistencias que se presentan en el gráfico.
En caso de no ser estacionaria, se calcula la primera diferencia y se repite la evaluación.
Una vez se consigue que los datos sean estacionarios, se procede a la selección del modelo ARIMA, para esto se prueban diversos órdenes para la terna (p,d,q) y asi identificar modelos candidatos, basados en el análisis de las graficas ACF Y PACF.
Una vez encontrados los candidatos se evalúan las residuales de los modelos:
Para poder conocer cual es el modelo mas adecuado se probaron múltiples combinaciones de parámetros (p, d, q) para un total de 14 modelos, finalmente seleccionamos el modelo ARIMA (8,0,10) = modelo 12, ya que este reflejaba el mejor ajuste. Para esto usamos el criterio de AICc.
## Series: ventana
## ARIMA(1,0,1) with non-zero mean
##
## Coefficients:
## ar1 ma1 mean
## 0.9392 -0.8987 6871705.2
## s.e. 0.0884 0.1045 237844.7
##
## sigma^2 = 1.979e+12: log likelihood = -1322.44
## AIC=2652.88 AICc=2653.38 BIC=2662.65
## Series: ventana
## ARIMA(1,0,9) with non-zero mean
##
## Coefficients:
## ar1 ma1 ma2 ma3 ma4 ma5 ma6 ma7
## 0.8614 -0.8308 -0.0269 0.0224 -0.0187 -0.0131 -0.0121 -0.0079
## s.e. 0.1331 0.1713 0.1463 0.1533 0.1525 0.1652 0.1759 0.1500
## ma8 ma9 mean
## -0.0267 0.1718 6907541.3
## s.e. 0.1486 0.1273 262951.4
##
## sigma^2 = 2.074e+12: log likelihood = -1320.42
## AIC=2664.84 AICc=2669.17 BIC=2694.15
## Series: ventana
## ARIMA(1,0,10) with non-zero mean
##
## Coefficients:
## ar1 ma1 ma2 ma3 ma4 ma5 ma6 ma7
## 0.9051 -0.8685 -0.0467 0.0233 -0.0135 -0.0083 -0.0054 -0.0029
## s.e. 0.1136 0.1555 0.1475 0.1475 0.1467 0.1496 0.1651 0.1434
## ma8 ma9 ma10 mean
## -0.0113 0.1966 -0.0737 6919943.7
## s.e. 0.1446 0.1309 0.1196 278070.1
##
## sigma^2 = 2.096e+12: log likelihood = -1320.25
## AIC=2666.5 AICc=2671.63 BIC=2698.25
## Series: ventana
## ARIMA(2,0,9) with non-zero mean
##
## Coefficients:
## ar1 ar2 ma1 ma2 ma3 ma4 ma5 ma6
## 0.1904 0.6345 -0.1466 -0.6485 -0.0261 0.0131 -0.0298 0.0037
## s.e. 0.2542 0.2304 0.2726 0.2343 0.1328 0.1299 0.1295 0.1337
## ma7 ma8 ma9 mean
## -0.0330 0.0064 0.2105 6919931.5
## s.e. 0.1338 0.0999 0.1082 276470.1
##
## sigma^2 = 2.064e+12: log likelihood = -1319.65
## AIC=2665.3 AICc=2670.42 BIC=2697.05
## Series: ventana
## ARIMA(2,0,1) with non-zero mean
##
## Coefficients:
## ar1 ar2 ma1 mean
## 0.9479 -0.0074 -0.9008 6871205.8
## s.e. 0.1507 0.1115 0.1059 237630.1
##
## sigma^2 = 2.003e+12: log likelihood = -1322.44
## AIC=2654.87 AICc=2655.63 BIC=2667.09
## Series: ventana
## ARIMA(2,0,10) with non-zero mean
##
## Coefficients:
## ar1 ar2 ma1 ma2 ma3 ma4 ma5 ma6
## 0.2082 0.6313 -0.1632 -0.6487 -0.0294 0.0145 -0.0285 0.0081
## s.e. 0.2730 0.2353 0.2897 0.2400 0.1346 0.1317 0.1285 0.1403
## ma7 ma8 ma9 ma10 mean
## -0.0341 0.0233 0.2105 -0.0277 6921766.5
## s.e. 0.1326 0.1347 0.1090 0.1459 278951.9
##
## sigma^2 = 2.092e+12: log likelihood = -1319.63
## AIC=2667.26 AICc=2673.26 BIC=2701.46
## Series: ventana
## ARIMA(3,0,1) with non-zero mean
##
## Coefficients:
## ar1 ar2 ar3 ma1 mean
## 1.0478 0.0015 -0.0600 -1.0000 6834151.3
## s.e. 0.1080 0.1557 0.1072 0.0207 136137.6
##
## sigma^2 = 2.027e+12: log likelihood = -1322.6
## AIC=2657.2 AICc=2658.27 BIC=2671.85
## Series: ventana
## ARIMA(3,0,9) with non-zero mean
##
## Coefficients:
## ar1 ar2 ar3 ma1 ma2 ma3 ma4 ma5
## -0.8048 0.7418 0.8128 0.9639 -0.6735 -0.9946 -0.075 -0.0344
## s.e. 0.1462 0.1333 0.1312 0.2113 0.2098 0.2501 0.216 0.1735
## ma6 ma7 ma8 ma9 mean
## 0.0280 0.1699 0.0873 0.0718 6919773
## s.e. 0.2075 0.2102 0.1470 0.1492 278972
##
## sigma^2 = 1.88e+12: log likelihood = -1316.95
## AIC=2661.91 AICc=2667.91 BIC=2696.1
## Series: ventana
## ARIMA(3,0,10) with non-zero mean
##
## Coefficients:
## ar1 ar2 ar3 ma1 ma2 ma3 ma4 ma5
## -0.8891 0.7081 0.8342 1.0662 -0.6316 -1.0176 -0.0353 -0.0034
## s.e. 0.1132 0.1653 0.0995 0.1693 0.2332 0.2107 0.2059 0.2081
## ma6 ma7 ma8 ma9 ma10 mean
## -0.0354 -0.0131 -0.0278 0.2580 0.2130 6935068.5
## s.e. 0.1816 0.2275 0.1712 0.1661 0.1305 285245.9
##
## sigma^2 = 1.828e+12: log likelihood = -1315.74
## AIC=2661.47 AICc=2668.43 BIC=2698.11
## Series: ventana
## ARIMA(8,0,1) with non-zero mean
##
## Coefficients:
## ar1 ar2 ar3 ar4 ar5 ar6 ar7 ar8
## 0.8170 0.0153 -0.0359 -0.0092 -0.0022 0.0027 0.0054 0.0989
## s.e. 0.1908 0.1386 0.1379 0.1365 0.1361 0.1353 0.1345 0.1098
## ma1 mean
## -0.7898 6902222.5
## s.e. 0.1639 266685.4
##
## sigma^2 = 2.104e+12: log likelihood = -1321.38
## AIC=2664.75 AICc=2668.37 BIC=2691.62
## Series: ventana
## ARIMA(8,0,9) with non-zero mean
##
## Coefficients:
## ar1 ar2 ar3 ar4 ar5 ar6 ar7 ar8
## -0.0557 0.8120 0.2252 -0.6082 -0.2282 0.4059 0.4630 -0.2479
## s.e. 0.4351 0.3331 0.3052 0.3569 0.3508 0.3260 0.2771 0.3845
## ma1 ma2 ma3 ma4 ma5 ma6 ma7 ma8
## 0.1748 -0.8755 -0.2591 0.8013 0.2536 -0.5127 -0.7671 0.2886
## s.e. 0.4296 0.3592 0.2900 0.3179 0.4235 0.3473 0.3247 0.4313
## ma9 mean
## 0.4240 6909018.2
## s.e. 0.1463 273187.3
##
## sigma^2 = 1.758e+12: log likelihood = -1313.31
## AIC=2664.63 AICc=2676.32 BIC=2711.04
## Series: ventana
## ARIMA(8,0,10) with non-zero mean
##
## Coefficients:
## ar1 ar2 ar3 ar4 ar5 ar6 ar7 ar8
## 0.4135 0.9343 -0.0929 -0.7562 -0.0519 0.5621 0.3736 -0.4990
## s.e. 0.6391 0.2792 0.5267 0.3832 0.3134 0.3331 0.2011 0.2771
## ma1 ma2 ma3 ma4 ma5 ma6 ma7 ma8
## -0.3042 -1.0504 0.0954 0.9547 -0.0371 -0.6920 -0.6031 0.6989
## s.e. 0.6672 0.2924 0.6053 0.3767 0.4420 0.3749 0.2977 0.5009
## ma9 ma10 mean
## 0.4025 -0.2207 6915438.2
## s.e. 0.1550 0.3636 268874.4
##
## sigma^2 = 1.781e+12: log likelihood = -1313.1
## AIC=2666.21 AICc=2679.33 BIC=2715.06
## Series: ventana
## ARIMA(10,0,1) with non-zero mean
##
## Coefficients:
## ar1 ar2 ar3 ar4 ar5 ar6 ar7 ar8 ar9
## -0.5545 0.0875 0.0403 0.0002 -0.0081 -0.0028 0.0002 0.0066 0.2266
## s.e. 0.2901 0.1205 0.1205 0.1192 0.1179 0.1183 0.1178 0.1173 0.1165
## ar10 ma1 mean
## 0.0515 0.6395 6857320.7
## s.e. 0.1327 0.2669 202076.8
##
## sigma^2 = 2.074e+12: log likelihood = -1319.76
## AIC=2665.52 AICc=2670.65 BIC=2697.28
## Series: ventana
## ARIMA(10,0,10) with non-zero mean
##
## Coefficients:
## Warning in sqrt(diag(x$var.coef)): NaNs produced
## ar1 ar2 ar3 ar4 ar5 ar6 ar7 ar8 ar9
## 0.1548 0.8493 -0.255 -1.0254 -0.0136 0.9061 0.2119 -0.7636 0.2176
## s.e. 0.0942 0.2155 NaN 0.0694 NaN NaN NaN NaN 0.1556
## ar10 ma1 ma2 ma3 ma4 ma5 ma6 ma7
## 0.3937 -0.0426 -0.9026 0.2505 1.2531 0.0156 -0.9758 -0.3646
## s.e. NaN NaN 0.2343 NaN NaN NaN NaN NaN
## ma8 ma9 ma10 mean
## 0.8871 0.1006 -0.5388 6887476.4
## s.e. NaN 0.2096 0.1194 252332.1
##
## sigma^2 = 1.812e+12: log likelihood = -1312.58
## AIC=2669.16 AICc=2685.48 BIC=2722.9
AICc para el modelo generado por autoarima
## Series: ventana
## ARIMA(0,1,1)
##
## Coefficients:
## ma1
## -0.9351
## s.e. 0.0425
##
## sigma^2 = 1.981e+12: log likelihood = -1308.94
## AIC=2621.88 AICc=2622.02 BIC=2626.74
Para los residuos se deben cumplir algunas condiciones para garantizar la validez de los modelos; los residuos deben seguir una distribución normal, ademas de seguir una secuencia de ruido blaco e independencia.
##
## Ljung-Box test
##
## data: Residuals from ARIMA(1,0,1) with non-zero mean
## Q* = 5.5382, df = 8, p-value = 0.6988
##
## Model df: 2. Total lags used: 10
##
## Ljung-Box test
##
## data: Residuals from ARIMA(1,0,9) with non-zero mean
## Q* = 5.3288, df = 3, p-value = 0.1492
##
## Model df: 10. Total lags used: 13
##
## Ljung-Box test
##
## data: Residuals from ARIMA(1,0,10) with non-zero mean
## Q* = 4.8334, df = 3, p-value = 0.1844
##
## Model df: 11. Total lags used: 14
##
## Ljung-Box test
##
## data: Residuals from ARIMA(2,0,9) with non-zero mean
## Q* = 3.0765, df = 3, p-value = 0.38
##
## Model df: 11. Total lags used: 14
##
## Ljung-Box test
##
## data: Residuals from ARIMA(2,0,1) with non-zero mean
## Q* = 5.5253, df = 7, p-value = 0.5961
##
## Model df: 3. Total lags used: 10
##
## Ljung-Box test
##
## data: Residuals from ARIMA(2,0,10) with non-zero mean
## Q* = 3.2984, df = 3, p-value = 0.3479
##
## Model df: 12. Total lags used: 15
##
## Ljung-Box test
##
## data: Residuals from ARIMA(3,0,1) with non-zero mean
## Q* = 5.1751, df = 6, p-value = 0.5216
##
## Model df: 4. Total lags used: 10
##
## Ljung-Box test
##
## data: Residuals from ARIMA(3,0,9) with non-zero mean
## Q* = 3.8018, df = 3, p-value = 0.2837
##
## Model df: 12. Total lags used: 15
##
## Ljung-Box test
##
## data: Residuals from ARIMA(3,0,10) with non-zero mean
## Q* = 3.0667, df = 3, p-value = 0.3815
##
## Model df: 13. Total lags used: 16
##
## Ljung-Box test
##
## data: Residuals from ARIMA(8,0,1) with non-zero mean
## Q* = 7.9738, df = 3, p-value = 0.04656
##
## Model df: 9. Total lags used: 12
##
## Ljung-Box test
##
## data: Residuals from ARIMA(8,0,9) with non-zero mean
## Q* = 5.6821, df = 3, p-value = 0.1281
##
## Model df: 17. Total lags used: 20
##
## Ljung-Box test
##
## data: Residuals from ARIMA(8,0,10) with non-zero mean
## Q* = 5.2015, df = 3, p-value = 0.1576
##
## Model df: 18. Total lags used: 21
##
## Ljung-Box test
##
## data: Residuals from ARIMA(10,0,1) with non-zero mean
## Q* = 3.8222, df = 3, p-value = 0.2813
##
## Model df: 11. Total lags used: 14
##
## Ljung-Box test
##
## data: Residuals from ARIMA(10,0,10) with non-zero mean
## Q* = 3.5817, df = 3, p-value = 0.3103
##
## Model df: 20. Total lags used: 23
##
## Ljung-Box test
##
## data: Residuals from ARIMA(0,1,1)
## Q* = 6.2157, df = 9, p-value = 0.7181
##
## Model df: 1. Total lags used: 10
Se comparan los modelos mediante la función accuracy y el criterio AICc
## ME RMSE MAE MPE MAPE MASE
## Training set -27585.61 1176081 604508.2 -29.31052 37.35201 0.9290725
## ACF1
## Training set 0.001642424
Comparando los valores arrojados por las funciones Accuracy, checkresiduals y el AICc, se concluyo que el modelo que mejor se adecua a la serie de datos es el modelo12; por lo tanto se procede a realizar el pronostico con dicho modelo.
Para finalizar se realiza un pronostico con datos que ya se conocen para terminar la validación; dada la información anterior se concluyó que el modelo que mas se acerca a los datos es el modelo 12, por lo cual se procedió a hacer el pronostico con dicho modelo.
Inicialmente se tenía una serie de datos no estacionaria, pero a través de la diferenciación se obtuvo una serie adecuada para poder correr el modelo.
El modelo seleccionado presenta un buen ajuste, con residuales distribuidos aleatoriamente y sin autocorrelación significativa.Después de observar el comportamiento de la variable se aplica la prueba ADF (Augmented Dickey-Fuller) para determinar si la serie es estacionaria.
## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
## Warning in geom_line(aes(y = pointForecast), color = "blue", size = 1, linetype
## = "solid", : Ignoring unknown parameters: `name`
## Warning in geom_line(aes(y = actualValue), color = "red", size = 1, linetype =
## "solid", : Ignoring unknown parameters: `name`
Para facilitar la visualización de los datos se crea un gráfico interactivo para comparar los pronósticos con los valores reales, incluyendo los intervalos de confianza.
Considerando las limitaciones del modelo y la problemática existente en la variabilidad de los datos con los que se trabajaron, el modelo 12 muestra un desempeño considerable.
El estudio revela que el modelo 12 ARIMA(8,0,10) constituye una herramienta analítica válida para comprender la dinámica de la Tasa de Participación de la Fuerza Laboral en el país de Colombia, con métricas de precisión que sugieren un rendimiento predictivo aceptable, en promedio, las predicciones tienen un error del 37.35% con respecto a los valores reales y un MASE de 0,9; Lo cual indica que el modelo tiene un rendimiento ligeramente mejor que el modelo naive.
La función accuracy confirma la calidad del modelo en términos de error promedio y los pronósticos generados por el modelo12 se encuentran dentro de los intervalos de confianza establecidos, comparando con los valores reales, los pronósticos muestran una buena aproximación, con esto se valida el modelo.
Barandica, J. (s.f.). Joaqui Barandica. Recuperado de https://www.joaquibarandica.com
Organization for Economic Co-operation and Development. (n.d.). OECD Data Explorer. Retrieved December 6, 2024, from https://data-explorer.oecd.org/?pg=0&snb=3
Santa María, M. (2021, enero 26). Mercado laboral en 2020: Un año marcado por la profundización de brechas sociales. La República. Retrieved December 6, 2024, from https://www.larepublica.co/analisis/mauricio-santa-maria-2941063/mercado-laboral-en-2020-un-ano-marcado-por-la-profundizacion-de-brechas-sociales-3122314
La República. (2020, agosto 31). Resultados de la tasa de desempleo de julio de 2020 en Colombia según el DANE. Retrieved December 6, 2024, from https://www.larepublica.co/economia/resultados-de-la-tasa-de-desempleo-de-julio-de-2020-en-colombia-segun-el-dane-3053149