Instalar/Cargar librerias necesarias para el análisis
Cargar base de datos
PASO INDISPENSABLE: Declarar la (s) variable (s) como serie (s) temporal (es):
Variable 1
Variable 2
Variable 3
Variable 4
Variable 5
Gráfico inicial de la variable 1 en niveles -Original
Gráfico inicial de la variable 2 en niveles -Original
Gráfico inicial de la variable 3 en niveles -Original
Gráfico inicial de la variable 4 en niveles -Original
Gráfico inicial de la variable 5 en niveles -Original
Extracción señales variable 1
Extracción señales variable 2
Extracción señales variable 3
Extracción señales variable 4
Extracción señales variable 5
Después de la descomposición temporal de cada variable, se extrae la variable ajustada por estacionalidad para graficarla junto con la serie original:
Se crea la variable1 ajustada por estacionalidad
Se crea la variable2 ajustada por estacionalidad
Se crea la variable3 ajustada por estacionalidad
Se crea la variable4 ajustada por estacionalidad
Se crea la variable5 ajustada por estacionalidad
Ahora si se puede graficar las series originales versus la ajustada por estacionalidad
Gráfico serie original VS ajustada Variable 1
Gráfico serie original VS ajustada Variable 2
Gráfico serie original VS ajustada Variable 3
Gráfico serie original VS ajustada Variable 4
Gráfico serie original VS ajustada Variable 5
Ahora graficamos serie original vs tendencia
Primero se debe obtener la tendencia de cada variable y luego graficarla
Tendencia Variable 1
Tendencia Variable 2
Tendencia Variable 3
Tendencia Variable 4
Tendencia Variable 5
Ahora calculamos la tasa de crecimiento de la serie original vs tendencia:
Tasa de crecimiento de la serie de tendencia y original para la variable 1
## [1] 156
## [1] 156
## [1] 156
*Gráfico variable original y tendencia variable 1: tasa de crecimiento anual**
Ahora calculamos la tasa de crecimiento de la serie original vs tendencia: variable 2
## [1] 156
## [1] 156
## [1] 156
Ahora calculamos la tasa de crecimiento de la serie original vs tendencia: variable 3
## [1] 156
## [1] 156
## [1] 156
Tasa de crecimiento de la serie de tendencia y original para la variable 4
## [1] 156
## [1] 156
## [1] 156
*Gráfico variable original y tendencia variable 4: tasa de crecimiento anual**
Tasa de crecimiento de la serie de tendencia y original para la variable 5
## [1] 156
## [1] 156
## [1] 156
*Gráfico variable original y tendencia variable 5: tasa de crecimiento anual**
Analizar la tasa de crecimiento anual ayuda a detectar cambios en el entorno económico que afectan el sector. Se pueden prever crisis o períodos de auge y prepararse para ellos.
División en conjunto de entrenamiento y prueba para la variable 1 que es la elegida para pronosticar
El código siguiente divide una serie temporal (variable1_ts) en dos subconjuntos:
Conjunto de entrenamiento (train): Datos desde enero de 2012 hasta septiembre de 2025. Conjunto de prueba (test): Datos desde octubre de 2024 hasta diciembre de 2025.
Esto se hace para evaluar el desempeño de modelos de predicción en datos no vistos.
Identificación automática del modelo ARIMA
## Series: train_ts
## ARIMA(0,1,1)
##
## Coefficients:
## ma1
## -0.7688
## s.e. 0.0606
##
## sigma^2 = 30399221: log likelihood = -1555.2
## AIC=3114.4 AICc=3114.48 BIC=3120.49
##
## Training set error measures:
## ME RMSE MAE MPE MAPE MASE ACF1
## Training set 76.12941 5478.092 4264.441 -1.944422 12.56178 0.77247 0.06242645
Estimación del modelo identificado automatico y validación de Significancia de coeficientes
##
## z test of coefficients:
##
## Estimate Std. Error z value Pr(>|z|)
## ma1 -0.768842 0.060582 -12.691 < 2.2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## Series: train_ts
## ARIMA(2,1,2)
##
## Coefficients:
## ar1 ar2 ma1 ma2
## -0.7324 0.0097 0.0430 -0.6693
## s.e. 0.1465 0.1100 0.1229 0.1097
##
## sigma^2 = 30362811: log likelihood = -1553.62
## AIC=3117.23 AICc=3117.64 BIC=3132.45
##
## Training set error measures:
## ME RMSE MAE MPE MAPE MASE
## Training set 67.38802 5421.222 4211.229 -1.95785 12.48386 0.7628312
## ACF1
## Training set -0.001694003
Validación de residuales o errores del modelo
##
## Ljung-Box test
##
## data: Residuals from ARIMA(2,1,2)
## Q* = 22.635, df = 20, p-value = 0.3071
##
## Model df: 4. Total lags used: 24
Pronóstico modelo ARIMA automático dentro de muestra o en el set de prueba
Interpretación modelo automatico (4,1,2):El modelo automático (4,1,2) parece pronosticar mejor dentro de prueba. Hay un sobre ajuste, pero se capturan muy bien los puntos de quiebre. Es un modelo tentativo adecuado para pronpostico fuera de muestra o a futuro.
Pronóstico automático dentro del set de prueba como tabla
## Tiempo Observado Pronosticado
## 1 2025.000 21067.48 35154.3
## 2 2025.083 33055.57 35154.3
## 3 2025.167 36584.56 35154.3
## 4 2025.250 31873.27 35154.3
## 5 2025.333 39447.96 35154.3
## 6 2025.417 37338.88 35154.3
## 7 2025.500 41861.51 35154.3
## 8 2025.583 36657.46 35154.3
## 9 2025.667 44281.90 35154.3
## 10 2025.750 36821.22 35154.3
## 11 2025.833 41283.71 35154.3
## 12 2025.917 45294.88 35154.3
Ahora pronosticamos con el modelo automatico fuera del periodo de análisis, es decir enero 2026
Es decir, le sumamos al periodo de prueb auna observación más. Es decir, se estan pronosticando 4 observaciones o trimestres.
## Tiempo Pronostico
## 1 2025.000 35154.3
## 2 2025.083 35154.3
## 3 2025.167 35154.3
## 4 2025.250 35154.3
## 5 2025.333 35154.3
## 6 2025.417 35154.3
## 7 2025.500 35154.3
## 8 2025.583 35154.3
## 9 2025.667 35154.3
## 10 2025.750 35154.3
## 11 2025.833 35154.3
## 12 2025.917 35154.3
## 13 2026.000 35154.3
## [1] "Pronóstico para enero 2026: 2026 = 35154.3036197882"
Este modelo podria ser una solución o mejora al modelo arima tradicional ya que recoge el efecto estacional de las variables, es recomendable por tanto para datos que si tienen un componente estacional fuerte.
El modelo ajustado en este ejemplo es un SARIMA(0,1,1)(1,0,0)[12], lo que significa:
(0,1,1): Parte ARIMA no estacional: 0 términos autorregresivos (AR). 1 diferenciación (d), lo que indica que la serie fue diferenciada una vez para hacerla estacionaria. 1 término de media móvil (MA).
(1,0,0)[12]: Parte estacional con periodicidad 12 (mensual si los datos son mensuales): 1 término autorregresivo estacional (SAR). 0 diferenciaciones estacionales. 0 términos de media móvil estacionales (SMA).
El modelo SARIMA(0,1,1)(1,0,0)[12] sugiere que:
Identificación dautomática del modelo SARIMA
## Series: train_ts
## ARIMA(1,1,2)(2,0,0)[12]
##
## Coefficients:
## ar1 ma1 ma2 sar1 sar2
## 0.5845 -1.3415 0.4222 0.2000 0.0987
## s.e. 0.6748 0.6912 0.5548 0.0825 0.0887
##
## sigma^2 = 29270489: log likelihood = -1550.66
## AIC=3113.33 AICc=3113.89 BIC=3131.59
A continuación, se crea el objeto darima para luegO poder graficar los valores reales y observados:
## Series: train_ts
## ARIMA(4,1,3)(1,0,0)[12]
##
## Coefficients:
## ar1 ar2 ar3 ar4 ma1 ma2 ma3 sar1
## -0.8580 -0.6411 0.0972 -0.0789 0.1093 -0.0155 -0.6102 0.2559
## s.e. 0.1874 0.2684 0.1795 0.1126 0.1701 0.2394 0.1872 0.0858
##
## sigma^2 = 28971677: log likelihood = -1548.34
## AIC=3114.69 AICc=3115.93 BIC=3142.08
##
## Training set error measures:
## ME RMSE MAE MPE MAPE MASE ACF1
## Training set 43.45775 5224.963 4121.261 -1.82166 12.15706 0.7465341 0.005920308
Validación de residuales del modelo automatico SARIMA
En el correlograma de residuos siguiente se observa que, mejora la correlación de los residuos frente a lso dos modelos anteriores. Sin embargo, al comparar los valores reales VS pronosticados se determina una poca coincidencia. Sigue funcionando mejor el modelo automatico (4,1,3)
##
## Ljung-Box test
##
## data: Residuals from ARIMA(4,1,3)(1,0,0)[12]
## Q* = 13.995, df = 16, p-value = 0.5991
##
## Model df: 8. Total lags used: 24
Pronóstico con el modelo SARIMA dentro del set de prueba-Gráfico líneas
Pronóstico del modelo automático SARIMA en el set de prueba-Tabla
## Tiempo Observado Pronosticado
## 1 2025.000 21067.48 32179.61
## 2 2025.083 33055.57 34076.19
## 3 2025.167 36584.56 33835.17
## 4 2025.250 31873.27 32438.49
## 5 2025.333 39447.96 34191.97
## 6 2025.417 37338.88 33277.64
## 7 2025.500 41861.51 34212.57
## 8 2025.583 36657.46 34154.65
## 9 2025.667 44281.90 34270.24
## 10 2025.750 36821.22 33404.06
## 11 2025.833 41283.71 34088.22
## 12 2025.917 45294.88 35796.90
Pronóstico del modelo automático SARIMA fuera de muestra, es decir, en enero 2025
Es decir, le sumamos al periodo de prueba una observación más. Es decir, se estan pronosticando 4 observaciones o meses.
## Tiempo Pronostico
## 1 2025.000 32179.61
## 2 2025.083 34076.19
## 3 2025.167 33835.17
## 4 2025.250 32438.49
## 5 2025.333 34191.97
## 6 2025.417 33277.64
## 7 2025.500 34212.57
## 8 2025.583 34154.65
## 9 2025.667 34270.24
## 10 2025.750 33404.06
## 11 2025.833 34088.22
## 12 2025.917 35796.90
## 13 2026.000 33526.98
## [1] "Pronóstico para enero 2025: 2026 = 33526.983148621"
Conclusión:
El modelo automático ARIMA(4,1,2) fue el que mejor desempeño mostró en la comparación entre los datos reales y los pronosticados dentro del periodo de prueba (oct.nov.dic2024). Destacó por su mayor precisión en la captura de los puntos de quiebre, lo que lo hace el más confiable.
No obstante, al analizar los residuos de los modelos, se identifican posibles áreas de mejora para robustecer los pronósticos en los tres casos evaluados. Algunas estrategias podrían incluir la aplicación de una transformación logarítmica o trabajar desde el inicio con la serie ajustada por estacionalidad.
By Julieth Cerón