Instalar/Cargar librerias necesarias para el análisis

Cargar base de datos

PASO INDISPENSABLE: Declarar la (s) variable (s) como serie (s) temporal (es):

Variable 1

Variable 2

Variable 3

Variable 4

Variable 5

Extracción de señales

Gráfico inicial de la variable 1 en niveles -Original

Gráfico inicial de la variable 2 en niveles -Original

Gráfico inicial de la variable 3 en niveles -Original

Gráfico inicial de la variable 4 en niveles -Original

Gráfico inicial de la variable 5 en niveles -Original

Extracción señales variable 1

Extracción señales variable 2

Extracción señales variable 3

Extracción señales variable 4

Extracción señales variable 5

Después de la descomposición temporal de cada variable, se extrae la variable ajustada por estacionalidad para graficarla junto con la serie original:

Se crea la variable1 ajustada por estacionalidad

Se crea la variable2 ajustada por estacionalidad

Se crea la variable3 ajustada por estacionalidad

Se crea la variable4 ajustada por estacionalidad

Se crea la variable5 ajustada por estacionalidad

Ahora si se puede graficar las series originales versus la ajustada por estacionalidad

Gráfico serie original VS ajustada Variable 1

Gráfico serie original VS ajustada Variable 2

Gráfico serie original VS ajustada Variable 3

Gráfico serie original VS ajustada Variable 4

Gráfico serie original VS ajustada Variable 5

Ahora graficamos serie original vs tendencia

Primero se debe obtener la tendencia de cada variable y luego graficarla

Tendencia Variable 1

Tendencia Variable 2

Tendencia Variable 3

Tendencia Variable 4

Tendencia Variable 5

Ahora calculamos la tasa de crecimiento de la serie original vs tendencia:

Tasa de crecimiento de la serie de tendencia y original para la variable 1

## [1] 156
## [1] 156
## [1] 156

*Gráfico variable original y tendencia variable 1: tasa de crecimiento anual**

Ahora calculamos la tasa de crecimiento de la serie original vs tendencia: variable 2

## [1] 156
## [1] 156
## [1] 156

Ahora calculamos la tasa de crecimiento de la serie original vs tendencia: variable 3

## [1] 156
## [1] 156
## [1] 156

Tasa de crecimiento de la serie de tendencia y original para la variable 4

## [1] 156
## [1] 156
## [1] 156

*Gráfico variable original y tendencia variable 4: tasa de crecimiento anual**

Tasa de crecimiento de la serie de tendencia y original para la variable 5

## [1] 156
## [1] 156
## [1] 156

*Gráfico variable original y tendencia variable 5: tasa de crecimiento anual**

Analizar la tasa de crecimiento anual ayuda a detectar cambios en el entorno económico que afectan el sector. Se pueden prever crisis o períodos de auge y prepararse para ellos.

Modelo ARIMA

División en conjunto de entrenamiento y prueba para la variable 1 que es la elegida para pronosticar

El código siguiente divide una serie temporal (variable1_ts) en dos subconjuntos:

Conjunto de entrenamiento (train): Datos desde enero de 2012 hasta septiembre de 2025. Conjunto de prueba (test): Datos desde octubre de 2024 hasta diciembre de 2025.

Esto se hace para evaluar el desempeño de modelos de predicción en datos no vistos.

Modelo ARIMA automático normal (sin tener en cuenta el factor estacional)

Identificación automática del modelo ARIMA

## Series: train_ts 
## ARIMA(0,1,1) 
## 
## Coefficients:
##           ma1
##       -0.7688
## s.e.   0.0606
## 
## sigma^2 = 30399221:  log likelihood = -1555.2
## AIC=3114.4   AICc=3114.48   BIC=3120.49
## 
## Training set error measures:
##                    ME     RMSE      MAE       MPE     MAPE    MASE       ACF1
## Training set 76.12941 5478.092 4264.441 -1.944422 12.56178 0.77247 0.06242645

Estimación del modelo identificado automatico y validación de Significancia de coeficientes

## 
## z test of coefficients:
## 
##      Estimate Std. Error z value  Pr(>|z|)    
## ma1 -0.768842   0.060582 -12.691 < 2.2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## Series: train_ts 
## ARIMA(2,1,2) 
## 
## Coefficients:
##           ar1     ar2     ma1      ma2
##       -0.7324  0.0097  0.0430  -0.6693
## s.e.   0.1465  0.1100  0.1229   0.1097
## 
## sigma^2 = 30362811:  log likelihood = -1553.62
## AIC=3117.23   AICc=3117.64   BIC=3132.45
## 
## Training set error measures:
##                    ME     RMSE      MAE      MPE     MAPE      MASE
## Training set 67.38802 5421.222 4211.229 -1.95785 12.48386 0.7628312
##                      ACF1
## Training set -0.001694003

Validación de residuales o errores del modelo

## 
##  Ljung-Box test
## 
## data:  Residuals from ARIMA(2,1,2)
## Q* = 22.635, df = 20, p-value = 0.3071
## 
## Model df: 4.   Total lags used: 24

Pronóstico modelo ARIMA automático dentro de muestra o en el set de prueba

Interpretación modelo automatico (4,1,2):El modelo automático (4,1,2) parece pronosticar mejor dentro de prueba. Hay un sobre ajuste, pero se capturan muy bien los puntos de quiebre. Es un modelo tentativo adecuado para pronpostico fuera de muestra o a futuro.

Pronóstico automático dentro del set de prueba como tabla

##      Tiempo Observado Pronosticado
## 1  2025.000  21067.48      35154.3
## 2  2025.083  33055.57      35154.3
## 3  2025.167  36584.56      35154.3
## 4  2025.250  31873.27      35154.3
## 5  2025.333  39447.96      35154.3
## 6  2025.417  37338.88      35154.3
## 7  2025.500  41861.51      35154.3
## 8  2025.583  36657.46      35154.3
## 9  2025.667  44281.90      35154.3
## 10 2025.750  36821.22      35154.3
## 11 2025.833  41283.71      35154.3
## 12 2025.917  45294.88      35154.3

Ahora pronosticamos con el modelo automatico fuera del periodo de análisis, es decir enero 2026

Es decir, le sumamos al periodo de prueb auna observación más. Es decir, se estan pronosticando 4 observaciones o trimestres.

##      Tiempo Pronostico
## 1  2025.000    35154.3
## 2  2025.083    35154.3
## 3  2025.167    35154.3
## 4  2025.250    35154.3
## 5  2025.333    35154.3
## 6  2025.417    35154.3
## 7  2025.500    35154.3
## 8  2025.583    35154.3
## 9  2025.667    35154.3
## 10 2025.750    35154.3
## 11 2025.833    35154.3
## 12 2025.917    35154.3
## 13 2026.000    35154.3
## [1] "Pronóstico para enero 2026: 2026 = 35154.3036197882"

Modelo SARIMA automático

Este modelo podria ser una solución o mejora al modelo arima tradicional ya que recoge el efecto estacional de las variables, es recomendable por tanto para datos que si tienen un componente estacional fuerte.

El modelo ajustado en este ejemplo es un SARIMA(0,1,1)(1,0,0)[12], lo que significa:

(0,1,1): Parte ARIMA no estacional: 0 términos autorregresivos (AR). 1 diferenciación (d), lo que indica que la serie fue diferenciada una vez para hacerla estacionaria. 1 término de media móvil (MA).

(1,0,0)[12]: Parte estacional con periodicidad 12 (mensual si los datos son mensuales): 1 término autorregresivo estacional (SAR). 0 diferenciaciones estacionales. 0 términos de media móvil estacionales (SMA).

El modelo SARIMA(0,1,1)(1,0,0)[12] sugiere que:

  • La serie tiene una tendencia no estacionaria, corregida con una diferenciación.
  • Existe una influencia significativa del error pasado (MA(1)).
  • Hay un componente estacional autorregresivo fuerte cada 12 períodos.
  • El ajuste es adecuado según los criterios AIC y BIC, pero se podría comparar con otros modelos para mejorar la predicción.

Identificación dautomática del modelo SARIMA

## Series: train_ts 
## ARIMA(1,1,2)(2,0,0)[12] 
## 
## Coefficients:
##          ar1      ma1     ma2    sar1    sar2
##       0.5845  -1.3415  0.4222  0.2000  0.0987
## s.e.  0.6748   0.6912  0.5548  0.0825  0.0887
## 
## sigma^2 = 29270489:  log likelihood = -1550.66
## AIC=3113.33   AICc=3113.89   BIC=3131.59

A continuación, se crea el objeto darima para luegO poder graficar los valores reales y observados:

## Series: train_ts 
## ARIMA(4,1,3)(1,0,0)[12] 
## 
## Coefficients:
##           ar1      ar2     ar3      ar4     ma1      ma2      ma3    sar1
##       -0.8580  -0.6411  0.0972  -0.0789  0.1093  -0.0155  -0.6102  0.2559
## s.e.   0.1874   0.2684  0.1795   0.1126  0.1701   0.2394   0.1872  0.0858
## 
## sigma^2 = 28971677:  log likelihood = -1548.34
## AIC=3114.69   AICc=3115.93   BIC=3142.08
## 
## Training set error measures:
##                    ME     RMSE      MAE      MPE     MAPE      MASE        ACF1
## Training set 43.45775 5224.963 4121.261 -1.82166 12.15706 0.7465341 0.005920308

Validación de residuales del modelo automatico SARIMA

En el correlograma de residuos siguiente se observa que, mejora la correlación de los residuos frente a lso dos modelos anteriores. Sin embargo, al comparar los valores reales VS pronosticados se determina una poca coincidencia. Sigue funcionando mejor el modelo automatico (4,1,3)

## 
##  Ljung-Box test
## 
## data:  Residuals from ARIMA(4,1,3)(1,0,0)[12]
## Q* = 13.995, df = 16, p-value = 0.5991
## 
## Model df: 8.   Total lags used: 24

Pronóstico con el modelo SARIMA dentro del set de prueba-Gráfico líneas

Pronóstico del modelo automático SARIMA en el set de prueba-Tabla

##      Tiempo Observado Pronosticado
## 1  2025.000  21067.48     32179.61
## 2  2025.083  33055.57     34076.19
## 3  2025.167  36584.56     33835.17
## 4  2025.250  31873.27     32438.49
## 5  2025.333  39447.96     34191.97
## 6  2025.417  37338.88     33277.64
## 7  2025.500  41861.51     34212.57
## 8  2025.583  36657.46     34154.65
## 9  2025.667  44281.90     34270.24
## 10 2025.750  36821.22     33404.06
## 11 2025.833  41283.71     34088.22
## 12 2025.917  45294.88     35796.90

Pronóstico del modelo automático SARIMA fuera de muestra, es decir, en enero 2025

Es decir, le sumamos al periodo de prueba una observación más. Es decir, se estan pronosticando 4 observaciones o meses.

##      Tiempo Pronostico
## 1  2025.000   32179.61
## 2  2025.083   34076.19
## 3  2025.167   33835.17
## 4  2025.250   32438.49
## 5  2025.333   34191.97
## 6  2025.417   33277.64
## 7  2025.500   34212.57
## 8  2025.583   34154.65
## 9  2025.667   34270.24
## 10 2025.750   33404.06
## 11 2025.833   34088.22
## 12 2025.917   35796.90
## 13 2026.000   33526.98
## [1] "Pronóstico para enero 2025: 2026 = 33526.983148621"

Conclusión:

El modelo automático ARIMA(4,1,2) fue el que mejor desempeño mostró en la comparación entre los datos reales y los pronosticados dentro del periodo de prueba (oct.nov.dic2024). Destacó por su mayor precisión en la captura de los puntos de quiebre, lo que lo hace el más confiable.

No obstante, al analizar los residuos de los modelos, se identifican posibles áreas de mejora para robustecer los pronósticos en los tres casos evaluados. Algunas estrategias podrían incluir la aplicación de una transformación logarítmica o trabajar desde el inicio con la serie ajustada por estacionalidad.

By Julieth Cerón