El objetivo de este estudio es analizar y pronosticar las variaciones observadas en el Índice Nacional de Precios al Consumidor (INPC) de Venezuela, utilizando modelos estadísticos de series de tiempo. Estas variaciones corresponden a las agrupaciones determinadas por el Banco Central de Venezuela y se obtuvieron de la página oficial de dicho ente.
El INPC es una medida estadística que refleja los cambios en el nivel general de precios de bienes y servicios adquiridos por los consumidores. Su principal uso es evaluar los niveles inflacionarios de un país a lo largo del tiempo. El pronóstico del INPC es importante ya que permite identificar tendencias inflacionarias, incluyendo si la inflación está aumentando o disminuyendo con el tiempo, así como patrones estacionales o cíclicos.
El INPC tiene aplicaciones en diversos sectores. Por ejemplo, en el sector de asegurador, las proyecciones del INPC pueden utilizarse como una medida complementaria para calcular las primas de seguros de gastos médicos. Al considerar el INPC del sector salud, las aseguradoras pueden anticipar y reflejar en las primas los posibles aumentos en los costos médicos, lo que contribuye a mantener la sostenibilidad financiera de las aseguradoras y garantiza que las primas sean adecuadas para cubrir los gastos médicos esperados.
Las series de tiempo en estudio se tratan del valor mensual de la variación del INPC para cada uno de los siguientes agrupaciones determinadas por el Banco Central de Venezuela:
Como se puede observar existen trece distintas series de tiempo que serán estudiadas, por lo cual visualizarlas todas será un desafio en el cual utilizaremos la libreria timetk para los gráficos y el conjunto de paquetes de tidyverse para le procesamiento de los datos.
A la fecha del presente analisis se posee información mensual desde el año 2014 hasta julio del año 2023 de cada uno de los grupos del INPC. A continuación, se visualiza el histórico de cada una de las series:
Es evidente que todos los INPC muestran sus mayores variaciones entre los años 2018, 2019 y 2020. Además, se puede apreciar una tendencia de crecimiento hasta mediados del año 2019, seguida de una tendencia decreciente desde entonces hasta la actualidad. Algunos sectores como “Alimentos y bebidas no alcohólicas”, “Bebidas alcohólicas y tabaco” y “Vestido y calzado”, parecieran exhibir patrones estacionales anuales.
Con el fin de generar una evaluación de las series del INPC en estudio, se muestra a continuación los estadísticos descriptivos de cada una:
| Sector INPC | Mínimo | Máximo | Promedio | Desviación Estándar | Asimetría | Curtosis |
|---|---|---|---|---|---|---|
| Alimentos y Bebidas no Alcoholicas | 1.00 | 203.99 | 27.45 | 32.37 | 2.62 | 11.36 |
| Alquiler de Vivienda | 0.50 | 1,049.66 | 32.08 | 110.90 | 7.55 | 65.75 |
| Bebidas Alcoholicas y Tabaco | −1.30 | 184.15 | 27.26 | 32.87 | 2.48 | 9.78 |
| Bienes y Servicios Diversos | 1.40 | 195.03 | 27.23 | 35.44 | 2.62 | 10.50 |
| Comunicaciones | 0.20 | 165.70 | 25.74 | 34.86 | 2.01 | 6.55 |
| Equipamiento del Hogar | 0.90 | 242.68 | 25.79 | 35.58 | 3.60 | 19.36 |
| Esparcimiento y Cultura | 2.50 | 227.52 | 26.18 | 32.83 | 3.18 | 16.21 |
| Restaurantes y Hoteles | −0.22 | 238.34 | 26.96 | 33.86 | 3.11 | 16.46 |
| Salud | 0.50 | 195.44 | 27.73 | 35.94 | 2.52 | 9.93 |
| Servicios de Educacion | 0.90 | 456.26 | 28.95 | 52.50 | 5.64 | 42.11 |
| Servicios de Vivienda Excepto telefono | −23.90 | 2,598.12 | 50.14 | 250.61 | 9.38 | 94.81 |
| Transporte | 0.10 | 182.72 | 26.74 | 33.64 | 2.84 | 12.43 |
| Vestido y calzado | 0.40 | 138.64 | 25.24 | 30.39 | 2.17 | 7.71 |
Se puede apreciar que todas las series presentan variaciones máximas de alrededor del 200%, exceptuando las series de “Alquiler de Vivienda”, “Servicios de Eduación” y “Servicios de Vivienda Excepto Telefono”, lo cual las posiciona como las series con los mayores valores extremos. Esto se puede apreciar en los gráficos presentados previamente.
Todas las series en estudio muestran variaciones medias de aproximadamente 25% y además, se observa que todas las series poseen desviaciones típicas similares del 30% aproximadamente, a excepción de las series “Alquiler de Vivienda”, “Servicios de Eduación” y “Servicios de Vivienda Excepto Telefono”, siendo la ultima la que presenta mayor dispersión con respecto a la media.
Es importante destacar que todas las distribuciones tienen una mayor concentración de datos en torno a la media por lo que se clasifican como leptocúrticas. Asimismo, todas las series del tipo de cambio de compra presentan sesgos en la distribución hacia la derecha.
A continuación, se analizará cómo se comportan las principales características que componen una serie de tiempo, las cuales son:
Tendencia Observada: La tendencia observada en una serie de tiempo se refiere a la dirección general en la que se mueven los datos a lo largo del tiempo. Puede ser ascendente, descendente o mantenerse constante. Al analizar la tendencia, se busca identificar si existe un patrón de crecimiento o decrecimiento a largo plazo en los datos.
Patrones Estacionales: Los patrones estacionales se refieren a las fluctuaciones regulares que ocurren en una serie de tiempo en períodos fijos de tiempo. Estos patrones pueden repetirse anualmente, trimestralmente, mensualmente o en otros intervalos de tiempo. El análisis de los patrones estacionales es importante para comprender las variaciones regulares en los datos y poder predecir su comportamiento futuro.
Detección de Anomalías: La detección de anomalías consiste en identificar puntos o eventos inusuales en una serie de tiempo. Estas anomalías pueden ser valores atípicos, cambios bruscos o inesperados en los datos. El objetivo de la detección de anomalías es identificar y comprender las causas de estos eventos inusuales, ya que pueden ser indicativos de problemas o situaciones importantes que requieren atención.
Análisis de Autocorrelación: El análisis de autocorrelación se utiliza para estudiar la relación entre los valores pasados y presentes de una serie de tiempo. Permite identificar patrones de dependencia y correlación entre los diferentes puntos de datos en la serie. El análisis de autocorrelación es útil para determinar si hay una relación significativa entre los valores de una serie de tiempo en diferentes momentos y para identificar posibles modelos de pronóstico.
Para analizar la tendencia de los INPC, se utiliza el método STL, que permite descomponer una serie en sus principales componentes. STL es el acrónimo de “Descomposición Estacional y de Tendencias con Loess”. Este método es ampliamente reconocido por su versatilidad y capacidad para descomponer series de tiempo de manera robusta.
A continuación, se procede a la descomposición de las series. Luego, se muestra exclusivamente el componente de tendencia de cada una de estas series.
Al eliminar el componente de estacionalidad de las series de tiempo, se puede observar claramente que desde el año 2014 hasta 2018, la mayoría de las series mostraban una tendencia exponencial de crecimiento. Sin embargo, a partir de ese año, la tendencia ha sido a la baja. Todas las series presentan oscilaciones después del año 2019, con períodos de crecimiento seguidos por períodos de decrecimiento.
Para visualizar y evaluar la estacionalidad de los INPC, se realizarán varios gráficos que mostrarán las variaciones por mes y año a lo largo de todo el historial disponible.
Estos gráficos permitirán identificar patrones estacionales recurrentes en los datos y analizar cómo varían los precios en diferentes períodos del año. Asimismo, se podrán observar posibles tendencias o fluctuaciones significativas en las variaciones mensuales a lo largo del tiempo.
La mayoría de las series parecen exhibir patrones estacionales evidentes. Es notable cómo enero y diciembre suelen ser los meses con las mayores variaciones en casi todas las series. Asimismo, se observa la presencia de valores atípicos en todos los meses y series. Además, se aprecia que los meses intermedios del año muestran variaciones menos pronunciadas entre sí.
Dado que las series del INPC de “Alquiler de Viviendas” y “Servicios de Viviendas Excepto el Teléfono” muestran valores extremos atípicos que distorsionan el eje de los gráficos, se dificulta la visualización de los patrones estacionales. No obstante, al realizar un análisis de correlación, es posible determinar si estas series presentan o no dichos patrones.
A continuación, se visualiza las variaciones del INPC por trimestre.
Se puede observar que la mediana tiende a incrementar trimestre tras trimestre. Otra forma útil de visualizar los patrones estacionales es mediante el uso de gráficos de subseries.
Para detectar anomalías, utilizaremos la función tk_anomaly_diagnostics del paquete timetk. Esta función se basa en la descomposición de la serie de tiempo utilizando el método STL, que permite eliminar la tendencia y la estacionalidad. Después de este proceso de descomposición, el método de detección de anomalías utiliza un rango intercuartílico (IQR) de +/-25 veces la mediana del residuo en las series de tiempo.
Las anomalías se concentran principalmente en los años 2018, 2019 y 2020 en todas las series del INPC. Estos períodos se caracterizan por presentar fluctuaciones significativas en los precios de los productos y servicios que conforman el INPC. Sin embargo, es relevante resaltar que en los años más recientes de información no se han encontrado anomalías que puedan afectar de manera significativa o generar cambios estructurales en las series de tiempo. Esto indica que, en líneas generales, la tendencia y estabilidad de los precios se han mantenido dentro de rangos esperados y no se han presentado eventos atípicos que puedan distorsionar la interpretación de los datos.
La presencia de valores extremos en una serie de tiempo puede afectar la precisión de los modelos estadísticos utilizados para pronosticar. Aunque no se recomienda eliminar por completo estos valores atípicos, es posible suavizarlos mediante la asignación de valores más acordes a los observados en la serie. Es importante tener en cuenta que suavizar los valores atípicos puede implicar una pérdida de información relevante para el análisis. Sin embargo, en algunos casos, esta técnica puede ayudar a obtener estimaciones más estables y confiables.
A continuación, se visualiza el resultado de suavizar los valores atípicos detectados en las series del INPC. Es importante considerar que este proceso se realiza con el objetivo de mejorar la interpretación y el desempeño de los modelos de pronóstico, pero es necesario evaluar cuidadosamente el impacto de la pérdida de información que pueda resultar de este suavizado.
Al igual que la correlación mide el grado de relación lineal entre dos variables, la autocorrelación mide la relación lineal entre los valores retardados de una serie temporal. Examinemos si las series del INPC son estacionarias aplicando el contraste de Dickey-Fuller para determinar la presencia o no de raíces unitarias en las series.
Las hipótesis del contraste estadístico de Dickey-Fuller son las siguientes:
\[\begin{matrix} H_{0} : \rho = 0 \\ H_{1} : \rho < 0 \\ \end{matrix}\]Nivel de significación: 5%
Estadístico de Contraste: \(\quad ADF-test = \frac{\widehat{\rho}}{std(\widehat{\rho})}\)
Regla de Decisión: Se rechaza \(H_{0}\) si el p-valor obtenido es menor a un nivel de significación \(\alpha = 0.05\)
| Sector INPC | Dickey Fuller | P-valor |
|---|---|---|
| Alimentos y Bebidas no Alcoholicas | -2.381 | 0.418 |
| Alquiler de Vivienda | -3.435 | 0.052 |
| Bebidas Alcoholicas y Tabaco | -2.099 | 0.536 |
| Bienes y Servicios Diversos | -1.923 | 0.608 |
| Comunicaciones | -2.157 | 0.512 |
| Equipamiento del Hogar | -2.159 | 0.511 |
| Esparcimiento y Cultura | -2.440 | 0.394 |
| Restaurantes y Hoteles | -2.181 | 0.502 |
| Salud | -2.083 | 0.542 |
| Servicios de Educacion | -2.284 | 0.459 |
| Servicios de Vivienda Excepto telefono | -4.254 | 0.010 |
| Transporte | -1.861 | 0.634 |
| Vestido y calzado | -2.004 | 0.575 |
Se puede observar que no se encontraron evidencias estadísticas suficientes para rechazar la hipótesis nula en todas las series del INPC, excepto en “Servicios de Vivienda Excepto Teléfono”. Por lo tanto, podemos concluir que la mayoría de las series de INPC no son estacionarias, excepto esta mencionada que muestra patrones distintos a las demás.
Se diferencian las series de tiempo y se aplica nuevamente el contraste estadístico de Dickey-Fuller para verificar la estacionaridad de las mismas.
| Sector INPC | Dickey Fuller | P-valor |
|---|---|---|
| Alimentos y Bebidas no Alcoholicas | -5.634 | 0.01 |
| Alquiler de Vivienda | -6.917 | 0.01 |
| Bebidas Alcoholicas y Tabaco | -6.271 | 0.01 |
| Bienes y Servicios Diversos | -5.809 | 0.01 |
| Comunicaciones | -6.600 | 0.01 |
| Equipamiento del Hogar | -5.688 | 0.01 |
| Esparcimiento y Cultura | -5.199 | 0.01 |
| Restaurantes y Hoteles | -5.615 | 0.01 |
| Salud | -4.390 | 0.01 |
| Servicios de Educacion | -5.930 | 0.01 |
| Servicios de Vivienda Excepto telefono | -9.201 | 0.01 |
| Transporte | -4.117 | 0.01 |
| Vestido y calzado | -5.986 | 0.01 |
Se observa que existen evidencias estadísticas suficientes para rechazar la hipótesis nula a un nivel de significación del 5%, por consiguiente se puede afirmar que todas las series son estacionarias. A continuación, se visualizan las series del INPC diferenciadas:
A continuación, se visualizan las funciones de autocorrelación (ACF) y autocorrelación parcial (PACF) para cada una de las series estacionarias.
Se observa que la mayoría de las series presentan patrones estacionales tanto en la función de correlación como en la función de autocorrelación parcial. Un claro ejemplo de esto son las series de “Alimento y Bebidas no Alcohólicas”, “Alquiler de Vivienda” y “Restaurantes y Hoteles”. Esto sugiere que los modelos de la clase SARIMA son adecuados para analizar y proyectar dichas series. Por otro lado, se observan series que no presentan patrones estacionales como “Servicios de Vivienda Excepto Teléfono” y “Comunicaciones”, lo cual sugiere que los modelos ARIMA serán adecuados para dichas series.
Cuando se trata de plantear un modelo de pronóstico, es común que los modelos ARIMA se establezcan como primera opción empleando la metodología de Box-Jenkins. Esta metodología consiste, en pocas palabras, en una serie de pasos para determinar un modelo ARIMA adecuado para el pronóstico de una serie. Sin embargo, es importante destacar que los modelos ARIMA no son necesariamente los modelos más actuales y precisos para pronosticar series de tiempo. Aunque son ampliamente utilizados y pueden ser un buen punto de partida para crear un benchmark de modelos, es importante considerar otras técnicas más avanzadas y sofisticadas.
A pesar de sus limitaciones, los modelos ARIMA tienen la ventaja de ser fácilmente interpretables, lo que facilita el análisis e interpretación de las series de tiempo. Esto puede ser especialmente útil en situaciones donde la interpretabilidad es crucial y se busca comprender el comportamiento de la serie en profundidad.
Aunque no se profundizó en estos pasos anteriores, se llevó a cabo la metodología de Box-Jenkins, donde se evaluó la estacionariedad de las series y se examinaron las funciones de autocorrelación simple y parcial. Esto nos proporcionó una idea de los órdenes autorregresivos y de medias móviles que podrían ser adecuados para cada serie en estudio.
Antes de proceder con el último paso de dicha metodología, que consiste en ajustar los distintos posibles modelos y seleccionar el que minimice el AIC (Criterio de Información de Akaike) o la medida de calidad estadística que prefiera el investigador, se hará una partición de cada una de las series. Esto implica que se eliminarán los doce puntos o meses más recientes de cada una de las series para ser utilizados como conjunto de prueba para los modelos resultantes de los pasos anteriores. De esta manera, obtendremos una idea realista de cómo se están comportando los modelos y qué tan precisos pueden ser a la hora de pronosticar los fenómenos para los cuales los estamos empleando.
A continuación, se visualiza la partición en conjuntos de entrenamiento y prueba de cada serie de INPC. Para poder visualizar mejor dicha partición, se limitan los datos a los últimos tres años de histórico para poder visualizar mejor la partición:
Ahora bien, ya particionados los datos, solo queda realizar el ajuste de los distintos modelos ARIMA minimizando el AIC. Este paso fue previamente realizado mediante una iteración y a continuación se presentan los modelos resultantes del ajuste en el conjunto de entrenamiento.
| Sector | Modelo Arima/Sarima |
|---|---|
| Alimentos y Bebidas no Alcoholicas | ARIMA(0,1,2)(2,0,0)[12] |
| Alquiler de Vivienda | ARIMA(0,1,1) |
| Bebidas Alcoholicas y Tabaco | ARIMA(2,1,3) |
| Bienes y Servicios Diversos | ARIMA(0,1,2)(0,0,2)[12] |
| Comunicaciones | ARIMA(0,1,1) |
| Equipamiento del Hogar | ARIMA(0,1,2)(2,0,0)[12] |
| Esparcimiento y Cultura | ARIMA(0,1,1) |
| Restaurantes y Hoteles | ARIMA(4,1,0)(1,0,0)[12] |
| Salud | ARIMA(1,1,2)(2,0,0)[12] |
| Servicios de Educacion | ARIMA(0,1,1)(1,0,1)[12] |
| Servicios de Vivienda Excepto telefono | ARIMA(0,0,1) with non-zero mean |
| Transporte | ARIMA(2,1,2)(1,0,0)[12] |
| Vestido y calzado | ARIMA(0,1,1)(2,0,0)[12] |
La mayoría de las series del INPC presentaron mejores ajustes con modelos SARIMA, específicamente 8 de las 13 series. Esto indica que los modelos SARIMA son más adecuados para capturar la estructura de autocorrelación en estas series de tiempo.
Un ejemplo interesante es la serie de “Restaurantes y Hoteles”, la cual muestra altos órdenes autorregresivos en el modelo SARIMA Esto sugiere que los valores pasados de esta serie tienen una fuerte influencia en los valores futuros, lo que podría estar relacionado con factores como la estacionalidad en la industria de restaurantes y hoteles.
Igualmente procedamos a emplear los modelos para pronosticar el conjunto de prueba, el cual establecimos en doce meses. La idea es poder apreciar cómo se están comportando los modelos a la hora de pronosticar valores futuros, más allá de los valores otorgados para ajustar dichos modelos.
Al realizar los pronósticos con los modelos seleccionados, podemos evaluar su desempeño y verificar si son capaces de capturar las tendencias y patrones de la serie temporal en el conjunto de prueba. Es importante destacar que estos pronósticos nos permiten anticipar los posibles valores que la serie tomará en el futuro, lo cual es fundamental para la toma de decisiones y la planificación estratégica.
Al observar los resultados obtenidos, es claro que los modelos ARIMA y SARIMA no lograron pronosticar de manera precisa las series del INPC en el conjunto de prueba. Los pronósticos realizados por estos modelos carecen de precisión.
Es importante considerar que la capacidad de los modelos para pronosticar con precisión es fundamental para su aplicación práctica. En este caso, la falta de precisión en los pronósticos del INPC puede tener implicaciones significativas en la toma de decisiones relacionadas con la inflación. Por lo tanto, se deben explorar otras alternativas de modelado y ajuste que puedan mejorar la precisión de los pronósticos.
Se realiza el cómputo de la raíz del error cuadrático medio o RMSE por sus siglas en inglés, como medida de error de los modelos. Esta medida proporciona una estimación de la precisión relativa de los pronósticos en comparación con los valores reales. Es importante tener en cuenta esta medida en los próximos pasos del análisis, ya que nos permitirá evaluar y comparar la precisión de diferentes modelos y seleccionar aquellos que presenten un menor error cuadrático medio.
| Sector | Modelo Arima/Sarima | rmse |
|---|---|---|
| Alimentos y Bebidas no Alcoholicas | ARIMA(0,1,2)(2,0,0)[12] | 15.023164 |
| Alquiler de Vivienda | ARIMA(0,1,1) | 9.658902 |
| Bebidas Alcoholicas y Tabaco | ARIMA(2,1,3) | 16.026053 |
| Bienes y Servicios Diversos | ARIMA(0,1,2)(0,0,2)[12] | 13.803781 |
| Comunicaciones | ARIMA(0,1,1) | 24.419542 |
| Equipamiento del Hogar | ARIMA(0,1,2)(2,0,0)[12] | 8.300383 |
| Esparcimiento y Cultura | ARIMA(0,1,1) | 10.511530 |
| Restaurantes y Hoteles | ARIMA(4,1,0)(1,0,0)[12] | 18.325908 |
| Salud | ARIMA(1,1,2)(2,0,0)[12] | 14.892617 |
| Servicios de Educacion | ARIMA(0,1,1)(1,0,1)[12] | 16.771728 |
| Servicios de Vivienda Excepto telefono | ARIMA(0,0,1) with non-zero mean | 41.422661 |
| Transporte | ARIMA(2,1,2)(1,0,0)[12] | 15.595799 |
| Vestido y calzado | ARIMA(0,1,1)(2,0,0)[12] | 12.287663 |
El paquete Forecast, desarrollado por el Profesor Rob Hyndman, ofrece una amplia variedad de modelos estadísticos para a series de tiempo. En este caso, vamos a crear un benchmark utilizando diferentes modelos, incluyendo ARIMA/SARIMA, con el objetivo de evaluar cuál de ellos realiza pronósticos más precisos para cada una de las series de tiempo de forma individual.
Los modelos a parte de Arima y Sarima que serán considerados en este benchmark son :
Modelo de Espacio de Estados de Suavización Exponencial (ETS): Los modelos de suavizamiento exponencial son métodos utilizados para realizar predicciones basadas en un promedio ponderado de observaciones pasadas. Estas ponderaciones decaen exponencialmente a medida que las observaciones se vuelven más antiguas. Estos modelos se emplean para predecir los componentes de una serie temporal, los cuales se pueden desglosar en error, tendencia y estacionalidad. Cada uno de estos componentes puede ser pronosticado individualmente y luego se suman o multiplican para obtener el resultado final de la predicción.
Regresión de Estacionalidad y Tendencia (STLM): Aplica una descomposición STL, que descompone la serie objetivo en componentes estacionales, de tendencia y de error/residual. Luego, modela los datos desestacionalizados utilizando un modelo ARIMA o un modelo de suavizamiento exponencial. Una vez obtenidas las predicciones de los datos desestacionalizados, se reestacionalizan para obtener las previsiones finales. Este enfoque combina la descomposición de la serie de tiempo en sus componentes fundamentales con el modelado Arima o de Suavizamiento para realizar predicciones más precisas y robustas. Ayuda a capturar y modelar tanto los patrones estacionales como las tendencias a largo plazo en los datos de la serie de tiempo.
Estacionalidad Trigonométrica, Transformación Box-Cox, Errores ARMA, Componentes de tendencia y Estacionales (TBATS): El modelo TBATS es una derivación del modelo ETS tradicional, con algunos componentes adicionales para capturar múltiples estacionalidades. Combina la estacionalidad trigonométrica, la transformación Box-Cox, los errores ARMA, y los componentes de tendencia y estacionalidad para modelar y pronosticar series de tiempo con patrones estacionales complejos y no lineales.
La finalidad de este benchmark es comparar la precisión de los modelos en el conjunto de prueba y seleccionar aquel que logre minimizar la métrica de error RMSE. En primer lugar, se ajustan los modelos y, posteriormente, se realiza la predicción para el período de prueba, comparando los resultados obtenidos en términos del RMSE.
A continuación, se visualiza el resultado del RMSE para serie y modelo en el conjunto de prueba:
Como establecimos anteriormente, la idea del backtesting es seleccionar el modelo que logre minimizar la métrica de error en el conjunto de prueba, lo cual conlleva al modelo más preciso. Observando las diferentes series del INPC en estudio, se puede notar que en la serie de “Alquiler y Vivienda” predomina el modelo ARIMA como el más preciso. En el resto de las series, la combinación de la descomposición STL junto con el modelo ARIMA fue el enfoque más preciso en la mayoría de los casos. Sin embargo, es importante mencionar que existen series como “Servicios de Educación” y “Servicio de Vivienda Excepto Telefono” donde el mejor modelo resultó ser el modelo TBATS.
Como podemos observar, solo para una de las trece series, el modelo más preciso resultó ser ARIMA. Ahora, comparemos cómo mejora la precisión en términos de RMSE si solo se hubiera considerado el modelo ARIMA en lugar de otros modelos. Para realizar esta comparación, podemos calcular la diferencia en el valor del RMSE entre el modelo ARIMA y los otros modelos utilizados en las restantes doce series.
| sector | arima | Mejor Modelo Backtesting | Diferencia % |
|---|---|---|---|
| Alimentos y Bebidas no Alcoholicas | 15.02 | 8.03 | −46,57% |
| Alquiler de Vivienda | 9.66 | 9.66 | 0,00% |
| Bebidas Alcoholicas y Tabaco | 16.03 | 7.81 | −51,27% |
| Bienes y Servicios Diversos | 13.80 | 8.73 | −36,73% |
| Comunicaciones | 24.42 | 24.41 | −0,02% |
| Equipamiento del Hogar | 8.30 | 7.05 | −15,11% |
| Esparcimiento y Cultura | 10.51 | 8.17 | −22,26% |
| Restaurantes y Hoteles | 18.33 | 7.17 | −60,90% |
| Salud | 14.89 | 7.83 | −47,40% |
| Servicios de Educacion | 16.77 | 15.88 | −5,34% |
| Servicios de Vivienda Excepto telefono | 41.42 | 18.12 | −56,27% |
| Transporte | 15.60 | 7.29 | −53,25% |
| Vestido y calzado | 12.29 | 8.94 | −27,25% |
Es realmente notable que para algunas series se haya logrado una mejora en la precisión de casi el 60%. Esto es sumamente relevante en términos de pronósticos, ya que conlleva la generación de resultados más cercanos a la realidad de la serie y la obtención de intervalos de confianza más ajustados.
A continuación, se muestra la visualización de los resultados del backtesting utilizando el mejor modelo para cada serie:
En el backtesting, se observa que únicamente en las series de “Alquiler de Vivienda”, “Comunicaciones” y “Servicios de Vivienda Excepto Teléfono” no se obtienen buenos pronósticos. Estas series requieren un análisis más detallado, ya que es probable que la presencia de valores atípicos en los años 2018, 2019 y 2020 esté afectando su pronóstico.
Es importante tener en cuenta que los valores atípicos pueden tener un impacto significativo en la precisión de los modelos de pronóstico. Estos valores extremos pueden distorsionar las tendencias y patrones subyacentes en los datos, lo que dificulta la capacidad del modelo para realizar pronósticos precisos.
Por último, se procede a reajustar los mejores modelos para cada serie y realizar un pronóstico de 12 meses.
Todos los modelos empleados permiten extraer los valores ajustados del modelo. Estos valores ajustados representan la estimación del modelo de la serie de tiempo. Los residuos del modelo, representan la diferencia entre los valores reales y los valores ajustados, y se utilizan para verificar si el modelo captura adecuadamente la estructura de la serie de tiempo. Un buen modelo debería tener residuos con propiedades estadísticas deseables, como ser cercanos a cero, no mostrar patrones claros y ser independientes y homocedásticos.
Se observan muy buenos gráficos de residuos en algunas categorías, como es el caso de “Salud”, “Equipamiento del Hogar” y “Transporte”. Estos gráficos muestran una distribución de residuos homogénea y sin patrones evidentes, lo cual indica que el modelo está capturando adecuadamente la variabilidad de los datos en estas categorías.
Por otro lado, se identifican algunos gráficos que muestran un patrón que alerta de un problema de heterocedasticidad en el modelo. Estas categorías incluyen “Comunicaciones” y “Alquiler de Viviendas”. En estos casos, se observa que la dispersión de los residuos varía a lo largo del tiempo, lo cual indica que la varianza de los errores no es constante.
Este problema de heterocedasticidad puede afectar la validez de las inferencias y los pronósticos realizados con el modelo. Para solucionar este problema, se pueden aplicar técnicas como la transformación de los datos o el uso de modelos específicos para datos heterocedásticos, como los modelos Garch.