Introdução
Enquanto muitos trabalhos atuariais, no setor de seguros gerais, se concentraram na reserva e análise de sinistros usando a metodologia de modelos lineares e regressão, séries temporais acabaram recebendo pouca atenção. Mas onde há sazonalidade e correlação serial, com uma tendência aparente ao longo do tempo, esta é a metodologia mais apropriada a ser usada.
As previsões automáticas de um grande número de séries temporais univariadas são frequentemente necessárias nos negócios. Assim, um algoritmo automático de previsão é uma ferramenta essencial. Eles devem determinar um modelo de série temporal apropriado, estimar os parâmetros e calcular as previsões. Além disso, devem ser robustos a padrões incomuns de séries temporais e aplicável a um grande número de séries sem intervenção do usuário. (Hyndman, R.J. and Khandakar, Y., 2007. Automatic time series for forecasting: the forecast package for R (No. 6/07). Clayton VIC, Australia: Monash University, Department of Econometrics and Business Statistics.)
O algoritmo de previsão automática utilizado aqui deriva de modelos ARIMA e pode ser encontrado maiores informaçõe em forecast::JSS2008.
Inputs
Leitura e manipulação da base
## # A tibble: 6 x 3
## `Data Base` `(A) IBNR Registrada` `(B) IBNR Observada`
## <dttm> <dbl> <dbl>
## 1 2019-12-31 00:00:00 1838318. 0
## 2 2019-11-30 00:00:00 1811389. 262731.
## 3 2019-10-31 00:00:00 1815652. 465717.
## 4 2019-09-30 00:00:00 1804961. 914309.
## 5 2019-08-31 00:00:00 1785065. 1642991.
## 6 2019-07-31 00:00:00 1794833. 2011723.
#library(lubridate)
# para ts completa
ano_i <- year(Bases_IBNR$`Data Base`[nhist]) #2015
mes_i <- month(Bases_IBNR$`Data Base`[nhist]) #janeiro
ano_f <- year(Bases_IBNR$`Data Base`[1]) #2019
mes_f <- month(Bases_IBNR$`Data Base`[1]) #dezembro
freq <- 12 #mensal
# para predicao
ano_p <- ano_m-1
mes_p <- 12Histórico Completo
Histórico já maturado
##
## Augmented Dickey-Fuller Test
##
## data: ibnrobs_pred
## Dickey-Fuller = -3.0767, Lag order = 3, p-value = 0.1441
## alternative hypothesis: stationary
Tendência levemente crescente e variação não constante. Podemos corrigir tomando a primeira diferença do log da série.
Pelo teste da raiz unitária de Dickey-Fuller, não rejeitamos \(H_0\) (p-valor=0.1441), ou seja, os dados não são estacionários.
ACF e PACF plots
A ACF contém os valores de autocorrelação em função do intervalo de tempo (lag) em que foi calculado. A PACF têm como objetivo filtrar correlações de outros lags e manter apenas a correlação pura entre duas observações. Os gráficos permitem identificar o número de termos autorregressivos e/ou de médias móveis que são necessários.
Decomposição Sazonal
O algoritmo
O objetivo é percorrer todos os espaços dos modelos de maneira eficiente, para chegar em um que estime o menor valor de AIC. Então o algoritmo da função segue da seguinte maneira: sempre que um modelo com AIC mais baixo é encontrado, ele se torna o novo modelo “atual” e o procedimento é repetido. Esse processo termina quando não for mais encontrado um modelo próximo ao atual com AIC mais baixo.
Quanto às restrições nos modelos ajustados com os problemas com convergência ou próximas de raízes unitárias, é garantido que o algoritmo retorne um modelo válido porque o espaço é limitado e pelo menos um dos modelos iniciais será aceito (o modelo sem parâmetros AR ou MA).
Por fim, o modelo selecionado é usado para produzir previsões.
Modelagem
Ajustando um modelo automático ARIMA(p,d,q)(P,D,Q)[12]
## Series: ibnrobs_pred
## ARIMA(1,1,2)
##
## Coefficients:
## ar1 ma1 ma2
## 0.5193 -0.4188 0.4143
## s.e. 0.2244 0.2089 0.2048
##
## sigma^2 estimated as 6.834e+10: log likelihood=-651.69
## AIC=1311.38 AICc=1312.34 BIC=1318.79
##
## Augmented Dickey-Fuller Test
##
## data: r1
## Dickey-Fuller = -3.3796, Lag order = 3, p-value = 0.07038
## alternative hypothesis: stationary
##
## Box-Pierce test
##
## data: r1
## X-squared = 5.6039, df = 10, p-value = 0.8474
É garantido que o algoritmo retorne um modelo válido porque o espaço do modelo é finito e, pelo menos um dos modelos iniciais será aceito (o modelo sem parâmetros AR ou MA). O modelo selecionado é usado para produzir previsões.
Ao testarmos a estacionariedade dos resíduos através do teste de Dickey-Fuller, ficou evidenciado que a hipótese de não estacionariedade não foi rejeitada.
No teste de Box-Pierce, a hipótese nula afirma que as autocorrelações até lag k são iguais a zero (ou seja, os valores dos dados são aleatórios e independentes até um certo número de lags). Se os valores tiverem uma dependência com seus antecessores (autocorrelação), isso pode reduzir a precisão de um modelo preditivo baseado no tempo e levar a uma interpretação viesada dos dados.
Assim, o teste de Box e Pierce para os resíduos dos modelo não rejeita a hipótese nula de independência dos resíduos (p-valor=0.8474), ou seja, eles tem comportamento de RB e concluímos que o modelo ajustado é adequado.
Além disso, o modelo apresentou um \(AIC = 1311.38\).
Inputs para Predição
Aqui é preciso indicar quais foram as componentes geradas automaticamente através da função na chunk anterior, para alimentar os parâmetros da função de predição.
Análise Gráfica
A autocorrelação positiva é identificada por um agrupamento de resíduos com o mesmo sinal; a negativa é identificada por rápidas mudanças nos sinais de resíduos consecutivos. O ideal é todos os lags (exceto 0, que sempre vai ser igual a 1) tenham valores dentro do intervalo de confiança, ou seja próximos de zero, e sem tendências.
Predição meses observados
Janeiro até último mês já maturado
## [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8]
## pred1 1923721.4 1825380.0 1769679.0 1814940.0 1794970.1 1777877 1744634 1744048
## se1 248942.9 376138.8 553735.8 713726.1 878344.4 1010101 1137843 1265344
IC95% para Predição do modelo
Predição próximos meses do modelo
Os intervalos de previsão são, por default, calculados para cobertura de \(80\%\) e \(95\%\)%, embora outros valores sejam possíveis, se solicitados.
## Point Forecast Lo 80 Hi 80 Lo 95 Hi 95
## Jan 2019 1924141 1589115.08 2259168 1411762.82 2436520
## Feb 2019 1827181 1329026.21 2325336 1065318.99 2589043
## Mar 2019 1776834 1053160.12 2500508 670070.19 2883598
## Apr 2019 1750692 806755.81 2694627 307066.35 3194317
## May 2019 1737117 592054.81 2882179 -14104.55 3488339
## Jun 2019 1730069 403358.69 3056778 -298959.07 3759096
## Jul 2019 1726409 234932.01 3217885 -554607.96 4007425
## Aug 2019 1724508 82278.27 3366738 -787065.67 4236082
## Sep 2019 1723521 -57926.11 3504969 -1000967.38 4448010
## Oct 2019 1723009 -188113.63 3634131 -1199800.76 4645818
## Nov 2019 1722743 -310079.65 3755565 -1386190.84 4831676
## Dec 2019 1722605 -425170.79 3870380 -1562134.43 5007344
Podemos observar que os resultados das previsões para o ano de 2019 estão bem ajustados. Visto que o modelo gerou estimativas médias e intervalares adequadas ao que foi observado no período já maturado (janeiro a agosto), ele também reflete uma espectativa média coerente com o esperado para o período em maturação.
Ainda assim, é importante ressaltar que esta metodologia foi aplicada para outras bases de dados de Previdência, Vida e Pecúlio (Centauro, Prevmil e SCM) e também gerou resultados consistentes (com excessão de séries que sejam RB, onde as previsões são a própria média do histórico, e acaba não sendo útil na prática).