Backtesting Seguro

Base: Sabemi Vida

Tábata de Bem

22/julho/2020

Introdução

Enquanto muitos trabalhos atuariais, no setor de seguros gerais, se concentraram na reserva e análise de sinistros usando a metodologia de modelos lineares e regressão, séries temporais acabaram recebendo pouca atenção. Mas onde há sazonalidade e correlação serial, com uma tendência aparente ao longo do tempo, esta é a metodologia mais apropriada a ser usada.

As previsões automáticas de um grande número de séries temporais univariadas são frequentemente necessárias nos negócios. Assim, um algoritmo automático de previsão é uma ferramenta essencial. Eles devem determinar um modelo de série temporal apropriado, estimar os parâmetros e calcular as previsões. Além disso, devem ser robustos a padrões incomuns de séries temporais e aplicável a um grande número de séries sem intervenção do usuário. (Hyndman, R.J. and Khandakar, Y., 2007. Automatic time series for forecasting: the forecast package for R (No. 6/07). Clayton VIC, Australia: Monash University, Department of Econometrics and Business Statistics.)

O algoritmo de previsão automática utilizado aqui deriva de modelos ARIMA e pode ser encontrado maiores informaçõe em forecast::JSS2008.

Leitura e manipulação da base

## # A tibble: 6 x 3
##   `Data Base`         `(A) IBNR Registrada` `(B) IBNR Observada`
##   <dttm>                              <dbl>                <dbl>
## 1 2019-12-31 00:00:00              1838318.                   0 
## 2 2019-11-30 00:00:00              1811389.              262731.
## 3 2019-10-31 00:00:00              1815652.              465717.
## 4 2019-09-30 00:00:00              1804961.              914309.
## 5 2019-08-31 00:00:00              1785065.             1642991.
## 6 2019-07-31 00:00:00              1794833.             2011723.

Histórico Completo

Histórico já maturado

## 
##  Augmented Dickey-Fuller Test
## 
## data:  ibnrobs_pred
## Dickey-Fuller = -3.0767, Lag order = 3, p-value = 0.1441
## alternative hypothesis: stationary

Tendência levemente crescente e variação não constante. Podemos corrigir tomando a primeira diferença do log da série.

Pelo teste da raiz unitária de Dickey-Fuller, não rejeitamos \(H_0\) (p-valor=0.1441), ou seja, os dados não são estacionários.

ACF e PACF plots

A ACF contém os valores de autocorrelação em função do intervalo de tempo (lag) em que foi calculado. A PACF têm como objetivo filtrar correlações de outros lags e manter apenas a correlação pura entre duas observações. Os gráficos permitem identificar o número de termos autorregressivos e/ou de médias móveis que são necessários.

Decomposição Sazonal

O algoritmo

O objetivo é percorrer todos os espaços dos modelos de maneira eficiente, para chegar em um que estime o menor valor de AIC. Então o algoritmo da função segue da seguinte maneira: sempre que um modelo com AIC mais baixo é encontrado, ele se torna o novo modelo “atual” e o procedimento é repetido. Esse processo termina quando não for mais encontrado um modelo próximo ao atual com AIC mais baixo.

Quanto às restrições nos modelos ajustados com os problemas com convergência ou próximas de raízes unitárias, é garantido que o algoritmo retorne um modelo válido porque o espaço é limitado e pelo menos um dos modelos iniciais será aceito (o modelo sem parâmetros AR ou MA).

Por fim, o modelo selecionado é usado para produzir previsões.

Modelagem

Ajustando um modelo automático ARIMA(p,d,q)(P,D,Q)[12]

## Series: ibnrobs_pred 
## ARIMA(1,1,2) 
## 
## Coefficients:
##          ar1      ma1     ma2
##       0.5193  -0.4188  0.4143
## s.e.  0.2244   0.2089  0.2048
## 
## sigma^2 estimated as 6.834e+10:  log likelihood=-651.69
## AIC=1311.38   AICc=1312.34   BIC=1318.79
## 
##  Augmented Dickey-Fuller Test
## 
## data:  r1
## Dickey-Fuller = -3.3796, Lag order = 3, p-value = 0.07038
## alternative hypothesis: stationary
## 
##  Box-Pierce test
## 
## data:  r1
## X-squared = 5.6039, df = 10, p-value = 0.8474

É garantido que o algoritmo retorne um modelo válido porque o espaço do modelo é finito e, pelo menos um dos modelos iniciais será aceito (o modelo sem parâmetros AR ou MA). O modelo selecionado é usado para produzir previsões.

Ao testarmos a estacionariedade dos resíduos através do teste de Dickey-Fuller, ficou evidenciado que a hipótese de não estacionariedade não foi rejeitada.

No teste de Box-Pierce, a hipótese nula afirma que as autocorrelações até lag k são iguais a zero (ou seja, os valores dos dados são aleatórios e independentes até um certo número de lags). Se os valores tiverem uma dependência com seus antecessores (autocorrelação), isso pode reduzir a precisão de um modelo preditivo baseado no tempo e levar a uma interpretação viesada dos dados.

Assim, o teste de Box e Pierce para os resíduos dos modelo não rejeita a hipótese nula de independência dos resíduos (p-valor=0.8474), ou seja, eles tem comportamento de RB e concluímos que o modelo ajustado é adequado.

Além disso, o modelo apresentou um \(AIC = 1311.38\).

Inputs para Predição

Aqui é preciso indicar quais foram as componentes geradas automaticamente através da função na chunk anterior, para alimentar os parâmetros da função de predição.

Análise Gráfica

A autocorrelação positiva é identificada por um agrupamento de resíduos com o mesmo sinal; a negativa é identificada por rápidas mudanças nos sinais de resíduos consecutivos. O ideal é todos os lags (exceto 0, que sempre vai ser igual a 1) tenham valores dentro do intervalo de confiança, ou seja próximos de zero, e sem tendências.

Predição meses observados

Janeiro até último mês já maturado

##            [,1]      [,2]      [,3]      [,4]      [,5]    [,6]    [,7]    [,8]
## pred1 1923721.4 1825380.0 1769679.0 1814940.0 1794970.1 1777877 1744634 1744048
## se1    248942.9  376138.8  553735.8  713726.1  878344.4 1010101 1137843 1265344

IC95% para Predição do modelo

Predição próximos meses do modelo

Os intervalos de previsão são, por default, calculados para cobertura de \(80\%\) e \(95\%\)%, embora outros valores sejam possíveis, se solicitados.

##          Point Forecast      Lo 80   Hi 80       Lo 95   Hi 95
## Jan 2019        1924141 1589115.08 2259168  1411762.82 2436520
## Feb 2019        1827181 1329026.21 2325336  1065318.99 2589043
## Mar 2019        1776834 1053160.12 2500508   670070.19 2883598
## Apr 2019        1750692  806755.81 2694627   307066.35 3194317
## May 2019        1737117  592054.81 2882179   -14104.55 3488339
## Jun 2019        1730069  403358.69 3056778  -298959.07 3759096
## Jul 2019        1726409  234932.01 3217885  -554607.96 4007425
## Aug 2019        1724508   82278.27 3366738  -787065.67 4236082
## Sep 2019        1723521  -57926.11 3504969 -1000967.38 4448010
## Oct 2019        1723009 -188113.63 3634131 -1199800.76 4645818
## Nov 2019        1722743 -310079.65 3755565 -1386190.84 4831676
## Dec 2019        1722605 -425170.79 3870380 -1562134.43 5007344

Podemos observar que os resultados das previsões para o ano de 2019 estão bem ajustados. Visto que o modelo gerou estimativas médias e intervalares adequadas ao que foi observado no período já maturado (janeiro a agosto), ele também reflete uma espectativa média coerente com o esperado para o período em maturação.

Ainda assim, é importante ressaltar que esta metodologia foi aplicada para outras bases de dados de Previdência, Vida e Pecúlio (Centauro, Prevmil e SCM) e também gerou resultados consistentes (com excessão de séries que sejam RB, onde as previsões são a própria média do histórico, e acaba não sendo útil na prática).