Backtesting Seguro

Base: CEN-VIDA

Tábata de Bem

maio/2020

Introdução

Enquanto muitos trabalhos atuariais no Reino Unido no setor de seguros gerais se concentraram na reserva e análise de sinistros que usa a metodologia de modelo linear e regressão, séries temporais receberam pouca atenção e não há documentos para descrever como essa importante metodologia pode ser usada. Mas onde há sazonalidade e correlação serial com uma tendência aparente ao longo do tempo, essa é a metodologia mais apropriada a ser usada.

Manipulação da base

IBNR Observado

## # A tibble: 6 x 1
##   `(B) IBNR Observada`
##                  <dbl>
## 1             3154464.
## 2             3451394.
## 3             3731623.
## 4             3503341.
## 5             3437600.
## 6             3228292.

Histórico Completo

Histórico já maturado

A partir de agora o período considerado será Jan/2015 - Dez/2018. O IBNR observado entre janeiro e abril de 2019 será utilizado para predição.

##          Jan     Feb     Mar     Apr     May     Jun     Jul     Aug     Sep
## 2015 3154464 3451394 3731623 3503341 3437600 3228292 3064548 3549735 3642279
## 2016 3353698 3306838 3141723 3218699 3787588 3521112 3811728 3764205 3777368
## 2017 2967175 2931473 2835832 2652512 2728028 2617383 2999489 3980073 5117489
## 2018 4815547 5181358 5654935 5612329 5736020 5728878 6176667 4962486 4723173
##          Oct     Nov     Dec
## 2015 3738368 3383054 3176956
## 2016 3416496 3165085 3091996
## 2017 5021981 5010368 5019216
## 2018 4230716 3453351 3782207
##          Jan     Feb     Mar     Apr
## 2019 4068577 3212397 3462058 3104446

## 
##  Augmented Dickey-Fuller Test
## 
## data:  ibnrobs_mat
## Dickey-Fuller = -2.4629, Lag order = 3, p-value = 0.3892
## alternative hypothesis: stationary

Tendência levemente crescente e variação não constante. Podemos corrigir tomando a primeira diferença do log da série.

Pelo teste da raiz unitária de Dickey-Fuller, não rejeitamos \(H_0\) (p-valor=0.3892), ou seja, os dados não são estacionários.

A ACF contém os valores de autocorrelação em função do intervalo de tempo (lag) em que foi calculado. A PACF têm como objetivo filtrar correlações de outros lags e manter apenas a correlação pura entre duas observações. Os gráficos permitem identificar o número de termos autorregressivos e/ou de médias móveis que são necessários.

Função de Autocorrelação (ACF): estrutura de autocorrelacao forte que vai decaindo vagarosamente ao longo do tempo.

Decomposição Sazonal

Identificando o Modelo

Tomando a primeira diferença do log da série.

## [1] 0.003861467

O gráfico tem alguns picos mas nenhum significativo, sendo a maioria das autocorrelações próximas de zero. A média 0.00386 que fica muito próxima de zero, indica que o modelo é estacionário.

Modelagem

Ajustando um SARIMA(1,1,0)(0,1,1)12

## 
## Call:
## arima(x = ibnrobs_mat, order = c(1, 1, 0), seasonal = list(order = c(0, 1, 1), 
##     period = 12))
## 
## Coefficients:
##          ar1     sma1
##       0.2723  -0.9987
## s.e.  0.1624   0.9911
## 
## sigma^2 estimated as 1.453e+11:  log likelihood = -507.63,  aic = 1021.27
## 
##  Augmented Dickey-Fuller Test
## 
## data:  r1
## Dickey-Fuller = -3.3664, Lag order = 3, p-value = 0.07241
## alternative hypothesis: stationary
## 
##  Box-Pierce test
## 
## data:  r1
## X-squared = 9.7829, df = 10, p-value = 0.4597

Ajustando um SARIMA(0,1,1)(1,0,1)12

## 
## Call:
## arima(x = ibnrobs_mat, order = c(1, 1, 0), seasonal = list(order = c(1, 0, 1), 
##     period = 12))
## 
## Coefficients:
##          ar1     sar1    sma1
##       0.1428  -0.9441  0.8295
## s.e.  0.1532   0.4557  0.7878
## 
## sigma^2 estimated as 1.291e+11:  log likelihood = -669.48,  aic = 1346.96
## 
##  Augmented Dickey-Fuller Test
## 
## data:  r2
## Dickey-Fuller = -3.1601, Lag order = 3, p-value = 0.1108
## alternative hypothesis: stationary
## 
##  Box-Pierce test
## 
## data:  r2
## X-squared = 4.9971, df = 10, p-value = 0.8914

No teste de Ljung-Box (uma generalização do teste de Box-Pierce), a hipótese nula afirma que as autocorrelações até lag k são iguais a zero (ou seja, os valores dos dados são aleatórios e independentes até um certo número de lags). Se os valores tiverem uma dependência com seus antecessores (autocorrelação), isso pode reduzir a precisão de um modelo preditivo baseado no tempo e levar a uma interpretação incorreta dos dados.

O teste de Box e Pierce para os resíduos dos modelos 1 (p-valor=0.4597) e 2 (p-valor=0.8914) não rejeita a hipótese nula de independência dos resíduos, ou seja, eles tem comportamento de RB e concluímos que o modelo ajustado é adequado . Ao passo que quando testamos a estacionariedade dos resíduos, ambos não rejeitam a hipótese de não estacionariedade.

O modelo 1 apresentou um \(AIC_1 = 1021.27\), já o modelo 2 apresentou uma estimativa um pouco mais elevada, \(AIC_2 = 1346.96\).

Análise Gráfica

A autocorrelação positiva é identificada por um agrupamento de resíduos com o mesmo sinal; a negativa é identificada por rápidas mudanças nos sinais de resíduos consecutivos. O ideal é todos os lags (exceto 0, que sempre vai ser igual a 1) tenham valores dentro do intervalo de confiança, ou seja próximos de zero, e sem tendências.

## 
##  Shapiro-Wilk normality test
## 
## data:  r1
## W = 0.83905, p-value = 1.128e-05

## 
##  Shapiro-Wilk normality test
## 
## data:  r2
## W = 0.96353, p-value = 0.1402

O teste de Shapiro wilk para os resíduos não rejeita \(H_0\) para o modelo 2. Através do gráfico de auto correlação dos resíduos, podemos notar que existem poucas correlações significativas para ambos os modelos, que é um resultado razoável.

Predição

Valores pretitos do modelo 1.

##          [,1]      [,2]      [,3]    [,4]
## pred1 3858022 3985087.9 4063168.5 4012186
## se1    438849  718269.6  963352.3 1174629

Valores pretitos do modelo 2.

##            [,1]      [,2]      [,3]      [,4]
## pred2 3823846.4 3766376.8 3697690.3 3674017.4
## se2    364842.8  550218.9  694195.5  821390.6

IC95% para Predição do modelo 1

IC95% para Predição do modelo 2

DB test

## 
##  Diebold-Mariano Test
## 
## data:  res1res2
## DM = 2.5367, Forecast horizon = 1, Loss function power = 2, p-value =
## 0.08492
## alternative hypothesis: two.sided

O teste de Diebold-Mariano não rejeita a hipótese nula de que os modelos diferem entre si.

Predição próximos meses do modelo 2

Naïve

##          Point Forecast   Lo 80   Hi 80   Lo 95   Hi 95
## Jan 2019        3823846 3356282 4291411 3108768 4538925
## Feb 2019        3809646 3101609 4517683 2726797 4892496
## Mar 2019        3778901 2887726 4670077 2415966 5141837
## Apr 2019        3731235 2687904 4774566 2135598 5326872
## May 2019        3654397 2478346 4830447 1855783 5453011
## Jun 2019        3650022 2354769 4945275 1669104 5630941
## Jul 2019        3586051 2181676 4990426 1438244 5733858
## Aug 2019        3929385 2423775 5434994 1626754 6232016
## Sep 2019        4109802 2509349 5710256 1662120 6557485
## Oct 2019        4215967 2525984 5905951 1631361 6800574
## Nov 2019        4314862 2539855 6089868 1600224 7029500
## Dec 2019        4256806 2400645 6112967 1418053 7095560
##          Jan     Feb     Mar     Apr     May     Jun     Jul     Aug     Sep
## 2015 3151310 3173771 3506957 3756793 3468908 3417149 3190995 3069309 3620304
## 2016 3150876 3318163 3247819 3174433 3255785 3895938 3520914 3750096 3753547
## 2017 3043135 3006898 2987458 2760153 2529959 2763625 2534967 3168420 4143179
## 2018 5061704 4749509 5203163 5792699 5671772 5749467 5735540 6008093 4638521
##          Oct     Nov     Dec
## 2015 3660057 3731505 3322577
## 2016 3750240 3430644 3159302
## 2017 5347600 4985067 4990580
## 2018 4661913 4167950 3362229