Introdução

Em matéria de precificação de seguros, as companhias estão sempre procurando novas técnicas para entregar prêmios de seguro ao consumidor que sejam coerentes e adequados.

O desafio permanente é encontrar um modelo de precificação que:

Nós temos uma série de métodos que entregam essas precificações, quase sempre pautadas unicamente pela conjuntura financeira da companhia, mais notadamente os métodos de prêmio de risco e de rateio proporcional simples das perdas.

Mas e se nós pudéssemos usar dados de seguros já emitidos para criar nossos prêmios futuros, sem a necessidade de construir modelos complexos do zero?

Com o rico universo de dados de apólices emitidas que temos à disposição graças ao portal de dados abertos da SUSEP, isso é possível.

Esse estudo visa mostrar um possível método de precificação de Seguro Auto, que leva em consideração dados de prêmios de apólices já emitidas por outras companhias de seguros.

Vamos usar a regressão linear multinomial para criar esse modelo.

Preparando o dataset

O dataset utilizado tem como fonte o sistema Autoseg da SUSEP, cujo acesso pode ser feito clicando aqui.

Dentro desse dataset, já pré-processado e com os devidos ajustes, temos os seguintes campos:

str(dataset_autoseg)
## 'data.frame':    3244940 obs. of  20 variables:
##  $ categoria_veiculo: chr  "Outros" "Passeio nacional" "Passeio nacional" "Passeio nacional" ...
##  $ regiao           : chr  "SP - Met. de São Paulo" "RS - Demais regiões" "PE - Pernambuco" "GO - Goiás" ...
##  $ idade            : chr  "Não informada" "Maior que 55 anos" "Entre 26 e 35 anos" "Maior que 55 anos" ...
##  $ cod_modelo       : chr  "515153-8" "025081-3" "004318-4" "004354-0" ...
##  $ ano_modelo       : int  2014 2006 2014 2011 1999 2021 2019 2016 2013 2019 ...
##  $ sexo             : chr  "J" "F" "F" "F" ...
##  $ exposicao1       : num  16.822 0.734 0.504 0.403 0.507 ...
##  $ premio1          : num  20984 421 310 257 947 ...
##  $ is_media         : num  24936 11707 17904 22637 53465 ...
##  $ freq_sin1        : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ indeniz1         : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ freq_sin2        : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ indeniz2         : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ freq_sin3        : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ indeniz3         : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ freq_sin4        : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ indeniz4         : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ freq_sin9        : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ indeniz9         : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ envio            : chr  "2021A" "2021A" "2021A" "2021A" ...

A definição de exposição, de acordo com a documentação oficial da SUSEP, é a seguinte:

“O conceito de exposição leva em conta o tempo em que cada apólice esteve vigente, dentro da janela de observação, que é o período semestral abrangido em cada atualização do Autoseg.”

Tomando conhecimento desse importante conceito, vamos primeiramente normalizar o prêmio cobrado em cada apólice, dividindo o prêmio da apólice pela dado da exposição. Dessa forma, todos os prêmios estarão na mesma escala.

dataset_autoseg <- dataset_autoseg %>%
  mutate(premio_normalizado = round(premio1 / exposicao1, digits = 2))

Seleção das variáveis

Quais variáveis vamos selecionar para o modelo?

De acordo com as boas práticas dos modelos de regressão, é adequado que verifiquemos a correlação entre as nossas variáveis, de forma a selecionar as variáveis que melhor se relacionam com a variável que é o objetivo da nossa predição.

No entanto, já temos como dado da realidade a influência do perfil do condutor, localização e de seu respectivo veículo na formação do prêmio, não parecendo necessária essa etapa de avaliação das variáveis.

Vamos selecionar o modelo do veículo?

O modelo do veículo poderia fazer parte do modelo de regressão, mas como temos um enorme universo de veículos possíveis, isso acarretaria em uma complexidade elevada e desnecessária ao modelo, tornando-o muito pesado e caro do ponto de vista computacional.

Para incluirmos variáveis que correspondam ao veículo e assim ponderarmos isso na construção do modelo, vamos considerar a categoria tarifária que o mesmo faz parte e a IS média da apólice.

Selecionaremos então as variáveis:

  • Categoria do veículo;

  • Ano do veículo;

  • Importância Segurada Média (Valor referenciado ou determinado do veículo segurado);

  • Região de circulação;

  • Idade do condutor;

  • Sexo do condutor.

Seleção do dataset de treino

Para evitarmos potenciais ruídos na nossa precificação, vamos considerar para o nosso treino do modelo apenas as apólices com todos os dados preenchidos no perfil.

Eliminaremos as observações com idade “Não informada” e sexo “0” (codificação para “Indefinido”, de acordo com a documentação da SUSEP).

Para tornar o modelo mais simples para ilustrar o nosso estudo, vamos considerar também apenas as apólices com veículos de 2010 em diante, como uma espécie de política de aceitação pré-definida por uma companhia de seguros.

dataset_treino <- dataset_autoseg %>%
  filter(idade != "Não informada" & sexo != "0") %>%
  filter(ano_modelo >= 2010) %>%
  select(categoria_veiculo, ano_modelo, is_media, regiao, idade, sexo, premio_normalizado) %>%
  mutate(ano_modelo = as.factor(ano_modelo)) %>%
  drop_na()

head(dataset_treino)
##                categoria_veiculo ano_modelo  is_media
## 1               Passeio nacional       2014  17904.00
## 2               Passeio nacional       2011  22637.00
## 3 Pick-up (nacional e importado)       2021 232207.01
## 4 Pick-up (nacional e importado)       2013  47854.00
## 5               Passeio nacional       2016  44837.20
## 6               Passeio nacional       2013  36757.59
##                                          regiao              idade sexo
## 1                               PE - Pernambuco Entre 26 e 35 anos    F
## 2                                    GO - Goiás  Maior que 55 anos    F
## 3                           RS - Demais regiões  Maior que 55 anos    F
## 4                          SP - Grande Campinas Entre 26 e 35 anos    F
## 5                SC - Blumenau e demais regiões Entre 26 e 35 anos    M
## 6 SP - Ribeirão Preto e Demais Mun. de Campinas Entre 46 e 55 anos    M
##   premio_normalizado
## 1             614.32
## 2             638.25
## 3            7898.01
## 4            1756.97
## 5            1402.10
## 6             964.61

Treino do Modelo

Vamos criar o modelo, usando a função lm, que vai fazer o fit dos dados considerando uma distribuição gaussiana.

modelo_precificacao <- lm(premio_normalizado ~ ., data = dataset_treino)

Definição dos nossos perfis de teste

Vamos produzir cotações para alguns perfis da nossa escolha.

dados_perfil <- data.frame(categoria_veiculo = c("Passeio importado", "Passeio nacional", "Pick-up (nacional e importado)"),
                           ano_modelo = c("2016", "2012", "2019"), 
                           is_media = c(60000, 35000, 130000),
                           regiao = c("GO - Goiás", "SP - Met. de São Paulo", "RJ - Met. do Rio de Janeiro"),
                           idade = c("Entre 26 e 35 anos", "Entre 18 e 25 anos", "Entre 36 e 45 anos"),
                           sexo = c("J", "F", "M"))

cotacao <- data.frame(dados_perfil, premio = round(predict(modelo_precificacao, newdata = dados_perfil), digits = 2))

Resultados

De acordo com o nosso modelo de precificação construído fazendo uso da regressão linear, essas são as cotações para os perfis que escolhemos.

print(cotacao)
##                categoria_veiculo ano_modelo is_media
## 1              Passeio importado       2016    60000
## 2               Passeio nacional       2012    35000
## 3 Pick-up (nacional e importado)       2019   130000
##                        regiao              idade sexo  premio
## 1                  GO - Goiás Entre 26 e 35 anos    J 3749.99
## 2      SP - Met. de São Paulo Entre 18 e 25 anos    F 2818.98
## 3 RJ - Met. do Rio de Janeiro Entre 36 e 45 anos    M 5269.54
print(cotacao$premio)
## [1] 3749.99 2818.98 5269.54

Vantagens e Desvantagens dessa abordagem de precificação

Vantagens

A vantagem mais evidente é a simplicidade de construção do modelo e auferição da sua precisão. Os modelos de regressão linear também são de fácil compreensão.

Além disso, temos um universo de prêmios gerado por meio de diversos departamentos atuariais no nosso dataset de treino, cada um com sua abordagem e metodologia.

Estamos compilando toda a diversidade e riqueza de estudos atuariais e experiência de risco de uma série de companhias no nosso modelo.

Outra vantagem a ser apontada é que o nosso prêmio estará em consonância com aquilo que o mercado está praticando. A tendência é que tenhamos um prêmio final competitivo ao consumidor.

Desvantagens

Podemos elencar como desvantagem o fato do modelo não levar em consideração o cenário de sinistralidade da própria companhia seguradora, já que a base de dados usada no treino do modelo usa majoritariamente dados externos a ela, oriundos de concorrentes.

Alguns prêmios entregues pelo modelo podem ser inadequados pela ótica da posição atuarial da companhia, a depender da conjuntura.

Uma solução para contornar esse problema é o estabelecimento de uma tabela de coeficientes de agravo no processo de formação do prêmio, para que se aplique um coeficiente ao prêmio obtido para determinados perfis com alto índice de sinistralidade.