2025-11-07

Introdução

Introdução

Este projeto foi desenvolvido utilizando o conjunto de dados brvehins1a do pacote CASdatasets. Trata-se de um conjunto de dados baseado no AUTOSEG, que contém informações de apólices de seguros disponíveis no site da SUSEP. Os dados foram coletados em 2013 e incluem variáveis relacionadas ao risco e ao histórico de sinistros.

Para a realização deste projeto, foram utilizadas as bibliotecas ggplot2, dplyr, gridExtra, rnaturalearth, rnaturalearthdata e sf.

Processo de limpeza dos dados

  • Removi registros com valores ausentes em variáveis essenciais.

  • Excluí observações com Gender = Corporate, pois o foco era Masculino e Feminino.

  • Corrigi anos de veículo inválidos (anos 0 ou irreais), usei 1950 como mínimo.

  • Eliminei prêmios inconsistentes (prêmio > sum insured, prêmio 0/1).

  • Criei uma base geográfica com coordenadas para gerar mapas por estado.

  • Calculei frequência e severidade (somente sinistros pagos) para facilitar a análise descritiva para a proxima etapa.

Análise Descritiva

Distribuição de Gênero e Idade

Distribuição da Idade do Veículo

Distribuição por Estado

Frequências e Severidades Médias por Categoria

##  O Premio media é $ 2709.74

Objetivo

A análise mostrou que colisões parciais têm alta frequência e baixa severidade. Esses eventos representam um grande parte dos sinistros pequenos e recorrentes. Tambem vimos que o premio medio é bem alto. Para criar planos mais accessivies vou:

  • Criar um produto que cobre apenas colisões, com limites de indenização definidos por faixa de cobertura.

Distribuição dos Sinistros de Colisão

## Usando o 75º percentil, o maximo que vai ser pagado é: $ 6930.5
## Usando o 90º percentil, o maximo que vai ser pagado é: $ 14765.6
## Usando o 99º percentil, o maximo que vai ser pagado é: $ 56698.84

Análise de Dados de Colisão

Cálculos

  • A frequência observada é dada por:

\[ \text{Frequência Observada} \;=\; \frac{\text{Número de Sinistros}}{\text{Exposição}} \] - A severidade observada é dada por:

\[ \text{Severidade Observada} \;=\; \frac{\text{Custo Total dos Sinistros}}{\text{Número de Sinistros}} \]

Frequência dos Sinistros de Colisão

Boxplot da Severidade dos Sinistros

Valor Segurado por Gênero, Idade e Veículoo

Mapa da Severidade e Frequência por Estado

Inferência

Modelando Frequência

  • Dois modelos foram ajustados com base nas variáveis identificadas na análise descritiva. O primeiro é um modelo aditivo (sem interação) e o segundo inclui um termo de interação entre as variáveis. Ambos utilizam a família Poisson.

  • A dispersão estimada para os dois modelos foi estatisticamente diferente de 1, variando entre 1,092 e 1,096. No entanto, como o desvio foi pequeno, optei por manter o modelo Poisson em vez de utilizar o quasi-Poisson.

modelo 1: glm(formula = ClaimNbColl ~ DrivAge + Gender + Vehicle_Age_Group + offset(log(ExposTotal)), family = poisson, data = dados)

modelo 2: glm(formula = ClaimNbColl ~ DrivAge * Gender + Vehicle_Age_Group + offset(log(ExposTotal)), family = poisson, data = dados)

## AIC do modelo sem interacao: 198650.5
## AIC do modelo com interacao: 198435.2

Resultados do Modelo

Call:
glm(formula = ClaimNbColl ~ DrivAge * Gender + Vehicle_Age_Group + 
    offset(log(ExposTotal)), family = poisson, data = dados)

Coefficients:
                         Estimate Std. Error z value Pr(>|z|)    
(Intercept)             -2.239850   0.027987 -80.031  < 2e-16 ***
DrivAge26-35            -0.297737   0.031502  -9.451  < 2e-16 ***
DrivAge36-45            -0.107415   0.030056  -3.574 0.000352 ***
DrivAge46-55            -0.251041   0.031186  -8.050 8.29e-16 ***
DrivAge>55              -0.347864   0.032065 -10.849  < 2e-16 ***
GenderMale               0.394759   0.035935  10.986  < 2e-16 ***
Vehicle_Age_Group6-10   -0.204576   0.009888 -20.689  < 2e-16 ***
Vehicle_Age_Group11-15  -0.438440   0.015573 -28.154  < 2e-16 ***
Vehicle_Age_Group16-20  -0.811787   0.031817 -25.514  < 2e-16 ***
Vehicle_Age_Group20+    -1.200602   0.087702 -13.690  < 2e-16 ***
DrivAge26-35:GenderMale -0.203462   0.041545  -4.897 9.71e-07 ***
DrivAge36-45:GenderMale -0.288139   0.039363  -7.320 2.48e-13 ***
DrivAge46-55:GenderMale -0.470603   0.041117 -11.445  < 2e-16 ***
DrivAge>55:GenderMale   -0.472802   0.041739 -11.328  < 2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for poisson family taken to be 1)

    Null deviance: 128658  on 279355  degrees of freedom
Residual deviance: 125190  on 279342  degrees of freedom
AIC: 198435

Number of Fisher Scoring iterations: 6

Interpretação do Modelo

##             (Intercept)            DrivAge26-35            DrivAge36-45 
##               0.1064744               0.7424965               0.8981531 
##            DrivAge46-55              DrivAge>55              GenderMale 
##               0.7779902               0.7061947               1.4840263 
##   Vehicle_Age_Group6-10  Vehicle_Age_Group11-15  Vehicle_Age_Group16-20 
##               0.8149931               0.6450419               0.4440638 
##    Vehicle_Age_Group20+ DrivAge26-35:GenderMale DrivAge36-45:GenderMale 
##               0.3010131               0.8159009               0.7496575 
## DrivAge46-55:GenderMale   DrivAge>55:GenderMale 
##               0.6246254               0.6232533

Modelando Severidade

  • Tentei modelar 4 modelos diferentes com gamma e com lognormal.

  • Usei variaveis como Soma do Valor Segurado, Idade do Veiculo, e Genero para modelar a frequencia.

  • No final escholhi o modelo com o menor AIC que era este gama:

modelo_8s <- glm(ClaimAmountColl ~ SumInsAvg * Vehicle_Age_Group + Gender, data = sev_data, family = Gamma(link = “log”))

Resultado do Modelo

Call:
glm(formula = ClaimAmountColl ~ SumInsAvg * Vehicle_Age_Group + 
    Gender, family = Gamma(link = "log"), data = sev_data)

Coefficients:
                                   Estimate Std. Error t value Pr(>|t|)    
(Intercept)                       8.356e+00  2.806e-02 297.752  < 2e-16 ***
SumInsAvg                         9.895e-06  5.312e-07  18.627  < 2e-16 ***
Vehicle_Age_Group6-10            -2.270e-01  3.637e-02  -6.240 4.44e-10 ***
Vehicle_Age_Group11-15           -3.392e-01  5.554e-02  -6.106 1.03e-09 ***
Vehicle_Age_Group16-20           -4.502e-01  8.031e-02  -5.606 2.09e-08 ***
Vehicle_Age_Group20+             -9.146e-01  2.002e-01  -4.568 4.95e-06 ***
GenderMale                        1.423e-01  1.674e-02   8.503  < 2e-16 ***
SumInsAvg:Vehicle_Age_Group6-10   7.144e-06  8.216e-07   8.694  < 2e-16 ***
SumInsAvg:Vehicle_Age_Group11-15  7.410e-06  2.128e-06   3.483 0.000496 ***
SumInsAvg:Vehicle_Age_Group16-20  1.013e-05  3.597e-06   2.817 0.004854 ** 
SumInsAvg:Vehicle_Age_Group20+    3.254e-05  1.030e-05   3.158 0.001590 ** 
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for Gamma family taken to be 2.098383)

    Null deviance: 45855  on 30446  degrees of freedom
Residual deviance: 41573  on 30436  degrees of freedom
AIC: 594859

Number of Fisher Scoring iterations: 9

Interpretação do Modelo

##                      (Intercept)                        SumInsAvg 
##                     4256.1431328                        1.0000099 
##            Vehicle_Age_Group6-10           Vehicle_Age_Group11-15 
##                        0.7969563                        0.7123566 
##           Vehicle_Age_Group16-20             Vehicle_Age_Group20+ 
##                        0.6375027                        0.4006729 
##                       GenderMale  SumInsAvg:Vehicle_Age_Group6-10 
##                        1.1529197                        1.0000071 
## SumInsAvg:Vehicle_Age_Group11-15 SumInsAvg:Vehicle_Age_Group16-20 
##                        1.0000074                        1.0000101 
##   SumInsAvg:Vehicle_Age_Group20+ 
##                        1.0000325

Calculando Prêmios

  • O prêmio puro é definido como:

\[ \text{Prêmio Puro} = \text{Frequência Esperada} \times \text{Severidade Esperada} \]

Prêmios Estimados

##   Gender pure_premium_1 pure_premium_2 pure_premium_3
## 1 Female        $401.63        $449.28        $480.20
## 2   Male        $463.68        $565.74        $654.17
##   DrivAge pure_premium_1 pure_premium_2 pure_premium_3
## 1   18-25        $669.82        $734.52        $768.73
## 2   26-35        $442.70        $516.66        $569.21
## 3   36-45        $500.93        $608.15        $710.15
## 4   46-55        $385.76        $458.75        $517.37
## 5     >55        $337.80        $398.59        $443.79

Prêmios Estimados

##   Vehicle_Age_Group pure_premium_1 pure_premium_2 pure_premium_3
## 1               0-5        $593.56        $718.07        $791.42
## 2              6-10        $443.29        $524.79        $604.75
## 3             11-15        $278.31        $295.95        $317.69
## 4             16-20        $158.19        $170.73        $196.81
## 5               20+        $ 95.39        $125.05        $200.38
##    Gender DrivAge pure_premium_1 pure_premium_2 pure_premium_3
## 1  Female   18-25        $499.63        $525.53        $538.78
## 2    Male   18-25        $818.59        $917.21        $969.74
## 3  Female   26-35        $380.08        $423.65        $450.26
## 4    Male   26-35        $495.95        $595.76        $670.38
## 5  Female   36-45        $453.68        $521.15        $571.79
## 6    Male   36-45        $538.34        $677.02        $819.67
## 7  Female   46-55        $386.72        $433.78        $462.08
## 8    Male   46-55        $385.03        $477.65        $559.22
## 9  Female     >55        $340.16        $377.06        $398.28
## 10   Male     >55        $336.21        $413.09        $474.44