2025-11-07
Este projeto foi desenvolvido utilizando o conjunto de dados brvehins1a do pacote CASdatasets. Trata-se de um conjunto de dados baseado no AUTOSEG, que contém informações de apólices de seguros disponíveis no site da SUSEP. Os dados foram coletados em 2013 e incluem variáveis relacionadas ao risco e ao histórico de sinistros.
Para a realização deste projeto, foram utilizadas as bibliotecas ggplot2, dplyr, gridExtra, rnaturalearth, rnaturalearthdata e sf.
Removi registros com valores ausentes em variáveis essenciais.
Excluí observações com Gender = Corporate, pois o foco era Masculino e Feminino.
Corrigi anos de veículo inválidos (anos 0 ou irreais), usei 1950 como mínimo.
Eliminei prêmios inconsistentes (prêmio > sum insured, prêmio 0/1).
Criei uma base geográfica com coordenadas para gerar mapas por estado.
Calculei frequência e severidade (somente sinistros pagos) para facilitar a análise descritiva para a proxima etapa.
## O Premio media é $ 2709.74
A análise mostrou que colisões parciais têm alta frequência e baixa severidade. Esses eventos representam um grande parte dos sinistros pequenos e recorrentes. Tambem vimos que o premio medio é bem alto. Para criar planos mais accessivies vou:
## Usando o 75º percentil, o maximo que vai ser pagado é: $ 6930.5
## Usando o 90º percentil, o maximo que vai ser pagado é: $ 14765.6
## Usando o 99º percentil, o maximo que vai ser pagado é: $ 56698.84
\[ \text{Frequência Observada} \;=\; \frac{\text{Número de Sinistros}}{\text{Exposição}} \] - A severidade observada é dada por:
\[ \text{Severidade Observada} \;=\; \frac{\text{Custo Total dos Sinistros}}{\text{Número de Sinistros}} \]
Dois modelos foram ajustados com base nas variáveis identificadas na análise descritiva. O primeiro é um modelo aditivo (sem interação) e o segundo inclui um termo de interação entre as variáveis. Ambos utilizam a família Poisson.
A dispersão estimada para os dois modelos foi estatisticamente diferente de 1, variando entre 1,092 e 1,096. No entanto, como o desvio foi pequeno, optei por manter o modelo Poisson em vez de utilizar o quasi-Poisson.
modelo 1: glm(formula = ClaimNbColl ~ DrivAge + Gender + Vehicle_Age_Group + offset(log(ExposTotal)), family = poisson, data = dados)
modelo 2: glm(formula = ClaimNbColl ~ DrivAge * Gender + Vehicle_Age_Group + offset(log(ExposTotal)), family = poisson, data = dados)
## AIC do modelo sem interacao: 198650.5
## AIC do modelo com interacao: 198435.2
Call:
glm(formula = ClaimNbColl ~ DrivAge * Gender + Vehicle_Age_Group +
offset(log(ExposTotal)), family = poisson, data = dados)
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -2.239850 0.027987 -80.031 < 2e-16 ***
DrivAge26-35 -0.297737 0.031502 -9.451 < 2e-16 ***
DrivAge36-45 -0.107415 0.030056 -3.574 0.000352 ***
DrivAge46-55 -0.251041 0.031186 -8.050 8.29e-16 ***
DrivAge>55 -0.347864 0.032065 -10.849 < 2e-16 ***
GenderMale 0.394759 0.035935 10.986 < 2e-16 ***
Vehicle_Age_Group6-10 -0.204576 0.009888 -20.689 < 2e-16 ***
Vehicle_Age_Group11-15 -0.438440 0.015573 -28.154 < 2e-16 ***
Vehicle_Age_Group16-20 -0.811787 0.031817 -25.514 < 2e-16 ***
Vehicle_Age_Group20+ -1.200602 0.087702 -13.690 < 2e-16 ***
DrivAge26-35:GenderMale -0.203462 0.041545 -4.897 9.71e-07 ***
DrivAge36-45:GenderMale -0.288139 0.039363 -7.320 2.48e-13 ***
DrivAge46-55:GenderMale -0.470603 0.041117 -11.445 < 2e-16 ***
DrivAge>55:GenderMale -0.472802 0.041739 -11.328 < 2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
(Dispersion parameter for poisson family taken to be 1)
Null deviance: 128658 on 279355 degrees of freedom
Residual deviance: 125190 on 279342 degrees of freedom
AIC: 198435
Number of Fisher Scoring iterations: 6
## (Intercept) DrivAge26-35 DrivAge36-45 ## 0.1064744 0.7424965 0.8981531 ## DrivAge46-55 DrivAge>55 GenderMale ## 0.7779902 0.7061947 1.4840263 ## Vehicle_Age_Group6-10 Vehicle_Age_Group11-15 Vehicle_Age_Group16-20 ## 0.8149931 0.6450419 0.4440638 ## Vehicle_Age_Group20+ DrivAge26-35:GenderMale DrivAge36-45:GenderMale ## 0.3010131 0.8159009 0.7496575 ## DrivAge46-55:GenderMale DrivAge>55:GenderMale ## 0.6246254 0.6232533
Tentei modelar 4 modelos diferentes com gamma e com lognormal.
Usei variaveis como Soma do Valor Segurado, Idade do Veiculo, e Genero para modelar a frequencia.
No final escholhi o modelo com o menor AIC que era este gama:
modelo_8s <- glm(ClaimAmountColl ~ SumInsAvg * Vehicle_Age_Group + Gender, data = sev_data, family = Gamma(link = “log”))
Call:
glm(formula = ClaimAmountColl ~ SumInsAvg * Vehicle_Age_Group +
Gender, family = Gamma(link = "log"), data = sev_data)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 8.356e+00 2.806e-02 297.752 < 2e-16 ***
SumInsAvg 9.895e-06 5.312e-07 18.627 < 2e-16 ***
Vehicle_Age_Group6-10 -2.270e-01 3.637e-02 -6.240 4.44e-10 ***
Vehicle_Age_Group11-15 -3.392e-01 5.554e-02 -6.106 1.03e-09 ***
Vehicle_Age_Group16-20 -4.502e-01 8.031e-02 -5.606 2.09e-08 ***
Vehicle_Age_Group20+ -9.146e-01 2.002e-01 -4.568 4.95e-06 ***
GenderMale 1.423e-01 1.674e-02 8.503 < 2e-16 ***
SumInsAvg:Vehicle_Age_Group6-10 7.144e-06 8.216e-07 8.694 < 2e-16 ***
SumInsAvg:Vehicle_Age_Group11-15 7.410e-06 2.128e-06 3.483 0.000496 ***
SumInsAvg:Vehicle_Age_Group16-20 1.013e-05 3.597e-06 2.817 0.004854 **
SumInsAvg:Vehicle_Age_Group20+ 3.254e-05 1.030e-05 3.158 0.001590 **
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
(Dispersion parameter for Gamma family taken to be 2.098383)
Null deviance: 45855 on 30446 degrees of freedom
Residual deviance: 41573 on 30436 degrees of freedom
AIC: 594859
Number of Fisher Scoring iterations: 9
## (Intercept) SumInsAvg ## 4256.1431328 1.0000099 ## Vehicle_Age_Group6-10 Vehicle_Age_Group11-15 ## 0.7969563 0.7123566 ## Vehicle_Age_Group16-20 Vehicle_Age_Group20+ ## 0.6375027 0.4006729 ## GenderMale SumInsAvg:Vehicle_Age_Group6-10 ## 1.1529197 1.0000071 ## SumInsAvg:Vehicle_Age_Group11-15 SumInsAvg:Vehicle_Age_Group16-20 ## 1.0000074 1.0000101 ## SumInsAvg:Vehicle_Age_Group20+ ## 1.0000325
\[ \text{Prêmio Puro} = \text{Frequência Esperada} \times \text{Severidade Esperada} \]
## Gender pure_premium_1 pure_premium_2 pure_premium_3 ## 1 Female $401.63 $449.28 $480.20 ## 2 Male $463.68 $565.74 $654.17
## DrivAge pure_premium_1 pure_premium_2 pure_premium_3 ## 1 18-25 $669.82 $734.52 $768.73 ## 2 26-35 $442.70 $516.66 $569.21 ## 3 36-45 $500.93 $608.15 $710.15 ## 4 46-55 $385.76 $458.75 $517.37 ## 5 >55 $337.80 $398.59 $443.79
## Vehicle_Age_Group pure_premium_1 pure_premium_2 pure_premium_3 ## 1 0-5 $593.56 $718.07 $791.42 ## 2 6-10 $443.29 $524.79 $604.75 ## 3 11-15 $278.31 $295.95 $317.69 ## 4 16-20 $158.19 $170.73 $196.81 ## 5 20+ $ 95.39 $125.05 $200.38
## Gender DrivAge pure_premium_1 pure_premium_2 pure_premium_3 ## 1 Female 18-25 $499.63 $525.53 $538.78 ## 2 Male 18-25 $818.59 $917.21 $969.74 ## 3 Female 26-35 $380.08 $423.65 $450.26 ## 4 Male 26-35 $495.95 $595.76 $670.38 ## 5 Female 36-45 $453.68 $521.15 $571.79 ## 6 Male 36-45 $538.34 $677.02 $819.67 ## 7 Female 46-55 $386.72 $433.78 $462.08 ## 8 Male 46-55 $385.03 $477.65 $559.22 ## 9 Female >55 $340.16 $377.06 $398.28 ## 10 Male >55 $336.21 $413.09 $474.44