Tableau des couts cumulés et le nombre des sinistres:

ChainLadder

Définition:

Cette méthode compte parmi les plus usuelles et sert de référence pour les méthodes déterministes. la facilité de son implémentation et la pertinence de ses résultats l’ a rendu la plus utilisée dans le domaine de calcule de provisionnement.

Hypothèses:

(H1):Les années de survenance sont indépendantes entre elles

(H2):Les années de développement sont des variables explicatives du comportement des paiements futurs

Chain ladder:

Chain ladder:

cette méthode suggère l’estimation des coefficients de passages , ces coefficients sont déterminés comme-suit : \[ \forall 0\leq j\leq n -1,\space \widehat{\lambda} = \frac{\sum_{i=0}^{n - j -1}C_{i,j+1}}{\sum_{i=0}^{n-j-1}C_{i,j} }\]

## $lambda
## [1] 1.000000 1.204371 1.026500 1.032483 1.008358

Résultat de la méthode:

\[ \forall 1\leq i,j\leq n,\space\space C_{i,j} =C_{i,n-i} \prod_{k = n-i}^{j-1}\widehat{\lambda_k} \]

chainLadder

En particulier nous calculons les charges ultimes pour chaque année d’accident : \[\forall i \in (1,2,3,....,n),\space\space C_{i,n}= C_{i,n-i}\prod_{k=n-i}^{n-1}\widehat{\lambda_{k} }\] Finalement , on détermine les provisions par année d’accident: \[P_{i}= C_{i,n}-C_{i,n-i}\]

## $prov_ann
## [1]       0.00   36109.54  304602.14  860934.69 4126243.33

chain ladder

et la provision totale: \[P =\sum_{i =1}^{n}P_i\]

## $prov_CL
## [1] 5327890

Or dans notre cas on a fait un choix d’affecter un montant null pour les provisions négatives ainsi le resèrve corrigé est égale à

## $prevision_c
## [1] 5327890

London chain

La méthode dite London-Chain a été introduite par Benjamin et Eagles pour le calcul des réserves au Lloyd’s en 1986.

\[ \forall 1\leq j\leq n-1 ,\space \space \space \space \space C_{i,j+1} = \lambda_{j}C_{i,j}+\beta_{j}\] \[\widehat{\lambda_{j}}=\frac{\frac{1}{n-j}\sum_{i=0}^{n-j-1}{C_{i,j}C_{i,j+1}-\overline{C_{j}}\space\overline{C_{j+1}}}}{\frac{1}{n-j}\sum_{i =0}^{n-j-1}C_{i,j}^2 -\overline{C_{j}}^2}\]

et \[\widehat{\beta_{j} }=\overline{C_{j+1}}-\lambda_{j}\overline{C_{j}}\]

## $lambda_LC
## [1] 1.166362 1.039111 1.013531 1.008358

London chain

## $beta_LC
## [1] 196884.52 -52222.80  50629.86      0.00

le triangle complet est représenté comme_suit :

London chain

le reserve totale et le reserve totale corrigé sont :

## [1] 4660959
## [1] 4660959

Méthode de Bornhuetter-Ferguson

cette méthode a était devéloppé en 1972 par Bornhuetter-Ferguson, elle se différencie des autres méthodes par l’utilisation d’une information exogène appelée “avis d’expert” pour déterminer l’ultime à priori.

Pour déterminer l’ultime on utilise le formalisme suivant : \[ \forall i \in (1,.....,n),\space\space C_{i,n}=C_{i,n-i+1} +(1 - \gamma_{n-i+1})\tau_{i}\] \(\tau_{i}\) :est un estimateur à priori et \(\gamma_{i} = \frac{1}{\prod_{k=i}^{n}\lambda_{k}}\)

Dans un premier lieu on applique la méthode de chain ladder standard pour avoir les charges ultimes chaine ladder\(\forall i \in(1,........,n),\space\space \ U_{CL_{i}} = C_{i,n}\) Aprés on calcule l’ultime à priori : \(\tau_{i}=(S/P)_{retenu}*P_{i}\)

Méthode de Bornhuetter-Ferguson

Puis on faisant le calcul suivant en multipliant au numérateur et au dénominateur par le même terme on aura :

\(\gamma_{n-i+1}= \frac{1}{\prod_{k=n-i+1}^{n}{\lambda_{k}}}=\frac{C_{i,n-i+1}}{C_{i,n-i+1}*\prod_{k=n-i+1}^{n}{\lambda_{k}}}=\frac{Charge Actuelle}{ultime chain Ladder}\)

Résultat

## $provision
## [1] 5263954
## 
## $part
## [1] 1.0000000 0.9917110 0.9605109 0.9357148 0.7769323
## 
## $ultime_priori
## [1]  1223191  5811594  9586483 13751018 17722121
## 
## $ultime
## [1]  1206425  4368408  7787543 13415469 18324707
## 
## $vecteur_prov
## [1]       0.00   48172.03  378561.15  883987.55 3953232.79
## 
## $provc
## [1] 5263954

Méthode de Bornhuetter-Ferguson

Pondération par la moyenne et par la médiane

Pour les deux méthodes , dans un premier temps on calcule les coeffecients de passages individuels \[\lambda_{i,j}=\frac{C_{i,j+1}}{C_{i,j}}\]

Pondération par la moyenne

L’expression de l’estimateur de développement devient : \[\widehat{\lambda_{j}}=\frac{1}{n - j}\sum_{k=0}^{n-j}{\lambda_{k,j}}\]

## $triangle
##        [,1]     [,2]     [,3]     [,4]     [,5]
## S1   915266  1111592  1130498  1196425  1206425
## S2  3250301  4157982  4212604  4320236  4356346
## S3  5922414  7153307  7408982  7719666  7784188
## S4 10631848 12531481 12806701 13343730 13455260
## S5 14371474 17534177 17919268 18670683 18826737
## 
## $prov_totale
## [1] 5790358
## 
## $coeffecinet
## [1] 1.220068 1.021962 1.041933 1.008358
## 
## $provision_annuelle
## [1]       0.00   36109.54  375206.46  923778.53 4455263.27
## 
## $prov_c
## [1] 5790358

Pondération par la médiane

L’expression de l’estimateur de développement devient

\(\lambda_{j}=Median(\lambda_{k,j})\)

## $triangle
##        [,1]     [,2]     [,3]     [,4]     [,5]
## S1   915266  1111592  1130498  1196425  1206425
## S2  3250301  4157982  4212604  4320236  4356346
## S3  5922414  7153307  7408982  7719666  7784188
## S4 10631848 12531481 12744617 13279042 13390031
## S5 14371474 17406283 17702330 18444649 18598813
## 
## $prov_multi
## [1]       0.00   36109.54  375206.46  858550.18 4227339.43
## 
## $provision_totale
## [1] 5497206
## 
## $provc
## [1] 5497206

Méthode des moindres carrés

Similaires aux autres méthodes, la méthode des moindres carrés repose sur le calcul d’un coeffecient de passage particulier, En effet \(\lambda_{j}=\frac{\sum_{i=0}^{n-j-1}{C_{i,j}{C_{i,j+1}}}}{\sum_{i=0}^{n-j-1}{C_{i,j}^2}}\)

## $lambda
## [1] 1.214502 1.017008 1.058317 1.008358
## 
## $triangle
##        [,1]     [,2]     [,3]     [,4]     [,5]
## S1   915266  1111592  1130498  1196425  1206425
## S2  3250301  4157982  4212604  4320236  4356346
## S3  5922414  7153307  7408982  7841050  7906587
## S4 10631848 12531481 12744617 13487842 13600576
## S5 14371474 17454178 17751039 18786223 18943242
## 
## $provision_annuelle
## [1]       0.00   36109.54  497605.28 1069095.44 4571768.21
## 
## $totale
## [1] 6174578

Pondération par une moyenne Geométrique :

Dan cette Méthode le coeffecient de passage est égale à :

\(\lambda_{j}=\prod_{i=1}^{n}{(\lambda_{k,j})^\frac{1}{n}}\)

## $triangle
##        [,1]     [,2]     [,3]     [,4]     [,5]
## S1   915266  1111592  1130498  1196425  1206425
## S2  3250301  4157982  4212604  4320236  4356346
## S3  5922414  7153307  7408982  7718711  7783226
## S4 10631848 12531481 12806106 13341460 13452971
## S5 14371474 17526332 17910418 18659155 18815113
## 
## $prov_totale
## [1] 5775483
## 
## $coeffecinet
## [1] 1.219522 1.021915 1.041805 1.008358
## 
## $provision_annuelle
## [1]       0.00   36109.54  374244.10  921489.96 4443638.97
## 
## $prov_c
## [1] 5775483

Côut Moyen

La méthode du cout moyen consiste à estimer la charge moyenne des sinistres tardifs et le nombre des sinistres qui sont et n’ont pas été déclarés. Dans cette méthode nous traitons deux types de données : les données de la charge et le nombre des sinistres par années de survenances et leurs evolution pour chaque année de développement .

l’algorithme de cette méthode repose sur la définition de deux nouvelles variables:

\(N_{i,j}\):Le nombre des sinistres survenus à l’année \(i\) et payés l’année \(i+j\)

\(NC_{i,j}\):le nombre totale cumulé des sinistres survenus à l’année \(i\) et payés l’année \(i+j\)

Dans un premier lieu on applique la méthode chain ladder sur le triangle initial de la charge et celui de nombre pour obtenir les coefficients de passage propre à chaque triangle a l’aide de formalisme suivant: \[ \forall 0\leq j\leq n -1,\space \widehat{\lambda} = \frac{\sum_{i=0}^{n - j -1}C_{i,j+1}}{\sum_{i=0}^{n-j-1}C_{i,j} }\] \[ \forall 0\leq j\leq n -1,\space \widehat{\phi} = \frac{\sum_{i=0}^{n - j -1}NC_{i,j+1}}{\sum_{i=0}^{n-j-1}NC_{i,j} }\]

Après, on déduira les charges ultimes et le nombre des sinistres à l’ultime : \[\forall i \in (1,2,3,....,n),\space\space C_{i,n}^{ultime}= C_{i,n-i}\prod_{k=n-i}^{n-1}\widehat{\lambda_{k} }\] \[\forall i \in (1,2,3,....,n),\space\space NC_{i,n}^{ultime}= NC_{i,n-i}\prod_{k=n-i}^{n-1}\widehat{\phi_{k} }\]

D’où la déduction de la nouvelle variable \[C_{i}^{moyen}=\frac{C_{i}^{ulime}}{NC_{i}^{ultime}}\]

nous définissons aussi les sinistres tardifs ou IBNR(Incurred But Not Reported)par le différence entre le nombre des sinistres estimés et la dernière information sur le nombre observé par année de survenance:

\[\widehat{NC_{i}^{IBNR}}=NC_{i}^{ultime}-NC_{i,j-i+1}\]

Après avoir calculer les couts moyens et le nombre des sinistres tardifs pour chaque année de survenance \(i\), on déduira le montant de provision totale comme-suit : \[\widehat{P}=(1/n)(\sum_{i=2}^{n}{\hat{C_{i}}^{moyen})(\sum_{i=2}^{n} {\widehat{NC_{i}^{IBNR}}}})\] ## Résultat de la méthode:

## $prov_totale
## [1] 1065578
## 
## $provision_annuelle
## [1] 1065578
## 
## $N_triangle
## [1]  0  4 14 28 45
## 
## $prevc
## [1] 1065578

Mack chain Ladder:

La méthode de Mack est la première méthode faisant intervenir la notion d’incertitude dans la méthode déterministe Chain-Ladder. En effet, elle permet de mesurer l’incertitude associée à la prédiction du montant des provisions que doit faire l’assureur.

(H1):$ (0,..,n)(1,……,n-1) $, \(E(C_{i,j+1}/C_{i,1},...,C_{i,j}) = \lambda_{j}C_{i,j}\)

Cette seconde hypothèse suppose alors que le passage dune année de développement à autre est décrit en termes d’espérance.

(H2):\(\forall{i} = 1,....,n , \space{}\space{}\forall{j} = 1,.....,n\) il existe un\(\sigma_{j}\) tel que : \(Var(C_{i,j+1}/C_{i,1},....,C_{i,j})=\sigma_{j}^2C_{i,j}\)

(H3): Les montants cumulés des sinistres \(C_{i,j}\) sont indépendants suivant les années de survenance \(i\)

Sous ces hypothèses, Mack obtient une formule fermée pour la variance de la charge ultime. Nous calculons l’erreur quadratique moyenne (MSEP - Mean Square of Error of Predicion) en conditionnant par rapport aux données passées : \[MSEP(\widehat{C_{i,n}}) = E(((\widehat{C_{i,n}})-C_{i,n})^2|C_{i,j}:i+j<n+2)\] Ainsi on déduit que \[ MSEP(\widehat{C_{i,n}}) = Var(C_{i,n}|C_{i,j}:i+j<n+2)+(E(C_{i,n}|C_{i,j}:i+j<n+2)-\widehat{C_{i,n}})^2 \] en posant \[\widehat{R}_{i}=\widehat{C_{i,n}}-C_{i,n-i+1}\] la provision étudiée,\[ \widehat{R_{i}}-R_{i}=\widehat{C_{i,n}}-C_{i,n}\] nous conduit à déduire que \(MSEP(\widehat{R_{i}})=MSEP(\widehat{C_{i,n}})\) et que l’erreur standard est égale à \(SEP(\widehat{R_{i}})=\sqrt{MSEP(\widehat{C_{i,n}})}\)\ \[\widehat{R}=\sum_{i=2}^{n}{\widehat{R_{i}}}\]

La formule concrète est :

\[\hat{MSEP(\widehat{R_{i} } )}=\hat{C_{i,n}^2}\sum_{j=n-i+1}^{n-1}{\frac{S_{j}^2}{\lambda_{j}^2}}(\frac{1}{C_{i,j}}+\frac{1}{\sum_{k=1}^{n-j}{C_{k,j}}})\]

\[\widehat{MSEP(\hat{R})} =\sum_{i=2}^{n}{(\widehat{MSEP(\hat{R_{i}})+\hat{C_{i,n}}(\sum_{k=i+1}^{n}{C_{k,n}})(\sum_{j=n-i+1}^{n-1}{\frac{2S_{j}^2}{\lambda_{j}^2\sum_{i=1}^{n-j}C_{i,j}}})})} \] Pour appliquer la méthode de Mack on doit valider les hypothèses citées précédemment \

:

Dans un premier lieu , on teste la forme de l’espérance par un test graphique .En effet les points \((C_{i,j},C_{i,j+1})\) doivent être alignés sur une droite passant par l’origine de pente \(\lambda_{j}\)

:

On teste la forme de la variance par un autre test graphique.En effet ,si les points \(( C_{i,j} , \frac{C_{i,j+1}-\hat{\lambda_{j}}C_{i,j}}{\sqrt{C_{i,j}}})\) ne présentent pas de tendance spécifique alors l’hypothèse est retenue

:

Ce teste consiste à compter le nombre de facteurs de développement individuels supérieurs à la médiane pour chaque diagonale du triangle de données \(S_{k}\)et le nombre de celui inférieurs \(L_{K}\).

On suppose que \(S_{k}\) et \(L_{k}\) suivent des lois binomiales \(B(t,1/2)\) avec \(t=(S_{k}+L_{k})\).

On pose \(Z_{k} = min(S_{k},L_{k})\),l’espérance et la variance de \(Z_{k}\) sont alors données par:

\[E(Z_{k})= (t/2)-(t/2^t)C_{t-1}^m\] \[Var(Z_{k})= (t(t-1)/4)-(t(t-1)/2^t)(C_{t-1}^m)E(Z_{k})-(E(Z_{k})^2)\] avec \(m\) est la partie entière de (t/2)

en supposant que les \(Z_{i}\) sont indépendants,alors on a \[E(Z)= \sum_{k=1}^{n}{E(Z_{k})}\] \[Var(Z)=\sum_{k=1}^{n}{Var(Z_{k})}\]

On suppose de plus que \(Z\) suit une loi normale, alors on rejette la présence d’un effet calendaire si : \[|Z-E(Z)|< 1,96\sqrt{Var(Z)}\] Résultat calcul

## $res1
## MackChainLadder(Triangle = triangle)
## 
##        Latest Dev.To.Date   Ultimate      IBNR Mack.S.E CV(IBNR)
## S1  1,206,425       1.000  1,206,425         0        0      NaN
## S2  4,320,236       0.992  4,356,346    36,110  120,329    3.332
## S3  7,408,982       0.961  7,713,584   304,602  241,487    0.793
## S4 12,531,481       0.936 13,392,416   860,935  423,438    0.492
## S5 14,371,474       0.777 18,497,717 4,126,243  748,791    0.181
## 
##                  Totals
## Latest:   39,838,598.00
## Dev:               0.88
## Ultimate: 45,166,487.70
## IBNR:      5,327,889.70
## Mack.S.E   1,342,512.85
## CV(IBNR):          0.25
## 
## $MSEP
##           S2           S3           S4           S5 
##  14479184122  58316071280 179299894218 560687471109 
## 
## $MSEPT
## [1] 1.802341e+12

Validation des hypothèses

(H1)

(H2)

(H3)

## $hypTab
##   j S L n m Z   EZ   VarZ
## 1 2 1 0 1 0 0 0.00 0.0000
## 2 3 1 0 1 0 0 0.00 0.0000
## 3 4 1 2 3 1 1 0.75 0.1875
## 4 5 1 2 3 1 1 0.75 0.1875
## 
## $valueTest
##   Z  EZ       SdZ
## 1 2 1.5 0.6123724
## 
## $validated
## [1] TRUE

Boostrapp

On va présenter l’approche de simutaion utilisé faite par P.D. England & R.J. Verrall (2002). Dans un permier lieu un quasi_poisson modèle est appliqué sur le triangle d’étude afin de prédire les valeurs futurs.

Pour avoir un estimateur correct de la variance (avoir des résidus avec variance unitaire), nous devons ajuster les résidus pour le nombre de paramètres de régression k (c.-à-d. 2n - 1) et les observations n:

\[\hat{\epsilon_{i,j}} = \sqrt{\frac{n}{n-k}}\frac{Y_{i,j}-\hat{Y_{i,j}}}{\sqrt{\hat{Y_{i,j}}}}\] La stratégie consiste à bootstraper parmi ces résidus pour obtenir un échantillon et générer un pseudo-triangle:

\[Y_{i,j}^b=Y_{i,j}+\sqrt{\hat{Y_{i,j}}}\hat{\epsilon_{i,j}^b}\] Ensuite, nous pouvons utiliser des techniques standard pour compléter le triangle, et extrapoler la partie inférieure.

## BootChainLadder(Triangle = as.triangle(dn), R = 1e+05, process.distr = "gamma")
## 
##        Latest Mean Ultimate Mean IBNR IBNR.S.E  IBNR 75%  IBNR 95%
## S1  1,206,425     1,206,425         0        0         0         0
## S2  4,320,236     4,359,454    39,218   77,447    70,115   192,341
## S3  7,408,982     7,725,106   316,124  187,237   426,014   659,900
## S4 12,531,481    13,417,767   886,286  339,225 1,093,824 1,495,638
## S5 14,371,474    18,550,462 4,178,988  641,327 4,590,141 5,296,550
## 
##                     Totals
## Latest:         39,838,598
## Mean Ultimate:  45,259,214
## Mean IBNR:       5,420,616
## IBNR.S.E         1,038,552
## Total IBNR 75%:  6,071,224
## Total IBNR 95%:  7,258,329

significativité des graphes:

1/ Histogramme de la totalité d’IBNR simulé

2/ La distribution empirique d’IBNR totale

3/Boite à moustache des ultimes simulés

4/ tester si les valeurs simulés sont proches des valeurs réelles

Boostrapp chain Ladder (sous les hypothéses de MACK)

La méthode du Bootstrap est une méthode relativement récente consistant à fabriquer de l’information et à fournir des réponses là où les autres méthodes ne sont pas applicables (manque d’information, calculs impossibles…) Le principe général de la méthode du Bootstrap est le rééchantillonage par replacement. Dans notre étude, nous choisissons d’appliquer la méthode du Bootstrap dans le cadre des hypothèses de Mack. L’erreur de prédiction peut s’interpréter comme la combinaison de deux erreurs sous-jacentes que sont respectivement l’erreur de processus et l’erreur de simulation. L’erreur d’estimation est introduite lors du ré-échantillonage par replacement des résidus de Pearson. Plus généralement, les résidus peuvent se traduire mathématiquement de la façon suivante :

\(r_{i,j}=\frac{f_{i,j}-E[f_{i,j}]}{\sqrt{Var(f_{i,j})}}\)

D’aprés les hypothéses de mack et le fait que \(f_{i,j}=\frac{C_{i,j+1}}{C_{i,j}}\),on peut déduire que :

\(E[f_{i,j} |C_{i,1},......,C_{i,j}]=\lambda_{j}\)

\(Var[f_{i,j} |C_{i,1},.....,C_{i,j}]=\frac{\sigma_{j}^2}{C_{i,j}}\)

d’ou on déduit la nouvelle formule des résidus

\(r_{i,j}=\frac{\sqrt{C_{i,j-1}}(f_{i,j}-\lambda_{j})}{\sigma_{j}}\)

Dans notre étude nous effectuons un tirage aléatoire par une loi normale dont l’ésperance et la variance sont déduites des hypohéses (H2) et (H3) de mack .

On présente le cheminement de la méthode comme suit :

1.calcul du D-triangle \(f_{i,j}\) , des \(\sigma_{j}^2\) et \(\lambda_{j}\)

2.Calcul du triangle des résidus supérieurs :

\(r_{i,j}=\frac{\sqrt{w_{i,j}}(f_{i,j}-\lambda_{j})}{\sigma_{j}}\) , avec \(C_{i,j-1}=w_{i,j}\)

Boucle (avec N, le nombre de simulations)

  1. Rééchantillonage par replacement des résidus que nous notons

alors :

\(r_{i,j}^B=\frac{\sqrt{w_{i,j}}(f_{i,j}^B - \lambda{j})}{\sigma_{j}}\)

4.Calcul des link ratios simulés :

\(\widehat{\lambda_{j}}=\frac{\sum_{i=1}^{n-j+1}{w_{i,j}f_{i,j}^B}}{\sum_{i=1}^{n-j-1}{w_{i,j}}}\) avec \(f_{i,j}^B=r_{i,j}^B\frac{\sigma_{j}}{\sqrt{w_{i,j}}} + \lambda_{j}\)

  1. Calcul du triangle inférieur des paiements cumulés à partir de la méthode Chain-Ladder ;

  2. Simulation par une loi normale des données

7.Enfin, nous obtenons N estimations de la provision totale R dont l’écarttype correspond à l’erreur de processus.

## $prov_tot
## [1] 5556249
## 
## $prediction_error
## [1] 1038213
## [1] 3498588
## [1] 7603833

Modèle linéaire généralisé:

les modèles linéaires généralises permettent l’étude de la liaison entre la variable réponse Y et les prédicteurs \(X_{1}\),\(X_{2}\),….\(X_{k}\)

le modèle s’écrit sous la forme suivante : \[Y_{i} =\beta_{0}X_{i,1}+\beta_{2}X_{i,2}+....+\beta_{n}X_{i,n}+\epsilon_{i}\]

on constate que le modéle est constitué principalement de trois composantes : la variable réponse à la quelle est associé une loi de probabilité est appelée la composante aléatoire ,appartenant à la famille des exponontielles de paramétres \((y,\theta,\phi,\omega)\) dont la densité est de la forme:

\[f(y_{i},\theta_{i},\phi,\omega_{i}) = exp(\frac{y\theta -b(\theta)}{a(\phi)}\omega_{i}+c(y_{i},\phi,\omega_{i}))\] \(\phi\) : paramètre de dispersion connu

\(\theta\) : paramètre canonique inconnue

a,b et c sont des fonctions connues et spécifiées selon la loi exponentielle en question (poisson,binomiale,etc).\ On a par ailleur :

\(E(Y)=b'(\theta)=\mu\) et \(Var(Y)=\phi b''(\theta)=\phi V(u)\)

\(Y_{i}\) peut être binaire dans le cas elle exprime un événement de présence absence ou bien sucés ou échec (loi de Bernoulli , binomiale),distribuée selon une loi de poisson ou une loi normale

les variables explicaives \(X_{1}\),….,\(X_{k}\) utilisées comme des prédicteurs définissent sous forme linéaire \(\nu = \beta X,\) la composante déterministe. V est la fonction de variance qui lie la moyenne à la variance de la réponse.

la fonction lien g décrit la relation fonctionnelle entre la combinaison linéaire des variables (X1,….,Xk) et l’espérance mathématique de la variable de réponse: \(E(Y)=g(\nu)=\mu\)

Modèle de poisson:

Hachemeister et Stanard(1975),Kremer (1982) and finally Mack (1991),ont examiné la validité de la distributivité des payements cumulés selon une loi de poisson et ses provisions sont identiques à celle de chain ladder .

l’idée consiste que les \(C_{i,j}\) sont distribués selon une loi de poisson , pour nous c’est la variables à expliquer et les variables explicatives sont les années de survenance et les années de développement qui sont considérées comme des facteurs . le modèle s’écrit sous la forme suivante: \[\log(E(C_{i,j}))= develop+survenance+cst+\epsilon\]

pour la modélisation poissonnière on risque d’avoir un problème de sur dispersion pour cela on a besoin de le tester pour sa validité d’une perspective statistique .En effet,la sur-dispersion est causé par la mauvaise adéquation du modèle à une loi de poisson du coup la variance de la variable réponse y est supérieure à la variance de la loi de poisson posée sur les données .

\[var(y) = \mu{}+c\mu^2\]

avec c est le paramètre de dispersion.une valeur de ce paramètre supérieure à 1 est un signe d’une sur-dispersion des données par rapport à la variance du modèle de poisson et s’il est inférieur à 1 on a une sous-dispersion. on cherche à tester alors

\(H_{0}\): c = 0 contre \(H_{1}\)c=!0

la statistique de test est considéré comme suit : \[T = \frac{\sum_{i=1}^{n}{[(Y_{i}-\hat\mu_{i})^2-Y_{i}]}}{\sqrt{2\sum_{i=1}^{n}{\hat{\mu_{i}^2}}}}\] qui suit sous H0 une loi normale centré réduite.

Résultat de la régression

## 
## Call:  glm(formula = y ~ as.factor(D) + as.factor(a), family = quasipoisson(link = "log"), 
##     data = base)
## 
## Coefficients:
##      (Intercept)     as.factor(D)2     as.factor(D)3     as.factor(D)4  
##          13.7301            0.1860            0.2221            0.2539  
##    as.factor(D)5  as.factor(a)2014  as.factor(a)2015  as.factor(a)2016  
##           0.2731            1.2979            1.8658            2.4376  
## as.factor(a)2017  
##           2.7507  
## 
## Degrees of Freedom: 14 Total (i.e. Null);  6 Residual
##   (10 observations deleted due to missingness)
## Null Deviance:       49360000 
## Residual Deviance: 9852  AIC: NA

réserve totale

## [1] 6137066

provisionnement par année

## [1]       0.00   84062.18  387355.28 1152408.05 4513240.49

Analyse des résidus

Explication de choix de ce modèle

## 
## Call:  glm(formula = y ~ as.factor(D) + as.factor(a), family = poisson(link = "log"), 
##     data = base1)
## 
## Coefficients:
##      (Intercept)     as.factor(D)2     as.factor(D)3     as.factor(D)4  
##          13.7301            0.1860            0.2221            0.2539  
##    as.factor(D)5  as.factor(a)2014  as.factor(a)2015  as.factor(a)2016  
##           0.2731            1.2979            1.8658            2.4376  
## as.factor(a)2017  
##           2.7507  
## 
## Degrees of Freedom: 14 Total (i.e. Null);  6 Residual
##   (10 observations deleted due to missingness)
## Null Deviance:       49360000 
## Residual Deviance: 9852  AIC: 10120
## 
##  Overdispersion test
## 
## data:  reg1
## z = 2.1468, p-value = 0.0159
## alternative hypothesis: true dispersion is greater than 1
## sample estimates:
## dispersion 
##   655.8491

Allez plus loin aves les analyses GlM

## 
## Call:
## glm(formula = y ~ as.factor(ai) + as.factor(bj), family = poisson, 
##     data = base)
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -61.033   -5.131    0.000    6.403   54.124  
## 
## Coefficients:
##                    Estimate Std. Error z value Pr(>|z|)    
## (Intercept)       1.373e+01  5.390e-04 25473.6   <2e-16 ***
## as.factor(ai)2014 1.298e+00  5.408e-04  2400.1   <2e-16 ***
## as.factor(ai)2015 1.866e+00  5.449e-04  3424.3   <2e-16 ***
## as.factor(ai)2016 2.438e+00  5.544e-04  4397.1   <2e-16 ***
## as.factor(ai)2017 2.751e+00  6.001e-04  4583.9   <2e-16 ***
## as.factor(bj)1    1.860e-01  2.972e-04   625.7   <2e-16 ***
## as.factor(bj)2    2.221e-01  3.863e-04   575.1   <2e-16 ***
## as.factor(bj)3    2.539e-01  5.398e-04   470.4   <2e-16 ***
## as.factor(bj)4    2.731e-01  1.058e-03   258.1   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for poisson family taken to be 1)
## 
##     Null deviance: 49359358.9  on 14  degrees of freedom
## Residual deviance:     9851.5  on  6  degrees of freedom
##   (10 observations deleted due to missingness)
## AIC: 10124
## 
## Number of Fisher Scoring iterations: 3

nouveau tableau

##            [,1]     [,2]     [,3]     [,4]     [,5]
## [1,]   918102.6  1105736  1146476  1183466  1206425
## [2,]  3361580.8  4048591  4197757  4333195  4417257
## [3,]  5932237.2  7144615  7407851  7646861  7795206
## [4,] 10507908.4 12655421 13121697 13545060 13807829
## [5,] 14371474.0 17308587 17946305 18525331 18884715

tableau de départ:

##        [,1]     [,2]    [,3]    [,4]    [,5]
## S1   915266  1111592 1130498 1196425 1206425
## S2  3250301  4157982 4212604 4320236      NA
## S3  5922414  7153307 7408982      NA      NA
## S4 10631848 12531481      NA      NA      NA
## S5 14371474       NA      NA      NA      NA

Quasi-poisson modèle:

## 
## Call:
## glm(formula = y ~ as.factor(ai) + as.factor(bj), family = poisson, 
##     data = base)
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -61.033   -5.131    0.000    6.403   54.124  
## 
## Coefficients:
##                    Estimate Std. Error z value Pr(>|z|)    
## (Intercept)       1.373e+01  5.390e-04 25473.6   <2e-16 ***
## as.factor(ai)2014 1.298e+00  5.408e-04  2400.1   <2e-16 ***
## as.factor(ai)2015 1.866e+00  5.449e-04  3424.3   <2e-16 ***
## as.factor(ai)2016 2.438e+00  5.544e-04  4397.1   <2e-16 ***
## as.factor(ai)2017 2.751e+00  6.001e-04  4583.9   <2e-16 ***
## as.factor(bj)1    1.860e-01  2.972e-04   625.7   <2e-16 ***
## as.factor(bj)2    2.221e-01  3.863e-04   575.1   <2e-16 ***
## as.factor(bj)3    2.539e-01  5.398e-04   470.4   <2e-16 ***
## as.factor(bj)4    2.731e-01  1.058e-03   258.1   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for poisson family taken to be 1)
## 
##     Null deviance: 49359358.9  on 14  degrees of freedom
## Residual deviance:     9851.5  on  6  degrees of freedom
##   (10 observations deleted due to missingness)
## AIC: 10124
## 
## Number of Fisher Scoring iterations: 3

on avait commencé à regarder erreurs commises, sur la partie supérieure du triangle. Classiquement, par construction, les résidus de Pearson sont de la forme

\(\epsilon_{i}=\frac{Y_{i}-\widehat{Y_{i}}}{\sqrt{Var(Y_{i})}}\)

##       [,1]  [,2]  [,3] [,4] [,5]
## [1,]  -3.0   5.6 -14.9 11.9    0
## [2,] -60.7  54.4   7.2 -6.2   NA
## [3,]  -4.0   3.3   0.4   NA   NA
## [4,]  38.2 -34.8    NA   NA   NA
## [5,]   0.0    NA    NA   NA   NA

Aussi, il convient de corriger l’estimateur de la variance, et on pose alors \(\epsilon_{i}=\sqrt{\frac{n}{n-k}}\frac{Y_{i}-\widehat{Y_{i}}}{\sqrt{Var(Y_{i})}}\)

##  [1] -4.290052e+00 -8.795370e+01 -5.844584e+00  5.540661e+01 -3.132866e-11
##  [6]  8.069955e+00  7.878457e+01  4.712543e+00 -5.048721e+01 -2.162463e+01
## [11]  1.050127e+01  6.021256e-01  1.726215e+01 -9.021293e+00 -1.443768e-11