Définition:
Cette méthode compte parmi les plus usuelles et sert de référence pour les méthodes déterministes. la facilité de son implémentation et la pertinence de ses résultats l’ a rendu la plus utilisée dans le domaine de calcule de provisionnement.
Hypothèses:
(H1):Les années de survenance sont indépendantes entre elles
(H2):Les années de développement sont des variables explicatives du comportement des paiements futurs
cette méthode suggère l’estimation des coefficients de passages , ces coefficients sont déterminés comme-suit : \[ \forall 0\leq j\leq n -1,\space \widehat{\lambda} = \frac{\sum_{i=0}^{n - j -1}C_{i,j+1}}{\sum_{i=0}^{n-j-1}C_{i,j} }\]
## $lambda
## [1] 1.000000 1.204371 1.026500 1.032483 1.008358
\[ \forall 1\leq i,j\leq n,\space\space C_{i,j} =C_{i,n-i} \prod_{k = n-i}^{j-1}\widehat{\lambda_k} \]
En particulier nous calculons les charges ultimes pour chaque année d’accident : \[\forall i \in (1,2,3,....,n),\space\space C_{i,n}= C_{i,n-i}\prod_{k=n-i}^{n-1}\widehat{\lambda_{k} }\] Finalement , on détermine les provisions par année d’accident: \[P_{i}= C_{i,n}-C_{i,n-i}\]
## $prov_ann
## [1] 0.00 36109.54 304602.14 860934.69 4126243.33
et la provision totale: \[P =\sum_{i =1}^{n}P_i\]
## $prov_CL
## [1] 5327890
Or dans notre cas on a fait un choix d’affecter un montant null pour les provisions négatives ainsi le resèrve corrigé est égale à
## $prevision_c
## [1] 5327890
La méthode dite London-Chain a été introduite par Benjamin et Eagles pour le calcul des réserves au Lloyd’s en 1986.
\[ \forall 1\leq j\leq n-1 ,\space \space \space \space \space C_{i,j+1} = \lambda_{j}C_{i,j}+\beta_{j}\] \[\widehat{\lambda_{j}}=\frac{\frac{1}{n-j}\sum_{i=0}^{n-j-1}{C_{i,j}C_{i,j+1}-\overline{C_{j}}\space\overline{C_{j+1}}}}{\frac{1}{n-j}\sum_{i =0}^{n-j-1}C_{i,j}^2 -\overline{C_{j}}^2}\]
et \[\widehat{\beta_{j} }=\overline{C_{j+1}}-\lambda_{j}\overline{C_{j}}\]
## $lambda_LC
## [1] 1.166362 1.039111 1.013531 1.008358
## $beta_LC
## [1] 196884.52 -52222.80 50629.86 0.00
le triangle complet est représenté comme_suit :
le reserve totale et le reserve totale corrigé sont :
## [1] 4660959
## [1] 4660959
cette méthode a était devéloppé en 1972 par Bornhuetter-Ferguson, elle se différencie des autres méthodes par l’utilisation d’une information exogène appelée “avis d’expert” pour déterminer l’ultime à priori.
Pour déterminer l’ultime on utilise le formalisme suivant : \[ \forall i \in (1,.....,n),\space\space C_{i,n}=C_{i,n-i+1} +(1 - \gamma_{n-i+1})\tau_{i}\] \(\tau_{i}\) :est un estimateur à priori et \(\gamma_{i} = \frac{1}{\prod_{k=i}^{n}\lambda_{k}}\)
Dans un premier lieu on applique la méthode de chain ladder standard pour avoir les charges ultimes chaine ladder\(\forall i \in(1,........,n),\space\space \ U_{CL_{i}} = C_{i,n}\) Aprés on calcule l’ultime à priori : \(\tau_{i}=(S/P)_{retenu}*P_{i}\)
Puis on faisant le calcul suivant en multipliant au numérateur et au dénominateur par le même terme on aura :
\(\gamma_{n-i+1}= \frac{1}{\prod_{k=n-i+1}^{n}{\lambda_{k}}}=\frac{C_{i,n-i+1}}{C_{i,n-i+1}*\prod_{k=n-i+1}^{n}{\lambda_{k}}}=\frac{Charge Actuelle}{ultime chain Ladder}\)
Résultat
## $provision
## [1] 5263954
##
## $part
## [1] 1.0000000 0.9917110 0.9605109 0.9357148 0.7769323
##
## $ultime_priori
## [1] 1223191 5811594 9586483 13751018 17722121
##
## $ultime
## [1] 1206425 4368408 7787543 13415469 18324707
##
## $vecteur_prov
## [1] 0.00 48172.03 378561.15 883987.55 3953232.79
##
## $provc
## [1] 5263954
Pour les deux méthodes , dans un premier temps on calcule les coeffecients de passages individuels \[\lambda_{i,j}=\frac{C_{i,j+1}}{C_{i,j}}\]
Pondération par la moyenne
L’expression de l’estimateur de développement devient : \[\widehat{\lambda_{j}}=\frac{1}{n - j}\sum_{k=0}^{n-j}{\lambda_{k,j}}\]
## $triangle
## [,1] [,2] [,3] [,4] [,5]
## S1 915266 1111592 1130498 1196425 1206425
## S2 3250301 4157982 4212604 4320236 4356346
## S3 5922414 7153307 7408982 7719666 7784188
## S4 10631848 12531481 12806701 13343730 13455260
## S5 14371474 17534177 17919268 18670683 18826737
##
## $prov_totale
## [1] 5790358
##
## $coeffecinet
## [1] 1.220068 1.021962 1.041933 1.008358
##
## $provision_annuelle
## [1] 0.00 36109.54 375206.46 923778.53 4455263.27
##
## $prov_c
## [1] 5790358
Pondération par la médiane
L’expression de l’estimateur de développement devient
\(\lambda_{j}=Median(\lambda_{k,j})\)
## $triangle
## [,1] [,2] [,3] [,4] [,5]
## S1 915266 1111592 1130498 1196425 1206425
## S2 3250301 4157982 4212604 4320236 4356346
## S3 5922414 7153307 7408982 7719666 7784188
## S4 10631848 12531481 12744617 13279042 13390031
## S5 14371474 17406283 17702330 18444649 18598813
##
## $prov_multi
## [1] 0.00 36109.54 375206.46 858550.18 4227339.43
##
## $provision_totale
## [1] 5497206
##
## $provc
## [1] 5497206
Méthode des moindres carrés
Similaires aux autres méthodes, la méthode des moindres carrés repose sur le calcul d’un coeffecient de passage particulier, En effet \(\lambda_{j}=\frac{\sum_{i=0}^{n-j-1}{C_{i,j}{C_{i,j+1}}}}{\sum_{i=0}^{n-j-1}{C_{i,j}^2}}\)
## $lambda
## [1] 1.214502 1.017008 1.058317 1.008358
##
## $triangle
## [,1] [,2] [,3] [,4] [,5]
## S1 915266 1111592 1130498 1196425 1206425
## S2 3250301 4157982 4212604 4320236 4356346
## S3 5922414 7153307 7408982 7841050 7906587
## S4 10631848 12531481 12744617 13487842 13600576
## S5 14371474 17454178 17751039 18786223 18943242
##
## $provision_annuelle
## [1] 0.00 36109.54 497605.28 1069095.44 4571768.21
##
## $totale
## [1] 6174578
Pondération par une moyenne Geométrique :
Dan cette Méthode le coeffecient de passage est égale à :
\(\lambda_{j}=\prod_{i=1}^{n}{(\lambda_{k,j})^\frac{1}{n}}\)
## $triangle
## [,1] [,2] [,3] [,4] [,5]
## S1 915266 1111592 1130498 1196425 1206425
## S2 3250301 4157982 4212604 4320236 4356346
## S3 5922414 7153307 7408982 7718711 7783226
## S4 10631848 12531481 12806106 13341460 13452971
## S5 14371474 17526332 17910418 18659155 18815113
##
## $prov_totale
## [1] 5775483
##
## $coeffecinet
## [1] 1.219522 1.021915 1.041805 1.008358
##
## $provision_annuelle
## [1] 0.00 36109.54 374244.10 921489.96 4443638.97
##
## $prov_c
## [1] 5775483
La méthode du cout moyen consiste à estimer la charge moyenne des sinistres tardifs et le nombre des sinistres qui sont et n’ont pas été déclarés. Dans cette méthode nous traitons deux types de données : les données de la charge et le nombre des sinistres par années de survenances et leurs evolution pour chaque année de développement .
l’algorithme de cette méthode repose sur la définition de deux nouvelles variables:
\(N_{i,j}\):Le nombre des sinistres survenus à l’année \(i\) et payés l’année \(i+j\)
\(NC_{i,j}\):le nombre totale cumulé des sinistres survenus à l’année \(i\) et payés l’année \(i+j\)
Dans un premier lieu on applique la méthode chain ladder sur le triangle initial de la charge et celui de nombre pour obtenir les coefficients de passage propre à chaque triangle a l’aide de formalisme suivant: \[ \forall 0\leq j\leq n -1,\space \widehat{\lambda} = \frac{\sum_{i=0}^{n - j -1}C_{i,j+1}}{\sum_{i=0}^{n-j-1}C_{i,j} }\] \[ \forall 0\leq j\leq n -1,\space \widehat{\phi} = \frac{\sum_{i=0}^{n - j -1}NC_{i,j+1}}{\sum_{i=0}^{n-j-1}NC_{i,j} }\]
Après, on déduira les charges ultimes et le nombre des sinistres à l’ultime : \[\forall i \in (1,2,3,....,n),\space\space C_{i,n}^{ultime}= C_{i,n-i}\prod_{k=n-i}^{n-1}\widehat{\lambda_{k} }\] \[\forall i \in (1,2,3,....,n),\space\space NC_{i,n}^{ultime}= NC_{i,n-i}\prod_{k=n-i}^{n-1}\widehat{\phi_{k} }\]
D’où la déduction de la nouvelle variable \[C_{i}^{moyen}=\frac{C_{i}^{ulime}}{NC_{i}^{ultime}}\]
nous définissons aussi les sinistres tardifs ou IBNR(Incurred But Not Reported)par le différence entre le nombre des sinistres estimés et la dernière information sur le nombre observé par année de survenance:
\[\widehat{NC_{i}^{IBNR}}=NC_{i}^{ultime}-NC_{i,j-i+1}\]
Après avoir calculer les couts moyens et le nombre des sinistres tardifs pour chaque année de survenance \(i\), on déduira le montant de provision totale comme-suit : \[\widehat{P}=(1/n)(\sum_{i=2}^{n}{\hat{C_{i}}^{moyen})(\sum_{i=2}^{n} {\widehat{NC_{i}^{IBNR}}}})\] ## Résultat de la méthode:
## $prov_totale
## [1] 1065578
##
## $provision_annuelle
## [1] 1065578
##
## $N_triangle
## [1] 0 4 14 28 45
##
## $prevc
## [1] 1065578
La méthode de Mack est la première méthode faisant intervenir la notion d’incertitude dans la méthode déterministe Chain-Ladder. En effet, elle permet de mesurer l’incertitude associée à la prédiction du montant des provisions que doit faire l’assureur.
(H1):$ (0,..,n)(1,……,n-1) $, \(E(C_{i,j+1}/C_{i,1},...,C_{i,j}) = \lambda_{j}C_{i,j}\)
Cette seconde hypothèse suppose alors que le passage dune année de développement à autre est décrit en termes d’espérance.
(H2):\(\forall{i} = 1,....,n , \space{}\space{}\forall{j} = 1,.....,n\) il existe un\(\sigma_{j}\) tel que : \(Var(C_{i,j+1}/C_{i,1},....,C_{i,j})=\sigma_{j}^2C_{i,j}\)
(H3): Les montants cumulés des sinistres \(C_{i,j}\) sont indépendants suivant les années de survenance \(i\)
Sous ces hypothèses, Mack obtient une formule fermée pour la variance de la charge ultime. Nous calculons l’erreur quadratique moyenne (MSEP - Mean Square of Error of Predicion) en conditionnant par rapport aux données passées : \[MSEP(\widehat{C_{i,n}}) = E(((\widehat{C_{i,n}})-C_{i,n})^2|C_{i,j}:i+j<n+2)\] Ainsi on déduit que \[ MSEP(\widehat{C_{i,n}}) = Var(C_{i,n}|C_{i,j}:i+j<n+2)+(E(C_{i,n}|C_{i,j}:i+j<n+2)-\widehat{C_{i,n}})^2 \] en posant \[\widehat{R}_{i}=\widehat{C_{i,n}}-C_{i,n-i+1}\] la provision étudiée,\[ \widehat{R_{i}}-R_{i}=\widehat{C_{i,n}}-C_{i,n}\] nous conduit à déduire que \(MSEP(\widehat{R_{i}})=MSEP(\widehat{C_{i,n}})\) et que l’erreur standard est égale à \(SEP(\widehat{R_{i}})=\sqrt{MSEP(\widehat{C_{i,n}})}\)\ \[\widehat{R}=\sum_{i=2}^{n}{\widehat{R_{i}}}\]
La formule concrète est :
\[\hat{MSEP(\widehat{R_{i} } )}=\hat{C_{i,n}^2}\sum_{j=n-i+1}^{n-1}{\frac{S_{j}^2}{\lambda_{j}^2}}(\frac{1}{C_{i,j}}+\frac{1}{\sum_{k=1}^{n-j}{C_{k,j}}})\]
\[\widehat{MSEP(\hat{R})} =\sum_{i=2}^{n}{(\widehat{MSEP(\hat{R_{i}})+\hat{C_{i,n}}(\sum_{k=i+1}^{n}{C_{k,n}})(\sum_{j=n-i+1}^{n-1}{\frac{2S_{j}^2}{\lambda_{j}^2\sum_{i=1}^{n-j}C_{i,j}}})})} \] Pour appliquer la méthode de Mack on doit valider les hypothèses citées précédemment \
:
Dans un premier lieu , on teste la forme de l’espérance par un test graphique .En effet les points \((C_{i,j},C_{i,j+1})\) doivent être alignés sur une droite passant par l’origine de pente \(\lambda_{j}\)
:
On teste la forme de la variance par un autre test graphique.En effet ,si les points \(( C_{i,j} , \frac{C_{i,j+1}-\hat{\lambda_{j}}C_{i,j}}{\sqrt{C_{i,j}}})\) ne présentent pas de tendance spécifique alors l’hypothèse est retenue
:
Ce teste consiste à compter le nombre de facteurs de développement individuels supérieurs à la médiane pour chaque diagonale du triangle de données \(S_{k}\)et le nombre de celui inférieurs \(L_{K}\).
On suppose que \(S_{k}\) et \(L_{k}\) suivent des lois binomiales \(B(t,1/2)\) avec \(t=(S_{k}+L_{k})\).
On pose \(Z_{k} = min(S_{k},L_{k})\),l’espérance et la variance de \(Z_{k}\) sont alors données par:
\[E(Z_{k})= (t/2)-(t/2^t)C_{t-1}^m\] \[Var(Z_{k})= (t(t-1)/4)-(t(t-1)/2^t)(C_{t-1}^m)E(Z_{k})-(E(Z_{k})^2)\] avec \(m\) est la partie entière de (t/2)
en supposant que les \(Z_{i}\) sont indépendants,alors on a \[E(Z)= \sum_{k=1}^{n}{E(Z_{k})}\] \[Var(Z)=\sum_{k=1}^{n}{Var(Z_{k})}\]
On suppose de plus que \(Z\) suit une loi normale, alors on rejette la présence d’un effet calendaire si : \[|Z-E(Z)|< 1,96\sqrt{Var(Z)}\] Résultat calcul
## $res1
## MackChainLadder(Triangle = triangle)
##
## Latest Dev.To.Date Ultimate IBNR Mack.S.E CV(IBNR)
## S1 1,206,425 1.000 1,206,425 0 0 NaN
## S2 4,320,236 0.992 4,356,346 36,110 120,329 3.332
## S3 7,408,982 0.961 7,713,584 304,602 241,487 0.793
## S4 12,531,481 0.936 13,392,416 860,935 423,438 0.492
## S5 14,371,474 0.777 18,497,717 4,126,243 748,791 0.181
##
## Totals
## Latest: 39,838,598.00
## Dev: 0.88
## Ultimate: 45,166,487.70
## IBNR: 5,327,889.70
## Mack.S.E 1,342,512.85
## CV(IBNR): 0.25
##
## $MSEP
## S2 S3 S4 S5
## 14479184122 58316071280 179299894218 560687471109
##
## $MSEPT
## [1] 1.802341e+12
Validation des hypothèses
## $hypTab
## j S L n m Z EZ VarZ
## 1 2 1 0 1 0 0 0.00 0.0000
## 2 3 1 0 1 0 0 0.00 0.0000
## 3 4 1 2 3 1 1 0.75 0.1875
## 4 5 1 2 3 1 1 0.75 0.1875
##
## $valueTest
## Z EZ SdZ
## 1 2 1.5 0.6123724
##
## $validated
## [1] TRUE
On va présenter l’approche de simutaion utilisé faite par P.D. England & R.J. Verrall (2002). Dans un permier lieu un quasi_poisson modèle est appliqué sur le triangle d’étude afin de prédire les valeurs futurs.
Pour avoir un estimateur correct de la variance (avoir des résidus avec variance unitaire), nous devons ajuster les résidus pour le nombre de paramètres de régression k (c.-à-d. 2n - 1) et les observations n:
\[\hat{\epsilon_{i,j}} = \sqrt{\frac{n}{n-k}}\frac{Y_{i,j}-\hat{Y_{i,j}}}{\sqrt{\hat{Y_{i,j}}}}\] La stratégie consiste à bootstraper parmi ces résidus pour obtenir un échantillon et générer un pseudo-triangle:
\[Y_{i,j}^b=Y_{i,j}+\sqrt{\hat{Y_{i,j}}}\hat{\epsilon_{i,j}^b}\] Ensuite, nous pouvons utiliser des techniques standard pour compléter le triangle, et extrapoler la partie inférieure.
## BootChainLadder(Triangle = as.triangle(dn), R = 1e+05, process.distr = "gamma")
##
## Latest Mean Ultimate Mean IBNR IBNR.S.E IBNR 75% IBNR 95%
## S1 1,206,425 1,206,425 0 0 0 0
## S2 4,320,236 4,359,454 39,218 77,447 70,115 192,341
## S3 7,408,982 7,725,106 316,124 187,237 426,014 659,900
## S4 12,531,481 13,417,767 886,286 339,225 1,093,824 1,495,638
## S5 14,371,474 18,550,462 4,178,988 641,327 4,590,141 5,296,550
##
## Totals
## Latest: 39,838,598
## Mean Ultimate: 45,259,214
## Mean IBNR: 5,420,616
## IBNR.S.E 1,038,552
## Total IBNR 75%: 6,071,224
## Total IBNR 95%: 7,258,329
1/ Histogramme de la totalité d’IBNR simulé
2/ La distribution empirique d’IBNR totale
3/Boite à moustache des ultimes simulés
4/ tester si les valeurs simulés sont proches des valeurs réelles
La méthode du Bootstrap est une méthode relativement récente consistant à fabriquer de l’information et à fournir des réponses là où les autres méthodes ne sont pas applicables (manque d’information, calculs impossibles…) Le principe général de la méthode du Bootstrap est le rééchantillonage par replacement. Dans notre étude, nous choisissons d’appliquer la méthode du Bootstrap dans le cadre des hypothèses de Mack. L’erreur de prédiction peut s’interpréter comme la combinaison de deux erreurs sous-jacentes que sont respectivement l’erreur de processus et l’erreur de simulation. L’erreur d’estimation est introduite lors du ré-échantillonage par replacement des résidus de Pearson. Plus généralement, les résidus peuvent se traduire mathématiquement de la façon suivante :
\(r_{i,j}=\frac{f_{i,j}-E[f_{i,j}]}{\sqrt{Var(f_{i,j})}}\)
D’aprés les hypothéses de mack et le fait que \(f_{i,j}=\frac{C_{i,j+1}}{C_{i,j}}\),on peut déduire que :
\(E[f_{i,j} |C_{i,1},......,C_{i,j}]=\lambda_{j}\)
\(Var[f_{i,j} |C_{i,1},.....,C_{i,j}]=\frac{\sigma_{j}^2}{C_{i,j}}\)
d’ou on déduit la nouvelle formule des résidus
\(r_{i,j}=\frac{\sqrt{C_{i,j-1}}(f_{i,j}-\lambda_{j})}{\sigma_{j}}\)
Dans notre étude nous effectuons un tirage aléatoire par une loi normale dont l’ésperance et la variance sont déduites des hypohéses (H2) et (H3) de mack .
1.calcul du D-triangle \(f_{i,j}\) , des \(\sigma_{j}^2\) et \(\lambda_{j}\)
2.Calcul du triangle des résidus supérieurs :
\(r_{i,j}=\frac{\sqrt{w_{i,j}}(f_{i,j}-\lambda_{j})}{\sigma_{j}}\) , avec \(C_{i,j-1}=w_{i,j}\)
Boucle (avec N, le nombre de simulations)
alors :
\(r_{i,j}^B=\frac{\sqrt{w_{i,j}}(f_{i,j}^B - \lambda{j})}{\sigma_{j}}\)
4.Calcul des link ratios simulés :
\(\widehat{\lambda_{j}}=\frac{\sum_{i=1}^{n-j+1}{w_{i,j}f_{i,j}^B}}{\sum_{i=1}^{n-j-1}{w_{i,j}}}\) avec \(f_{i,j}^B=r_{i,j}^B\frac{\sigma_{j}}{\sqrt{w_{i,j}}} + \lambda_{j}\)
Calcul du triangle inférieur des paiements cumulés à partir de la méthode Chain-Ladder ;
Simulation par une loi normale des données
7.Enfin, nous obtenons N estimations de la provision totale R dont l’écarttype correspond à l’erreur de processus.
## $prov_tot
## [1] 5556249
##
## $prediction_error
## [1] 1038213
## [1] 3498588
## [1] 7603833
les modèles linéaires généralises permettent l’étude de la liaison entre la variable réponse Y et les prédicteurs \(X_{1}\),\(X_{2}\),….\(X_{k}\)
le modèle s’écrit sous la forme suivante : \[Y_{i} =\beta_{0}X_{i,1}+\beta_{2}X_{i,2}+....+\beta_{n}X_{i,n}+\epsilon_{i}\]
on constate que le modéle est constitué principalement de trois composantes : la variable réponse à la quelle est associé une loi de probabilité est appelée la composante aléatoire ,appartenant à la famille des exponontielles de paramétres \((y,\theta,\phi,\omega)\) dont la densité est de la forme:
\[f(y_{i},\theta_{i},\phi,\omega_{i}) = exp(\frac{y\theta -b(\theta)}{a(\phi)}\omega_{i}+c(y_{i},\phi,\omega_{i}))\] \(\phi\) : paramètre de dispersion connu
\(\theta\) : paramètre canonique inconnue
a,b et c sont des fonctions connues et spécifiées selon la loi exponentielle en question (poisson,binomiale,etc).\ On a par ailleur :
\(E(Y)=b'(\theta)=\mu\) et \(Var(Y)=\phi b''(\theta)=\phi V(u)\)
\(Y_{i}\) peut être binaire dans le cas elle exprime un événement de présence absence ou bien sucés ou échec (loi de Bernoulli , binomiale),distribuée selon une loi de poisson ou une loi normale
les variables explicaives \(X_{1}\),….,\(X_{k}\) utilisées comme des prédicteurs définissent sous forme linéaire \(\nu = \beta X,\) la composante déterministe. V est la fonction de variance qui lie la moyenne à la variance de la réponse.
la fonction lien g décrit la relation fonctionnelle entre la combinaison linéaire des variables (X1,….,Xk) et l’espérance mathématique de la variable de réponse: \(E(Y)=g(\nu)=\mu\)
Hachemeister et Stanard(1975),Kremer (1982) and finally Mack (1991),ont examiné la validité de la distributivité des payements cumulés selon une loi de poisson et ses provisions sont identiques à celle de chain ladder .
l’idée consiste que les \(C_{i,j}\) sont distribués selon une loi de poisson , pour nous c’est la variables à expliquer et les variables explicatives sont les années de survenance et les années de développement qui sont considérées comme des facteurs . le modèle s’écrit sous la forme suivante: \[\log(E(C_{i,j}))= develop+survenance+cst+\epsilon\]
pour la modélisation poissonnière on risque d’avoir un problème de sur dispersion pour cela on a besoin de le tester pour sa validité d’une perspective statistique .En effet,la sur-dispersion est causé par la mauvaise adéquation du modèle à une loi de poisson du coup la variance de la variable réponse y est supérieure à la variance de la loi de poisson posée sur les données .
\[var(y) = \mu{}+c\mu^2\]
avec c est le paramètre de dispersion.une valeur de ce paramètre supérieure à 1 est un signe d’une sur-dispersion des données par rapport à la variance du modèle de poisson et s’il est inférieur à 1 on a une sous-dispersion. on cherche à tester alors
\(H_{0}\): c = 0 contre \(H_{1}\)c=!0
la statistique de test est considéré comme suit : \[T = \frac{\sum_{i=1}^{n}{[(Y_{i}-\hat\mu_{i})^2-Y_{i}]}}{\sqrt{2\sum_{i=1}^{n}{\hat{\mu_{i}^2}}}}\] qui suit sous H0 une loi normale centré réduite.
Résultat de la régression
##
## Call: glm(formula = y ~ as.factor(D) + as.factor(a), family = quasipoisson(link = "log"),
## data = base)
##
## Coefficients:
## (Intercept) as.factor(D)2 as.factor(D)3 as.factor(D)4
## 13.7301 0.1860 0.2221 0.2539
## as.factor(D)5 as.factor(a)2014 as.factor(a)2015 as.factor(a)2016
## 0.2731 1.2979 1.8658 2.4376
## as.factor(a)2017
## 2.7507
##
## Degrees of Freedom: 14 Total (i.e. Null); 6 Residual
## (10 observations deleted due to missingness)
## Null Deviance: 49360000
## Residual Deviance: 9852 AIC: NA
## [1] 6137066
## [1] 0.00 84062.18 387355.28 1152408.05 4513240.49
##
## Call: glm(formula = y ~ as.factor(D) + as.factor(a), family = poisson(link = "log"),
## data = base1)
##
## Coefficients:
## (Intercept) as.factor(D)2 as.factor(D)3 as.factor(D)4
## 13.7301 0.1860 0.2221 0.2539
## as.factor(D)5 as.factor(a)2014 as.factor(a)2015 as.factor(a)2016
## 0.2731 1.2979 1.8658 2.4376
## as.factor(a)2017
## 2.7507
##
## Degrees of Freedom: 14 Total (i.e. Null); 6 Residual
## (10 observations deleted due to missingness)
## Null Deviance: 49360000
## Residual Deviance: 9852 AIC: 10120
##
## Overdispersion test
##
## data: reg1
## z = 2.1468, p-value = 0.0159
## alternative hypothesis: true dispersion is greater than 1
## sample estimates:
## dispersion
## 655.8491
##
## Call:
## glm(formula = y ~ as.factor(ai) + as.factor(bj), family = poisson,
## data = base)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -61.033 -5.131 0.000 6.403 54.124
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 1.373e+01 5.390e-04 25473.6 <2e-16 ***
## as.factor(ai)2014 1.298e+00 5.408e-04 2400.1 <2e-16 ***
## as.factor(ai)2015 1.866e+00 5.449e-04 3424.3 <2e-16 ***
## as.factor(ai)2016 2.438e+00 5.544e-04 4397.1 <2e-16 ***
## as.factor(ai)2017 2.751e+00 6.001e-04 4583.9 <2e-16 ***
## as.factor(bj)1 1.860e-01 2.972e-04 625.7 <2e-16 ***
## as.factor(bj)2 2.221e-01 3.863e-04 575.1 <2e-16 ***
## as.factor(bj)3 2.539e-01 5.398e-04 470.4 <2e-16 ***
## as.factor(bj)4 2.731e-01 1.058e-03 258.1 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for poisson family taken to be 1)
##
## Null deviance: 49359358.9 on 14 degrees of freedom
## Residual deviance: 9851.5 on 6 degrees of freedom
## (10 observations deleted due to missingness)
## AIC: 10124
##
## Number of Fisher Scoring iterations: 3
## [,1] [,2] [,3] [,4] [,5]
## [1,] 918102.6 1105736 1146476 1183466 1206425
## [2,] 3361580.8 4048591 4197757 4333195 4417257
## [3,] 5932237.2 7144615 7407851 7646861 7795206
## [4,] 10507908.4 12655421 13121697 13545060 13807829
## [5,] 14371474.0 17308587 17946305 18525331 18884715
## [,1] [,2] [,3] [,4] [,5]
## S1 915266 1111592 1130498 1196425 1206425
## S2 3250301 4157982 4212604 4320236 NA
## S3 5922414 7153307 7408982 NA NA
## S4 10631848 12531481 NA NA NA
## S5 14371474 NA NA NA NA
##
## Call:
## glm(formula = y ~ as.factor(ai) + as.factor(bj), family = poisson,
## data = base)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -61.033 -5.131 0.000 6.403 54.124
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 1.373e+01 5.390e-04 25473.6 <2e-16 ***
## as.factor(ai)2014 1.298e+00 5.408e-04 2400.1 <2e-16 ***
## as.factor(ai)2015 1.866e+00 5.449e-04 3424.3 <2e-16 ***
## as.factor(ai)2016 2.438e+00 5.544e-04 4397.1 <2e-16 ***
## as.factor(ai)2017 2.751e+00 6.001e-04 4583.9 <2e-16 ***
## as.factor(bj)1 1.860e-01 2.972e-04 625.7 <2e-16 ***
## as.factor(bj)2 2.221e-01 3.863e-04 575.1 <2e-16 ***
## as.factor(bj)3 2.539e-01 5.398e-04 470.4 <2e-16 ***
## as.factor(bj)4 2.731e-01 1.058e-03 258.1 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for poisson family taken to be 1)
##
## Null deviance: 49359358.9 on 14 degrees of freedom
## Residual deviance: 9851.5 on 6 degrees of freedom
## (10 observations deleted due to missingness)
## AIC: 10124
##
## Number of Fisher Scoring iterations: 3
on avait commencé à regarder erreurs commises, sur la partie supérieure du triangle. Classiquement, par construction, les résidus de Pearson sont de la forme
\(\epsilon_{i}=\frac{Y_{i}-\widehat{Y_{i}}}{\sqrt{Var(Y_{i})}}\)
## [,1] [,2] [,3] [,4] [,5]
## [1,] -3.0 5.6 -14.9 11.9 0
## [2,] -60.7 54.4 7.2 -6.2 NA
## [3,] -4.0 3.3 0.4 NA NA
## [4,] 38.2 -34.8 NA NA NA
## [5,] 0.0 NA NA NA NA
Aussi, il convient de corriger l’estimateur de la variance, et on pose alors \(\epsilon_{i}=\sqrt{\frac{n}{n-k}}\frac{Y_{i}-\widehat{Y_{i}}}{\sqrt{Var(Y_{i})}}\)
## [1] -4.290052e+00 -8.795370e+01 -5.844584e+00 5.540661e+01 -3.132866e-11
## [6] 8.069955e+00 7.878457e+01 4.712543e+00 -5.048721e+01 -2.162463e+01
## [11] 1.050127e+01 6.021256e-01 1.726215e+01 -9.021293e+00 -1.443768e-11