16/4/2021

Introducción

La modelación de riesgos colectivos consiste en una serie de técnicas para medir el riesgo asociado con una cartera de contratos de seguro. Se trata de modelar la distribución de la cantidad de pérdida agregada, que es la distribución de sumas compuestas. Sea la variable aleatoria \(S\) la cantidad total de siniestros de una cartera de riesgos independientes durante un período de tiempo fijo, la variable aleatoria \(N\) represente el número de siniestros (o frecuencia) en la cartera durante ese período y la variable \(X_j\) representa el monto de la reclamación \(j\) (o severidad). Entonces, tenemos la suma aleatoria

\[S=X_1+X_2+\cdots +X_N,\] donde \(X_1, X_2,...\) son v.a.i.i.d’s, cada una independiente de \(N\).

Cálculo de la distribución agregada

La finalidad de este enfoque, es estudiar la evaluación numérica de la función de distribución \(F _S\) de \(S\), dada por

\[F_S(x)=\mathbb{P}[S\leq x]=\sum_{n=0}^{\infty}[S\leq x|N=n]p_n=\sum_{n=0}^{\infty}F^*_X(x)p_n,\] donde \(F_X(x)=\mathbb{P}[X\leq x]\), \(F^*_X(x)=\mathbb{P}[X_1+\cdots +X_n\leq x]\) es la \(n-\)ésima convolución de \(F_X(\cdot)\) y \(p_n=\mathbb{P}[N=n]\) y si \(X\) corre en \(0,1,2,...\),

\[ F^{*k}_X(x)= \begin{cases} \mathbb{I}_{\{x\geq 0\}}, & \text{si } k=0 \\ F_X(x), & \text{si } k=1 \\ \sum_{y=0}^xF^{*(k-1)}_X(x-y)f_X(y), & \text{si } k=2,3,... \end{cases} \]

Como ejemplo, tenemos a la distribución gamma:

pgamsum <- function(x, dfreq, argfreq, shape, rate, Nmax=10){
tol <- 1e-10; maxit <- 10; nbclaim <- 0:Nmax
dnbclaim <- do.call(dfreq, c(list(x=nbclaim), argfreq))
psumfornbclaim <- sapply(nbclaim, function(n)
pgamma(x, shape=shape*n, rate=rate))
psumtot <- psumfornbclaim %*% dnbclaim
dnbclaimtot <- dnbclaim
iter <- 0
while( abs(sum(dnbclaimtot)-1) > tol && iter < maxit){
nbclaim <- nbclaim+Nmax
dnbclaim <- do.call(dfreq, c(list(x=nbclaim), argfreq))
psumfornbclaim <- sapply(nbclaim, function(n)
pgamma(x, shape=shape*n, rate=rate))
psumtot <- psumtot + psumfornbclaim %*% dnbclaim
dnbclaimtot <- c(dnbclaimtot, dnbclaim)
iter <- iter+1}
as.numeric(psumtot)}

A las distribuciones que poseen esta propiedad se les conoce como cerradas bajo convolución, lo que significa que la distribución de la suma de variables aleatorias independientes pertenece a la misma familia de distribuciones que la de las variables componentes, solo que con diferentes parámetros.

\[{\small \begin{matrix} \begin{array}{l|l|l} \hline \text{Distribución} X_i & \text{Distribución de } S_n \\ \hline N(\mu_i,\sigma_i^2) & N\left(\sum_{i=1}^{n}\mu_i,~\sum_{i=1}^{n}\sigma_i^2\right) \\ Exp(\theta) & Gam(n,\theta)\\ Gam(\alpha_i,\theta) & Gam\left(\sum_{i=1}^n\alpha_i,\theta\right) \\ Poi(\lambda_i)& Poi\left(\sum_{i=1}^{n}\lambda_i\right)\\ Bin(m_i, q)& Bin\left(\sum_{i=1}^n m_i, q\right)\\ Geo(\beta) & NB(\beta,n)\\ NB(\beta,r_i)& NB\left(\beta,\sum_{i=1}^n r_i\right)\\ \hline \end{array} \end{matrix} }\]

En general, la distribución de la suma \(X_ 1 + \cdots + X_ n\) no tiene necesariamente la misma distribución que \(X\). La fórmula recursiva de Panjer (1981) proporciona un método recursivo para calcular la función de probabilidad de \(S\) en el caso de que \(X\) tenga una distribución discreta y \(N\) pertenezca a la familia \((a, b, 0)\). La fórmula de recursividad para la función de probabilidad \(p _S\) es

\[p_S(s)=\frac{1}{1-ap_X(0)}\sum_{y=1}^{k}\Big(a+\frac{by}{x}\Big)p_X(y)p_S(x-y)\]

con \(k=1,2,3...\)

Demostración

Sea \(P_S(z)=P_N[P_X(z)]\) la función gneradora de probabilidad (f.g.p.) de la distribución compuesta, entonces

\[\mathbb{P}(S=0)=P(0)=P_N[P_X(0)]\]

Ahora, denotando \(g_n=\mathbb{P}(S=n)\), \(p_n=\mathbb{P}(N=n)\) y \(f_n=\mathbb{P}(X=n)\), se tiene que

\[g_r=\sum_{n=0}^{\infty}p_nf_r^{*n},\]

donde \(f_r^{*n}\) es la \(n-\)ésima convolución de la función \(f_r\).

Así,

\[g_r=\mathbb{P}(S=r)=\sum_{k=0}^{\infty}\mathbb{P}\Bigg[\sum_{j=1}^NX_j=r|N=k)\mathbb{P}(N=k)\Bigg]\]

\[=\sum_{k=1}^{\infty}\mathbb{P}\Big(\sum_{j=1}^NX_j=r\Big)p_k=f_r^{*1}p_1+\sum_{k=2}^{\infty}f_r^{*k}p_k \,\,\ (1) \]

Luego, por la recurrencia de las distribuciones \((a,b,0)\),

\[p_{k-1}\sum_{i=1}^{r-1}\Big(a+\frac{bi}{r}\Big)f_{r-i}^{*(k-1)}f_i\]

\[=p_{k-1}\sum_{i=1}^r\Big(a+\frac{bi}{r}\Big)\mathbb{P}(X_1+\cdots+X_{k-1}=r-i)\mathbb{P}(X_k=i)\]

\[=p_{k-1}\sum_{i=1}^r\Big(a+\frac{bi}{r}\Big)\mathbb{P}(X_1+\cdots+X_{k-1}=r-i,X_k=i)\]

\[=p_{k-1}\sum_{i=1}^r\Big(a+\frac{bi}{r}\Big)\mathbb{P}(X_1+\cdots+X_{k-1}+X_k=r,X_k=i)\] \[=p_{k-1}\sum_{i=1}^r\Big(a+\frac{bi}{r}\Big)\mathbb{P}\Big(X_k=i|\sum_{j=1}^kX_j=r\Big)\mathbb{P}\Big(\sum_{j=1}^kX_j=r\Big)\]

\[=p_{k-1}f_r^{*k}\sum_{i=1}^r\Big(a+\frac{bi}{r}\Big)\mathbb{P}\Big(X_k=i|\sum_{j=1}^kX_j=r\Big)\]

\[=p_{k-1}f_r^{*k}\mathbb{E}\Big(a+\frac{bX_k}{r}\Big|\sum_{j=1}^kX_j=r\Big)\] \[=p_{k-1}f_r^{*k}\Big[a+\frac{b}{r}\mathbb{E}\Big(X_k|\sum_{j=1}^kX_j=r\Big)\Big]\] en donde sumando los términos de la esperanza,

\[x=\mathbb{E}\Big(X_k|\sum_{j=1}^kX_j=r\Big), \,\ \cdots \,\ , \,\ x=\mathbb{E}\Big(X_1|\sum_{j=1}^kX_j=r\Big),\]

\[kx=\mathbb{E}\Big(X_1|\sum_{j=1}^kX_j=r\Big)=r.\] Lo anterior implica que

\[x=\frac{r}{k},\]

y así

\[p_{k-1}\sum_{i=1}^{r-1}\Big(a+\frac{bi}{r}\Big)f_{r-i}^{*(k-1)}f_i=p_{k-1}f_r^{*k}\Big(a+\frac{b}{r}\frac{r}{k}\Big)\] \[=\Big(a+\frac{b}{k}\Big)p_{k-1}f_r^{*k}=p_kf_r^{*k}.\]

Por lo tanto,

\[p_kf_r^{*k}=p_{k-1}\sum_{i=1}^{r-1}\Big(a+\frac{bi}{k}\Big)f_{r-i}^{*(k-1)}f_i \,\ \,\ k=1,2,3... \,\ \,\ (2)\]

Entonces, sustituyendo la ecuación resultante en \((2)\) en la ecuación \((1)\)

\[g_r=p_1f_r+\sum_{i=1}^{r-1}\Big(a+\frac{bi}{r}\Big)f_ig_{r-i},\] \[=\sum_{i=1}^r\Big(a+\frac{bi}{r}\Big)f_ig_{r-i}\] puesto que \(p_1=(a+b)p_0\).

Finalmente,

\[g_r=\sum_{í=1}^r\Big(a+\frac{bi}{r}\Big)f_ig_{r-i}, \,\ \text{para} \,\ r\geq 1\] \[g_0=\mathbb{P}(S=0)=\mathbb{P}(N=0)=p_0, \,\ \text{para} \,\ r=0. \,\ \textbf{Q.E.D.}\]

Momentos

La f.g.p. de \(S\) es

\[P_S(z)=\mathbb{E}(z^S)\] \[=\mathbb{E}[z^0]\mathbb{P}(N=0)+\sum_{n=1}^{\infty}\mathbb{E}[z^{X_1+X_2+\cdots +X_N}|N=n]\mathbb{P}(N=n)\]

\[=\mathbb{P}(N=0)+\sum_{n=1}^{\infty}\mathbb{E}\Bigg[\prod_{j=1} ^nz^{X_j}\Bigg]\mathbb{P}(N=n)\]

\[=\sum_{n=0}^{\infty}\mathbb{P}(N=n)[\mathbb{P}_X(z)]^n\]

\[=\mathbb{E}[\mathbb{P}_X(z)^N]=\mathbb{P}_N[\mathbb{P}_X(z)], \,\ \,\ (3)\]

por la independencia de \(X_1\cdots X_n\) para \(n\) fija. Con respecto a la función generadora de momentos (f.g.m),

\[M_S(z)=P_N[M_X(z)].\] Para el caso en que la frecuencia es en sí misma una distribución compuesta, \(P_N(z)=P_1[P_2(z)]\), la f.g.p. se vuelve \(P_S(z)=P_1\{P_2[P_X(z)]\}\).

Así, de \((3)\), los momentos de \(S\) pueden obtenerse en términos de \(N\) y de las \(X_j\)’s. Los primeros tres momentos son

\[\mathbb{E}(S)=\mu'_{S1}=\mu'_{N1}\mu'_{X1}=\mathbb{E}(N)\mathbb{E}(X).\] \[\text{Var}(S)=\mu_{S2}=\mu'_{N1}\mu_{X2}+\mu_{N2}(\mu'_{X1})^2=\mathbb{E}(N)\text{Var}(X)\] \[+\text{Var}(N)[\mathbb{E}(N)]^2.\] \[\mathbb{E}\{[S-\mathbb{E}(S)]^3\}=\mu_{S3}=\mu'_{N1}\mu_{X3}+3\mu_{N2}\mu'_{X1}\mu_{X2}\] \[+\mu_{N3}(\mu'_{X1})^3\] Aquí, el primer subíndice indica la variable aleatoria apropiada, el segundo subíndice indica el orden del momento y el superíndice prima (\('\)) indica momentos brutos (momentos sobre el origen) y no tiene superíndice prima para momentos centrales (momentos sobre la media). Se pueden utilizar para aproximar probabilidades de reclamaciones haciendo coincidir los primeros momentos del modelo y la muestra.

Discretización de las distribuciones del monto de la reclamación

Algunas técnicas numéricas para calcular la distribución del monto total de la reclamación requieren una distribución aritmética discreta del monto de la reclamación; es decir, una distribución definida en \(0, h, 2h,...\) para algún paso (o lapso, o retraso) \(h\).

El paquete \(\texttt{actuar}\) proporciona la función \(\texttt{discretize}\) para discretizar una distribución continua. (La función también se puede utilizar para modificar el soporte de una distribución ya discreta, pero esto requiere un cuidado adicional). Sea \(F(x)\) la distribución a discretizar en algún intervalo \((a, b)\) y sea \(f_x\) la de probabilidad en \(x\) de la distribución discretizada, \(\texttt{discretize}\) admite las siguientes cuatro formas de discretización:

  • Discretización superior o diferencia hacia adelante de \(F(x)\):

\[f_x=F(x+h)-F(x),\] para \(x=a,a+h,...,b-h\). La distribución discretizada siempre está por encima de la distribución verdadera.

  • Discretización inferior o diferencia hacia atrás de \(F(x)\):

\[ f_x= \begin{cases} F(a), & \text{si } x=a \\ F(x)-F(x-h), & \text{si } x=a+h,...,b. \end{cases} \] La discretización siempre está por debajo de la distribución verdadera.

  • Redondeo de la variable aleatoria o método del punto medio:

\[ f_x= \begin{cases} F(a+h/2), & \text{si } x=a \\ F(x+h/2)-F(x-h/2), & \text{si } x=a+h,...,b-h. \end{cases} \] La distribución verdadera pasa exactamente a la mitad de los pasos de la distribución discretizada.

  • Método de coincidencia insesgada o local del primer momento:

\[ f_x= \begin{cases} \frac{\mathbb{E}[X\wedge a]-\mathbb{E}[X\wedge a+h]}{h}+1-F(a), & \text{si } x=a \\ \frac{2\mathbb{E}[X\wedge x]-\mathbb{E}[X\wedge x-h]-\mathbb{E}[X\wedge x+h]}{h}, & \text{si } a<x<b \\ \frac{\mathbb{E}[X\wedge b]-\mathbb{E}[X\wedge b-h]}{h}-1+F(b), & \text{si } x=b \end{cases} \]

Las distribuciones discretizadas y las verdaderas tienen la misma probabilidad total y la misma esperanza en \((a, b)\).

Cabe señalar que, aunque gráficamente son muy similares, los métodos de redondeo e insesgada no son idénticos.

El uso de \(\texttt{discretize}\) es similar a la función \(\texttt{curve}\) de \(\texttt{R}\). La distribución para discretizar y, solo para el método insesgado, la función de valor esperado limitado se pasan a \(\texttt{discretize}\) como expresiones en \(x\). Los otros argumentos son los límites superior e inferior del intervalo de discretización, el paso \(h\) y el método de discretización.

La función \(\texttt{discretize}\) está escrita de forma modular, lo que simplifica la adición de otros métodos de discretización si es necesario.

La función \(\texttt{aggregateDist}\) de \(\texttt{actuar}\) sirve como una interfaz única para varios métodos para calcular o aproximar la distribución de la variable aleatoria \(S\) del monto agregado de la reclamación. Cinco métodos son admitidos:

  • Cálculo recursivo utilizando el algoritmo de Panjer. Esto requiere que la distribución de la severidad esté discretizada en \(0, 1, 2,. . . , m\) para alguna unidad monetaria y la distribución de frecuencia debe ser un miembro de la familia de distribuciones \((a, b, 0)\) o \((a, b, 1)\). Una distribución pertenece a la clase \((a, b, 1)\) de distribuciones siempre que existan constantes \(a\) y \(b\) tales que

\[p_k=\Big(a+\frac{b}{k}\Big)p_{k-1}, \,\ \,\ \,\ k=2,3,4...\]

  • Cálculo exacto por convoluciones. Esto también requiere una distribución para la severidad discretizada. Sin embargo, no hay ninguna restricción sobre la forma de la distribución de frecuencia. El paquete simplemente implementa las convoluciones que se calculan con la función \(\texttt{convolve}\) de \(\texttt{R}\), que a su vez usa la Transformada Rápida de Fourier. Este enfoque es práctico solo para problemas pequeños, incluso en las computadoras rápidas de hoy.

  • Aproximación normal de la distribución, es decir

\[F_S(x) \approx \Phi\Big(\frac{x-\mu_S}{\sigma_S}\Big),\] donde \(\mu_S=\mathbb{E}(S)\) y \(\sigma^2_S=\text{Var}(S)\). Para los modelos más realistas, esta aproximación es deficiente en las colas de la distribución.

  • Aproximación de potencia de la normal, esto es

\[F_S(x)=\Phi\Big(-\frac{3}{\gamma_S}+\sqrt{\frac{9}{\gamma^2_S}+1+\frac{6}{\gamma_S}\frac{x-\mu_S}{\sigma_S}}\Big),\] donde \(\gamma_S\) es el coeficiente de asímetría de \(S\), dado por

\[\gamma_S=\frac{1}{\text{Var}(S)^{3/2}}\Big[\gamma_N\text{Var}(N)^{3/2}\mathbb{E}(X)^3\] \[+3\text{Var}(N)\mathbb{E}(X)\text{Var}(X)+\mathbb{E}(N)\gamma_X\text{Var}(X)^{3/2}\Big]\] La aproximación es válida solo para \(x> μ_S\) y funciona relativamente bien cuando \(γ_S <1\).

  • Simulación de una muestra aleatoria de \(S\) y aproximación de \(F_S (x)\) mediante la distribución empírica

\[F_n(x)=\frac{1}{n}\sum_{j=1}^n\mathbb{I}_{\{x_j\leq x\}}.\] La simulación en sí se realiza con la función \(\texttt{simul}\). Esta función admite modelos jerárquicos muy generales tanto para los componentes de frecuencia como de severidad.

Se pueden agregar otros métodos por la concepción modular de \(\texttt{aggregateDist}\). El argumento \(\texttt{x.scale}\) especifica la unidad monetaria de la distribución de la severidad que hace la conversión entre el soporte de \(0, 1, 2,. . .\) asumido por métodos recursivo y de convolución y el verdadero soporte de \(S\).

\(\texttt{aggregateDist}\) devuelve un objeto de clase \(\texttt{"aggregateDist"}\) heredado de la clase \(\texttt{"function"}\). Por lo tanto, se puede usar el objeto como una función para calcular el valor de \(F_S(x)\) en cualquier \(x\). Se obtiene una buena gráfica de esta función con su propio método \(\texttt{plot}\).

La paquetería define algunos métodos de resumen para extraer información de los objetos \(\texttt{"aggregateDist"}\). Primero, existen los métodos \(\texttt{mean}\) y \(\texttt{quantile}\) para calcular fácilmente la media y obtener los cuantiles de la distribución aproximada. En segundo lugar, el paquete introduce las funciones genéricas \(\texttt{VaR}\) y \(\texttt{CTE}\) con métodos para objetos de la clase \(\texttt{"aggregateDist"}\). El primero calcula el valor en riesgo \(\text{VaR}_ α\) tal que

\[\mathbb{P}(S\leq \text{VaR}_{\alpha})=\alpha,\]

donde \(α\) es el nivel de confianza. Por tanto, el valor en riesgo no es más que un cuantil. En cuanto al método de \(\texttt{CTE}\), calcula la esperanza de cola condicional o \(\text{TVaR}\)

\[\text{CTE}_{\alpha}=\mathbb{E}(S|S> \text{VaR}_{\alpha}).\]