6/4/2021

Introducción

Muchos conjuntos de datos actuariales se dividen en dos partes:

  • Una parte para la frecuencia, indicando si se ha producido una reclamación o, de manera más general, el número de reclamaciones
  • Una parte de la severidad, indicando el monto de una reclamación.

En actuaría, esta es la forma tradicional de descomponer datos en dos partes, donde se puede considerar que un cero surge de una póliza sin reclamación. Debido a esta descomposición, los modelos de dos partes también se conocen como modelos de frecuencia-severidad.

La información de atención a la salud también presenta una gran proporción de ceros. Estos valores cero pueden representar la falta de utilización de la atención médica por parte de una persona, la ausencia de gastos o la no participación en un programa. Con respecto al cuidado de la salud, algunas áreas prominentes de aplicabilidad potencial son:

  • Investigación de resultados: cantidad de utilización o gastos de atención médica
  • Demanda de atención médica: cantidad de atención médica solicitada, como la cantidad de visitas a consulta médica
  • Abuso de sustancias: cantidad consumida de tabaco, alcohol y drogas ilícitas

La separación entre frecuencia y severidad puede oscurecerse mediante la forma de registrar un número positivo al ingresar el monto de reclamación y un cero cuando no hay reclamaciones.

Es fácil pasar por alto una gran proporción de ceros, especialmente cuando también se toman en cuenta muchas covariables que pueden ayudar a explicar una variable dependiente. Ignorar la naturaleza de dos partes puede conducir a un sesgo significativo.

Por el contrario, muchas aseguradoras mantienen archivos de datos separados por frecuencia y severidad. En estos archivo registran mucha información de suscripción sobre la población asegurada, como la edad, el sexo y la experiencia previa en reclamaciones; información de la póliza como cobertura, deducibles y exclusiones; e información sobre eventos de reclamaciones. Análogamente, también se cuenta con archivos que registran los detalles de la reclamación contra la aseguradora, incluido el monto. Este proceso de registro hace que sea natural para las aseguradoras modelar la frecuencia y severidad como procesos separados.

Modelo Tobit

Una forma de modelar una gran proporción de ceros es asumir que la variable dependiente está censurada por la izquierda en cero. El modelo Tobit, es una forma de regresión censurada por la izquierda basado en el trabajo pionero de James Tobin (1958). Posteriormente, Goldberger (1964) acuñó la frase “modelo Tobit”, reconociendo el trabajo de Tobin y su similitud con el modelo probit.

Al igual que con los modelos probit (y otros modelos de respuesta binaria), utilizamos una variable \(y^∗\) no observada o latente que se supone que sigue un modelo de regresión lineal de la forma

\[y^*_i=\textbf{x}'_i \textbf{β} + ε_i.\]

Las respuestas están censuradas o “limitadas” en el sentido de que observamos \(y_i = \max (y _i^∗, d _i)\). Muchas aplicaciones usan \(d _i = 0\), que corresponde a cero ventas o gastos. Como ejemplo, se puede usar \(d _i\) para los gastos diarios reclamados por reembolso de viaje y permitir que el reembolso (por ejemplo, \(\$ 50\) o \(\$ 100\)) varíe según el personal \(i\).

Los parámetros del modelo consisten en los coeficientes de regresión, \(\textbf{β}\), y el término de variabilidad, \(σ ^2 = \text{Var} \,\ ε_ i\). Los coeficientes de regresión se interpretan como el cambio marginal de \(\text{E} \,\ y ^∗\) por cambio unitario en cada variable explicativa. Esto puede resultar satisfactorio en algunas aplicaciones, como cuando \(y ^∗\) representa una pérdida para las aseguradoras. Sin embargo, para la mayoría de las aplicaciones, se suele centrar la atención en cambios marginales en \(\text{E} \,\ y\), es decir, el valor esperado de la respuesta observada.

Para interpretar estos cambios marginales, se acostumbra adoptar la hipotesis de normalidad para la variable latente \(y_i ^∗\) (o equivalentemente para la perturbación \(ε _i\)). Con esta suposición,

\[\text{E} \,\ y_ i = d _i + \Phi\Big(\frac{\textbf{x}'_i \textbf{β} -d_i}{\sigma}\Big)(\textbf{x}'_i \textbf{β} -d_i+\sigma \lambda_i)\]

donde

\[λ _i = \frac{\phi ((\textbf{x}'_i \textbf{β} − d_i )/σ)}{\Phi((\textbf{x}'_i \textbf{β} − d _i )/σ)}.\] Aquí, \(\phi(·)\) and \(\Phi(·)\) son la densidad y distribución de una normal estándar, respectivamente. La razón entre una función de densidad contra su función de distribución se conoce como la relación inversa de Mill.

Demostración

Sea \(Y\) una variable aleatoria normal truncada \(TN.-\mu,\sigma^2,a,b\) con función de densidad

\[f_Y(y)=\frac{\frac{1}{\sqrt{2\pi \sigma^2}}\exp\big(\frac{-(y-\mu)^2}{2\sigma ^2}\big)}{\Phi\big(\frac{b-\mu}{\sigma ^2}\big)-\Phi\big(\frac{a-\mu}{\sigma ^2}\big)}\mathbf{1}_{[a,b]}(y),\] donde la indicadora

\[\mathbf{1}_{[a,b]}(y)=1 \,\ \text{si} \,\ a\leq y \leq b,\]

y cero en otro caso. Sea \(c=\frac{1}{\Phi\big(\frac{b-\mu}{\sigma ^2}\big)-\Phi\big(\frac{a-\mu}{\sigma ^2}\big)}\), entonces

\[\mathbb{E}(Y)=\int_a^byf_Y(y)dy.\] Así,

\[\frac{1}{c}\mathbb{E}(Y)=\int_a^b\frac{y}{\sqrt{2\pi \sigma^2}}\exp\Big(\frac{-(y-\mu)^2}{2\sigma^2}\Big)dy\]

\[=\int_a^b\frac{y-\mu}{\sigma}\frac{1}{\sqrt{2\pi }}\exp\Big(\frac{-(y-\mu)^2}{2\sigma^2}\Big)dy\] \[+\frac{\mu}{\sigma}\frac{1}{\sqrt{2\pi}}\int_a^b\exp\Big(\frac{-(y-\mu)^2}{2\sigma^2}\Big)dy\]

\[=\int_a^b\frac{y-\mu}{\sigma}\frac{1}{\sqrt{2\pi }}\exp\Big(\frac{-(y-\mu)^2}{2\sigma^2}\Big)dy\]

\[+\mu\int_a^b\frac{1}{\sqrt{2\pi \sigma^2 }}\exp\Big(\frac{-(y-\mu)^2}{2\sigma^2}\Big)dy.\]

Sea \(z=(y-\mu)/\sigma\) y \(dz=dy/\sigma\), entonces

\[\frac{1}{c}\mathbb{E}(Y)=\int_{\frac{a-\mu}{\sigma}}^{\frac{b-\mu}{\sigma}} \sigma\frac{z}{\sqrt{2\pi}}e^{-z^2/2}dz+\frac{\mu}{c}\] \[=\frac{\sigma}{\sqrt{2\pi}}(-e^{-z^2/2})\Big|_{\frac{a-\mu}{\sigma}}^{\frac{b-\mu}{\sigma}}+\frac{\mu}{c}.\]

Multiplicando por \(c\)

\[\mathbb{E}(Y)=\mu+\sigma\frac{\phi\big(\frac{b-\mu}{\sigma ^2}\big)-\phi\big(\frac{a-\mu}{\sigma ^2}\big)}{\Phi\big(\frac{b-\mu}{\sigma ^2}\big)-\Phi\big(\frac{a-\mu}{\sigma ^2}\big)}\]Por último, si en la relación \(\max(y,d)\) se tiene que \(y>d\), entonces lo hace con probabilidad \((1 − \Phi(d _s ))\) y análogamente si \(y<d\), lo hace con probabilidad \(\Phi(d_s )\). Por lo tanto para calcular el valor esperado buscado se obtiene,

\[\text{E} \,\ \max(y,d)= (μ + σ \mathbf{h} (d_s )) (1 − \Phi(d _s )) + d\Phi(d_s ),\] donde \(\mathbf{h}(d)=\frac{\phi(d)}{1-\Phi(d)}\) y \(d_s=\frac{d-\mu}{\sigma}\). \(\textbf{Q.E.D.}\)

Para estimar el modelo Tobit se usa el supuesto de normalidad, la log-verosimilitud se puede expresar como

\[\ln L= \sum_{i:y_i=d_i} \ln \Big\{(1- \Phi\Big(\frac{\textbf{x}'_i \textbf{β} -d_i}{\sigma}\Big) \Big\}\]

\[-\frac{1}{2}\sum_{i:y_i>d_i} \Big\{\ln 2\pi \sigma ^2 +\frac{(y_i - \textbf{x}'_i \textbf{β})^2}{\sigma^2}\Big\},\]

donde \(\{i: y _i = d _i\}\) y \(\{i: y_ i> d _i\}\) representan la suma de las observaciones censuradas y no censuradas, respectivamente. El algoritmo en dos etapas de Heckman (1976), primero resta \(d_ i\) de cada \(y_ i\), de modo que se pueda tomar \(d_ i\) como cero, útil al seleccionar la ecuación de regresión.

Algoritmo de Heckman para estimar parámetros del Tobit:

  • Para la primera etapa, se define la variable binaria

\[ r_i= \begin{cases} 1, & \text{si } y_i >0 \\ 0, & \text{si } y_i=0 \end{cases} \]

indicando si la observación está censurada. Se hace una regresión probit utilizando \(r_ i\) como variable dependiente y \(x_ i\) como variables explicativa. Se obtienen los coeficientes de regresión \(\textbf{g}_{ PROBIT}\).

  • Para cada observación sin censura, se calcula la variable estimada

\[\widehat{\lambda}=\frac{\phi(\textbf{x}'_i\textbf{g}_{ PROBIT})}{\Phi(\textbf{x}'_i\textbf{g}_{ PROBIT})},\]

una razón de Mill inversa. Con esto, se realiza una regresión de \(y_ i\) sobre \(\textbf{x}_ i\) y \(\widehat{λ}_ i\). Se obtienen los coeficientes de regresión \(\textbf{b}_{2SLS}\).

Los coeficientes de regresión \(\textbf{b}_{ 2SLS}\) proporcionan estimaciones asintóticamente normales de \(\textbf{β}\).

Sin embargo, son ineficientes en comparación con los estimadores de máxima verosimilitud, \(\textbf{b}_{ MLE}\), puesto que \(\text{Var} (y _i | y_ i> d_ i)\) depende de \(i\) (incluso cuando \(d_ i\) es constante).

Por lo tanto, se acostumbra utilizar errores estándar consistentes con heterocedasticidad para \(\textbf{b}_ {2SLS}\).

\[\text{Var}(Y)=\sigma ^2\Bigg[1+\frac{\big(\frac{a-\mu}{\sigma}\big)\phi\big(\frac{a-\mu}{\sigma}\big)-\big(\frac{b-\mu}{\sigma}\big)\phi\big(\frac{b-\mu}{\sigma}\big)}{\Phi\big(\frac{b-\mu}{\sigma}\big)-\Phi\big(\frac{a-\mu}{\sigma}\big)}\Bigg]\]

\[-\sigma^2\Bigg[\frac{\big(\phi\big(\frac{a-\mu}{\sigma}\big)-\phi\big(\frac{b-\mu}{\sigma}\big)}{\Phi\big(\frac{b-\mu}{\sigma}\big)-\Phi\big(\frac{a-\mu}{\sigma}\big)}\Bigg]^2\]

Demostración

Sea \(Y\) una normal truncada \(TN.-\mu,\sigma^2,a,b\), entonces

\[\mathbb{E}(Y^2)=\int_a^by^2f_Y(y)dy.\] Sea \(c=\frac{1}{\Phi\big(\frac{b-\mu}{\sigma ^2}\big)-\Phi\big(\frac{a-\mu}{\sigma ^2}\big)}\), luego

\[\frac{1}{c}\mathbb{E}(Y^2)=\int_a^b\frac{y^2}{\sqrt{2\pi \sigma^2}}\exp\big(\frac{-(y-\mu)^2}{2\sigma^2}\big)dy\] \[=\sigma\int_a^b\big(\frac{y^2}{\sigma^2}-\frac{2\mu y}{\sigma^2}+\frac{\mu^2}{\sigma^2}\big)\frac{1}{\sqrt{2\pi}}\exp\big(\frac{-(y-\mu)^2}{2\sigma ^2}\big)dy\]

\[+\sigma \int_a^b\frac{2y\mu-\mu^2}{\sigma^2}\frac{1}{\sqrt{2\pi}}\exp\big(\frac{-(y-\mu)^2}{2\sigma^2}\big)dy\] \[\sigma\int_a^b\big(\frac{y-\mu}{\sigma}\big)^2\frac{1}{\sqrt{2\pi}}\exp\big(\frac{-(y-\mu)^2}{2\sigma^2}\big)dy +2\frac{\mu}{\sigma}\mathbb{E}(Y)-\frac{\mu^2}{c}.\]

Sea \(z=(y-\mu)/ \sigma\). Entonces \(dz=dy/\sigma\), \(dy=\sigma dz\) y \(y=\sigma z+\mu\). Así,

\[\frac{\mathbb{E}(Y^2)}{c}=2\frac{\mu}{c}\mathbb{E}(Y)-\frac{\mu^2}{c}+\sigma\int_{\frac{a-\mu}{\sigma}}^{\frac{b-\mu}{\sigma}}\sigma\frac{z^2}{\sqrt2\pi}e^{-z²/2}dz.\]

Integrando por partes con \(u=z\) y \(dv=ze^{-z²/2}dz\) se obtiene

\[\frac{\mathbb{E}(Y^2)}{c}=2\frac{\mu}{c}\mathbb{E}(Y)-\frac{\mu^2}{c}+\frac{\sigma^2}{\sqrt{2\pi}}\big[(-ze^{-z²/2})\Big|_{\frac{a-\mu}{\sigma}}^{\frac{b-\mu}{\sigma}}\]

\[+\int_{\frac{a-\mu}{\sigma}}^{\frac{b-\mu}{\sigma}}e^{-z²/2}dz\big]\] \[=2\frac{\mu}{c}\mathbb{E}(Y)-\frac{\mu^2}{c}+\sigma^2\Big[\big(\frac{a-\mu}{\sigma}\big)\phi\big(\frac{a-\mu}{\sigma}\big)\]

\[-\big(\frac{b-\mu}{\sigma}\big)\phi\big(\frac{b-\mu}{\sigma}\big)+\frac{1}{c}\Big].\]

Como \(\text{Var}(Y)=c\frac{1}{c}\mathbb{E}(Y^2)-(\mathbb{E}(Y))^2\), se obtiene el resultado. \(\textbf{Q.E.D.}\)

Inconvenientes del Tobit son su dependencia del supuesto de normalidad en la respuesta latente. Una segunda desventaja es que una sola la magnitud que dicta la variable latente tanto en la variable de respuesta como en la de censura. Por ejemplo, en una población que fuma, cero cigarrillos consumidos durante una semana puede representar simplemente un límite inferior y puede estar influenciado por la disponibilidad de tiempo y dinero. Sin embargo, en una población general, cero cigarrillos consumidos durante una semana puede indicar que una persona no fuma. Además, el monto del gasto está influenciado por un proveedor de atención médica en la decisión de utilizar y la intensidad en la atención.

Modelos en dos partes

En la literatura actuarial tradicional, el modelo de riesgo individual descompone una respuesta, típicamente reclamaciones a la aseguradora, en componentes de frecuencia (número) y severidad (cantidad). Específicamente, sea \(r_ i\) una variable binaria que indica si la \(i-\)ésima persona presenta reclamaciones y sea \(y_ i\) el monto de estas. Entonces, la reclamación se modela como

\[\textit{(reclamación registrada)}=r_i\times y_i.\] Esta es la base del modelo de dos partes, donde también utilizamos variables explicativas para comprender la influencia de cada componente.

  • Los modelos en dos partes utiliza un modelo de regresión binaria con \(r _i\) como variable dependiente y \(\textbf{x}_{1i}\) como variables explicativas. Al conjunto de coeficientes de regresión correspondiente se denota como \(\textbf{β}_1\). Los modelos típicos incluyen los modelos de probabilidad lineal, logit y probit.

  • Condicional a \(r _i = 1\), se especifica un modelo de regresión con \(y _i\) como variable dependiente y \(\textbf{x}_{2i}\) como el conjunto de variables explicativas. Se denota al conjunto correspondiente de coeficientes de regresión como \(\textbf{β}_ 2\). Los modelos típicos incluyen los modelos de regresión lineal y gamma.

A diferencia del Tobit, no es necesario tener el mismo conjunto de variables explicativas, estas suelen ser parte tanto de \(\textbf{x}_ 1\) como de \(\textbf{x}_ 2\). \(\textbf{β}_ 1\) y \(\textbf{β}_ 2\) no están relacionados y los datos se pueden separar en dos componentes.

Modelo Tobit Tipo II

Se supone que la frecuencia sigue un modelo probit y se usa

\[r_i^*=\textbf{x}_{1i} \textbf{β}_1 +\eta_{1i},\] como la tendencia latente a ser observada. Se define \(r _i = \textbf{1}( r _i^ ∗> 0)\) como indicadora que se ha observado una cantidad. Se define

\[y _i^ ∗ = \textbf{x}_ {2i} \textbf{β}_ 2 + η _{2i},\] para la variable de cantidad latente. La cantidad “observada” es

\[ y_i= \begin{cases} y_i^*, & \text{si } r_i =1 \\ 0, & \text{si } r_i=0 \end{cases} \]

Las respuestas censuradas tienen en cuenta a la observación \(i\) y se tiene información covariada incluso cuando \(r _i = 0\).

Si \(\textbf{x}_{1i} = \textbf{x}_{2i}\), \(\textbf{β}_ 1 = \textbf{β}_2\) y \(η_{1i} = η_{2i}\), entonces esta es la estructura del Tobit con \(d_i = 0\). Si \(\textbf{β}_ 1\) y \(\textbf{β}_2\) no están relacionados y si \(η _{1i}\) y \(η_{2i}\) son independientes, entonces es la estructuira del modelo en dos partes, para el cual, la verosimilitud de las respuestas observadas \(\{r_ i, y _i\}\) viene dada por

\[L=\prod_{i=1}^n\Big\{(p_i)^{r_i}(1-p_i)^{1-r_i}\Big\}\prod_{r_i=1}\phi\Big(\frac{y_i-\textbf{x}'_{2i}\textbf{β}_ 2}{\sigma_{\eta^2}}\Big).\]

Aquí, \(p_i = \mathbb{P} (r_i = 1) = \mathbb{P} (\textbf{x}'_{1i} \textbf{β}_1 + η_{1i}> 0)\) \(= 1 -\Phi (−\textbf{x}'_{1i} \textbf{β}_1 )= \Phi(\textbf{x}'_{1i} \textbf{β}_1)\).

Suponiendo que \(\textbf{β}_ 1\) y \(\textbf{β}_ 2\) no están relacionados, se pueden maximizar por separado las dos partes de la función de verosimilitud. En algunos casos, es mejor asumir que los componentes de frecuencia y severidad están relacionados. El modelo Tobit considera una relación perfecta (con \(η _{1i} = η_ {2i}\)), los modelos en dos partes asumen independencia y para una opción intermedia, el modelo Tobit tipo II permite una correlación distinta a cero entre \(η _{1i}\) y \(η_ {2i}\).