Introducción

Imagínate esto: Te levantas una mañana y te sientes un poco enfermo. No tienes síntomas particulares, pero no estás del todo bien. Entonces vas al doctor y tampoco sabe que te está pasando y te sugiere hacer una serie de exámenes. Después de una semana, tienes los resultados y resulta que eres positivo para una enfermedad muy rara que solo afecta al 0.1% de la población. Y es una enfermedad terrible con consecuencias horribles, no desearías tenerla.

Entonces le preguntas al doctor: “¿Cuán certera es la probabilidad de tenerla?” Y responde “bueno, el examen correctamente identificará a un 99% de las personas que tenían la enfermedad e identificará incorrectamente al otro 1% que no la tienen” Eso suena bastante mal. Es decir, ¿Cuál es la probabilidad de que realmente no poseas esta enfermedad? Creo que la mayoría dirían 99%, porque esa es la certeza del examen. Pero, eso no es del todo correcto. Necesitas el Teorema de Bayes para tener algo de perspectiva.

El Teorema de Bayes puede darte la probabilidad de una hipótesis, supongamos que en realidad tienes la enfermedad, es verdad dado el evento que el resultado fue positivo para esa enfermedad. Para calcular esto necesitas considerar la probabilidad anterior de que la hipótesis fuera verdad. Es decir, cuán probable pensaste que era tener la enfermedad antes de los resultados de los exámenes. Y lo multiplicas por la probabilidad del evento, dado que dicha hipótesis sea verdad.

\[P(H|E)=\frac{P(E|H) * P(H)}{P(H) * P(E|H) + P(-H) * P(E|-H)}\]

Es decir, cuán probable es un resultado positivo si tuvieras la enfermedad y luego, divides eso por la probabilidad total de que ocurra ese evento, o el resultado positivo. Este teorema es la combinación de la probabilidad de tener la enfermedad y efectivamente el resultado positivo, sumada a la probabilidad de no tener la enfermedad y obtener un falso positivo.

La primera probabilidad, de que la hipótesis sea verdad, es en general la parte más difícil de resolver de la ecuación. Y, a veces, no es nada más que una suposición. Pero en este caso, sería razonable empezar por la frecuencia de la enfermedad en la población, es decir 0.1% y si agregas el resto de los números, te darás cuenta de que tienes un 9% de probabilidad de realmente tener la enfermedad, después de un positivo.

Esto es sentido común aplicado a las matemáticas. Piensa en una muestra de 1000 personas. Bien, una persona entre esas 1000 tiene probabilidad de tener la enfermedad y, probablemente, el examen la identificó correctamente como poseedora de la enfermedad. ¿Pero de las otras 999 personas? El 1%, o diez personas, obtendrán un falso positivo para esa enfermedad. Entonces, si eres una de las personas a las cuales el examen le salió positivo y se elige a todos aleatoriamente, serías parte de un grupo de 11 personas en donde solo una persona tendrá la enfermedad. Entonces la probabilidad real de tener la enfermedad es de 1 en 11, el 9%. Realmente tiene sentido.

Cuando a Bayes se le ocurrió este teorema, no pensó que sería algo revolucionario. El ni siquiera pensó que era digno de publicarse, ni lo llevó a la Sociedad Real, de la cual él era miembro. De hecho fue descubierto entre sus papeles después de que murió y de haberlo abandonado por más de una década. Sus familiares le pidieron a su amigo, Richard Price que revisara entre sus papeles y viera si había si había algo digno de publicar. Y ahí fue donde Price descubrió lo que ahora conocemos como los orígenes del teorema de Bayes.

Conceptos

A continuación se presentan los siguientes conceptos para comprender la Estadística Bayesiana para aplicarlos al ramo de los seguros de daños.

¿Qué es la estadística frecuentista?

De acuerdo con Carreño, A “La estadística frecuentista, que es la que se desarrolla a partir de los conceptos de probabilidad y que se centra en el cálculo de probabilidades y los contrastes de hipótesis. De alguna forma, la estadística frecuentista tiene como objetivo determinar una conclusión, sea en base a significación estadística o aceptación y rechazo de hipótesis, siempre dentro del marco del estudio que se esté realizando. En el análisis estadístico que pretende comparar la eficacia de un nuevo tratamiento frente a otro conocido, se utiliza únicamente la información obtenida en el ensayo. No existen subjetividades referentes a parámetros, puesto que se han fijado los criterios de decisión a priori y estos permanecen estáticos durante todo el estudio.”

¿Qué es la estadística bayesiana?

Carreño también menciona que como enfoque alternativo a la estadística frecuentista, aparece cada vez más en escena la estadística bayesiana, basada como su nombre indica en el teorema de Bayes, y que se diferencia de la estadística frecuentista básicamente en la incorporación de información externa al estudio que se esté realizando, de manera que, tal como se ha explicado en la formulación del teorema de Bayes, si conocemos la probabilidad de que ocurra un suceso, su valor será modificado cuando dispongamos de esa información. Así pues, las fuentes de información “a priori” se ven trasformadas en probabilidad “a posteriori” y se utilizan a continuación para realizar la inferencia.

Teorema de Bayes

A continuación se muestra el Teorema de Bayes. Como se mencionó en la introducción si pensamos en los eventos \(F_j\) como posibles “hipótesis” sobre algún tema, entonces la fórmula de Bayes puede interpretarse como una forma de mostrar cómo las opiniones sobre estas hipótesis que se tenían antes de realizar el experimento [es decir, el \(P(F_j)\)] deben ser modificadas por la evidencia producida por el experimento.

\[P(F_j|E)=\frac{P(E F_j)}{P(E)}=\frac{P(E|F_j)P(F_j)}{\sum_{i=1}^{n}P(E|F_i)P(F_i)}\]

La aplicación que tiene el Teorema de Bayes en la Estadística Bayesiana es poder actualizar la estimación del parametro con la información recabada de los datos.

  • Notemos:
    • \(\theta\) debe tener una distribución de probabilidad que \(p(\theta)\) que refleje el conocimiento inicial de los datos.
    • La información sobre \(\theta\) que contiene la muestra aleatoria seleccionada, está resumida en la verosimilitud \(p(\underline{x}|\theta) = L(\theta|\underline{x})\)
    • El valor de \(\theta\) queda descrito a través de su distribución final \(p(\theta|\underline{x})\)

Bajo el esquema del Teorema de Bayes, se puede considerar:

\[p(\theta|\underline{x})=\frac{p(\underline{x}|\theta)p(\theta)}{\int p(\underline{x}|\theta)p(\theta)d\theta}\]

Distribución a priori

La distribución a priori es una parte clave de la inferencia bayesiana y representa la información sobre un parámetro incierto que se combina con la distribución de probabilidad de los nuevos datos para obtener la distribución a posteriori, que a su vez se utiliza para futuras inferencias y decisiones relacionadas con el parámetro. La existencia de una distribución a priori para cualquier problema puede justificarse mediante axiomas de Teoría de la decisión.

\[p(\theta)\]

Distribución a posteriori

La distribución posterior se refiere a la distribución condicional de cantidades desconocidas a partir de datos observados, obtenida mediante la combinación de información de la distribución anterior y los datos utilizando el teorema de Bayes. Es fundamental para la inferencia bayesiana y proporciona una base para realizar afirmaciones de probabilidad y derivar estimaciones puntuales e intervalos para los parámetros.

\[p(\theta|\underline{x})\]

Verosimilitud

La función de verosimilitud es una función de los parámetros de un modelo estadístico que permite realizar inferencias acerca de su valor a partir de un conjunto de observaciones. Esto es contrario a la probabilidad, pues ya se conocen los parámetros y se realizan predicciones acerca de los valores que toma una variable aleatoria.

La función de verosimilitud se define como sigue:

\[L(b|A)=P(A|B=b)\]

Esto es: la probabilidad del evento \(A\) dado que el parámetro \(B\) vale \(b\). La función por sí sola no se utiliza como tal, si no que se aplica para un método llamado Máxima Verosimilitud para estimar los parámetros de una distribución de probabilidad. Es importante notar que, si los datos son independientes y siguen una distribución \(f(x|\theta)\), la función de verosimilitud se expresa como:

\[L(\theta|x_1,x_2,\ldots,x_n)=L(\theta|\underline{x})=\prod_{i=1}^{n}f(x_i|\theta)\]

Donde \(f(x_i|\theta)\) es la función de densidad de probabilidad para datos continuos o la función de probabilidad para datos discretos, como se presentó antes \(p(\underline{x}|\theta)\).

Distribución Marginal

De acuerdo con Rincón, L. Dada una distribución \(F(x_1,x_2,\ldots,x_n)=F(\overrightarrow{x})\) de un vector aleatorio \((X_1,X_2,\ldots,X_n)=(\overrightarrow{X})\) es posible obtener la función de distribución de cada variable aleatoria por separado mediante el siguiente procedimiento:

\[F(x_i)=\lim_{x_1,\ldots,x_{i-1},x_{i+1},\ldots,x_n \rightarrow\infty}F(\overrightarrow{x})\]

Inferencia Bayesiana

La inferencia bayesiana es un tipo de inferencia estadistica en la que las evidencias u observaciones se emplean para actualizar o inferir la probabilidad de que una hipotesis pueda ser cierta. El razonamiento bayesiano proporciona un enfoque probabilístico a la inferencia. Esta basado en la suposicion de que las cantidad de interes son gobernadas por distribuciones de probabilidad y que se pueden tomar decisiones óptimas razonando sobre estas probabilidades junto con los datos obtenidos. La inferencia bayesiana también es una técnica de aprendizaje que utiliza probabilidades para definir y razonar sobre nuestras creencias. En particular, este método nos brinda una manera de actualizar adecuadamente nuestras creencias cuando se realizan nuevas observaciones. Se utiliza con menos frecuencia en el campo del aprendizaje automático, pero ofrece un marco elegante para comprender qué es realmente el “aprendizaje”.

Modelos jerárquicos bayesianos

En estadística, es frecuente el tratamiento de modelos que, por la estructura del problema, contengan varios parámetros \(\theta_1,\ldots,\theta_J\) que son dependientes entre sí. Una estructura jerárquica, en esencia, significa abordar un modelo con las siguientes propiedades. En primer lugar, consideraremos a los parámetros \(\theta_j\) como observaciones de una distribución a priori \([\theta|\phi]\) dependiente de algún hiperparámetro \(\phi\), que suponemos desconocido. En segundo lugar, una hipótesis básica de un modelo jerárquico es que la distribución de \(y\) solo depende de \(\phi\) a través de \(\theta\), es decir, \([y|\phi,\theta]=[y|\theta]\). Si consideraremos datos \(y_{i,j}\) con distribución normal N\((\theta_j,\sigma^{2})\), para \(j=1,\ldots,J\) e \(i=1,\ldots,n_j\), y supondremos que \(\theta_j \sim N(\mu,\tau^{2})\) θ j ∼ N(μ, τ2). Gráficamente, la estructura de dependencia jerárquica se refleja en el siguiente diagrama:

image

El potencial de los modelos jerárquicos se basa en que permite considerar parámetros relacionados entre sí, pero no iguales. Por ejemplo, en el modelo jerárquico anterior, los parámetros \(\theta_j\) son las medias de \(J\) grupos diferentes. En un modelo no jerárquico podríamos considerar que esas medias son todas iguales, o bien que son diferentes e independientes. La primera opción es muy restrictiva, ya que impone que todas las observaciones compartan la misma media, lo que es una hipótesis poco oportuna en varias situaciones. En cuanto a la segunda opción, pese a ser más flexible, no permite capturar las posibles, y probables, relaciones de dependencia entre las medias de diferentes grupos. Un modelo jerárquico nos permite representar un rango de situaciones mucho más general, que incluye los dos casos anteriores como particulares. Además, la estructura jerárquica consigue evitar problemas de sobreajuste, al permitir una gran flexibilidad en el modelo con un número reducido de parámetros.

Biografías

A continuación se habla de matemáticos que contribuyeron enormemente a la Estadística Bayesiana.

Thomas Bayes (1701 - 1761)

Thomas Bayes fue un matemático y clérigo inglés, nacido en Londres y educado en la Universidad de Edimburgo. Aunque su vida profesional estuvo dedicada a la religión, Bayes es recordado principalmente por su contribución a la probabilidad, lo que lleva su nombre hoy: el teorema de Bayes.

Su trabajo más influyente, publicado póstumamente en 1763 bajo el título “An Essay towards solving a Problem in the Doctrine of Chances”, introdujo lo que más tarde sería conocido como el Teorema de Bayes. Este teorema proporciona una manera de actualizar la probabilidad de un evento basado en nueva información, integrando de manera formal la incertidumbre y el conocimiento previo (probabilidad a priori). Esta idea es fundamental en la estadística bayesiana, que usa probabilidades a priori para obtener inferencias sobre eventos futuros.



Pierre-Simon Laplace (1749 - 1827)

Pierre-Simon Laplace fue un matemático, astrónomo y físico francés, considerado una de las mentes más brillantes del siglo XVIII. Estudió en París y se convirtió en un miembro destacado de la Academia Francesa de Ciencias. Laplace realizó importantes contribuciones en varios campos, incluyendo las matemáticas, la física, y la probabilidad.

Aunque Bayes sentó las bases del enfoque bayesiano, fue Laplace quien desarrolló y amplió significativamente estas ideas. En su obra “Théorie analytique des probabilités” (1812), Laplace generalizó el teorema de Bayes y aplicó el método bayesiano a numerosos problemas científicos y estadísticos, formalizando la llamada inferencia bayesiana. Laplace también introdujo el concepto de probabilidad a priori como una expresión de la incertidumbre en la ausencia de datos. Sus trabajos fueron fundamentales para establecer el marco de la estadística moderna, tanto en su versión clásica como bayesiana.




Harold Jeffreys (1891–1989)

Sir Harold Jeffreys fue un matemático, geofísico y estadístico británico. Estudió en la Universidad de Cambridge, donde desarrolló una carrera destacada como profesor e investigador. A lo largo de su vida, Jeffreys realizó contribuciones en diversas áreas como la geofísica, la cosmología y la estadística.

Jeffreys es recordado por su enfoque formal y riguroso de la estadística bayesiana. Su obra más influyente, “Theory of Probability” (1939), consolidó el enfoque bayesiano en la estadística moderna. Jeffreys defendió el uso del método bayesiano para la inferencia científica y propuso el uso de distribuciones de probabilidad a priori no informativas (hoy conocidas como prior de Jeffreys), que permiten realizar análisis bayesianos incluso en situaciones donde no hay información previa disponible. También aportó a la teoría de la verosimilitud, influenciando el desarrollo de la estadística moderna.