Teorema de Bayes

Si \(A\) y \(B\) so eventos con \(P(A)\) y \(P(B)\) mayores que cero

\[ \begin{aligned} P(A|B)&=\frac{P(B|A)}{P(B)} \end{aligned} \]

La \(P(A|B)\) es la probabilidad de \(A\) dado que el evento \(B\) ocurrió, la probabilidad de \(A\) se le llama la probabilidad a priori sin saber nada del evento \(B\), y la \(P(A|B)\) es una probabilidad posterior, la pregunta es ¿será que esto lo puedo pasar a funciones de masa o de densidad de probabilidad?

\[ \begin{aligned} f_{x|y}(x)&=\frac{f_{x,y}(x,y)}{f_y(y)} \end{aligned} \]

\[ \begin{aligned} f_{y|x}(y)=\frac{f_{y,x}(y,x)}{f_x(x)}&{\implies}f_{y,x}(y.x)=f_{y|x}(x)f_x(x) \end{aligned} \]

Reemplazando la segunda ecuación en la primera

\[ \begin{aligned} f_{x|y}(x)&=\frac{f_{y|x}(x)f_x(x)}{f_y(y)} \end{aligned} \]

Ahora, para denotar que \(x\) es un parámetro lo llamaremos \(\theta\)

\[ \begin{aligned} f_{\theta|y}(\theta)&=\frac{f_{y|\theta}(x)f_\theta(\theta)}{f_y(y)} \end{aligned} \]

Obteniendo así una función de densidad de un parámetro dado que ya se observó la muestra

Es un enfoque subjetivo porque admás de tener la muestra debo tener información extra de la muestra y además experiencia del evento; si fuese objetivo es vericable solo la muestra

Entonces la esperiencia se convierte en términos probabilísticos y se le asigna una distribución a priori prior \(f_\theta(\theta)\) y \(f_{\theta|y}(\theta)\) correspondería a que tanto cambio esa creencia después de haber tomado la muestra; lo que sería la distribucion poterio o a posteriori. Finalmente, quiero saber qué es \(f_{\theta|y}(\theta)\) es la función de verosimilitud

\[ \begin{aligned} f_{\theta|y}(\theta)=\frac{f_{y|\theta}(\theta)f_\theta(\theta)}{f_y(y)}&{\propto}f_{y|\theta}(y|\theta)f_\theta(\theta) \end{aligned} \]

Aquí elimino \(f_y(y)\) al considerarla constante, pues, no depende de \(\theta\)

LUego la función de densidad posterior \(f_{\theta|y}(\theta)\) es proporcional a la función de densidad prior \(f_\theta(\theta)\) por la verosimilitud \(f_{y|\theta}(x)\)

Ejemplo

Enfermos de gripa dependen de \(y_i|p\) donde \(p\) es la probabilidad de que, efetivamente, tengan gripa

\[ Y_i|P{\sim}Ber(P)\text{; tiene o no gripa} \]

Supongamos que son eventos independientes.

Hay un espacio de los parámetros \(P\in(0,1)\) y un \(\Omega=\left\{0,1\right\}\) espacio muestral

\[ \begin{aligned} f_{y_i|\theta}(\theta)&=f_{y_i|P}(y_i|P)\\ &={P}^{y_i}{(1-P)}^{1-y_i} \end{aligned} \]

Luego, la verosimilitud o distribución conjunta puede esciribrse como

\[ \begin{aligned} f_{y|\theta}(\theta)&=f_{y_1,y_2,\ldots,y_n|\theta}(y_1,y_2,\ldots,y_n|\theta)\\ &=f_{y_1,y_2,\ldots,y_n|P}(y_1,y_2,\ldots,y_n|P)\\ &=\prod_{i=1}^{n}{f_{y|P}(y_i|P)}\\ &=\prod_{i=1}^{n}{{P}^{y_i}{(1-P)}^{1-y_i}}\\ &={P}^{\sum_{i=1}^{n}{y_i}}{(1-P)}^{\sum_{i=1}^{n}{\left(1-y_i\right)}}\\ &={P}^{\sum_{i=1}^{n}{y_i}}{(1-P)}^{n-\sum_{i=1}^{n}{y_i}}\\ \end{aligned} \]

En donde \(P\in(0,1)\), al espacio de los parámetros lo denotaremos como \(\Theta\). Volviendo al ejemplo, digamos que el médico dice que la probabilidad se encuentra entre \(.05\) y \(.1\), esto es, \(0.05<P<0.1\); quiero ver como describir el comportamiento de estos datos

Funciones de rango \(\Theta=(0,1)\) pueden ser: uniforme o beta; debo elegir una función de probabilidad a la experiencia, a esto se le llama elicitación

Digamos que: \(\overline{P}=0.075\); y que el rango \(0.1-0.05\), de valores que toma \(P\), sobre \(4\) es una buena aproximación de la desviación estándas (muy empirico), luego \(sd=\frac{0.05}{4}=0.0125\) es un valor posible para la desviación estándar

Distribución Beta(a,b)

La esperanza y varianza de una Beta(a,b) son:

\[ \begin{aligned} E(X)&=\frac{a}{a+b}\\ Var(X)&=\frac{ab}{{(a+b)}^{2}(a+b+1)} \end{aligned} \]

Demostración

\[ \begin{aligned} E(X)&=\frac{a}{a+b}\\ &=\int_{0}^{1}{x{\cdot}\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}{x}^{a-1}{(1-x)}^{b-1}}{dx}\\ &=\int_{0}^{1}{\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}{x}^{a-1+1}{(1-x)}^{b-1}}{dx}\\ &=\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}\int_{0}^{1}{{x}^{(a+1)-1}{(1-x)}^{b-1}}{dx}\\ &=\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}\int_{0}^{1}{\frac{\frac{\Gamma(a+1+b)}{\Gamma(a+1)\Gamma(b)}}{\frac{\Gamma(a+1+b)}{\Gamma(a+1)\Gamma(b)}}{x}^{(a+1)-1}{(1-x)}^{b-1}}{dx}\\ &=\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}\frac{1}{\frac{\Gamma(a+1+b)}{\Gamma(a+1)\Gamma(b)}}\int_{0}^{1}{\frac{\Gamma(a+1+b)}{\Gamma(a+1)\Gamma(b)}{x}^{(a+1)-1}{(1-x)}^{b-1}}{dx}\\ &=\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}\frac{\Gamma(a+1)\Gamma(b)}{\Gamma(a+1+b)}\int_{0}^{1}{\frac{\Gamma(a+1+b)}{\Gamma(a+1)\Gamma(b)}{x}^{(a+1)-1}{(1-x)}^{b-1}}{dx}\\ &=\frac{\Gamma(a+b)}{\Gamma(a+b+1)}\frac{\Gamma(a+1)}{\Gamma(a)}\\ &=\frac{\Gamma(a+b)}{(a+b)\Gamma(a+b)}\frac{(a)\Gamma(a)}{\Gamma(a)}\\ &=\frac{a}{a+b} \end{aligned} \]

Ejemplo

\[ \begin{aligned} Var(X)&=\frac{ab}{{(a+b)}^{2}(a+b+1)}\\ &=E\left(X^2\right)-\left[E\left(X\right)\right]^2 \end{aligned} \]

Propiedad

\[ \Gamma(a+1)=a\Gamma(a) \]

Continuando con el ejemplo, como en el método de losm omentos igualamos momentos poblacionales y momentos muestrales

\[ \begin{aligned} \frac{a}{a+b}&=0.075\\ \sqrt{\frac{ab}{{(a+b)}^{2}(a+b+1)}}&=0.0125\\ \sqrt{\frac{ab}{(a+b)(a+b)(a+b+1)}}&=0.0125\\ \sqrt{\frac{a}{(a+b)}\frac{b}{(a+b)}\frac{1}{(a+b+1)}}&=0.0125\\ \sqrt{0.075\frac{b}{(a+b)}\frac{1}{(a+b+1)}}&=0.0125\\ \end{aligned} \]

De donde \(a=33.225\) y \(b=\frac{40}{37}\) ejercicio y luego reemplazando tenemos

\[ \begin{aligned} \frac{a}{a+b}=0.075&{\implies}a=0.075\left(33.225+b\right)\\ &{\implies}a=0.075\left(33.225+b\right)\\ &{\implies}b=409.775\\ \end{aligned} \]

Y de acuerdo con la información que me están suministrando \(P{\sim}Beta(33.225,409.775)\) luego se captura la mayor cantidad de información con una Beta.

Sabemos entonces que:

\[ \begin{aligned} f_{y|\theta}(\theta)&=f_{y_1,y_2,\ldots,y_n|\theta}(y_1,y_2,\ldots,y_n|\theta)\\ &={P}^{\sum_{i=1}^{n}{y_i}}{(1-P)}^{n-\sum_{i=1}^{n}{y_i}}\\ \end{aligned} \]

y

\[ \begin{aligned} f_{\theta}(\theta)&=f_{P}(P)\\ &=\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}{P}^{a-1}{(1-P)}^{b-1}\\ &{\propto}{P}^{a-1}{(1-P)}^{b-1} \end{aligned} \]

De donde

\[ \begin{aligned} f_{\theta|y}(\theta)&{\propto}f_{y|\theta}(y|\theta)f_\theta(\theta)\\ &={P}^{\sum_{i=1}^{n}{y_i}}{(1-P)}^{n-\sum_{i=1}^{n}{y_i}}{P}^{a-1}{(1-P)}^{b-1}\\ &={P}^{a+\sum_{i=1}^{n}{y_i}-1}{(1-P)}^{n-\sum_{i=1}^{n}{y_i}+b-1}\\ &={P}^{\left(a+\sum_{i=1}^{n}{y_i}\right)-1}{(1-P)}^{\left(n-\sum_{i=1}^{n}{y_i}+b\right)-1} \end{aligned} \]

Y entonces

\[ \begin{aligned} P|y_1,y_2,\ldots,y_n{\sim}Beta\left(a+\sum_{i=1}^{n}{y_i},n-\sum_{i=1}^{n}{y_i}+b\right) \end{aligned} \]

El valor esperado van a ser los estimadores bayesianos

Nota

Cuando la prior y la posterior tienen la misma función de probabilidada enteonces se dice que hay conjugamiento, y cuando esto sucede enteonces se dice que hay conjugamiento.

\[ \begin{aligned} E\left(P|y_1,y_2,\ldots,y_n\right)&=\frac{a}{a+b}\\ &=\frac{a+\sum_{i=1}^{n}{y_i}}{a+\sum_{i=1}^{n}{y_i}+n-\sum_{i=1}^{n}{y_i}+b}\\ &=\frac{a+\sum_{i=1}^{n}{y_i}}{a+n+b}\\ &=\frac{a}{a+n+b}+\frac{\sum_{i=1}^{n}{y_i}}{a+n+b}\\ &=\frac{a+b}{a+b}\frac{a}{a+n+b}+\frac{n}{n}\frac{\sum_{i=1}^{n}{y_i}}{a+n+b}\\ &=\frac{a+b}{a+n+b}\boldsymbol{\frac{a}{a+b}}+\frac{n}{a+n+b}\boldsymbol{\frac{\sum_{i=1}^{n}{y_i}}{n}} \end{aligned} \]

Concluyendo que el valor esperado resulta ser un promedio ponderado de la prior y el estimador de máxima verosimilitud

Ejemplo

Muestra aleaatoria \(y_1,y_2,\ldots,y_n|\lambda\) y \(y_i|\lambda{\sim}P(\lambda)\) con \(\lambda{\in}\mathbb{R}^{+}\)

Unas distribuciones que se mueven entre \(0\) e \(\infty\) son: exponencial, gamma y weibull

Supongamos que para cada \(\lambda=\lambda_i\) se tiene \(P(\Lambda=\lambda_i)=p_i\), entonces

\[ \begin{aligned} f\left(y_1,y_2,\ldots,y_n|\lambda\right)&=\prod_{i=1}^{n}f\left(y_i|\lambda\right)\\ &=\prod_{i=1}^{n}\frac{e^{-\lambda}{\lambda}^{y_i}}{y_i!}\\ &=\frac{\prod_{i=1}^{n}e^{-\lambda}{\lambda}^{y_i}}{\prod_{i=1}^{n}y_i!}\\ &=\frac{e^{-\sum_{i=1}^{n}\lambda}{\lambda}^{\sum_{i=1}^{n}y_i}}{\prod_{i=1}^{n}y_i!}\\ &=\frac{e^{-{n}\lambda}{\lambda}^{\sum_{i=1}^{n}y_i}}{\prod_{i=1}^{n}y_i!}\\ &{\propto}e^{-{n}\lambda}{\lambda}^{\sum_{i=1}^{n}y_i} \end{aligned} \]

\(\prod_{i=1}^{n}y_i!\) sale como proporcionalidad porque no depende del parámetro \(\lambda\)

\[ \begin{aligned} P\left(\Lambda=\lambda_j|y_1,y_2,\ldots,y_n\right)&{\propto}P(\Lambda=\lambda_j)f\left(y_1,y_2,\ldots,y_n|\lambda_j\right)\\ &{\propto}P_j{\cdot}e^{-{n}\lambda}{\lambda}^{\sum_{i=1}^{n}y_i} \end{aligned} \]

Para que \(P_j{\cdot}e^{-{n}\lambda}{\lambda}^{\sum_{i=1}^{n}y_i}\) sea una distribución de masa tiene que sumar \(1\), y entonces proponemos

\[ \begin{aligned} P\left(\Lambda=\lambda_j|y_1,y_2,\ldots,y_n\right)&{\propto}\frac{P_j{\cdot}e^{-{n}\lambda}{\lambda}^{\sum_{i=1}^{n}y_i}}{\sum_{j=1}^{k}P_j{\cdot}e^{-{n}\lambda_j}{\lambda_j}^{\sum_{i=1}^{n}y_i}} \end{aligned} \]

dividir por \(\sum_{j=1}^{k}P_j{\cdot}e^{-{n}\lambda}{\lambda}^{\sum_{i=1}^{n}y_i}\) garantiza que me da uno y también que \(P\left(\Lambda=\lambda_j|y_1,y_2,\ldots,y_n\right)\) se encuentra entre cero y uno. Y como hay conjugamiento entonces

Propiedad

Siempre que la dsitribución a priori sea una distribución discreta va a darse el conjugamiento cualquiera que sea el experimento

\[ E\left(\lambda|y_1,y_2,\ldots,y_n\right)=\gamma{\cdot}\overline{y}+(1-\gamma)E(\lambda) \]

Ejercicio

Dar una aproximacion a este valor esperado (probabilidad a posteriori), para cada elección de \(\lambda\) se tiene una a posteriori

Continuando con el ejemplo…

Se propone una exponencial \(\lambda|y_1,y_2,\ldots,y_n{\sim}exp(\theta)\), pues, \(\lambda{\in}(0,+\infty)\)

\[ f(\lambda)={\theta}{e}^{-{\lambda}{\theta}} \]

\({\theta}{e}^{-{\lambda}{\theta}}\) es una elección función de densidad a priori y su valor esperado es \(\lambda\)

\[ \begin{aligned} f\left(\lambda|y_1,y_2,\ldots,y_n\right)&{\propto}f(\lambda)f(y_1,y_2,\ldots,y_n|\lambda)\\ &{=}{\theta}{e}^{-\lambda\theta}{\cdot}{e}^{-n\lambda}\lambda^{\sum_{i=1}^{n}y_i}\\ &{\propto}{e}^{-\lambda\theta-n\lambda}\lambda^{\sum_{i=1}^{n}y_i}\\ &{\propto}{e}^{-\lambda(\boldsymbol{\theta-n})}\lambda^{\left(\boldsymbol{\sum_{i=1}^{n}y_i+2}\right)-1} \end{aligned} \]

Luego \(\lambda|y_1,y_2,\ldots,y_n{\sim}gamma(\boldsymbol{\sum_{i=1}^{n}y_i+2},\boldsymbol{\theta-n}))\)

Nota

Si una exponencial con parámetro \(\theta\) es igual a una \(gamma(1,\theta)\).

Continuando con el ejemplo, ahora veamos con \(gamma(a,\theta)\) en general para \(a\) arbitrario.

\[ \begin{aligned} f\left(\lambda|y_1,y_2,\ldots,y_n\right)&{\propto}f(\lambda)f(y_1,y_2,\ldots,y_n|\lambda)\\ &{=}{\theta}{e}^{-\lambda\theta}{\cdot}{e}^{-n\lambda}\lambda^{\sum_{i=1}^{n}y_i}\\ &{\propto}{e}^{-\lambda\theta-n\lambda}\lambda^{\sum_{i=1}^{n}y_i}\\ &{\propto}{e}^{-\lambda(\boldsymbol{\theta-n})}\lambda^{\left(\boldsymbol{\sum_{i=1}^{n}y_i+a}\right)-1} \end{aligned} \]

Y en éste caso \(\lambda|y_1,y_2,\ldots,y_n{\sim}gamma(\boldsymbol{\sum_{i=1}^{n}y_i+a},\boldsymbol{\theta-n}))\)

Continuando con el ejemplo…

Se propone una weibull \(\lambda|y_1,y_2,\ldots,y_n{\sim}weibull(a,\theta)\), pues, \(\lambda{\in}(0,+\infty)\)

\[ \begin{aligned} f\left(\lambda|y_1,y_2,\ldots,y_n\right)&{\propto}f(\lambda)f(y_1,y_2,\ldots,y_n|\lambda)\\ &{=}{\lambda}^{a-1}{e}^{-\frac{\lambda^\alpha}{\theta}}{\cdot}{e}^{-n\lambda}\lambda^{\sum_{i=1}^{n}y_i}\\ &{=}{\lambda}^{a-1}{e}^{-\frac{\lambda^\alpha}{\theta}-n\lambda}\lambda^{\sum_{i=1}^{n}y_i}\\ &{=}{\lambda}^{a-1+\sum_{i=1}^{n}y_i}{e}^{-\frac{\lambda^\alpha}{\theta}-n\lambda}\\ &{=}{\lambda}^{\left(a+\sum_{i=1}^{n}y_i\right)-1}{e}^{-n\lambda-\frac{\lambda^\alpha}{\theta}}\\ \end{aligned} \]

Ejercicio

¿Qúe distribución tiene?

Ejemplo

Distribución normal con \(\sigma^2\) conocida