Si \(A\) y \(B\) so eventos con \(P(A)\) y \(P(B)\) mayores que cero
\[ \begin{aligned} P(A|B)&=\frac{P(B|A)}{P(B)} \end{aligned} \]
La \(P(A|B)\) es la probabilidad de \(A\) dado que el evento \(B\) ocurrió, la probabilidad de \(A\) se le llama la probabilidad a priori sin saber nada del evento \(B\), y la \(P(A|B)\) es una probabilidad posterior, la pregunta es ¿será que esto lo puedo pasar a funciones de masa o de densidad de probabilidad?
\[ \begin{aligned} f_{x|y}(x)&=\frac{f_{x,y}(x,y)}{f_y(y)} \end{aligned} \]
\[ \begin{aligned} f_{y|x}(y)=\frac{f_{y,x}(y,x)}{f_x(x)}&{\implies}f_{y,x}(y.x)=f_{y|x}(x)f_x(x) \end{aligned} \]
Reemplazando la segunda ecuación en la primera
\[ \begin{aligned} f_{x|y}(x)&=\frac{f_{y|x}(x)f_x(x)}{f_y(y)} \end{aligned} \]
Ahora, para denotar que \(x\) es un parámetro lo llamaremos \(\theta\)
\[ \begin{aligned} f_{\theta|y}(\theta)&=\frac{f_{y|\theta}(x)f_\theta(\theta)}{f_y(y)} \end{aligned} \]
Obteniendo así una función de densidad de un parámetro dado que ya se observó la muestra
Es un enfoque subjetivo porque admás de tener la muestra debo tener información extra de la muestra y además experiencia del evento; si fuese objetivo es vericable solo la muestra
Entonces la esperiencia se convierte en términos probabilísticos y se le asigna una distribución a priori prior \(f_\theta(\theta)\) y \(f_{\theta|y}(\theta)\) correspondería a que tanto cambio esa creencia después de haber tomado la muestra; lo que sería la distribucion poterio o a posteriori. Finalmente, quiero saber qué es \(f_{\theta|y}(\theta)\) es la función de verosimilitud
\[ \begin{aligned} f_{\theta|y}(\theta)=\frac{f_{y|\theta}(\theta)f_\theta(\theta)}{f_y(y)}&{\propto}f_{y|\theta}(y|\theta)f_\theta(\theta) \end{aligned} \]
Aquí elimino \(f_y(y)\) al considerarla constante, pues, no depende de \(\theta\)
LUego la función de densidad posterior \(f_{\theta|y}(\theta)\) es proporcional a la función de densidad prior \(f_\theta(\theta)\) por la verosimilitud \(f_{y|\theta}(x)\)
Enfermos de gripa dependen de \(y_i|p\) donde \(p\) es la probabilidad de que, efetivamente, tengan gripa
\[ Y_i|P{\sim}Ber(P)\text{; tiene o no gripa} \]
Supongamos que son eventos independientes.
Hay un espacio de los parámetros \(P\in(0,1)\) y un \(\Omega=\left\{0,1\right\}\) espacio muestral
\[ \begin{aligned} f_{y_i|\theta}(\theta)&=f_{y_i|P}(y_i|P)\\ &={P}^{y_i}{(1-P)}^{1-y_i} \end{aligned} \]
Luego, la verosimilitud o distribución conjunta puede esciribrse como
\[ \begin{aligned} f_{y|\theta}(\theta)&=f_{y_1,y_2,\ldots,y_n|\theta}(y_1,y_2,\ldots,y_n|\theta)\\ &=f_{y_1,y_2,\ldots,y_n|P}(y_1,y_2,\ldots,y_n|P)\\ &=\prod_{i=1}^{n}{f_{y|P}(y_i|P)}\\ &=\prod_{i=1}^{n}{{P}^{y_i}{(1-P)}^{1-y_i}}\\ &={P}^{\sum_{i=1}^{n}{y_i}}{(1-P)}^{\sum_{i=1}^{n}{\left(1-y_i\right)}}\\ &={P}^{\sum_{i=1}^{n}{y_i}}{(1-P)}^{n-\sum_{i=1}^{n}{y_i}}\\ \end{aligned} \]
En donde \(P\in(0,1)\), al espacio de los parámetros lo denotaremos como \(\Theta\). Volviendo al ejemplo, digamos que el médico dice que la probabilidad se encuentra entre \(.05\) y \(.1\), esto es, \(0.05<P<0.1\); quiero ver como describir el comportamiento de estos datos
Funciones de rango \(\Theta=(0,1)\) pueden ser: uniforme o beta; debo elegir una función de probabilidad a la experiencia, a esto se le llama elicitación
Digamos que: \(\overline{P}=0.075\); y que el rango \(0.1-0.05\), de valores que toma \(P\), sobre \(4\) es una buena aproximación de la desviación estándas (muy empirico), luego \(sd=\frac{0.05}{4}=0.0125\) es un valor posible para la desviación estándar
La esperanza y varianza de una Beta(a,b) son:
\[ \begin{aligned} E(X)&=\frac{a}{a+b}\\ Var(X)&=\frac{ab}{{(a+b)}^{2}(a+b+1)} \end{aligned} \]
\[ \begin{aligned} E(X)&=\frac{a}{a+b}\\ &=\int_{0}^{1}{x{\cdot}\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}{x}^{a-1}{(1-x)}^{b-1}}{dx}\\ &=\int_{0}^{1}{\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}{x}^{a-1+1}{(1-x)}^{b-1}}{dx}\\ &=\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}\int_{0}^{1}{{x}^{(a+1)-1}{(1-x)}^{b-1}}{dx}\\ &=\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}\int_{0}^{1}{\frac{\frac{\Gamma(a+1+b)}{\Gamma(a+1)\Gamma(b)}}{\frac{\Gamma(a+1+b)}{\Gamma(a+1)\Gamma(b)}}{x}^{(a+1)-1}{(1-x)}^{b-1}}{dx}\\ &=\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}\frac{1}{\frac{\Gamma(a+1+b)}{\Gamma(a+1)\Gamma(b)}}\int_{0}^{1}{\frac{\Gamma(a+1+b)}{\Gamma(a+1)\Gamma(b)}{x}^{(a+1)-1}{(1-x)}^{b-1}}{dx}\\ &=\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}\frac{\Gamma(a+1)\Gamma(b)}{\Gamma(a+1+b)}\int_{0}^{1}{\frac{\Gamma(a+1+b)}{\Gamma(a+1)\Gamma(b)}{x}^{(a+1)-1}{(1-x)}^{b-1}}{dx}\\ &=\frac{\Gamma(a+b)}{\Gamma(a+b+1)}\frac{\Gamma(a+1)}{\Gamma(a)}\\ &=\frac{\Gamma(a+b)}{(a+b)\Gamma(a+b)}\frac{(a)\Gamma(a)}{\Gamma(a)}\\ &=\frac{a}{a+b} \end{aligned} \]
\[ \begin{aligned} Var(X)&=\frac{ab}{{(a+b)}^{2}(a+b+1)}\\ &=E\left(X^2\right)-\left[E\left(X\right)\right]^2 \end{aligned} \]
\[ \Gamma(a+1)=a\Gamma(a) \]
Continuando con el ejemplo, como en el método de losm omentos igualamos momentos poblacionales y momentos muestrales
\[ \begin{aligned} \frac{a}{a+b}&=0.075\\ \sqrt{\frac{ab}{{(a+b)}^{2}(a+b+1)}}&=0.0125\\ \sqrt{\frac{ab}{(a+b)(a+b)(a+b+1)}}&=0.0125\\ \sqrt{\frac{a}{(a+b)}\frac{b}{(a+b)}\frac{1}{(a+b+1)}}&=0.0125\\ \sqrt{0.075\frac{b}{(a+b)}\frac{1}{(a+b+1)}}&=0.0125\\ \end{aligned} \]
De donde \(a=33.225\) y \(b=\frac{40}{37}\) ejercicio y luego reemplazando tenemos
\[ \begin{aligned} \frac{a}{a+b}=0.075&{\implies}a=0.075\left(33.225+b\right)\\ &{\implies}a=0.075\left(33.225+b\right)\\ &{\implies}b=409.775\\ \end{aligned} \]
Y de acuerdo con la información que me están suministrando \(P{\sim}Beta(33.225,409.775)\) luego se captura la mayor cantidad de información con una Beta.
Sabemos entonces que:
\[ \begin{aligned} f_{y|\theta}(\theta)&=f_{y_1,y_2,\ldots,y_n|\theta}(y_1,y_2,\ldots,y_n|\theta)\\ &={P}^{\sum_{i=1}^{n}{y_i}}{(1-P)}^{n-\sum_{i=1}^{n}{y_i}}\\ \end{aligned} \]
y
\[ \begin{aligned} f_{\theta}(\theta)&=f_{P}(P)\\ &=\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}{P}^{a-1}{(1-P)}^{b-1}\\ &{\propto}{P}^{a-1}{(1-P)}^{b-1} \end{aligned} \]
De donde
\[ \begin{aligned} f_{\theta|y}(\theta)&{\propto}f_{y|\theta}(y|\theta)f_\theta(\theta)\\ &={P}^{\sum_{i=1}^{n}{y_i}}{(1-P)}^{n-\sum_{i=1}^{n}{y_i}}{P}^{a-1}{(1-P)}^{b-1}\\ &={P}^{a+\sum_{i=1}^{n}{y_i}-1}{(1-P)}^{n-\sum_{i=1}^{n}{y_i}+b-1}\\ &={P}^{\left(a+\sum_{i=1}^{n}{y_i}\right)-1}{(1-P)}^{\left(n-\sum_{i=1}^{n}{y_i}+b\right)-1} \end{aligned} \]
Y entonces
\[ \begin{aligned} P|y_1,y_2,\ldots,y_n{\sim}Beta\left(a+\sum_{i=1}^{n}{y_i},n-\sum_{i=1}^{n}{y_i}+b\right) \end{aligned} \]
El valor esperado van a ser los estimadores bayesianos
Cuando la prior y la posterior tienen la misma función de probabilidada enteonces se dice que hay conjugamiento, y cuando esto sucede enteonces se dice que hay conjugamiento.
\[ \begin{aligned} E\left(P|y_1,y_2,\ldots,y_n\right)&=\frac{a}{a+b}\\ &=\frac{a+\sum_{i=1}^{n}{y_i}}{a+\sum_{i=1}^{n}{y_i}+n-\sum_{i=1}^{n}{y_i}+b}\\ &=\frac{a+\sum_{i=1}^{n}{y_i}}{a+n+b}\\ &=\frac{a}{a+n+b}+\frac{\sum_{i=1}^{n}{y_i}}{a+n+b}\\ &=\frac{a+b}{a+b}\frac{a}{a+n+b}+\frac{n}{n}\frac{\sum_{i=1}^{n}{y_i}}{a+n+b}\\ &=\frac{a+b}{a+n+b}\boldsymbol{\frac{a}{a+b}}+\frac{n}{a+n+b}\boldsymbol{\frac{\sum_{i=1}^{n}{y_i}}{n}} \end{aligned} \]
Concluyendo que el valor esperado resulta ser un promedio ponderado de la prior y el estimador de máxima verosimilitud
Muestra aleaatoria \(y_1,y_2,\ldots,y_n|\lambda\) y \(y_i|\lambda{\sim}P(\lambda)\) con \(\lambda{\in}\mathbb{R}^{+}\)
Unas distribuciones que se mueven entre \(0\) e \(\infty\) son: exponencial, gamma y weibull
Supongamos que para cada \(\lambda=\lambda_i\) se tiene \(P(\Lambda=\lambda_i)=p_i\), entonces
\[ \begin{aligned} f\left(y_1,y_2,\ldots,y_n|\lambda\right)&=\prod_{i=1}^{n}f\left(y_i|\lambda\right)\\ &=\prod_{i=1}^{n}\frac{e^{-\lambda}{\lambda}^{y_i}}{y_i!}\\ &=\frac{\prod_{i=1}^{n}e^{-\lambda}{\lambda}^{y_i}}{\prod_{i=1}^{n}y_i!}\\ &=\frac{e^{-\sum_{i=1}^{n}\lambda}{\lambda}^{\sum_{i=1}^{n}y_i}}{\prod_{i=1}^{n}y_i!}\\ &=\frac{e^{-{n}\lambda}{\lambda}^{\sum_{i=1}^{n}y_i}}{\prod_{i=1}^{n}y_i!}\\ &{\propto}e^{-{n}\lambda}{\lambda}^{\sum_{i=1}^{n}y_i} \end{aligned} \]
\(\prod_{i=1}^{n}y_i!\) sale como proporcionalidad porque no depende del parámetro \(\lambda\)
\[ \begin{aligned} P\left(\Lambda=\lambda_j|y_1,y_2,\ldots,y_n\right)&{\propto}P(\Lambda=\lambda_j)f\left(y_1,y_2,\ldots,y_n|\lambda_j\right)\\ &{\propto}P_j{\cdot}e^{-{n}\lambda}{\lambda}^{\sum_{i=1}^{n}y_i} \end{aligned} \]
Para que \(P_j{\cdot}e^{-{n}\lambda}{\lambda}^{\sum_{i=1}^{n}y_i}\) sea una distribución de masa tiene que sumar \(1\), y entonces proponemos
\[ \begin{aligned} P\left(\Lambda=\lambda_j|y_1,y_2,\ldots,y_n\right)&{\propto}\frac{P_j{\cdot}e^{-{n}\lambda}{\lambda}^{\sum_{i=1}^{n}y_i}}{\sum_{j=1}^{k}P_j{\cdot}e^{-{n}\lambda_j}{\lambda_j}^{\sum_{i=1}^{n}y_i}} \end{aligned} \]
dividir por \(\sum_{j=1}^{k}P_j{\cdot}e^{-{n}\lambda}{\lambda}^{\sum_{i=1}^{n}y_i}\) garantiza que me da uno y también que \(P\left(\Lambda=\lambda_j|y_1,y_2,\ldots,y_n\right)\) se encuentra entre cero y uno. Y como hay conjugamiento entonces
Siempre que la dsitribución a priori sea una distribución discreta va a darse el conjugamiento cualquiera que sea el experimento
\[ E\left(\lambda|y_1,y_2,\ldots,y_n\right)=\gamma{\cdot}\overline{y}+(1-\gamma)E(\lambda) \]
Dar una aproximacion a este valor esperado (probabilidad a posteriori), para cada elección de \(\lambda\) se tiene una a posteriori
Continuando con el ejemplo…
Se propone una exponencial \(\lambda|y_1,y_2,\ldots,y_n{\sim}exp(\theta)\), pues, \(\lambda{\in}(0,+\infty)\)
\[ f(\lambda)={\theta}{e}^{-{\lambda}{\theta}} \]
\({\theta}{e}^{-{\lambda}{\theta}}\) es una elección función de densidad a priori y su valor esperado es \(\lambda\)
\[ \begin{aligned} f\left(\lambda|y_1,y_2,\ldots,y_n\right)&{\propto}f(\lambda)f(y_1,y_2,\ldots,y_n|\lambda)\\ &{=}{\theta}{e}^{-\lambda\theta}{\cdot}{e}^{-n\lambda}\lambda^{\sum_{i=1}^{n}y_i}\\ &{\propto}{e}^{-\lambda\theta-n\lambda}\lambda^{\sum_{i=1}^{n}y_i}\\ &{\propto}{e}^{-\lambda(\boldsymbol{\theta-n})}\lambda^{\left(\boldsymbol{\sum_{i=1}^{n}y_i+2}\right)-1} \end{aligned} \]
Luego \(\lambda|y_1,y_2,\ldots,y_n{\sim}gamma(\boldsymbol{\sum_{i=1}^{n}y_i+2},\boldsymbol{\theta-n}))\)
Si una exponencial con parámetro \(\theta\) es igual a una \(gamma(1,\theta)\).
Continuando con el ejemplo, ahora veamos con \(gamma(a,\theta)\) en general para \(a\) arbitrario.
\[ \begin{aligned} f\left(\lambda|y_1,y_2,\ldots,y_n\right)&{\propto}f(\lambda)f(y_1,y_2,\ldots,y_n|\lambda)\\ &{=}{\theta}{e}^{-\lambda\theta}{\cdot}{e}^{-n\lambda}\lambda^{\sum_{i=1}^{n}y_i}\\ &{\propto}{e}^{-\lambda\theta-n\lambda}\lambda^{\sum_{i=1}^{n}y_i}\\ &{\propto}{e}^{-\lambda(\boldsymbol{\theta-n})}\lambda^{\left(\boldsymbol{\sum_{i=1}^{n}y_i+a}\right)-1} \end{aligned} \]
Y en éste caso \(\lambda|y_1,y_2,\ldots,y_n{\sim}gamma(\boldsymbol{\sum_{i=1}^{n}y_i+a},\boldsymbol{\theta-n}))\)
Continuando con el ejemplo…
Se propone una weibull \(\lambda|y_1,y_2,\ldots,y_n{\sim}weibull(a,\theta)\), pues, \(\lambda{\in}(0,+\infty)\)
\[ \begin{aligned} f\left(\lambda|y_1,y_2,\ldots,y_n\right)&{\propto}f(\lambda)f(y_1,y_2,\ldots,y_n|\lambda)\\ &{=}{\lambda}^{a-1}{e}^{-\frac{\lambda^\alpha}{\theta}}{\cdot}{e}^{-n\lambda}\lambda^{\sum_{i=1}^{n}y_i}\\ &{=}{\lambda}^{a-1}{e}^{-\frac{\lambda^\alpha}{\theta}-n\lambda}\lambda^{\sum_{i=1}^{n}y_i}\\ &{=}{\lambda}^{a-1+\sum_{i=1}^{n}y_i}{e}^{-\frac{\lambda^\alpha}{\theta}-n\lambda}\\ &{=}{\lambda}^{\left(a+\sum_{i=1}^{n}y_i\right)-1}{e}^{-n\lambda-\frac{\lambda^\alpha}{\theta}}\\ \end{aligned} \]
¿Qúe distribución tiene?