Ejercicio 1: Se desea estimar la probabilidad, \(\theta\), de un evento, a partir del resultado de una sucesión de n ensayos Bernoulli, esto es, \(y_{1},...,y_{n}\) que son iguales a 1 si ocurre el evento (éxito) y cero si no ocurre. Sea y el número total de éxitos en el muestra de n ensayos. El modelo binomial simple es el siguiente:
\[ \begin{aligned} p\left(y|\theta\right)&=Bin\left(y|n , \theta\right)={n \choose y} \theta^{y}\left(1- \theta\right)^{n-y}\\ p\left(\theta\right)& \sim Uniforme\\ p\left(\theta\right | y)&= \propto \theta^{y}\left(1-\theta\right)^{n-y} \end{aligned} \]
La distribución no normalizada tiene un kernel equivalente a una distribución Beta, es decir:
\[\theta|y \propto Beta \left(y+1 , n-y+1\right )\]
Ejercicio 2: Sea \(y_{1},...,y_{n}\) kis regustris dek oesi de un objeto medido n veces. Sea \(\theta = N(\mu, \sigma^{2})\) el peso verdadero y la varianza de medición del peso respectivamente. Sea \(\tilde{y}\) el peso del objeto para una nueva pesada. Encuentre la distribucón predicitiva a posterior.
\[ \begin{aligned} p(\tilde{y} | y) &= \int p(\tilde{y},\theta|y) d\theta \\ &= \int p(\tilde{y},\theta|y) p(\theta|y)d\theta \\ &= \int p(\tilde{y},\theta) p(\theta|y) d\theta \\ \end{aligned} \]
Ejercicio 3: Sea X de dimensión 2 con \(X= (Y,Z)\) donde Y y Z son escalares. La función de densidad de X viene dada por. \[ \begin{aligned} f\left(x\right) = f\left(y,z\right) = \dfrac{1}{\sqrt{2\pi}\sigma^{2}}exp \lbrace -\dfrac{1}{2\sigma^{2}}[-(y-\theta_{y})^2 -(x-\theta_{z})^2] \rbrace, -\infty < y < \infty , -\infty < z < \infty \\ &\rightarrow X \sim N((\theta_{y},\theta_{x}),\sigma^{2}I) \\ Y& = log(U) \\ Z& =log(V) \end{aligned} \]
Por el teorema de la transformación, la densidad \(g\left(u,v\right)\) viene dada por:
\[ \begin{aligned} g\left(u,v\right) &= f\left(y\left(u,v\right),z\left(u,v\right)\right)|J\left(y,z\right)\rightarrow\left(u,v\right)| \\ &=\dfrac{1}{2\pi\sigma^{2}}exp \lbrace-\dfrac{1}{2\sigma^{2}}[(log u - \theta_{y})^2+(log v - \theta_{z})^2] \rbrace \times |J\left(y,z\right)\rightarrow\left(u,v\right)|\\ \end{aligned} \]
Luego el Jacobiano es:
\[ \begin{aligned} \left|J\right|&=\left| \begin{array}{cc} \dfrac{\partial y}{\partial u} & \dfrac{\partial y}{\partial v} \\ \dfrac{\partial z}{\partial u} & \dfrac{\partial z}{\partial v} \end{array} \right| \\ &=\left| \begin{array}{cc} \dfrac{1}{u} & 0\\ 0 & \dfrac{1}{u} \end{array} \right| \\ &= \dfrac{1}{uv} \\ &\rightarrow g\left(u,v\right)+\dfrac{1}{2\pi\sigma^{2}}exp\lbrace [-\dfrac{1}{2\sigma^{2}}[(log u - \theta_{y})^2+(log v - \theta_{z})^2]\rbrace , \text{ } 0 < u < \infty , \text{ }0 < v < \infty \end{aligned} \]
Ejercicio 4: Considere el modelo de probabilidad de Poisson \(p\left(y| \theta\right)\), esto es una variable discreta, y que toma valores \(\left\lbrace 0, 1, \cdots \right\rbrace\) con probabibilidad de que \(y=k\), igual a \(exp \left(- \theta\right)\theta^{k}/k!\)
Si se obtienen n observaciones, \(y_{1} , y_{2}, \cdots, y_{n}\) y se asume independencia, la verosimilitud estará dada por
\[ \begin{aligned} &= exp\left(- \theta\right)\dfrac{\theta^{y_{1}}}{y_{1}!} \times exp\left(- \theta\right)\dfrac{\theta^{y_{2}}}{y_{2}!} \times \cdots \times exp\left(- \theta\right)\dfrac{\theta^{y_{n}}}{y_{n}!} \times \\ &= exp\left(- n\theta\right)\dfrac{\theta^{\sum y_{i}}}{\prod y_{i}!} \\ &= exp\left(- n\theta\right)\dfrac{exp({\sum y_{i}ln \theta})}{\prod y_{i}!} \\ & \Rightarrow p(y|\theta) \propto exp\left(- n\theta\right)exp({\sum y_{i}ln \theta}) \end{aligned} \] Examinando la forma de esta función es fácil ver que una distribución con función de densidad proporcional a \[ exp\left(-\theta \tau_{0}\right)exp \left(\tau_{1} \log \theta\right) \] es una distribución conjugada, y en particular, haciendo \[ \begin{aligned} \tau_{0}&=\beta \\ \tau_{0}&=\alpha - 1 \\ \end{aligned} \]
Se puede reconocer como una distribución previa a una distribución Gamma, con parámetros \(\alpha , \beta\). Consecuentemente, la distribución posterior es tambien una Gamma con parámetros
\[ \begin{aligned} \alpha^{\ast}&=\alpha + \sum y_{i}\\ \beta^{\ast}&= \beta + n \end{aligned} \] Ejercicio 5: Si \(Y\sim Bin(n,\theta)\), su log verosimil es:
\[ \begin{aligned} Bin(n,\theta) &= {n\choose y}\theta^y(1-\theta)^{n-y} \Rightarrow\\ \lg p(y|\theta)&=\lg{n\choose y}+\lg \theta^y+\lg (1-\theta)^{n-y}= cte+y\lg \theta+(n-y)\lg(1-\theta)\\ \dfrac{\partial \lg p(y|\theta)}{\partial \theta}&=\dfrac{y}{\theta}-\dfrac{(n-y)}{1-\theta}=\dfrac{y-y\theta-n\theta+y\theta}{\theta(1-\theta)}=\dfrac{y-n\theta}{\theta(1-\theta)}\Rightarrow\\ J(\theta)&= E \left[\left(\dfrac{\partial \lg p(y|\theta)}{\partial \theta}\right)^2|\theta\right]= E\left[\dfrac{(y-n\theta)^2}{\theta^2(1-\theta^2)}\right]\\ J(\theta)&=\dfrac{1}{\theta^2(1-\theta^2)}E[(y-E(y))^2]=\dfrac{1}{\theta^2(1-\theta^2}Var(y)\\ J(\theta)&=\dfrac{n}{\theta(1-\theta)} \end{aligned} \]
Ejercicio 6: El conjunto de datos normales, normaldata, está relacionado con el famoso experimento de Michelson-Morlay que abrió el comino a la teoría de la relatividad de Einstein en 1887. El experimento pretendía detector el “flujo del éter” y, por tanto, la existencia del éter, esto medio teórico que los fisicos postulaban en osa época como necesario para la transmisión de la luz. El método de medición de Michelson consistía en medir la diferencia de velocidad de dos haces de luz que recorrían la misma distancia en dos direcciones ortogonales.
Como suele ocurrir con física, la medición se hacía por interferometría y las diferencias en el tiempo de viaje se iuferían a partir del desplazamiento de las franjas del espectro luminoso, Sin embargo, el experimento. produjo mediciones muy pequeñas que no fueron concluyentes para la detección del éter. Los experimentos. posteriores intentaron alcanzar tuna mayor precisión, como el realizado por Illingworth en 1927, utilizado aquí como datos normales, sólo para obtener lhmites superiores cada vez más pequeños de la velocidad del éter, Aunque el conjunto de datos original está disponible en R como morley, las entradas se aproximan al múltiplo de diez más cercano y, por tanto, son dificiles de analizar como observaciones normales. Los 64 puntos de. datos en normaldata están asociados a números de sesión (primera columna), que corresponden a diferentes. momentos del día, y los valores de la segunda columna representan el desplazamiento medio de la franja debida a la orientación tomado sobre diez mediciones realizadas por Alinguorth, que asumió un modelo de. error normal. La figura siguiento produce un histograma de los datos medianto los sencillos comandos de R.
Este histograma parece compatible con ula distribución simétrica unimodal como la distribución normal. Como se muestra en la Figura un gráfico qq.
library(bayess)
## Loading required package: MASS
## Loading required package: mnormt
## Loading required package: gplots
##
## Attaching package: 'gplots'
## The following object is masked from 'package:stats':
##
## lowess
## Loading required package: combinat
##
## Attaching package: 'combinat'
## The following object is masked from 'package:utils':
##
## combn
data("normaldata")
shift = normaldata[,2]
hist(shift , nclass = 10, col = "skyblue",prob = TRUE, main="")
library(bayess)
qqnorm((shift - mean(shift))/sd(shift),pch = 19, col="skyblue")
abline(a=0,b=1,lty = 2, col="black",lwd=2)
El ajuste de \(N(\mu,\sigma^2)\) puede no ser perfecto, sin embargo, debido a(a) una posible bimodalidad del histograma y (b) posibles valores atípicos.
n = length(shift)
mmu = sum(shift)/(n+1)
mmu
## [1] -0.01461538
vmu = 0.75^2/(n+1);vmu
## [1] 0.008653846
Ejercicio 7: Como ilustración, consideremos el caso más sencillo de la distribución normal con varianza conocida, \(N(\mu,\sigma^2)\). Si la distribución a priori de \(\mu\), \(p(\mu)\), es la normal \(N(0,\sigma^2)\), la distribución posterior se obtiene fácilmente mediante la teoría de Bayes.
\[ \begin{aligned} p(y|\theta) \propto & \ p(u)p(y|\theta) \\ \propto \ & \dfrac{1}{\sqrt{2\pi}\sigma^{2}}exp \lbrace -\dfrac{1}{2\sigma^{2}} \mu^2\rbrace \times \dfrac{1}{\sqrt2\pi\sigma^{2}} exp \lbrace \dfrac{1}{2\sigma^2}(y_1 - \mu)^2 \rbrace \times \cdots \times \dfrac{1}{\sqrt{2\pi}\sigma^{2}} exp \lbrace -\dfrac{1}{2\sigma^{2}}(y_n - \mu)^2 \rbrace \\ \propto \ & \dfrac{1}{\sqrt{2\pi}\sigma^{2}}exp \lbrace -\dfrac{1}{2\sigma^{2}} \mu^2\rbrace \left(\dfrac{1}{\sqrt{2\pi}\sigma^{2}}\right)^{n} exp \lbrace -\dfrac{1}{2\sigma^{2}} \sum_i ^n (y_i - \mu)^2\rbrace \\ \propto \ & exp \lbrace -\dfrac{1}{2\sigma^{2}} \mu^2 - \dfrac{1}{2\sigma^{2}} \sum_{i=1}^{n} [(y_i-\bar{y})-(\mu-\bar{y})]^2\rbrace \\ \propto \ & exp \lbrace -\dfrac{1}{2\sigma^{2}} \mu^2 -\dfrac{1}{2\sigma^{2}} [\sum_{i=1}^{n}(y_i-\bar{y})^2 - 2(\mu-\bar{y})\sum_{i=1}^n(y_i - \bar{y})+n(\mu-\bar{y})^2] \rbrace \\ \propto \ & exp \lbrace -\dfrac{1}{2\sigma^{2}} \mu^2 -\dfrac{1}{2\sigma^{2}} \left[S_{y}^2+n(\mu-\bar{y})^2]\right \rbrace \\ \propto \ & exp \lbrace -\dfrac{1}{2\sigma^{2}} S_y^{2} \rbrace \times exp \lbrace -\dfrac{1}{2\sigma^{2}} [\mu^2 + n\mu^2 -2n\mu^2+n\bar{y}^2] \rbrace \\ \propto \ & exp \lbrace -\dfrac{1}{2\sigma^{2}} [(n+1)\mu^2-2n\mu\bar{y}+n\bar{y}^2]\rbrace \\ \propto \ & exp \lbrace -\dfrac{1}{2\sigma^{2}} (n+1)[\mu^2-\dfrac{2n\mu\bar{y}}{(n+1)}+\dfrac{n\bar{y}^2}{(n+1)}] \rbrace \\ \propto \ & exp \left\lbrace -\dfrac{1}{2\sigma^{2}}(n+1) \left[\left(\mu - \dfrac{n \bar{x}}{(n+1)}\right)^2 + \dfrac{n \bar{x}}{(n+1)} - \dfrac{(n \bar{x})^{2}}{(n+1)^{2}} \right]\right \rbrace \\ \end{aligned} \]
Lo que significa que esta distribución posterior en \(\mu\) es una distribución normarl con media \(\dfrac{n\bar{y}}{(n+1)}\) y varianza \(\dfrac{\sigma^2}{(n+1)}\). La media (y la moda) de la posterior es, por tanto, diferente al estimador clásico \(\bar{X}\), lo que puede parecer una característica de este análisis bayesiano. La razón de la diferencia es que la información a prior de que \(\mu\) está lo suficientemente cerca de ceca es tenida en cuenta por la distribución posterior, que de este modo escoge la estimación original hacia cero.
Ejercicio 8 y 9: Siendo el caso de una distribución normal con varianza conocida bastante poco realista, considermos ahora el caso general de una muestra iid \(x= (x_1 ,\cdots , x_n)\) de la distribución normal \(N(\mu,\sigma^2)\) y \(\theta = (\mu,\sigma^2)\). Manteniendo la misma distribución a priori \(N(\mu,\sigma^2)\) sobre \(\mu\), que aparece entocnes como una distribución condicional de \(\mu\) dada \(\sigma^2\), es decir, se basa en la descomposición genérica. \[ \begin{aligned} p(\mu,\sigma^2) = p(\mu|\sigma^2)p(\sigma^2) \end{aligned} \]
Tenemos que introducir otra distribución a priori sobre \(\sigma^2\). Para simplificar los cáculos en esta fase inicial elegimos una distribución exponencial E(1) sobre \(\sigma^{-2}\).Esto significa que la variable aleatoria \(w=\sigma^{-2}\) se distribuye a partir de una distribución exponencial E(1), derivándose de la distribución sobre \(\sigma^2\) mediante la técnica habitual de cambio de variable,
\[ p(\sigma^2)=exp(-\sigma^{-2})\left|\dfrac{d\sigma^{-2}}{d\sigma^{2}}\right| = exp(-\sigma^{-2})(\sigma^2)^{-2} \] Esta distribución es un caso especial de una distribución gamma inversa, concretamente IG(1.1). La correspondiente desndiad posterior de \(\theta\) viene dada entonces por:
\[ \begin{aligned} p((\mu,\sigma^2)|y) & \propto p(\mu,\sigma^2) \ell ((\mu,\sigma^2)|y) \\ & \propto exp(-\sigma^{-2})(\sigma^2)^{-2} \dfrac{1}{\sigma}\left(-\dfrac{1}{2\sigma^2}\right)(\sigma^{-2})^{n/2}exp \left(-\dfrac{1}{2\sigma^2}[S_{y}^2+n(\mu-\bar{y})^2]\right) \\ & \propto (\sigma^{-2})^{2-1/2} exp \left[-\dfrac{1}{\sigma^2}(\mu^2+2)\right](\sigma^{-2})^{n/2} exp \left(-\dfrac{1}{2\sigma^{2}}\left[S_{y}^2+n(\mu-\bar{y})^2\right]\right) \\ & \propto (\sigma^2)^{-(n+5)/2} exp \left[-\dfrac{1}{2\sigma^{2}} \left\lbrace (n+1)\left(\mu- \dfrac{n\bar{y}}{n+1}\right)^2 + \dfrac{n\bar{y}^2}{n+1}- \dfrac{(n\bar{y})^2}{n+1} + \ 2 \ + S_{y}^2\right\rbrace\right] \\ & \propto (\sigma^2)^{-1/2} exp \left[-\dfrac{1}{2\sigma^{2}} \left\lbrace (n+1)\left(\mu-\dfrac{n\bar{y}}{n+1}\right)^2\right\rbrace\right](\sigma^2)^{-(n+2)/2-1} exp \left[-\dfrac{1}{2\sigma^{2}}(2+S_{y}^2)\right]\\ \end{aligned} \]
Por lo tanto, la posterior sobre \(\theta\) puede descomponerse como el producto de una distribución gamma inversa sobre \(\sigma^2\), \(\mathcal{IG}\left(\dfrac{n+2}{2},\dfrac{2+S_{y}^2}{2}\right)\) que es la distribución de la inversa de una variable aleatoria \(\gamma\) \(\mathcal{G}\left(\dfrac{n+2}{2},\dfrac{2+S_{y}^2}{2}\right)\)y, condicionada a \(\sigma^2\), una distribución normal sobre \(\mu\), \(N(\dfrac{n\bar{y}}{n+1},\dfrac{\sigma^2}{n+1})\). La interpretación de esta posterior es bastante similar al caso en que se conoce \(\sigma\), con la diferencia de que la variabilidad en \(\sigma\) induce más variabilidad en \(\mu\), siendo entonces la posterior marginal en \(\mu\) una distribución en t de Student.
\[ \mu | x \sim \mathcal{T}((n+2),n\bar{y}/(n+1),(2+S_{y}^2)/(n+1)(n+2)) \]
Con n+2 grados de libertad, un parámetro de localización proporcional; a \(\bar{y}\) y un parámetro de escala (casi) proporcional a S.
Para los datos normales, con una previa \(\mathcal{E}\S(1)\) sobre \(\sigma^{-2}\) es compatible con el valor observado en el experimento de Michelson-Morley, por lo que los parámetros de la distribución t sobre \(\mu\) son \(n=64\).
mtmu = sum(shift)/(n+1)
mtmu
## [1] -0.01461538
stmu = (2+(n-1)*var(shift))/((n+2)*(n+1))
stmu
## [1] 0.001084149
Comparamos la posterior resultante con la basada en la hipótesis \(\sigma = 0.75\) en la Figura.
library(mnormt)
curve(dmt(x, mean = mmu, S=stmu,df=n+2),col="skyblue",lwd = 2,xlab="x",ylab = "",xlim = c(-.5,.5))
curve(dnorm(x,mean=mmu,sd= sqrt(vmu)),col="black",lwd=2,add=TRUE,lty=2)
Aunque esto puede parecer contradictorio, en este mismo caso, la estimación de la varianza produce una reducción de la variabilidad de la distribución posterior \(\mu\). Esto se debe a que el valor postulado de \(\sigma^2\) es en realidad inapropiado para el experimento de Illingworth, siendo demasiado grande. Dado que la distribución posterior de \(\sigma^2\) e una distribución \(\mathcal{IG}(33,1.82)\) para los datos normales, la probabilidad de que \(\sigma\) sean tan grande como 0.75 puede evaluarse como:
diagmma = function(x,shape,scale){dgmma(1/x,shape,scale)/x^2} > curve(digmma(x,shape=33,scale = (1+(n+1)*var(shift))))
pgamma(1/(.75)^2,shape = 33,scale = (1+(n+1)*var(shift))/2)
## [1] 8.994529e-39
que muestra que 0.75 es bastante irreal, siendo diez veces mayor que la moda de la densidad posterior en \(\sigma^2\).
Un concepto que está en la base del análisis byaesiano es que se debe proporcionar una evaluación inderencial condicionada al valor realizado en los datos. El análisis bayesiano de un significado probabilístico adecuado a este condicionamiento asignado a \(\theta\) una distribución de probabilidad. Una vez seleccionada la distribución a priori, la inferencia bayesiana está formalmente “terminada” ; es decir, está completamente determinada, yya que los procedimientos de estimación, prueba y evaluación, prueba y evaluación son proporcionados automáticamente por la a priori y la forma en que comparan (o penalizan) los procedimientos. Por ejemplo, si las estimaciones \(\bar{\theta}\) de \(\theta\) se comparan a través de errores al cuadradp,
\[ \mathcal{L} = ||\theta-\bar{\theta}||^2 \]
el correspondiente de Bayes es el valor esperado de \(\theta\) bajo la distribución posterior.
\[ \bar{\theta} = \dfrac{\int\theta\mathcal{l}(\theta|y)p(\theta)d\theta}{\int\mathcal{l}(\theta|y)p(\theta)d\theta} \] Cuando no se dispone de un criterio de penalización específico, el estimador suele utilizarse como el estimador por defecto, aunque existan alternativas. Por ejemppl, el estimador máximo a posterior MAP se define como, \[ \bar{\theta} = arg \max_{\theta} p(\theta | y) = arg \max_{\theta}p(\theta) \mathcal{l}(\theta|y) \]
donde la función a maximizar se suele proporcionar en forma cerrada. Sin embargo, los problema numéricos a menudo hacen que optimización para encontrar el MAP no sea trivial. Nótese también aquí la similitud de la ecuación anterior con el estimador de máxima verosimilitud (MLE): La influencia de la distribución a priori \(p(\theta)\) en la estimación desaparece progresivamente a medida que aumenta el número de observaciones n, y el estimador MAP suele recuperar las propiedades asintóticas del MLE.
\[ E[\sigma^2|y] = 1.82/(33-1) = 0.057 \] * Del mismo modo, la estimación MAP viene dada aquí por
\[ arg \max_{\theta} p(\theta | y) = 1.82/(33+1) = 0.054 \]
La selección de la distribución a priori es una cuestión importante en la estadística bayesiana. Cuando se dispone de información previa sobre los datos o el modelo, puede (y debe) utilizarse para construir la distribución a priori, y veremos algunas aplicaciones de esta recomendación en los siguientes capítulos. En muchas situaciones, sin embargo, la selección de la distribución a priori es bastante delicada, debido a la ausencia de información fable a priori, y en su lugar deben elegirse soluciones por defecto. Dado que la elección de la distribución a priori tiene una influencia considerable en la in! ultante, este paso inferencial debe realizarse con el máximo cuidado.
Desde un punto de vista computacional, la elección más conveniente de las distribucio estructura de la verosimilitud dentro de la prioridad. En los casos más ventajosos, los priores y los posteriors permanecen dentro de la misma familia paramétrica. Tales prioritarios se denominan conjugados. Anmque los fundamentos de este principio son demasiado avanzados para procesarlos aquí (véase, por ejemplo, Robert, 2007, Cap. 3), dichos priores existen para la mayoría de las familias habituales, incluida la distribución normal. De hecho, como se ha visto, cuando la prioridad de una media normal es normal, la posterior correspondiente también es normal.
Dado que las previas conjugadas son tales que las densidades a priori y a posteriori pertenecen a la misma familia paramétrica, el uso de las observaciones se reduce a una actualización de los parámetros de la priori. Para evitar confusiones, los parámetros que intervienen en la distribución a priori sobre el parámetro del modelo suelen llamarse hiperparámetros. (Pueden asociarse a su vez a distribuciones a priori, denominándose entonces hiperparámetros)
Para la mayoría de los propósitos prácticos, es suficiente considerar las previas conjugadas descritas en la Tabla siguiente. La derivación de cada fila es sencilla y procede de la misma aplicación de la fórmula de Bayes que para el caso normal anterior. Para las distribuciones que no están dentro de esta tabla, se puede disponer o no una previa conjugada. Una catacterística importante de las previas conjugadas es que uno tiene que seleccionar a priori dos hiperámetros, por ejemplo, una media y varianza en el caso normal. Por un lado, esto es una ventaja cuando se utiliza una prioridad conjugada, ya que sólo hay que seleccionar unos poco parámetros para determinar la distribución a priori. Por otro lado, es un inconveniente, ya que la información conocida a priori. Por otro lado, es un incoveniente,ya que la información conocida a priori sobre \(\mu\) puede ser insuficiente para determinar ambos parámetros o incompatible con la estructura impuesta por la conjugación.
No hay ninguna razón de peso para elegir las previas conjugadas como nuestras previas, excepto por su simplicidad, pero el aspecto restrictivo de las previas conjugadas puede atenuarse utilizando hiper-previas ex los propios liperparámetros. El mensaje principal es, por tanto, que es agradable trabajar con las previas conjugadas, pero que requieren una determinación de los hiperparámetros que puede resultar incómoda en álgunos entornos y que, además, puede tener un impacto duradero en la inferencia resultante,
En lugar de utilizar previas conjugados, se puede optar por una perspectiva completamente diferente y confiar en las amadas previas no informativos que tieuen como objetivo atenuar el impacto de la previa vn la inforencia resultamto. Estas previas se definen fimdamentalmente como extensiones coherentes de la distribución uniforme. Su objetivo es proporcionar wma medida de referencia que infhuya lo menos posible en la inferencia (cn relación con la información aportada por la verosimilitud). Por ejemplo, los modelos de localización
\[ y \sim p(y-\theta) \]
suelen estar asociados a previas planas \(p(\theta)=1\) (nótese que estos modelos incluyen la normal \(N(\theta,1)\) como un caso especial), mientras que los modelos de escala
\[ y \sim \dfrac{1}{\theta}f(\dfrac{y}{\theta}) \]
suelen asociarse a la transformada logarítimica de una previa plana, es decir,
\[ p(\theta)= \dfrac{1}{\theta} \]
En un entorno mgeneral, la previa (no informativa) favorecita por la maoyoría de los bayesianos es la llamada previa de Jeffreys, que está relacionada con la matriz de informacion de Fisher.
\[ \begin{aligned} J(\theta) & = E\left[\left(\dfrac{d \lg p(y|\theta) }{d\theta}\right)^2|\theta\right] = -E\left[\left(\dfrac{d^2 \lg p(y|\theta) }{d\theta^2}\right)^2|\theta\right] \\ p(\theta) & \propto [J(\theta)]^{-1/2} \end{aligned} \] \[ \begin{aligned} I^F (\theta) & = Var_\theta\left(\dfrac{\partial \log f(Y|\theta)}{\partial \theta}\right) \\ p^J(\theta) & = |I^F (\theta)|^{1/2} \end{aligned} \] Dado que la media \(\mu\) de un modelo normal es un parámetro de localización, cuando la varianza \(\sigma^2\) es conocida, la elección estándar de parámetro no informativo es una constante arbitraria \(p(\theta)\) (que se toma como t por defecto). Dado que esta previa plana corresponde formalmente al caso límite \(\tau = \infty\) en la previa normal conjugada, es fácil verificiar que esta previa no informativa está asociada a la distribución posterio \(N(x,1)\), que resulta ser la función de verosimilitud en ese caso. Una consecuencia interesante de sta observación es que el estimador MAP es tambien el estimador de máxima verosimilitud en ese caso (especial). Para el caso cuando
\[ \begin{aligned} p((\mu,\sigma^2)|y) & \propto (\sigma^{-2})^{(3+n/2)} exp \left \lbrace -\left(n(\mu-\bar{y})^2+s^2\right) \right\rbrace \\ & \propto \sigma^{-1} exp \left \lbrace -n(\mu-\bar{y})^2/2\sigma^2 \right\rbrace \times\lbrace(\sigma^2)^{-(n+2)/2}\rbrace exp \left \lbrace \dfrac{-s^2}{2\sigma^2} \right\rbrace\\ \theta & \sim N(\bar{y},\sigma^2/n)\times \mathcal{IG}(n/2,s^2/2) \end{aligned} \]
un producto de una normal condicional sobreb \(\mu\) por una gamma inversa sobre \(\sigma^2\). Por tanto, la distribución marginal posterior sobre \(\mu\) es una distribución t.
\[ \mu | y \sim \mathcal{T}(n,\bar{y},s^2/n^2) \]
Para los datos del ejemplo anterior, la diferencia en la Fig. entre la solución no informativa y la psoterior conjugada es menor, pero expresa que la distribución a priori \(\mathcal{E}(1)\) sobre \(\sigma^{-2}\) no es muy apropiada para el experimento de Illingworth, ya que no pne suficiente peso a priori en la región de importancial, es decir cerca de 0.05. Como resultato, la posterior más cocnentrada es (aparentemente paradójica) la asociada a la previa no informativa.
Una diferencia importante (y potencialmente peligrosa) entre las previas propias e impropias es que la distribución posterior asociada a una previa impropia no está necesariamente definida, es decir, puede ocurrir que
\[ \int p(\theta)\mathcal{l}(\theta|y)d\theta < \infty \]
Ejercicio 10: En un estudio llevado a cabo en cierto país se encuentra que de 980 nacimientos con la condición de placenta previa, 437 eran niñas. ¿Cuánta evidencia proporcionan estos datos sobre la hipótesis de que la proporción de nacimientos femeninos en la población de placenta previa es menor que la proporción 0.458 de mujeres en la población?
\[ \begin{aligned} p\left(y|\theta \right) &= \mathcal{B}eta \left(\alpha + y,\beta + n-y\right) \\ E \left(\theta|y\right) &= \dfrac{\alpha + y}{\alpha + \beta + n}\\ Var(\theta|y) &= \dfrac{(\alpha + y)(\alpha + \beta - n)}{(\alpha\beta+n)^2(\alpha+\beta+n+1)} \end{aligned} \]
Si se usa una distribución inicial \(\mathcal{U}\left(0,1\right)\) equivalente a una \(\mathcal{B}eta \left(1,1\right)\) la distribución posterior de \(\theta\), la proporción de nacimientos niñas con la condición de placenta previa, es \[ \begin{aligned} \mathcal{B}eta \left(\theta | y+1, n-y\right) &= \mathcal{B}eta \left(\theta|437+1,980-437\right) \\ &=\mathcal{B}eta\left(\theta|438,544\right) \end{aligned} \]
Se puede calcular la media posteriori, desviación etandar, media y cuantiles del \(2.5\%\) y \(98.5\%\) de probabilidad
ls()
## [1] "diagmma" "mmu" "mtmu" "n" "normaldata"
## [6] "shift" "stmu" "vmu"
rm()
(media <- 438/(438+543))
## [1] 0.4464832
(sd <- (438*543)/((438*544)^{2})*(438+543+1))
## [1] 0.004113764
qbeta(0.5,438,543)
## [1] 0.4464468
qbeta(0.025,438,543)
## [1] 0.4155005
qbeta(0.975,438,543)
## [1] 0.4776725
Con esto, nos queda claro que el intervalo central del \(95\%\) de probabilidad a posteriori es: \(\left[0.415,0.477\right]\) Nótese que este intervalo no contiene a al proporción de niñas en la poblaci{on, con lo que se puede inferir que la proporción de placenta previa en nacimientos de niñas es menor que la proporción poblacional.
simula <- rbeta(1000,1,1)
hist(rbeta(10000,438,543))
Ejercicio 11: Ejemplo hipotético: Tasa de incidencia de malaria en el municipio de Guayaquil.
Se desea estudiar la tasa de incidencia de malaria en el municipio de Guayaquil. Se observa por ejemplo que en el año _2001: se registraron 500 casos en este municipio de 20.000 personas (250 casos por cada 10.000 persnas en promedio por año.)
Si se usa una distribución de muestreo Poisson para el y el número de casos en el municipio de 20.000 habitantes en un año, la distribución de muestreo puede extender como una Poisson \(\mathcal{P}\left(2\theta\right)\), donde \(\theta\) es la verdadera tasa de incidencia de la enfermedad a largo plazo en el municipio por cada 10.000 habitantes.
Considerando opinión de expertos, se tiene un conocimiento previo (a priori) que se espera un valor de \(\theta\) alrededor de 10, se usa una distribción previa para \(\theta=\mathcal{G}amma \left(5,0.5\right)\) la cual tiene media a 10. la distribución posterior resultante es una \(\mathcal{G}amma \left(505,2.5\right)\) con una media de 202.
Esta distribución se actualiza luego de que se dispone de observaciones adicionales. Suponiendo que la población no cambia en 5 años (20.000 habitantes), se observan 1.500 casos en 5 años. En este caso la distribucion de muestreo es una Poisson \(\mathcal{P} \left(10 \theta \right)\) y la distribución posterior es \(\mathcal{G}amma \left(1505,10.5\right)\) con media 143.3.
theta.prior <- rgamma(1000,5,scale = 2)
summary(theta.prior)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.604 6.849 9.483 10.000 12.644 29.424
theta.posterior <- rgamma(1000,510,scale = 2/5)
summary(theta.posterior)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 171.4 197.9 203.6 203.8 209.9 235.1
length(theta.posterior[theta.posterior > 150])/1000
## [1] 1
theta.posterior.2 <- rgamma(1000,1505,scale = 2/21)
summary(theta.posterior.2)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 134.0 141.2 143.5 143.6 145.9 154.8
length(theta.posterior.2[theta.posterior.2 > 150])/1000
## [1] 0.042
par(mfrow = c(3,1), bty = 'n')
hist(theta.prior,xlab = expression(theta),ylab = "",main = "Previa",xlim = c(0,250))
hist(theta.posterior,xlab = expression(theta),ylab = "",main = "Distribución Posterior",xlim = c(0,250))
hist(theta.posterior.2,xlab = expression(theta),ylab = "",main = "Distribución Posterior II",xlim = c(0,250))
Ejercicio 12: Datos discretos En el cuadro se marca el número de accidentes mortales y fallecidos en vuelos regulares de aerolíneas por año durante un periodo de diez años. Utilizaremos los siguientes datos para ajustar un modelo de datos discreto.
library(readxl)
datos <- read_excel("tasa_aereos.xlsx")
library(knitr)
df <- datos
kable(df, caption = "Accidentes fatales aéreos", align = c('c','c','c','c'), col.names = c("Año", "Accidentes fatales","Pasajeros fallecidos","Tasa de fallecidos"), row.names = FALSE, digits = 1, format.args = list(decimal.mark= "."))
| Año | Accidentes fatales | Pasajeros fallecidos | Tasa de fallecidos |
|---|---|---|---|
| 1976 | 24 | 734 | 0.2 |
| 1977 | 25 | 516 | 0.1 |
| 1978 | 31 | 754 | 0.1 |
| 1979 | 31 | 877 | 0.2 |
| 1980 | 22 | 814 | 0.1 |
| 1981 | 21 | 362 | 0.1 |
| 1982 | 26 | 764 | 0.1 |
| 1983 | 20 | 809 | 0.1 |
| 1984 | 16 | 223 | 0.0 |
| 1985 | 22 | 1066 | 0.1 |
Sea \(y_{i}\) el numero de accidenetes fatales en el año \(i=1, \cdots, 10\).
\(\theta\) el número esperado de accidentes en el año. El modelo para los datos es:
\[ y_{i}| \theta \sim Poisson\left(\theta\right) \]
Utilizaremos una distribución que pertenezca a una familia conjugada para mayor comodidad.
Si la previa para \(\theta\) es \(Gamma \left(\alpha, \beta\right)\), entonces la distribución es:
\[ Gamma \left(\alpha +10\bar{y}, \beta+10\right ) \]
Supongamos una distribución previa no informativa \(\left(\alpha, \beta\right)=\left(0,0\right)\)
La distribución posterior \(\theta|y \sim Gamma \left(238,10\right)\)
Sea \(\tilde{y}\) el númmero de accidenetes mortales en 1986.
Dado \(\theta\), la distribución predicitva para \(\tilde{y}\) es \(Poisson \left(\theta\right)\)
Estimación del número de millas por pasajeros según años
\[ 1976: \dfrac{746}{0.19}\times 100=3.863 \times 10^{1} \]
Sea \(x_{i}\) el número de millas recorridas en el año i por el pasajero
\(\theta\) la tasa esperada de accidentes por pasajeros según millas.
El modelo para la data \(y_{i}x_{i}, \theta \sim Poisson \left(x_{i}\theta\right)\) es:
Asumamos una previa para \(\theta \sim Gamma \left(0,0\right)\). Entonces la distribución posterior para \(\theta\) es:
\[ \theta|y \sim Gamma \left(10\bar{y},10\bar{x}\right) = Gamma\left(238,5.716 \times 10^{12}\right) \]
\[ Poisson(x\theta) = Poisson(8\times10^1) \]
\[ \begin{aligned} E\left(\theta|y\right)&= \dfrac{238}{10} = 23.8 \\ sd\left(\theta|y\right) &= \dfrac{\sqrt{238}}{10} \ = 1.54 \end{aligned} \]
\[ \begin{aligned} E\left(\tilde{y}\right|\theta) &= \theta \\ sd\left(\tilde{y}\theta \right) &= \sqrt{\theta} \end{aligned} \] - La media y la varianza de la distribución predictiva para \(\tilde{y}\) son:
\[ \begin{aligned} E\left(\tilde{y}\right|y) &= E\left(E\left(\tilde{y}|\theta, y\right)\right) = E\left(\theta|y \right)= 23.8 \\ Var\left(\tilde{y}|y\right) &= E\left(Var\left(\tilde{y}|\theta,y \right)\right) + Var\left(E\left(\tilde{y}|\theta,y \right)\right) = E\left(\theta|y \right) + Var\left(\theta|y \right) = 23.8 + (1.54)^2 = 26.2 \\ \end{aligned} \]
# Gamma y Poisson
set.seed(1)
theta <- rgamma(1000, 238)/10
y1986 <- rpois(1000, theta)
y <- sort(y1986)
print(sort(y1986)[c(25,976)])
## [1] 14 35
# aproximación normal
alfa <- 238
beta <- 10
media.theta <- alfa/beta
var.theta <- alfa/beta^{2}
media.ytilde <- media.theta
var.ytilde <- media.theta + var.theta
signif <- 0.05
cuantil <- qnorm(1-signif/2)
(LI <- media.ytilde-(cuantil * sqrt(var.ytilde)))
## [1] 13.77157
(LS <- media.ytilde+(cuantil * sqrt(var.ytilde)))
## [1] 33.82843
library(dplyr)
##
## Attaching package: 'dplyr'
## The following object is masked from 'package:MASS':
##
## select
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
#número de pasajeros por millas en cada año
millas <- 100000000
datos1 <- mutate(df, millas.pasa = as.numeric(format((pasa.falle/tasa.falle)*millas, digits = 4 , scientific = TRUE)))
#estimacion del numero de millas por pasajeros
suma <- apply(datos1, 2, sum)
sIMULACIÓN
set.seed(1)
theta <- rgamma(1000,238)/suma[5]
y1986 <- rpois(1000, theta*8e11)
print(sort(y1986)[c(25,976)])
## [1] 22 46
set.seed(1)
alfa <- suma[2]
beta <- suma[5]
y.tilde <- 8e11
media.theta <- alfa*beta
var.theta <- alfa / beta^{2}
media.poisson <- y.tilde * media.theta
var.poisson <- y.tilde * media.theta
media.ytilde <- media.poisson
var.ytilde <- (y.tilde*media.theta)+(y.tilde^{2}*var.theta)
signif <- 0.05
cuantil <- qnorm(1-signif/2)
(LI <- media.ytilde-(cuantil * sqrt(var.ytilde)))
## acc.fatales
## 1.088288e+27
(LS <- media.ytilde+(cuantil * sqrt(var.ytilde)))
## acc.fatales
## 1.088288e+27
set.seed(1)
theta <- rgamma(1000, suma[3])/10
y1986 <- rpois(1000, theta)
y <- sort(y1986)
print(sort(y1986)[c(25,976)])
## [1] 640 749
set.seed(1)
suma
## anio acc.fatales pasa.falle tasa.falle millas.pasa
## 1.9805e+04 2.3800e+02 6.9190e+03 1.2600e+00 5.7158e+12
theta <- rgamma(1000, suma[3])/suma[5]
y1986 <- rpois(1000, theta*8e11)
y <- sort(y1986)
print(sort(y1986)[c(25,976)])
## [1] 904 1034
Ejercicio 13 Distribución normal con media desconocida: Se extrae una muestra aleatoria de n estudiantes de una gran población y se mide sus pesos. El peso promedio de los n estudiantes de la muestra es y=150 libras. Supongamos de que los pesos la población se distribuyen normalmente con media desconocida \(\theta\) y una desviación estandar conocida de 20 libras. Suponga que su distribución previa \(\theta\) es normal con media 180 libras y una desviación estándar de 40 libras.
\[ \begin{aligned} p\left(\theta | y_{1}, \cdots, y_{n}\right) &= p\left(\theta | \bar{y} \right) = N\left(\theta | \mu_{n}, \tau_{n}^{2}\right) \\ \mu_{n} &= \dfrac{\dfrac{1}{\tau_{0}^{2}} \mu_{0} + \dfrac{n}{\sigma^{2}}\bar{y}}{\dfrac{1}{\tau_{0}^{2}}+\dfrac{n}{\sigma^{2}}} \\ \dfrac{1}{\tau_{n}^{2}} &= \dfrac{1}{\tau_{0}^{2}}+\dfrac{n}{\sigma^{2}} \\ \theta|y &\sim N\left(\dfrac{\dfrac{1}{40^2}180+\dfrac{n}{20^2}150}{\dfrac{1}{40^2}+\dfrac{n}{20^2}},\dfrac{1}{\dfrac{1}{40^2}+\dfrac{n}{20^2}}\right) \end{aligned} \]
\[ \begin{aligned} E\left(\tilde{y}\right|y) &= E\left(\theta| y\right) = \mu_{1} \\ Var\left(\tilde{y}|y\right) &= E\left(\sigma^2| y\right) + Var\left(\theta|y\right) + \sigma^2 + \tau_{1}^2 \\ \tilde{y}|y &\sim N\left(\dfrac{\dfrac{1}{40^2}180+\dfrac{n}{20^2}150}{\dfrac{1}{40^2}+\dfrac{n}{20^2}},\dfrac{1}{\dfrac{1}{40^2}+\dfrac{n}{20^2}}+20^2\right) \end{aligned} \]
a <- ((1/40^2)*180)+((10/20^{2})*150)
b <- (1/(40^2))+(10/(20^{2}))
a/b
## [1] 150.7317
sqrt(1/b)
## [1] 6.24695
(a/b) - (1.96*sqrt(1/b))
## [1] 138.4877
(a/b) + (1.96*sqrt(1/b))
## [1] 162.9757
\[ 150.7317 \pm 1.96 \times 6.24 = \left[138.4877 , 162.9757\right] \]
a <- ((1/40^2)*180)+((10/20^{2})*150)
b <- (1/(40^2))+(10/(20^{2}))
a/b
## [1] 150.7317
sqrt(1/b)
## [1] 6.24695
(a/b) - (1.96*sqrt((1/b)+20^{2}))
## [1] 109.664
(a/b) + (1.96*sqrt((1/b)+20^{2}))
## [1] 191.7994
\[ 150.7317 \pm 1.96 \times 20.95 = \left[109.664 , 191.7994\right] \]
a <- ((1/40^2)*180)+((100/20^{2})*150)
b <- (1/(40^2))+(100/(20^{2}))
a/b
## [1] 150.0748
sqrt(1/b)
## [1] 1.997505
(a/b) - (1.96*sqrt((1/b)+20^{2}))
## [1] 110.6798
(a/b) + (1.96*sqrt((1/b)+20^{2}))
## [1] 189.4698
\[ 150.7317 \pm 1.96 \times 20.95 = \left[110.6798 , 189.4698\right] \] Ejercicio Modelo Multinomial:
En 1988 se hizo una encuesta pre-electoral en la elecciíon presidencial de USA. De 1447 personas encuestadas, \(y_{1}=727\) apoyaron a Bush; \(y_{2}=583\) apoyaron a Michales Dukakis y \(y_{3}=173\) apoyaron a otros candidatos.
Observación: La paramertización de la distribución Gamma en R y la usada en el ejercicio difieren en el parámetro de escala.↩︎