Suponga que para un problema de respuesta binaria se planea usar una previa uniforme para la proporción de la población \(\theta\), con el fin de no favorecer ningún valor de \(\theta\) a priori. Sin embargo, algunas personas prefieren estudiar las proporciones en escala logit, es decir, están interesados en \(\gamma = \log\frac{\theta}{1-\theta}\). Vía simulación de Monte Carlo, encuentre la distribución previa de \(\gamma\) inducida por la distribución uniforme para \(\theta\). ¿Esta distribución es Uniforme para \(\gamma\)?
Se quiere comparar dos ciudades cuyos sistemas de opinión se pueden considerar como independientes, en términos de las tasas de apoyo \(\theta_1\) y \(\theta_2\) que los ciudadanos otorgan a una medida económica gubernamental. Por tal motivo, se realiza un estudio de carácter observacional en el que, entre otras variables, se recopilan datos sobre la variable binaria \(y_{i,j}\) que asume el valor 1 si la persona \(i\) de la ciudad \(j\) apoya la medida, y asume el valor 0 en caso contrario, para \(i=1,\ldots,n_j\) y \(j=1,2\). Teniendo en cuenta que \(s_1=\sum_{i=1}^{85} y_{i,1} = 57\) y \(s_2=\sum_{i=1}^{90} y_{i,2} = 36\), y asumiendo distribuciones previas no informativas para \(\theta_1\) y \(\theta_2\) en modelos Beta-Binomial independientes.
Un laboratorio está estimando la tasa de tumorigenesis en dos cepas de ratones, A y B. Los ratones tipo A han sido bien estudiados e información de otros laboratorios sugiere que los ratones tipo A tienen conteos de tumores que siguen una distribución de Poisson con media \(\theta_A = 12\). Se desconoce la tasa promedio de los tumores para los ratones tipo B, \(\theta_B\), pero existe suficiente evidencia empírica para asegurar que los ratones tipo B están relacionados con los ratones tipo A. Los conteos de tumores observados para las dos cepas de ratones son \(\boldsymbol{y}_A = (12, 9, 12, 14, 13, 13, 15, 8, 15, 6)\) y \(\boldsymbol{y}_B = (11, 11, 10, 9, 9, 8, 7, 10, 6, 8, 8, 9, 7)\).
Considere el modelo \(y_i\mid\theta \stackrel{\text{iid}}{\sim} \textsf{N}(\theta,\sigma^2_0)\), para \(i = 1,\ldots,n\), con varianza \(\sigma^2_0\) conocida, y \(\theta \sim \textsf{N}(\mu_0,\tau^2_0)\), donde \(\mu_0\) y \(\tau^2_0\) son hiperparámetros (conocidos). Muestre que \(\theta\mid\boldsymbol{y}\sim\textsf{N}(\mu_n,\tau^2_n)\), donde \[ \mu_n = \frac{\frac{1}{\tau^2_0}\,\mu_0 + \frac{n}{\sigma^2_0}\,\bar{y}}{\frac{1}{\tau^2_0} + \frac{n}{\sigma^2_0}} \qquad\text{y}\qquad \tau^2_n = \frac{1}{\frac{1}{\tau^2_0} + \frac{n}{\sigma^2_0}}\,, \] donde \(\boldsymbol{y}=(y_1,\ldots,y_n)\) y \(\bar{y} = \frac1n\sum_{i=1}^n y_i\). Así, la media posterior de \(\theta\) es un promedio ponderado entre la media a priori \(\mu_0\) y la media muestral \(\bar{y}\).
Considere una única observación de la distribución muestral \(x\mid\theta\sim\textsf{N}(\theta,\theta)\), con \(\theta > 0\). Muestre que la previa de Jeffreys de para \(\theta\) es tal que: \[ p_J(\theta)\propto\frac{(2\theta + 1)^{1/2}}{\theta}\,. \]
La variable aleatoria \(X\) tiene distribución Galenshore con parámetros \(\alpha,\beta > 0\), i.e., \(X\mid\alpha,\beta\sim\textsf{Galenshore}(\alpha,\beta)\), si su función de densidad de probabilidad es \[ p(x\mid\alpha,\beta) = \frac{2}{\Gamma(\alpha)}\,\beta^{2\alpha}\,x^{2\alpha-1}\,e^{-\beta^2x^2}\,,\qquad x>0\,. \] Para esta distribución se tiene que \[ \textsf{E}(X\mid\alpha,\beta) = \frac{\Gamma(\alpha+\tfrac12)}{\beta\Gamma(\alpha)} \qquad\text{y}\qquad\textsf{E}(X^2\mid\alpha,\beta) = \frac{\alpha}{\beta^2}\,. \] Asumiendo que \(\alpha\) es conocido:
Suponga que \(y_1\ldots,y_5\) son observaciones condicionalmente independientes de una distribución Cauchy con parámetro de localización \(\theta\) y parámetro de escala 1, i.e., \[ p(y_i\mid\theta) = \frac{1}{\pi(1+(y_i-\theta)^2)}\,,\qquad-\infty<y_i<\infty\,,\qquad-\infty<\theta<\infty\,, \] para \(i=1,\ldots,5\). Además, asuma por simplicidad que la distribución previa de \(\theta\) es Uniforme en el intervalo \((0,100)\), i.e., \(\theta\sim\textsf{Unif}(0,100)\). Teniendo en cuenta el vector de observaciones \(\boldsymbol{y}=(43.0, 44.0, 45.0, 46.5, 47.5)\):
Calcule la función de densidad posterior sin normalizar, \(p(\boldsymbol{y}\mid\theta)\,p(\theta)\), en una grilla de puntos equidistantes para \(\theta\) de la forma \(0,\frac{1}{M},\frac{2}{M},\ldots,100\), con \(M=1,000\). Usando los valores calculados para cada punto de la grilla, calcule y grafique la función de densidad posterior normalizada, \(p(\theta\mid\boldsymbol{y})\).
Usando la aproximación discreta del numeral anterior, obtenga \(B=10,000\) muestras de la distribución posterior de \(\theta\) y grafique el histograma correspondiente (junto con una estimación puntual y un intervalo de credibilidad al 95%).
Utilice las muestras de la distribución posterior de \(\theta\) del numeral anterior para obtener muestras de la distribución predictiva posterior de una observación futura y grafique el histograma correspondiente (junto con una estimación puntual y un intervalo de credibilidad al 95%).
Los archivos school1.dat
, school2.dat
,
y shool3.dat
contienen datos sobre la cantidad de tiempo
que los estudiantes de tres colegios dedicaron a estudiar o hacer tareas
durante un período de exámenes.
Explore los datos gráfica y numéricamente.
Analice los datos de cada una de los colegios separadamente, utilizando un modelo Normal con una distribución previa conjugada, en la que \(\mu_0 = 5\), \(\sigma_0^2 = 4\), \(\kappa_0 = 1\), \(\nu_0 = 2\), y calcule lo siguiente:
Dibuje la distribución posterior conjunta de \((\theta, \sigma^2)\) para cada escuela.
Compruebe la bondad de ajuste del modelo para cada escuela utilizando como estadísticos de prueba la media y el coeficiente de variación.
Considere el modelo Normal dado por \(y_i\mid\theta,\sigma^2 \stackrel{\text{iid}}{\sim} \textsf{N}(\theta,\sigma^2)\), para \(i=1,\ldots,n\), con distribución previa \[ \theta \mid \sigma^{2} \sim \textsf{N}\left(\mu_{0}, \frac{\sigma^{2}}{\kappa_0}\right) \qquad\text{y}\qquad \sigma^{2} \sim \textsf{GI}\left(\frac{\nu_0}{2}, \frac{\nu_0\sigma^2_0}{2}\right)\,, \] donde \(\theta_0,\kappa_0,a,b\) son los hiperparámetros del modelo.
Considere el modelo Normal \(x_i\mid\theta,\sigma^2 \stackrel{\text{iid}}{\sim} \textsf{N}(\theta,\sigma^2)\), para \(i=1,\ldots,n\), donde \(\theta\) es desconocido y \(\sigma^2\) es conocido. Además, considere una distribución previa para \(\theta\) definida por medio de una mezcla finita de previas conjugadas de la forma \[ p(\theta) = \sum_{\ell=1}^K w_\ell\,\phi(\theta\mid\mu_\ell,\tau^2)\,, \] donde \(K\) es un entero positivo fijo mayor o igual que 1, \(w_1,\ldots,w_K\) es un sistema de pesos tales que y \(\sum_{\ell=1}^K w_\ell = 1\) y \(0\leq w_\ell\leq 1\) para \(\ell=1,\ldots,K\), y \(\phi(\theta\mid\mu,\tau^2)\) denota la densidad de la distribución Normal con media \(\mu\) y varianza \(\tau^2\). Una distribución previa de esta forma permite especificar estados de información previos multimodales acerca de \(\theta\).
Considere el modelo Normal Trucado \(x_i\mid\theta,\sigma^2 \stackrel{\text{iid}}{\sim} \textsf{N}_{(0,\infty)}(\theta,\sigma^2)\), para \(i=1,\ldots,n\), donde \(\sigma^2=1\). Además, considere la distribución previa para \(\theta\) dada por \(\theta\sim\textsf{N}(\mu,\tau^2)\).
Considere el modelo Normal dado por \(y_i\mid\theta,\sigma^2 \stackrel{\text{iid}}{\sim} \textsf{N}(\theta,\sigma^2)\), con distribución previa \[ \begin{align*} \theta &\sim \textsf{N}(\mu_0, \tau^2_0)\\ \sigma^2 &\sim \textsf{GI}\left(\tfrac{\nu_0}{2},\tfrac{\nu_0\,\sigma^2_0}{2}\right) \end{align*} \] donde \(\mu_0\), \(\tau^2_0\), \(\nu_0\), \(\sigma^2_0\) son los hiperparámetros del modelo. Demostrar que:
Considere el modelo Normal dado por \(y_i\mid\theta,\sigma^2 \stackrel{\text{iid}}{\sim} \textsf{N}(\theta,\sigma^2)\), con distribución previa \[ p(\theta,\log\sigma^2) \propto 1\,. \] Esta distribución se conoce como distribución previa impropia, lo que significa que no constituye una distribución en el sentido estricto, ya que no se integra a uno. Sin embargo, puede emplearse como una distribución previa no informativa dentro del enfoque Bayesiano, siempre y cuando la distribución posterior resultante sea bien definida.
Muestre que \(p(\theta,\log\sigma^2) \propto 1/\sigma^2\).
Encuentre la distribución condicional completa de \(\theta\).
Encuentre la distribución condicional completa de \(\sigma^2\).
Encuentre la distribución marginal posterior de \(\theta\).
W. L. Grogan y W. W. Wirth identificaron en las selvas de Brasil dos nuevas variedades de mosquitos picadores (midges). Una de estas variedades fue denominada “mosquito Apf” y la otra “mosquito Af”. Los investigadores descubrieron que el mosquito Apf es portador de una enfermedad debilitante que puede causar inflamación cerebral. Aunque la enfermedad rara vez resulta fatal, la hinchazón puede ocasionar discapacidades permanentes. En contraste, el mosquito Af es inofensivo y actúa como un valioso polinizador. Para diferenciar estas dos variedades, los biólogos tomaron diversas medidas taxonómicas de los mosquitos capturados.
Según los datos proporcionados en el estudio de Grogan y Wirth (1981), se tiene información sobre la longitud del ala (en milímetros) de \(n=9\) individuos de la especie Af. A partir de estas mediciones, se busca hacer inferencia sobre la media poblacional \(\theta\), considerando que otros estudios sugieren que la longitud promedio de las alas en especies similares es cercana a 1.9 mm, con una desviación estándar de 0.1 mm. Es importante tener en cuenta que las longitudes son estrictamente positivas, lo que implica que \(\theta > 0\). Los datos observados son: \(1.64, 1.70, 1.72, 1.74, 1.82, 1.82, 1.82, 1.90, 2.08\). Realizar inferencia sobre la media, la desviación estándar y el coeficiente de variación utilizando un modelo Normal conjugado, un modelo Normal semiconjugado y un modelo Normal con distribución previa impropia. Comparar los resultados obtenidos.
Demostrar que la distribución \(\textsf{t}\) puede expresarse como una mezcla jerárquica de distribuciones normales ponderadas por una distribución Gamma-Inversa. Es decir, demostrar que la distribución muestral \[ y_i \mid \theta, \sigma^2 \stackrel{\text{iid}}{\sim} \textsf{t}_\kappa(\theta, \sigma^2), \quad \text{para } i = 1, \dots, n, \] es equivalente a la siguiente formulación jerárquica: \[ y_i \mid \theta, V_i \stackrel{\text{ind}}{\sim} \textsf{N}(\theta, V_i), \quad V_i \mid \sigma^2 \stackrel{\text{iid}}{\sim} \textsf{GI}\left(\frac{\kappa}{2}, \frac{\kappa \sigma^2}{2}\right). \]
Una variable aleatoria \(X\) tiene distribución \(t\) con parámetros \(\kappa \in \mathbb{N}\), \(-\infty < \theta < \infty\), \(\sigma^2 > 0\), es decir, \(X \mid \kappa, \theta, \sigma^2 \sim t_\kappa(\theta, \sigma^2)\), si su función de densidad de probabilidad está dada por: \[ p(x \mid \kappa, \theta, \sigma^2) = \frac{\Gamma\left(\frac{\kappa + 1}{2}\right)}{\sqrt{\pi \kappa \sigma^2} \, \Gamma\left(\frac{\kappa}{2}\right)} \left[1 + \frac{(x - \theta)^2}{\kappa \sigma^2}\right]^{-\frac{\kappa + 1}{2}}, \quad -\infty < x < \infty. \]
La base de datos personas.csv
, disponible en la
página web del curso, es una muestra del módulo de Personas de la
encuesta Medición de Pobreza Monetaria y Desigualdad 2021, realizada por
el DANE en Colombia (enlace
oficial). Incluye a la población civil no institucional residente en
todo el país, con datos recolectados mediante informantes directos
(mayores de 18 años o menores que trabajen) o informantes idóneos del
hogar. Considere el ingreso total (ingtot
), que representa
la suma de todas las fuentes de ingresos, tanto observadas como
imputadas, por persona, específicamente para los habitantes de
Bogotá.
Para ajustar el modelo \(y_i \mid \theta, \sigma^2 \stackrel{\text{iid}}{\sim} \textsf{t}_\kappa(\theta, \sigma^2)\), para \(i = 1, \dots, n\), se utilizan las distribuciones previas \(\theta \sim \textsf{N}(\mu_0, \gamma_0^2)\), \(\sigma^2 \sim \textsf{G}\left(\frac{\alpha_0}{2}, \frac{\beta_0}{2}\right)\), y \(\kappa \sim \textsf{Unif}\{1, 2, \dots, \nu_0\}\), donde \(\mu_0\), \(\gamma_0^2\), \(\alpha_0\), \(\beta_0\) y \(\nu_0\) son los hiperparámetros del modelo. La distribución muestral \(y_i \mid \theta, \sigma^2 \stackrel{\text{iid}}{\sim} \textsf{t}_\kappa(\theta, \sigma^2)\) es equivalente a la formulación jerárquica \(y_i \mid \theta, \zeta_i^2 \stackrel{\text{ind}}{\sim} \textsf{N}(\theta, \zeta_i^2)\), \(\zeta_i^2 \mid \sigma^2 \stackrel{\text{iid}}{\sim} \textsf{GI}\left(\frac{\kappa}{2}, \frac{\kappa \sigma^2}{2}\right)\), donde las variables auxiliares \(\zeta_i^2\), aunque desconocidas, se introducen para facilitar la implementación del muestreador de Gibbs. Estas variables permiten que las distribuciones condicionales completas de los parámetros desconocidos, incluidas las auxiliares, tengan formas probabilísticas conocidas, simplificando significativamente el proceso de muestreo.
Realizar inferencia sobre la media, la desviación estándar y el coeficiente de variación de los ingresos (en escala logarítmica). Recuerde que, si \(X \mid \kappa, \theta, \sigma^2 \sim \textsf{t}_\kappa(\theta, \sigma^2)\), entonces \(\mathbb{E}(X) = \theta\), para \(\kappa > 1\), y \(\text{Var}(X) = \frac{\kappa}{\kappa - 2} \sigma^2\), para \(\kappa > 2\).
En el modelo jerárquico, las variables auxiliares \(\zeta_i^2\) desempeñan un papel clave en la detección de outliers, ya que representan la varianza específica de cada observación \(y_i\). Estas variables permiten que el modelo ajuste dinámicamente la dispersión en torno a la media \(\theta\), asignando mayor varianza a las observaciones que se alejan significativamente del patrón general. Este mecanismo facilita la identificación de valores atípicos sin afectar negativamente las estimaciones globales del modelo. Fetectar outliers en los ingresos (en escala logarítmica), se pueden aplicar los siguientes métodos:
Criterio basado en \(\zeta_i^2\): Identifique las observaciones asociadas con valores de \(\zeta_i^2\) considerablemente altos en comparación con el resto. Como referencia, se pueden considerar outliers aquellas observaciones cuyo valor medio posterior de \(\zeta_i^2\) supere un umbral, como el percentil 95 de la distribución estimada de \(\zeta_i^2\). Estas observaciones son indicativas de outliers, ya que el modelo les asigna una varianza elevada para reflejar su desviación respecto a la media \(\theta\).
Criterio basado en residuos estandarizados: Calcule los residuos estandarizados utilizando la fórmula: \[ r_i = \frac{y_i - \theta}{\sqrt{\zeta_i^2}}, \] donde valores absolutos grandes de \(r_i\), típicamente \(|r_i| > 3\), sugieren la presencia de outliers. Este enfoque combina la desviación de \(y_i\) respecto a \(\theta\) y la varianza específica \(\zeta_i^2\), proporcionando una medida confiable para identificar valores extremos.
Ambos criterios pueden ser complementados mediante visualizaciones, como gráficos de los valores estimados de \(\zeta_i^2\) o de los residuos estandarizados \(r_i\). Estas herramientas permiten una exploración más intuitiva y detallada de los posibles outliers en el conjunto de datos.
Los archivos school1.dat
hasta
school8.dat
(disponibles en este enlace) contienen
información sobre las horas semanales dedicadas a tareas por estudiantes
muestreados en ocho escuelas distintas. El objetivo es obtener las
distribuciones posteriores de las medias reales de las ocho escuelas
utilizando un modelo jerárquico Normal definido como: \[
y_{i,j} \mid \theta_j, \sigma_j^2 \stackrel{\text{iid}}{\sim}
\textsf{N}\left(\theta_j, \sigma_j^2\right),
\] donde los parámetros tienen las siguientes distribuciones
previas: \[
\theta_j \mid \mu, \tau^2 \stackrel{\text{iid}}{\sim}
\textsf{N}\left(\mu, \tau^2\right), \quad \sigma_j^2 \mid \nu, \sigma^2
\stackrel{\text{iid}}{\sim} \textsf{GI}\left(\frac{\nu}{2}, \frac{\nu
\sigma^2}{2}\right),
\] y los hiperparámetros están distribuidos según: \[
\mu \sim \textsf{N}(\mu_0, \gamma_0^2), \quad \tau^2 \sim
\textsf{GI}\left(\frac{\eta_0}{2}, \frac{\eta_0 \tau_0^2}{2}\right),
\quad p(\nu) \propto e^{-\lambda_0 \nu}, \quad \sigma^2 \sim
\textsf{Gamma}(\alpha_0, \beta_0).
\] El análisis utiliza un enfoque de Bayes empírico, donde los
hiperparámetros de las distribuciones previas se estiman directamente a
partir de los datos.
Ejecute un algoritmo de muestreo de Gibbs para aproximar la distribución posterior. Evalúe la convergencia de la cadena de Markov y asegúrese de que los tamaños efectivos de muestra para las variables \(\{\mu, \tau^2, \nu, \sigma^2\}\) sean superiores a 1,000.
Calcule las medias posteriores y los intervalos de credibilidad al 95% para \(\{\mu, \tau^2, \nu, \sigma^2\}\). Compare las densidades posteriores con las previas y analice la nueva información obtenida a partir de los datos.
Trace la densidad posterior de \(R = \frac{\tau^2}{\sigma_j^2 + \tau^2}\) para cada escuela y compárela con la densidad previa de \(R\). Describa la evidencia de variación entre las escuelas.
Obtenga la probabilidad posterior de que \(\theta_7 < \theta_6\) y la probabilidad de que \(\theta_7\) sea la más pequeña de todas las \(\theta_j\).
Trace los promedios muestrales \(\bar{y}_1, \dots, \bar{y}_8\) frente a las expectativas posteriores de \(\theta_1, \dots, \theta_8\). Describa la relación entre ellos y compare el promedio muestral de todas las observaciones con la media posterior de \(\mu\).
¿Por qué el muestreador de Gibbs genera cadenas ergódicas?
¿Cuáles son los pasos para demostrar el teorema ergódico (esbozo de la prueba)?
¿Cuál es el criterio de Gelman-Rubin (R hat) para evaluar la convergencia de cadenas de Markov? Con base en un conjunto de datos simulados a partir de un modelo Normal, utilice un muestreador de Gibbs para realizar el proceso de estimación. Aplique el criterio de Gelman-Rubin e interprete los resultados obtenidos.