1. Suponga que para un problema de respuesta binaria se planea usar una previa uniforme para la proporción de la población \(\theta\), con el fin de no favorecer ningún valor de \(\theta\) a priori. Sin embargo, algunas personas prefieren estudiar las proporciones en escala logit, es decir, están interesados en \(\gamma = \log\frac{\theta}{1-\theta}\). Vía simulación de Monte Carlo, encuentre la distribución previa de \(\gamma\) inducida por la distribución uniforme para \(\theta\). ¿Esta distribución es Uniforme para \(\gamma\)?

  2. Se quiere comparar dos ciudades cuyos sistemas de opinión se pueden considerar como independientes, en términos de las tasas de apoyo \(\theta_1\) y \(\theta_2\) que los ciudadanos otorgan a una medida económica gubernamental. Por tal motivo, se realiza un estudio de carácter observacional en el que, entre otras variables, se recopilan datos sobre la variable binaria \(y_{i,j}\) que asume el valor 1 si la persona \(i\) de la ciudad \(j\) apoya la medida, y asume el valor 0 en caso contrario, para \(i=1,\ldots,n_j\) y \(j=1,2\). Teniendo en cuenta que \(s_1=\sum_{i=1}^{85} y_{i,1} = 57\) y \(s_2=\sum_{i=1}^{90} y_{i,2} = 36\), y asumiendo distribuciones previas no informativas para \(\theta_1\) y \(\theta_2\) en modelos Beta-Binomial independientes.

    1. Calcule la media de \(\theta_1-\theta_2\).
    2. Calcule un intervalo de credibilidad al 95% para \(\theta_1-\theta_2\).
    3. Calcule la probabilidad de que \(\theta_1 > \theta_2\).
    4. ¿Hay suficiente evidencia empírica para argumentar diferencias significativas entre las tasas de opinión de las dos ciudades?
  3. Un laboratorio está estimando la tasa de tumorigenesis en dos cepas de ratones, A y B. Los ratones tipo A han sido bien estudiados e información de otros laboratorios sugiere que los ratones tipo A tienen conteos de tumores que siguen una distribución de Poisson con media \(\theta_A = 12\). Se desconoce la tasa promedio de los tumores para los ratones tipo B, \(\theta_B\), pero existe suficiente evidencia empírica para asegurar que los ratones tipo B están relacionados con los ratones tipo A. Los conteos de tumores observados para las dos cepas de ratones son \(\boldsymbol{y}_A = (12, 9, 12, 14, 13, 13, 15, 8, 15, 6)\) y \(\boldsymbol{y}_B = (11, 11, 10, 9, 9, 8, 7, 10, 6, 8, 8, 9, 7)\).

    1. Asumiendo modelos Gamma-Poisson independientes para cada grupo, con distribuciones previas \(\theta_A\sim\textsf{Gamma}(120,10)\) y \(\theta_B\sim\textsf{Gamma}(12,1)\), calcule \(\textsf{Pr}(\theta_{\text{B}} < \theta_{\text{A}}\mid \boldsymbol{y}_{\text{A}},\boldsymbol{y}_{\text{B}})\) vía simulación de Monte Carlo.
    2. Para cada \(m\in\{1,2,\ldots,50\}\), calcule nuevamente \(\textsf{Pr}(\theta_{\text{B}} < \theta_{\text{A}}\mid \boldsymbol{y}_{\text{A}},\boldsymbol{y}_{\text{B}})\) vía simulación de Monte Carlo, con \(\theta_{\text{A}}\sim\textsf{Gamma}(120,10)\) y \(\theta_{\text{B}}\sim \textsf{Gamma}(12m,m)\). ¿Qué tan sensitivas son las inferencias acerca del evento \(\theta_{\text{B}} < \theta_{\text{A}}\) respecto a la distribución previa de \(\theta_{\text{B}}\)?
    3. Repita los numerales a. y b. reemplazando el evento \(\theta_{\text{B}} < \theta_{\text{A}}\) por el evento \(\bar{y^*}_{\text{B}} < \bar{y^*}_{\text{A}}\), donde \(\bar{y^*}_{\text{A}}\) y \(\bar{y^*}_{\text{B}}\) son promedios muestrales calculados a partir de muestras i.i.d. de tamaños 10 y 13 de la distribución predictiva posterior de A y B, respectivamente.
    4. Usando la distribución previa de la parte a., para ambas cepas de ratones, chequee la bondad de ajuste del modelo usando como estadísticos de prueba la media y la desviación estándar.
  4. Considere el modelo \(y_i\mid\theta \stackrel{\text{iid}}{\sim} \textsf{N}(\theta,\sigma^2_0)\), para \(i = 1,\ldots,n\), con varianza \(\sigma^2_0\) conocida, y \(\theta \sim \textsf{N}(\mu_0,\tau^2_0)\), donde \(\mu_0\) y \(\tau^2_0\) son hiperparámetros (conocidos). Muestre que \(\theta\mid\boldsymbol{y}\sim\textsf{N}(\mu_n,\tau^2_n)\), donde \[ \mu_n = \frac{\frac{1}{\tau^2_0}\,\mu_0 + \frac{n}{\sigma^2_0}\,\bar{y}}{\frac{1}{\tau^2_0} + \frac{n}{\sigma^2_0}} \qquad\text{y}\qquad \tau^2_n = \frac{1}{\frac{1}{\tau^2_0} + \frac{n}{\sigma^2_0}}\,, \] donde \(\boldsymbol{y}=(y_1,\ldots,y_n)\) y \(\bar{y} = \frac1n\sum_{i=1}^n y_i\). Así, la media posterior de \(\theta\) es un promedio ponderado entre la media a priori \(\mu_0\) y la media muestral \(\bar{y}\).

  5. Considere una única observación de la distribución muestral \(x\mid\theta\sim\textsf{N}(\theta,\theta)\), con \(\theta > 0\). Muestre que la previa de Jeffreys de para \(\theta\) es tal que: \[ p_J(\theta)\propto\frac{(2\theta + 1)^{1/2}}{\theta}\,. \]

  6. La variable aleatoria \(X\) tiene distribución Galenshore con parámetros \(\alpha,\beta > 0\), i.e., \(X\mid\alpha,\beta\sim\textsf{Galenshore}(\alpha,\beta)\), si su función de densidad de probabilidad es \[ p(x\mid\alpha,\beta) = \frac{2}{\Gamma(\alpha)}\,\beta^{2\alpha}\,x^{2\alpha-1}\,e^{-\beta^2x^2}\,,\qquad x>0\,. \] Para esta distribución se tiene que \[ \textsf{E}(X\mid\alpha,\beta) = \frac{\Gamma(\alpha+\tfrac12)}{\beta\Gamma(\alpha)} \qquad\text{y}\qquad\textsf{E}(X^2\mid\alpha,\beta) = \frac{\alpha}{\beta^2}\,. \] Asumiendo que \(\alpha\) es conocido:

    1. Identifique una clase de densidades previas conjugadas para \(\beta\).
    2. Sea \(y_1,\ldots,y_n\mid\beta\stackrel{\text{iid}}{\sim}\textsf{Galenshore}(\alpha,\beta)\). Encuentre la distribución posterior de \(\beta\) dado \(\boldsymbol{y}=(y_1,\ldots,y_n)\) usando la distribución previa de la clase conjugada del numeral anterior.
    3. Identifique un estadístico suficiente para \(\beta\) a partir de la distribución condicional conjunta \(p(\boldsymbol{y}\mid\beta)\).
    4. Determine \(\textsf{E}(\beta\mid\boldsymbol{y})\).
  7. Suponga que \(y_1\ldots,y_5\) son observaciones condicionalmente independientes de una distribución Cauchy con parámetro de localización \(\theta\) y parámetro de escala 1, i.e., \[ p(y_i\mid\theta) = \frac{1}{\pi(1+(y_i-\theta)^2)}\,,\qquad-\infty<y_i<\infty\,,\qquad-\infty<\theta<\infty\,, \] para \(i=1,\ldots,5\). Además, asuma por simplicidad que la distribución previa de \(\theta\) es Uniforme en el intervalo \((0,100)\), i.e., \(\theta\sim\textsf{Unif}(0,100)\). Teniendo en cuenta el vector de observaciones \(\boldsymbol{y}=(43.0, 44.0, 45.0, 46.5, 47.5)\):

    1. Calcule la función de densidad posterior sin normalizar, \(p(\boldsymbol{y}\mid\theta)\,p(\theta)\), en una grilla de puntos equidistantes para \(\theta\) de la forma \(0,\frac{1}{M},\frac{2}{M},\ldots,100\), con \(M=1,000\). Usando los valores calculados para cada punto de la grilla, calcule y grafique la función de densidad posterior normalizada, \(p(\theta\mid\boldsymbol{y})\).

    2. Usando la aproximación discreta del numeral anterior, obtenga \(B=10,000\) muestras de la distribución posterior de \(\theta\) y grafique el histograma correspondiente (junto con una estimación puntual y un intervalo de credibilidad al 95%).

    3. Utilice las muestras de la distribución posterior de \(\theta\) del numeral anterior para obtener muestras de la distribución predictiva posterior de una observación futura y grafique el histograma correspondiente (junto con una estimación puntual y un intervalo de credibilidad al 95%).

  8. Los archivos school1.dat, school2.dat, y shool3.dat contienen datos sobre la cantidad de tiempo que los estudiantes de tres colegios dedicaron a estudiar o hacer tareas durante un período de exámenes.

    1. Explore los datos gráfica y numéricamente.

    2. Analice los datos de cada una de los colegios separadamente, utilizando un modelo Normal con una distribución previa conjugada, en la que \(\mu_0 = 5\), \(\sigma_0^2 = 4\), \(\kappa_0 = 1\), \(\nu_0 = 2\), y calcule lo siguiente:

      • Medias posteriores e intervalos de credibilidad al 95% para la media \(\theta\), la desviación estándar \(\sigma\), y el coeficiente de variación \(\frac{\sigma}{\mu}\) de cada escuela.
      • La probabilidad posterior de que \(\theta_i < \theta_j < \theta_k\) para las seis permutaciones \(\{i, j, k \}\) de \(\{1, 2, 3 \}\), donde \(\theta_i\) es la media del del colegio \(i\).
      • La probabilidad posterior de que \(\tilde{y}_i < \tilde{y}_j < \tilde{y}_k\) para las seis permutaciones \(\{i, j, k \}\) de \(\{1, 2, 3 \}\), donde \(\tilde{y}_i\) es una observación de la distribución predictiva posterior de la escuela \(i\).
      • Calcule la probabilidad posterior de que \(\theta_1\) sea mayor que \(\theta_2\) y \(\theta_3\), y la probabilidad posterior de que \(\tilde{y}_1\) sea mayor que \(\tilde{y}_2\) y \(\tilde{y}_3\).
    3. Dibuje la distribución posterior conjunta de \((\theta, \sigma^2)\) para cada escuela.

    4. Compruebe la bondad de ajuste del modelo para cada escuela utilizando como estadísticos de prueba la media y el coeficiente de variación.

  9. Considere el modelo Normal dado por \(y_i\mid\theta,\sigma^2 \stackrel{\text{iid}}{\sim} \textsf{N}(\theta,\sigma^2)\), para \(i=1,\ldots,n\), con distribución previa \[ \theta \mid \sigma^{2} \sim \textsf{N}\left(\mu_{0}, \frac{\sigma^{2}}{\kappa_0}\right) \qquad\text{y}\qquad \sigma^{2} \sim \textsf{GI}\left(\frac{\nu_0}{2}, \frac{\nu_0\sigma^2_0}{2}\right)\,, \] donde \(\theta_0,\kappa_0,a,b\) son los hiperparámetros del modelo.

    1. Encuentre la distribución posterior de \((\theta,\sigma^2)\).
    2. Encuentre la distribución condicional completa de \(\theta\).
    3. Encuentre la distribución marginal de \(\theta\).
    4. Encuentre la distribución marginal de \(\sigma^2\).
    5. Simule \(n=1000\) observaciones i.i.d de \(\textsf{N}(5,1)\). Ajuste el modelo suponiendo los siguientes escenarios previos: i. estados de conocimiento previo bastante informativo acerca de los valores reales de los parámetros, ii. estado de conocimiento previo informativo acerca de \(\theta\) y difuso acerca de \(\sigma^2\), iii. estado de conocimiento previo informativo acerca de \(\sigma^2\) y difuso acerca de \(\theta\), y iv. estado de conocimiento previo difuso acerca de ambos parámetros. Caracterice la distribución posterior en cada caso.
    6. Suponga que está interesado en hacer inferencia sobre \(\eta=\sigma/|\theta|\). Desarrolle un algoritmo de Monte Carlo para calcular la media posterior y un intervalo de credibilidad al 95% para \(\eta\). Use el algoritmo para calcular estas cantidades en todos los escenarios descritos anteriormente.
  10. Considere el modelo Normal \(x_i\mid\theta,\sigma^2 \stackrel{\text{iid}}{\sim} \textsf{N}(\theta,\sigma^2)\), para \(i=1,\ldots,n\), donde \(\theta\) es desconocido y \(\sigma^2\) es conocido. Además, considere una distribución previa para \(\theta\) definida por medio de una mezcla finita de previas conjugadas de la forma \[ p(\theta) = \sum_{\ell=1}^K w_\ell\,\phi(\theta\mid\mu_\ell,\tau^2)\,, \] donde \(K\) es un entero positivo fijo mayor o igual que 1, \(w_1,\ldots,w_K\) es un sistema de pesos tales que y \(\sum_{\ell=1}^K w_\ell = 1\) y \(0\leq w_\ell\leq 1\) para \(\ell=1,\ldots,K\), y \(\phi(\theta\mid\mu,\tau^2)\) denota la densidad de la distribución Normal con media \(\mu\) y varianza \(\tau^2\). Una distribución previa de esta forma permite especificar estados de información previos multimodales acerca de \(\theta\).

    1. Encuentre la distribución posterior de \(\theta\).
    2. Encuentre la media posterior de \(\theta\).
    3. Encuentre la distribución predictiva previa.
    4. Encuentre la distribución predictiva posterior.
  11. Considere el modelo Normal Trucado \(x_i\mid\theta,\sigma^2 \stackrel{\text{iid}}{\sim} \textsf{N}_{(0,\infty)}(\theta,\sigma^2)\), para \(i=1,\ldots,n\), donde \(\sigma^2=1\). Además, considere la distribución previa para \(\theta\) dada por \(\theta\sim\textsf{N}(\mu,\tau^2)\).

  1. Encuentre la distribución posterior de \(\theta\).
  2. ¿Este modelo se puede catalogar como un modelo conjugado?
  1. Considere el modelo Normal dado por \(y_i\mid\theta,\sigma^2 \stackrel{\text{iid}}{\sim} \textsf{N}(\theta,\sigma^2)\), con distribución previa \[ \begin{align*} \theta &\sim \textsf{N}(\mu_0, \tau^2_0)\\ \sigma^2 &\sim \textsf{GI}\left(\tfrac{\nu_0}{2},\tfrac{\nu_0\,\sigma^2_0}{2}\right) \end{align*} \] donde \(\mu_0\), \(\tau^2_0\), \(\nu_0\), \(\sigma^2_0\) son los hiperparámetros del modelo. Demostrar que:

    1. La media marginal de \(y_i\) es \[ \textsf{E}(y_i) = \mu_0\,. \]
    2. La varianza marginal de \(y_i\) es \[ \textsf{Var}[y_i] = \frac{\nu_0 \sigma_0^2}{\nu_0 - 2} + \tau_0^2, \quad \text{para } \nu_0 > 2\,. \]
  2. Considere el modelo Normal dado por \(y_i\mid\theta,\sigma^2 \stackrel{\text{iid}}{\sim} \textsf{N}(\theta,\sigma^2)\), con distribución previa \[ p(\theta,\log\sigma^2) \propto 1\,. \] Esta distribución se conoce como distribución previa impropia, lo que significa que no constituye una distribución en el sentido estricto, ya que no se integra a uno. Sin embargo, puede emplearse como una distribución previa no informativa dentro del enfoque Bayesiano, siempre y cuando la distribución posterior resultante sea bien definida.

    1. Muestre que \(p(\theta,\log\sigma^2) \propto 1/\sigma^2\).

    2. Encuentre la distribución condicional completa de \(\theta\).

    3. Encuentre la distribución condicional completa de \(\sigma^2\).

    4. Encuentre la distribución marginal posterior de \(\theta\).

    5. W. L. Grogan y W. W. Wirth identificaron en las selvas de Brasil dos nuevas variedades de mosquitos picadores (midges). Una de estas variedades fue denominada “mosquito Apf” y la otra “mosquito Af”. Los investigadores descubrieron que el mosquito Apf es portador de una enfermedad debilitante que puede causar inflamación cerebral. Aunque la enfermedad rara vez resulta fatal, la hinchazón puede ocasionar discapacidades permanentes. En contraste, el mosquito Af es inofensivo y actúa como un valioso polinizador. Para diferenciar estas dos variedades, los biólogos tomaron diversas medidas taxonómicas de los mosquitos capturados.

      Según los datos proporcionados en el estudio de Grogan y Wirth (1981), se tiene información sobre la longitud del ala (en milímetros) de \(n=9\) individuos de la especie Af. A partir de estas mediciones, se busca hacer inferencia sobre la media poblacional \(\theta\), considerando que otros estudios sugieren que la longitud promedio de las alas en especies similares es cercana a 1.9 mm, con una desviación estándar de 0.1 mm. Es importante tener en cuenta que las longitudes son estrictamente positivas, lo que implica que \(\theta > 0\). Los datos observados son: \(1.64, 1.70, 1.72, 1.74, 1.82, 1.82, 1.82, 1.90, 2.08\). Realizar inferencia sobre la media, la desviación estándar y el coeficiente de variación utilizando un modelo Normal conjugado, un modelo Normal semiconjugado y un modelo Normal con distribución previa impropia. Comparar los resultados obtenidos.

  3. Demostrar que la distribución \(\textsf{t}\) puede expresarse como una mezcla jerárquica de distribuciones normales ponderadas por una distribución Gamma-Inversa. Es decir, demostrar que la distribución muestral \[ y_i \mid \theta, \sigma^2 \stackrel{\text{iid}}{\sim} \textsf{t}_\kappa(\theta, \sigma^2), \quad \text{para } i = 1, \dots, n, \] es equivalente a la siguiente formulación jerárquica: \[ y_i \mid \theta, V_i \stackrel{\text{ind}}{\sim} \textsf{N}(\theta, V_i), \quad V_i \mid \sigma^2 \stackrel{\text{iid}}{\sim} \textsf{GI}\left(\frac{\kappa}{2}, \frac{\kappa \sigma^2}{2}\right). \]

    Una variable aleatoria \(X\) tiene distribución \(t\) con parámetros \(\kappa \in \mathbb{N}\), \(-\infty < \theta < \infty\), \(\sigma^2 > 0\), es decir, \(X \mid \kappa, \theta, \sigma^2 \sim t_\kappa(\theta, \sigma^2)\), si su función de densidad de probabilidad está dada por: \[ p(x \mid \kappa, \theta, \sigma^2) = \frac{\Gamma\left(\frac{\kappa + 1}{2}\right)}{\sqrt{\pi \kappa \sigma^2} \, \Gamma\left(\frac{\kappa}{2}\right)} \left[1 + \frac{(x - \theta)^2}{\kappa \sigma^2}\right]^{-\frac{\kappa + 1}{2}}, \quad -\infty < x < \infty. \]

  4. La base de datos personas.csv, disponible en la página web del curso, es una muestra del módulo de Personas de la encuesta Medición de Pobreza Monetaria y Desigualdad 2021, realizada por el DANE en Colombia (enlace oficial). Incluye a la población civil no institucional residente en todo el país, con datos recolectados mediante informantes directos (mayores de 18 años o menores que trabajen) o informantes idóneos del hogar. Considere el ingreso total (ingtot), que representa la suma de todas las fuentes de ingresos, tanto observadas como imputadas, por persona, específicamente para los habitantes de Bogotá.

    1. Para ajustar el modelo \(y_i \mid \theta, \sigma^2 \stackrel{\text{iid}}{\sim} \textsf{t}_\kappa(\theta, \sigma^2)\), para \(i = 1, \dots, n\), se utilizan las distribuciones previas \(\theta \sim \textsf{N}(\mu_0, \gamma_0^2)\), \(\sigma^2 \sim \textsf{G}\left(\frac{\alpha_0}{2}, \frac{\beta_0}{2}\right)\), y \(\kappa \sim \textsf{Unif}\{1, 2, \dots, \nu_0\}\), donde \(\mu_0\), \(\gamma_0^2\), \(\alpha_0\), \(\beta_0\) y \(\nu_0\) son los hiperparámetros del modelo. La distribución muestral \(y_i \mid \theta, \sigma^2 \stackrel{\text{iid}}{\sim} \textsf{t}_\kappa(\theta, \sigma^2)\) es equivalente a la formulación jerárquica \(y_i \mid \theta, \zeta_i^2 \stackrel{\text{ind}}{\sim} \textsf{N}(\theta, \zeta_i^2)\), \(\zeta_i^2 \mid \sigma^2 \stackrel{\text{iid}}{\sim} \textsf{GI}\left(\frac{\kappa}{2}, \frac{\kappa \sigma^2}{2}\right)\), donde las variables auxiliares \(\zeta_i^2\), aunque desconocidas, se introducen para facilitar la implementación del muestreador de Gibbs. Estas variables permiten que las distribuciones condicionales completas de los parámetros desconocidos, incluidas las auxiliares, tengan formas probabilísticas conocidas, simplificando significativamente el proceso de muestreo.

    2. Realizar inferencia sobre la media, la desviación estándar y el coeficiente de variación de los ingresos (en escala logarítmica). Recuerde que, si \(X \mid \kappa, \theta, \sigma^2 \sim \textsf{t}_\kappa(\theta, \sigma^2)\), entonces \(\mathbb{E}(X) = \theta\), para \(\kappa > 1\), y \(\text{Var}(X) = \frac{\kappa}{\kappa - 2} \sigma^2\), para \(\kappa > 2\).

    3. En el modelo jerárquico, las variables auxiliares \(\zeta_i^2\) desempeñan un papel clave en la detección de outliers, ya que representan la varianza específica de cada observación \(y_i\). Estas variables permiten que el modelo ajuste dinámicamente la dispersión en torno a la media \(\theta\), asignando mayor varianza a las observaciones que se alejan significativamente del patrón general. Este mecanismo facilita la identificación de valores atípicos sin afectar negativamente las estimaciones globales del modelo. Fetectar outliers en los ingresos (en escala logarítmica), se pueden aplicar los siguientes métodos:

      • Criterio basado en \(\zeta_i^2\): Identifique las observaciones asociadas con valores de \(\zeta_i^2\) considerablemente altos en comparación con el resto. Como referencia, se pueden considerar outliers aquellas observaciones cuyo valor medio posterior de \(\zeta_i^2\) supere un umbral, como el percentil 95 de la distribución estimada de \(\zeta_i^2\). Estas observaciones son indicativas de outliers, ya que el modelo les asigna una varianza elevada para reflejar su desviación respecto a la media \(\theta\).

      • Criterio basado en residuos estandarizados: Calcule los residuos estandarizados utilizando la fórmula: \[ r_i = \frac{y_i - \theta}{\sqrt{\zeta_i^2}}, \] donde valores absolutos grandes de \(r_i\), típicamente \(|r_i| > 3\), sugieren la presencia de outliers. Este enfoque combina la desviación de \(y_i\) respecto a \(\theta\) y la varianza específica \(\zeta_i^2\), proporcionando una medida confiable para identificar valores extremos.

      • Ambos criterios pueden ser complementados mediante visualizaciones, como gráficos de los valores estimados de \(\zeta_i^2\) o de los residuos estandarizados \(r_i\). Estas herramientas permiten una exploración más intuitiva y detallada de los posibles outliers en el conjunto de datos.

  5. Los archivos school1.dat hasta school8.dat (disponibles en este enlace) contienen información sobre las horas semanales dedicadas a tareas por estudiantes muestreados en ocho escuelas distintas. El objetivo es obtener las distribuciones posteriores de las medias reales de las ocho escuelas utilizando un modelo jerárquico Normal definido como: \[ y_{i,j} \mid \theta_j, \sigma_j^2 \stackrel{\text{iid}}{\sim} \textsf{N}\left(\theta_j, \sigma_j^2\right), \] donde los parámetros tienen las siguientes distribuciones previas: \[ \theta_j \mid \mu, \tau^2 \stackrel{\text{iid}}{\sim} \textsf{N}\left(\mu, \tau^2\right), \quad \sigma_j^2 \mid \nu, \sigma^2 \stackrel{\text{iid}}{\sim} \textsf{GI}\left(\frac{\nu}{2}, \frac{\nu \sigma^2}{2}\right), \] y los hiperparámetros están distribuidos según: \[ \mu \sim \textsf{N}(\mu_0, \gamma_0^2), \quad \tau^2 \sim \textsf{GI}\left(\frac{\eta_0}{2}, \frac{\eta_0 \tau_0^2}{2}\right), \quad p(\nu) \propto e^{-\lambda_0 \nu}, \quad \sigma^2 \sim \textsf{Gamma}(\alpha_0, \beta_0). \] El análisis utiliza un enfoque de Bayes empírico, donde los hiperparámetros de las distribuciones previas se estiman directamente a partir de los datos.

    1. Ejecute un algoritmo de muestreo de Gibbs para aproximar la distribución posterior. Evalúe la convergencia de la cadena de Markov y asegúrese de que los tamaños efectivos de muestra para las variables \(\{\mu, \tau^2, \nu, \sigma^2\}\) sean superiores a 1,000.

    2. Calcule las medias posteriores y los intervalos de credibilidad al 95% para \(\{\mu, \tau^2, \nu, \sigma^2\}\). Compare las densidades posteriores con las previas y analice la nueva información obtenida a partir de los datos.

    3. Trace la densidad posterior de \(R = \frac{\tau^2}{\sigma_j^2 + \tau^2}\) para cada escuela y compárela con la densidad previa de \(R\). Describa la evidencia de variación entre las escuelas.

    4. Obtenga la probabilidad posterior de que \(\theta_7 < \theta_6\) y la probabilidad de que \(\theta_7\) sea la más pequeña de todas las \(\theta_j\).

    5. Trace los promedios muestrales \(\bar{y}_1, \dots, \bar{y}_8\) frente a las expectativas posteriores de \(\theta_1, \dots, \theta_8\). Describa la relación entre ellos y compare el promedio muestral de todas las observaciones con la media posterior de \(\mu\).

  6. ¿Por qué el muestreador de Gibbs genera cadenas ergódicas?

  7. ¿Cuáles son los pasos para demostrar el teorema ergódico (esbozo de la prueba)?

  8. ¿Cuál es el criterio de Gelman-Rubin (R hat) para evaluar la convergencia de cadenas de Markov? Con base en un conjunto de datos simulados a partir de un modelo Normal, utilice un muestreador de Gibbs para realizar el proceso de estimación. Aplique el criterio de Gelman-Rubin e interprete los resultados obtenidos.