El modelo Normal multivariado para variables multivariadas \(\boldsymbol{y}_1, \ldots, \boldsymbol{y}_n\), donde \(\boldsymbol{y}_i = (y_{i,1}, \ldots, y_{i,p}) \in \mathbb{R}^p\), con \(i = 1, \ldots, n\), se define como: \[ \begin{aligned} \boldsymbol{y}_i \mid \boldsymbol{\theta}, \mathbf{\Sigma} &\stackrel{\text{iid}}{\sim} \textsf{N}(\boldsymbol{\theta}, \mathbf{\Sigma}) \\ (\boldsymbol{\theta}, \mathbf{\Sigma}) &\sim p(\boldsymbol{\theta}, \mathbf{\Sigma}) \end{aligned} \] donde \(\boldsymbol{\theta}\) es el vector de medias y \(\mathbf{\Sigma}\) es la matriz de covarianzas.
El modelo involucra \(k = p + \frac{p(p+1)}{2}\) parámetros desconocidos por estimar.
El vector aleatorio \(\boldsymbol{y} = (y_1, \ldots, y_p)\) sigue una distribución Normal multivariada si su función de densidad de probabilidad está dada por: \[ p(\boldsymbol{y} \mid \boldsymbol{\theta}, \mathbf{\Sigma}) = (2\pi)^{-p/2} |\mathbf{\Sigma}|^{-1/2} \exp\left\{ -\frac{1}{2} (\boldsymbol{y} - \boldsymbol{\theta})^{\textsf{T}} \mathbf{\Sigma}^{-1} (\boldsymbol{y} - \boldsymbol{\theta}) \right\}, \] donde: \[ \boldsymbol{\theta} = (\theta_1, \ldots, \theta_p), \qquad \mathbf{\Sigma} = \begin{bmatrix} \sigma_1^2 & \sigma_{1,2} & \cdots & \sigma_{1,p} \\ \sigma_{2,1} & \sigma_2^2 & \cdots & \sigma_{2,p} \\ \vdots & \vdots & \ddots & \vdots \\ \sigma_{p,1} & \sigma_{p,2} & \cdots & \sigma_p^2 \\ \end{bmatrix}. \]
La matriz \(\mathbf{\Sigma}\) es simétrica, \(\mathbf{\Sigma}^{\textsf{T}} = \mathbf{\Sigma}\), y definida positiva, \(\boldsymbol{x}^{\textsf{T}} \mathbf{\Sigma} \boldsymbol{x} > 0\), para todo \(\boldsymbol{x} \in \mathbb{R}^p\).
(Ejercicio.) El núcleo de la distribución Normal multivariada está dado por: \[ p(\boldsymbol{y} \mid \boldsymbol{\theta}, \mathbf{\Sigma}) \propto \exp\left\{ -\frac{1}{2} \left[ \boldsymbol{y}^{\textsf{T}} \mathbf{\Sigma}^{-1} \boldsymbol{y} - 2 \boldsymbol{y}^{\textsf{T}} \mathbf{\Sigma}^{-1} \boldsymbol{\theta} \right] \right\}. \]
(Ejercicio.) Si \(\boldsymbol{y}_i \mid \boldsymbol{\theta}, \mathbf{\Sigma} \stackrel{\text{iid}}{\sim} \textsf{N}(\boldsymbol{\theta}, \mathbf{\Sigma})\), con \(i = 1, \ldots, n\), entonces la distribución muestral conjunta de las observaciones está dada por \[ p\left(\mathbf{Y} \mid \boldsymbol{\theta}, \mathbf{\Sigma} \right) = \left(2 \pi\right)^{-np / 2} |\mathbf{\Sigma}|^{-n / 2} \exp\left\{ -\frac{1}{2} \sum_{i=1}^n (\boldsymbol{y}_i - \boldsymbol{\theta})^{\textsf{T}} \mathbf{\Sigma}^{-1} (\boldsymbol{y}_i - \boldsymbol{\theta}) \right\}, \] donde \(\mathbf{Y} = [\boldsymbol{y}_1^{\textsf{T}}, \ldots, \boldsymbol{y}_n^{\textsf{T}}]^{\textsf{T}}\).
(Ejercicio.) La expresión para la suma cuadrática en el exponente es equivalente a \[ \sum_{i=1}^n (\boldsymbol{y}_i - \boldsymbol{\theta})^{\textsf{T}} \mathbf{\Sigma}^{-1} (\boldsymbol{y}_i - \boldsymbol{\theta}) = \textsf{tr}\left( \mathbf{\Sigma}^{-1} \sum_{i=1}^n \boldsymbol{y}_i \boldsymbol{y}_i^{\textsf{T}} \right) - 2 \left(\sum_{i=1}^n \boldsymbol{y}_i\right)^{\textsf{T}} \mathbf{\Sigma}^{-1} \boldsymbol{\theta} + n \boldsymbol{\theta}^{\textsf{T}} \mathbf{\Sigma}^{-1} \boldsymbol{\theta}\,, \] lo cual sugiere que \[ \left( \sum_{i=1}^n \boldsymbol{y}_i, \sum_{i=1}^n \boldsymbol{y}_i \boldsymbol{y}_i^{\textsf{T}} \right) \] es un estadístico suficiente para \((\boldsymbol{\theta}, \mathbf{\Sigma})\).
(Ejercicio.) Además, la media muestral \(\bar{\boldsymbol{y}}\) y la matriz de covarianza muestral \(\mathbf{S}\) también forman un estadístico suficiente para \((\boldsymbol{\theta}, \mathbf{\Sigma})\), dado que: \[ \sum_{i=1}^n (\boldsymbol{y}_i - \boldsymbol{\theta})^{\textsf{T}} \mathbf{\Sigma}^{-1} (\boldsymbol{y}_i - \boldsymbol{\theta}) = \textsf{tr}\left( \mathbf{\Sigma}^{-1} \left[ (n-1) \mathbf{S} + n (\bar{\boldsymbol{y}} - \boldsymbol{\theta})(\bar{\boldsymbol{y}} - \boldsymbol{\theta})^{\textsf{T}} \right] \right), \] donde: \[ \bar{\boldsymbol{y}} = \frac{1}{n} \sum_{i=1}^n \boldsymbol{y}_i \quad \text{y} \quad \mathbf{S} = \frac{1}{n-1} \sum_{i=1}^n (\boldsymbol{y}_i - \bar{\boldsymbol{y}})(\boldsymbol{y}_i - \bar{\boldsymbol{y}})^{\textsf{T}}. \]
Para modelar una colección de observaciones normales multivariadas bajo un enfoque Bayesiano semiconjugado, se especifica el estado de información previo sobre \(\boldsymbol{\theta}\) de manera independiente de \(\mathbf{\Sigma}\), de modo que \(p(\boldsymbol{\theta},\mathbf{\Sigma})=p(\boldsymbol{\theta})\,p(\mathbf{\Sigma})\), donde \[ \boldsymbol{\theta} \sim \textsf{N}(\boldsymbol{\mu}_0, \mathbf{\Lambda}_0)\qquad\text{y}\qquad\mathbf{\Sigma} \sim \textsf{WI}(\nu_0, \mathbf{S}_0^{-1})\,, \] siendo \(\boldsymbol{\mu}_0\), \(\mathbf{\Lambda}_0\), \(\nu_0\) y \(\mathbf{S}_0\) los hiperparámetros del modelo.
La matriz aleatoria \(\mathbf{W} > 0\) de dimensión \(p \times p\) sigue una distribución Wishart con parámetros \(\nu > p - 1\) (grados de libertad) y \(\mathbf{S} > 0\) (matriz de escala de \(p \times p\)), denotada como \(\mathbf{W} \sim \textsf{W}(\nu, \mathbf{S})\), si su función de densidad de probabilidad está dada por: \[ p(\mathbf{W} \mid \nu, \mathbf{S}) \propto |\mathbf{W}|^{(\nu - p - 1) / 2} \exp\left\{ -\frac{1}{2} \textsf{tr}(\mathbf{S}^{-1} \mathbf{W}) \right\}. \]
(Ejercicio.) Si \(\mathbf{W} \sim \textsf{W}(\nu, \mathbf{S})\), entonces la matriz de esperanza está dada por: \[ \textsf{E}(\mathbf{W}) = \nu\,\mathbf{S}. \]
La matriz aleatoria \(\mathbf{W} > 0\) de dimensión \(p \times p\) sigue una distribución Wishart Inversa con parámetros \(\nu > p+1\) (grados de libertad) y \(\mathbf{S} > 0\) (matriz de escala de \(p \times p\)), denotada como \(\mathbf{W} \sim \textsf{WI}(\nu, \mathbf{S})\), si su función de densidad de probabilidad está dada por: \[ p(\mathbf{W} \mid \nu, \mathbf{S}^{-1}) \propto |\mathbf{W}|^{-(\nu + p + 1)/2} \exp\left\{ -\frac{1}{2} \textsf{tr}(\mathbf{S} \mathbf{W}^{-1}) \right\}. \]
(Ejercicio.) Si \(\mathbf{W} \sim \textsf{WI}(\nu, \mathbf{S}^{-1})\), entonces su valor esperado es: \[ \textsf{E}(\mathbf{W}) = \frac{1}{\nu - p - 1} \mathbf{S}, \qquad \text{para } \nu > p + 1. \]
(Ejercicio.) Si \(\mathbf{W} \sim \textsf{W}(\nu, \mathbf{S})\), entonces \(\mathbf{W}^{-1} \sim \textsf{WI}(\nu, \mathbf{S}^{-1})\).
El modelo se puede entrenar por medio de un muestreador de Gibbs (Gibbs sampler) que permita generar muestras correlacionadas de la distribución posterior por medio de las distribuciones condicionales completas de los parámetros.
Dado un estado actual de los parámetros del modelo \(\Theta^{(b)} = (\boldsymbol{\theta}^{(b)}, \mathbf{\Sigma}^{(b)})\), se genera un nuevo estado \(\Theta^{(b+1)} =(\boldsymbol{\theta}^{(b+1)}, \mathbf{\Sigma}^{(b+1)})\) mediante el siguiente procedimiento iterativo:
Este procedimiento genera una secuencia dependiente de muestras \(\Theta^{(1)}, \ldots, \Theta^{(B)}\), que provienen de la distribución posterior \(p(\boldsymbol{\theta}, \mathbf{\Sigma} \mid \mathbf{Y})\).
A continuación se detallan las distribuciones condicionales completas para un modelo normal multivariado:
(Ejercicio.) La distribución condicional
completa de \(\boldsymbol{\theta}\) es \(\boldsymbol{\theta} \mid \mathbf{\Sigma},
\mathbf{Y} \sim \textsf{N}(\boldsymbol{\mu}_n,
\mathbf{\Lambda}_n)\), donde:
\[
\boldsymbol{\mu}_n = \left( \mathbf{\Lambda}_0^{-1} + n
\mathbf{\Sigma}^{-1} \right)^{-1} \left( \mathbf{\Lambda}_0^{-1}
\boldsymbol{\mu}_0 + n \mathbf{\Sigma}^{-1} \bar{\boldsymbol{y}} \right)
\qquad\text{y}\qquad \mathbf{\Lambda}_n = \left( \mathbf{\Lambda}_0^{-1}
+ n \mathbf{\Sigma}^{-1} \right)^{-1}.
\]
(Ejercicio.) La distribución condicional
completa de \(\mathbf{\Sigma}\) es \(\mathbf{\Sigma} \mid \boldsymbol{\theta},
\mathbf{Y} \sim \textsf{WI}(\nu_n, \mathbf{S}_n^{-1})\),
donde:
\[
\nu_n = \nu_0 + n,
\qquad
\mathbf{S}_n = \mathbf{S}_0 + \sum_{i=1}^n (\boldsymbol{y}_i -
\boldsymbol{\theta})(\boldsymbol{y}_i -
\boldsymbol{\theta})^{\textsf{T}}.
\]
(Ejercicio.) El término \(\mathbf{S}_n\) puede reescribirse en
términos de la matriz de covarianza muestral \(\mathbf{S}\) y la media muestral \(\bar{\boldsymbol{y}}\) como:
\[
\mathbf{S}_n = \mathbf{S}_0 + (n-1) \mathbf{S} + n (\bar{\boldsymbol{y}}
- \boldsymbol{\theta})(\bar{\boldsymbol{y}} -
\boldsymbol{\theta})^{\textsf{T}}.
\]
Estas distribuciones condicionales completas son la base para actualizar secuencialmente los parámetros \(\boldsymbol{\theta}\) y \(\mathbf{\Sigma}\) en cada iteración del algoritmo.
Se realiza un estudio con una muestra de 22 niños a quienes se aplican pruebas de comprensión lectora antes y después de recibir un método de instrucción específico.
Para cada estudiante \(i\), se registran dos variables: \(y_{i,1}\) y \(y_{i,2}\), que representan los puntajes obtenidos antes y después de la instrucción, respectivamente.
El objetivo principal del análisis es evaluar la efectividad del método de enseñanza y examinar la consistencia de la prueba de comprensión lectora, es decir, determinar si los puntajes reflejan cambios significativos y coherentes asociados al método empleado.
Referencia: Hoff, P. D. (2009). A first course in Bayesian statistical methods (Vol. 580). New York: Springer.
# Datos: puntajes de comprensión de lectura antes y después de la instrucción
Y <- matrix(
c(
59, 43, 34, 32, 42, 38, 55, 67, 64, 45, 49, 72, 34, 70, 34, 50, 41, 52, 60, 34, 28, 35,
77, 39, 46, 26, 38, 43, 68, 86, 77, 60, 50, 59, 38, 48, 55, 58, 54, 60, 75, 47, 48, 33
),
nrow = 22, ncol = 2,
dimnames = list(NULL, c("pre_test", "post_test"))
)
# Dimensiones
(n <- nrow(Y))
## [1] 22
## [1] 2
## pre_test post_test
## Min. :28.00 Min. :26.00
## 1st Qu.:34.25 1st Qu.:43.75
## Median :44.00 Median :52.00
## Mean :47.18 Mean :53.86
## 3rd Qu.:58.00 3rd Qu.:60.00
## Max. :72.00 Max. :86.00
## pre_test post_test
## 47.2 53.9
## pre_test post_test
## pre_test 182.2 148.4
## post_test 148.4 243.6
El examen fue diseñado para otorgar puntajes con un promedio de 50 sobre 100, lo que define el vector de medias previas como \(\boldsymbol{\mu}_0 = (50, 50)\).
Se utiliza una varianza previa que asegura que \(\textsf{Pr}(0 < \theta_j < 100) \approx 0.99\). Esto se logra fijando \(\sigma^2_{0,1} = \sigma^2_{0,2} = \left(\frac{50}{3}\right)^2 \approx 278\).
Adicionalmente, se establece una correlación previa de \(\rho_0 = 0.5\), lo que implica que la covarianza previa es \(\sigma_{0,12} = (0.5) \left(\frac{50}{3}\right)^2 \approx 139\).
\(\nu_0 = 4\) se elige porque es el mínimo valor entero requerido para garantizar que \(\textsf{E}(\mathbf{\Sigma})\) existe bajo una distribución Wishart Inversa.
\(\mathbf{S}_0 = \mathbf{\Lambda}_0\) asegura consistencia con las suposiciones previas sobre \(\mathbf{\Sigma}\).
# Inicialización
Sigma <- solve(rWishart::rWishart(n = 1, df = nu0, Sigma = S0)[,,1])
# Número de muestras
B <- 10000
# Almacenamiento
THETA <- NULL
SIGMA <- NULL
YS <- NULL
LL <- numeric(B)
# Cálculo de cantidades constantes previas l procedimiento iterativo
iL0 <- solve(L0)
Lm0 <- iL0 %*% mu0
nun <- nu0 + n
SSn <- S0 + (n - 1) * SS
# Muestreador de Gibbs
set.seed(1234)
for (b in 1:B) {
# Actualización de theta
iSigma <- solve(Sigma)
Ln <- solve(iL0 + n * iSigma)
theta <- c(mvtnorm::rmvnorm(n = 1, mean = Ln %*% (Lm0 + n * (iSigma %*% yb)), sigma = Ln))
# Actualización de Sigma
Sigma <- MCMCpack::riwish(v = nun, S = SSn + n * ((yb - theta) %*% t(yb - theta)))
# Muestra de la predictiva posterior
YS <- rbind(YS, mvtnorm::rmvnorm(n = 1, mean = theta, sigma = Sigma))
# Cálculo de log-verosimilitud
LL[b] <- sum(apply(X = Y, MARGIN = 1, FUN = function(y) mvtnorm::dmvnorm(y, mean = theta, sigma = Sigma, log = T)))
# Almacenamiento de resultados
THETA <- rbind(THETA, theta)
SIGMA <- rbind(SIGMA, c(Sigma))
# Mostrar progreso cada 10%
if (b %% floor(B / 10) == 0)
cat(100 * round(b / B, 1), "% completado...\n", sep = "")
}
## 10% completado...
## 20% completado...
## 30% completado...
## 40% completado...
## 50% completado...
## 60% completado...
## 70% completado...
## 80% completado...
## 90% completado...
## 100% completado...
Se evalúa la convergencia del modelo por medio de los tamaños efectivos de muestra, los errores estándar y los coeficientes de variación:
## theta1 theta2 sigma1^2 sigma21 sigma12 sigma2^2
## 10000 10000 9059 9013 9013 8951
# Error estándar de Monte Carlo
EMC <- apply(X = cbind(THETA, SIGMA), MARGIN = 2, FUN = sd)/sqrt(neff)
round(EMC, 4)
## theta1 theta2 sigma1^2 sigma21 sigma12 sigma2^2
## 0.0284 0.0322 0.6120 0.6007 0.6007 0.8182
# Coeficiente de variación de Monte Carlo (%)
CVMC <- 100*EMC/abs(colMeans(cbind(THETA, SIGMA)))
round(CVMC, 4)
## theta1 theta2 sigma1^2 sigma21 sigma12 sigma2^2
## 0.0603 0.0601 0.3295 0.4076 0.4076 0.3340
Distribución posterior de \(\boldsymbol{\theta}\) y distribución predictiva posterior:
Inferencia sobre \(\theta_2 - \theta_1\):
¿Cuál es la probabilidad posterior de que la calificación promedio del segundo examen sea mayor que la del primero?
## [1] 0.9932
# Cuantiles de la diferencia posterior
round(quantile(THETA[,2] - THETA[,1], probs = c(0.025, 0.5, 0.975)), 4)
## 2.5% 50% 97.5%
## 1.7158 6.5206 11.3320
Inferencia sobre \(\tilde{y}_2 - \tilde{y}_1\):
¿Cuál es la probabilidad posterior de que un niño seleccionado al azar obtenga una puntuación más alta en el segundo examen que en el primero?
## [1] 0.7121
# Cuantiles de la diferencia predictiva
round(quantile(YS[,2] - YS[,1], probs = c(0.025, 0.5, 0.975)), 4)
## 2.5% 50% 97.5%
## -16.5155 6.4438 29.7073
Inferencia sobre \(\rho=\frac{\sigma_{1,2}}{\sigma_{1}\,\sigma_{2}}\):
¿Las pruebas son consistentes? ¿Cuál es la probabilidad posterior de que la correlación entre las calificaciones sea superior a 0.6?
## [1] 0.9384
## 2.5% 50% 97.5%
## 0.4238 0.6969 0.8542
Se evalúa la bondad de ajuste del modelo tomando como estadísticos de prueba la diferencia de medias y el coeficiente de correlación:
# Matriz para almacenar los estadísticos
TS <- matrix(NA, B, 2)
set.seed(123)
for (b in 1:B) {
# Generación de datos replicados
Yrep <- mvtnorm::rmvnorm(
n = n,
mean = THETA[b, ],
sigma = matrix(SIGMA[b, ], nrow = p, ncol = p)
)
# Cálculo de los estadísticos de interés
TS[b, ] <- c(mean(Yrep[, 2]) - mean(Yrep[, 1]), cor(Yrep[, 1], Yrep[, 2]))
}
# valores ppp
(ppp <- c(
mean(TS[, 1] < (mean(Y[, 2] - Y[, 1]))),
mean(TS[, 2] < cor(Y[, 1], Y[, 2]))
))
## [1] 0.5171 0.4976
La distribución previa de Jeffreys para el modelo Normal
multivariado es:
\[
p_J(\boldsymbol{\theta}, \mathbf{\Sigma}) \propto
|\mathbf{\Sigma}|^{-(p+2)/2}.
\]
Sea \(\mathbf{\Omega} = \mathbf{\Sigma}^{-1}\) la matriz de precisión del modelo Normal multivariado.
Demuestre que una distribución previa de información unitaria para \((\boldsymbol{\theta}, \mathbf{\Omega})\) está dada por \(\boldsymbol{\theta} \mid \mathbf{\Omega} \sim \textsf{N}(\bar{\boldsymbol{y}}, \mathbf{\Omega}^{-1})\) y \(\mathbf{\Omega} \sim \textsf{W}(p+1, \mathbf{S}^{-1})\), donde \(\mathbf{S} = \frac{1}{n} \sum_{i=1}^{n} (\boldsymbol{y}_i - \bar{\boldsymbol{y}})(\boldsymbol{y}_i - \bar{\boldsymbol{y}})^{\textsf{T}}\) es la matriz de covarianza muestral.
Para demostrarlo, note que la distribución previa de información
unitaria satisface \(p_U(\boldsymbol{\theta},
\mathbf{\Omega}) = p_U(\boldsymbol{\theta} \mid \mathbf{\Omega}) \,
p_U(\mathbf{\Omega})\), donde
\[
\log p_U(\boldsymbol{\theta}, \mathbf{\Omega}) = \frac{1}{n}
\ell(\boldsymbol{\theta}, \mathbf{\Omega} \mid
\boldsymbol{y}_1,\ldots,\boldsymbol{y}_n) + \text{c},
\]
siendo \(\ell(\boldsymbol{\theta},
\mathbf{\Omega} \mid \boldsymbol{y}_1,\ldots,\boldsymbol{y}_n)\)
la log-verosimilitud reparametrizada en términos de \(\mathbf{\Omega}\), y \(\text{c}\) una constante. Además, recuerde
que \((\boldsymbol{y}_i - \boldsymbol{\theta})
= (\boldsymbol{y}_i - \bar{\boldsymbol{y}}) + (\bar{\boldsymbol{y}} -
\boldsymbol{\theta})\), y que una expresión de la forma \(\sum_{i=1}^n \boldsymbol{a}_i^{\textsf{T}}
\mathbf{B} \boldsymbol{a}_i\) se puede escribir como \(\textsf{tr}(\mathbf{B} \mathbf{A})\), donde
\(\mathbf{A} = \sum_{i=1}^n \boldsymbol{a}_i
\boldsymbol{a}_i^{\textsf{T}}\).
Sea \(p_U(\mathbf{\Sigma})\) la
densidad inversa-Wishart inducida por \(p_U(\mathbf{\Omega})\). Obtenga una
densidad proporcional a
\[
p_U(\boldsymbol{\theta}, \mathbf{\Sigma} \mid \boldsymbol{y}_1,
\dots, \boldsymbol{y}_n) \propto p(\boldsymbol{y}_1, \dots,
\boldsymbol{y}_n \mid \boldsymbol{\theta}, \mathbf{\Sigma}) \,
p_U(\boldsymbol{\theta} \mid \mathbf{\Sigma}) \, p_U(\mathbf{\Sigma}) .
\]
Los archivos bluecrab.dat
y
orangecrab.dat
contienen mediciones en milímetros de la
profundidad del cuerpo (\(y_1\)) y el
ancho posterior (\(y_2\)) de 50
cangrejos machos de cada una de las dos especies: azul y naranja. Se
modelarán estos datos utilizando una distribución Normal bivariada.
Para cada una de las dos especies, obtenga las distribuciones posteriores del vector de medias poblacional \(\boldsymbol{\theta}\) y la matriz de covarianza \(\mathbf{\Sigma}\) utilizando distribuciones previas semiconjugadas. Fije \(\boldsymbol{\mu}_0\) como la media muestral de los datos, \(\mathbf{\Lambda}_0\) y \(\mathbf{S}_0\) como la matriz de covarianza muestral, y establezca \(\nu_0 = 4\). Genere 10,000 muestras posteriores de \(\boldsymbol{\theta}\) y \(\mathbf{\Sigma}\). Realice un análisis exhaustivo de convergencia.
Cabe notar que esta elección de distribución previa centra los parámetros alrededor de estimaciones empíricas obtenidas a partir de los datos observados, similar a la distribución previa de información unitaria. Sin embargo, dado que se deriva de los datos observados, no se puede considerar una distribución previa genuina, aunque sí como una distribución previa que refleja una información inicial débil pero no sesgada.
Represente gráficamente la posterior de \(\boldsymbol{\theta} = (\theta_{\text{azul}}, \theta_{\text{naranja}})\) para cada grupo y compárelos. Analice y describa cualquier diferencia en el tamaño entre las dos especies.
A partir de cada matriz de covarianza obtenida mediante el muestreador de Gibbs, calcule el coeficiente de correlación correspondiente. Con estos valores, represente las densidades posteriores de las correlaciones \(\rho_{\text{azul}}\) y \(\rho_{\text{naranja}}\) para ambos grupos. Evalúe las diferencias entre las dos especies comparando estas distribuciones posteriores. En particular, estime la probabilidad \(\textsf{Pr}(\rho_{\text{azul}} < \rho_{\text{naranja}} \mid \boldsymbol{y}_{\text{azul}}, \boldsymbol{y}_{\text{naranja}})\). Interprete los resultados y analice qué sugieren sobre las diferencias entre ambas poblaciones.
El archivo agehw.dat
contiene información sobre las
edades de 100 parejas casadas seleccionadas de una muestra
representativa de la población de EE.UU.
Antes de examinar los datos, utilice su estado de información para formular una distribución previa semiconjugada para \(\boldsymbol{\theta} = (\theta_H, \theta_W)^{\textsf{T}}\) y \(\mathbf{\Sigma}\), donde \(\theta_H\) y \(\theta_W\) representan las edades promedio de los esposos y esposas, respectivamente, y \(\mathbf{\Sigma}\) es la matriz de covarianza.
Genere un conjunto de datos simulados de tamaño \(n = 100\) a partir de la distribución predictiva previa, muestreando primero \((\boldsymbol{\theta}, \mathbf{\Sigma})\) de la distribución previa y luego simulando \(\boldsymbol{y}_1, \dots, \boldsymbol{y}_n \sim \textsf{N}(\boldsymbol{\theta}, \mathbf{\Sigma})\) de manera independiente. Repita este procedimiento varias veces, genere diagramas de dispersión bivariados para cada conjunto de datos simulado y verifique si representan razonablemente sus creencias previas sobre cómo debería lucir un conjunto de datos real. Si los datos simulados no reflejan adecuadamente sus creencias, regrese al apartado anterior y reformule una nueva distribución previa. Finalmente, reporte la distribución previa elegida y presente diagramas de dispersión de al menos tres conjuntos de datos generados a partir de la distribución predictiva previa.
Utilizando la distribución previa y los 100 valores del conjunto de datos, obtenga una aproximación MCMC a la distribución posterior \(p(\boldsymbol{\theta}, \mathbf{\Sigma} \mid \boldsymbol{y}_1, \dots, \boldsymbol{y}_{100})\). Represente gráficamente la distribución conjunta posterior de \(\theta_H\) y \(\theta_W\), así como la densidad marginal posterior del coeficiente de correlación entre \(y_H\) y \(y_W\), que representan las edades de los esposos y esposas, respectivamente. Además, calcule los intervalos de credibilidad posteriores del 95% para \(\theta_H\), \(\theta_W\) y el coeficiente de correlación.
Calcule los intervalos de credibilidad posteriores del 95% para \(\theta_H\), \(\theta_W\) y el coeficiente de correlación utilizando las siguientes distribuciones previas:
Compare los intervalos de credibilidad obtenidos en el inciso d. con aquellos calculados en el inciso c. Analice si la información previa utilizada resulta útil para la estimación de \(\boldsymbol{\theta}\) y \(\mathbf{\Sigma}\), o si alguna de las alternativas en d. es más adecuada. Además, considere el impacto de un tamaño muestral mucho menor, por ejemplo, \(n = 25\), y discuta cómo esto afectaría la influencia de la distribución previa en la estimación.
Hoff, P. D. (2009). A First Course in Bayesian Statistical Methods. Springer New York.
Gelman, A., Carlin, J. B., Stern, H. S., Dunson, D. B., Vehtari, A., & Rubin, D. B. (2013). Bayesian Data Analysis (3rd ed.). Chapman & Hall/CRC.